量子位 前天 17:48
LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta开源发布了V-JEPA 2,这是一个基于视频训练的世界模型,能够像人类一样理解物理世界。该模型通过自监督学习,利用百万小时的互联网视频和图像数据进行预训练,提升了动作预测和物理世界建模能力,可用于零样本规划和机器人控制。V-JEPA 2在运动理解和人类动作预测方面表现优异,并与大型语言模型对齐后在视频问答任务中展现出领先性能。Meta还发布了新的基准测试,用于评估模型从视频中理解和推理物理世界的能力,旨在推动AI在物理世界理解上的进步。

📹 V-JEPA 2是首个基于视频训练的世界模型,利用海量互联网视频数据进行预训练,无需依赖语言监督,实现了纯视觉自监督学习。

⚙️ 该模型的核心是联合嵌入预测架构(JEPA),包含编码器和预测器,能够捕捉视频中的语义信息并预测世界状态。

🚀 V-JEPA 2在运动理解和人类动作预测方面取得了优异成绩,例如在Something-Something v2上达到77.3的 top-1准确率,并在Epic-Kitchens-100上达到39.7的recall-at-5。

🗣️ 与大型语言模型对齐后,V-JEPA 2在8B参数规模下多个视频问答任务中展现出最佳性能,如PerceptionTest上达到84.0,在TempCompass上达到76.9。

💡 Meta同时发布了三个新的基准测试,用于评估模型从视频中理解和推理物理世界的能力,包括IntPhys 2、Minimal Video Pairs (MVPBench)和CausalVQA,旨在推动AI在物理世界理解上的发展。

关注前沿科技 2025-06-12 16:17 北京

首个基于视频训练的世界模型——V-JEPA 2

闻乐 发自 凹非寺量子位 | 公众号 QbitAI

物理学正在走向人工智能——

Meta开源发布V-JEPA 2世界模型:一个能像人类一样理解物理世界的AI模型。

图灵奖得主、Meta首席AI科学家Yann LeCun亲自出镜宣传,并称:

我们相信世界模型将为机器人技术带来一个新时代,使现实世界中的AI智能体能够在不需要大量机器人训练数据的情况下帮助完成家务和体力任务。

那什么是世界模型呢?

简单说,就是能够对真实物理世界做出反应的AI模型。

它应该具备以下几种能力:

V-JEPA 2(Meta Video Joint Embedding Predictive Architecture 2 )是首个基于视频训练的世界模型(视频是关于世界信息丰富且易于获取的来源)

它提升了动作预测和物理世界建模能力,能够用于在新环境中进行零样本规划机器人控制

V-JEPA 2一发布就引起了一片好评,甚至有网友表示:这是机器人领域的革命性突破!

62小时训练即可生成规划控制模型

V-JEPA 2采用自监督学习框架,利用超过100万小时的互联网视频和图像数据进行预训练,不依赖语言监督,证明纯视觉自监督学习可以达到顶尖表现。

上图清晰地展示了如何从大规模视频数据预训练到多样化下游任务的全过程:

输入数据:利用100万小时互联网视频和100万图片进行预训练。

训练过程:使用视觉掩码去噪目标进行视频预训练。

下游应用分为三类:

V-JEPA 2采用联合嵌入预测架构(JEPA),主要包含两个组件:编码器预测器

编码器接收原始视频并输出能够捕捉有关观察世界状态的语义信息的嵌入。

预测器接收视频嵌入以及关于要预测的额外上下文,并输出预测的嵌入。

研究团队用视频进行自监督学习来训练V-JEPA 2,这就能够在无需额外人工标注的情况下进行视频训练。

V-JEPA 2的训练涉及两个阶段:先是无动作预训练(下图左侧),然后是额外的动作条件训练(下图右侧)。

经过训练后,V-JEPA 2在运动理解方面取得了优异性能(在Something-Something v2上达到77.3的 top-1准确率),并在人类动作预测方面达到了当前最佳水平(在Epic-Kitchens-100上达到39.7的recall-at-5),超越了以往的任务特定模型。

此外,在将V-JEPA 2与大型语言模型对齐后,团队在8B参数规模下多个视频问答任务中展示了当前最佳性能(例如,在PerceptionTest上达到84.0,在TempCompass上达到76.9)。

对于短期任务,例如拾取或放置物体,团队以图像的形式指定目标。

使用V-JEPA 2编码器获取当前状态和目标状态的嵌入。

从其观察到的当前状态开始,机器人通过使用预测器来想象采取一系列候选动作的后果,并根据它们接近目标的速度对候选动作进行评分。

在每个时间步,机器人通过模型预测控制重新规划并执行朝向该目标的最高评分的下一个动作。

对于更长期的任务,例如拾取物体并将其放置在正确的位置,指定一系列机器人试图按顺序实现的视觉子目标,类似于人类观察到的视觉模仿学习。

通过这些视觉子目标,V-JEPA 2在新的和未见过的环境中拾取并放置新物体时,成功率达到65%–80%。

物理理解新基准

Meta还发布了三个新的基准测试,用于评估现有模型从视频中理解和推理物理世界的能力

虽然人类在所有三个基准测试中表现良好(准确率85%–95%),但人类表现与包括V-JEPA 2在内的顶级模型之间存在明显差距,这表明模型需要改进的重要方向。

IntPhys 2是专门设计用来衡量模型区分物理上可能和不可能场景的能力,并在早期的IntPhys基准测试基础上进行构建和扩展。

团队通过一个游戏引擎生成视频对,其中两个视频在某个点之前完全相同,然后其中一个视频发生物理破坏事件。

模型必须识别出哪个视频发生了物理破坏事件。

虽然人类在这一任务上在多种场景和条件下几乎达到完美准确率,但当前的视频模型处于或接近随机水平。

Minimal Video Pairs (MVPBench)通过多项选择题测量视频语言模型的物理理解能力。

旨在减轻视频语言模型中常见的捷径解决方案,例如依赖表面视觉或文本线索以及偏见。

MVPBench中的每个示例都有一个最小变化对:一个视觉上相似的视频,以及相同的问题但答案相反。

为了获得一个示例的分数,模型必须正确回答其最小变化对。

CausalVQA测量视频语言模型回答与物理因果关系相关问题的能力。

该基准旨在专注于物理世界视频中的因果关系理解,包括反事实(如果……会发生什么)、预期(接下来可能发生什么)和计划(为了实现目标下一步应该采取什么行动)相关的问题。

虽然大型多模态模型在回答视频中“发生了什么”的问题方面能力越来越强,但在回答“可能发生了什么”和“接下来可能发生什么”的问题时仍然存在困难。

这表明在给定行动和事件空间的情况下,预测物理世界可能如何演变方面,与人类表现存在巨大差距。

One More Thing

Meta还透露了公司在通往高级机器智能之路上的下一步计划。

目前,V-JEPA 2只能在单一时间尺度上学习和进行预测。

然而,许多任务需要跨多个时间尺度的规划。

所以一个重要的方向是发展专注于训练能够在多个时间和空间尺度上学习、推理和规划的分层次JEPA模型。

另一个重要的方向是多模态JEPA模型,这些模型能够使用多种感官(包括视觉、音频和触觉)进行预测。

项目地址:GitHub:https://github.com/facebookresearch/vjepa2Hugging Face:https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6

参考链接:[1]https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/[2]https://x.com/AIatMeta/status/1932808881627148450[3]https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

—  —

📪 量子位AI主题策划正在征集中!欢迎参与专题365行AI落地方案,一千零一个AI应或与我们分享你在寻找的AI产品,或发现的AI新动向

💬 也欢迎你加入量子位每日AI交流群,一起来畅聊AI吧~

一键关注 👇 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

V-JEPA 2 世界模型 Meta AI 视频
相关文章