虎嗅 前天 16:29
Meta发布世界模型,被群嘲的开源旧王要反击了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta 最新发布的 V-JEPA 2 模型,旨在让 AI 具备对现实世界的理解能力和物理推理能力。不同于专注于语言处理的 AI,V-JEPA 2 重点关注多模态数据的学习,构建内部世界模型,从而理解物理规律,实现对现实世界的抽象建模。通过预测未来事件和动作,V-JEPA 2 使 AI 能够在陌生环境中自主完成任务,例如抓取和搬运物体。Meta 还发布了新的基准测试,用于评估模型对物理世界的理解和推理能力。V-JEPA 2 的目标是让 AI 能够像人类一样理解世界,并能在真实物理世界中行动自如。

🧠 **V-JEPA 2 的核心目标:** 旨在使 AI 具备对现实世界的理解和推理能力,超越了仅依赖语言处理的 AI。它通过构建内部世界模型,利用多模态数据来理解物理规律,从而具备了在陌生环境中自主完成任务的能力。

⚙️ **JEPA 架构与预测能力:** V-JEPA 2 基于 Meta 提出的 JEPA 架构,通过预测抽象表示而非生成像素或文本,提升模型对物理世界的理解能力。它能够基于画面推测接下来会发生什么,例如预测物体的运动轨迹,这体现了其强大的预测能力。

🤖 **实际应用与零样本学习:** V-JEPA 2 在开源 DROID 数据集上训练后,成功在实验室机器人上部署,能够执行抓取、搬运等基础任务,展现了在新环境和新物体上进行零样本机器人规划的能力。对于长期任务,如抓取和搬运到指定位置,其成功率可达 65%-80%。

🔬 **新基准测试与评估:** Meta 发布了 IntPhys 2、Minimal Video Pairs 和 CausalVQA 三项新基准测试,用于评估模型对视频中物理世界的理解与推理能力。这些测试旨在挑战 AI 对物理常识和因果关系的理解,避免模型通过“投机取巧”的方式蒙混过关。

Llama 4的折戟沉沙没有让Meta知难而退,反而坚定了All In AI的决心。

最近,创始人扎克伯格亲自操刀组建“超级智能”团队,重金投资Scale AI、以及砸9位数挖角Google、OpenAI的顶级科学家,也因此抢占了这几天的国际头版头条。

就在今天凌晨,Meta也开源了最新的重量级模型——V-JEPA 2。

不同于市面上的写作或聊天类AI,V-JEPA 2的目标是让AI能够看懂世界、具备物理推理能力,并在完全陌生的环境中自主完成一系列实际操作任务。比如识别一个没见过的物体,走进厨房,准确地把它放到目标位置上,全程无需手把手训练。

图灵奖得主、Meta首席科学家Yann Lecun也亲自出镜,为V-JEPA 2背书,强调让机器理解物理规则的重要性,认为世界模型能够拥有像人类一样理解世界的常识,不靠海量试错,也能在真实物理世界中行动自如。


V-JEPA 2:现实世界的操作系统,正在加载中

过去两年,关于AI未来的发展路径,业界说法众多,有主张AGI、有指向ASI,也有Yann Lecun所提出的AMI。

所谓AMI强调AI不应仅依赖语言处理能力,需要具备对现实世界的抽象建模能力,通过观察多模态数据形成内部世界模型,从而理解物理规律。

也就是说,要实现AMI就不能只靠“嘴”,还得有观察世界、理解变化、做出决策的能力,而V-JEPA 2正是Meta研究团队在这个方向上押下的筹码。

它的基础,是Meta在2022年提出的JEPA架构,也就是联合嵌入预测架构,旨在通过预测抽象表示而非生成像素或文本,提升模型对物理世界的理解能力。早期的研究表明,JEPA在图像、3D点云等模态上表现不俗。


据介绍,V-JEPA 2拥有12亿参数,而它最核心的特点还是围绕“预测”,不只是被动识别视频画面中的物体和动作,更能基于画面推测接下来会发生什么。

举例而言,当一个球被抛到空中,它会因为重力的作用落下,而不会飘在半空、突然掉头,或者变成一个苹果。这种物理直觉,显然不是靠堆数据砸出来的,而是更人类早在学会说话之前就凭借观察建立起的“世界常识”。

一贯抨击LLM路线的Yann Lecun曾锐评当前的LLM不如猫。在他看来,LLM通过预测下一次token生成内容,擅长处理语言符号,但终究无法跨越到对物理世界的真实理解。

可以说,现实世界的物理直觉是人类日常行为的底层支撑逻辑,比如穿过一条人流密集的街道,我们知道该往哪里躲避行人;做饭时,我们知道锅什么时候会烧干。这种内在世界模型就像一个模拟器,帮助我们预测假设行为的结果,并做出最佳决策。

Meta试图用AI构建出一种“模拟器”,也就是真正行动前能先在脑中推演一遍结果再行动,V-JEPA 2是实现这一目标的关键一步,可简单划分为三个步骤:

    预测:能够预判世界如何演变,或在某个动作发生后世界如何变化;

基于看懂、想明白、再动手这一整套的闭环,V-JEPA 2的训练流程分为两阶段:

第一阶段是无动作预训练。

Meta研究团队使用超过100万小时的视频和100万张图像,用自监督形式训练编码器和预测器。

不需要人工打标签,模型就能学会图像间的时序关系,物理的交互逻辑和物理约束。在这个阶段,V-JEPA 2就已经展现出强大的感知和理解能力:

    在Something-Something v2动作识别任务中,V-JEPA 2通过轻量注意力机制的解读器达到了卓越表现;

    在Epic-Kitchens-100的1秒未来动作预测任务中刷新纪录;

    联合语言模型后,在视频问答基准如Perception Test和TempCompass上也表现领先。

与李飞飞团队更注重认知层的世界建模有所不同,V-JEPA 2更进一步强调实际落地的能力。

在第二阶段里,Meta研究团队开始加入长达62小时的机器人数据,也就是实际动作的执行指令,训练出可用于规划和控制的模型。

那效果如何呢?V-JEPA 2在开源DROID数据集上训练后,直接在实验室机器人上部署,成功执行如抓取、搬运等基础任务,展现了在新环境和新物体上进行零样本机器人规划的能力。

具体来看,对于短期任务,比如抓取、搬运等动作,V-JEPA 2通过编码当前状态和目标状态的图像,预测多个候选动作,然后选择最优路径执行。

对于长期任务,在新环境中完成抓取、搬运到指定位置这种多步操作时,成功率会达到65%–80%。系统会设置一组视觉子目标,模型按顺序引导机器人完成任务,整个过程有点像人类在模仿示范时一步步学习。

用更通俗的话说,世界模型就相当于现实世界中的“操作系统”,从屏幕走到现实世界,而V-JEPA 2也是一块关键的拼图。

看起来很聪明的AI,其实连“物理常识”都不懂?

此外,Meta还发布了三项新基准测试:IntPhys 2、Minimal Video Pairs、CausalVQA,用于评估模型对视频中物理世界的理解与推理能力。

IntPhys 2比较好理解,有点像是我们日常生活中的找茬游戏,只不过,它考察的是模型对物理常识的理解。

Meta团队用游戏引擎生成成对视频,前半段完全一致,后半段其中一个突然出现违反物理规律的事件,比如物体悬空,穿墙、瞬移,而模型则需要判断哪段视频不合理。

这对人类来说,可能手拿把掐,但对于现阶段的AI,面对基础物理尝试仍是一脸懵,也很难准确判断。

看起来懂得一切的模型,究竟是靠真正理解了物理因果,还是仅仅在靠图像线索和关键词蒙对了?这就是第二套基准测试Minimal Video Pairs想要搞清楚的目标。

这套测试的核心思路非常“反套路”。传统的视频问答模型,很多时候并不是看懂了视频发生了什么,而是利用训练数据中的模板、风格和关键词去猜答案。

举个例子,如果看到A推了B,它就默认B会动;看到一个球飘起来了,它可能会觉得这是特效。基于此,MVPBench专门设计了“一对双胞胎视频”,视觉上几乎一模一样,只在某个关键细节上做出最小化的改动,比如某个动作发生的先后顺序、物体的微小位置偏移、运动轨迹的结果变化。

模型必须分别回答这两个视频的同一个问题,且必须两个都答对才算得分。这就意味着,它不能靠模糊的图像匹配或者文本关联来“糊弄过去”,它必须真的搞懂:谁先动了?是谁推了谁?动作发生之后的后果,合不合常理?

这套机制从根源上卡死了模型的“投机”路径。

CausalVQA则是一个专门用来评估AI模型是否能理解视频中事件之间的因果关系的测试集。评估模型对物理因果关系的理解,包括反事实、预判和规划三个步骤。

反事实比较好理解,比如问模型:“如果这个杯子没有掉下来,会发生什么?”模型必须理解原始事件,然后基于没掉这个假设,推理出新的可能结局。

预判则需要模型必须根据视频当前的状态,判断即将发生的动作或结果,比如问现在水壶正在烧水,接下来会发生什么?这类问题要求模型能感知“因”并预测“果”。

而在目标规划上,模型需要倒推实现路径,规划出达到目标所需的具体步骤,某种程度上,这也是通向AI Agent的关键能力之一。

在发布基于视频训练的世界模型V-JEPA 2后,Meta还将打造具备更强感知与规划能力的高级机器智能系统。

据Meta团队透露,当前V-JEPA 2只在单一时间尺度上学习和预测,未来将开发多时间尺度的分层JEPA模型,以支持诸如“洗碗”或“烘焙”这样需分步骤执行的复杂任务。

另外,Meta团队还将发展多模态JEPA模型,结合视觉、听觉和触觉等多种感知进行预测。

要想真正让AI从大脑走向身体,光靠大模型堆词汇不够,得先学会物理世界里的“因果律”。方向明确的V-JEPA 2虽然离真正的通用行动智能还有距离,但在不断迭代和面对更多不可控变量的过程中一步步靠近答案。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

V-JEPA 2 世界模型 物理推理 AI
相关文章