一场关于AI如何理解世界的路线之争,终于在今日迎来关键转折点。
“通过生成像素来模拟真实世界,不仅是一种浪费,更是注定失败。”2024年2月,当OpenAI的Sora惊艳全球时,图灵奖得主杨立昆的这句炮轰犹如在AI界投下一颗炸弹。
这位Meta首席AI科学家与网友展开了数天的唇枪舌战,甚至愤怒表示:“我从没想过会看到这么多从未为AI或机器学习做过任何事情的人告诉我,我对AI的观点是错误、愚蠢、盲目的。”
十五个月后的今天,杨立昆用行动证明了自己的坚持。他亲自发布了V-JEPA 2——Meta迄今最强大的开源世界模型,一个让AI真正理解物理世界的智能引擎。
预测而非生成:一条少有人走的路
此前,当OpenAI的Sora凭借惊艳的视频生成能力被冠以“世界模型”称号时,杨立昆的反对声显得格外刺耳。在他看来,生成像素与理解世界存在本质差异。
“视频生成似是而非的空间非常大,只需要产生一个合理的样本就能视为成功,而真实视频的合理延续空间要小得多。”杨立昆在社交媒体上不断强调这一观点。他坚持认为,真正的世界模型应该模拟人类的理解方式 ——通过被动观察建立概念认知,而非像素级的重建。
这一理念源于他2022年提出的JEPA(联合嵌入预测架构)理论。
与传统生成模型不同,JEPA的核心是预测而非重建。如同婴儿通过观察学习世界运行规律,JEPA架构通过观察视频,在抽象层面预测世界状态变化,而非生成具体像素。
“人类最初对世界的理解,是从最自然的‘观察’开始,在此基础上进行学习,总结经验,形成认知模型。”杨立昆曾这样解释自己的设计哲学。
而V-JEPA 2正是这一理念的最新结晶。模型包含两大核心组件:一个编码器负责提取视频特征,一个预测器基于这些特征预测未来状态。
这种设计让AI能在抽象层面理解世界运行规律,而非纠缠于像素细节。
V-JEPA 2的突破:速度与理解的革命性飞跃
今天开源的V-JEPA 2交出了一份令人震惊的成绩单。这个拥有12亿参数的模型,在超过100万小时的视频训练后,实现了物理世界理解的质的飞跃。
最引人注目的是其效率突破。根据Meta测试数据,V-JEPA 2执行任务时每个步骤的规划用时缩短至英伟达Cosmos模型的三十分之一,同时成功率更高。这一突破对需要实时决策的自动驾驶和机器人领域意义重大。
在实际应用中,V-JEPA 2展现出类人的物理直觉。
它可以预测人类舀起一勺东西后将放入另一个容器的意图:
它甚至能拆解运动员复杂跳水动作的每个阶段,理解连续动作间的因果关系:
在机器人测试中,V-JEPA 2在触碰(Reach)、抓取(Grasp)、选择和摆放物体(Pick-and-place)三类任务中的成功率分别达到100%、45%和73%——这一切都不需要海量的机器人数据或针对性训练。
“在世界模型的帮助下,AI不再需要数百万次的训练才能掌握一项新的能力,”杨立昆在发布视频中强调,“世界模型直接告诉了AI世界是怎样运行的,这可以极大提升效率。”
杨立昆描绘了V-JEPA 2将如何重塑现实世界:
- 在辅助技术领域,搭载世界模型的AI助手可帮助视障人士“看见”并理解物理环境,识别障碍物和潜在危险;在教育领域,混合现实头显中的AI导师能理解学生的操作,提供个性化指导;在工业自动化中,机器人将获得真正的环境理解能力, 在无需海量训练数据的前提下完成复杂任务。
他认为,世界模型将为机器人开启一个新时代,让现实世界中的人工智能助手能够在不需要海量训练数据的情况下,帮助人们完成家务和体力劳动。
为推动整个行业进步,Meta同时发布了三个创新的基准测试工具:IntPhys 2(复杂合成环境中的直观物理理解测试)、基于最小视频对的物理理解视频问答基准、以及CausalVQA(视频模型的物理基础因果推理测试)。
这些工具将帮助研究界客观评估模型对物理世界的理解能力。
物理理解:通往AGI的必经之路
为何物理理解如此重要?因为它代表了AI从数字世界走向物理世界的关键一步。
“理解世界物理规律听起来并不复杂,但这是AI与人类差距非常大的一个方面,”Meta在技术说明中指出。人类天生理解重力作用、物体持久性和运动轨迹预测,这些直觉对AI却异常困难。
杨立昆一直强调,物理理解是实现AGI(人工通用智能)的基础。真正的智能体需要构建理解物理世界的“心理模型”,才能像人类一样预测行为后果并规划行动。
随着谷歌DeepMind的Genie、李飞飞的World Labs等团队纷纷投入世界模型研发,物理理解已成为AI巨头竞逐的下一个前沿。
而Meta凭借V-JEPA 2,在这一关键赛道占据了领先位置。
点击www.suanjiayun.com,了解更多