掘金 人工智能 前天 18:23
Meta开源V-JEPA 2:杨立昆颠覆生成式AI,世界模型性能碾压英伟达30倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文报道了Meta首席AI科学家杨立昆发布的V-JEPA 2,这是一个旨在让AI真正理解物理世界的智能引擎。与OpenAI的Sora等生成模型不同,V-JEPA 2基于JEPA(联合嵌入预测架构)理论,通过预测而非生成像素来模拟世界。该模型在效率和理解方面取得了突破,在自动驾驶和机器人领域具有重要意义。文章还介绍了V-JEPA 2的应用前景,以及Meta发布的基准测试工具,并强调了物理理解对于实现AGI的重要性。

🧠 V-JEPA 2的核心在于预测而非生成。它基于JEPA架构,通过观察视频在抽象层面预测世界状态变化,而非生成具体像素,模拟人类的理解方式。

🚀 V-JEPA 2在效率方面取得了突破。其规划用时缩短至英伟达Cosmos模型的三十分之一,同时成功率更高,对需要实时决策的自动驾驶和机器人领域意义重大。

💡 V-JEPA 2展现出类人的物理直觉。它可以预测人类行为意图,理解连续动作间的因果关系,并在机器人任务中展现出优秀的表现,无需海量数据训练。

🌍 杨立昆认为,世界模型将重塑现实世界。V-JEPA 2可应用于辅助技术、教育和工业自动化领域,为视障人士、学生和机器人提供更智能的帮助。

🔬 Meta发布了三个创新基准测试工具。这些工具旨在帮助研究界客观评估模型对物理世界的理解能力,推动整个行业进步。

一场关于AI如何理解世界的路线之争,终于在今日迎来关键转折点。

“通过生成像素来模拟真实世界,不仅是一种浪费,更是注定失败。”2024年2月,当OpenAI的Sora惊艳全球时,图灵奖得主杨立昆的这句炮轰犹如在AI界投下一颗炸弹。

这位Meta首席AI科学家与网友展开了数天的唇枪舌战,甚至愤怒表示:“我从没想过会看到这么多从未为AI或机器学习做过任何事情的人告诉我,我对AI的观点是错误、愚蠢、盲目的。”

十五个月后的今天,杨立昆用行动证明了自己的坚持。他亲自发布了V-JEPA 2——Meta迄今最强大的开源世界模型,一个让AI真正理解物理世界的智能引擎。

预测而非生成:一条少有人走的路

此前,当OpenAI的Sora凭借惊艳的视频生成能力被冠以“世界模型”称号时,杨立昆的反对声显得格外刺耳。在他看来,生成像素与理解世界存在本质差异。

“视频生成似是而非的空间非常大,只需要产生一个合理的样本就能视为成功,而真实视频的合理延续空间要小得多。”杨立昆在社交媒体上不断强调这一观点。他坚持认为,真正的世界模型应该模拟人类的理解方式 ——通过被动观察建立概念认知,而非像素级的重建。

这一理念源于他2022年提出的JEPA(联合嵌入预测架构)理论。

与传统生成模型不同,JEPA的核心是预测而非重建。如同婴儿通过观察学习世界运行规律,JEPA架构通过观察视频,在抽象层面预测世界状态变化,而非生成具体像素。

“人类最初对世界的理解,是从最自然的‘观察’开始,在此基础上进行学习,总结经验,形成认知模型。”杨立昆曾这样解释自己的设计哲学。

而V-JEPA 2正是这一理念的最新结晶。模型包含两大核心组件:一个编码器负责提取视频特征,一个预测器基于这些特征预测未来状态。

这种设计让AI能在抽象层面理解世界运行规律,而非纠缠于像素细节。

V-JEPA 2的突破:速度与理解的革命性飞跃

今天开源的V-JEPA 2交出了一份令人震惊的成绩单。这个拥有12亿参数的模型,在超过100万小时的视频训练后,实现了物理世界理解的质的飞跃。

最引人注目的是其效率突破。根据Meta测试数据,V-JEPA 2执行任务时每个步骤的规划用时缩短至英伟达Cosmos模型的三十分之一,同时成功率更高。这一突破对需要实时决策的自动驾驶和机器人领域意义重大。

在实际应用中,V-JEPA 2展现出类人的物理直觉。

它可以预测人类舀起一勺东西后将放入另一个容器的意图:

它甚至能拆解运动员复杂跳水动作的每个阶段,理解连续动作间的因果关系:

在机器人测试中,V-JEPA 2在触碰(Reach)、抓取(Grasp)、选择和摆放物体(Pick-and-place)三类任务中的成功率分别达到100%、45%和73%——这一切都不需要海量的机器人数据或针对性训练。

“在世界模型的帮助下,AI不再需要数百万次的训练才能掌握一项新的能力,”杨立昆在发布视频中强调,“世界模型直接告诉了AI世界是怎样运行的,这可以极大提升效率。”

杨立昆描绘了V-JEPA 2将如何重塑现实世界:

他认为,世界模型将为机器人开启一个新时代,让现实世界中的人工智能助手能够在不需要海量训练数据的情况下,帮助人们完成家务和体力劳动。

为推动整个行业进步,Meta同时发布了三个创新的基准测试工具:IntPhys 2(复杂合成环境中的直观物理理解测试)、基于最小视频对的物理理解视频问答基准、以及CausalVQA(视频模型的物理基础因果推理测试)。

这些工具将帮助研究界客观评估模型对物理世界的理解能力。

物理理解:通往AGI的必经之路

为何物理理解如此重要?因为它代表了AI从数字世界走向物理世界的关键一步。

“理解世界物理规律听起来并不复杂,但这是AI与人类差距非常大的一个方面,”Meta在技术说明中指出。人类天生理解重力作用、物体持久性和运动轨迹预测,这些直觉对AI却异常困难。

杨立昆一直强调,物理理解是实现AGI(人工通用智能)的基础。真正的智能体需要构建理解物理世界的“心理模型”,才能像人类一样预测行为后果并规划行动。

随着谷歌DeepMind的Genie、李飞飞的World Labs等团队纷纷投入世界模型研发,物理理解已成为AI巨头竞逐的下一个前沿。

而Meta凭借V-JEPA 2,在这一关键赛道占据了领先位置。

点击www.suanjiayun.com,了解更多

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

V-JEPA 2 世界模型 人工智能 物理理解 JEPA
相关文章