V2EX 21小时前
[分享发现] Meta 发布了 V-JEPA 2 模型,杨立昆终于打了个翻身仗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了杨立昆对LLM(大型语言模型)的批评以及他提出的V-JEPA 2世界模型的观点。杨立昆认为LLM仅是统计工具,无法理解深层含义,而V-JEPA 2能通过预测抽象的特征空间来获取对底层物理的直觉。然而,作者指出,V-JEPA 2与LLM在预测方式上并无本质区别,质疑了杨立昆观点的双重标准。文章还提到了对杨立昆采访的分析,揭示了他观点中的矛盾之处。

🤔杨立昆认为LLM仅仅是基于大量文字的统计工作,无法理解深层含义,并预测其无法从文字推广到图片和视频等连续数据。

💡V-JEPA 2的核心在于通过预测像素抽象后的“潜空间”或“特征空间”来构建“世界模型”,杨立昆认为此方法能获得对底层物理的直觉。

🧐作者质疑杨立昆的双重标准,指出V-JEPA 2与LLM在预测方式上并无本质区别,LLM也通过将文字转化为嵌入向量进行预测。

🗣️文章引用了Ilya的观点,认为杨立昆的世界模型与LLM并无不同,并指出OpenAI的Sora早已在潜空间进行预测。

杨立昆( Yann LeCun )言必称 V-JEPA 2 世界模型,断言 LLM 必将失败。

他给的理由,最关键的一个,是 LLM 只是在大量文字上,做表面意义上的统计工作,也就是它无法理解内层的含义。更进一步,他说出 LLM 这种预测下一个 token 的方式,比如无法从「文字」推广到「图片」和「视频」上,因为前者(文字)是有限,是离散的,而后者(颜色)是无限的,是连续的。

好吧,现在他们终于发布了 V-JEPA 2 ,说它才是会取代 LLM ,并登顶 AGI 宝座的王者。

确实 V-JEPA 2 的效果不错。不过,它真的跟 LLM 有什么区别吗?

杨立昆说他非常早以前,就在尝试通过预测下一帧或者缺失的帧(块),这种无监督的方式,来训练,希望获得能对底层物理原理有所领悟的「世界模型」。但都失败了。按照他的说法,预测像素是徒劳的,因为太底层了,太多的像素细节对于模型获取物理直觉并没有意义。

然后当 LLM 出现后,他开始不遗余力批评它,说它是统计学,说它学不到内在规律,说它缺乏底层物理基础的支撑。可是,现在的 V-JEPA 2 ,我看了一下它的原理,它确实不再从像素去预测了,而是从将像素抽象之后得到的“潜空间”或者说“特征空间”去做预测。然后杨立昆说,V-JEPA 2 得到了关于底层物理的直觉。

可是,这跟他自己所说的多么矛盾啊。

他说从像素上预测,很难成功,现在他说 V-JEPA 2 从更抽象的空间中去预测,就得到了底层物理的直觉。可他批评 LLM 时,却说 LLM 只是在做一些文字的统计,学不到底层的关联。这就奇怪了,难道语言、文字不正是对现实世界的抽象吗?哦,在他的抽象空间做预测就是在获取「世界模型」,在文字这个抽象空间做预测,就是在做「统计」。多么双标啊。

之前 Ilya 就说杨立昆说的世界模型跟 LLM 没有什么不同,现在也有人评价说 V-JEPA 2 没有任何新的东西。我觉得确实是,在潜空间中做预测,OpenAI 的 Sora 早就已经在做了。即使是 LLM ,它也是将文字转到嵌入向量,在那个空间做的预测。我看不出 V-JEPA 2 有任何不同的地方,让杨立昆的双标能够成立。

下面是杨立昆接受的一个小时的采访,对他的观点有比较详细的阐述,非常好的一个采访。

同时,也可以看出他被采访者询问某些问题时的闪躲:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

杨立昆 V-JEPA 2 LLM 世界模型 人工智能
相关文章