V2EX 前天 11:37
[分享发现] Meta 发布了 V-JEPA 2 模型,杨立昆终于打了个翻身仗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了杨立昆对大型语言模型(LLM)的批评以及他对V-JEPA 2世界模型的推崇。文章指出,杨立昆认为LLM只是进行表面统计,无法理解深层含义,并将其与V-JEPA 2进行对比。然而,文章质疑了杨立昆的观点,认为V-JEPA 2与LLM在本质上并无太大区别,都涉及到在抽象空间中进行预测。文章揭示了杨立昆在评价上的双重标准,并强调了对技术创新进行客观评估的重要性。

🤔 杨立昆认为LLM仅在文字上进行统计,无法理解内在含义,并将其与V-JEPA 2世界模型进行对比,后者被寄予厚望,认为能够取代LLM并通往AGI。

🧐 杨立昆早期尝试通过预测下一帧或缺失帧来训练世界模型,但以失败告终,他认为预测像素细节对于获取物理直觉没有意义。

😮 V-JEPA 2不再直接预测像素,而是预测抽象后的“潜空间”或“特征空间”。杨立昆认为这能获得底层物理直觉,然而,这与他批评LLM时所持的观点相矛盾,后者也被认为是在抽象空间中进行预测。

🤨 文章指出,LLM也将文字转化为嵌入向量,并在该空间中进行预测,与V-JEPA 2并无本质区别。杨立昆的双重标准受到质疑,OpenAI的Sora等技术也已在潜空间中进行预测。

杨立昆( Yann LeCun )言必称 V-JEPA 2 世界模型,断言 LLM 必将失败。

他给的理由,最关键的一个,是 LLM 只是在大量文字上,做表面意义上的统计工作,也就是它无法理解内层的含义。更进一步,他说出 LLM 这种预测下一个 token 的方式,比如无法从「文字」推广到「图片」和「视频」上,因为前者(文字)是有限,是离散的,而后者(颜色)是无限的,是连续的。

好吧,现在他们终于发布了 V-JEPA 2 ,说它才是会取代 LLM ,并登顶 AGI 宝座的王者。

确实 V-JEPA 2 的效果不错。不过,它真的跟 LLM 有什么区别吗?

杨立昆说他非常早以前,就在尝试通过预测下一帧或者缺失的帧(块),这种无监督的方式,来训练,希望获得能对底层物理原理有所领悟的「世界模型」。但都失败了。按照他的说法,预测像素是徒劳的,因为太底层了,太多的像素细节对于模型获取物理直觉并没有意义。

然后当 LLM 出现后,他开始不遗余力批评它,说它是统计学,说它学不到内在规律,说它缺乏底层物理基础的支撑。可是,现在的 V-JEPA 2 ,我看了一下它的原理,它确实不再从像素去预测了,而是从将像素抽象之后得到的“潜空间”或者说“特征空间”去做预测。然后杨立昆说,V-JEPA 2 得到了关于底层物理的直觉。

可是,这跟他自己所说的多么矛盾啊。

他说从像素上预测,很难成功,现在他说 V-JEPA 2 从更抽象的空间中去预测,就得到了底层物理的直觉。可他批评 LLM 时,却说 LLM 只是在做一些文字的统计,学不到底层的关联。这就奇怪了,难道语言、文字不正是对现实世界的抽象吗?哦,在他的抽象空间做预测就是在获取「世界模型」,在文字这个抽象空间做预测,就是在做「统计」。多么双标啊。

之前 Ilya 就说杨立昆说的世界模型跟 LLM 没有什么不同,现在也有人评价说 V-JEPA 2 没有任何新的东西。我觉得确实是,在潜空间中做预测,OpenAI 的 Sora 早就已经在做了。即使是 LLM ,它也是将文字转到嵌入向量,在那个空间做的预测。我看不出 V-JEPA 2 有任何不同的地方,让杨立昆的双标能够成立。

下面是杨立昆接受的一个小时的采访,对他的观点有比较详细的阐述,非常好的一个采访。

同时,也可以看出他被采访者询问某些问题时的闪躲:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

杨立昆 V-JEPA 2 LLM 世界模型 双标
相关文章