V2EX 23小时前
[分享发现] Meta 发布了 V-JEPA 2 模型,杨立昆终于打了个翻身仗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了杨立昆对LLM的批评及其提出的V-JEPA 2世界模型。文章指出,杨立昆认为LLM仅是统计工具,无法理解深层含义,而V-JEPA 2则能获取底层物理直觉。然而,作者质疑这种观点,认为V-JEPA 2与LLM在潜空间预测上并无本质区别,并指出了杨立昆在观点上的矛盾之处,认为其存在双标行为。文章通过分析杨立昆的采访,揭示了他观点中的闪躲之处。

🤔 杨立昆认为LLM仅进行表面统计,无法理解内在含义,且预测方式无法推广到图片和视频等连续数据。

💡 V-JEPA 2通过预测“潜空间”或“特征空间”来训练,杨立昆声称其能获得底层物理直觉。

🧐 作者质疑V-JEPA 2与LLM的本质区别,指出两者都在抽象空间进行预测,并认为杨立昆的标准存在双重性。

🤔 作者认为LLM将文字转化为嵌入向量后进行预测,与V-JEPA 2在潜空间预测并无差异,质疑杨立昆的观点。

🧐 采访中,杨立昆在面对质疑时有所闪躲,进一步引发了对V-JEPA 2和LLM之间差异的讨论。

杨立昆( Yann LeCun )言必称 V-JEPA 2 世界模型,断言 LLM 必将失败。

他给的理由,最关键的一个,是 LLM 只是在大量文字上,做表面意义上的统计工作,也就是它无法理解内层的含义。更进一步,他说出 LLM 这种预测下一个 token 的方式,比如无法从「文字」推广到「图片」和「视频」上,因为前者(文字)是有限,是离散的,而后者(颜色)是无限的,是连续的。

好吧,现在他们终于发布了 V-JEPA 2 ,说它才是会取代 LLM ,并登顶 AGI 宝座的王者。

确实 V-JEPA 2 的效果不错。不过,它真的跟 LLM 有什么区别吗?

杨立昆说他非常早以前,就在尝试通过预测下一帧或者缺失的帧(块),这种无监督的方式,来训练,希望获得能对底层物理原理有所领悟的「世界模型」。但都失败了。按照他的说法,预测像素是徒劳的,因为太底层了,太多的像素细节对于模型获取物理直觉并没有意义。

然后当 LLM 出现后,他开始不遗余力批评它,说它是统计学,说它学不到内在规律,说它缺乏底层物理基础的支撑。可是,现在的 V-JEPA 2 ,我看了一下它的原理,它确实不再从像素去预测了,而是从将像素抽象之后得到的“潜空间”或者说“特征空间”去做预测。然后杨立昆说,V-JEPA 2 得到了关于底层物理的直觉。

可是,这跟他自己所说的多么矛盾啊。

他说从像素上预测,很难成功,现在他说 V-JEPA 2 从更抽象的空间中去预测,就得到了底层物理的直觉。可他批评 LLM 时,却说 LLM 只是在做一些文字的统计,学不到底层的关联。这就奇怪了,难道语言、文字不正是对现实世界的抽象吗?哦,在他的抽象空间做预测就是在获取「世界模型」,在文字这个抽象空间做预测,就是在做「统计」。多么双标啊。

之前 Ilya 就说杨立昆说的世界模型跟 LLM 没有什么不同,现在也有人评价说 V-JEPA 2 没有任何新的东西。我觉得确实是,在潜空间中做预测,OpenAI 的 Sora 早就已经在做了。即使是 LLM ,它也是将文字转到嵌入向量,在那个空间做的预测。我看不出 V-JEPA 2 有任何不同的地方,让杨立昆的双标能够成立。

下面是杨立昆接受的一个小时的采访,对他的观点有比较详细的阐述,非常好的一个采访。

同时,也可以看出他被采访者询问某些问题时的闪躲:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

杨立昆 V-JEPA 2 LLM 世界模型 双标
相关文章