[分享发现] Meta 发布了 V-JEPA 2 模型，杨立昆终于打了个翻身仗？

杨立昆（ Yann LeCun ）言必称 V-JEPA 2 世界模型，断言 LLM 必将失败。

他给的理由，最关键的一个，是 LLM 只是在大量文字上，做表面意义上的统计工作，也就是它无法理解内层的含义。更进一步，他说出 LLM 这种预测下一个 token 的方式，比如无法从「文字」推广到「图片」和「视频」上，因为前者（文字）是有限，是离散的，而后者（颜色）是无限的，是连续的。

好吧，现在他们终于发布了 V-JEPA 2 ，说它才是会取代 LLM ，并登顶 AGI 宝座的王者。

确实 V-JEPA 2 的效果不错。不过，它真的跟 LLM 有什么区别吗？

杨立昆说他非常早以前，就在尝试通过预测下一帧或者缺失的帧(块)，这种无监督的方式，来训练，希望获得能对底层物理原理有所领悟的「世界模型」。但都失败了。按照他的说法，预测像素是徒劳的，因为太底层了，太多的像素细节对于模型获取物理直觉并没有意义。

然后当 LLM 出现后，他开始不遗余力批评它，说它是统计学，说它学不到内在规律，说它缺乏底层物理基础的支撑。可是，现在的 V-JEPA 2 ，我看了一下它的原理，它确实不再从像素去预测了，而是从将像素抽象之后得到的“潜空间”或者说“特征空间”去做预测。然后杨立昆说，V-JEPA 2 得到了关于底层物理的直觉。

可是，这跟他自己所说的多么矛盾啊。

他说从像素上预测，很难成功，现在他说 V-JEPA 2 从更抽象的空间中去预测，就得到了底层物理的直觉。可他批评 LLM 时，却说 LLM 只是在做一些文字的统计，学不到底层的关联。这就奇怪了，难道语言、文字不正是对现实世界的抽象吗？哦，在他的抽象空间做预测就是在获取「世界模型」，在文字这个抽象空间做预测，就是在做「统计」。多么双标啊。

之前 Ilya 就说杨立昆说的世界模型跟 LLM 没有什么不同，现在也有人评价说 V-JEPA 2 没有任何新的东西。我觉得确实是，在潜空间中做预测，OpenAI 的 Sora 早就已经在做了。即使是 LLM ，它也是将文字转到嵌入向量，在那个空间做的预测。我看不出 V-JEPA 2 有任何不同的地方，让杨立昆的双标能够成立。

下面是杨立昆接受的一个小时的采访，对他的观点有比较详细的阐述，非常好的一个采访。

同时，也可以看出他被采访者询问某些问题时的闪躲：

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签