夕小瑶科技说 2024年12月05日

不必再期待Sora！谷歌炸出大世界模型，AI无限月读诞生了

谷歌DeepMind最新发布的世界模型Genie 2，能够生成一个可人为操控的3D世界，类似于火影忍者中的'无限月读'。该模型通过感知和预测未来世界状态，实现对真实世界的模拟，包括模仿人类行为、物理规则等。与传统的多模态语言模型不同，Genie 2能够克服时空连贯性问题，生成更稳定、更真实的交互体验，甚至可以根据文字描述构建理想世界。Genie 2的出现证明了世界模型的可行性，为AI在三维空间中感知、推理和行动提供了新的方向，也为实现一些此前难以实现的AI应用提供了可能，例如基于AI视频的模拟等。

🤔Genie 2是一个由谷歌DeepMind发布的世界模型，能够生成一个可人为操控的3D世界，类似于火影忍者中的'无限月读'，用户可以通过键盘鼠标操控角色在其中行动。

🌍Genie 2的核心机制是通过感知和预测未来世界状态来模拟真实世界，例如模仿人类行为、物理规则（重力、草摇曳、河水流淌等），并能与人为输入进行合理交互。

⏳Genie 2克服了传统AI视频生成模型的时空连贯性问题，能够生成更稳定、更真实的交互体验，例如场景不会因为视角变化而发生剧烈改变，并且可以生成长达一分钟的稳定视频。

📝Genie 2可以通过文字描述构建理想世界，用户只需用文字描述，再用AI模拟出真实情况，然后通过键盘鼠标控制角色进行操作，就像玩游戏一样。

🚀Genie 2的出现证明了世界模型的可行性，为AI在三维空间中感知、推理和行动提供了新的方向，也为实现一些此前难以实现的AI应用提供了可能，例如基于AI视频的模拟等。

原创海野 2024-12-05 18:22 四川

还记得火影忍者中大筒木辉夜的"无限月读"吗？通过瞳术创造出无数个虚拟世界，让人陷入幻境沉浸其中。

现在，这个魔幻的能力逐渐成为现实。

我这里先给大家贴一个demo：

大伙第一眼看过去，估计都会认为，这就是一个AI生成的视频吧。

是，也不是。再看一下右下角的操控按键呢？

视频中的人物的行为，完全是由人类，通过键盘鼠标操控的。

我知道这很难接受，但事实就是：这是一个AI生成的，可人为操控的，3D世界。

而生成这个demo的模型，就是谷歌DeepMind刚刚发布的世界模型，Genie 2.

简单说一下世界模型。在通往AGI的道路上，人们一直在追求一个能理解现实世界，复制现实世界基本动态的模型，这是通往AGI的必不可少的核心。

“貌似能实现这种追求”的多模态语言模型（图片、视频生成模型，比如Sora）出现后，在大家的实际体验中，此类模型能呈现出一些物理世界的元素，但其经常违反物理世界规律，生成的画面无厘头又好笑，所以，多模态语言模型是否真的就是世界模型，依然要打一个问号。于是，人们又加剧了对世界模型的讨论。

如何定义世界模型？Yann Lecun在2022年的一篇论文 “A Path Towards Autonomous Machine Intelligence” 中提到了一种自主智能代理框架，在非确定性的神经模型中引入确定性的规则演绎系统，能够让模型像人类和动物一样学习，具有推理和规划能力，行为由内在目标驱动，而非硬编码程序或外部奖励。

论文地址：https://openreview.net/pdf?id=BZ5a1r-kVsf

这个框架的核心机制就是，首先给定一个观测值x(t)，利用编码器Enc，从传感器信号中估计当前世界的状态，将观测值x(t)转换为内部表示s(t)或h(t)。

然后利用预测器Pred预测可能的未来世界状态，作为想象中行动序列的结果，根据当前的世界状态s(t)、行动建议a(t)以及潜在变量z(t)，来预测下一时刻的世界状态s(t+1)。

通俗一点讲，世界模型预测未来的机制相当于模拟未来世界演变，类似于反事实推理（Counterfactual Reasoning）。喜欢看网文小说的小伙伴可能更容易理解一点，就是无限推演。

反事实推理，解答的是what…if（如果……会怎么样）的问题，基于已经发生的事实，假设某一条件发生改变，事实是否会不同。

（例如：你朋友今天中彩票了，如果你早就知道中奖的号码，中彩票的还会是Ta吗？）

而世界模型的核心就是学会了反事实推理，也就意味着模型学会了反思。通过不断地反思试错，利用世界模型都能找到最优决策。

这次的Genie 2就做到了，能感知世界和预测未来。

感知世界

能感知世界，所以Genie 2可以对人类世界进行超高级的模仿，包括模仿人的任何行动（移动、跳跃、游泳等）都惟妙惟肖。

甚至，主体不是人也行。

至于模仿真实世界物理规则，例如模拟重力、模拟草摇曳、河水流淌什么的，更是不在话下。牛顿的棺材板终于压住了。

预测未来

能预测未来，所以Genie 2能对人为输入做出合理交互（例如按WASD移动、鼠标移动旋转视角等）。

而且，不只是主角能动起来，它还能模拟出NPC，或者其他元素的行为；

包括各种物体间的交互，例如打气球、开门什么的，都非常“真实”。

至少，此前的AI视频生成模型很难达到这样的效果。

prompt：开蓝色的门

我只能说，这完完全全就像是用AI做了个开放世界动作游戏。

现在再想想11月初出的3D可交互AI项目Oasis，那个可即时互动的AI生成的Minecraft（《我的世界》），根本没得比。

当时试玩的时候，就感觉真的很难受。把视角移开、再移回来，世界就完全不一样了。

而Genie 2就通过长期记忆克服了这个问题，不会说因为转个身就大变个样。

更恐怖的是，Genie 2生成的世界甚至能做到一分钟的稳定时长。请看VCR：

如果将世界模型归为视频生成模型，那它与当下耳熟能详的Sora、Runway、国产的可灵、海螺、清影等，都不属于同一个流派：

世界模型就像在一个对于AI来说“非常真实”的3D世界里，生成视频。

在这个世界里，AI通过各种涌现能力来完成你希望的结果，物体交互、模拟真实物理引擎、建模、模拟反馈。

拿出现在市面上的AI视频模型，单纯比较时空连贯性，恐怕不见得有几家能复现出来上述demo的效果。

引用AI教母李飞飞的解读，空间智能，是指AI在三维空间+一维时间中感知、推理和行动。空间智能AI能理解物体和事件在三维空间和时间中的位置，以及交互如何影响这些三维位置，真正的将AI从一维升到三维，进入现实世界。

而世界模型正是如此，它就像突破了一维，利用语言推理和规则主导的空间，往三维层次，也就是我们当前世界的维度迈进的空间智能。

所以世界模型能理解和掌握物理世界规律，模拟出与物理世界相同的交互。

个人认为有点元宇宙那味儿了，只不过世界模型确确实实已经存在，还在非常快速地实现技术突破。

还有一件事，上面的每一个demo，都是用文生图模型生成一张图，就只用这一张图喂给Genie 2实现的。

意思就是，任何人，都可以用文字描述出一个理想的世界，再用AI模拟出真实的 情况。你只需要拿起键盘和鼠标操作，就像打游戏一样，控制主角移动，就可以了。

我在Sora刚预告时，就幻想了一个未来，希望通过AI视频，模拟出一些我做不到的事。

但很遗憾，我至今都未找到足够实现这个梦想的AI视频模型。

而今天出现的Genie 2，虽然还是美中不足，它至少证实了：世界模型是一条可行的方向， 我又看到了我的梦想得以实现的可能。

也许不久，也许将来，也许，就是现在。

参考资料

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

世界模型 Genie 2 AI 3D世界空间智能

相关文章

【iThome 2024 CIO大調查系列 1｜CIO年度目標】CIO更重視開創型IT戰略，AI創新優先度今年驟增

How popular is ChatGPT? Part 1: more popular than Taylor Swift

Weka Makes Life Simpler for Developers, Engineers, and Architects

✨ 人人都能用好AI，这款GPTs 助你定制高效工作流：Prompt for me 作为一个AI布道者，Hans 在即刻写下数百篇新产品介绍、模型研究和心得，却仍感受到不同领域和...

Redundancy in AI: A Hybrid Convolutional Neural Networks CNN Approach to Minimize Computational Overhead in Reliable Execution

OpenAI计划下周宣布ChatGPT和GPT-4更新，但不会推出GPT-5和搜索引擎

Intersect360 Research Takes a Deep Dive into the HPC-AI Market in New Report

Is the Future of Retail AI in the Hands of CTOs?

In the AI Revolution, Real-Time Data Platforms Are the Hidden Drivers of Innovation

Building LLM-Based Applications with Azure OpenAI with Jay Emery - #657