夕小瑶科技说 2024年12月05日
不必再期待Sora!谷歌炸出大世界模型,AI无限月读诞生了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌DeepMind最新发布的世界模型Genie 2,能够生成一个可人为操控的3D世界,类似于火影忍者中的'无限月读'。该模型通过感知和预测未来世界状态,实现对真实世界的模拟,包括模仿人类行为、物理规则等。与传统的多模态语言模型不同,Genie 2能够克服时空连贯性问题,生成更稳定、更真实的交互体验,甚至可以根据文字描述构建理想世界。Genie 2的出现证明了世界模型的可行性,为AI在三维空间中感知、推理和行动提供了新的方向,也为实现一些此前难以实现的AI应用提供了可能,例如基于AI视频的模拟等。

🤔Genie 2是一个由谷歌DeepMind发布的世界模型,能够生成一个可人为操控的3D世界,类似于火影忍者中的'无限月读',用户可以通过键盘鼠标操控角色在其中行动。

🌍Genie 2的核心机制是通过感知和预测未来世界状态来模拟真实世界,例如模仿人类行为、物理规则(重力、草摇曳、河水流淌等),并能与人为输入进行合理交互。

⏳Genie 2克服了传统AI视频生成模型的时空连贯性问题,能够生成更稳定、更真实的交互体验,例如场景不会因为视角变化而发生剧烈改变,并且可以生成长达一分钟的稳定视频。

📝Genie 2可以通过文字描述构建理想世界,用户只需用文字描述,再用AI模拟出真实情况,然后通过键盘鼠标控制角色进行操作,就像玩游戏一样。

🚀Genie 2的出现证明了世界模型的可行性,为AI在三维空间中感知、推理和行动提供了新的方向,也为实现一些此前难以实现的AI应用提供了可能,例如基于AI视频的模拟等。

原创 海野 2024-12-05 18:22 四川

还记得火影忍者中大筒木辉夜的"无限月读"吗?通过瞳术创造出无数个虚拟世界,让人陷入幻境沉浸其中。

现在,这个魔幻的能力逐渐成为现实。

我这里先给大家贴一个demo:

大伙第一眼看过去,估计都会认为,这就是一个AI生成的视频吧。

是,也不是。再看一下右下角的操控按键呢?

视频中的人物的行为,完全是由人类,通过键盘鼠标操控的。

我知道这很难接受,但事实就是:这是一个AI生成的,可人为操控的,3D世界。

而生成这个demo的模型,就是谷歌DeepMind刚刚发布的世界模型,Genie 2.

简单说一下世界模型。在通往AGI的道路上,人们一直在追求一个能理解现实世界,复制现实世界基本动态的模型,这是通往AGI的必不可少的核心。

“貌似能实现这种追求”的多模态语言模型(图片、视频生成模型,比如Sora)出现后,在大家的实际体验中,此类模型能呈现出一些物理世界的元素,但其经常违反物理世界规律,生成的画面无厘头又好笑,所以,多模态语言模型是否真的就是世界模型,依然要打一个问号。于是,人们又加剧了对世界模型的讨论。

如何定义世界模型?Yann Lecun在2022年的一篇论文 “A Path Towards Autonomous Machine Intelligence” 中提到了一种自主智能代理框架,在非确定性的神经模型中引入确定性的规则演绎系统,能够让模型像人类和动物一样学习,具有推理和规划能力,行为由内在目标驱动,而非硬编码程序或外部奖励。

论文地址:https://openreview.net/pdf?id=BZ5a1r-kVsf

这个框架的核心机制就是,首先给定一个观测值x(t),利用编码器Enc,从传感器信号中估计当前世界的状态,将观测值x(t)转换为内部表示s(t)或h(t)。

然后利用预测器Pred预测可能的未来世界状态,作为想象中行动序列的结果,根据当前的世界状态s(t)、行动建议a(t)以及潜在变量z(t),来预测下一时刻的世界状态s(t+1)。

通俗一点讲,世界模型预测未来的机制相当于模拟未来世界演变,类似于反事实推理(Counterfactual Reasoning)。喜欢看网文小说的小伙伴可能更容易理解一点,就是无限推演。

反事实推理,解答的是what…if(如果……会怎么样)的问题,基于已经发生的事实,假设某一条件发生改变,事实是否会不同。

(例如:你朋友今天中彩票了,如果你早就知道中奖的号码,中彩票的还会是Ta吗?)

而世界模型的核心就是学会了反事实推理,也就意味着模型学会了反思。通过不断地反思试错,利用世界模型都能找到最优决策。

这次的Genie 2就做到了,能感知世界和预测未来。

感知世界

能感知世界,所以Genie 2可以对人类世界进行超高级的模仿,包括模仿人的任何行动(移动、跳跃、游泳等)都惟妙惟肖。

甚至,主体不是人也行。

至于模仿真实世界物理规则,例如模拟重力、模拟草摇曳、河水流淌什么的,更是不在话下。牛顿的棺材板终于压住了。

预测未来

能预测未来,所以Genie 2能对人为输入做出合理交互(例如按WASD移动、鼠标移动旋转视角等)。

而且,不只是主角能动起来,它还能模拟出NPC,或者其他元素的行为;

包括各种物体间的交互,例如打气球、开门什么的,都非常“真实”。

至少,此前的AI视频生成模型很难达到这样的效果。

prompt:开蓝色的门

我只能说,这完完全全就像是用AI做了个开放世界动作游戏。

现在再想想11月初出的3D可交互AI项目Oasis,那个可即时互动的AI生成的Minecraft(《我的世界》),根本没得比。

当时试玩的时候,就感觉真的很难受。把视角移开、再移回来,世界就完全不一样了。

而Genie 2就通过长期记忆克服了这个问题,不会说因为转个身就大变个样。

更恐怖的是,Genie 2生成的世界甚至能做到一分钟的稳定时长。请看VCR:

如果将世界模型归为视频生成模型,那它与当下耳熟能详的Sora、Runway、国产的可灵、海螺、清影等,都不属于同一个流派:

世界模型就像在一个对于AI来说“非常真实”的3D世界里,生成视频。

在这个世界里,AI通过各种涌现能力来完成你希望的结果,物体交互、模拟真实物理引擎、建模、模拟反馈。

拿出现在市面上的AI视频模型,单纯比较时空连贯性,恐怕不见得有几家能复现出来上述demo的效果。

引用AI教母李飞飞的解读,空间智能,是指AI在三维空间+一维时间中感知、推理和行动。空间智能AI能理解物体和事件在三维空间和时间中的位置,以及交互如何影响这些三维位置,真正的将AI从一维升到三维,进入现实世界。

世界模型正是如此,它就像突破了一维,利用语言推理和规则主导的空间,往三维层次,也就是我们当前世界的维度迈进的空间智能。

所以世界模型能理解和掌握物理世界规律,模拟出与物理世界相同的交互。

个人认为有点元宇宙那味儿了,只不过世界模型确确实实已经存在,还在非常快速地实现技术突破。

还有一件事,上面的每一个demo,都是用文生图模型生成一张图,就只用这一张图喂给Genie 2实现的。

意思就是,任何人,都可以用文字描述出一个理想的世界,再用AI模拟出真实的 情况。你只需要拿起键盘和鼠标操作,就像打游戏一样,控制主角移动,就可以了。

我在Sora刚预告时,就幻想了一个未来,希望通过AI视频,模拟出一些我做不到的事。

但很遗憾,我至今都未找到足够实现这个梦想的AI视频模型。

而今天出现的Genie 2,虽然还是美中不足,它至少证实了:世界模型是一条可行的方向, 我又看到了我的梦想得以实现的可能。

也许不久,也许将来,也许,就是现在。

参考资料

 https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

世界模型 Genie 2 AI 3D世界 空间智能
相关文章