36kr 4小时前
震撼,世界模型第一次超真实地模拟了真实世界:谷歌Genie 3昨晚抢了OpenAI风头
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌DeepMind最新发布的Genie 3世界模型系列,标志着AI生成交互式、可玩环境的重大突破。该模型能够根据单一文本提示词,创建从写实风景到奇幻世界的各种场景,并以每秒24帧、720p分辨率实时导航,保持数分钟的一致性。Genie 3在分辨率、提示词控制世界事件以及实时响应等方面较前代有显著提升,并展现出模拟物理属性、自然生态、动画小说及历史场景等广泛能力。尽管在动作空间、多Agent交互和真实世界精确表示等方面仍有局限,但Genie 3的出现为AI研究、生成式媒体、教育培训及机器人训练等领域带来了无限可能,预示着未来AI将能创造更沉浸、更具互动性的数字世界,甚至媲美科幻中的全息甲板。

✨ **Genie 3:交互式世界生成新范式** Genie 3是谷歌DeepMind最新推出的世界模型,能够根据文本提示词创建高度逼真且可交互的游戏环境。它实现了每秒24帧、720p分辨率的实时导航,并能在数分钟内保持场景的一致性,这标志着AI在生成复杂、动态数字世界方面迈出了关键一步。

🚀 **技术突破与性能飞跃** 相比前代模型,Genie 3在分辨率和场景一致性上实现了显著提升,能够处理更长的交互时间(数分钟),并能理解和响应用户输入,如“低头看鞋子”并识别水坑。其自回归生成机制能够整合随时间增长的轨迹信息,确保了长时间内的物理和视觉连贯性,这是实现实时交互和沉浸感的关键。

💡 **多功能应用与潜力** Genie 3不仅能模拟物理世界(如水、闪电)和自然生态系统,还能用于建模动画、小说场景,甚至跨越时空探索历史背景。其“可提示的世界事件”功能允许用户通过文本指令改变环境,如调整天气或引入新角色,极大地增强了交互的自由度和创造性,为教育、培训及机器人训练提供了广阔的应用前景。

⚠️ **现有局限与未来展望** 尽管Genie 3能力强大,但仍存在动作空间有限、多Agent交互困难、真实世界位置表示不精确以及文本渲染清晰度不足等局限。谷歌DeepMind正积极探索 Genie 3的未来发展,计划将其开放给更多测试者,以期在AI研究、生成式媒体、教育和机器人等领域发挥更大影响力,推动具身智能体的进步。

昨晚十点,谷歌 DeepMind 重磅宣布其 Genie 世界模型系列正式来到了第 3 代。

Genie 3是我们突破性的世界模型,可以通过单个文本提示词创建交互式、可玩的环境。从照片般逼真的风景到奇幻的境界,可能性无穷无尽。」

据介绍,在 Genie 3 生成的动态世界中,玩家可以每秒 24 帧的速度实时导航,在 720p 分辨率下保持几分钟的一致性

相比于前一代 Genie 2 世界模型、使用扩散模型的游戏生成引擎 GameNGen 以及视频生成模型 Veo,最新的 Genie 3 在多个特性上都具有明显优势。

比如,相比 Genie 2,最新一代 Genie 实现了分辨率的显著提升,达到了实际可用的程度,同时还支持使用提示词生成世界事件,并能维持数分钟的一致性(DeepMind 将其称为「交互视界」)。更重要的是,Genie 3 还能做到实时响应。

而相比于专用于游戏生成的 GameNGen,Genie 3 更加通用,同时在分辨率等其它指标上都远远胜之。

最后与 Veo 3 对比,虽然 Genie 3 在分辨率这一点上还有不足,但在其它方面却优势明显。

Genie 3 一宣布就激起夸声一片。

Genie 3 团队的 Matt McGill 分享的「低头看鞋子……看模型是否理解水坑是什么」的视频更是引发了一片热议——其真实感超乎想象。

一时间,风头甚至盖过了近段时间来备受期待的 OpenAI 开源模型。

下面,我们来看看 Genie 3 生成的一些具体能力。

Genie 3 的能力

作为最新前沿的世界模型,Genie 3 具备构建一个完整世界的全部能力,并且能够在较长时间范围内保证生成的世界连贯且可交互,其功能包括:

实时响应和长时间一致性

这一次 Genie 3 的进化最大的亮点在于实时响应的用户交互,以及能够长达数分钟的场景(三维)一致性。

为了实现 Genie 3 在可控性和实时交互性方面的高水平表现,谷歌在技术上取得了一系列的重大突破。

在每一帧的自回归生成过程中,模型需要持续考虑随着时间增长的轨迹信息。例如,当用户在一分钟后再次回到某个地点时,模型必须能够回溯并引用一分钟前生成的相关信息。

而要实现真正的实时交互,这种计算必须每秒多次完成,以便及时响应不断到来的用户输入。

为了让 AI 生成的世界更具有沉浸感,环境在长时间尺度上必须保持物理一致性。然而,通过自回归方式生成环境比一次性生成整段视频在技术上要困难得多,因为误差往往会随时间逐步累积。

尽管面临这一挑战,Genie 3 所生成的环境在数分钟内仍能保持高度一致性,其视觉记忆能力最远可回溯至一分钟前的画面状态。

建筑物左侧的树木在整个交互过程中保持一致,即使它们进出视野也是如此。

虽作为世界模型,Genie 3 本质上仍是一个二维的图像 / 视频生成模型,与直接的三维场景生成具有显著的区别。

简单来说,Genie 3 的一致性是一种「涌现能力(emergent capability)」,能够生成更加丰富,动态,变化的世界,因为世界是基于世界描述和用户动作逐帧生成的。

而其他基于三维模型的方法,如 NeRF 和 Gaussian Splatting,同样可以生成具有一致性的可导航三维环境,但它们依赖于三维表示作为输入,显著限制了场景的丰富性。

可用提示词生成世界事件

除了导航输入外,Genie 3 还支持一种更具表现力的基于文本的交互形式,DeepMind 称之为可提示的世界事件(promptable world events)。

可提示的世界事件能够改变已经生成的世界,例如改变天气状况或引入新的物体和角色,从而增强导航控制的体验。

这种能力也能增加反事实(counterfactual)的广度,即能让玩家更自由畅想「如果这样会怎样」的场景。这些场景可以被 agent 根据学习过的经验来处理意外情况。

局限性

虽然 Genie 3 堪称前所未有的世界模型,但局限性依然存在,具体包括:

未来值得期待

谷歌 DeepMind 也在博客中透露了他们对于 Genie 3 以及在世界模型这个研究方向上的未来计划。

他们表示:「我们相信 Genie 3 是世界模型的重要时刻,它将开始对 AI 研究和生成式媒体等多个领域产生影响。为此,我们正在探索如何在未来让更多测试者使用 Genie 3。」

他们预计 Genie 3 将为教育和培训创造新的机会,帮助学生学习和专家积累经验。比如,Genie 3 可以让你探索古希腊的街道:

它不仅能提供广阔的空间来训练机器人和自主系统等智能体,还能使评估智能体性能、探索其弱点成为可能。

比如在下面的视频中,为了探索智能体训练的潜力,DeepMind 将 SIMA 智能体置于 Genie 3 世界中,并设定了目标。智能体会采取行动,Genie 3 能在不知道目标的情况下模拟该世界中的响应。这对于构建更强大的具身智能体至关重要。

从 2018 年的 GQN 到如今的 Genie 3,世界模型,或者如 DeepMind 研究副总裁、深度学习领导者 Oriol Vinyals 说的「神经视频游戏」,已经实现了令人难以置信的进化。

或许未来,谷歌真的能造出《星际迷航》中的全息甲板!

DeepMind CEO、诺奖得主 Demis Hassabis 的推文

对于 Genie 3 世界模型,你有什么看法?

参考链接

https://x.com/GoogleDeepMind/status/1952732150928724043

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:冷猫、Panda,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Genie 3 世界模型 谷歌DeepMind AI生成 交互式环境
相关文章