OpenAI深夜官宣，连续12天发布AI大招，Sora、满血o1或将发布

虎嗅 2024年12月05日

OpenAI深夜官宣，连续12天发布AI大招，Sora、满血o1或将发布

Google DeepMind发布了最新基础世界模型Genie 2，它能够根据一张图片生成可操作、可玩的3D环境。Genie 2通过学习海量视频数据，具备了理解世界运作规律的能力，例如预测角色行为和实时生成画面。同时，OpenAI也宣布了为期12天的圣诞惊喜活动，包括文本到视频AI工具Sora等，预示着2024年AI竞赛的激烈竞争。Genie 2的出现，让用户只需一张图片就能创造出互动游戏世界，展现了AI在创造力和泛化性上的巨大潜力，也为AI智能体的训练提供了新的平台。

🤔 **Genie 2能够根据一张图片生成可交互的3D游戏世界:** DeepMind的Genie 2模型能够基于一张图片，创建出一个完整的3D环境，用户可以使用键盘鼠标进行探索和互动，Genie 2会实时生成画面，实现沉浸式的游戏体验。

🎮 **Genie 2具备理解世界运作规律的能力:** 通过学习海量视频数据，Genie 2能够准确预测角色行为，例如跳跃或游泳，并实时生成连贯的画面，展现了对世界运作规律的理解，而非简单的模仿。

🚀 **Genie 2为AI智能体的训练提供了新的平台:** 研究人员可以使用Genie 2快速创建各种3D环境，并设计不同的任务来训练AI智能体，例如让智能体理解指令并完成任务，从而测试和验证AI智能体的能力。

🖼️ **Genie 2使用Imagen 3生成初始图片，并基于此创建世界:** Genie 2的创作过程始于使用Imagen 3根据文字描述生成初始图片，然后基于这张图片创造出一个完整的互动世界，用户可以在其中自由探索。

⚠️ **Genie 2仍处于初期阶段，存在一些生成效果不佳的情况:** 尽管Genie 2展现了巨大潜力，但目前仍存在一些问题，例如场景生成中出现一些不合理的情况，例如鬼魂突然出现或角色行为异常等，需要进一步改进。

就在刚刚，Google Deepmind深夜放大招，发布了最新基础世界模型Genie 2。

想体验游戏世界？未来只需一张图片就能实现。

作为一个基础世界模型，Genie 2能够凭借开局一张图生成各种可操作、可玩的3D环境。

当Genie 2能准确预判角色行为并实时生成连贯画面，这也意味着它已经开始真正“理解”而不是简单“模仿”世界的运作规律。

而在凌晨时分，OpenAI也正式官宣了为期十二天的圣诞惊喜活动。

十二月的硅谷不只是圣诞老人的主场，也是AI巨头们的年终对决。不是冤家不聚头，Deepmind头条再次被成功抢占。

Sam Altman在X平台宣布：

从明天太平洋时间上午10点开始，我们将启动为期12天的OpenAI活动。
每个工作日，我们都会进行一场直播，展示一些新发布的内容或演示，有些是重磅活动，也有些是小惊喜。
我们有很多精彩内容等着与大家分享，希望你喜欢！圣诞快乐！

网友也化身预言家，预测了OpenAI要发布的一些内容：

第1天：发布文本到视频AI工具Sora。

第2天：为ChatGPT引入圣诞老人灵感的声音，增添节日气氛。

第3天：通过视觉功能增强ChatGPT的高级语音模式。

第4天：向免费用户发布o1-preview，扩展了对高级推理模型的访问。

第5天：展示1月即将推出的GPT智能体。

第6天：发布GPT-4o图像。

第7天：推出新的开发者工具。

第8天：展示新的Dalle。

第9天：宣布具有更大上下文窗口的GPT-NEXT模型。

第10天：发布辩论游戏，教机器辩论玩具问题。

第11天：推出Microscope，这是神经网络模型可视化的集合。

第12天：将高级语音模式时间增加至每天20小时。

满血版o1、Sora的呼声在众多网友的猜测中此起彼伏，可以说，2024年的AI竞赛正在酝酿最后的高潮。

具体细节，APPSO也将第一时间送上。

把照片变成可玩的3D游戏，游戏开发者要失业了？

第一代Genie创造了2D世界，而今天Deepmind推出的Genie 2则迈出了更大的一步，能够生成丰富多彩的3D世界。

作为世界模型，Genie 2最厉害的地方在于它能“理解”虚拟世界的运作规律。比如当你操控角色跳跃或游泳时，它能准确预测和展示接下来会发生什么。

这得益于其在海量视频数据集上的训练，以及类似其他生成式模型所展现的多项涌现能力，包括物体互动、复杂角色动画、真实物理效果，以及对其他智能体行为的模拟与预测能力。

DeepMind发布的演示视频生动展示了用户与Genie 2的互动过程。

首先，系统使用Imagen 3根据文字描述生成初始图片。然后，Genie 2就能基于这张图片创造出一个完整的互动世界。最后，用户可以用键盘鼠标在这个世界里自由探索，而Genie 2会实时模拟生成你看到的每一帧画面。

更重要的是，Genie 2能够在一分钟内生成世界，大多数示例的时长为10至20秒。

具体而言，Genie 2能智能响应键盘输入，准确识别并移动目标角色。比如，它能自动理解方向键应该控制机器人的移动，而不是场景中的树木或云朵。

有趣的是，即使从同一个初始画面出发，由于玩家决策和行动的差异，最终可以产生截然不同的结果。这一特性对于训练AI智能体理解不同决策带来的后果极其有价值。

另外，Genie 2还拥有强大的“记忆力”和“创造力”，它能记住你看不到的地方是什么样的，在重新看到时还能精确重现。

Genie 2能保持长达一分钟的场景连贯性，动态生成新的合理内容。

Genie 2支持多种视角切换，比如第一人称视角、等角视角或第三人称驾驶视频。

Genie 2能呈现复杂的3D视觉场景。

Genie 2支持多样化的对象交互，如气球爆炸、开门动作和炸药桶爆炸效果

Genie 2支持为不同类型角色制作流畅的动画效果，支持多种活动形式

它不仅能够模拟其他智能体，还能模拟与这些智能体的复杂交互。

不仅如此，Genie 2还能模拟水效果、烟雾效果、重力、照明、反射等多种物理现象，并能使用真实世界图片生成动态模拟效果。

基于现实图片模拟生成

画张草图就能玩？但也有翻车的时候

Genie 2能快速地将想法变成可以玩的3D场景。

也就是说，通过Genie 2，研究人员可以设计和实现多种不同的交互式体验，这些体验可以模拟各种复杂的物理现象和行为，从而来测试和验证他们的理论或模型。

于是研究团队试着让Genie 2对不同的飞行物体进行建模，以测试Genie 2在动画制作方面的能力，同时也包括模拟这些物体的飞行动态和物理行为。

对艺术家和设计师等创作者来说，这是一个极其强大的神器。想象一下，设计师画个简单的草稿，Genie 2就能变成可以实际体验的3D环境，省去了大量复杂的制作过程。

并且，通过使用Genie 2快速创建丰富多样的环境供AI智能体进行任务训练，Deepmind研究人员还可以生成一些智能体在训练时未曾接触过的评估任务。

说人话就是，Genie 2充当了AI的“训练场”，能快速创造出各种各样的“考试场景”，来训练和测试他们与游戏开发者合作开发的SIMA AI智能体。

具体来说，SIMA智能体主要是通过自然语言指令完成多种3D游戏世界中的任务。

举个具体的例子，研究团队先用一段简单的提示词生成了一张图片，然后使用Genie 2创建了一个包含两扇门的3D环境，并给SIMA智能体提供了打开每扇门的指令。

Prompt：一张第三人称视角的开放世界探索游戏截图。玩家是一个探险者，正在探索一片森林。左侧有一座红色门的房子，右侧有一座蓝色门的房子。相机位于玩家正后方。

就像我们用键盘鼠标控制游戏角色一样，SIMA能理解这些指令并完成任务。而Genie 2则负责把整个场景生动地构建出来。

反过来，研究团队还可以利用SIMA来帮助测试Genie 2的能力。比如，团队通过指示SIMA环顾四周并探索房子后方，借此测试Genie 2创建的世界是否前后一致，比如房子后面是不是真的有完整的建筑。

不过呢，Deepmind也承认，目前这项研究仍处于初期阶段，且在智能体和环境生成能力上有着很大的改进空间。

比如说，官方也放出一些翻车的“花絮”，譬如明明是个安静的花园，突然冒出个鬼魂。

滑雪的时候，角色莫名其妙地把滑雪板一扔，开始跑酷。

手里拿着的“能量球”毫无征兆地“砰”地就炸了

尽管如此，但在Deepmind研究团队看来，Genie 2将是解决训练具身智能体的结构性问题的关键，并且它能够实现向通用人工智能发展的广度和泛化性，将是迈向AGI的重要一步。

说到具体的技术原理，Genie 2本质上是一种自回归的潜在扩散模型，经过大规模视频数据集的训练。

视频经过自编码器处理后，提取的潜在帧被传递到一个大型Transformer模型，后者使用类似大语言模型的因果掩码进行训练。

在推理时，Genie 2可以以自回归方式进行采样，逐帧处理，基于过去的潜在帧和当前的动作生成新的帧。

研究团队使用无分类器引导方法来提高动作的可控性。

看着有些复杂，简单来说，它看过海量的视频资料，学会了预测画面怎么变化。当你在这个虚拟世界里行动时，它就能一帧一帧地生成新画面，从而让整个过程看起来特别流畅自然。

官方目前展示的这些案例都是通过未蒸馏的基础模型生成的，目的是展示潜力。虽然研究团队也有一个能实时运行的精简版本，但输出的画面效果会差一些。

但不管怎么说，从平面到立体，Genie 2完成了AI创造力的维度跃迁。

也许再过不久，“拍照”这个行为的含义将被重新定义。每张照片都可能成为一个入口，通向一个完整的虚拟世界。

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Genie 2 基础世界模型 3D游戏 AI智能体生成式AI

相关文章

【iThome 2024 CIO大調查系列 1｜企業IT投資總論】GAI浪潮和上雲驅力，帶動IT投資重回2位數成長

Accenture and Oracle Collaborate to Accelerate Generative AI Adoption for Finance Teams

Red Hat OpenShift AI Announces Integration Support for NVIDIA NIM Microservices

Anthropic AI Launches a Prompt Engineering Tool that Generates Production-Ready Prompts in the Anthropic Console

Is ChatGPT Getting Worse? with James Zou - #645

中信建投：AI搜索是搜索新范式、流量新入口

地方新闻精选丨浙江多地密集发放购房消费券河南男童被狗咬伤后身亡警方提级调查

Tech Mahindra and IBM to Help Enterprises Accelerate Adoption of Trustworthy Generative AI Using watsonx

老牌數據分析大廠押寶GenAI

腾讯汤道生：混元大模型三大版本将面向企业和个人开发者全面开放