AGI真方向？谷歌证明：智能体在自研世界模型，世界模型is all You Need

机器之心报道

编辑：泽南、Panda

越通用，就越World Models。

我们知道，大模型技术爆发的原点可能在谷歌一篇名为《Attention is All You Need》的论文上。

如今，在通用人工智能（AGI）初现曙光，Scaling Laws 却疑似接近极限的当口，又是谷歌对未来方向进行了一番思考，想来想去还是只有五个词：

论文标题：General agents need world models

论文链接：https://arxiv.org/abs/2506.01622

该论文已被机器学习顶会 ICML 收录。他们发现：如果一个 AI 智能体能够处理复杂的、长期的任务，那么它一定学习过一个内部世界模型——我们甚至可以通过观察智能体的行为来提取它。

世界模型是实现灵活、目标导向行为的必要要素，还是无需模型的学习就已足够？Google DeepMind 研究人员为这个问题提供了一个正式的答案——任何能够泛化到多步骤目标导向任务的智能体都必须学习其环境的预测模型。

更进一步，实验证明，这样的模型可以从智能体的策略中提取出来，而提升智能体的性能或其可实现目标的复杂性需要学习越来越精确的世界模型。这将带来一系列影响：从开发安全通用的智能体，到在复杂环境中限制智能体的能力，以及提供从智能体中获取世界模型的新算法。

香港中文大学博士 Richard C. Suwandi 撰写了一篇博客文章，详细解读了这篇开创性的论文及其对 AGI 未来的意义。

想象一下，如果我们能够构建一个像人类一样思考和计划的人工智能，未来会是什么样子。大语言模型（LLM）领域的最新突破使我们更接近这一目标。随着这些模型规模不断扩大，并接受更多数据的训练，它们会发展出所谓的涌现。

这显著提升了它们在各类下游任务上的表现。大模型的涌现引发了新一轮的研究，旨在创建能够在现实世界环境中处理复杂、长期任务的通用 AI 智能体。但令人着迷的是：人类不仅对他们所见的事物做出反应，我们还建立了丰富的心智模型来建模世界的运作方式。这些世界模型可帮助我们设定雄心勃勃的目标，并制定周到的计划。因此，基于这一观察，我们很自然地会问：

世界模型对于实现人类水平的人工智能有用吗？

最近，Google DeepMind 的研究人员表明，学习世界模型不仅有益，而且对于一般智能体来说也是必要的。在这篇文章中，我们将讨论该论文的主要发现及其对 AI 智能体未来的影响。

我们需要世界模型吗？

1991 年，Rodney Brooks 提出了一个著名观点：「世界是其自身的最佳模型」。

他认为，智能行为可以自然地从无模型智能体中产生，只需通过一系列动作和感知与环境互动，无需构建世界运作方式的明确表征。无模型智能体的显著成功有力地支持了 Brooks 的论点，这些智能体在不同任务和环境中展现出了出色的泛化能力。这种无模型方法为创建通用 AI 智能体提供了一种颇具吸引力的途径，同时避免了学习显式世界模型的复杂性。

然而，最近的研究提出了一个有趣的可能性：即使是这些所谓的无模型智能体也可能正在表面之下学习隐式的世界模型和规划算法。

Ilya Sutskever 一直是对的？

这让人们回想起 2023 年 3 月，OpenAI 联合创始人 Ilya Sutskever 提出了一个深刻的论断：大型神经网络的功能远不止预测下一个单词，它实际上是在学习「世界模型」。他是这样说的：

他认为，神经网络学习的不仅仅是文本信息，而是我们这个世界的一种压缩表征。因此，我们预测下一个词的准确度越高，世界模型的保真度就越高。

智能体与世界模型

虽然 Ilya 的说法引人入胜，但当时尚不清楚如何将其形式化。但现在，谷歌 DeepMind 的研究人员已经证明，Ilya 的说法并非仅仅是一个假设，而是一条支配所有通用智能体的基本定律。

在论文中作者指出，「任何能够推广到广泛的简单目标导向任务的智能体都必须学习能够模拟其环境的预测模型，并且该模型始终可以从智能体中还原出来。」

任何满足界限的智能体都必须学习环境转换函数，该函数可以从其目标条件策略中提取出来。对于能够处理诸如到达特定状态等基本任务的智能体来说也是如此。

注意，上述内容仅适用于在多步骤范围内进行规划的智能体，因为它们需要了解行动如何影响未来状态。然而，只考虑即时奖励的「短视」智能体可能会避免学习世界模型，因为它们不需要预测长期后果。

为了使上述主张更加精确，作者开发了一个基于四个关键组成部分的严格数学框架：环境、目标、智能体和世界模型。

环境

假设环境是一个受控马尔可夫过程（cMP）本质上是一个没有指定奖励函数的马尔可夫决策过程。cMP 的构成包括状态空间 S、动作空间 A 以及过渡函数

作者假设环境是不可简化的和固定的。

目标

本文没有定义复杂的目标结构，而是专注于用线性时间逻辑 (LTL) 表达的简单、直观的目标。一个目标 φ 形式为，其中 g 是一组目标状态，指定时间范围（◯= 下一步，⋄= 最终，⊤= 现在）。更复杂的复合目标 ψ 可以通过按顺序组合连续目标来形成：ψ=⟨φ_1，φ_2，…，φ_n⟩其中，智能体必须按顺序实现每个子目标。目标的深度等于子目标的数量：depth (ψ)=n。

智能体

作者重点研究了目标条件智能体，定义为策略，其可基于目标 ψ 将历史 h_t 映射到一个动作 a_t。这就引出了针对给定环境和目标集 Ψ 的最优目标条件智能体的一个自然定义，即一种策略，该策略能使对于所有 ψ∈Ψ，ψ 得以实现的概率最大化。

然而，真实的智能体很少是最优的，尤其是在复杂环境中运行，以及执行需要在长期内协调多个子目标的任务时。作者并不要求完美最优，而是定义了一个有界智能体，它能够实现某个最大目标深度的目标，并且相对于最优智能体的失败率是有界的。有界目标条件智能体满足：

对于所有目标 ψ∈Ψ_n，其中 Ψ_n 是所有复合目标的集合，其深度最多为 n 和 δ∈[0，1] 是错误率参数。

世界模型

作者考虑了预测世界模型，它可以被智能体用来进行规划。他们将世界模型定义为任何近似环境的过渡函数

有界误差。作者表明，对于任何此类有界目标条件的智能体，可以仅从其的策略中恢复环境转换函数（世界模型）的近似值：

让 π 成为具有最大失败率的目标条件智能体，δ 对于所有目标 ψ∈Ψ_n，其中 n>1。然后 π 完全确定模型对于有界误差的环境转移概率：

对于 δ≪1 以及 n≫1，误差尺度为

上述结果揭示了两个重要的见解：

1. 随着智能体能力越来越强（δ→0），可恢复世界模型变得更加准确。

2. 当智能体处理更长远的目标（更大的 n），它们必须学习越来越精确的世界模型。

这也意味着学习足够通用的目标条件策略在信息上等同于学习准确的世界模型。

如何还原世界模型

作者还推导出了一种从有界智能体恢复世界模型的算法。该算法通过向智能体查询精心设计的复合目标来工作，这些目标对应于「非此即彼」的决策。例如，它提出诸如「实现过渡最多 r 次超出 n 尝试」与「实现它超过 r 次」之类的目标。智能体的行动选择揭示了哪个结果具有更高的概率，这使我们能够估计。

从有界智能体恢复世界模型的派生算法。

实验

为了测试算法的有效性，作者对一个随机生成的受控马尔可夫过程进行了实验，该过程包含 20 个状态和 5 个动作，并采用稀疏转移函数来增加学习难度。他们使用从环境中采样的轨迹，在随机策略下训练智能体，通过延长训练轨迹长度来提高其能力。结果表明：

即使智能体严重违反理论假设（对于某些目标实现最坏情况的 regret δ=1，他们的算法仍然恢复了准确的世界模型。

恢复的世界模型中的平均误差随着，匹配误差界限和目标深度之间的理论缩放关系。

随着智能体学会处理更长远的目标（更大的最大深度 n)，提取出的世界模型变得越来越准确。这证实了智能体能力与世界模型质量之间的根本联系。

随着智能体处理更深层次的目标，恢复的世界模型中的平均误差会减小。b) 平均误差与智能体在深度 50 时的 regret 成比例。误差线显示 10 次实验的 95% 置信区间。

与其他研究的关联

这项工作的成果补充了人工智能研究的其他几个领域：

所提出的算法完善了环境、目标和策略之间的「三角」。规划在给定世界模型和目标（世界模型 + 目标 → 策略）的情况下确定最优策略，而逆向强化学习（IRL）给定世界模型和策略（世界模型 + 策略 → 目标），恢复目标。提出的算法通过给定智能体的策略和目标（策略 + 目标 → 世界模型），恢复世界模型来填补剩余的方向。正如 IRL 需要跨多个环境观察策略才能完全确定目标一样，算法需要观察智能体在多个目标上的行为，才能完全恢复世界模型。

虽然规划使用世界模型和目标来确定策略，而 IRL 和逆向规划使用智能体的策略和世界模型来识别其目标，但所提出的算法使用智能体的策略及其目标来识别世界模型。

传统的机械可解释性（MI）通常依赖于分析神经网络激活或使用监督探测另一方面，所提出的算法提供了一种新颖的方法，可以直接从智能体的策略行为中提取世界模型，即使在模型内部无法访问的情况下也能适用。这种无监督且与架构无关的方法适用于任何满足有限 regret 条件的智能体，无论其具体实现如何。对于 LLM，这意味着我们可以通过分析其目标导向行为来揭示其隐含的世界模型，而无需访问其内部表征。

最近的研究《Robust agents learn causal world models》表明，适应分布变化的智能体必须学习因果世界模型。该研究通过关注任务泛化而非领域泛化来补充这一理论。有趣的是，领域泛化需要比任务泛化更深的因果理解。

例如，在一个状态变量为 X 和 Y 是存在因果关系（X→Y），智能体只需学习转移概率即可实现最佳任务绩效，而无需了解潜在的因果关系。这暗示了 Pearl 因果层级的智能体版本其中不同的智能体能力（如领域或任务泛化）需要不同级别的因果知识。

这些发现对人工智能的发展和安全也具有着重要意义。大语言模型和其他人工智能系统中新功能的出现，可以用在针对各种训练任务进行优化时学习到的隐式世界模型来解释。从能力强大的智能体中提取世界模型的能力，为验证和校准提供了一种新的工具，因为模型保真度会随着智能体能力的提升而扩展。然而，学习复杂现实世界系统的精确世界模型本身就存在困难，这也从根本上限制了智能体的通用能力。

结论

或许，Ilya 在 2023 年的预测比我们意识到的更有前瞻性。如果上述结果属实，那么当前通过扩展语言模型来推进超级人工智能（ASI）的竞赛，或许暗地里就是一场构建更复杂世界模型的竞赛。我们也有可能正在见证一些更为深刻的变革：从 David Silver 和 Richard Sutton 所说的「人类数据时代」向「经验时代」的转变。虽然当前的人工智能系统通过模仿人类生成的数据实现了非凡的能力，但 Silver 和 Sutton 认为，超人类智能将主要通过智能体从自身经验中学习而诞生。

例如，随着 Genie 2 等基础世界模型的最新发展，我们可以从单个图像生成无限的 3D 环境并允许智能体在丰富的环境中产生「经验流」，并根据其能力进行适应和发展。

Genie 2，谷歌提出的一个基础世界模型，能够生成无限多样、可操作、可游玩的 3D 环境，用于训练和评估具身智能体。只需一张提示图像，人类或 AI 智能体即可使用键盘和鼠标输入来游玩。

如果说一般智能体必须学习世界模型，而超人类智能需要从经验而非人类数据中学习，那么像 Genie 2 这样的基础世界模型或许就是体验时代的终极尺度法则。我们并不是在触及人类知识的上限，而是正在进入一个新阶段：AI 智能体的质量从根本上受限于它们能够模拟和探索的世界的保真度。

能够做最精准的梦，并从梦中学习最多的智能体，或许才是最聪明的。

参考原文：

https://richardcsuwandi.github.io/blog/2025/agents-world-models/

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

文章原文

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签