AI 的下半场：质疑评估，聚焦真实世界

原创橘子OrangeAI 2025-04-20 10:05 河北

今天读了最近非常重要的一篇文章，来自 OpenAI 的 Agent 研究员 Shunyu Yao 姚顺雨。他参与的项目包括 ReAct, Reflexion, Tree of Thoughts，具有一线的实践经验和最新认知。

今天读了最近非常重要的一篇文章，来自 OpenAI 的 Agent 研究员 Shunyu Yao 姚顺雨。

他参与的项目包括 ReAct, Reflexion, Tree of Thoughts, SWE-agent，具有一线的实践经验和最新认知。

本文来自他在斯坦福224N和哥伦比亚大学的演讲。

文中提出了一些反共识的 Insights：

强化学习最重要的不是算法，而是先验知识：这颠覆了传统 RL 研究的重点。语言预训练提供的先验知识，是让 RL 泛化的关键，而不是我们几十年钻研的各种 RL 算法。

评估比训练更重要：过去 AI 社区关注如何训练出更强的模型，真正的挑战是定义“该做什么”和“如何衡量进展”。这意味着研究重点要转向问题设定和评估，而非模型本身。

通用配方会碾压大多数新方法：当前的“语言预训练 + 推理 + RL”配方已经能解决大多数任务，很多新提出的方法只带来小幅提升，甚至变得无关紧要。

AI 的 benchmark 设定与现实世界严重脱节：现实中的智能系统是连续互动、有记忆的，而现有评估设定（如 i.i.d.、自动化）忽略了这些关键特征，导致“智能水平提高了但效用没变”。

要像产品经理一样思考 AI：下半场的研究者需要具备产品思维，关注实际效用和用户体验，而不只是发表论文。这对传统学术研究者是一个挑战。

RL的关键不是算法，而是先验

这是文中最为反共识的一点。

对此，文中也用了最大的篇幅来进行解释，这部分内容非常精彩，我直接摘录原文并翻译：

强化学习 RL常被视为AI的“终局”。

理论上能赢得所有游戏，现实中也确实推动了AlphaGo等超人系统的诞生。

RL有三大核心：算法、环境、先验。

但长期以来，研究者主要关注算法（如REINFORCE、DQN、PPO等），而把环境和先验当作固定或可忽略的东西。Sutton和Barto的经典教材几乎只讲算法，几乎不提环境和先验。

但在深度强化学习时代，环境的重要性逐渐显现：算法的表现往往高度依赖于所处环境。

如果忽视环境，就可能开发出只适用于玩具问题的“最优”算法。那为何不先搞清楚我们想解决的环境，再去找最适合它的算法？

这正是OpenAI的初衷。他们开发了gym（一套标准RL环境）、World of Bits和Universe项目，试图把互联网和计算机变成游戏。

听起来不错吧？只要我们把数字世界变成环境，用聪明的RL算法解决它，就能实现数字AGI。

计划虽好，但并不完全奏效。

OpenAI在Dota、机器人手等方向取得了巨大进展，但在使用计算机或浏览网页方面始终不理想，RL代理在一个领域有效，在另一个领域就失效。缺了点什么。

直到GPT-2和GPT-3之后，我们才发现缺的是“先验”。

我们需要强大的语言预训练，把常识和语言知识注入模型，然后再微调它们，变成WebGPT或ChatGPT（并改变世界）。

结果发现，RL中最重要的部分可能既不是算法也不是环境，而是先验，而这些先验可以通过与RL完全无关的方式获得。

语言预训练提供了聊天的好先验，但对控制计算机或玩游戏的效果却不佳。为什么？

这些领域离互联网文本分布更远，直接对这些任务进行监督微调或RL训练，泛化能力差。

我2019年就注意到这个问题，那时GPT-2刚出，我尝试在其基础上用SFT/RL解决文字冒险游戏——CALM是全球第一个基于预训练语言模型构建的RL代理。但它需要上百万步RL训练才能通关一个游戏，且无法迁移到新游戏。

这在RL里不奇怪，但我觉得奇怪——因为人类可以零样本玩新游戏并表现不错。

然后我迎来了人生中第一个“顿悟时刻”：我们之所以能泛化，是因为我们不仅能选择“去2号柜子”或“用1号钥匙开3号箱子”，还可以选择去“思考”——“地下城很危险，我需要武器。看起来没有武器，也许在上锁的箱子里。3号箱子在2号柜子里，我先去那里。”

推理是一种奇怪的行为——它不会直接影响外部世界，但其空间是开放且组合爆炸的：你可以思考一个词、一句话、一段话，甚至一万个随机英文词，但世界不会立刻改变。

在经典RL理论中，这是个糟糕的交易：想象你要从两个盒子中选一个，一个有100万美元，一个是空的，预期收益是50万。现在我加上无限个空盒子，你的预期收益变成了零。

但如果我们把“推理”加入RL的行动空间，我们就能利用语言预训练的先验来泛化，而且可以灵活地在测试时使用计算资源。

这真的很神奇，我在这里无法完全解释清楚，也许以后得专门写一篇文章。你可以读ReAct了解推理代理的原始故事，也可以读我当时的vibes。

现在我直觉上的解释是：即使你见过无数空盒子，但这些经历让你在任何游戏中更容易选对那个有钱的盒子。

抽象的说法是：语言通过推理在代理中实现泛化。

一旦我们拥有了正确的RL先验（语言预训练）和RL环境（将语言推理作为行动），RL算法反而成了最无关紧要的部分。

于是我们有了o系列、R1、deep research、会用电脑的代理，以及更多即将到来的突破。

多么讽刺啊！长期以来，RL研究者最关心算法，几乎没人关注先验——所有RL实验基本都是从零开始。

但我们花了几十年才意识到，也许我们的优先级完全搞反了。

正如乔布斯所说：你无法预见未来的点如何连接，只能回头看时才明白。

AI 的下半场，重新思考评估，聚焦真实世界效用

接下来文章回顾了 AI 上半场的游戏：

开发新训练方法或模型，提升基准测试成绩；

创造更难的基准，继续这个循环。

但这个游戏正在崩塌，因为：

配方已经标准化、工业化地解决基准测试，不再需要太多新想法。配方的泛化能力太强，你为某个任务开发的新方法提升5%，下一代o系列模型可能直接提升30%；

即使我们创造更难的基准，它们也很快（而且越来越快）被配方解决。我同事Jason Wei画过一个很美的图，展示了这个趋势：

与此同时，AI已经在象棋、围棋、SAT、律师资格考试上超越人类，在IOI和IMO上拿金牌，但为什么世界并没有发生巨大变化？（从GDP和经济角度）

这是因为：

我们现在的评估设定和真实世界的设定有很多根本性的不同。

因此，我们必须重新思考评估。

不仅是创造新的、更难的基准，而是从根本上质疑现有的评估设定，并创造新的设定，迫使我们发明超越现有配方的新方法。

现在的评估有两个惯性的假设：

评估“应该”自动运行：通常代理收到任务输入，自主完成任务，然后获得奖励。但现实中，代理需要在任务过程中与人类持续互动——你不会给客服发一大段文字，等十分钟，然后指望一次回复解决所有问题。质疑这个设定后，我们得以创造新基准，如Chatbot Arena（真人参与）或tau-bench（用户模拟）。

评估“应该”是独立同分布（i.i.d.）：你有一个500个任务的测试集，逐个独立运行，最后平均得分。但现实中，任务是连续进行的。一个Google工程师在熟悉代码库后解决问题会越来越快，而一个AI代理解决多个问题却无法积累熟悉度。我们显然需要长期记忆的方法（已有一些），但学术界没有合适的基准来证明其必要性，甚至缺乏质疑i.i.d.这一机器学习基础假设的勇气。

这两个假设在上半场成立，是因为智能水平低时，提高智能几乎总能提高效用

但在AI智能水平提高之后的下半场，新的游戏是：

开发新评估设定或任务，聚焦真实世界效用；

用配方解决它们，或在配方基础上加入新组件。然后继续这个循环。

这个游戏很难，因为我们不熟悉。但它也令人兴奋。

上半场的玩家解决的是电子游戏和考试题；下半场的玩家将通过把智能转化为有用产品，建立数十亿甚至万亿美元的公司。

感兴趣的读者请看英文原文：

https://ysymyth.github.io/The-Second-Half/

以上就是今天的全部内容。

如果对你有帮助，请转发给朋友一起进步。

公众号的推送很糟糕，为避免错过，请把橘子汽水铺加上星标。

阅读原文