OpenAI大佬：AI上半场忙着开发新训练方法和模型GPT-4/o1/o3，下半场呢？

2025-04-20 11:49 湖北

OpenAI大佬姚顺雨发表一篇名为“The Second Half”博客，核心观点是人工智能（AI）的发展已经进入了一个新的阶段，即“下半场”：

从现在开始，将把重点从解决问题转移到定义问题上；

评估将比训练更为重要，不再只是问：“我们能否训练一个模型来解决X问题？”而是要问：“我们应该训练人工智能去做什么，以及我们如何衡量真正的进步？”；

为了在AI的下半场取得成功，需要及时转变思维方式和技能组合，这些思维方式和技能组合或许更接近产品经理的思维和技能。

重点：在过去的几十年中，AI的研究主要集中在开发新的训练方法和模型，如深度学习、强化学习（RL）等。这些方法取得了显著的成果，例如DeepBlue、AlphaGo、GPT-4等。

成果：这些模型在各种任务上表现出色，包括棋类游戏、语言模型、数学竞赛等，推动了AI的快速发展。

评价方式：AI的评价主要依赖于基准测试（benchmarks），例如ImageNet、WMT’14等。这些基准测试为模型的性能提供了量化指标，但往往被视为次要角色。

关键转折点：强化学习（RL）在过去一直未能很好地泛化，但最近取得了重大突破。通过语言和推理，RL现在可以解决一系列广泛的任务，如软件工程、创意写作、数学竞赛等。

在强化学习（RL）中，有三个关键组成部分：算法、环境和先验知识

事实证明，强化学习中最重要的部分可能根本不是强化学习算法或环境，而是先验知识，而这些先验知识可以通过与强化学习完全无关的方式获得。

核心要素：这种突破的实现依赖于三个关键要素：

大规模语言预训练：通过预训练模型（如GPT-3）获取通用的常识和语言知识。

规模（数据和计算）：大规模的数据和计算能力是实现这种泛化能力的基础。

推理和行动：将推理作为RL环境中的行动，利用语言预训练的先验知识来实现泛化。

新的焦点：AI的下半场将从“解决问题”转向“定义问题”。这意味着评价将比训练更重要，研究者需要思考“我们应该训练AI做什么，以及如何衡量真正的进步”。

评价的重要性：过去，AI的研究侧重于开发新的模型和方法，以在基准测试中取得更好的成绩。但在下半场，研究者需要重新思考评价机制，创造新的任务和评价标准，以推动AI在现实世界中的应用。

现实世界的应用：尽管AI在各种基准测试中取得了巨大成功，但这些成功尚未对经济和GDP产生显著影响。这是因为现有的评价机制与现实世界的实际应用存在差异。例如，现实中的任务往往需要与人类互动，而不是完全自动化的。

互动性：现实世界中的任务往往需要与人类互动，而不是完全自动化的。新的评价机制需要考虑这种互动性，例如通过引入真实的人类用户（如Chatbot Arena）或用户模拟（如tau-bench）。

非独立同分布（non-i.i.d.）：现实世界中的任务往往是顺序解决的，而不是独立同分布的。新的评价机制需要考虑这种顺序性，例如通过引入长期记忆方法。

更多信息：《动手设计AI Agents：CrewAI版》、《高级RAG之36技》、新技术实战：中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日报/月报、最新技术热点追踪解读（GPT4-o/数字人/MCP/Gemini 2.5 Pro）

https://ysymyth.github.io/The-Second-Half/

Fish AI Reader