AI探索站 - 即刻圈子 04月20日 13:14
《AI 的下半场》 最近非常重要的一篇文章 来自一线的 OpenAI 的 Agent 研究员 yaoshunyu 文中提出了一些反共识的 Inshgts: - 强化学习最重要的不是算法,而是先...
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了OpenAI研究员关于强化学习(RL)的深刻见解,颠覆了传统RL研究的重点。文章认为,RL成功的关键并非算法,而是先验知识,尤其是语言预训练。评估的重要性被强调,指出定义“该做什么”和“如何衡量进展”才是真正的挑战。文章还提到了通用配方的重要性,以及现有评估设定与现实世界的脱节。最后,文章呼吁研究者像产品经理一样思考AI,关注实际效用和用户体验。

💡 强化学习的核心在于先验知识,而非算法本身。语言预训练提供的常识和语言知识是RL泛化的关键,而非各种复杂的RL算法。这颠覆了传统RL研究的重点,强调了预训练模型的重要性。

🔑 评估比训练更重要,关键在于定义“该做什么”和“如何衡量进展”。文章指出,当前AI社区过于关注如何训练出更强的模型,而忽略了问题设定和评估的重要性。研究重点应转向问题设定和评估,而非模型本身。

✅ 通用配方的重要性:当前的“语言预训练 + 推理 + RL”配方已经能解决大多数任务。许多新方法带来的提升有限,甚至变得无关紧要,表明通用配方在解决实际问题中的优势。

🌍 现有评估设定与现实世界脱节,导致智能水平提高但效用未变。现有评估忽略了现实世界中智能系统连续互动和有记忆的特征,导致评估结果与实际应用脱节。

👨‍💼 研究者应具备产品思维,关注实际效用和用户体验。作者认为,AI研究者需要像产品经理一样思考,关注实际效用和用户体验,而非仅限于发表论文,这对于传统学术研究者是一个挑战。


The Second Half

《AI 的下半场》
最近非常重要的一篇文章
来自一线的 OpenAI 的 Agent 研究员 yaoshunyu

文中提出了一些反共识的 Inshgts:

- 强化学习最重要的不是算法,而是先验知识:这颠覆了传统 RL 研究的重点。语言预训练提供的先验知识,是让 RL 泛化的关键,而不是我们几十年钻研的各种 RL 算法。

- 评估比训练更重要:过去 AI 社区关注如何训练出更强的模型,真正的挑战是定义“该做什么”和“如何衡量进展”。这意味着研究重点要转向问题设定和评估,而非模型本身。

- 通用配方会碾压大多数新方法:当前的“语言预训练 + 推理 + RL”配方已经能解决大多数任务,很多新提出的方法只带来小幅提升,甚至变得无关紧要。

- AI 的 benchmark 设定与现实世界严重脱节:现实中的智能系统是连续互动、有记忆的,而现有评估设定(如 i.i.d.、自动化)忽略了这些关键特征,导致“智能水平提高了但效用没变”。

- 要像产品经理一样思考 AI:下半场的研究者需要具备产品思维,关注实际效用和用户体验,而不只是发表论文。这对传统学术研究者是一个挑战。

特别是RL的关键不是算法这一点,值得我们思考:

RL常被视为AI的“终局”——理论上能赢得所有游戏,现实中也确实推动了AlphaGo等超人系统的诞生。

RL有三大核心:算法、环境、先验。长期以来,研究者主要关注算法(如REINFORCE、DQN、PPO等),而把环境和先验当作固定或可忽略的东西。Sutton和Barto的经典教材几乎只讲算法,几乎不提环境和先验。

但在深度强化学习时代,环境的重要性逐渐显现:算法的表现往往高度依赖于所处环境。如果忽视环境,就可能开发出只适用于玩具问题的“最优”算法。那为何不先搞清楚我们想解决的环境,再去找最适合它的算法?

这正是OpenAI的初衷。他们开发了gym(一套标准RL环境)、World of Bits和Universe项目,试图把互联网和计算机变成游戏。听起来不错吧?只要我们把数字世界变成环境,用聪明的RL算法解决它,就能实现数字AGI。

计划虽好,但并不完全奏效。OpenAI在Dota、机器人手等方向取得了巨大进展,但在使用计算机或浏览网页方面始终不理想,RL代理在一个领域有效,在另一个领域就失效。缺了点什么。

直到GPT-2和GPT-3之后,我们才发现缺的是“先验”。我们需要强大的语言预训练,把常识和语言知识注入模型,然后再微调它们,变成WebGPT或ChatGPT(并改变世界)。结果发现,RL中最重要的部分可能既不是算法也不是环境,而是先验,而这些先验可以通过与RL完全无关的方式获得。

语言预训练提供了聊天的好先验,但对控制计算机或玩游戏的效果却不佳。为什么?这些领域离互联网文本分布更远,直接对这些任务进行监督微调或RL训练,泛化能力差。我2019年就注意到这个问题,那时GPT-2刚出,我尝试在其基础上用SFT/RL解决文字冒险游戏——CALM是全球第一个基于预训练语言模型构建的RL代理。但它需要上百万步RL训练才能通关一个游戏,且无法迁移到新游戏。这在RL里不奇怪,但我觉得奇怪——因为人类可以零样本玩新游戏并表现不错。然后我迎来了人生中第一个“顿悟时刻”:我们之所以能泛化,是因为我们不仅能选择“去2号柜子”或“用1号钥匙开3号箱子”,还可以选择去“思考”——“地下城很危险,我需要武器。看起来没有武器,也许在上锁的箱子里。3号箱子在2号柜子里,我先去那里。”

推理是一种奇怪的行为——它不会直接影响外部世界,但其空间是开放且组合爆炸的:你可以思考一个词、一句话、一段话,甚至一万个随机英文词,但世界不会立刻改变。在经典RL理论中,这是个糟糕的交易:想象你要从两个盒子中选一个,一个有100万美元,一个是空的,预期收益是50万。现在我加上无限个空盒子,你的预期收益变成了零。但如果我们把“推理”加入RL的行动空间,我们就能利用语言预训练的先验来泛化,而且可以灵活地在测试时使用计算资源。这真的很神奇,我在这里无法完全解释清楚,也许以后得专门写一篇文章。你可以读ReAct了解推理代理的原始故事,也可以读我当时的vibes。现在我直觉上的解释是:即使你见过无数空盒子,但这些经历让你在任何游戏中更容易选对那个有钱的盒子。抽象的说法是:语言通过推理在代理中实现泛化。

一旦我们拥有了正确的RL先验(语言预训练)和RL环境(将语言推理作为行动),RL算法反而成了最无关紧要的部分。于是我们有了o系列、R1、deep research、会用电脑的代理,以及更多即将到来的突破。多么讽刺啊!长期以来,RL研究者最关心算法,几乎没人关注先验——所有RL实验基本都是从零开始。但我们花了几十年才意识到,也许我们的优先级完全搞反了。

正如乔布斯所说:你无法预见未来的点如何连接,只能回头看时才明白。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

强化学习 AI 预训练 先验知识 评估
相关文章