从后训练回到预训练，LLM+RL 的潜力兑现有有机会走更远吗？

机器之心PRO · 会员通讯 Week 26

--- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 ---

1.从后训练回到预训练，LLM+RL 的潜力兑现有有机会走更远吗？

都是 NPT，用 RL 做预训练的潜力更大吗？为什么强化学习里很少有预训练模型？最流行的 RL 范式有何理论缺陷？已有成效的后训练 RL 实现存在什么问题？

2. 硅谷 AI Leaders 近期「暴论」大盘点！

未来订阅 ChatGPT 就送人形机器人？AGI 为什么可能永远无法实现？为什么 AI 比程序员更显性价比？行业大模型真的没必要吗？做好研究不如写好推文？OpenAI 和 Nvidia 的「AI 工厂」有何区别？

本期完整版通讯含 2 项专题解读 + 29 项 AI & Robotics 赛道要事速递，其中技术方面 11 项，国内方面 9 项，国外方面 9 项。

本期通讯总计 23143 字，可免费试读至 9% 消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① 从后训练回到预训练，LLM+RL 的潜力兑现有有机会走更远吗？引言：RL 与 LLM 结合是重要的技术发展方向，其应用从后训练阶段延伸至预训练阶段。与自回归（AR）同为优化「下一个词元预测」（NTP）的局部概率的建模方法，RL 的引入将文本生成过程重构为序贯决策问题，让 LLM 生成 token 时需要在历史文本的关联上增加对未来「累积奖励」的评估。这种延展看似为 LLM+RL 的路线带来更多希望，但 RL 本身存在的局限和挑战仍是亟待解决的问题。

从后训练到预训练，RL 在 LLM 中的潜力是「越来越大」，还是道路坎坷？1、LLM 在演进中长期依赖的监督学习范式通常依赖人类提供的、从输入到输出的完整监督信号进行学习。这种路径对监督数据的需求和监督信号正确性的要求，让强化学习成为了一种可能的解决方案，并得到大量探索。[1-1]

① LLM 预训练对监督数据的需求趋于无穷，且需要覆盖尽可能所有遇到的问题，同时要求监督信号必须准确无误，从而保证模型正确性。

② 两项要求在现实中均难以实现，原因在于高质量人类标注数据生产成本高昂且效率优先，同时人类知识本身存在边界和偏见。这些局限导致需要一种方法来解决高效&低成本获取数据，同时放宽监督信号质量要求的方法来改善。

③ 强化学习的特征在于数据由模型和环境交互自发生成，可解决数据来源的限制；RL 的奖励信号（reward）则不需要监督着提供「专家级答案」，将监督信息从「生成式」退化为「验证式」，降低了对质量和标注难度的要求。

2、强化学习在 LLM 中的应用，最初集中在后训练（Post-training）阶段。其中的代表性技术是基于人类反馈的强化学习（RLHF），而后发展出 RLAIF、PPO、DPO 和近期较为流行的 RLVR 等工艺。

3、近期，微软研究院和清北研究者的「Reinforcement Pre-Training（RPT）」将 RL 的应用范围从后训练进一步扩展到了预训练阶段。[1-2]

① 在传统自监督学习的基础上，引入了基于任务结果的奖励机制，将结果导向的信号融入了模型的基础学习过程，其训练的模型在部分推理基准上表现超越了体量更大的、采用传统方式训练的模型。

4、RL 从模型后训练走向预训练的探索和尝试为 LLM 突破极限带来新希望，但是这些方法的已知局限在被逐渐缓解的同时，LLM+RL 在理论、技术实现和任务上的局限也在被逐步发掘，导致 LLM+RL 的路线看似前途光明，实则道路坎坷。

都是 NTP，用 RL 做预训练有哪些门道？

1、微软研究院、清华和北大的研究者提出的 RPT 证明了 LLM 预训练的 NTP（下个词元预测）任务可以被重塑为一个可验证的推理任务，解锁强化学习对标注数据的依赖，将传统用于 NTP 的海量无标注文本数据，转化为适用于通用强化学习的大规模训练资源，引起许多关注。[1-2]

① NTP 是大多数 LLM 的基石，其目标是最大化预测语料库中下一个 token 的概率，本质上是让模型学习 token 间的贡献关系。这种方法在需要深度推理的复杂场景可能会鼓励模型「死记硬背」而非去「理解」。

② RPT 的核心思想是将每个 NTP 步骤都转变为需要推理才能解决的问题，模型会先生成一段 CoT，然后给出预测的 token，由此规避了 RLHF 以来告知了数据，RLVR 受限于标准答案等局限。

2、虽然 RPT 在一定程度上展现了 RL 在预训练阶段的潜力，但该工作的训练语料、训练设置尚未在更广泛的文本、以和基础模型上得以验证，且 RL 训练需要大量计算资源的局限仍然存在。

3、在 RPT 之前，用 RL 进行 LLM 预训练的课题在 2022 年甚至更早就已得到关注。彼时，研究者从多个角度总结了 RL 中少有预训练模型的原因，如南京大学 AI 学院副院长在知乎话题中给出了较为全面的观点。[1-3]

文章原文

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签