机器之心PRO · 会员通讯 Week 26 2. 硅谷 AI Leaders 近期「暴论」大盘点!
本期完整版通讯含 2 项专题解读 + 29 项 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 9 项,国外方面 9 项。 本期通讯总计 23143 字,可免费试读至 9% 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读① 从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?引言:RL 与 LLM 结合是重要的技术发展方向,其应用从后训练阶段延伸至预训练阶段。与自回归(AR)同为优化「下一个词元预测」(NTP)的局部概率的建模方法,RL 的引入将文本生成过程重构为序贯决策问题,让 LLM 生成 token 时需要在历史文本的关联上增加对未来「累积奖励」的评估。这种延展看似为 LLM+RL 的路线带来更多希望,但 RL 本身存在的局限和挑战仍是亟待解决的问题。
从后训练到预训练,RL 在 LLM 中的潜力是「越来越大」,还是道路坎坷?1、LLM 在演进中长期依赖的监督学习范式通常依赖人类提供的、从输入到输出的完整监督信号进行学习。这种路径对监督数据的需求和监督信号正确性的要求,让强化学习成为了一种可能的解决方案,并得到大量探索。[1-1]① LLM 预训练对监督数据的需求趋于无穷,且需要覆盖尽可能所有遇到的问题,同时要求监督信号必须准确无误,从而保证模型正确性。② 两项要求在现实中均难以实现,原因在于高质量人类标注数据生产成本高昂且效率优先,同时人类知识本身存在边界和偏见。这些局限导致需要一种方法来解决高效&低成本获取数据,同时放宽监督信号质量要求的方法来改善。③ 强化学习的特征在于数据由模型和环境交互自发生成,可解决数据来源的限制;RL 的奖励信号(reward)则不需要监督着提供「专家级答案」,将监督信息从「生成式」退化为「验证式」,降低了对质量和标注难度的要求。2、强化学习在 LLM 中的应用,最初集中在后训练(Post-training)阶段。其中的代表性技术是基于人类反馈的强化学习(RLHF),而后发展出 RLAIF、PPO、DPO 和近期较为流行的 RLVR 等工艺。3、近期,微软研究院和清北研究者的「Reinforcement Pre-Training(RPT)」将 RL 的应用范围从后训练进一步扩展到了预训练阶段。[1-2]① 在传统自监督学习的基础上,引入了基于任务结果的奖励机制,将结果导向的信号融入了模型的基础学习过程,其训练的模型在部分推理基准上表现超越了体量更大的、采用传统方式训练的模型。4、RL 从模型后训练走向预训练的探索和尝试为 LLM 突破极限带来新希望,但是这些方法的已知局限在被逐渐缓解的同时,LLM+RL 在理论、技术实现和任务上的局限也在被逐步发掘,导致 LLM+RL 的路线看似前途光明,实则道路坎坷。都是 NTP,用 RL 做预训练有哪些门道?1、微软研究院、清华和北大的研究者提出的 RPT 证明了 LLM 预训练的 NTP(下个词元预测)任务可以被重塑为一个可验证的推理任务,解锁强化学习对标注数据的依赖,将传统用于 NTP 的海量无标注文本数据,转化为适用于通用强化学习的大规模训练资源,引起许多关注。[1-2]① NTP 是大多数 LLM 的基石,其目标是最大化预测语料库中下一个 token 的概率,本质上是让模型学习 token 间的贡献关系。这种方法在需要深度推理的复杂场景可能会鼓励模型「死记硬背」而非去「理解」。② RPT 的核心思想是将每个 NTP 步骤都转变为需要推理才能解决的问题,模型会先生成一段 CoT,然后给出预测的 token,由此规避了 RLHF 以来告知了数据,RLVR 受限于标准答案等局限。2、虽然 RPT 在一定程度上展现了 RL 在预训练阶段的潜力,但该工作的训练语料、训练设置尚未在更广泛的文本、以和基础模型上得以验证,且 RL 训练需要大量计算资源的局限仍然存在。3、在 RPT 之前,用 RL 进行 LLM 预训练的课题在 2022 年甚至更早就已得到关注。彼时,研究者从多个角度总结了 RL 中少有预训练模型的原因,如南京大学 AI 学院副院长在知乎话题中给出了较为全面的观点。[1-3]
--- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 ---
1.从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?
都是 NPT,用 RL 做预训练的潜力更大吗?为什么强化学习里很少有预训练模型?最流行的 RL 范式有何理论缺陷? 已有成效的后训练 RL 实现存在什么问题?
未来订阅 ChatGPT 就送人形机器人?AGI 为什么可能永远无法实现?为什么 AI 比程序员更显性价比?行业大模型真的没必要吗?做好研究不如写好推文?OpenAI 和 Nvidia 的「AI 工厂」有何区别?
要事解读① 从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?引言:RL 与 LLM 结合是重要的技术发展方向,其应用从后训练阶段延伸至预训练阶段。与自回归(AR)同为优化「下一个词元预测」(NTP)的局部概率的建模方法,RL 的引入将文本生成过程重构为序贯决策问题,让 LLM 生成 token 时需要在历史文本的关联上增加对未来「累积奖励」的评估。这种延展看似为 LLM+RL 的路线带来更多希望,但 RL 本身存在的局限和挑战仍是亟待解决的问题。
从后训练到预训练,RL 在 LLM 中的潜力是「越来越大」,还是道路坎坷?1、LLM 在演进中长期依赖的监督学习范式通常依赖人类提供的、从输入到输出的完整监督信号进行学习。这种路径对监督数据的需求和监督信号正确性的要求,让强化学习成为了一种可能的解决方案,并得到大量探索。[1-1]① LLM 预训练对监督数据的需求趋于无穷,且需要覆盖尽可能所有遇到的问题,同时要求监督信号必须准确无误,从而保证模型正确性。② 两项要求在现实中均难以实现,原因在于高质量人类标注数据生产成本高昂且效率优先,同时人类知识本身存在边界和偏见。这些局限导致需要一种方法来解决高效&低成本获取数据,同时放宽监督信号质量要求的方法来改善。③ 强化学习的特征在于数据由模型和环境交互自发生成,可解决数据来源的限制;RL 的奖励信号(reward)则不需要监督着提供「专家级答案」,将监督信息从「生成式」退化为「验证式」,降低了对质量和标注难度的要求。2、强化学习在 LLM 中的应用,最初集中在后训练(Post-training)阶段。其中的代表性技术是基于人类反馈的强化学习(RLHF),而后发展出 RLAIF、PPO、DPO 和近期较为流行的 RLVR 等工艺。3、近期,微软研究院和清北研究者的「Reinforcement Pre-Training(RPT)」将 RL 的应用范围从后训练进一步扩展到了预训练阶段。[1-2]① 在传统自监督学习的基础上,引入了基于任务结果的奖励机制,将结果导向的信号融入了模型的基础学习过程,其训练的模型在部分推理基准上表现超越了体量更大的、采用传统方式训练的模型。4、RL 从模型后训练走向预训练的探索和尝试为 LLM 突破极限带来新希望,但是这些方法的已知局限在被逐渐缓解的同时,LLM+RL 在理论、技术实现和任务上的局限也在被逐步发掘,导致 LLM+RL 的路线看似前途光明,实则道路坎坷。都是 NTP,用 RL 做预训练有哪些门道?1、微软研究院、清华和北大的研究者提出的 RPT 证明了 LLM 预训练的 NTP(下个词元预测)任务可以被重塑为一个可验证的推理任务,解锁强化学习对标注数据的依赖,将传统用于 NTP 的海量无标注文本数据,转化为适用于通用强化学习的大规模训练资源,引起许多关注。[1-2]① NTP 是大多数 LLM 的基石,其目标是最大化预测语料库中下一个 token 的概率,本质上是让模型学习 token 间的贡献关系。这种方法在需要深度推理的复杂场景可能会鼓励模型「死记硬背」而非去「理解」。② RPT 的核心思想是将每个 NTP 步骤都转变为需要推理才能解决的问题,模型会先生成一段 CoT,然后给出预测的 token,由此规避了 RLHF 以来告知了数据,RLVR 受限于标准答案等局限。2、虽然 RPT 在一定程度上展现了 RL 在预训练阶段的潜力,但该工作的训练语料、训练设置尚未在更广泛的文本、以和基础模型上得以验证,且 RL 训练需要大量计算资源的局限仍然存在。3、在 RPT 之前,用 RL 进行 LLM 预训练的课题在 2022 年甚至更早就已得到关注。彼时,研究者从多个角度总结了 RL 中少有预训练模型的原因,如南京大学 AI 学院副院长在知乎话题中给出了较为全面的观点。[1-3]
文章原文