机器之心 16小时前
从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本周的会员通讯聚焦于AI与机器人领域的两大核心议题。首先,深入探讨了强化学习(RL)在大型语言模型(LLM)预训练中的潜力,分析了从后训练到预训练的技术演进,以及RL在解决LLM训练数据需求和监督信号质量方面的优势。其次,文章梳理了硅谷AI领袖的观点,涵盖了从人形机器人到AGI实现的各种热门话题,并对行业大模型、AI性价比等进行了深入剖析。

💡 LLM的传统监督学习依赖完整且准确的监督信号,这在数据需求和质量上都面临挑战,而强化学习(RL)通过自发生成数据和降低对监督信号质量的要求,为LLM提供了新的解决方案。

🚀 RL在LLM中的应用已从后训练阶段扩展到预训练阶段,如微软研究院提出的Reinforcement Pre-Training (RPT) 方法,它将RL引入预训练,在推理基准上展现出潜力。

🤔 RPT 将NTP任务重塑为可验证的推理任务,解决了RL对标注数据的依赖,将无标注文本转化为RL训练资源,但其训练语料和计算资源仍有限制。

🗣️ 硅谷AI领袖们对AI未来发展发表了各自的看法,涵盖了人形机器人、AGI、AI性价比等热门话题,反映了行业对AI技术和商业模式的多元思考。

机器之心PRO · 会员通讯 Week 26

--- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 ---

1.从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?

都是 NPT,用 RL 做预训练的潜力更大吗?为什么强化学习里很少有预训练模型?最流行的 RL 范式有何理论缺陷? 已有成效的后训练 RL 实现存在什么问题?

2. 硅谷 AI Leaders 近期「暴论」大盘点!

未来订阅 ChatGPT 就送人形机器人?AGI 为什么可能永远无法实现?为什么 AI 比程序员更显性价比?行业大模型真的没必要吗?做好研究不如写好推文?OpenAI 和 Nvidia 的「AI 工厂」有何区别?


本期完整版通讯含 2 项专题解读 + 29 项 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 9 项,国外方面 9 项。
本期通讯总计 23143 字,可免费试读至 9%  消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读①  从后训练回到预训练,LLM+RL 的潜力兑现有有机会走更远吗?引言:RL 与 LLM 结合是重要的技术发展方向,其应用从后训练阶段延伸至预训练阶段。与自回归(AR)同为优化「下一个词元预测」(NTP)的局部概率的建模方法,RL 的引入将文本生成过程重构为序贯决策问题,让 LLM 生成 token 时需要在历史文本的关联上增加对未来「累积奖励」的评估。这种延展看似为 LLM+RL 的路线带来更多希望,但 RL 本身存在的局限和挑战仍是亟待解决的问题。

从后训练到预训练,RL 在 LLM 中的潜力「越来越大」,还是道路坎坷1、LLM 在演进中长期依赖的监督学习范式通常依赖人类提供的、从输入到输出的完整监督信号进行学习。这种路径对监督数据的需求和监督信号正确性的要求,让强化学习成为了一种可能的解决方案,并得到大量探索。[1-1]

① LLM 预训练对监督数据的需求趋于无穷,且需要覆盖尽可能所有遇到的问题,同时要求监督信号必须准确无误,从而保证模型正确性。

② 两项要求在现实中均难以实现,原因在于高质量人类标注数据生产成本高昂且效率优先,同时人类知识本身存在边界和偏见。这些局限导致需要一种方法来解决高效&低成本获取数据,同时放宽监督信号质量要求的方法来改善。

③ 强化学习的特征在于数据由模型和环境交互自发生成,可解决数据来源的限制;RL 的奖励信号(reward)则不需要监督着提供「专家级答案」,将监督信息从「生成式」退化为「验证式」,降低了对质量和标注难度的要求。

2、强化学习在 LLM 中的应用,最初集中在后训练(Post-training)阶段。其中的代表性技术是基于人类反馈的强化学习(RLHF),而后发展出 RLAIF、PPO、DPO 和近期较为流行的 RLVR 等工艺。

3、近期,微软研究院和清北研究者的「Reinforcement Pre-Training(RPT)」将 RL 的应用范围从后训练进一步扩展到了预训练阶段。[1-2]

① 在传统自监督学习的基础上,引入了基于任务结果的奖励机制,将结果导向的信号融入了模型的基础学习过程,其训练的模型在部分推理基准上表现超越了体量更大的、采用传统方式训练的模型。

4、RL 从模型后训练走向预训练的探索和尝试为 LLM 突破极限带来新希望,但是这些方法的已知局限在被逐渐缓解的同时,LLM+RL 在理论、技术实现和任务上的局限也在被逐步发掘,导致 LLM+RL 的路线看似前途光明,实则道路坎坷。

都是 NTP,用 RL 做预训练有哪些门道?

1、微软研究院、清华和北大的研究者提出的 RPT 证明了 LLM 预训练的 NTP(下个词元预测)任务可以被重塑为一个可验证的推理任务,解锁强化学习对标注数据的依赖,将传统用于 NTP 的海量无标注文本数据,转化为适用于通用强化学习的大规模训练资源,引起许多关注。[1-2]

① NTP 是大多数 LLM 的基石,其目标是最大化预测语料库中下一个 token 的概率,本质上是让模型学习 token 间的贡献关系。这种方法在需要深度推理的复杂场景可能会鼓励模型「死记硬背」而非去「理解」。

② RPT 的核心思想是将每个 NTP 步骤都转变为需要推理才能解决的问题,模型会先生成一段 CoT,然后给出预测的 token,由此规避了 RLHF 以来告知了数据,RLVR 受限于标准答案等局限。

2、虽然 RPT 在一定程度上展现了 RL 在预训练阶段的潜力,但该工作的训练语料、训练设置尚未在更广泛的文本、以和基础模型上得以验证,且 RL 训练需要大量计算资源的局限仍然存在。

3、在 RPT 之前,用 RL 进行 LLM 预训练的课题在 2022 年甚至更早就已得到关注。彼时,研究者从多个角度总结了 RL 中少有预训练模型的原因,如南京大学 AI 学院副院长在知乎话题中给出了较为全面的观点。[1-3]


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LLM 强化学习 预训练 AI领袖观点
相关文章