36氪 - 科技频道 06月04日 17:49
英伟达揭示RL Scaling魔力,训练步数翻倍=推理能力质变,小模型突破推理极限
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达的研究团队提出ProRL框架,通过延长强化学习训练步数,显著提升了小语言模型的推理能力。该研究指出,传统的RL训练步数不足以及训练数据中的偏见是限制模型能力提升的关键。ProRL框架通过构建多样化的可验证奖励任务、改进算法组合以及KL正则化和周期性策略重置等技术,成功使小模型在逻辑谜题、数学和代码生成等任务上取得突破性进展,展现出超越大模型的潜力。这项研究强调了长期稳定强化学习在扩展模型能力边界方面的重要性。

🧠 ProRL框架通过将强化学习训练步数扩展到2000步以上,释放了小模型的巨大潜力,使其在逻辑谜题上实现了100%的pass@k。

💡 团队构建了多样化的可验证奖励任务,涵盖数学、编程、科学问答等多领域数据,为RL训练提供了可靠的监督信号;同时,改进了GRPO算法,并引入KL正则化和周期性策略重置,以稳定训练过程。

🚀 ProRL技术训练出的Nemotron-Research-Reasoning-Qwen-1.5B模型在数学、代码生成和逻辑推理方面均展现出显著的性能提升,甚至超越了7B模型,表明长期稳定的RL能够有效扩展模型的能力边界。

强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题?这个问题,学界争论已久:RL 真能让模型学会新的推理技能吗,还是只是提高了已有知识的调用效率?

过去的研究多数持悲观态度:认为 RL 带来的收益非常有限,有时甚至会让模型「同质化」加重,失去多样性。然而,来自英伟达的这项研究指出,造成这一现象的根本原因在于:数学、编程等任务在 base model 的训练数据中被过度呈现,以及 RL 训练步数不足。

ProRL 来了!长期训练 = 推理能力质变!

由 NVIDIA 团队提出的 ProRL(Prolonged Reinforcement Learning)框架,将 RL 训练步数从传统的几百步大幅提升至 2000 步以上,释放了小模型潜藏的巨大潜力。结果令人震惊:

这一突破主要来自于稳定长期的强化学习,然而,长期 RL 训练并不容易,容易出现熵崩塌、性能震荡、甚至「摆烂」。为此,团队构建了完整的技术组合拳:

引入了数学、编程、科学问答(STEM)、逻辑谜题、指令遵循等多领域数据,这些任务具有程序化可验证的正确答案,为 RL 训练提供了可靠、客观的监督信号,不再依赖「易被骗」的奖励模型。

在 GRPO(Group Relative Policy Optimization)框架基础上,融合 DAPO(Decoupled Clip and Dynamic Sampling)关键的解耦裁剪(Decoupled Clipping)来避免策略更新失衡,以及动态采样(Dynamic Sampling)来过滤掉「太容易」或「完全不会」的无效样本,提升训练效率。

与一些去 KL 正则的做法相反,本论文发现适度 KL 惩罚是稳定训练的关键。同时引入参考策略重置机制:当 KL 骤增或性能下滑时,重置参考策略为当前模型副本,并重置优化器,让训练「重启」。这个简单机制有效打破训练停滞,使模型持续进化。

基于 ProRL 技术,团队训练出 Nemotron-Research-Reasoning-Qwen-1.5B,展现出惊人的性能优势:

    在数学任务中提升 14.7%,赶超 7B 模型 在代码生成上领先 DeepCoder-1.5B 达 6.5% 在逻辑推理方面,准确率提升高达 54.8%

ProRL 真的能够拓宽模型能力边界

近来,对于 RL 是否能够拓宽模型的能力边界一直有争议。作者在文章中着重分析了 RL 是否能够拓宽能力边界的问题,并且发现,长期稳定的 RL 能够带来模型能力的真正提升。围绕着这个主题,文章主要揭示了三个方面的发现:

而在本身已经很强的领域,如数学和代码(这些任务的「创造力指数」较低),ProRL 的边界扩展则较为有限。对于图中「Diminished Area」中提升较小的任务,作者观察到一个共同特征:这些任务在预训练数据中已被充分覆盖,缺乏进一步扩展的空间,因此 RL 提供的增益有限。

总结

这项来自 NVIDIA 的研究,让我们重新认识了 RL 的真正潜力——不仅能优化策略,还能扩展模型的能力边界。

通过 ProRL,我们第一次看到「小模型」也可以在复杂推理任务中「迎难而上」,甚至跑赢大模型。而这种进步,不靠更多数据、不靠更大模型,只靠更长、更稳、更聪明的训练流程。

未来,如果你想做出推理能力强、部署成本低、泛化能力强的小语言模型,ProRL 可能正是那把钥匙。

本文来自微信公众号“机器之心”,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ProRL 强化学习 小模型 推理能力 模型训练
相关文章