IT之家 02月22日
1/30 训练步骤复刻 DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型 RL 训练方法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阶跃星辰与清华联合发布Open Reasoner Zero (ORZ),由AI大拿沈向洋等大佬署名。该研究表明,使用极简主义的PPO方法,仅用DeepSeek-R1-Zero 1/30的训练步骤,即可赶上相同尺寸的DeepSeek-R1-Zero蒸馏Qwen,在响应长度上,用约17%的训练步骤就能赶上DeepSeek-R1-Zero 671B。研究团队还发现,在训练步骤约680步时,模型训练奖励值、反思能力和回答长度同时显著提升,疑似出现“顿悟时刻”。目前,训练数据、代码、论文、模型全部开源。

🧪团队证明了极简主义的方法,带有GAE的原版PPO可以有效地扩展RL训练,关键参数设置为GAE λ= 1,折扣因子 γ=1。再加上基于规则的奖励函数,足以在推理任务上同时扩大响应长度和基准性能,表明复杂的奖励函数是不必要的。

📈在不依赖任何基于KL的正则化技术的情况下,Open Reasoner Zero实现了稳定的训练,这与RLHF和推理模型领域目前的认知不同,为进一步扩大强化学习规模提供了希望。

📚扩大数据数量和多样性对于Open Reasoner Zero的训练至关重要。精心策划的大规模多样化数据集能够实现持续扩展,在训练集和测试集上都没有饱和的迹象。

💡研究发现,在以Qwen2.5-Base-7B为基础模型的实验中,所有基准测试在某个时间点都会经历奖励和响应长度的突然增加,类似于涌现行为。一个特别值得注意的现象出现在第680步附近,可以观察到三个指标同时加速。

DeepSeek 啥都开源了,就是没有开源训练代码和数据。

现在,开源 RL 训练方法只需要用 1/30 的训练步骤就能赶上相同尺寸的 DeepSeek-R1-Zero 蒸馏 Qwen

国内大模型六小强之一的阶跃星辰联与清华联合发布 Open Reasoner Zero(ORZ),由 AI 大拿沈向洋、阶跃星辰创始人 / CEO 姜大昕、ResNet 作者张祥雨等一众大佬亲自署名。

在响应长度上,用约 17% 的训练步骤就能赶上 DeepSeek-R1-Zero 671B。

值得关注的是,团队还发现了一个重要的转折点 ——

在训练步骤约 680 步时,模型的训练奖励值、反思能力和回答长度同时出现显著提升,疑似出现了 DeepSeek-R1-Zero 论文中类似的“顿悟时刻”(aha moment)。

目前,研究训练数据、训练代码、论文、模型全都 100%开源,开源许可证用的也是宽松的 MIT Lisence。

开源 48 小时,就已速揽 700 + 星星。

以下是更多细节。

复杂的奖励函数不必要?!

通过广泛的实验,团队证明了一种极简主义的方法,带有 GAE 的原版 PPO 就可以有效地扩展 RL 训练(关键的参数设置是 GAE λ= 1,折扣因子 γ=1)。

再加上基于规则的奖励函数,足以在推理任务上同时扩大响应长度和基准性能,类似于 DeepSeek-R1-Zero 中观察到的现象。

这一结果表明复杂的奖励函数是不必要的。

另外,团队在不依赖任何基于 KL 的正则化技术的情况下实现了稳定的训练,这与 RLHF 和推理模型领域目前的认知不同,这也为进一步扩大强化学习规模提供了希望。

同时扩大数据数量和多样性对于 Open Reasoner Zero 的训练至关重要。虽然在像 MATH 这样有限的学术数据集上训练会导致性能快速达到平台期,但精心策划的大规模多样化数据集能够实现持续扩展,在训练集和测试集上都没有饱和的迹象。

在以 Qwen2.5-Base-7B 为基础模型的实验中,所有基准测试在某个时间点都会经历奖励和响应长度的突然增加,这种现象类似于涌现行为。

在整个训练过程中,Average Correct Reflection Length 始终高于 Average Response Length。一个特别值得注意的现象出现在第 680 步附近,可以观察到三个指标同时加速。

最终,Open-Reasoner-Zero 模型在 MMLU 和 MMLU_PRO 基准测试中,无需任何额外的指令调整即可超越 Qwen2.5 Instruct。

One More Thing

昨天,在阶跃星辰生态开放日上,阶跃星辰创始人兼 CEO 姜大昕就有简单提及这项研究。

只提了一嘴,是因为研究还未完全完成(Working in Progress),随时可能有新进展,感兴趣的盆友可以关注一哈。

项目地址:

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨西风

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Open Reasoner Zero 强化学习 开源 大模型 阶跃星辰
相关文章