智源社区 7小时前
Qwen首次公开强化学习核心算法,超越字节GRPO
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

通义千问开源GSPO强化学习新算法,同等算力下训练效率碾压GRPO,准确率和性能飙升。GSPO定义序列级别重要性比率,在序列层面执行裁剪、奖励和优化,引发期待。相比GRPO,GSPO在高效、稳定和基础设施友好方面有三大优势。实验证明GSPO无需Routing Replay策略即可收敛,且裁剪token比例超GRPO百倍,进一步释放RL scaling潜能。

🔍 GSPO定义序列级别重要性比率,在序列层面执行裁剪、奖励和优化,显著提升训练效率与性能。

💪 GSPO具备高效、稳定和基础设施友好的三大优势,能通过增加算力持续提升性能,并解决MoE模型RL训练稳定性问题。

🚀 GSPO裁剪token比例超GRPO百倍,表明其序列级别优化目标更可靠有效,且无需Routing Replay策略即可收敛,简化训练过程。

🔗 GSPO仅关注序列级别似然,对精度差异容忍度高,可直接使用推理引擎返回的似然进行优化,适用于多种复杂场景。

🌐 GSPO成功应用于Qwen3模型的大规模RL训练,进一步释放了RL scaling的潜能,展现了强大的应用前景。

🔧 GSPO在基础设施友好方面表现突出,对精度容忍度高,简化RL基础设施,具有诱人前景。

通义千问一周开源三连暴击,背后杀手锏官方来揭秘了:

强化学习新算法GSPO

同等算力下,训练效率碾压GRPO,准确率和性能飙升。

背后的核心创新在于:GSPO定义了序列级别的重要性比率,并在序列层面执行裁剪、奖励和优化。

此算法一出,便迅速引发了人们对其在其他模型中应用效果的期待。

序列级优化目标

相较于GRPO,GSPO有三大突出优势:

强大高效:GSPO具备显著更高的训练效率,并且能够通过增加计算获得持续的性能提升;

稳定性出色:GSPO能够保持稳定的训练过程,并且根本地解决了混合专家(Mixture-of-Experts,MoE)模型的RL训练稳定性问题;

基础设施友好:由于在序列层面执行优化,GSPO原则上对精度容忍度更高,具有简化RL基础设施的诱人前景。

而这一切优势的背后,正是GSPO在设计上所引入的序列级优化目标

为查询,为用于采样回复的策略,为采样得到的回复组,为各个回复的组内相对优势,为需优化的当前策略。

GSPO采用以下优化目标:


即为GSPO基于序列似然定义的重要性比率,其中研究人员进行了长度归一化以降低方差并统一的数值范围。

GSPO裁剪token比例超GRPO百倍

实验中,研究人员选用了基于Qwen3-30B-A3B-Base微调得到的冷启动模型,并在AIME’24、LiveCodeBench和CodeForces等多个权威基准任务上测试其性能。

值得注意的是,GRPO必须采用Routing Replay训练策略才能正常收敛,而GSPO则无需该策略

从上图可见,GSPO表现出比GRPO更高的训练效率,即在同等计算开销下能够取得更优的性能。

特别地,他们还观察到GSPO可以通过增加算力来获得持续的性能提升——这正是他们所期待算法的可拓展性。

最终,他们成功地将GSPO应用于最新的Qwen3模型的大规模RL训练,进一步释放了RL scaling的潜能!

还有个有趣的观察,GSPO所裁剪的token比例比GRPO要高上两个数量级,但却具有更高的训练效率。

这进一步表明,GRPO所采用的token级优化目标存在噪声大、效率低的问题,而GSPO的序列级别的优化目标则提供了更可靠、有效的学习信号。

在使用GRPO训练时,MoE模型的专家激活波动性常导致RL训练无法正常收敛。

为了解决这一挑战,研究者过去采用了路由回放(Routing Replay)训练策略,即缓存中激活的专家,并在计算重要性比率时在中“回放”这些路由模式。

上图可见,Routing Replay对于GRPO训练MoE模型的正常收敛至关重要。然而,这种做法会产生额外的内存和通信开销,并可能限制MoE模型的实际可用容量。

因此,GSPO的一大突出优势在于彻底消除了对Routing Replay的依赖。其核心在于:GSPO仅关注序列级别的似然(即),而对个别token的似然(即不敏感。

正因如此,GSPO无需Routing Replay等对基础设施负担较大的手段,既简化和稳定了训练过程,又使得模型能够最大化地发挥容量与潜能。

此外,由于GSPO仅使用序列级别而非token级别的似然进行优化,直观上前者对精度差异的容忍度要高得多。

这使得GSPO可直接使用推理引擎返回的似然进行优化,从而无需使用训练引擎重新计算。该特性在partial rollout、多轮RL以及训推分离框架等场景中特别有益。

论文链接:https://www.arxiv.org/abs/2507.18071

参考链接:
[1]https://mp.weixin.qq.com/s/Y5pfNNX4K6k0hfxXr87dkQ
[2]https://x.com/Alibaba_Qwen/status/1949412072942612873
[3]https://x.com/QGallouedec/status/1949454865442193779

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

量子位「AI 100」产品榜单启动招募!
快来提名你心目里的百强产品~

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义千问 GSPO 强化学习
相关文章