阿里千问团队与清华LeapLab团队合作,深入研究大语言模型思维链和强化学习机制。他们发现,思维链中仅有少量高熵tokens决定逻辑方向,而大量低熵tokens辅助推理。强化学习主要改变高熵tokens的熵,保留base模型熵特征。基于此,研究团队提出仅用20%高熵tokens进行强化学习,显著提升大语言模型推理能力,尤其在大模型上效果更佳,刷新了SoTA。该研究强调了高熵tokens在模型训练中的关键作用。
🧠 研究发现,大语言模型思维链中,只有少量高熵tokens起到“fork”作用,决定了思维链的逻辑方向。而大量低熵tokens主要在既定方向内完成推理,这种分工模式揭示了tokens在推理过程中的不同功能。
💡 强化学习保留了base模型的熵特征,主要改变高熵tokens的熵,低熵tokens的熵改变幅度较小。这表明,强化学习过程在很大程度上继承了原始模型的信息,并针对关键tokens进行优化。
🔬 团队大胆尝试,在强化学习中仅使用20%的高熵tokens,丢弃80%的低熵tokens。实验结果表明,这种方法可以显著提高大语言模型的推理能力,且模型参数量越大,提升效果越明显,展现出较强的scaling性质。
🏆 在32B模型上,研究团队在AIME'24和AIME'25上分别取得了63.5和56.7分,成为当前600B以下从base模型做强化学习训练的SoTA。进一步扩展最大response length后,在AIME'24上更是达到了68.1分,刷新了SoTA。
📚 报告作者王慎执博士在强化学习和大语言模型方面有深入研究,发表多篇顶级会议论文,并参与开源了多个中文大模型和框架。他的研究成果为大语言模型的优化提供了新的思路。

报告主题:阿里千问&清华,少量的高熵tokens驱动大语言模型推理中的高效强化学习
报告日期:06月26日(周四)10:30-11:30
我们阿里Qwen团队和清华LeapLab团队通过详细分析大语言模型思维链和强化学习中的特点,发现思维链中仅有少量的tokens呈现高熵的状态,其主要起到 “fork”(分叉)的作用,决定了思维链的逻辑方向;大量的tokens呈现低熵的状态,其主要在高熵tokens既定的方向内完成推理;此外,我们发现强化学习很大程度地保留了base模型的熵特征(即哪些tokens需要高熵、哪些tokens需要低熵),并且主要仅改变高熵tokens的熵,低熵tokens的熵改变幅度较小。上述观察强调了高熵tokens在思维链和强化学习中的重要性。
基于上述观察,我们做了一个大胆的尝试:在强化学习中只用20%的高熵tokens、丢弃80%的低熵tokens。我们发现将训练聚焦在高熵tokens上可以显著提高大语言模型的推理能力,且模型参数量越大提升越明显,体现了较强的scaling性质。特别地,在32B模型上,我们在AIME'24和AIME'25上分别达到了63.5和56.7分,为当前600B以下从base模型做强化学习训练的SoTA。进一步地,如果将最大response length从20k扩展到28k进行续训,在AIME'24上可以达到68.1分,进一步刷新了SoTA。此外,我们做了大量的ablation study,并从token熵角度讨论了一些前沿问题的可能解释。
作者王慎执为清华大学自动化系直博四年级博士生,研究方向是强化学习以及大语言模型,其研究成果涉及强化学习、大语言模型后训练、大语言模型应用等多个方面。目前发表文章10余篇,主要发表在NeurIPS、ICML、CVPR、ACL、AAAI、IEEE TNNLS等顶级会议和期刊,包括一篇NeurIPS Spotlight和一篇AAAI Oral文章。在开源模型方面,作为核心开发者开源了Llama3-Chinese-Chat、Gemma-2-Chinese-Chat等系列中文模型(累计下载量突破100万次)以及Xwen-Chat模型(其72B模型在Arena-Hard上超越了当时的最强模型DeepSeek-V3)。在开源代码方面,作为开发者之一参与了EasyR1(多模态模型强化学习框架,2.7k stars)和Cooragent(多智能体协作框架,1.7k stars)等项目。
扫码报名
更多热门报告


内容中包含的图片若涉及版权问题,请及时与我们联系删除