PaperWeekly 前天 20:03
RL不只Qwen玩得转!“中期训练”让Llama一夜进化,OctoThinker横空出世
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

一项来自上海创智学院和上海交通大学的研究揭示了不同基础语言模型在强化学习(RL)训练中的差异,并提出创新的中期训练策略。该研究成功将Llama模型改造成高度适配RL的推理基础模型,缩小了其与Qwen模型之间的性能差距。研究团队通过构建高质量数学语料库、采用QA格式数据和长链推理示例,以及设计两阶段中等训练策略,显著提升了Llama模型在RL任务中的表现。最终,OctoThinker-Zero家族在数学推理任务中展现出与Qwen2.5模型相当的性能,为下一代AI系统开发提供了关键技术路径。

💡研究发现,Llama模型在RL训练中常出现问题,如提前给出答案和重复输出,而Qwen模型表现更佳,引发了对不同基座模型对RL适应性的探究。

📚研究团队通过可控的中期训练实验,探索了影响RL性能的关键因素,包括高质量数学语料库、QA格式数据、长链推理等,并提出相应的优化策略。

📈研究团队创建了MegaMath-Web-Pro-Max高质量数学语料库,并采用两阶段中等训练策略,显著提升了Llama模型在数学推理基准测试中的表现。

🚀OctoThinker-Zero家族在RL训练中表现出色,尤其在数学推理任务中与Qwen2.5模型相当,证明了中期训练策略对提升Llama模型RL兼容性的有效性。

让你更懂AI的 2025-07-01 12:37 北京

RL鸿沟终被填平!

近期,一份来自上海创智学院、上海交通大学的前沿研究论文吸引了人工智能领域的广泛关注。

该论文深入探讨了不同基础语言模型家族(如 Llama 和 Qwen)在强化学习(RL)训练中迥异表现的背后原因,并提出创新性的中期训练(mid-training)策略,成功地将 Llama 模型改造成高度适配强化学习的推理基础模型,显著缩小了其与天生擅长 RL 扩展的 Qwen 模型之间的性能差距,为下一代 reasoning 能力 AI 系统的开发提供了关键的科学基础和技术路径。

论文发布后在社交媒体引发广泛关注,Meta AI 研究科学家、即将赴 UMass Amherst 任助理教授的 Wenting Zhao 率先盛赞:“Truly impressed by how an academic lab just figured out a lot of mysteries in mid-training to close the RL gap between Llama and Qwen。” 

此外,卡内基梅隆大学副教授 Graham Neubig、MIT CSAIL/Databricks Research 研究科学家,DSPy 项目的开发者 Omar Khattab 以及 AI2 数据负责人 Loca Soldaini 也共同肯定了这项系统性分析的重要价值。

来自 Pleias AI Lab 的研究员 Alexander Doria 指出,他们的独立实验也证明,只要配合适当的数据预处理,任何模型都能显著提升 RLVR 或 RL 性能,进一步佐证了该方法的普适性。

此外,和 Octothinker 一同发布的 MegaMath-Web-Pro-Max 数据集发布即获得下载热潮,使用者覆盖了 MIT、EPFL、UW、Columbia、NUS、CMU、Princeton、THU、HKUST 等诸多顶尖高校,以及 Apple、Microsoft、TII、Moonshot、DatologyAI、AI2、IBM、Cohere、Tencent 等知名科研机构和企业,体现了学术界和工业界对这一工作的高度重视。


论文标题:

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

论文地址:

https://arxiv.org/abs/2506.20512

代码地址:

https://github.com/GAIR-NLP/OctoThinker

开源模型 & 数据

https://huggingface.co/OctoThinker


▲ 研究团队通过大规模 mid-training 成功将 Llama 模型改造成 highly RL-compatible 的推理基础模型,在数学推理上可以与 Qwen 媲美。


研究背景

将大规模强化学习(RL)引入语言模型显著提升了复杂推理能力,尤其是在数学竞赛题解等高难度任务上。

然而,近期的各项研究呈现出一系列耐人寻味的现象:

(i) 只有 Qwen 系列基础模型表现出近乎 “魔法般” 的 RL 提升;

(ii) 关键的 Aha moment 似乎主要在数学场景中出现;

(iii) 不同评测设置往往暗含偏差,影响对 RL 成效的判断;

(iv) RL 在下游看似 “岁月静好”,却在很大程度上依赖上游的 Pre-/Mid-training 质量 [1]。

与此同时,团队和其他研究者们都发现,尽管 Qwen 在 RL 扩展上高度稳健,Llama 却频繁出现提前给出答案和重复输出,难以获得同等级的性能增益。

这一系列对比引出了核心科学问题:哪些基座特性决定了模型对 RL scaling 的适应性?Mid-training 能否作为可控干预手段,弥合不同基座在 RL 中的表现鸿沟?

为了探索这些问题,团队毫无保留地交出了一份详尽的技术报告记录了他们的研究过程,和一份完全开源的数据方案和基于 Llama 充分强化性能的新系列模型 OctoThinker。


核心问题:为什么RL训练在Llama上频频失效?

当 Qwen 系列模型通过强化学习(如 PPO、GRPO)在数学推理任务上获得显著提升时,同体量的 Llama 模型却常陷入重复输出或过早给出答案的困境。

如下图所示,Llama 系列模型在直接进行强化学习训练的时候,总是会遇到 Reward Hacking、表现提升有限等一系列问题。



深入挖掘:通过可控的中期训练探索关键因素

研究团队通过对 Llama-3.2-3B 进行大量的可控 mid-training 实验(每次实验训练 20B tokens),然后进行强化学习训练观察训练动态。



中等训练策略的关键发现

高质量数学语料库的重要性:研究发现,像 MegaMath-Web-Pro 这样的高质量数学语料库,相较于 FineMath-4plus 等现有替代方案,能显著提升基础模型和 RL 性能。

例如,在使用 MegaMath-Web-Pro 时,模型在下游 RL 任务中的表现明显优于使用 FineMath-4plus 的情况。

QA 格式数据与指令数据的增益:在高质量数学预训练语料库基础上,加入 QA 样式数据(尤其是长链推理示例)可增强 RL 效果,而少量指令数据的引入能进一步释放 QA 数据潜力。

研究发现,指令数据可以帮助模型更好地理解任务要求,从而在 RL 阶段表现更佳。

长链推理的双刃剑效应:长链推理虽能提升推理深度,但也可能引发模型响应冗长及 RL 训练不稳定问题,凸显数据格式化的重要性。

例如,在实验中发现,模型在处理长链推理数据时容易出现输出过长或训练过程中的性能波动。为此研究团队通过以下方案来解决训练不稳定问题:

中等训练规模扩展的效益:增加中等训练数据量可带来更强劲的下游 RL 性能,即使基础模型评估中未明显体现这些增益。这表明,中等训练阶段的扩展对于提升模型的最终 RL 表现具有重要意义。


自建高质量数学语料库MegaMath-Web-Pro-Max

在准备语料时,团队还发现了另一个问题,即开源高质量语料的缺乏。以预训练语料为例,目前最高质量的数学语料 MegaMath-Web-Pro 包含了不到 20B tokens,但如果混合质量稍低的 FineMath 语料,则容易出现 RL 训练时的不稳定。

为了支持大规模消融研究和中期训练,研究团队创建了 MegaMath-Web-Pro-Max。该语料库通过一个高效的分类器从 MegaMath-Web 中召回文档,并进一步利用一个大语言模型进行精炼构建。

具体而言,研究团队从 MegaMath-Web 语料库中按文档的年份分层,均匀随机采样了数百万篇文档,并使用 Llama-3.1-70B-instruct 对其进行标注。每篇文档根据其在数学学习中的实用程度,被打分为 0 到 5 分,评分过程使用特定的评分提示(见论文附录)。

研究团队采用启发式方法从模型的评论中提取评分:得分低于 3 的文档被标注为负例,得分在 3 分及以上的文档被视为正例。研究团队观察到,现有的分类器(如 inemath-classifier)在数据收集过程中对文本提取器的选择非常敏感。

因此,研究团队训练了自己的分类器,并选择效率较高的 fasttext 作为分类器。与 MegaMath 的发现一致,研究团队发现预处理步骤对召回性能至关重要。研究团队的预处理流程包括将文本转换为小写、过滤过长的单词,以及去除换行符和多余的非字母数字字符。

如下图所示,研究团队按照 MegaMath-Web 提出的逐年数据集比较设定,评估了不同召回阈值下所召回语料的质量。召回阈值决定了数据质量与数量之间的权衡:较高的阈值(如 0.9)带来更高的数据质量,但保留的 token 数量较少。最终,研究团队选择了 0.4 作为召回阈值。


▲ 图:研究团队重新召回的数据与 MegaMath-Web 的按照 Common Crawl 年份逐年数据质量对比(不同的 fasttext 阈值)。

考虑到许多文档存在噪声大、结构差等问题,研究团队使用 Llama-3.1-70B-instruct 对文本进行了精炼,所用提示设计借鉴了 MegaMath-Web-Pro。最终构建的 MegaMath-Web-Pro-Max 数据集包含的 token 数量约为 MegaMath-Web-Pro 的 5.5 倍。

预训练过程中的实证评估表明,MegaMath-Web-Pro-Max 在保持数据质量的同时,具备成为大规模中期训练基础语料的潜力。

此外,研究团队也尝试通过从常见数学问题求解数据集中引入长链式思维数据来扩充正例种子集合,以提升分类器召回推理密集型内容的能力。然而,这种方法最终仅保留了约 20B tokens,研究团队认为其规模不足,因此未被采用。


突破性方案:OctoThinker的两阶段—「稳定-衰减」训练方案

基于上述发现,研究者提出两阶段中等训练策略:

第一阶段:构建强推理基座(200B tokens)

使用恒定学习率对 Llama 模型进行 200B tokens 训练,主要依赖高质量预训练语料库(如 MegaMath-Web-Pro 和 DCLM-Baselines),辅以少量合成数据,构建稳固的推理基础。

这一阶段的目标是使模型在大规模数据上逐步提升推理能力,为后续的 RL 训练打下坚实基础,产出:OctoThinker-Base-Stable 系列基模型;

第二阶段:分支专业化训练(20B tokens)

学习率衰减(余弦衰减至初始 LR 的 10%),引入不同数据混合(短链推理、长链推理及其混合),训练三个分支模型,塑造多样化模型行为。这一阶段旨在通过数据多样性和学习率调整,进一步提升模型的推理能力和适应性。

三大推理分支:




OctoThinker基础模型系列的显著提升

经两阶段中等训练后的 OctoThinker 基础模型系列,在数学推理基准测试中表现出色,相较于原始 Llama 基础模型,在所有模型尺寸上均实现了 10%-20% 的显著性能提升,为 RL 扩展奠定了坚实基础。

例如,在 GSM8K 和 MATH500 等基准测试中,OctoThinker 基座模型的准确率和推理深度均有明显提升。


▲ 图:OctoThinker 中期训练后的数学榜单表现跑分,图中所示为 1B 规模的模型结果。

▲ 图:OctoThinker 中期训练后的数学榜单表现跑分,图中所示为 3B 规模的模型结果。

▲ 图:OctoThinker 中期训练后的数学榜单表现跑分,图中所示为 8B 规模的模型结果。

OctoThinker-Zero家族在RL训练中的卓越表现

进一步对 OctoThinker 基础模型进行 RL 训练后,生成的 OctoThinker-Zero 家族(包括短链、混合链和长链推理分支)在数学推理任务中展现出与 Qwen2.5 模型相当的性能。

特别是 OctoThinker-Long-Zero 分支,在 3B 模型规格上,成功媲美以强大推理能力著称的 Qwen2.5-3B 模型,有力证明了中等训练策略对提升 Llama 模型 RL 兼容性的有效性。在多个数学推理基准测试中,OctoThinker-Zero 模型的表现与 Qwen2.5 模型不相上下,甚至在某些任务上略有超越。


▲ 图:OctoThinker 系列、Qwen-2.5、Llama-3.2 在 RL 训练中的数学基准测试动态曲线。



未来展望

研究团队计划在多个方向持续探索:一是进一步精炼数学预训练语料库以增强中等训练效果;二是采用开放配方设计无需从强大长链推理模型蒸馏的 RL 友好型基础模型;三是深入解耦 QA 格式与内容的独立贡献;四是拓展 OctoThinker 家族,增加如工具集成推理等新分支,以期为预训练与强化学习的交互机制提供更深入洞见。

参考文献

[1] 互联网博主 “AI 实话实说” 总结的 “RL” 乱象 — https://www.xiaohongshu.com/user/profile/623bfead000000001000bf09

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 


如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编


🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

强化学习 Llama模型 中期训练 OctoThinker 数学推理
相关文章