RL不只Qwen玩得转！“中期训练”让Llama一夜进化，OctoThinker横空出世

让你更懂AI的 2025-07-01 12:37 北京

RL鸿沟终被填平！

近期，一份来自上海创智学院、上海交通大学的前沿研究论文吸引了人工智能领域的广泛关注。

该论文深入探讨了不同基础语言模型家族（如 Llama 和 Qwen）在强化学习（RL）训练中迥异表现的背后原因，并提出创新性的中期训练（mid-training）策略，成功地将 Llama 模型改造成高度适配强化学习的推理基础模型，显著缩小了其与天生擅长 RL 扩展的 Qwen 模型之间的性能差距，为下一代 reasoning 能力 AI 系统的开发提供了关键的科学基础和技术路径。

论文发布后在社交媒体引发广泛关注，Meta AI 研究科学家、即将赴 UMass Amherst 任助理教授的 Wenting Zhao 率先盛赞：“Truly impressed by how an academic lab just figured out a lot of mysteries in mid-training to close the RL gap between Llama and Qwen。”

此外，卡内基梅隆大学副教授 Graham Neubig、MIT CSAIL/Databricks Research 研究科学家，DSPy 项目的开发者 Omar Khattab 以及 AI2 数据负责人 Loca Soldaini 也共同肯定了这项系统性分析的重要价值。

来自 Pleias AI Lab 的研究员 Alexander Doria 指出，他们的独立实验也证明，只要配合适当的数据预处理，任何模型都能显著提升 RLVR 或 RL 性能，进一步佐证了该方法的普适性。

此外，和 Octothinker 一同发布的 MegaMath-Web-Pro-Max 数据集发布即获得下载热潮，使用者覆盖了 MIT、EPFL、UW、Columbia、NUS、CMU、Princeton、THU、HKUST 等诸多顶尖高校，以及 Apple、Microsoft、TII、Moonshot、DatologyAI、AI2、IBM、Cohere、Tencent 等知名科研机构和企业，体现了学术界和工业界对这一工作的高度重视。

论文标题：

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

论文地址：

https://arxiv.org/abs/2506.20512

代码地址：

https://github.com/GAIR-NLP/OctoThinker

开源模型 & 数据：

https://huggingface.co/OctoThinker

▲ 研究团队通过大规模 mid-training 成功将 Llama 模型改造成 highly RL-compatible 的推理基础模型，在数学推理上可以与 Qwen 媲美。

研究背景

将大规模强化学习（RL）引入语言模型显著提升了复杂推理能力，尤其是在数学竞赛题解等高难度任务上。

然而，近期的各项研究呈现出一系列耐人寻味的现象：

(i) 只有 Qwen 系列基础模型表现出近乎 “魔法般” 的 RL 提升；

(ii) 关键的 Aha moment 似乎主要在数学场景中出现；

(iii) 不同评测设置往往暗含偏差，影响对 RL 成效的判断；

(iv) RL 在下游看似 “岁月静好”，却在很大程度上依赖上游的 Pre-/Mid-training 质量 [1]。

与此同时，团队和其他研究者们都发现，尽管 Qwen 在 RL 扩展上高度稳健，Llama 却频繁出现提前给出答案和重复输出，难以获得同等级的性能增益。

这一系列对比引出了核心科学问题：哪些基座特性决定了模型对 RL scaling 的适应性？Mid-training 能否作为可控干预手段，弥合不同基座在 RL 中的表现鸿沟？

为了探索这些问题，团队毫无保留地交出了一份详尽的技术报告记录了他们的研究过程，和一份完全开源的数据方案和基于 Llama 充分强化性能的新系列模型 OctoThinker。

核心问题：为什么RL训练在Llama上频频失效？

当 Qwen 系列模型通过强化学习（如 PPO、GRPO）在数学推理任务上获得显著提升时，同体量的 Llama 模型却常陷入重复输出或过早给出答案的困境。

如下图所示，Llama 系列模型在直接进行强化学习训练的时候，总是会遇到 Reward Hacking、表现提升有限等一系列问题。

深入挖掘：通过可控的中期训练探索关键因素

研究团队通过对 Llama-3.2-3B 进行大量的可控 mid-training 实验（每次实验训练 20B tokens），然后进行强化学习训练观察训练动态。

中等训练策略的关键发现

高质量数学语料库的重要性：研究发现，像 MegaMath-Web-Pro 这样的高质量数学语料库，相较于 FineMath-4plus 等现有替代方案，能显著提升基础模型和 RL 性能。

例如，在使用 MegaMath-Web-Pro 时，模型在下游 RL 任务中的表现明显优于使用 FineMath-4plus 的情况。

QA 格式数据与指令数据的增益：在高质量数学预训练语料库基础上，加入 QA 样式数据（尤其是长链推理示例）可增强 RL 效果，而少量指令数据的引入能进一步释放 QA 数据潜力。

研究发现，指令数据可以帮助模型更好地理解任务要求，从而在 RL 阶段表现更佳。

长链推理的双刃剑效应：长链推理虽能提升推理深度，但也可能引发模型响应冗长及 RL 训练不稳定问题，凸显数据格式化的重要性。

例如，在实验中发现，模型在处理长链推理数据时容易出现输出过长或训练过程中的性能波动。为此研究团队通过以下方案来解决训练不稳定问题：

设计指令增强提示模板，抑制重复输出（相比基础模板错误率↓37%）

设置渐进最大响应长度调度器，按照训练进度解决长链推理引发的训练不稳定

中等训练规模扩展的效益：增加中等训练数据量可带来更强劲的下游 RL 性能，即使基础模型评估中未明显体现这些增益。这表明，中等训练阶段的扩展对于提升模型的最终 RL 表现具有重要意义。

自建高质量数学语料库MegaMath-Web-Pro-Max

在准备语料时，团队还发现了另一个问题，即开源高质量语料的缺乏。以预训练语料为例，目前最高质量的数学语料 MegaMath-Web-Pro 包含了不到 20B tokens，但如果混合质量稍低的 FineMath 语料，则容易出现 RL 训练时的不稳定。

为了支持大规模消融研究和中期训练，研究团队创建了 MegaMath-Web-Pro-Max。该语料库通过一个高效的分类器从 MegaMath-Web 中召回文档，并进一步利用一个大语言模型进行精炼构建。

具体而言，研究团队从 MegaMath-Web 语料库中按文档的年份分层，均匀随机采样了数百万篇文档，并使用 Llama-3.1-70B-instruct 对其进行标注。每篇文档根据其在数学学习中的实用程度，被打分为 0 到 5 分，评分过程使用特定的评分提示（见论文附录）。

研究团队采用启发式方法从模型的评论中提取评分：得分低于 3 的文档被标注为负例，得分在 3 分及以上的文档被视为正例。研究团队观察到，现有的分类器（如 inemath-classifier）在数据收集过程中对文本提取器的选择非常敏感。

因此，研究团队训练了自己的分类器，并选择效率较高的 fasttext 作为分类器。与 MegaMath 的发现一致，研究团队发现预处理步骤对召回性能至关重要。研究团队的预处理流程包括将文本转换为小写、过滤过长的单词，以及去除换行符和多余的非字母数字字符。

如下图所示，研究团队按照 MegaMath-Web 提出的逐年数据集比较设定，评估了不同召回阈值下所召回语料的质量。召回阈值决定了数据质量与数量之间的权衡：较高的阈值（如 0.9）带来更高的数据质量，但保留的 token 数量较少。最终，研究团队选择了 0.4 作为召回阈值。

▲ 图：研究团队重新召回的数据与 MegaMath-Web 的按照 Common Crawl 年份逐年数据质量对比（不同的 fasttext 阈值）。

考虑到许多文档存在噪声大、结构差等问题，研究团队使用 Llama-3.1-70B-instruct 对文本进行了精炼，所用提示设计借鉴了 MegaMath-Web-Pro。最终构建的 MegaMath-Web-Pro-Max 数据集包含的 token 数量约为 MegaMath-Web-Pro 的 5.5 倍。

预训练过程中的实证评估表明，MegaMath-Web-Pro-Max 在保持数据质量的同时，具备成为大规模中期训练基础语料的潜力。

此外，研究团队也尝试通过从常见数学问题求解数据集中引入长链式思维数据来扩充正例种子集合，以提升分类器召回推理密集型内容的能力。然而，这种方法最终仅保留了约 20B tokens，研究团队认为其规模不足，因此未被采用。

突破性方案：OctoThinker的两阶段—「稳定-衰减」训练方案

基于上述发现，研究者提出两阶段中等训练策略：

第一阶段：构建强推理基座（200B tokens）

使用恒定学习率对 Llama 模型进行 200B tokens 训练，主要依赖高质量预训练语料库（如 MegaMath-Web-Pro 和 DCLM-Baselines），辅以少量合成数据，构建稳固的推理基础。

这一阶段的目标是使模型在大规模数据上逐步提升推理能力，为后续的 RL 训练打下坚实基础，产出：OctoThinker-Base-Stable 系列基模型；

第二阶段：分支专业化训练（20B tokens）

学习率衰减（余弦衰减至初始 LR 的 10%），引入不同数据混合（短链推理、长链推理及其混合），训练三个分支模型，塑造多样化模型行为。这一阶段旨在通过数据多样性和学习率调整，进一步提升模型的推理能力和适应性。

三大推理分支：

OctoThinker基础模型系列的显著提升

经两阶段中等训练后的 OctoThinker 基础模型系列，在数学推理基准测试中表现出色，相较于原始 Llama 基础模型，在所有模型尺寸上均实现了 10%-20% 的显著性能提升，为 RL 扩展奠定了坚实基础。

例如，在 GSM8K 和 MATH500 等基准测试中，OctoThinker 基座模型的准确率和推理深度均有明显提升。

▲ 图：OctoThinker 中期训练后的数学榜单表现跑分，图中所示为 1B 规模的模型结果。

▲ 图：OctoThinker 中期训练后的数学榜单表现跑分，图中所示为 3B 规模的模型结果。

▲ 图：OctoThinker 中期训练后的数学榜单表现跑分，图中所示为 8B 规模的模型结果。

OctoThinker-Zero家族在RL训练中的卓越表现

进一步对 OctoThinker 基础模型进行 RL 训练后，生成的 OctoThinker-Zero 家族（包括短链、混合链和长链推理分支）在数学推理任务中展现出与 Qwen2.5 模型相当的性能。

特别是 OctoThinker-Long-Zero 分支，在 3B 模型规格上，成功媲美以强大推理能力著称的 Qwen2.5-3B 模型，有力证明了中等训练策略对提升 Llama 模型 RL 兼容性的有效性。在多个数学推理基准测试中，OctoThinker-Zero 模型的表现与 Qwen2.5 模型不相上下，甚至在某些任务上略有超越。

▲ 图：OctoThinker 系列、Qwen-2.5、Llama-3.2 在 RL 训练中的数学基准测试动态曲线。

未来展望

研究团队计划在多个方向持续探索：一是进一步精炼数学预训练语料库以增强中等训练效果；二是采用开放配方设计无需从强大长链推理模型蒸馏的 RL 友好型基础模型；三是深入解耦 QA 格式与内容的独立贡献；四是拓展 OctoThinker 家族，增加如工具集成推理等新分支，以期为预训练与强化学习的交互机制提供更深入洞见。