开源模型也能卷出SOTA！MiroMind-M1高效推理压缩token，训练数据与代码全透明

原创让你更懂AI的 2025-07-29 14:11 北京

从训练到推理全透明！

近日，MiroMind（集智进化）推出 MiroMind‑M1 系列数学推理语言模型（RLMs），训练数据、代码、模型配方、测试等全流程全部开源，覆盖监督微调（SFT）和强化学习（RL）两大部分。

MiroMind-M1 在数学基准 AIME24、AIME25、MATH500 上，性能持平、甚至超越同基模、同尺寸开源 RLMs，并在保持准确度的同时显著缩短了答案长度、提高了推理效率。

论文链接：

https://arxiv.org/abs/2507.14683

代码链接：

https://github.com/MiroMindAsia/MiroMind-M1

模型链接：

https://huggingface.co/miromind-ai/MiroMind-M1-SFT-7B

https://huggingface.co/miromind-ai/MiroMind-M1-RL-7B

https://huggingface.co/miromind-ai/MiroMind-M1-RL-32B

数据链接：

https://huggingface.co/datasets/miromind-ai/MiroMind-M1-SFT-719K

https://huggingface.co/datasets/miromind-ai/MiroMind-M1-RL-62K

背景：数学为何成为突破口

大语言模型（LLMs）已从文本生成发展到跨领域的高级推理能力，催生了推理语言模型（RLMs）的兴起。在众多应用领域中，数学推理因其对多步逻辑和抽象推理的要求，成为衡量 RLM 能力的关键基准。

虽然 GPT‑o3、Claude Sonnet 4 等闭源模型在该类任务上表现亮眼，但缺失公开数据、配置与训练细节，使得研究者难以复现并进一步改进。现有开源项目虽然数量众多，却仍然存在数据不全、脚本缺失或流程不完整的问题，社区难以在其之上快速迭代。

MiroMind 的理念是让研究“可验证、可复现、可延伸”，因此发布了完整的技术栈：模型（MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B、MiroMind-M1-RL-32B)，数据（MiroMind-M1-SFT-719K、MiroMind-M1-RL-62K）以及所有训练和评估代码。

MiroMind-M1

具体而言，MiroMind-M1 分两个阶段进行训练：首先，在包含 719K 数学推理问题（附带经过验证的思维链（CoT）轨迹）的数据上进行监督微调（SFT）；随后，在 62K 具有挑战性且可验证的问题上进行可验证奖励强化学习（RLVR）。

为了增强 RLVR 过程的鲁棒性和效率，训练过程引入了上下文感知多阶段优化（CAMPO）算法，该算法将长度渐进式训练与自适应冗余惩罚相结合，以鼓励上下文感知的强化学习训练。

MiroMind-M1 在 AIME24、AIME25 和 MATH500 基准测试中，在基于 Qwen-2.5 的完全开源 7B 模型中取得了SOTA 的性能，32B 模型与开源最强持平。同时，得益于 CAMPO 算法，MiroMind-M1-RL 在保持准确率的前提下，节省了近 20% token 数。

MiroMind-M1-SFT：719K 高质样本超越 DeepSeek 蒸馏 7B 模型

本章节详细介绍了如何构建高质量的监督微调（SFT）数据集，以复现甚至超越 DeepSeek-R1 蒸馏模型（7B）在数学推理方面的性能。主要内容包括数据来源、数据处理方法以及 SFT 训练。

3.1 数据整理

为显著提升 LLM 在数学推理场景中的表现，团队首先从  R1  蒸馏数据切入，展开大规模收集与精细过滤。

原始素材来自 OpenR1、OpenThoughts、Light‑R1 以及 Synthetic‑1 四个公开渠道；在全面去重与去污染后，最终沉淀出 719K 高质量样本，为监督微调阶段奠定了坚实的数据基础。

3.2 实验结果

表 2 的对比结果显示，MiroMind‑M1‑SFT‑7B 在 AIME24、AIME25 与 MATH‑500 上分别取得 60.5、45.0 和 94.6 的得分，三项指标均领先同基模、同尺寸的其他开源 SFT 模型，充分佐证了数据与训练策略的有效性；同时，其表现亦超越了最新发布的 MiMo‑7B‑SFT。

3.3 模型训练分享

本文发现，在数量相同的情况下，更长的思考路径可以带来更好的蒸馏效果。如表 4，在 SFT 训练数据维 30k 与 50k 的情况下，更长的路径均能取得更好的效果。

MiroMind-M1-RL：CAMPO 让 RL 又强又省

最近的研究表明，强化学习（RL）可以提高基模型和R1蒸馏模型的推理性能。一个关键点是，性能的提升通常伴随着响应长度的增加。然而，更长的输出会引入冗余和不必要的重复，这表明效率是一个同样重要但尚未充分探索的方面。

本章节介绍了 MiroMind-M1-RL 模型系列，包括 MiroMind-M1-RL-32B 和 MiroMind-M1-RL-7B。MiroMind-M1-RL 不仅提高了性能，还增强了数学推理的 token 使用效率。

4.1 数据整理

为拿到一套可有效驱动强化学习的优质数学语料，团队先从多路公开资源汇集海量题目，再通过四道严苛关卡逐一过滤：先剔除无法验证的样本，再去重，随后按难度仅保留中等题，最后移除答案过长或自动校验困难的条目。

经过层层筛选，原始数据被淘汰 94%，只剩下 62K 既可验证又已去污染的精炼题目，并确保与评测基准零重叠，为 RL 训练提供了一块干净而扎实的基石。

4.2 上下文感知的多阶段强化学习

为充分利用强化学习阶段的训练信号，研究团队提出了上下文感知多阶段策略优化（CAMPO）算法。该算法围绕上下文长度与内容的动态感知进行设计，核心思想可归结为两项互补的机制。

首先，CAMPO 采用分阶段训练策略，随着阶段推进逐步放宽模型可处理的上下文长度，使其在计算成本可控的前提下，循序渐进地掌握长链推理技能。

其次，为削减冗余并提升推理效率，算法在奖励端加入冗余惩罚机制：生成结果一旦出现重复便被扣分，且重复越早出现，惩罚越重；相反，若重复仅在末尾发生，惩罚则相对轻微。二者相互作用，使模型既能处理更长的输入，又能保持答案简洁有力。

CAMPO 的训练目标如下所示：

表示当前训练阶段，与分别对应该阶段的下限与上限裁剪阈值的分布；函数评估输出的重复程度，并据此生成到之间的惩罚分数。

完整流程如下图所示，将多阶段长度控制与自适应重复惩罚统一到同一优化框架中，大幅提升了 RL 训练的稳定性与最终推理质量。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签