index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
MiroMind(集智进化)近日发布了MiroMind-M1系列数学推理语言模型(RLMs),其训练数据、代码、模型配方及测试全流程均已开源,覆盖监督微调(SFT)和强化学习(RL)两大阶段。该系列模型在AIME24、AIME25、MATH500等数学基准上性能表现优异,甚至超越了同基模、同尺寸的开源RLMs,并显著提升了推理效率。MiroMind-M1的发布旨在推动AI研究的可验证性、可复现性和可延伸性,为社区的快速迭代提供了坚实基础。其SFT阶段使用了719K高质量数学推理样本,RL阶段则引入了上下文感知多阶段优化(CAMPO)算法,实现了性能与效率的双重提升,尤其在缩短答案长度、减少冗余方面表现突出。
💡 **全流程开源,推动AI研究透明化:** MiroMind-M1系列数学推理语言模型(RLMs)实现了从训练数据、代码到模型配方、测试的全流程开源,包括监督微调(SFT)和强化学习(RL)两大部分。这使得研究者能够清晰地了解模型是如何构建和训练的,极大地促进了AI研究的可验证性、可复现性和可延伸性,为社区的进一步研究和改进提供了便利。
🚀 **性能卓越,引领数学推理新高度:** MiroMind-M1在AIME24、AIME25、MATH500等多个数学基准测试中,展现出与同基模、同尺寸开源RLMs持平甚至超越的性能。尤其是在SFT阶段,通过719K高质量数学推理样本的训练,MiroMind-M1-SFT-7B模型在多项指标上领先于同类开源模型,证明了高质量数据和有效训练策略的重要性。
⚙️ **CAMPO算法赋能,兼顾效率与准确性:** 在强化学习(RL)阶段,MiroMind引入了上下文感知多阶段策略优化(CAMPO)算法。该算法通过分阶段训练和自适应冗余惩罚机制,不仅提高了模型处理长链推理的能力,还显著缩短了答案长度,节省了约20%的token数,实现了在保持高准确度的同时,大幅提升了推理效率和模型输出的简洁性。
📊 **数据精炼,为RL训练奠定坚实基础:** MiroMind-M1-RL在数据准备阶段进行了严格筛选,从海量公开资源中提取了62K具有挑战性且可验证的数学题目,并确保与评测基准零重叠。这一精炼过程消除了94%的无效样本,为RL训练提供了高质量、无污染的数据基础,是模型性能提升的关键因素之一。
📈 **消融实验验证,重复惩罚机制效果显著:** 消融实验证明了重复惩罚机制在提升模型训练效率和输出质量方面的关键作用。通过对模型生成结果的重复进行惩罚,MiroMind-M1-RL-32B在保持准确率的同时,平均token数显著低于其他模型,输出更加聚焦和干练。该机制还提高了训练的平稳性,避免了策略陷入狭窄的解答空间。
原创 让你更懂AI的 2025-07-29 14:11 北京
从训练到推理全透明!

近日,MiroMind(集智进化) 推出 MiroMind‑M1 系列数学推理语言模型(RLMs),训练数据、代码、模型配方、测试等全流程全部开源,覆盖监督微调(SFT)和强化学习(RL)两大部分。
MiroMind-M1 在数学基准 AIME24、AIME25、MATH500 上,性能持平、甚至超越同基模、同尺寸开源 RLMs,并在保持准确度的同时显著缩短了答案长度、提高了推理效率。论文链接:https://arxiv.org/abs/2507.14683代码链接:https://github.com/MiroMindAsia/MiroMind-M1模型链接:https://huggingface.co/miromind-ai/MiroMind-M1-SFT-7Bhttps://huggingface.co/miromind-ai/MiroMind-M1-RL-7Bhttps://huggingface.co/miromind-ai/MiroMind-M1-RL-32B数据链接:https://huggingface.co/datasets/miromind-ai/MiroMind-M1-SFT-719Khttps://huggingface.co/datasets/miromind-ai/MiroMind-M1-RL-62K
背景:数学为何成为突破口大语言模型(LLMs)已从文本生成发展到跨领域的高级推理能力,催生了推理语言模型(RLMs)的兴起。在众多应用领域中,数学推理因其对多步逻辑和抽象推理的要求,成为衡量 RLM 能力的关键基准。虽然 GPT‑o3、Claude Sonnet 4 等闭源模型在该类任务上表现亮眼,但缺失公开数据、配置与训练细节,使得研究者难以复现并进一步改进。现有开源项目虽然数量众多,却仍然存在数据不全、脚本缺失或流程不完整的问题,社区难以在其之上快速迭代。MiroMind 的理念是让研究“可验证、可复现、可延伸”,因此发布了完整的技术栈:模型(MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B、MiroMind-M1-RL-32B),数据(MiroMind-M1-SFT-719K、MiroMind-M1-RL-62K)以及所有训练和评估代码。
MiroMind-M1具体而言,MiroMind-M1 分两个阶段进行训练:首先,在包含 719K 数学推理问题(附带经过验证的思维链(CoT)轨迹)的数据上进行监督微调(SFT);随后,在 62K 具有挑战性且可验证的问题上进行可验证奖励强化学习(RLVR)。为了增强 RLVR 过程的鲁棒性和效率,训练过程引入了上下文感知多阶段优化(CAMPO)算法,该算法将长度渐进式训练与自适应冗余惩罚相结合,以鼓励上下文感知的强化学习训练。MiroMind-M1 在 AIME24、AIME25 和 MATH500 基准测试中,在基于 Qwen-2.5 的完全开源 7B 模型中取得了SOTA 的性能,32B 模型与开源最强持平。同时,得益于 CAMPO 算法,MiroMind-M1-RL 在保持准确率的前提下,节省了近 20% token 数。
MiroMind-M1-SFT:719K 高质样本超越 DeepSeek 蒸馏 7B 模型本章节详细介绍了如何构建高质量的监督微调(SFT)数据集,以复现甚至超越 DeepSeek-R1 蒸馏模型(7B)在数学推理方面的性能。主要内容包括数据来源、数据处理方法以及 SFT 训练。3.1 数据整理为显著提升 LLM 在数学推理场景中的表现,团队首先从 R1 蒸馏数据切入,展开大规模收集与精细过滤。原始素材来自 OpenR1、OpenThoughts、Light‑R1 以及 Synthetic‑1 四个公开渠道;在全面去重与去污染后,最终沉淀出 719K 高质量样本,为监督微调阶段奠定了坚实的数据基础。3.2 实验结果表 2 的对比结果显示,MiroMind‑M1‑SFT‑7B 在 AIME24、AIME25 与 MATH‑500 上分别取得 60.5、45.0 和 94.6 的得分,三项指标均领先同基模、同尺寸的其他开源 SFT 模型,充分佐证了数据与训练策略的有效性;同时,其表现亦超越了最新发布的 MiMo‑7B‑SFT。3.3 模型训练分享本文发现,在数量相同的情况下,更长的思考路径可以带来更好的蒸馏效果。如表 4,在 SFT 训练数据维 30k 与 50k 的情况下,更长的路径均能取得更好的效果。
MiroMind-M1-RL:CAMPO 让 RL 又强又省最近的研究表明,强化学习(RL)可以提高基模型和R1蒸馏模型的推理性能。一个关键点是,性能的提升通常伴随着响应长度的增加。然而,更长的输出会引入冗余和不必要的重复,这表明效率是一个同样重要但尚未充分探索的方面。本章节介绍了 MiroMind-M1-RL 模型系列,包括 MiroMind-M1-RL-32B 和 MiroMind-M1-RL-7B。MiroMind-M1-RL 不仅提高了性能,还增强了数学推理的 token 使用效率。4.1 数据整理为拿到一套可有效驱动强化学习的优质数学语料,团队先从多路公开资源汇集海量题目,再通过四道严苛关卡逐一过滤:先剔除无法验证的样本,再去重,随后按难度仅保留中等题,最后移除答案过长或自动校验困难的条目。经过层层筛选,原始数据被淘汰 94%,只剩下 62K 既可验证又已去污染的精炼题目,并确保与评测基准零重叠,为 RL 训练提供了一块干净而扎实的基石。4.2 上下文感知的多阶段强化学习为充分利用强化学习阶段的训练信号,研究团队提出了上下文感知多阶段策略优化(CAMPO)算法。该算法围绕上下文长度与内容的动态感知进行设计,核心思想可归结为两项互补的机制。首先,CAMPO 采用分阶段训练策略,随着阶段推进逐步放宽模型可处理的上下文长度,使其在计算成本可控的前提下,循序渐进地掌握长链推理技能。其次,为削减冗余并提升推理效率,算法在奖励端加入冗余惩罚机制:生成结果一旦出现重复便被扣分,且重复越早出现,惩罚越重;相反,若重复仅在末尾发生,惩罚则相对轻微。二者相互作用,使模型既能处理更长的输入,又能保持答案简洁有力。CAMPO 的训练目标如下所示: 表示当前训练阶段, 与 分别对应该阶段的下限与上限裁剪阈值的分布;函数 评估输出 的重复程度,并据此生成 到 之间的惩罚分数。完整流程如下图所示,将多阶段长度控制与自适应重复惩罚统一到同一优化框架中,大幅提升了 RL 训练的稳定性与最终推理质量。 4.3 实验结果实验结果如表 5 所示:MiroMind‑M1‑RL‑32B 在 AIME24 的得分较同尺寸基线提高了 6.7%,在 AIME25 上则拉升了 13.5%,充分证明了 CAMPO 强化学习框架对数学推理的增益。不过,32B 版本尚未全面赶超所有最新 SOTA;以 Skywork‑OR1‑32B‑Preview 为例,对方在 AIME25 上仍高出 2.6%。作者将这一下差距主要归因于数据构成:MiroMind‑M1‑RL 训练阶段坚持只用纯数学语料,虽然保证了领域纯净,也削弱了对少量异质题型的迁移能力。与此同时,MiroMind‑M1‑RL‑7B 基于 MiroMind-M1-SFT,凭借同一训练范式在多项基准上夺得 Qwen‑2.5 系列同规格模型的数学基准第一,取得了最佳性能。随着训练的推进,图 10 动态的展示了和 Skywork 的性能对比。4.4 消融以及分享 消融实验进一步验证了重复惩罚的价值。加入该机制后,模型倾向于生成更短且更聚焦的答案,输出空间被自然收敛,rollout 长度缩减,反馈周期随之加快。图 5 给出了量化结果:在 AIME24 与 AIME25 两项基准的 64 次独立运行中,MiroMind‑M1‑RL‑32B 的平均 token 数显著低于 Skywork‑OR1‑32B‑Preview,而准确率几乎未受影响。这表明重复惩罚不仅提升了训练效率,也帮助模型在保持正确性的同时避免冗余,输出更为干练。进一步的实验表明,重复惩罚也显著提升了训练的平稳性。该机制一方面鼓励输出多样化,一方面抑制复读,避免策略被困在狭窄的解答空间。惩罚分值设定在 0 到 1 之间,并随重复出现的先后动态调整:重复越早出现,惩罚越大;若仅在末尾出现,惩罚相对轻微。这样一来,模型会主动规避早期冗余,而在必要时保留末端重复以确保推理完整。图 6 清晰地展示了这一效果,启用重复惩罚后,训练曲线波动收敛明显收敛,整体稳定性大幅提升。在整个训练过程中,我们持续监测模型的平均生成长度。实验结果如图 11 所示:在首阶段设置 16 K token 上限时,答案被显著压缩并最终稳定在 8K 至 9K 之间;当第二阶段将上限提升至 32 K 后,平均最大长度随之跃升,部分输出已突破 13K token。我们推测,早期的严苛限制迫使模型在受限预算内“榨干”推理能力,为后续长序列训练奠定了扎实基础,也使得模型在更长上下文环境中依旧保持稳定且高效的优化态势。更完整的实验细节与进一步分析,请参见我们的论文正文。
总结本文介绍了由 MiroMind 面向数学推理场景,完整开源的涵盖代码、数据与模型的一体化训练体系 MiroMind-M1。在 SFT 阶段,团队构建并清洗了大规模高质量语料,使得 7B 模型在多项数学基准上显著超越 DeepSeek 同规格蒸馏版本。研究团队进一步提出的 CAMPO 框架依托上下文感知的多阶段策略优化,不仅持续提升模型在 RL 训练中的准确度,还压缩了冗余输出,实现了性能与效率的兼得。最终 MiroMind-M1-RL-7B 模型取得同基模、同尺寸的开源模型最佳性能。更多阅读 #投 稿 通 道# 让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。📝 稿件基本要求:• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算📬 投稿通道:• 投稿邮箱:hr@paperweekly.site • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍现在,在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧
·阅读原文
跳转微信打开