2025-04-30 12:50 广东

就在刚刚，小米大模型团队宣布开源旗下首个推理大模型「Xiaomi MiMo」。

7B 参数规模的 MiMo 在数学和代码领域表现出色。性能表现如下：

1️⃣ 在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)上超越在 STEM 领域（科学、技术、工程和数学）表现出色的 OpenAI o1-mini 和 Qwen-32B-Preview。

2️⃣ 在相同 RL 训练数据情况下，MiMo-7B 的数学&代码领域的强化学习潜力超越 DeepSeek-R1-Distill-7B 和 Qwen2.5-32B。

据介绍，MiMo 的推理能力提升，源于其在预训练和后训练阶段的多项数据与算法的联合驱动创新。

🤯 预训练阶段创新：

核心理念：让模型接触更多推理模式

·着重挖掘富推理语料，并合成约 200B tokens 推理数据

·进行了三阶段训练，逐步提升训练难度，总训练 25T tokens

🤔 后训练阶段创新：

核心目标：建立高效稳定的强化学习系统

·提出 Test Difficulty Driven Reward 来缓解困难算法问题中的奖励稀疏问题，并引入 Easy Data Re-Sampling 策略，以稳定 RL 训练

·设计了 Seamless Rollout 系统，使得 RL 训练加速 2.29 倍，验证加速 1.96 倍

目前，MiMo-7B 已在 Hugging Face 平台开源 4 个模型版本，技术报告也同步上线 GitHub，向开发者与研究者全面开放。

HuggingFace 🔗：

https://huggingface.co/XiaomiMiMo

GitHub 技术报告🔗：

https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

据悉，MiMo 系列由新组建的「小米大模型 Core 团队」打造，意在探索预训练增长瓶颈之外的能力突破路径，激发模型的推理潜能。

值得注意的是，此前曾有报道称小米创始人雷军以千万年薪挖角 AI 天才少女罗福莉，后者曾在 DeepSeek 任职研究员，并参与 DeepSeek-V2 等大模型研发工作。

此次 MiMo 的推出，也被视为小米在大模型赛道加速布局的重要信号。