2025-04-30 12:50 广东
就在刚刚,小米大模型团队宣布开源旗下首个推理大模型「Xiaomi MiMo」。
7B 参数规模的 MiMo 在数学和代码领域表现出色。性能表现如下:
1️⃣ 在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)上超越在 STEM 领域(科学、技术、工程和数学)表现出色的 OpenAI o1-mini 和 Qwen-32B-Preview。
2️⃣ 在相同 RL 训练数据情况下,MiMo-7B 的数学&代码领域的强化学习潜力超越 DeepSeek-R1-Distill-7B 和 Qwen2.5-32B。
据介绍,MiMo 的推理能力提升,源于其在预训练和后训练阶段的多项数据与算法的联合驱动创新。
🤯 预训练阶段创新:
核心理念:让模型接触更多推理模式
·着重挖掘富推理语料,并合成约 200B tokens 推理数据
·进行了三阶段训练,逐步提升训练难度,总训练 25T tokens
🤔 后训练阶段创新:
核心目标:建立高效稳定的强化学习系统
·提出 Test Difficulty Driven Reward 来缓解困难算法问题中的奖励稀疏问题,并引入 Easy Data Re-Sampling 策略,以稳定 RL 训练
·设计了 Seamless Rollout 系统,使得 RL 训练加速 2.29 倍,验证加速 1.96 倍
目前,MiMo-7B 已在 Hugging Face 平台开源 4 个模型版本,技术报告也同步上线 GitHub,向开发者与研究者全面开放。
HuggingFace 🔗:
https://huggingface.co/XiaomiMiMo
GitHub 技术报告🔗:
https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf
据悉,MiMo 系列由新组建的「小米大模型 Core 团队」打造,意在探索预训练增长瓶颈之外的能力突破路径,激发模型的推理潜能。
值得注意的是,此前曾有报道称小米创始人雷军以千万年薪挖角 AI 天才少女罗福莉,后者曾在 DeepSeek 任职研究员,并参与 DeepSeek-V2 等大模型研发工作。
此次 MiMo 的推出,也被视为小米在大模型赛道加速布局的重要信号。
就在刚刚,小米大模型团队宣布开源旗下首个推理大模型「Xiaomi MiMo」。
7B 参数规模的 MiMo 在数学和代码领域表现出色。性能表现如下:
1️⃣ 在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)上超越在 STEM 领域(科学、技术、工程和数学)表现出色的 OpenAI o1-mini 和 Qwen-32B-Preview。
2️⃣ 在相同 RL 训练数据情况下,MiMo-7B 的数学\x26amp;代码领域的强化学习潜力超越 DeepSeek-R1-Distill-7B 和 Qwen2.5-32B。
据介绍,MiMo 的推理能力提升,源于其在预训练和后训练阶段的多项数据与算法的联合驱动创新。
🤯 预训练阶段创新:
核心理念:让模型接触更多推理模式
·着重挖掘富推理语料,并合成约 200B tokens 推理数据
·进行了三阶段训练,逐步提升训练难度,总训练 25T tokens
🤔 后训练阶段创新:
核心目标:建立高效稳定的强化学习系统
·提出 Test Difficulty Driven Reward 来缓解困难算法问题中的奖励稀疏问题,并引入 Easy Data Re-Sampling 策略,以稳定 RL 训练
·设计了 Seamless Rollout 系统,使得 RL 训练加速 2.29 倍,验证加速 1.96 倍
目前,MiMo-7B 已在 Hugging Face 平台开源 4 个模型版本,技术报告也同步上线 GitHub,向开发者与研究者全面开放。
HuggingFace 🔗:
https://huggingface.co/XiaomiMiMo
GitHub 技术报告🔗:
https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf
据悉,MiMo 系列由新组建的「小米大模型 Core 团队」打造,意在探索预训练增长瓶颈之外的能力突破路径,激发模型的推理潜能。
值得注意的是,此前曾有报道称小米创始人雷军以千万年薪挖角 AI 天才少女罗福莉,后者曾在 DeepSeek 任职研究员,并参与 DeepSeek-V2 等大模型研发工作。
此次 MiMo 的推出,也被视为小米在大模型赛道加速布局的重要信号。