APPSO 05月08日 15:32
刚刚,小米开源首个推理 AI 大模型!性能对标 OpenAI o1-mini
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

小米大模型团队近日开源了其首个推理大模型Xiaomi MiMo,该模型参数规模为7B。MiMo在数学推理和代码竞赛方面表现出色,超越了OpenAI o1-mini和Qwen-32B-Preview等模型。MiMo的推理能力提升得益于预训练和后训练阶段的创新,包括着重挖掘推理语料、采用三阶段训练、提出Test Difficulty Driven Reward等策略。目前,MiMo-7B已在Hugging Face平台开源,并提供技术报告。此次MiMo的推出,标志着小米在大模型领域的加速布局。

🚀 MiMo大模型在数学和代码领域表现出色,例如在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)上超越了OpenAI o1-mini和Qwen-32B-Preview。

💡 MiMo的推理能力提升源于预训练和后训练阶段的创新,预训练阶段着重挖掘富推理语料并合成约200B tokens推理数据,并进行三阶段训练。

🛠️ 后训练阶段MiMo着重建立高效稳定的强化学习系统,提出了Test Difficulty Driven Reward来缓解奖励稀疏问题,并引入Easy Data Re-Sampling策略以稳定RL训练。

💻 MiMo-7B已在Hugging Face平台开源4个模型版本,技术报告也同步上线GitHub,向开发者与研究者全面开放。

2025-04-30 12:50 广东

就在刚刚,小米大模型团队宣布开源旗下首个推理大模型「Xiaomi MiMo」。

7B 参数规模的 MiMo 在数学和代码领域表现出色。性能表现如下:

1️⃣ 在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)上超越在 STEM 领域(科学、技术、工程和数学)表现出色的 OpenAI o1-mini 和 Qwen-32B-Preview。

2️⃣ 在相同 RL 训练数据情况下,MiMo-7B 的数学&代码领域的强化学习潜力超越 DeepSeek-R1-Distill-7B 和 Qwen2.5-32B。

据介绍,MiMo 的推理能力提升,源于其在预训练和后训练阶段的多项数据与算法的联合驱动创新。

🤯 预训练阶段创新:

核心理念:让模型接触更多推理模式

·着重挖掘富推理语料,并合成约 200B tokens 推理数据

·进行了三阶段训练,逐步提升训练难度,总训练 25T tokens

🤔 后训练阶段创新:

核心目标:建立高效稳定的强化学习系统

·提出 Test Difficulty Driven Reward 来缓解困难算法问题中的奖励稀疏问题,并引入 Easy Data Re-Sampling 策略,以稳定 RL 训练

·设计了 Seamless Rollout 系统,使得 RL 训练加速 2.29 倍,验证加速 1.96 倍

目前,MiMo-7B 已在 Hugging Face 平台开源 4 个模型版本,技术报告也同步上线 GitHub,向开发者与研究者全面开放。

HuggingFace 🔗:

https://huggingface.co/XiaomiMiMo

GitHub 技术报告🔗:

https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

据悉,MiMo 系列由新组建的「小米大模型 Core 团队」打造,意在探索预训练增长瓶颈之外的能力突破路径,激发模型的推理潜能。

值得注意的是,此前曾有报道称小米创始人雷军以千万年薪挖角 AI 天才少女罗福莉,后者曾在 DeepSeek 任职研究员,并参与 DeepSeek-V2 等大模型研发工作。

此次 MiMo 的推出,也被视为小米在大模型赛道加速布局的重要信号。

就在刚刚,小米大模型团队宣布开源旗下首个推理大模型「Xiaomi MiMo」。

7B 参数规模的 MiMo 在数学和代码领域表现出色。性能表现如下:

1️⃣ 在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)上超越在 STEM 领域(科学、技术、工程和数学)表现出色的 OpenAI o1-mini 和 Qwen-32B-Preview。

2️⃣ 在相同 RL 训练数据情况下,MiMo-7B 的数学\x26amp;代码领域的强化学习潜力超越 DeepSeek-R1-Distill-7B 和 Qwen2.5-32B。

据介绍,MiMo 的推理能力提升,源于其在预训练和后训练阶段的多项数据与算法的联合驱动创新。

🤯 预训练阶段创新:

核心理念:让模型接触更多推理模式

·着重挖掘富推理语料,并合成约 200B tokens 推理数据

·进行了三阶段训练,逐步提升训练难度,总训练 25T tokens

🤔 后训练阶段创新:

核心目标:建立高效稳定的强化学习系统

·提出 Test Difficulty Driven Reward 来缓解困难算法问题中的奖励稀疏问题,并引入 Easy Data Re-Sampling 策略,以稳定 RL 训练

·设计了 Seamless Rollout 系统,使得 RL 训练加速 2.29 倍,验证加速 1.96 倍

目前,MiMo-7B 已在 Hugging Face 平台开源 4 个模型版本,技术报告也同步上线 GitHub,向开发者与研究者全面开放。

HuggingFace 🔗:

https://huggingface.co/XiaomiMiMo

GitHub 技术报告🔗:

https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

据悉,MiMo 系列由新组建的「小米大模型 Core 团队」打造,意在探索预训练增长瓶颈之外的能力突破路径,激发模型的推理潜能。

值得注意的是,此前曾有报道称小米创始人雷军以千万年薪挖角 AI 天才少女罗福莉,后者曾在 DeepSeek 任职研究员,并参与 DeepSeek-V2 等大模型研发工作。

此次 MiMo 的推出,也被视为小米在大模型赛道加速布局的重要信号。

刚刚,小米开源首个推理 AI 大模型!性能对标 OpenAI o1-mini

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

小米 MiMo 大模型 开源 推理
相关文章