高考数学斩获139分！小米7B模型比肩Qwen3-235B、OpenAI o3

机器之心 20小时前

本文介绍了小米发布的7B参数小模型MiMo-VL在2025年高考数学卷中的表现。该模型在测试中取得了139分，与Qwen3-235B分数相同，仅比OpenAI o3低一分。MiMo-VL在客观题和解答题中均有出色发挥，尤其在多选题和填空题中获得了满分。MiMo-VL在多模态推理任务上表现突出，超越了更大规模的开源模型和闭源模型，并在用户体验评估中超越了GPT-4o。MiMo-VL的技术优势在于高质量的预训练数据和创新的混合在线强化学习算法。

💡 MiMo-VL在2025年高考数学新课标I卷中取得了139分，与Qwen3-235B分数相同，并只比OpenAI o3低一分。

✅ MiMo-VL在客观题部分表现出色，单选题35分（总分40），多选题满分（18分），填空题满分（15分）。

📝 MiMo-VL在解答题中得到了71分，超越了hunyuan-t1-latest、文心 X1 Turbo等模型。

🚀 MiMo-VL仅用7B参数，在多个数学竞赛中大幅领先10倍参数大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview，也超越闭源模型GPT-4o。

🔬 MiMo-VL的技术优势在于高质量的预训练数据（2.4T tokens）以及创新的混合在线强化学习算法（MORL）。

2025-06-16 13:17 北京

做数学题这块，小模型也有能打的。

机器之心报道

机器之心编辑部

上上周的 2025 高考已经落下了帷幕！在人工智能领域，各家大模型向数学卷发起了挑战。

在机器之心的测试中，七个大模型在「2025 年数学新课标 I 卷」中的成绩是这样的：Gemini 2.5 Pro 考了 145 分，位列第一；Doubao 和 DeepSeek R1 以 144 分紧随其后，并列第二；o3 和 Qwen3 也仅有一分之差，分别排在第三和第四。受解答题的「拖累」，hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。

其实，向今年数学卷发起挑战的大模型还有其他家，比如 Xiaomi MiMo-VL，一个只有 7B 参数的小模型。

该模型同样挑战了 2025 年数学新课标 I 卷，结果显示，总分 139 分，与 Qwen3-235B 分数相同，并只比 OpenAI o3 低一分。

并且，相较于同样 7B 参数的多模态大模型 Qwen2.5-VL-7B，MiMo-VL 整整高出了 56 分。

MiMo-VL-7B 和 Qwen2.5-VL-7B 是通过上传题目截图的形式针对多模态大模型进行评测，其余均是输入文本 latex 进行的评测；不做 System Prompt 引导，不开启联网搜索，直接输出结果。

我们接下来一一看 14 道客观题（总计 73 分）、5 道解答题（总计 77 分）的具体答题结果。

其中，MiMo-VL 在单选题中得到 35 分（总分 40）。

MiMo-VL 在多选题中得到满分（18 分）。

MiMo-VL 在填空题中同样得到满分（15 分）。

MiMo-VL 在解答题中得到了 71 分，位列第 5，超越了 hunyuan-t1-latest、文心 X1 Turbo。

查看详细测评截图以及答题情况，请移步：https://rwgi1pvz1gm.feishu.cn/docx/Z8dNdScFdopPwnxMJxfcnVpnnwh

比肩 Qwen3-235B、o3

7B 小模型如何做到？

今年 4 月 30 日，小米宣布开源了首个专注于推理的大模型「Xiaomi MiMo」，推理能力全面提升。

在数学推理（AIME 24-25）和代码竞赛（LiveCodeBench v5）公开测评集上，MiMo 仅用 7B 的参数规模，超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。

一个月后，该模型经过持续的 RL 训练，推理与通用能力再次大幅提升。在多个数学代码竞赛中，新版本模型 MiMo-7B-RL-0530 已经与最强开源推理模型 DeepSeek R1 和 OpenAI 闭源推理模型 o1、o3-mini 相差无几。

同一时间，MiMo-VL 作为 MiMo-7B 的后续版本推出，不仅在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B，还在 GUI Grounding 任务上比肩专用模型。

MiMo-VL 保持了 MiMo-7B 的纯文本推理能力，并在多模态推理任务上，仅用 7B 参数，在 OlympiadBench 以及 MathVision、MathVerse 等多个数学竞赛中大幅领先 10 倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview，也超越闭源模型 GPT-4o。