机器之心 20小时前
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了小米发布的7B参数小模型MiMo-VL在2025年高考数学卷中的表现。该模型在测试中取得了139分,与Qwen3-235B分数相同,仅比OpenAI o3低一分。MiMo-VL在客观题和解答题中均有出色发挥,尤其在多选题和填空题中获得了满分。MiMo-VL在多模态推理任务上表现突出,超越了更大规模的开源模型和闭源模型,并在用户体验评估中超越了GPT-4o。MiMo-VL的技术优势在于高质量的预训练数据和创新的混合在线强化学习算法。

💡 MiMo-VL在2025年高考数学新课标I卷中取得了139分,与Qwen3-235B分数相同,并只比OpenAI o3低一分。

✅ MiMo-VL在客观题部分表现出色,单选题35分(总分40),多选题满分(18分),填空题满分(15分)。

📝 MiMo-VL在解答题中得到了71分,超越了hunyuan-t1-latest、文心 X1 Turbo等模型。

🚀 MiMo-VL仅用7B参数,在多个数学竞赛中大幅领先10倍参数大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,也超越闭源模型GPT-4o。

🔬 MiMo-VL的技术优势在于高质量的预训练数据(2.4T tokens)以及创新的混合在线强化学习算法(MORL)。

2025-06-16 13:17 北京

做数学题这块,小模型也有能打的。

机器之心报道

机器之心编辑部


上上周的 2025 高考已经落下了帷幕!在人工智能领域,各家大模型向数学卷发起了挑战。


机器之心的测试中,七个大模型在「2025 年数学新课标 I 卷」中的成绩是这样的:Gemini 2.5 Pro 考了 145 分,位列第一;Doubao 和 DeepSeek R1 以 144 分紧随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。


其实,向今年数学卷发起挑战的大模型还有其他家,比如 Xiaomi MiMo-VL,一个只有 7B 参数的小模型。


该模型同样挑战了 2025 年数学新课标 I 卷,结果显示,总分 139 分,与 Qwen3-235B 分数相同,并只比 OpenAI o3 低一分。


并且,相较于同样 7B 参数的多模态大模型 Qwen2.5-VL-7B,MiMo-VL 整整高出了 56 分。


MiMo-VL-7B 和 Qwen2.5-VL-7B 是通过上传题目截图的形式针对多模态大模型进行评测,其余均是输入文本 latex 进行的评测;不做 System Prompt 引导,不开启联网搜索,直接输出结果。


我们接下来一一看 14 道客观题(总计 73 分)、5 道解答题(总计 77 分)的具体答题结果。


其中,MiMo-VL 在单选题中得到 35 分(总分 40)。



MiMo-VL 在多选题中得到满分(18 分)。



MiMo-VL 在填空题中同样得到满分(15 分)。



MiMo-VL 在解答题中得到了 71 分,位列第 5,超越了 hunyuan-t1-latest、文心 X1 Turbo。



查看详细测评截图以及答题情况,请移步:https://rwgi1pvz1gm.feishu.cn/docx/Z8dNdScFdopPwnxMJxfcnVpnnwh


比肩 Qwen3-235B、o3

7B 小模型如何做到?


今年 4 月 30 日,小米宣布开源了首个专注于推理的大模型「Xiaomi MiMo」,推理能力全面提升。


在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 仅用 7B 的参数规模,超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。


一个月后,该模型经过持续的 RL 训练,推理与通用能力再次大幅提升。在多个数学代码竞赛中,新版本模型 MiMo-7B-RL-0530 已经与最强开源推理模型 DeepSeek R1 和 OpenAI 闭源推理模型 o1、o3-mini 相差无几。



同一时间,MiMo-VL 作为 MiMo-7B 的后续版本推出,不仅在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,还在 GUI Grounding 任务上比肩专用模型。



MiMo-VL 保持了 MiMo-7B 的纯文本推理能力,并在多模态推理任务上,仅用 7B 参数,在 OlympiadBench 以及 MathVision、MathVerse 等多个数学竞赛中大幅领先 10 倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越闭源模型 GPT-4o。



在评估真实用户体验的内部大模型竞技场中,MiMo-VL-7B 同样超越了 GPT-4o,成为开源模型第一。


视觉理解能力展示。


从技术层面来看,MiMo-VL-7B 全面的视觉感知能力得益于高质量的预训练数据以及创新的混合在线强化学习算法(Mixed On-policy Reinforcement Learning,MORL)。


一方面收集、清洗、合成了高质量的预训练多模态数据,涵盖图片 - 文本对、视频 - 文本对、GUI 操作序列等数据类型,总计 2.4T tokens。通过分阶段调整不同类型数据的比例,强化长程多模态推理的能力。


另一方面,混合文本推理、多模态感知 + 推理、RLHF 等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升模型推理、感知性能和用户体验。


框架概览。


目前,MiMo-VL-7B 的技术报告、模型权重和评估框架均已开源。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiMo-VL 小模型 高考数学 多模态 人工智能
相关文章