小米MiMo-VL：7B参数，怎么就成了多模态界的“越级打怪王”？

嘿，各位AI圈的老铁们，最近是不是感觉有点“被震撼”？小米，那个我们熟悉的手机厂商，这次在AI大模型领域，真的玩了一把“降维打击”！他们悄无声息地扔出了两颗重磅炸弹：MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。别看它们只有区区70亿参数，这性能，简直是教科书般的“小身材，大能量”！

初见MiMo-VL：参数虽小，野心不小

首先，我们来简单认识一下这两位新同学：

MiMo-VL-7B-SFT

MiMo-VL-7B-RL

混合在线强化学习（MORL）框架

多模态推理

最让人拍案叫绝的是什么？ 它们的参数量仅仅是70亿！这在动辄千亿甚至万亿参数的当下，简直是AI模型界的“清流”，却能和“大哥”们掰手腕，甚至直接把它们“摁在地上摩擦”！

战绩赫赫：这性能，简直是“降维打击”！

说再多原理不如看疗效！MiMo-VL-7B-RL在多个核心基准测试中的表现，直接刷新了我们对“小模型”的认知：

OlympiadBench：AI奥林匹克智力考场

得分：59.4分！

Qwen2.5-VL-72B

GPT-4o

OSWorld-G：GUI交互新标杆

得分：56.1分！

UI-TARS

与Qwen2.5-VL-7B的巅峰对决

35项

此外，它还在长视频理解（支持1小时+）、文档分析、复杂数学题解析等多个维度都表现出了SOTA级水准，甚至在内部盲测中Elo评分超越了GPT-4o！ 这样的成绩，用“惊艳”二字来形容，都显得有点保守了。

独门秘籍：炼成“越级打怪王”的秘密

MiMo-VL系列能有如此表现，绝非偶然。小米在训练方法上确实下足了功夫，堪称“独门秘籍”：

数据“精雕细琢”：

三阶段数据混合策略

MORL强化学习的“魔法”：

高效架构与长上下文：

未来已来：MiMo-VL能做些什么？

MiMo-VL系列的强大，绝不仅仅停留在跑分榜上，它的应用潜力才更让人兴奋！

复杂GUI自动化：

工业级多模态分析：

教育与科研：

开放共享：与AI社区共赢

更让人兴奋的是，小米这次玩真的，直接把MiMo-VL-7B-SFT和MiMo-VL-7B-RL开源了！现在，你可以在Hugging Face和GitHub上找到它们的身影，包括模型权重、技术文档，甚至还有评估工具链。这意味着，AI开发者和研究人员可以亲手把玩这些“越级打怪王”，在它们的肩膀上探索更多可能！