理想 TOP2 前天 01:10
小米MiMo-VL VS 千问Qwen2.5-VL | 多模态模型实测
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文分享了对小米开源多模态模型MiMo-VL-7B的实测体验。作者分别测试了MiMo-VL-7B的SFT和RL两个版本,以及think和no-think模式,并与Qwen2.5-VL-7B进行了对比。测试内容涵盖表格识别、数学题、OCR+计算、图像识别等多个任务。结果显示,MiMo-VL-7B的think模型在多数情况下表现优于Qwen2.5-VL-7B,但在手写体OCR方面效果不佳。作者还提供了测试代码,方便读者进行复现和交流。

🧐 表格识别测试:MiMo-VL-7B-Think版在简单表格上表现较好,但对于中等和复杂表格,性能不如Qwen2.5-VL-7B,部分模型表现接近正确。

➕ 数学题测试:MiMo-VL-7B-SFT和RL Think版本在2024年高考数学题上表现良好,但RL No-Think版本出现错误。

✍️ OCR+计算任务:Qwen2.5-VL-7B在手写体OCR和数字计算方面表现更好,MiMo-VL-7B在手写体识别上效果不佳。

🖼️ 图像识别:在图像识别任务中,MiMo-VL-7B和Qwen2.5-VL-7B均能正确识别图片内容。

刘聪NLP 2025-06-18 19:44 四川

端午节前,分享了一篇小米的开源多模态模型的文章,啥?小米又开源了多模态理解大模型。

当时只解读了论文,没有实测。

今天来填坑。

当然,看了这篇论文的,都知道,MiMo-VL-7B模型把一众多模态理解模型按在地上暴捶,尤其是Qwen2.5-VL,哈哈哈哈。

当然这里没有拉仇恨的意思。

他们自己人也说是站在巨人的肩膀上,巨人就是Qwen,虽然Qwen-VL被锤了,但是Qwen的含金量依然存在,毕竟ViT部分是直接用Qwen2.5-VL的ViT初始化的。

话不多说,开始实测,因为MiMo-VL-7B有两个SFT和RL两个版本,并且均可以使用think或no-think,都测试,与Qwen2.5-VL-7B进行对比。

懒人不爱看版:

MiMo-VL-7B个人测试下来SFT和RL相差不大;

MiMo-VL-7B的think和no-think相差较大,think版本要好的更多一些;

MiMo-VL-7B的think模型整体要比Qwen2.5-VL-7B好一些,但是我的体感是没有Qwen2.5-VL-72B好;

MiMo-VL-7B对手写体OCR的效果不好。

结论可能会因为测试样例不足、不同,而不一样,欢迎评论区讨论

表格识别任务

先来表格识别,共三个表格图片,难度为低中高,prompt如下:

## Role你是一位有多年经验的OCR表格识别专家。## Goals需要通过给定的图片,识别表格里的内容,并以html表格结果格式输出结果。## Constrains- 需要认识识别图片中的内容,将每个表格单元格中的内容完整的识别出来,并填入html表格结构中;- 图片中的表格单元格中可能存在一些占位符需要识别出来,例如"-""—""/"等;- 输出表格结构一定遵循图片中的结构,表格结构完全一致;- 特别注意图片中存在合并单元格的情况,结构不要出错;- 对于内容较多的图片,一定要输出完整的结果,不要断章取义,更不要随意编造;- 最终输出结果需要是html格式的表格内容。## Initialization请仔细思考后,输出html表格结果。

对于简单表格,MiMo-VL-7B-Think版模型可以正确,但No-think模型错误,Qwen2.5-VL-7B错误。

简单表格Qwen2.5-VL-7BMiMo-VL-7B-SFT ThinkMiMo-VL-7B-SFT No-ThinkMiMo-VL-7B-RL ThinkMiMo-VL-7B-RL No-Think对于中等表格,7B模型全都全军覆没,但MiMo-VL-7B-SFT Think接近正确。

中等表格Qwen2.5-VL-7B结果MiMo-VL-7B-SFT ThinkMiMo-VL-7B-SFT No-ThinkMiMo-VL-7B-RL ThinkMiMo-VL-7B-RL No-Think复杂表格,MiMo-VL-7B-SFT Think结果更好。

复杂表格Qwen2.5-VL-7BMiMo-VL-7B-SFT ThinkMiMo-VL-7B-SFT No-ThinkMiMo-VL-7B-RL ThinkMiMo-VL-7B-RL No-Think但看过我Qwen2.5-VL-72B测试的,都知道,这几道题,是都对的,但是MiMo-VL-7B只有简单的正确了。

数学题任务

两道2024年高考题,prompt如下:

请解题。

2024年年高考全国甲卷数学(文)试题,Qwen2.5-VL-7B、MiMo-VL-7B-SFT、MiMo-VL-7B-RL Think对了,,MiMo-VL-7B-RL No-Think错了。

发现RL-No-Think模型感觉不太好。

试题Qwen2.5-VL-7BMiMo-VL-7B-SFT ThinkMiMo-VL-7B-SFT No-ThinkMiMo-VL-7B-RL ThinkMiMo-VL-7B-RL No-Think2024年高考全国甲卷数学(理)试题,都对了,C方程为

试题Qwen2.5-VL-7BMiMo-VL-7B-SFT ThinkMiMo-VL-7B-SFT No-ThinkMiMo-VL-7B-RL ThinkMiMo-VL-7B-RL No-Think

OCR+计算任务

识别手写体,Qwen2.5-VL-7B更好一些,错了两个字,MiMo-VL所有模型都细碎。

prompt如下:

请逐步详细分析,输出图片中的文字内容

Qwen2.5-VL-7BMiMo-VL-7B-SFT ThinkMiMo-VL-7B-SFT No-ThinkMiMo-VL-7B-RL ThinkMiMo-VL-7B-RL No-Think识别图片中数字,并计算,Qwen2.5-VL-7B对了,MiMo-VL-7B的Think模型对了,No-Think模型错了。

prompt如下:

请逐步详细分析,告诉我在中文数据和英文数据分别占比是多少,并且告诉我总和

Qwen2.5-VL-7BMiMo-VL-7B-SFT ThinkMiMo-VL-7B-SFT No-ThinkMiMo-VL-7B-RL ThinkMiMo-VL-7B-RL No-Think

图像识别

识别图片中的内容,都正确了。

prompt如下:

这张图片里是有两只狗,对吗

Qwen2.5-VL-7BMiMo-VL-7B-SFT ThinkMiMo-VL-7B-SFT No-ThinkMiMo-VL-7B-RL ThinkMiMo-VL-7B-RL No-Think

测试代码

Qwen2.5-VL和MiMo-VL模型,均用vLLM框架,单卡4090启动,最大长度为12800。

测试代码:

from openai import OpenAIimport base64def trans_base64(image_path):    with open(image_path, "rb") as image_file:        encoded_string = base64.b64encode(image_file.read())    base64_image = encoded_string.decode('utf-8')    return base64_imageapi_key = "sk-xxxxxxxxxxxxxxxxxxxx"base_url = "http://0.0.0.0:54188/v1"model = "MiMo-VL-7B-RL"client = OpenAI(api_key=api_key, base_url=base_url)image_path = "image.png"query = "prompt"base64_image = trans_base64(image_path)response = client.chat.completions.create(    model=model,    messages=[        {            "role""user",            "content": [                {                    "type""image_url",                    "image_url": {                        "url": f"data:image/png;base64,{base64_image}"                    }                },                {                    "type""text",                    "text": query                }            ]        }])print(response.choices[0].message.content)

写在最后

整体感觉小米这次的多模态MiMo-VL模型还是不错的,尤其是Think模型,整体体验下来出来纯手写OCR之外,其他的能力都要更好一些。

但应该没有榜单那么夸张,暴打72B应该不至于,但是确实比7B要好

加微信,进群深度交流理想长期基本面。不是车友群。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiMo-VL 多模态模型 Qwen2.5-VL OCR 图像识别
相关文章