刘聪NLP 2025-06-18 19:44 四川
表格识别任务
先来表格识别,共三个表格图片,难度为低中高,prompt如下:对于简单表格,MiMo-VL-7B-Think版模型可以正确,但No-think模型错误,Qwen2.5-VL-7B错误。## Role你是一位有多年经验的OCR表格识别专家。## Goals需要通过给定的图片,识别表格里的内容,并以html表格结果格式输出结果。## Constrains- 需要认识识别图片中的内容,将每个表格单元格中的内容完整的识别出来,并填入html表格结构中;- 图片中的表格单元格中可能存在一些占位符需要识别出来,例如"-"、"—"、"/"等;- 输出表格结构一定遵循图片中的结构,表格结构完全一致;- 特别注意图片中存在合并单元格的情况,结构不要出错;- 对于内容较多的图片,一定要输出完整的结果,不要断章取义,更不要随意编造;- 最终输出结果需要是html格式的表格内容。## Initialization请仔细思考后,输出html表格结果。
数学题任务
两道2024年高考题,prompt如下:2024年年高考全国甲卷数学(文)试题,Qwen2.5-VL-7B、MiMo-VL-7B-SFT、MiMo-VL-7B-RL Think对了,,MiMo-VL-7B-RL No-Think错了。发现RL-No-Think模型感觉不太好。请解题。
OCR+计算任务
识别手写体,Qwen2.5-VL-7B更好一些,错了两个字,MiMo-VL所有模型都细碎。prompt如下:请逐步详细分析,输出图片中的文字内容
请逐步详细分析,告诉我在中文数据和英文数据分别占比是多少,并且告诉我总和
图像识别
识别图片中的内容,都正确了。prompt如下:这张图片里是有两只狗,对吗
测试代码
Qwen2.5-VL和MiMo-VL模型,均用vLLM框架,单卡4090启动,最大长度为12800。测试代码:from openai import OpenAIimport base64def trans_base64(image_path): with open(image_path, "rb") as image_file: encoded_string = base64.b64encode(image_file.read()) base64_image = encoded_string.decode('utf-8') return base64_imageapi_key = "sk-xxxxxxxxxxxxxxxxxxxx"base_url = "http://0.0.0.0:54188/v1"model = "MiMo-VL-7B-RL"client = OpenAI(api_key=api_key, base_url=base_url)image_path = "image.png"query = "prompt"base64_image = trans_base64(image_path)response = client.chat.completions.create( model=model, messages=[ { "role": "user", "content": [ { "type": "image_url", "image_url": { "url": f"data:image/png;base64,{base64_image}" } }, { "type": "text", "text": query } ] }])print(response.choices[0].message.content)
写在最后
整体感觉小米这次的多模态MiMo-VL模型还是不错的,尤其是Think模型,整体体验下来出来纯手写OCR之外,其他的能力都要更好一些。但应该没有榜单那么夸张,暴打72B应该不至于,但是确实比7B要好。加微信,进群深度交流理想长期基本面。不是车友群。