2025-06-20 10:27 江苏
关注公众号,发现CV技术之美
导读:在多模态大模型(MLLMs)飞速发展的浪潮中,数学推理(如MathVista、MathVerse、MathVision)和学科知识推理(如MMMU)已有成熟的评测标尺。然而,当我们面对购买决策、财报解读、票据分析、路线规划等依赖复杂图文信息的真实OCR场景时,模型所需的深度推理能力却长期缺乏系统性的评估标准!这一关键空白,现在被正式填补! OCR-Reasoning基准应运而生,为衡量模型在真实OCR场景下的综合推理能力,提供了一把至关重要的标尺。
资源获取
论文名称:OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning
📄 论文地址: https://arxiv.org/pdf/2505.17163
💻 代码仓库: https://github.com/SCUT-DLVCLab/OCR-Reasoning
🔗 项目主页: https://ocr-reasoning.github.io/
一、现有OCR基准的瓶颈
当前主流的OCR相关评测基准,如DocVQA、TextVQA、InfographicVQA、OCRBench等,其核心聚焦点在于信息抽取任务(如识别实体、提取键值对)。这类任务往往依赖模型的“快思考”(Fast Thinking)能力即可完成,却难以有效评估模型在以下需要“慢思考”(Slow Thinking)的复杂场景中的表现:
📍 空间关系理解:文字的空间布局、元素间的方位关联如何?
🧮 数值计算与分析:表格数据如何运算?图表趋势怎样解读?
🧠 逻辑推理与批判性思维:如何基于图文信息,通过演绎或归纳得出可靠结论?
📚 多学科知识应用:如何解答手写的物理、化学题目?
二、OCR-Reasoning基准
🚀 OCR-Reasoning基准:全方位定义六大核心推理能力
为了系统、深入地评估OCR场景下的模型推理能力,研究者们精心打造了OCR-Reasoning基准,其核心亮点令人瞩目:
📊 高质量数据集: 包含1069道手工精心标注的题目和1022张真实场景图片。标注流程严谨:图片获取后,标注人员设计针对性问题;随后,双路径并行标注推理过程与答案——一路由Gemini-2.0-flash生成,另一路由人工标注;之后由另一组标注人员进行质量评分,择优保留;最终还需进行人工复查与纠错。题目最终由三名标注人员独立归类至六大类别,并以多数共识确定最终类别,确保数据质量与分类可靠性。
🧩 六大推理能力全覆盖:
📍 空间推理: 理解文本与视觉元素间的空间关系,解析图文混排布局。
🧮 数值分析: 计算数值变化,应用于成本效益决策、增长率估算、财报分析、日程规划、数据解读等。
🔢 枚举推理: 计数满足特定条件的图文元素。
📐 数学推理: 运用数学知识解决图文中的数学问题(函数图像、几何、统计等)。关键提升:大多题目由标注人员手抄获取,极大提升OCR场景贴合度!
🧠 逻辑推理: 运用批判性思维,基于图文信息进行推论得出结论。
⚗️ 多学科知识推理: 应用物理、化学等跨学科知识解释图文内容(多为手写题目)。
🔍 强推理导向:核心差异显著!
现有OCR基准答案多直接复制图像原文。
OCR-Reasoning答案极少(仅2.3%) 能直接从原文提取,强制要求模型进行深度推理!
典型案例对比
现有基准: “发票中的总金额是多少?” 👉 答案直接读取文本即可。
OCR-Reasoning: “根据促销海报计算满3件打折后最低单价” 👉 需整合价格、折扣规则、商品信息,进行推理计算!
三、模型现状与关键发现
研究团队对主流开源与闭源模型进行了全面评测,包括:
闭源模型:DouBao-1.5-Vision-Pro, O1, Claude-3.7;
开源模型:Qwen2.5-VL, Llama4-Scout, InternVL3, Kimi-VL-Thinking等;
LLM+OCR方法:OCR识别结果+LLM(O3-mini和DeepSeek-R1)。
实验的结果如下表所示:
评测揭示三大关键现象
👁️ 视觉信息是OCR推理的命脉!
使用相同语言模型(Qwen2.5-32B):纯文本模型(DeepSeek-R1-Distill-Qwen-32B+OCR)准确率仅26.5%,而多模态模型(Qwen2.5-VL-32B)达到36.2%,差距高达9.7个百分点!图像输入不可或缺!
🤖 现有RL训练的开源模型在OCR推理上仍需优化!
VLAA-Thinker-Qwen2.5VL-7B 和 MM-Eureka-Qwen-7B 等基于Qwen2.5-VL-7B进行RL训练后,数学与逻辑推理提升,但空间推理和数值分析能力却下降。设计适用于OCR推理的RL算法是未来关键方向!
🚧 现有技术天花板显著,挑战巨大!
顶尖闭源模型如豆包-1.5-Vision-Pro在传统OCR理解任务(DocVQA: 96.7%, InfoVQA: 89.3%, ChartQA: 87.4%)表现优异,但在OCR-Reasoning的文本丰富图像推理准确率仍不足50% (仅46.8%)。O1 (44.4%) 和 Gemini-2.0-flash (39.3%) 同样面临挑战。这凸显了同步处理视觉文本、语义内容和复杂逻辑推理的独特难度。
💡 CoT对模型性能的影响
论文同时也测试了CoT对模型性能的影响,结果如下表所示。
对于大部分模型,思维链提示能持续提升其性能。比如,思维链提示分别使Qwen2.5-VL-32B的性能提升3.2%,GPT-4o提升4.2%。然而,在VL-Rethinker-7B模型上,思维链提示通常会导致性能下降。这一现象可能源于VL-Rethinker-7B内置的强制性反思机制。在推理阶段额外添加思维链提示会打破训练与测试条件的一致性,导致性能退化。
💡 CoT对模型的推理路径进行评估
论文对闭源的多模态大模型的推理路径也进行了评估(论文采用了LLM as Judges的方式来对推理路径进行评估),结果如下表所示。
推理路径得分的排名与基于最终答案准确性的排名相似,除了Gemini和Claude-3.7-Sonnet这两个模型。具体而言,Gemini-2.0-Flash和Claude-3.7-Sonnet的高分主要归因于其比较高质量的推理过程。下面通过一个例子来说明这一点。如下图所示,Gemini-2.0-Flash推理过程中出现的微小错误导致了最终答案错误,但整体推理过程仍基本合理。因此,大语言模型(LLM)对其问题推理路径仍然给予了相对较高的评分。
四、便捷使用:集成开源评估工具
为方便社区使用,OCR-Reasoning 评测代码已集成至 VLMevalkit 工具包,支持研究者一键进行评估,极大提升效率。
结语:OCR-Reasoning 基准的发布,成功填补了OCR场景下复杂深度推理能力评估的长期空白!它不仅为多模态推理模型的研发与优化提供了至关重要的评测依据和方向指引,其揭示的模型现状更清晰地表明:OCR场景下的复杂推理,仍是充满挑战的研究课题。
最新 AI 进展报道
请联系:amos@52cv.net
END
欢迎加入「OCR」交流群👇备注: