2025-06-20 10:27 江苏

关注公众号，发现CV技术之美

导读：
在多模态大模型（MLLMs）飞速发展的浪潮中，数学推理（如MathVista、MathVerse、MathVision）和学科知识推理（如MMMU）已有成熟的评测标尺。然而，当我们面对购买决策、财报解读、票据分析、路线规划等依赖复杂图文信息的真实OCR场景时，模型所需的深度推理能力却长期缺乏系统性的评估标准！这一关键空白，现在被正式填补！ OCR-Reasoning基准应运而生，为衡量模型在真实OCR场景下的综合推理能力，提供了一把至关重要的标尺。

资源获取

论文名称：OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning

📄 论文地址： https://arxiv.org/pdf/2505.17163

💻 代码仓库： https://github.com/SCUT-DLVCLab/OCR-Reasoning

🔗 项目主页： https://ocr-reasoning.github.io/

一、现有OCR基准的瓶颈

当前主流的OCR相关评测基准，如DocVQA、TextVQA、InfographicVQA、OCRBench等，其核心聚焦点在于信息抽取任务（如识别实体、提取键值对）。这类任务往往依赖模型的“快思考”（Fast Thinking）能力即可完成，却难以有效评估模型在以下需要“慢思考”（Slow Thinking）的复杂场景中的表现：

📍 空间关系理解：文字的空间布局、元素间的方位关联如何？

🧮 数值计算与分析：表格数据如何运算？图表趋势怎样解读？

🧠 逻辑推理与批判性思维：如何基于图文信息，通过演绎或归纳得出可靠结论？

📚 多学科知识应用：如何解答手写的物理、化学题目？

二、OCR-Reasoning基准

🚀 OCR-Reasoning基准：全方位定义六大核心推理能力

为了系统、深入地评估OCR场景下的模型推理能力，研究者们精心打造了OCR-Reasoning基准，其核心亮点令人瞩目：

📊 高质量数据集： 包含1069道手工精心标注的题目和1022张真实场景图片。标注流程严谨：图片获取后，标注人员设计针对性问题；随后，双路径并行标注推理过程与答案——一路由Gemini-2.0-flash生成，另一路由人工标注；之后由另一组标注人员进行质量评分，择优保留；最终还需进行人工复查与纠错。题目最终由三名标注人员独立归类至六大类别，并以多数共识确定最终类别，确保数据质量与分类可靠性。

🧩 六大推理能力全覆盖：

📍 空间推理： 理解文本与视觉元素间的空间关系，解析图文混排布局。

🧮 数值分析： 计算数值变化，应用于成本效益决策、增长率估算、财报分析、日程规划、数据解读等。

🔢 枚举推理： 计数满足特定条件的图文元素。

📐 数学推理： 运用数学知识解决图文中的数学问题（函数图像、几何、统计等）。关键提升：大多题目由标注人员手抄获取，极大提升OCR场景贴合度！

🧠 逻辑推理： 运用批判性思维，基于图文信息进行推论得出结论。

⚗️ 多学科知识推理： 应用物理、化学等跨学科知识解释图文内容（多为手写题目）。

🔍 强推理导向：核心差异显著！

现有OCR基准答案多直接复制图像原文。

OCR-Reasoning答案极少（仅2.3%） 能直接从原文提取，强制要求模型进行深度推理！

典型案例对比

现有基准： “发票中的总金额是多少？” 👉 答案直接读取文本即可。

OCR-Reasoning： “根据促销海报计算满3件打折后最低单价” 👉 需整合价格、折扣规则、商品信息，进行推理计算！

三、模型现状与关键发现

研究团队对主流开源与闭源模型进行了全面评测，包括：

闭源模型：DouBao-1.5-Vision-Pro, O1, Claude-3.7；

开源模型：Qwen2.5-VL, Llama4-Scout, InternVL3, Kimi-VL-Thinking等；

LLM+OCR方法：OCR识别结果+LLM（O3-mini和DeepSeek-R1）。

实验的结果如下表所示：

评测揭示三大关键现象

👁️ 视觉信息是OCR推理的命脉！

使用相同语言模型(Qwen2.5-32B)：纯文本模型(DeepSeek-R1-Distill-Qwen-32B+OCR)准确率仅26.5%，而多模态模型(Qwen2.5-VL-32B)达到36.2%，差距高达9.7个百分点！图像输入不可或缺！

🤖 现有RL训练的开源模型在OCR推理上仍需优化！

VLAA-Thinker-Qwen2.5VL-7B 和 MM-Eureka-Qwen-7B 等基于Qwen2.5-VL-7B进行RL训练后，数学与逻辑推理提升，但空间推理和数值分析能力却下降。设计适用于OCR推理的RL算法是未来关键方向！

🚧 现有技术天花板显著，挑战巨大！

顶尖闭源模型如豆包-1.5-Vision-Pro在传统OCR理解任务(DocVQA: 96.7%, InfoVQA: 89.3%, ChartQA: 87.4%)表现优异，但在OCR-Reasoning的文本丰富图像推理准确率仍不足50% (仅46.8%)。O1 (44.4%) 和 Gemini-2.0-flash (39.3%) 同样面临挑战。这凸显了同步处理视觉文本、语义内容和复杂逻辑推理的独特难度。

💡 CoT对模型性能的影响

论文同时也测试了CoT对模型性能的影响，结果如下表所示。

对于大部分模型，思维链提示能持续提升其性能。比如，思维链提示分别使Qwen2.5-VL-32B的性能提升3.2%，GPT-4o提升4.2%。然而，在VL-Rethinker-7B模型上，思维链提示通常会导致性能下降。这一现象可能源于VL-Rethinker-7B内置的强制性反思机制。在推理阶段额外添加思维链提示会打破训练与测试条件的一致性，导致性能退化。

💡 CoT对模型的推理路径进行评估

论文对闭源的多模态大模型的推理路径也进行了评估（论文采用了LLM as Judges的方式来对推理路径进行评估），结果如下表所示。

推理路径得分的排名与基于最终答案准确性的排名相似，除了Gemini和Claude-3.7-Sonnet这两个模型。具体而言，Gemini-2.0-Flash和Claude-3.7-Sonnet的高分主要归因于其比较高质量的推理过程。下面通过一个例子来说明这一点。如下图所示，Gemini-2.0-Flash推理过程中出现的微小错误导致了最终答案错误，但整体推理过程仍基本合理。因此，大语言模型（LLM）对其问题推理路径仍然给予了相对较高的评分。