OCR-Reasoning：揭秘多模态大模型在复杂图文推理中的真实能力

PaperAgent 06月23日 21:29

OCR-Reasoning是一个全新的OCR相关评测基准，旨在评估多模态大模型在复杂图文推理任务中的能力。该基准涵盖了6种核心推理能力和18种实际推理任务，包括空间关系理解、数值计算与分析、逻辑推理等。它通过系统性评估、详细的推理过程标注和广泛的数据来源，为多模态大模型在真实OCR场景中的应用提供了重要的参考。测试结果表明，该基准能够有效评估模型在文本丰富图像推理方面的表现。

🧐 OCR-Reasoning基准的核心在于系统性地评估多模态大模型在文本丰富图像推理任务中的能力，涵盖了6种核心推理能力，包括空间推理、数值分析推理、数学推理等。

💡 为了确保评估的全面性和准确性，OCR-Reasoning基准包含了18种实际推理任务，这些任务模拟了金融报告分析、发票分析等真实OCR场景，具有很高的实用价值。

✍️ 该基准的独特之处在于对每个问题都进行了详细的推理过程标注，包括人工标注和利用模型生成的推理路径，并进行质量评估，确保了数据的可靠性。

🌍 数据来源广泛，涵盖了互联网图片、真实世界照片等多种文本丰富场景，具有较高的代表性，能够更真实地反映模型在实际应用中的表现。

🚀 通过测评Qwen2.5-VL-7B模型，证明了OCR-Reasoning基准在评估多模态大模型性能方面的有效性，为相关研究提供了重要的参考。

CourseAI 2025-06-23 11:46 湖北

主流的OCR相关评测基准，如DocVQA、TextVQA、InfographicVQA、OCRBench等，

主流的OCR相关评测基准，如DocVQA、TextVQA、InfographicVQA、OCRBench等，其聚焦点在于信息抽取任务（如识别实体、提取键值对）。

但是图文丰富的推理任务，如金融报告分析、发票分析等，依赖复杂图文信息的真实OCR场景时,多模态大模型的深度推理能力，缺乏系统性的评估标准，例如：

空间关系理解：文字的空间布局、元素间的方位关联

数值计算与分析：表格数据的运算，图表趋势的解读

逻辑推理与批判性思维：基于图文信息，通过演绎或归纳得出可靠结论

OCR-Reasoning特点

系统性评估：

OCR-Reasoning 基准涵盖了 6 种核心推理能力和 18 种实际推理任务，能够全面评估多模态大型语言模型在文本丰富图像推理任务中的能力。

6 种核心推理能力，包括空间推理、数值分析推理、数学推理、列举推理、逻辑推理和多学科知识推理。

推理过程标注：

对于每个问题，标注详细的推理过程和最终答案。

推理过程的标注采用了两种方式：一是人工标注，二是利用 Gemini 2.0 flash 生成推理路径。

之后由另一组标注人员进行质量评分，择优保留。最终还需进行人工复查与纠错。

题目最终由三名标注人员独立归类至六大类别，并以多数共识确定最终类别，确保数据质量与分类可靠性。

数据来源广泛：

OCR-Reasoning 的数据来源于互联网图片、真实世界照片以及现有的基准数据集，涵盖了多种文本丰富场景，具有较高的代表性。

举几个例子：

空间推理：

问题：Jose Arcadio Buendia 与 Jose Arcadio II 是什么关系？

推理过程：

Jose Arcadio Buendia 和 Ursula Iguaran 生了一个儿子 Jose Arcadio，Jose Arcadio 是 Jose Arcadio Buendia 的儿子。

Jose Arcadio 和 Rebeca 生了一个孩子 Arcadio，Arcadio 是 Jose Arcadio 的儿子。

Arcadio 和 Santa Sofia de la Piedad 生了一个孩子 Jose Arcadio II，Jose Arcadio II 是 Arcadio 的儿子。

因此，Jose Arcadio II 是 Jose Arcadio Buendia 的曾孙。

最终答案：曾孙。

数值分析推理：

问题：Package One 比单独购买物品便宜多少？

推理过程：

1 Large Soft Drink：6.25 美元，1 Large Popcorn：6.99 美元，1 Medium Candy：4.75 美元。

单独购买的总成本为 6.25 + 6.99 + 4.75 = 17.99 美元。

Package One 的成本为 14.75 美元。

因此，Package One 比单独购买物品便宜 17.99 - 14.75 = 3.24 美元。

最终答案：3.24 美元。

数学推理：

问题：判断函数 f(x) 的性质。

推理过程：

定义函数 f(x)。

判断 f(x) 是奇函数，因为 f(-x) = -f(x)，表明函数关于原点对称，排除选项 B 和 D。

计算 f(x) 在特定点的值，进一步排除选项 B。

最终答案：选项 A。

列举推理：

问题：一个月中有多少天的销售额超过 10K？

推理过程：

销售额超过 10K 的天数为：2、3、4、5、6、8、9、10、11、12、14、16、21、23、24、25、26、29、30、31。

最终答案：20 天。

逻辑推理：

问题：孩子们在学习时能否看到雪？

推理过程：

学习地点是 The Church Center, 548 Country Road, Singapore。

由于新加坡位于赤道附近，不会下雪。

因此，孩子们在学习时看不到雪。

最终答案：No。

多学科知识推理：

问题：判断关于 PHA 的说法是否正确。

推理过程：

A. PHA 的重复单元含有两个羧基，因此 A 选项错误。

B. PHA 是一种聚酯，由图中的单体缩合而成，因此 B 选项正确。

C. PHA 是一种聚酯，在碱性条件下可以发生水解，因此 C 选项正确。

D. 在 PHA 的重复单元中，只有一个与甲基相连的碳原子是手性碳原子，因此 D 选项正确。

最终答案：A。

测评Qwen2.5-VL-7B模型

git clone https://github.com/SCUT-DLVCLab/OCR-Reasoningcd OCR_Reasoningpython run.py --data OCR_Reasoning --model Qwen2.5-VL-7B-Instruct --verbose

https://arxiv.org/pdf/2505.17163
https://github.com/SCUT-DLVCLab/OCR-Reasoning
https://ocr-reasoning.github.io/

推荐阅读

IBM放出『PDF灭霸』:2.56亿参数屠榜文档AI

3.4KStar 字节跳动扔出王炸LangManus，自动编程+爬虫二合一

港中大&华为云联合突破！首次提出GraphRAG统一框架

一行代码FastAPI秒变MCP服务器！企业级AI应用首选方案

3.4K Star 港大开源AutoAgent登顶GAIA全球评测，成本直降50%碾压商业巨头

Alibaba推出Embodied-Reasoner，持续反思，自我纠错，破解任务规划难题！

清华ReaRAG，严防Deepseek过度思考「自省式推理」登顶多跳问答榜

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签