PaperAgent 2024年12月16日
OCR噪声直接命中了RAG的软肋~
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OCR从非结构化PDF文档抽取时会产生噪声,影响RAG系统性能。OHRBench被提出并开源,评估OCR解决方案在RAG应用中的适用性,包括对多个方面的影响和测试。

🎯OCR噪声会导致知识库出现语义和格式噪声,影响RAG系统性能。

💻OHRBench开源,评估当前OCR解决方案在现实RAG应用中的适用性。

📄OHRBench包括精选的非结构化PDF文档及多模态元素派生的问答对。

🔍不同OCR解决方案在性能上有差异,均存在性能下降情况。

2024-12-16 11:03 湖北

在RAG系统中,OCR从非结构化的PDF文档的不完美抽取和结构化数据的非统一表示会导致知识库中出现OCR噪声(语义噪声和格式噪声,最终影响RAG系统的性能。

不同级别的语义噪声在纯文本、方程和表格上的示意图,这些都是基于现有的OCR结果进行扰动的。

因此提出并开源OHRBench评估了当前OCR解决方案在现实世界RAG应用中的适用性:

OHRBench是一个评估OCR对RAG系统影响的基准测试,包括从六个真实世界的RAG应用领域中精选的350个非结构化PDF文档,以及从文档中多模态元素派生的问答对。

OHRBench的构建与评估协议。(1) 基准数据集:从六个领域收集PDF文档,提取经过人工验证的地面真实结构化数据,并从多模态文档元素生成问答。(2) RAG知识库:用于基准测试当前OCR解决方案的OCR处理结构化数据,以及用于评估不同OCR噪声类型影响的扰动结构化数据。(3) 评估OCR对每个组件以及整个RAG系统的影响

OHRBench中文档的布局是复杂的,每个数字表示具有该属性的PDF页面数量

用于引导引入语义噪声的真实表格案例之一。左上角是地面真实中的原始表格,右上角是MinerU的OCR结果中的真实示例。左下角和右下角是在以真实示例为指导后对原始表格进行中等和严重扰动的结果。为了更好地展示,手动修改了一些LaTeX代码,以便大部分表格结构能够正常显示。

https://github.com/opendatalab/OHR-BenchOCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generationhttps://arxiv.org/pdf/2412.02592

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OCR RAG系统 OHRBench 性能评估
相关文章