PaperWeekly 06月08日 14:37
35%准确率蒸发!字节&华科WildDoc揭示多模态文档理解鲁棒性短板
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动OCR团队联合华中科技大学发布WildDoc数据集,旨在评估多模态大模型在真实场景文档理解中的表现。WildDoc包含1.2万张真实拍摄的文档图像,模拟光照、视角、扭曲等复杂干扰,揭示了现有模型在真实环境下的性能瓶颈。研究发现,现有模型在WildDoc上的表现显著下降,尤其受到物理扭曲的影响。该研究为文档理解研究的实用化和泛化性提供了关键基准和优化方向。

📸 WildDoc数据集由字节跳动OCR团队和华中科技大学联合打造,包含超过1.2万张真实世界场景文档图像,旨在评估多模态大模型(MLLMs)在实际应用中的文档理解能力。

🔬 WildDoc数据集涵盖了环境、光照、视角、扭曲和拍摄效果等五个影响真实世界文档理解的关键因素,通过模拟真实场景中的复杂挑战,更全面地评估模型鲁棒性。

📉 实验结果表明,主流MLLMs在WildDoc上的性能显著下降,例如GPT-4o平均准确率下降35.3%,ChartQA子集下降达56.4%。这揭示了现有模型在面对真实场景变化时的不足,特别是在处理物理扭曲方面。

💡 研究团队提出数据增强、鲁棒特征学习和引入更多真实数据等改进策略,为未来的研究指明方向,推动文档理解研究向“实用化、泛化性”迈进。

让你更懂AI的 2025-06-07 23:55 北京

实验室王者→现实青铜!

在文档理解领域,多模态大模型(MLLMs)正以惊人的速度进化。从基础文档图像识别到复杂文档理解,它们在扫描或数字文档基准测试(如 DocVQA、ChartQA)中表现出色,这似乎表明 MLLMs 已很好地解决了文档理解问题。 然而,现有的文档理解基准存在两大核心缺陷:


这些缺陷引出了一个关键疑问:当前 MLLMs 模型距离在自然环境中实现全面且鲁棒的文档理解能力到底还有多远?


为了揭开这个谜底,字节跳动 OCR 团队联合华中科技大学打造了 WildDoc ——首个真实世界场景文档理解的基准数据集。


WildDoc 选取了 3 个常用的具有代表性的文档场景作为基准(Document/Chart/Table), 包含超过 12,000 张手动拍摄的图片,覆盖了环境、光照、视角、扭曲和拍摄效果等五个影响真实世界文档理解效果的因素,且可与现有的电子基准数据集表现进行对比。


为了严格评估模型的鲁棒性,WildDoc 构建了一致性评估指标 (Consistency Score)。实验发现主流 MLLMs 在 WildDoc 上性能显著下降,揭示了现有模型在真实场景文档理解的性能瓶颈,并为技术改进提供可验证的方向。


本工作不仅填补了真实场景基准的空白,更推动文档理解研究向 “实用化、泛化性” 迈出关键一步。

论文链接:

https://arxiv.org/abs/2505.11015

项目主页:

https://bytedance.github.io/WildDoc/

Github:

https://github.com/bytedance/WildDoc



WildDoc 数据构造与组成

WildDoc 数据包含超 1.2 万张手动采集的真实文档图像,模拟自然环境中的复杂挑战,并引入一致性分数指标,量化评估模型在跨场景下的鲁棒性。WildDoc 目前已开源全部 12K+ 图像与 48K+ 问答对,其构造过程如下:


1. 数据采集

2. 多条件拍摄:

3. 标注与验证:



实验结果

研究团队对众多具有代表性的 MLLMs 进行了测试,包括通用 MLLMs(如Qwen2.5-VL、InternVL2.5)、专注文档理解的 MLLMs(如Monkey、TextHarmony)和领先的闭源 MLLMs(如 GPT4o、Doubao-1.5-pro)。实验结果揭示了当前多模态大模型在真实场景下的诸多不足。

首先,现有 MLLMs 在 WildDoc 上的性能相比传统文档基准(如 DocVQA)测试大幅下降。例如,GPT-4o 平均准确率下降 35.3,ChartQA 子集下降达 56.4;开源模型 Qwen2.5-VL-72B 平均准确率 70.6,为开源最佳,但仍低于原始基准约 15%。


目前最优的闭源模型为 Doubao-1.5-pro 表现最优(平均准确率 73.7%),但其一致性分数仅 55.0,这也意味着它在一半多的情况下都不能在不同条件下保持准确回答。这表明,当前 MLLMs 模型在面对真实场景的变化时,缺乏足够的稳定性和适应性。


实验结果揭示了在真实世界文档理解中 MLLMs 模型的表现,有以下几点发现:


另外,一些模型在原始基准测试上表现差异不大,甚至已经接近饱和,但在 WildDoc 上却出现了显著的性能差异。这说明传统基准测试已经难以区分模型的真实能力,而 WildDoc 则能更敏锐地捕捉到模型在真实场景下的不足。



未来之路:如何让MLLMs更好地理解真实世界的文档?

面对这些挑战,研究团队提出了几点改进策略,为未来的研究指明了方向。


一是数据增强。通过更多的增强技术来模拟真实世界的条件,如变化的光照、阴影等,让模型在训练中接触到更多样化的场景,从而提高其适应能力。


二是鲁棒特征学习。让模型学会提取对真实世界变化不敏感的特征,这样即使文档图像发生了一些变化,模型也能准确理解其内容。


三是真实数据引入。收集更多的真实世界文档图像,丰富训练数据集,让模型在更多的“实战”中积累经验,提升性能。


WildDoc 数据集有效揭示了 MLLMs 在真实文档理解中的不足,为后续研究提供了关键基准和优化方向,更推动文档理解研究向 “实用化、泛化性” 迈出关键一步。


附录:更多的可视化数据


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

WildDoc 多模态大模型 文档理解 真实场景 鲁棒性
相关文章