35%准确率蒸发！字节&华科WildDoc揭示多模态文档理解鲁棒性短板

让你更懂AI的 2025-06-07 23:55 北京

实验室王者→现实青铜！

在文档理解领域，多模态大模型（MLLMs）正以惊人的速度进化。从基础文档图像识别到复杂文档理解，它们在扫描或数字文档基准测试（如 DocVQA、ChartQA）中表现出色，这似乎表明 MLLMs 已很好地解决了文档理解问题。然而，现有的文档理解基准存在两大核心缺陷：

脱离真实场景：现实中文档多为手机/相机拍摄的纸质文件或屏幕截图，面临光照不均、物理扭曲（褶皱 / 弯曲）、拍摄视角多变、模糊 / 阴影、对焦不准等复杂干扰；

无法评估鲁棒性：现有基准未模拟真实环境的复杂性和多样性，导致模型在实际应用中表现存疑；

这些缺陷引出了一个关键疑问：当前 MLLMs 模型距离在自然环境中实现全面且鲁棒的文档理解能力到底还有多远？

为了揭开这个谜底，字节跳动 OCR 团队联合华中科技大学打造了 WildDoc ——首个真实世界场景文档理解的基准数据集。

WildDoc 选取了 3 个常用的具有代表性的文档场景作为基准（Document/Chart/Table），包含超过 12,000 张手动拍摄的图片，覆盖了环境、光照、视角、扭曲和拍摄效果等五个影响真实世界文档理解效果的因素，且可与现有的电子基准数据集表现进行对比。

为了严格评估模型的鲁棒性，WildDoc 构建了一致性评估指标（Consistency Score）。实验发现主流 MLLMs 在 WildDoc 上性能显著下降，揭示了现有模型在真实场景文档理解的性能瓶颈，并为技术改进提供可验证的方向。

本工作不仅填补了真实场景基准的空白，更推动文档理解研究向 “实用化、泛化性” 迈出关键一步。

论文链接：

https://arxiv.org/abs/2505.11015

项目主页：

https://bytedance.github.io/WildDoc/

Github：

https://github.com/bytedance/WildDoc

WildDoc 数据构造与组成

WildDoc 数据包含超 1.2 万张手动采集的真实文档图像，模拟自然环境中的复杂挑战，并引入一致性分数指标，量化评估模型在跨场景下的鲁棒性。WildDoc 目前已开源全部 12K+ 图像与 48K+ 问答对，其构造过程如下：

1. 数据采集：

场景多样化：在自然环境（如户外、室内不同光照条件）中手动拍摄文档，确保覆盖环境、光照、视角等多维度干扰因素。

基准对齐：复用现有基准的电子文档，通过物理打印后拍摄，保证与传统基准的可比性。

2. 多条件拍摄：

对同一文档进行四次拍摄，每次改变环境参数（如光照强度、拍摄角度、纸张扭曲程度），获取各种不同效果的对比样本。

3. 标注与验证：

对图像中的文本、布局等关键信息以及对于问题的可回答性进行人工验证，确保准确性。

通过一致性分数计算，评估模型在不同条件下的稳定性，辅助筛选高质量数据。

实验结果

研究团队对众多具有代表性的 MLLMs 进行了测试，包括通用 MLLMs（如Qwen2.5-VL、InternVL2.5）、专注文档理解的 MLLMs（如Monkey、TextHarmony）和领先的闭源 MLLMs（如 GPT4o、Doubao-1.5-pro）。实验结果揭示了当前多模态大模型在真实场景下的诸多不足。