我爱计算机视觉 4小时前
ForCenNet:ICCV 2025 | 抓住前景“C位”,文档图像校正迎来新SOTA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了一种创新的文档图像校正方法ForCenNet,该方法由奇虎科技、格灵深瞳和帝国理工学院的研究者提出,并已被计算机视觉顶会ICCV 2025接收。ForCenNet的核心在于将模型的注意力聚焦于文档的前景内容,如文本行和表格线,将它们视为校正的终极参照。通过以前景为中心的标签生成、掩码机制和曲率损失等设计,ForCenNet能够更精准地理解和逆转几何畸变。在四大主流真实世界基准测试中,ForCenNet均刷新了SOTA记录,在处理严重弯曲和局部扭曲的文档图像时表现出色,为文档智能分析提供了更优的预处理方案。

🌟 **前景主导的校正理念**:传统方法在校正文档图像时常忽略前景元素(文本、表格线)的内在结构信息,而ForCenNet则提出将这些本应是直线的元素作为最可靠的校正参照,让前景驱动整个校正过程,从而更精准地还原文档原貌。

💡 **三位一体的前景中心化设计**:ForCenNet通过三个关键创新点实现了前景的有效利用:1. 以前景为中心的标签生成,为模型提供精确的学习目标;2. 引入前景掩码机制,使模型能区分并优先处理前景区域;3. 设计曲率一致性损失,直接约束前景线条的弯曲程度,使其恢复成直线,从而精准逆转畸变。

🚀 **性能卓越,刷新SOTA记录**:ForCenNet在DocUNet、DIR300、WarpDoc和DocReal四大真实世界文档校正基准测试中,无论在量化指标还是视觉效果上,均取得了显著优于现有方法的SOTA(State-of-the-Art)成绩,尤其在处理复杂畸变方面表现突出。

📚 **推动AI视觉领域发展**:该研究不仅为文档图像校正技术提供了新的理论框架和实践方法,还通过开源代码,为社区的进一步研究和应用奠定了基础,展示了深度挖掘场景结构先验在复杂视觉任务中的重要性。

CV君 2025-07-30 18:10 江苏

用手机拍摄文档时,由于角度和纸张弯曲,图像往往会产生烦人的几何畸变,严重影响后续的文字识别(OCR)效果。现有的文档图像校正方法致力于“拉平”这些图像,但常常忽略了一个核心要素:文档的前景内容(如文本行、表格线)本身就是最完美的校正参照物

热力图直观展示了文档图像的变形程度,红色区域表示严重畸变

针对这一问题,来自奇虎科技、格灵深瞳和帝国理工学院的研究者们提出了一个以前景为中心的网络(ForCenNet)。该方法将模型的“注意力”牢牢锁定在前景元素上,通过创新的标签生成、掩码机制和曲率损失,精准地理解和逆转几何畸变。凭借这一核心思想,ForCenNet在四大主流真实世界基准测试中全面刷新了SOTA记录。该工作已被计算机视觉顶会ICCV 2025接收。

    论文标题: ForCenNet: Foreground-Centric Network for Document Image Rectification

    作者: Peng Cai, Qiang Li, Kaicheng Yang, Dong Guo, Jia Li, Nan Zhou, Xiang An, Ninghua Yang, Jiankang Deng

    机构: 奇虎科技;格灵深瞳;帝国理工学院

    论文地址: https://arxiv.org/pdf/2507.19804v1

    项目地址: https://github.com/caipeng328/ForCenNet

    录用会议: ICCV 2025

研究背景与意义

文档图像校正,就是要把一张拍“歪”了的文档图片,通过算法恢复成一张像扫描仪扫出来一样平整的图片。这项技术是文档智能分析流程中的关键预处理步骤。

然而,许多现有方法在预测整个图像的变形场时,对所有像素“一视同仁”,没有充分利用文档图像的结构先验。实际上,文本行和表格边框这些前景元素,它们在理想状态下本应是直线。这些元素的弯曲程度和方向,直接揭示了文档的几何畸变信息。忽略这些关键线索,就像在没有参照物的情况下凭空想象如何把一张纸铺平,效果自然受限。

ForCenNet的核心思想就是:校正任务应该由前景来主导

ForCenNet:三位一体的前景中心化设计

ForCenNet的整体架构如下图所示,其创新之处主要体现在三个“以前景为中心”的设计上:

ForCenNet整体架构图

1.  以前景为中心的标签生成(Foreground-Centric Label Generation)

为了让模型学会关注前景,首先需要为它提供精确的“学习资料”。研究者提出了一种方法,从平整、无畸变的原始文档图像中,自动提取出详细的前景元素(包括文本行、表格线等)作为监督标签。这样,模型在训练时就能明确知道需要重点关注哪些区域。

2.  以前景为中心的掩码机制(Foreground-Centric Mask Mechanism)

在模型内部,研究者引入了一个前景掩码(Foreground Mask)。这个掩码的作用类似于给模型戴上了一副“特殊眼镜”,让它能够清晰地区分出包含文字和线条的可读区域与空白的背景区域。通过这种方式,模型可以将更多的计算资源和注意力集中在对校正起决定性作用的前景上。

中间层结果可视化:从左至右为输入图像、预测的前景掩码、前景注意力图和最终校正结果

3.  曲率一致性损失(Curvature Consistency Loss)

这是ForCenNet最巧妙的设计之一。对于弯曲的文本行或表格线,其“弯曲的程度”(即曲率)蕴含了丰富的几何畸变信息。研究者设计了一种新的损失函数,它直接对前景线条的曲率进行监督。该损失函数要求模型预测的变形场,在作用于弯曲的前景线后,能使其曲率尽可能变为零(即恢复成直线)。这相当于给了模型一个非常直观的几何约束,帮助它更精准地理解和还原复杂的空间扭曲。

实验结果与分析

ForCenNet在四个主流的真实世界文档校正基准数据集(DocUNet, DIR300, WarpDoc, DocReal)上进行了广泛的实验,并与现有SOTA方法进行了对比。

量化结果:

如下表所示,无论是在DocUNet还是DIR300数据集上,ForCenNet在所有关键指标(如MS-SSIM, LD)上都取得了当前最佳(SOTA)成绩,显著超越了之前的方法。

在DocUNet基准上的结果对比
在DIR300基准上的结果对比

在更具挑战性的泛化能力测试中(即在未见过的数据集WarpDoc和DocReal上测试),ForCenNet同样表现出强大的性能,证明了其方法的鲁棒性。

在WarpDoc和DocReal上的泛化能力对比

定性结果:

“有图有真相”,从下面的视觉对比中可以直观地看到ForCenNet的威力。对于其他方法难以处理的严重弯曲或局部扭曲,ForCenNet依然能够生成横平竖直的校正结果,文本行和表格都恢复得非常自然。

与先前方法的视觉效果对比(红框突出显示了差异)

研究者还对校正后的直线元素进行了定量评估,结果显示ForCenNet恢复的线条具有最低的弯曲度,最接近理想的直线。

直线校正效果的量化评估

论文贡献与价值

本文的核心贡献在于:

    提出了一个新颖的视角:强调了在文档图像校正中,应将前景元素作为核心驱动力。

    设计了ForCenNet:一个完整、高效的以前景为中心的网络,其包含的标签生成、掩码机制和曲率一致性损失等模块均被证明行之有效。

    树立了新的性能标杆:在四个真实世界基准测试中取得了全面的SOTA性能,为后续研究提供了强有力的基线。

    开源社区贡献:作者开源了代码和相关资源,便于社区复现和在此基础上进行新的探索。

ForCenNet的成功,不仅为文档图像校正技术的发展提供了新的思路,也再次证明了在复杂的视觉任务中,深入挖掘和利用场景的内在结构先验是通往更高性能的关键。

了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ForCenNet 文档图像校正 计算机视觉 几何畸变 AI算法
相关文章