阶跃星辰 2024年10月28日
登顶Hugging Face总榜,创始人Clem点赞转发,OCR-2.0火了!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阶跃星辰多模态团队开源了 GOT-OCR2_0 模型,该模型在 Hugging Face 上线仅 3 天,下载量就超过 100k,登顶 HF Trending 榜首。该模型突破了传统 OCR 的局限,仅需 256 个 token 即可准确地编码 4000+ 字的 pdf 截图,远低于当前主流方案。GOT-OCR2_0 的通用性体现在输入输出方面,支持 Scene Text OCR、Document OCR、Fine-grained OCR 等多种任务,同时支持 plain texts 输出以及可读性强、可编辑的 formatted 文本输出。该模型的结构和训练方法采用 vision encoder+input embedding layer+decoder 的 pipeline,整个训练过程分为三个阶段:高效预训练 encoder、联合训练 encoder-decoder、锁住 encoder 加强 decoder。GOT-OCR2_0 在 PDF image 转 markdown、双栏文本感知、自然场景以及细粒度 OCR 能力等方面都展现出强大的能力。

😄 **高效的视觉表征**: GOT-OCR2_0 模型仅需 256 个 token 即可准确地编码 4000+ 字的 pdf 截图,远低于当前主流方案,这得益于它对视觉表征的深入研究,使用更少的 token 来表达更多的信息,突破了传统 OCR 的局限。

🤩 **通用性**: GOT-OCR2_0 支持多种 OCR 任务,包括 Scene Text OCR、Document OCR、Fine-grained OCR 等,同时支持 plain texts 输出以及可读性强、可编辑的 formatted 文本输出,如 markdown 等,这使得它能够应用于更广泛的场景。

🚀 **高效的训练流程**: GOT-OCR2_0 的训练过程分为三个阶段,每个阶段都有明确的目标和方法,通过高效的预训练 encoder、联合训练 encoder-decoder 和锁住 encoder 加强 decoder,逐步提升模型的能力。

💪 **强大的性能**: GOT-OCR2_0 在各种 OCR 任务中展现出强大的能力,包括 PDF image 转 markdown、双栏文本感知、自然场景以及细粒度 OCR 能力等。

🤔 **未来展望**: 尽管 GOT-OCR2_0 表现出色,但研究团队也指出,它还有提升空间,例如支持更多语言、更复杂的几何图和 chart 上的 OCR 性能。

🎯 **开源的价值**: 阶跃星辰团队通过开源 GOT-OCR2_0,希望吸引更多开发者参与到 OCR-2.0 的研究中,共同推动 OCR 技术的进步。

阶跃星辰模型团队 2024-09-23 17:44 北京

OCR-2.0 助力多模态大模型更快更强

在 AI-2.0 时代,OCR 模型的研究难道到头了吗!?最近在 Hugging face 爆火的 GOT-OCR2_0 证明了,当然没有!没准才刚刚开始。

该模型由阶跃星辰多模态团队开源,在 Hugging Face 上线仅 3 天,下载就超过 100k,一举登上 HF Trending 榜首。Hugging Face 联合创始人兼 CEO @Clem 转发 Twitter 问:“ 这是 OCR 模型第一次登顶 Trending?”

项目地址:https://huggingface.co/stepfun-ai/GOT-OCR2_0


为什么在大模型相互梭哈的时代继续研究 OCR?

OCR 一直是离落地最近的研究方向之一,是 AI-1.0 时代的技术结晶。到了以 LLM(LVLM)为核心的 AI-2.0 时代,OCR 成了多模大模型的一项基本能力。

为什么要推出 OCR-2.0?

视觉的压缩表征一直以来是团队关注的重要研究方向,即使用多少 token 能够近乎无损的表征一幅图像,OCR 则是测试压缩表征的重要场景之一。通过对图像中密集文字的编、解码,可以非常直观地探索出视觉模型在信息压缩上的能力边界。在 OCR-2.0 项目中,我们惊讶得发现模型只需要 256 个 token 即可准确地编码 4000+ 字的 pdf 截图,远低于当前主流方案中依靠上千 tokens 来编解码 pdf 图像的多模态大模型,为未来视觉和多模态模型的研发提供一些新的思路。

阶跃星辰多模态大模型 step-1v 系列始终围绕高效视觉表征的思想对视觉与语言模块儿进行联合设计,一方面这符合我们对视觉与语言应该采用不同建模方式的核心理念,另一方面也能够切实节省用户的推理成本,让多模态大模型更易用。OCR-2.0 的模型能力,将陆续集成到我们的主模能力中。


GOT:Towards OCR-2.0

通用 OCR 模型需要够通用,体现在输入输出都要通用上。GOT 的通用具体表现为:

在输入方面,模型支持 Scene Text OCR、Document OCR、Fine-grained OCR、More General OCR 等任务。

 通用 OCR 模型须“通用”

输出方面,模型同时支持 plain texts 输出以及可读性强、可编辑的 formatted 文本输出,如 markdown 等。

模型的结构和训练方法,采用 vision encoder+input embedding layer+decoder 的 pipeline。

Encoder 主体采用带 local attention的 VITDet 架构,不会让 CLIP 方案的全程 global attention 在高分辨率下激活太大,炸显存。

Encoder 后两层采用 Vary 的双卷积设计方案。整个 Encoder 将1024×1024×3 的图像压缩为 256×1024 的 image tokens,足以做好A4 纸级别的 dense OCR。

 GOT 结构与训练流程图

研究团队将整个训练过程分为三个步骤,没有一个阶段锁 LLM,过程中没有存在图像到文本的对齐阶段,进而导致损害 image token 的文字压缩率。

三个训练阶段分别为:

第一阶段:高效预训练 encoder,GOT 在整个训练过程中,没有 A100 级别的卡,为了节省资源,该阶段使用小型 OPT-125M 作为 decoder 为 encoder 提供优化方向,快速灌入大量数据。

第二阶段:联合训练 encoder-decoder,该阶段 GOT 的基本结构搭建完成,为上一阶段预训练好的 encoder,以及 Qwen 团队预训练好的 Qwen0.5B。

研究团队稍稍加大了 decoder 的大小,因为该阶段需要喂入大量 OCR-2. 0的知识,而不少数据(如化学式的 OCR)其实也是带点 reasoning的,不过更小的 decoder 他们未敢尝试。

第三阶段:锁住 encoder,加强 decoder 以适配更多的 OCR 应用场景,如支持坐标或者颜色引导的细粒度 OCR(点读笔可能会用到),支持动态分辨率 OCR 技术(超大分辨率图可能会用到),多页 OCR 技术。

该功能主要是为了后续 follower 能更好地训练 Arxiv 这种数据,我们的设想是多页 PDF 直接训练,无须再对 .tex 断页而苦恼!

面对整个 GOT 模型设计中最困难的数据工程环节。研究团队为了构造各种各样的数据,还学习了众多数据渲染工具,包括 Latex,Mathpix-markdown-it,Matplotlib,Tikz,Verovio, Pyecharts 等等。

 GOT 使用到的数据渲染工具


GOT 模型效果如何?

话不多说,直接上效果图:

 最常用的 PDF image 转 markdown 能力

 双栏文本感知能力

 自然场景以及细粒度 OCR 能力

 动态分辨率 OCR 能力

 多页OCR能力

 更多符号的OCR能力

研究团队称,尽管 GOT 模型表现不错,但也存在一些局限,如更多的语言支持,更复杂的几何图,chart 上的 OCR 性能。

他们说 OCR-2.0 的研究还有很远,GOT 也还有不小提升空间

正是因为深知 GOT 以及 OCR-2.0 的潜力,我们希望通过开源 GOT 吸引更多的人,再次投向强感知。都说纯 OCR 容易背锅,但也正好说明做得不够 work,不是吗?

论文地址:https://arxiv.org/pdf/2409.01704

项目地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0

Huggingface地址:https://huggingface.co/stepfun-ai/GOT-OCR2_0


欢迎加入开发者社群交流 OCR 的未来~

点击阅读原文,了解更多关于多模态大模型

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OCR 多模态大模型 视觉表征 GOT-OCR2_0 阶跃星辰
相关文章