PaperAgent 2024年12月19日
Alibaba出品:OmniParser通用文档复杂场景下OCR抽取
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章介绍Omniparser框架及OCR任务,包括其关注的AI前言技术,框架的核心思想、两阶段序列方式及解析流程,还提及相关推荐阅读。

🎯Omniparser框架关注多种AI前言技术,免费分享案例与课程

🔍采用基于文本中心点的连贯输入和输出模式,分两阶段

📋OCR解析流程包括图片编码、中心点定位、区域解码等

📄最后综合信息生成文本定位、表格序列和重要信息

CourseAI 2024-12-19 09:01 湖北

本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前言技术,免费分享业界实战案例与课程,助力您全面拥抱AIGC。



三大OCR任务统一抽取

Omniparser框架以及核心思想

作者采用基于文本中心点的连贯输入和输出模式,在两个阶段,将同一文本划分为三个部分:

通过两阶段、三种序列方式可以有效地压缩原始的长序列。

此外,该框架使用空间和字符导向的窗口提示,增强对文本空间排列和单词语义的理解。

通过上图表格解析任务,我们可以知道omniparser的OCR解析流程。

https://arxiv.org/pdf/2403.19128

https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/OmniParser

推荐阅读

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Omniparser OCR AI前言技术 文本识别
相关文章