掘金 人工智能 前天 10:58
字节开源多模态复杂文档解析模型!Dolphin:页面与元素并行解析,精准解析复杂文档!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动开源了多模态AI模型Dolphin,专注于复杂文档解析。该模型采用两阶段“分析-解析”机制,先梳理页面布局,再并行处理文本、表格、公式等元素,兼顾精准性和效率。Dolphin完全开源,模型可自主下载,支持输出结构化JSON或Markdown,可在普通设备上运行。官方还提供在线Demo体验。Dolphin通过页面级和元素级解析任务表现出色,并通过轻量级架构和并行解析机制确保了卓越的效率,能够有效提升文档处理效率。

💡 Dolphin模型采用两阶段解析方法,首先进行页面级布局分析,生成自然阅读顺序的元素序列;然后使用异构锚点和任务特定提示,高效并行解析文档元素,从而应对复杂文档中交织的元素。

🧮 Dolphin支持页面级解析和元素级解析。页面级解析可以将整个文档图像解析为结构化格式,输出JSON和Markdown;元素级解析可以专门对文本、表格、公式等结构做定向识别与分类,双推理模式非常灵活。

🚀 Dolphin具有自然阅读顺序识别和并行处理机制。它模拟人类阅读习惯,生成符合逻辑的元素序列,避免传统OCR的结构混乱问题,并通过轻量架构和并行解析机制,大幅提升处理速度。

💻 Dolphin提供了友好的使用方式,官方提供详细文档和Hugging Face模型,支持在全平台上使用。同时,官方部署了Gradio界面,用以在线体验Dolphin的全部功能,用户只需上传文档或图片即可快速解析,生成Json或Markdown格式的内容。

多模态AI和文档解析的兴起,就像给OCR装上了“超级大脑”,通过视觉和语言的结合,精准理解文档结构。

以往用的一些OCR工具经常“翻车”,复杂的页面布局让解析结果面目全非。

而现在随着多模态AI技术的迅速发展,催生了许多能够精准解析复杂文档的AI模型或应用,让我们的文档处理效率直接起飞!

最近,字节跳动(ByteDance)又开源了一款多模态模型:Dolphin,一个专注于复杂文档解析的多模态AI模型。

它通过两阶段“分析-解析”机制,先梳理页面布局,再并行处理文本、表格、公式等元素,兼顾精准性和效率。

完全开源,模型可自主下载,支持输出结构化JSON或Markdown,完全能够跑在普通设备上!官方还专门搭建有在线 Demo 可体验!

Dolphin 的核心解析机制

文档图像解析因其复杂交织的元素(如文本段落、图表、公式和表格)而具有挑战性。所以 Dolphin 通过两阶段方法解决这些挑战:

Dolphin 在各种页面级和元素级解析任务中表现出色,同时通过其轻量级架构和并行解析机制确保了卓越的效率。

主要功能

快速入门

Dolphin 的安装和使用非常友好,官方提供详细文档和Hugging Face模型,支持在全平台上使用。

首先官方也是专门部署了一套 Gradio 界面,用以体验 Dolphin 的全部功能。

体验Demo:http://115.190.42.15:8888/dolphin/

只需上传需要解析的PDF文档或图片即可快速解析,生成Json或Markdown格式的内容。

自定义本地部署指南:

① 克隆项目

git clone https://github.com/ByteDance/Dolphin.gitcd Dolphin

② 安装依赖项

pip install -r requirements.txt

③ 下载预训练模型(也可以滑动到文末获取模型文件)

可以通过 HF 模型平台直接下载,并将它们放入./checkpoints文件夹中。或是通过代码下载。

git lfs installgit clone https://huggingface.co/ByteDance/Dolphin ./hf_model# 或使用 Hugging Face CLIhuggingface-cli download ByteDance/Dolphin --local-dir ./hf_model

页面级解析

# 1. 处理单个文档图像# 方式1:使用原始框架-基于配置python demo_page.py --config ./config/Dolphin.yaml --input_path ./demo/page_imgs/page_1.jpeg --save_dir ./results# 方式2:使用 Hugging Face 框架python demo_page_hf.py --model_path ./hf_model --input_path ./demo/page_imgs/page_1.jpeg --save_dir ./results# 2. 处理目录中的所有文档图像# 方式1:使用原始框架-基于配置python demo_page.py --config ./config/Dolphin.yaml --input_path ./demo/page_imgs --save_dir ./results# 方式2:使用 Hugging Face 框架python demo_page_hf.py --model_path ./hf_model --input_path ./demo/page_imgs --save_dir ./results# 3. 使用自定义批量大小进行并行元素解码# 方式1:使用原始框架-基于配置python demo_page.py --config ./config/Dolphin.yaml --input_path ./demo/page_imgs --save_dir ./results --max_batch_size 8# 方式2:使用 Hugging Face 框架python demo_page_hf.py --model_path ./hf_model --input_path ./demo/page_imgs --save_dir ./results --max_batch_size 16

元素级解析

# 1. 处理单个表格图像# 方式1:使用原始框架-基于配置python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/table_1.jpeg --element_type table# 方式2:使用 Hugging Face 框架python demo_element_hf.py --model_path ./hf_model --input_path ./demo/element_imgs/table_1.jpeg --element_type table# 2. 处理单个公式图像# 方式1:使用原始框架-基于配置python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/line_formula.jpeg --element_type formula# 方式2:使用 Hugging Face 框架python demo_element_hf.py --model_path ./hf_model --input_path ./demo/element_imgs/line_formula.jpeg --element_type formula# 3. 处理单个文本段落图像# 方式1:使用原始框架-基于配置python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/para_1.jpg --element_type text# 方式2:使用 Hugging Face 框架python demo_element_hf.py --model_path ./hf_model --input_path ./demo/element_imgs/para_1.jpg --element_type text

应用场景示例

写在最后

复杂文档解析从来不是轻松活:表格乱码、公式丢失、布局混乱,让传统OCR工具望而却步。

Dolphin 的出现,就像给文档解析装上了“多模态引擎”。

它通过两阶段解析(布局分析+并行处理),精准提取文本、表格、公式,输出JSON/Markdown,效率和精度碾压传统OCR。

而且该模型已经是字节本月开源的第三款AI多模态模型了(我所接触了解到的),字节跳动的开源精神值得称赞!开源代码、Hugging Face 模型和在线 Demo 更是降低了门槛,小白也能轻松上手!

无论是解析学术论文、转换财务报告,还是批量处理扫描文档,Dolphin 都能让你省时省力。

GitHub 项目地址:github.com/bytedance/D…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态AI 文档解析 Dolphin 字节跳动 开源模型
相关文章