掘金 人工智能 06月11日 10:33
3B小模型吊打72B巨头!轻量级文档解析OCR,性能超Gemini,高效且精准!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MonkeyOCR是一款轻量级的基于LLM的文档解析模型,由Yuliang-Liu团队在GitHub上开源。该模型采用创新的“结构-识别-关系”(SRR)三元组范式,实现了高效且精准的文档解析。其3B参数模型在英文文档解析任务中表现出色,处理速度快,支持中英文文档,并能生成结构化数据,适用于企业文档处理、学术研究、数据提取和教育培训等多种场景。

🧐 **SRR三元组范式**:MonkeyOCR的核心在于其“结构-识别-关系”(SRR)三元组范式,该范式包含结构检测(YOLO布局分析)、内容识别(Qwen-VL文本提取)和关系预测(逻辑排序)三个关键组成部分,确保了文档解析的准确性和效率。

💡 **轻量高效**:MonkeyOCR仅有3B参数,但在英文文档解析任务中表现出色,超越了Gemini 2.5 Pro和Qwen2.5-VL-72B等模型,在多页文档解析场景下,处理速度达到每秒0.84页,显著优于其他模型。

🌍 **中英文支持**:MonkeyOCR支持中英文文档解析,适配MonkeyDoc数据集,覆盖10多种文档类型,包括论文、发票、报表等,满足了不同用户的需求。

⚙️ **结构化输出**:MonkeyOCR能够生成markdown或json结构化数据,方便用户进行后续处理,例如数据提取和数据库适配等。

🚀 **快速部署与应用**:MonkeyOCR安装和使用简单,用户只需按照GitHub上的步骤进行项目下载、环境部署、权重模型下载和推理即可。此外,还提供了在线Gradio Demo,方便用户进行快速体验。

在文档解析领域,传统方法要么依赖复杂多工具流水线,要么受限于大型多模态模型的低效性。

近日,Yuliang-Liu团队在GitHub上开源了一款轻量级基于LLM的文档解析模型:MonkeyOCR

它以创新的“结构-识别-关系”(SRR)三元组范式,实现了高效且精准的文档解析。其3B参数模型在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。

在对多页文档解析场景下,处理速度达每秒0.84页,显著优于MinerU(0.65页/秒)和Qwen2.5-VL-7B(0.12页/秒)。

亮点功能

安装与部署

MonkeyOCR的安装和使用简单,只需按照以下步骤进行即可。

① 项目下载及环境部署,安装依赖

conda create -n MonkeyOCR python=3.10conda activate MonkeyOCRgit clone https://github.com/Yuliang-Liu/MonkeyOCR.gitcd MonkeyOCRpip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124 pip install .

② 从 Huggingface 或 ModelScope 下载权重模型

pip install huggingface_hubpython download_model.py# orpip install modelscopepython download_model.py -t modelscope

③ 推理

# 确保在 MonkeyOCR 目录中python parse.py path/to/your.pdf# 指定输出路径和模型配置路径python parse.py path/to/your.pdf -o ./output -c config.yaml

④ 启动在线Gradio Demo

# Prepare your env for gradiopip install gradio==5.23.3pip install pdf2image==1.17.0# Start demopython demo/demo_gradio.py

适用场景

MonkeyOCR 的轻量设计和SRR范式让它适用于多种场景,直击文档处理痛点:

写在最后

MonkeyOCR 以其轻量级设计和SRR三元组范式,为文档解析领域带来了新的“血液”。

其3B参数模型更是在英文文档解析中超越Gemini 2.5 Pro和Qwen2.5-VL-72B,多页文档处理速度达0.84页/秒,公式和表格识别分别提升15.0%和8.6%。

虽说支持各种类型中英文文档,但暂不支持照片类型输入。

希望未来能在照片文档支持、多语言扩展、实时处理、模型压缩等方面有持续优化。

GitHub 项目地址:github.com/Yuliang-Liu…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MonkeyOCR 文档解析 LLM SRR
相关文章