掘金 人工智能 前天 15:38
告别复杂文档解析噩梦!MonkeyOCR 本地部署教程:支持公式/表格多元素结构化
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MonkeyOCR是华中科技大学与金山办公联合开发的文档解析模型,专注于将非结构化文档转化为结构化信息。它通过精确的布局分析、内容识别和逻辑排序,显著提升了文档解析的准确性和效率,尤其在处理复杂文档时表现出色。MonkeyOCR支持多种文档类型和语言,提供快速的文档处理速度,并提供了详细的部署流程和Gradio演示,方便用户体验和使用。

🚀 MonkeyOCR的核心功能在于将非结构化文档转换为结构化信息,通过精确的布局分析、内容识别和逻辑排序,提升文档解析的准确性和效率。

📈 与传统方法相比,MonkeyOCR在处理复杂文档时表现出色,性能提升5.1%,尤其在公式和表格解析上分别提升15.0%和8.6%。其处理多页文档的速度达到每秒0.84页,远超同类工具。

💻 MonkeyOCR支持多种文档类型,包括学术论文、教科书和报纸等,并支持多种语言,为文档数字化和自动化处理提供了强大的支持。部署环境推荐Ubuntu22.04,显卡4090,显存24G,cuda12.4.1。提供了详细的部署流程,包括环境配置、虚拟环境创建、模型下载、依赖包安装、模型权重文件下载等步骤,并提供了Gradio演示界面。

一、介绍

MonkeyOCR 是华中科技大学联合金山办公(Kingsoft Office)推出的文档解析模型,模型支持高效地将非结构化文档内容转换为结构化信息。基于精确的布局分析、内容识别和逻辑排序,显著提升文档解析的准确性和效率。

与传统方法相比,MonkeyOCR在处理复杂文档(如包含公式和表格的文档)时表现出色,平为性能提升5.1%,在公式和表格解析上分别提升15.0%和8.6%。模型在多页文档处理速度上表现出色,达到每秒0.84页,远超其他同类工具。MonkeyOCR支持多种文档类型,包括学术论文、教科书和报纸等,适用多种语言,为文档数字化和自动化处理提供强大的支持。

二、部署流程

环境推荐配置

系统:Ubuntu22.04,

显卡:4090,

显存:24G,cuda12.4.1

1. 基础环境

查看系统是否有Miniconda3的虚拟环境

conda -V

如果输入命令没有显示Conda版本号,则需要安装。

2.更新系统命令

输入下列命令将系统更新及系统下载

apt-get update && apt-get install ffmpeg libsm6 libxext6  -y

3.创建虚拟环境

创建名称为“MonkeyOCR ”的虚拟环境

conda create -n MonkeyOCR python=3.10 -y 

激活虚拟环境

conda activate MonkeyOCR 

4.下载模型

输入下列命令下载MonkeyOCR 模型同时进入项目中

git clone https://github.com/Yuliang-Liu/MonkeyOCR.gitcd MonkeyOCR

5.下载Pytorch

输入下列命令:

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124 

直到“Successfully”出现,下载才结束

6.下载依赖包

pip install -e .


直到“Successfully”出现,下载才结束

7.下载模型权重文件

python tools/download_model.py

三、Gradio演示

下载其他缺失依赖包

# Prepare your env for gradiopip install gradio==5.23.3pip install pdf2image==1.17.0

访问界面

python demo/demo_gradio.py

界面效果

四、其他(可选)

修复 RTX 3090 / 4090 / …GPU

我们的 3B 模型在 NVIDIA RTX 3090 上高效运行。但是,当使用 LMDeploy 作为推理后端时,您可能会遇到 RTX 3090 / 4090 GPU 的兼容性问题,尤其是以下错误:

triton.runtime.errors.OutOfResources: out of resource: shared memory

要解决此问题,您可以应用以下补丁:

python tools/lmdeploy_patcher.py patch

⚠️ 注意:此命令将在您的环境中修改 LMDeploy 的源代码。 要还原更改,只需运行:

python tools/lmdeploy_patcher.py restore

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MonkeyOCR 文档解析 OCR 金山办公 华中科技大学
相关文章