掘金 人工智能 07月10日 15:05
PaddleOCR 3.1发布:文心助力30+语种文字识别精度提升30%+,关键能力支持MCP
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

PaddleOCR 3.1版本迎来重大升级,新增PP-OCRv5多语种文本识别模型,支持37种语言,识别精度大幅提升;推出PP-DocTranslation产线,基于PP-StructureV3和文心4.5大模型,实现复杂文档的翻译功能;同时,支持MCP服务器,方便用户将PaddleOCR的核心能力集成到下游AI应用中,构建更灵活高效的应用。

🎉 **多语种识别能力增强**:PaddleOCR 3.1新增PP-OCRv5多语种文本识别模型,支持包括法语、西班牙语、韩语等37种语言,平均识别精度提升超过30%。

📝 **文档翻译功能上线**:推出PP-DocTranslation产线,结合PP-StructureV3和文心4.5大模型,支持Markdown、PDF和图片三种格式文档的翻译,并支持自定义专业术语词表,实现精准翻译。

🔌 **MCP服务器支持**:用户可通过简单步骤搭建MCP服务器,将PaddleOCR的核心能力集成到AI应用中,支持本地Python库、云服务、自托管服务等多种方式,提升应用构建的灵活性和效率。

🌍 **文心4.5助力**:利用文心4.5大模型的视觉和文本理解能力,实现多语种数据的高质量标注,提升模型在多语言、多场景下的识别能力和翻译质量。

PaddleOCR 3.0自5月20日发布以来,受到业界的广泛关注,同时我们也收到了众多宝贵意见。我们积极响应、快速升级迭代,并在近日发布了 PaddleOCR 3.1,带来了3个新升级:

三大升级

01

30+语种文字识别精度跃升30%

随着世界各地交流合作的加深,多语种文本识别正成为智能应用领域的重要需求。为提升多语种场景下的文字识别能力,我们通过融合文心大模型的视觉和文本理解能力,实现了高效、高质量的训练数据获取,升级 PP-OCRv5在37种语言文字的识别能力,包括韩文、西班牙文、法文、葡萄牙文、德文、意大利文、俄罗斯文等。与前代多语种文字识别模型相比,PP-OCRv5在多语言场景文字识别准确率提升超过30%。

▎ 关键步骤——文心4.5助力多语种文字高质量数据构建

▎ 模型精度对比

注:

▎ PP-OCRv5多语种文字识别命令行使用方式

可以通过在命令行中使用--lang 参数,来进行指定语种的文本识别模型推理:

# 通过 `--lang` 参数指定使用法语的识别模型paddleocrocr-ihttps://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_french01.png \    --langfr \ # 此处为法语,刚多请参阅文档    --use_doc_orientation_classifyFalse \    --use_doc_unwarpingFalse \    --use_textline_orientationFalse \    --save_path ./output \    --devicegpu:0

上述命令行的其他参数说明请参考通用 OCR 产线的命令行使用方式。

02

PP-StructureV3+文心大模型

复杂文档翻译更简单

在全球化和信息化加速发展的背景下,文档翻译在现代社会中已成为一种不可或缺的需求,企业和个人需要高效、准确地翻译各类复杂文档。为此,我们结合 PP-StructureV3和文心大模型,推出了复杂文档翻译工具 PP-DocTranslation。PP-StructureV3具备强大的复杂文档解析能力,能够轻松应对很多复杂布局的 PDF 文档及文档图片,并高效地将其转换为 Markdown 格式输出。我们在此基础上,融合了文心大模型强大的文本理解和语义分析能力,对生成的 Markdown 结果进行进一步处理,实现了对相关文档的高质量多语言翻译。 此外,为了更好地服务于各类专业领域对精准翻译的需求,该工具特别增加了用户自定义词表功能,用户可以根据自身业务或领域的专业术语,自定义词汇表,从而实现特定场景下更加准确、专业的翻译结果。

▎ 效果展示

▎ 文心4.5助力多语言翻译

PP-DocTranslation 的 CLI 体验方式:

可以通过在命令行中使用--target_language 参数,来进行指定要翻译的目标语言:

paddleocr pp_doctranslation -i vehicle_certificate-1.png --target_language en --qianfan_api_key your_api_key

03

支持 MCP 服务器 轻松连接大模型

发挥 OCR 的无限想象空间

MCP 是一种开放协议,用于规范应用程序向大语言模型提供上下文信息的方式。可以将 MCP 类比为 AI 应用中的 USB 接口。正如 USB 为设备与各种外设和配件之间的连接提供了标准化方式,MCP 同样为 AI 模型与不同数据源和工具之间的连接提供了统一规范。通过支持实时调用数据或 API,MCP 能有效拓展应用场景、降低开发门槛,并提升系统安全性。如今,MCP 正逐渐成为推动 AI 生态落地的关键连接桥梁。

为了更便捷地将 PaddleOCR 能力集成至各类 AI 应用中,PaddleOCR 3.1版本支持用户通过几步简单操作,即可搭建 MCP 服务器。具体而言,根据 MCP 协议,AI 应用(作为 MCP 主机)通过 MCP 客户端与 PaddleOCR 的 MCP 服务器进行通信。PaddleOCR 的 MCP 服务器则通过 Python API 或服务请求等方式调用其核心能力,并将这些能力标准化后提供给下游的 AI 应用使用。下图展示了 PaddleOCR 核心功能、PaddleOCR MCP 服务器以及 AI 应用之间的关系:

当前,PaddleOCR MCP 服务器支持以下能力:

根据 PaddleOCR 的运行方式,MCP 服务器支持以下工作模式:

同时,PaddleOCR MCP 服务器支持 stdio 和 Streamable HTTP 两种传输机制,用户既可以本地部署服务实现快速集成,也可以远程调用服务,满足不同场景的使用需求。

同时,PaddleOCR MCP 服务器支持 stdio 和 Streamable HTTP 两种传输机制,用户既可以本地部署服务实现快速集成,也可以远程调用服务,满足不同场景的使用需求。

搭建 MCP 服务器并集成到 AI 应用中,仅需几个简单步骤。下面以“星河社区服务”模式为例,介绍如何在 Claude for Desktop 中使用 PaddleOCR MCP 服务器提供的工具。

1.参考 PaddleOCR 官方文档,在星河社区部署推理服务

paddlepaddle.github.io/PaddleOCR/v…

aistudio.baidu.com/pipeline/mi…

2.将 Claude for Desktop 配置文件 claude_desktop_config.json 修改如下(需安装 uv):

{  "mcpServers": {    "paddleocr-ocr": {      "command""uvx",      "args": [        "--from",        "paddleocr-mcp@https://paddle-model-ecology.bj.bcebos.com/paddlex/PaddleX3.0/mcp/paddleocr_mcp/releases/v0.1.0/paddleocr_mcp-0.1.0-py3-none-any.whl",        "paddleocr_mcp"      ],      "env": {        "PADDLEOCR_MCP_PIPELINE""OCR",        "PADDLEOCR_MCP_PPOCR_SOURCE""aistudio",        "PADDLEOCR_MCP_SERVER_URL""<替换为服务基础 URL>",         "PADDLEOCR_MCP_AISTUDIO_ACCESS_TOKEN""<替换为星河社区访问令牌>"      }    }  }}

3.重启 Claude for Desktop。新的 paddleocr-ocr 工具现在应该可以在应用中使用了,如下图所示:

如果希望使用 PP-StructureV3的文档解析能力,只需参考上述步骤,在星河社区部署文档版面解析 V3产线,并在配置文件中替换对应的服务基础 URL 即可。除了基本配置外,PaddleOCR MCP 服务器还提供丰富的可调参数,用户可根据需求灵活调整,例如替换为自训练的文本识别模型、关闭不需要的功能模块等。

关于更多详细用法,请参考官方文档:

paddlepaddle.github.io/PaddleOCR/v…

▎ 创新案例

以下展示了使用 PaddleOCR MCP 服务器结合其他工具搭建的创意案例:

Demo 1:在 Claude for Desktop 中,提取图像中的手写内容,并存到笔记软件 Notion。PaddleOCR MCP 服务器从图像中提取了文字、公式等信息,并保留了文档的结构。

Demo 2:在 VSCode 中,根据手写思路或伪代码一键转换为可运行并符合项目代码风格规范的 Python 脚本,并将其上传到 GitHub 仓库中。PaddleOCR MCP 服务器从图像中高准确率地提取手写代码供后续步骤使用。

Demo 3:在 Claude for Desktop 中,将含有复杂表格、公式、手写文字等内容的 PDF 文档或图片转存为本地可编辑文件。

PDF 转为 Word 可编辑格式

图片转为 Excel 可编辑格式:

结语

自 PaddleOCR 3.0发布以来,我们收到了大量关于多语种识别和 MCP 支持的需求反馈。为此,我们近期推出了升级版 PaddleOCR 3.1。欢迎各位开发者、研究者和行业用户下载体验 PaddleOCR 3.1,并积极提出宝贵建议和反馈。大家的支持和参与将持续助力我们打造更加优质、开放和强大的 OCR 生态!

开源地址:github.com/PaddlePaddl…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PaddleOCR 多语种识别 MCP服务器 文档翻译
相关文章