PaddleOCR 3.1发布：文心助力30+语种文字识别精度提升30%+，关键能力支持MCP

PaddleOCR 3.0自5月20日发布以来，受到业界的广泛关注，同时我们也收到了众多宝贵意见。我们积极响应、快速升级迭代，并在近日发布了 PaddleOCR 3.1，带来了3个新升级：

■ 三大升级

新增 PP-OCRv5多语种文本识别模型。支持法语、西班牙语、葡萄牙语、俄语、韩语等37种语言，平均识别精度提升超过30%。同时依托文心4.5多模态能力，实现了数据的自动高质量标注，有效解决了多语种数据稀缺和标注成本高的问题，进一步提升了模型在多语言、多场景下的识别能力。新增文档翻译 PP-DocTranslation 产线。PP-DocTranslation 基于文档解析 PP-StructureV3和文心4.5大模型，支持对 Markdown、PDF 和图片三种格式的文档数据进行翻译，同时支持本地传入专业术语对照表，实现关键词汇的精细化多语言翻译。支持 MCP 服务器。用户可通过简单的步骤搭建 MCP 服务器，将通过本地 Python 库、云服务、自托管服务等多种方式运行的 PaddleOCR 核心能力统一集成到下游 AI 应用中，实现更灵活高效的应用构建。

30+语种文字识别精度跃升30%

随着世界各地交流合作的加深，多语种文本识别正成为智能应用领域的重要需求。为提升多语种场景下的文字识别能力，我们通过融合文心大模型的视觉和文本理解能力，实现了高效、高质量的训练数据获取，升级 PP-OCRv5在37种语言文字的识别能力，包括韩文、西班牙文、法文、葡萄牙文、德文、意大利文、俄罗斯文等。与前代多语种文字识别模型相比，PP-OCRv5在多语言场景文字识别准确率提升超过30%。

▎ 关键步骤——文心4.5助力多语种文字高质量数据构建

自动文本行检测与裁剪：利用 PP-OCRv5检测模型，自动定位并裁剪图像中的每一行文本，快速、高效地获取标准化的文本行图片。高置信度文本内容识别：依托文心4.5强大的视觉和文本理解能力，对每个文本行图像进行多次独立识别，筛选出识别结果一致的样本。不仅显著提升标注数据的准确性，还有效规避了人工标注的主观误差，确保数据高质量和高可靠性。

▎ 模型精度对比

注：

为更全面评估多语种模型能力，本次模型研发过程中重新收集了大量来自真实场景的高难度评估数据。拉丁字母文字涵盖西班牙文、葡萄牙文、法文等33种语言文本。东斯拉夫语言涵盖俄文、乌克兰文、白俄罗斯文。

▎ PP-OCRv5多语种文字识别命令行使用方式

可以通过在命令行中使用--lang 参数，来进行指定语种的文本识别模型推理：

# 通过 `--lang` 参数指定使用法语的识别模型paddleocrocr-ihttps://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_french01.png \    --langfr \ # 此处为法语，刚多请参阅文档    --use_doc_orientation_classifyFalse \    --use_doc_unwarpingFalse \    --use_textline_orientationFalse \    --save_path ./output \    --devicegpu:0

上述命令行的其他参数说明请参考通用 OCR 产线的命令行使用方式。

PP-StructureV3+文心大模型

复杂文档翻译更简单

在全球化和信息化加速发展的背景下，文档翻译在现代社会中已成为一种不可或缺的需求，企业和个人需要高效、准确地翻译各类复杂文档。为此，我们结合 PP-StructureV3和文心大模型，推出了复杂文档翻译工具 PP-DocTranslation。PP-StructureV3具备强大的复杂文档解析能力，能够轻松应对很多复杂布局的 PDF 文档及文档图片，并高效地将其转换为 Markdown 格式输出。我们在此基础上，融合了文心大模型强大的文本理解和语义分析能力，对生成的 Markdown 结果进行进一步处理，实现了对相关文档的高质量多语言翻译。 此外，为了更好地服务于各类专业领域对精准翻译的需求，该工具特别增加了用户自定义词表功能，用户可以根据自身业务或领域的专业术语，自定义词汇表，从而实现特定场景下更加准确、专业的翻译结果。

▎ 效果展示

▎ 文心4.5助力多语言翻译

精准翻译：依托文心4.5对多语言的理解，能够实现更为精准、地道的目标语言翻译效果。多语言支持：借助文心4.5的多语言处理能力，满足多样化多语言的翻译需求。

▎ PP-DocTranslation 的 CLI 体验方式：

可以通过在命令行中使用--target_language 参数，来进行指定要翻译的目标语言：

paddleocr pp_doctranslation -i vehicle_certificate-1.png --target_language en --qianfan_api_key your_api_key

支持 MCP 服务器轻松连接大模型

发挥 OCR 的无限想象空间

MCP 是一种开放协议，用于规范应用程序向大语言模型提供上下文信息的方式。可以将 MCP 类比为 AI 应用中的 USB 接口。正如 USB 为设备与各种外设和配件之间的连接提供了标准化方式，MCP 同样为 AI 模型与不同数据源和工具之间的连接提供了统一规范。通过支持实时调用数据或 API，MCP 能有效拓展应用场景、降低开发门槛，并提升系统安全性。如今，MCP 正逐渐成为推动 AI 生态落地的关键连接桥梁。

为了更便捷地将 PaddleOCR 能力集成至各类 AI 应用中，PaddleOCR 3.1版本支持用户通过几步简单操作，即可搭建 MCP 服务器。具体而言，根据 MCP 协议，AI 应用（作为 MCP 主机）通过 MCP 客户端与 PaddleOCR 的 MCP 服务器进行通信。PaddleOCR 的 MCP 服务器则通过 Python API 或服务请求等方式调用其核心能力，并将这些能力标准化后提供给下游的 AI 应用使用。下图展示了 PaddleOCR 核心功能、PaddleOCR MCP 服务器以及 AI 应用之间的关系：

当前，PaddleOCR MCP 服务器支持以下能力：

文字识别：对图像和 PDF 文件进行文本检测与识别，返包含文字坐标和文字内容的 JSON 文件。文档解析：从图像或 PDF 中识别和提取文本块、标题、段落、图片、表格等版面元素，并将内容结构化输出为 Markdown 文档和 JSON 文件。

根据 PaddleOCR 的运行方式，MCP 服务器支持以下工作模式：

本地 Python 库：在本地直接运行 PaddleOCR 模型。星河社区服务：调用托管在飞桨星河社区的服务。自托管服务：连接用户自行部署的 PaddleOCR 服务。

同时，PaddleOCR MCP 服务器支持 stdio 和 Streamable HTTP 两种传输机制，用户既可以本地部署服务实现快速集成，也可以远程调用服务，满足不同场景的使用需求。

搭建 MCP 服务器并集成到 AI 应用中，仅需几个简单步骤。下面以“星河社区服务”模式为例，介绍如何在 Claude for Desktop 中使用 PaddleOCR MCP 服务器提供的工具。

1.参考 PaddleOCR 官方文档，在星河社区部署推理服务

PaddleOCR 官方文档：

paddlepaddle.github.io/PaddleOCR/v…

星河社区：

aistudio.baidu.com/pipeline/mi…

2.将 Claude for Desktop 配置文件 claude_desktop_config.json 修改如下（需安装 uv）：

{  "mcpServers": {    "paddleocr-ocr": {      "command": "uvx",      "args": [        "--from",        "paddleocr-mcp@https://paddle-model-ecology.bj.bcebos.com/paddlex/PaddleX3.0/mcp/paddleocr_mcp/releases/v0.1.0/paddleocr_mcp-0.1.0-py3-none-any.whl",        "paddleocr_mcp"      ],      "env": {        "PADDLEOCR_MCP_PIPELINE": "OCR",        "PADDLEOCR_MCP_PPOCR_SOURCE": "aistudio",        "PADDLEOCR_MCP_SERVER_URL": "<替换为服务基础 URL>",         "PADDLEOCR_MCP_AISTUDIO_ACCESS_TOKEN": "<替换为星河社区访问令牌>"      }    }  }}

3.重启 Claude for Desktop。新的 paddleocr-ocr 工具现在应该可以在应用中使用了，如下图所示：

如果希望使用 PP-StructureV3的文档解析能力，只需参考上述步骤，在星河社区部署文档版面解析 V3产线，并在配置文件中替换对应的服务基础 URL 即可。除了基本配置外，PaddleOCR MCP 服务器还提供丰富的可调参数，用户可根据需求灵活调整，例如替换为自训练的文本识别模型、关闭不需要的功能模块等。

关于更多详细用法，请参考官方文档：

paddlepaddle.github.io/PaddleOCR/v…

▎ 创新案例

以下展示了使用 PaddleOCR MCP 服务器结合其他工具搭建的创意案例：

Demo 1：在 Claude for Desktop 中，提取图像中的手写内容，并存到笔记软件 Notion。PaddleOCR MCP 服务器从图像中提取了文字、公式等信息，并保留了文档的结构。

developers.notion.com/docs/mcp

Demo 2：在 VSCode 中，根据手写思路或伪代码一键转换为可运行并符合项目代码风格规范的 Python 脚本，并将其上传到 GitHub 仓库中。PaddleOCR MCP 服务器从图像中高准确率地提取手写代码供后续步骤使用。

github.com/modelcontex…

Demo 3：在 Claude for Desktop 中，将含有复杂表格、公式、手写文字等内容的 PDF 文档或图片转存为本地可编辑文件。

PDF 转为 Word 可编辑格式

图片转为 Excel 可编辑格式：

github.com/modelcontex…

■ 结语

自 PaddleOCR 3.0发布以来，我们收到了大量关于多语种识别和 MCP 支持的需求反馈。为此，我们近期推出了升级版 PaddleOCR 3.1。欢迎各位开发者、研究者和行业用户下载体验 PaddleOCR 3.1，并积极提出宝贵建议和反馈。大家的支持和参与将持续助力我们打造更加优质、开放和强大的 OCR 生态！

开源地址：github.com/PaddlePaddl…

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签