宝玉的分享 04月14日 23:44
我是如何高效翻译 65 页 Google 官方提示工程白皮书 PDF 文件的
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文分享了使用大语言模型翻译PDF文档的实用技巧,作者提倡将PDF转换为Markdown进行翻译,以避免排版问题并提高翻译质量。文章介绍了使用Gemini、LlamaParse和MistralOCR等工具将PDF转换为Markdown的方法,并提供了翻译Markdown的提示词技巧。此外,还介绍了使用Deep Research一键翻译长PDF文档的经验,强调了Gemini在长文档翻译方面的优势。

📄 将PDF转换为Markdown是提升翻译效率的关键。这样做可以避免排版问题,保证翻译质量,同时方便后续的编辑和格式调整。

💡 Gemini、LlamaParse和MistralOCR是常用的PDF转Markdown工具。Gemini操作简单,LlamaParse提供UI界面,MistralOCR计费灵活,可以根据需求选择。

✍️ 翻译Markdown时,在提示词中加入明确的指令,例如“用简体中文重写,保持原有Markdown格式不变”,可以提高翻译准确性和效率。对于长文档,可以分块翻译。

📚 Deep Research是翻译长PDF的利器。OpenAI和Google Gemini的Deep Research都可以胜任长文档翻译任务,但Gemini在翻译质量和输出格式上更胜一筹。

前几天翻译 Google 官方提示工程白皮书 PDF 的时候,尝试了一些自动化的方法来提升效率,分享一些我翻译 PDF 的经验和心得。

首先我个人比较排斥保持排版的翻译方式,因为 PDF 在翻译后,文字长度不一致会导致排版很难看,忽大忽小;另外翻译的时候由于布局导致的文字被强行分割,导致上下文不完整会影响翻译质量。

我在翻译 PDF 时,会把 PDF 先转成 Markdown,再基于 Markdown 去翻译,翻译好了基于翻译好的 Markdown 再去重新生成 PDF,对于文字、表格、图片都能很好的保留,主要缺点是布局格式保留的不是很好,不过我翻译的通常是文字图表为主的,所以影响不大。

如何将 PDF 转 Markdown?

我常用的 PDF 转 Markdown 主要有两种方式:

一种是直接使用多模态的大语言模型去生成 Markdown

其中 Gemini 效果最好,OCR 能力强上下文窗口长度大,尤其是最新的 Gemini 2.5 Pro,效果非常好,如果你能访问 AI Studio (aistudio.google.com),每天有很多免费额度,几乎是不用花钱的。如果已经是 Gemini 订阅用户,Gemini 上用 Gemini 2.5 Pro 也很方便。

使用方法很简单,上传 PDF 文件,提示词参考:

帮我把这个PDF转成Markdown,保留所有内容不要删减

这种方式优点是操作简单方便,表格也能很好的保留,缺点是 PDF 不能太大,几十页以后可能就无法正常提取了,另外 PDF 内的图片也无法帮你提取,需要手动去截图或者工具提取。

一种是使用第三方的 API,我试下来两家的比较好:

LlamaIndex 的 LlamaParse:https://www.llamaindex.ai/llamaparse好处是有个 UI,直接上传 PDF 就可以生成 Markdown,图片也可以单独下载;缺点是计费方式不灵活,只有包月的方式,不能按量付费,好在免费额度够大,可以分析好多页

Mistra 的 MistraOCR:https://mistral.ai/news/mistral-ocr好处是计费灵活,可以按照使用量付费,也可以生成 Markdown 和提取图片(但是我没成功过)缺点是没有提供 UI,需要借助自己写代码或者用开源项目辅助

这种方式好处就是无论多大的 PDF 文件都能解析,另外 PDF 内置的图片也可以提取下来(有些 PDF 也不行)。

如何翻译 Markdown?

翻译 Markdown 很简单,直接把要翻译的 Markdown 给你喜欢的大语言模型,在开头或者结尾写一句提示词:

请把输入的内容用简体中文重写,保持原有 Markdown 格式不变无删减,内容通俗易懂

但是如果 Markdown 内容很长,就需要手动分块,一次翻译一部分,最后手动合并。至于模型能翻译多长,取决于模型本身,翻译长度表现最好是 Gemini 2.5 Pro,最差是 GPT-4.5,不过我觉得 GPT-4.5 翻译效果是最好的,所以很多时候我宁愿手动拆分用 GPT-4.5 一块一块的翻译。

至于翻译的一致性,可以在翻译的提示词里面加上术语表,比如:

请将输入的内容用中文重写,尊重原意,让它通俗易懂适合普通人群,无删减,人名不翻译,词汇表:AI Agent -> AI 智能体LLM -> 大语言模型

或者翻译完了手动替换一下。

如何一键翻译 PDF

上面的解析 Markdown 再用 Markdown 翻译是比较准确翻译的方法,就是比较繁琐。如果你的 PDF 不是很大,也可以用大语言模型一键翻译。

如果 PDF 文件内容不长,比如 10 页以内(具体根据模型不同有所差异,需要多试试),直接让模型翻译并输出 Markdown 即可。

如果 PDF 文件内容比较长,但又不是特别长,比如我翻译的 65 页 Google 官方提示工程白皮书,这就有个秘笈了:用 Deep Research 帮你翻译长 PDF。

绝大部分只支持 Deep Research 可以写调研报告,不知道 Deep Research 实际上还能做一些其他任务,比如翻译、写代码。由于 Deep Research 有一个临时的本地存储,以及它的模型窗口通常都很长,所以对于长内容的翻译,它足以胜任。比如 64 页的 PDF 如果是普通会话,是无法翻译的,但是在 Deep Research 里面可以轻松搞定。

但是 Deep Research 里面无法上传附件,你只能把 PDF 放到一个公网可以访问到的地址,比如 GitHub Pages,S3 等,然后提供 URL 给它翻译。 提示词很简单:

请帮我把这个PDF完整的翻译成中文,输出为Markdown格式

PDF地址:{pdf url}

Deep Research 可以借助浏览器阅读并翻译 PDF 内https://baoyu.io/uploads/2025-04-14/Gemini-04-14-2025_10_19_AM.png025_10_19_AM.png" data-width="100%" data-align="center">

OpenAI 的 DeepResearch 和 Google Gemini 的 DeepResearch 都可以胜任这个长 PDF 翻译任务,但是 Gemini 的 DeepResearch 翻译结果更好。另外 Gemini 的结果可以直接导出到 Google Doc,然后下载成 PDF,OpenAI 的 DeepResearch 你需要复制成 Markdown,然后去掉一些不必要https://baoyu.io/uploads/2025-04-14/PDF%E7%BF%BB%E8%AF%91%E8%AF%B7%E6%B1%82-04-14-2025_10_20_AM.pngE6%B1%82-04-14-2025_10_20_AM.png" data-width="100%" data-align="center">

这里是我当时分别用 OpenAI 的 DeepResearch 和 Google 的 DeepResearch 翻译的结果会话链接,可以对比参考:

注意用 DeepResearch 翻译也不是无限长度的,依旧受限于其产品长度限制,65页已经是接近极限的长度了,更长建议就要拆分成多个小 PDF 去翻译了。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PDF翻译 Markdown 大语言模型 Gemini Deep Research
相关文章