在线使用从官网可以看到对其的简介:MinerU 可以精准识别版面元素、定位图片表格、解析数学公式,是你 PDF 文件转换的不二之选:mineru.net最值得拿来说的一点就是,MinerU 作为免费开源项目,却有着精美的官网与API使用说明,关键是目前调用 API 还是完全免费!?▲官网:mineru.netMinerU 的易用也使得类似功能的开源项目 Marker、olmocr 相形见绌,虽然这两位在 Github 的星标也不在少数,但没有提供发行版、下载模型麻烦、部署运行复杂…对广大用户来说都是很劝退的
↕上下滑动查看更多↕讲道理 PDF 解析转换这种事是相当耗费服务器资源的,一般网上的免费服务都会「限制可上传的文件大小」或者「不支持OCR」以此来诱导你付费▲常见的一些在线PDF转Word服务但在 MinerU 这里,限制非常宽松!网页版限制上传单文件 ≤ 200MB、600页(超过600可以选择页码解析);批量上传 ≤ 20个,每个账号每天还不限解析页数(只是超过2000页的后续请求优先度降低可能需排队)但这几乎已经可以应对绝大多数「PDF转Word」需求场景了!▲可以粘贴文件直链!正当我纳闷哪家公司这么大手笔,稍微仔细一看才发现,原来该项目是隶属于「上海人工智能创新中心」还是一家事业单位!旗下的上海人工智能实验室更是与清华、北大、复旦等等知名高校签订了战略合作框架协议虽然据官网显示,其实目前是处于 MinerU API 内测阶段——内测期间不收费对于互联网服务来说算是普遍情况你真要问阿虚项目以后会不会收费?我不敢保证,但至少从项目开发单位来看,真做到永久免费也不是没可能的网页使用没啥好说的,免费手机号或者微信注册登录,上传 PDF 即可只是注意,虽然 MinerU 主要用途是把 PDF 转换为 Markdown 格式,但其实你也可以在右上角下载到 DOCX 文件并且值得一提的是 MinerU 也免费支持OCR解析并识别转换扫描版PDF !虽然内容识别还算不上完美,会有些许识别错误,但对于原 PDF 整个排版的保留是一点儿毛病也没有!▲点击查看大图另外需要说明一点,就是虽然官网提供了多平台可用的客户端(包括Win/Mac/Linux),而且客户端也不需要登录就能直接使用但事实本地客户端只是会自动绑定一个设备 ID,然后实际还是调用 API 走云端服务器来处理文件,所以同样有 2000 页的每日解析限制(超过 2000 页需排队)网页版+客户端=每日 4000 页解析额度,对于 99% 的人来说应该都是完全够用了1.2
本地部署如果这都还满足不了你的处理需求,或者你十分介意文档被上传到云端,你可以尝试一下 MinerU 本地部署使用你能在B站(bilibili.com)通过搜索关键词「MinerU 整合包」找到很多发布资源的博主,基本上都是直接在视频简介处给出了网盘下载链接,并且阿虚小范围验证都是良心发布,没有二次收费不过需要说明的是,MinerU 相当吃电脑资源,本地解析大型文档很容易爆显存,并且目前只支持 N 卡,A 卡不能用(改用 CPU 可以,但处理速度会相当之慢),如无刚需不太建议折腾还有就是官方版本更新相当之快,基本上每个月都会发布一次更新!第三方打包版本可能完全跟不上更新速度,差一个版本体验可能就差很多,而官网肯定是能及时用上最新版就在阿虚写这篇文章的 6 月 13 号,MinerU 又发布了更新,而且这次是大版本更新到了 2.0,集成了最新的小参数、高性能多模态文档解析模型,解析精度更好更强了再来就是本地部署版本,基本上只有基础的PDF转Markdown功能,所以你其实是还需要自己另找工具来把Markdown转为Word的当然,Markdown转Word这方面的工具可以考虑下阿虚原来分享过的Typora,打开.md文件之后在菜单栏找到文件 ⇨ 导出 ⇨ Word 即可(需按提示安装 Pandoc),也可以选择导出为 html(without Styles),接着打开 html 文件后全选复制粘贴到 word 里面即可2
Acrobat原本文章都准备说写完封笔了,阿虚这才回过神来想——为啥会有 PDF 转 Word 这个需求呢?首先肯定不是为了打印,毕竟 PDF 直接就能打印了,而且打印稳定性还比 Word 更好那肯定就是为了编辑——而且还不是普通的编辑毕竟 PDF 有专门的 PDF 编辑器,只要不是扫描版PDF,想要简单修改下文字内容,添加点图像啥的还是很简单的那到底是什么复杂编辑场景会需要 PDF 转 Word 呢?阿虚想了半天,终于想到了一类日常需求场景——老师们需要对网上下载到的PDF试卷组卷&改题文章开头粉丝提到的「CS全能扫描王」虽然能做到表面上完美保留排版格式,但实际上一编辑就会发现漏洞百出:尤其像数学试卷这类特殊符号多的,你会发现,很多题干明明是一段话,但却被识别分割成了不同区块错位组合而有什么软件能最好解决这类本身就可编辑的PDF转Word需求呢?这里就又得搬出最懂 PDF 的 Adobe Acrobat 了——毕竟 PDF 这种格式就是 Adobe 公司发明的▲Adobe公司在1991年发明了PDF格式只要你的 PDF 本身就是可编辑文档,阿虚测试用 Acrobat 来转换为 Word 可以说是效果完美(版本越高效果越好)Acrobat 软件可以在储物间 6-2 栏免费获取,昨天我才更新到了2025版或者不说转换,因为用 Acrobat 打开 PDF 之后,点击文件 ⇨ 导出为 ⇨ Microsoft Word,就能导出成 .docx 文件了下图就是用 Acrobat 导出的试卷效果,不说完美,但基本上满足绝大多数 PDF 转 Word 场景了,排版完整保留,内容也都可以在 Word 里面修改 3
通用AI大模型但如果你一定深究,上图的转换效果显然还不是完美格式:符号存在一些小错位,Word 里面也不该是上图这样来编辑根号√2、√3 这些数学符号对于包含大量公式的PDF转Word可编辑文档,其实现在也有不少这方面的软件工具了,但基本上都是要收费的,比如:Doc2X、Mathpix、SimpleTex、Omniai OCR、OCRmath…有没有免费的办法呢?其实不图效率的话,我们完全是可以手动利用现在的很多免费 AI 大模型工具实现的,阿虚下面就以豆包来举例发起对话,上传PDF,输入Prompt 让 AI 帮忙按格式提取内容阿虚反复测试之后,用以下 Prompt 提取效果还算稳定不错:任务要求: 1. 输入处理:读取PDF文档中的全部内容,包括普通文字和数学公式。 2. 格式转换: - 普通文字:按原文逐字输出,保留标点、段落结构、每个段落之间增加空行。 - 数学公式:识别后转换为LaTeX格式,并用单个`$`符号包裹(如`$公式内容$`)。 3. 严格执行: - 不做任何推理、计算或内容修改,仅忠实还原原文。 - 每个段落之间增加空行。 - 若公式无法识别,保留原始符号并尽量转换为LaTeX等效格式。 格式规范示例: 示例1:普通文本+公式 - 原文:"在数学中,勾股定理表示为a²+b²=c²,其中a、b为直角边,c为斜边。" - 输出:"在数学中,勾股定理表示为$a^2 + b^2 = c^2$,其中a、b为直角边,c为斜边。" 示例2:复杂公式 - 原文:"积分公式:∫₀^∞ e^(-x)dx = 1" - 输出:"积分公式:$\int_0^\infty e^{-x}dx = 1$" 执行流程提示: 1. 逐页扫描PDF,区分文字区块与公式区块。 2. 对公式区块使用LaTeX转换工具(如Mathpix、Tesseract-OCR的公式模式)。 3. 输出时用`$`包裹每个公式,确保无多余空格(如`$x+y$`而非`$ x + y $`)。 注意事项: - 若公式包含特殊符号(如希腊字母、运算符),需转换为LaTeX标准语法(如`α`→`\alpha`,`≥`→`\geq`)。 - 段落中的公式需与前后文字自然衔接,不换行(如"公式$E=mc^2$表明...")。耐心等待 AI 识别完之后,点击「复制全文」按钮(如果内容过长输出中断,则请自行让 AI 继续回复,然后手动把几次分段的回复合并到一起)然后我们如何把复制到的内容转换成 Word 呢?我们一是可以白嫖 Simpletex 的在线编辑器:https://simpletex.cn/ai/editor二是用阿虚找来的 Markdown-Renderer 这个软件转换也还行,该软件可看文章后续置顶留言,或者在公众号后台回复关键词「markdown」获取对于部分选项中居中的公式,需要自行点击公式右下角的小三角,改为内嵌。或者自行调整转换前得 Markdown 文本,把多行选项去掉换行,弄到一行里面,这样转换后的公式就不会单独成行居中了最后还需要你自己对 Word 文档进行排版和修改,注意和原文对比校正,AI 还是可能会出现识别错误或漏掉的部分,需要手动订正补齐!