蓝点网 2024年12月16日
开发者的执行力极强:一键将Office文档转换为MD格式的在线工具已上线
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软在Github上开源了MarkItDown项目,该项目可以将PDF、Office文档、图片、音频等多种格式转换为Markdown格式。这对于开发者来说意义重大,可以批量将各种内容转换为纯文本进行索引和分析。MarkItDown基于Python开发,用户可以选择本地构建或使用在线工具,例如Turn2Markdown。目前在线工具仅支持Office文档转换,但未来可能会支持OCR和AI服务。使用方法简单,上传文档即可转换为MD格式,转换后的文件会从服务器永久删除。需要注意的是,目前工具可能无法处理复杂文档。

📦微软开源MarkItDown项目,支持PDF、Office文档、图片、音频等多种格式转换为Markdown。

👨‍💻该项目基于Python开发,开发者可本地构建或使用在线工具Turn2Markdown,目前在线工具仅支持Office文档转换。

📄使用方法简便,用户上传Office文档即可转换为MD格式,并提供复制或下载功能,转换后文件将从服务器永久删除。

⚠️目前工具仅能处理简单文档,复杂文档输出可能存在问题,未来可能支持OCR和AI服务,届时可能需要付费。

昨天蓝点网提到微软在 Github 上以 MIT 许可证开源 MarkItDown 项目,该项目可以将 PDF、Office 文档、图片、音频、JSON、HTML、XML 等转换为 Markdown 格式。

MD 格式是开发者们常用的书写格式,微软开源的这个项目意义在于开发者可以批量将各种内容转换为纯文本内容,然后进行索引和分析。

MarkItDown 项目基于 Python 开发,用户既可以在本地构建项目也可以使用开发者搭建好的在线工具,比如开发者 Seimo 就已经搭建了在线工具 Turn2Markdown:https://md.seimo.cn/

目前该工具仅支持上传 Office 文档进行转换,这个原因倒是很容易猜到,因为要识别图片需要部署 OCR、要转录音频可能还需要部署相关 AI 服务。

使用方法也非常简单,只需要选择 Office 文档例如 PPTX、XLSX、DOCX 即可进行转换,转换后以 MD 格式输出可以复制或下载为.md 文件,之后文件会服务器上永久删除。

不过开发者也提到暂时只能处理一些简单的文档,如果是比较复杂的文档输出的内容可能会有些问题,具体大家可以随便上传文件进行测试。

后续估计也会有其他开发者推出类似工具并支持 OCR 和 AI 服务,当然这类服务要服务器支撑,所以后面就是有在线工具要收费的花各位也不必惊讶。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MarkItDown Markdown 文档转换 开源项目
相关文章