Cnbeta 2024年12月16日
一键将Office文档转换为MD格式的在线工具已上线
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软在Github上开源MarkItDown项目,可将多种格式转换为Markdown格式,方便索引和分析。该项目基于Python开发,有在线工具,目前仅支持Office文档转换,使用简单,但处理复杂文档可能有问题。

🎯微软开源MarkItDown,可转换多种格式为MD

🐍MarkItDown项目基于Python开发,本地或在线使用

📄在线工具目前仅支持Office文档转换

⚠处理复杂文档可能存在问题

微软在 Github 上以 MIT 许可证开源 MarkItDown 项目,该项目可以将 PDF、Office 文档、图片、音频、JSON、HTML、XML 等转换为 Markdown 格式。MD 格式是开发者们常用的书写格式,微软开源的这个项目意义在于开发者可以批量将各种内容转换为纯文本内容,然后进行索引和分析。

MarkItDown 项目基于 Python 开发,用户既可以在本地构建项目也可以使用开发者搭建好的在线工具,比如开发者 Seimo 就已经搭建了在线工具 Turn2Markdown:https://md.seimo.cn/

目前该工具仅支持上传 Office 文档进行转换,这个原因倒是很容易猜到,因为要识别图片需要部署 OCR、要转录音频可能还需要部署相关 AI 服务。

使用方法也非常简单,只需要选择 Office 文档例如 PPTX、XLSX、DOCX 即可进行转换,转换后以 MD 格式输出可以复制或下载为.md 文件,之后文件会服务器上永久删除。

不过开发者也提到暂时只能处理一些简单的文档,如果是比较复杂的文档输出的内容可能会有些问题,具体大家可以随便上传文件进行测试。

后续估计也会有其他开发者推出类似工具并支持 OCR 和 AI 服务,当然这类服务要服务器支撑,所以后面就是有在线工具要收费的花各位也不必惊讶。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MarkItDown 格式转换 Python Office文档
相关文章