蓝点网 2024年12月15日
微软开源MarkItDown项目 支持将PDF/办公文档/图片/音视频转换为Markdown格式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软开源了MarkItDown项目,这是一个利用人工智能技术将多种文件格式转换为Markdown格式的工具。该工具支持包括PDF、PPTX、XLSX、DOCX等常见文档格式,以及图片、音频等非文本格式的转换。对于图片,MarkItDown使用EXIF元数据和OCR进行识别;对于音频,则使用AI进行语音转录。此项目旨在帮助开发者将各种格式的文件统一为Markdown,方便后续的索引和文本分析。该项目采用MIT许可证开源,开发者可以通过pip安装或从源头安装,并提供简单的API使用示例。

📄 MarkItDown项目可以将PDF、PPTX、XLSX、DOCX等多种文档格式转换为Markdown格式。

🖼️ 对于图片,MarkItDown利用EXIF元数据和OCR进行光学识别,实现内容提取与转换。

🎤 音频文件则通过AI语音转录技术转换为文本,使得非文本格式也能转换为Markdown。

🛠️ 该项目提供简单的API接口,开发者可轻松集成到自己的项目中使用,并支持自定义大型语言模型进行图像描述。

Markdown 格式是开发者们比较喜欢的书写格式,所以现在微软向开发者们开源了 MarkItDown 的新项目,该项目可以将大量内容基于 AI 转换为 Markdown 格式。

例如可以将以下格式进行转换:

诸如图片和音频是没法直接转换为文本格式的,在这种情况下借助人工智能就可以很方便的使用了,例如图片使用 EXIF 元数据和 OCR 进行光学识别,音频则可以使用 AI 进行语音转录为文本。

那这个项目有什么用的?其实就是帮助开发者将大量各种格式的文件统一为 Markdown 格式方便用于后续的索引和文本分析等,确实有实际使用场景。

该项目采用 MIT 许可证进行开源,有兴趣的开发者们可以在这里获取项目:https://github.com/microsoft/markitdown

下面是简单的操作示例:

可以使用 pip 安装:pip install markitdown

从源头安装:pip install -e .

API 用法也非常简单:

from markitdown import MarkItDown

markitdown = MarkItDown()
result = markitdown.convert("test.xlsx")
print(result.text_content)

也可以使用大型语言模型来描述图像,这种情况下需要提供模型客户端和参数等:

from markitdown import MarkItDown
from openai import OpenAI

client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MarkItDown Markdown AI 文件转换 开源
相关文章