机器学习初学者 2024年12月18日
【Python】微软开源Python Markdown转换工具
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软开源了一款名为markitdown的Python工具,它能够轻松将多种文件格式转换为Markdown格式。markitdown支持包括PDF、PowerPoint、Word、Excel、图片、音频、HTML以及各种文本格式和压缩包。用户可以通过pip安装并在Python代码中使用,也可以在终端直接调用。该工具不仅支持基本的转换,还能借助大模型(如OpenAI的GPT-4o)进行更高级的处理,例如图片OCR识别和语音转录。markitdown为用户提供了便捷高效的文件格式转换方案。

📄markitdown支持多种文件格式转换为Markdown,包括PDF、PowerPoint、Word、Excel、图片、音频、HTML以及各种文本格式和压缩包,满足用户多样化的转换需求。

💻 markitdown可通过pip安装,并提供简单的Python API,用户可以轻松在代码中集成使用,进行文件转换操作。

🧠 markitdown还支持与大模型(如GPT-4o)结合使用,实现更高级的功能,如图片OCR识别和音频转录,提升转换效果和智能化程度。

pythonic生物人 2024-12-18 12:04 浙江

微软开源Python Markdown转换工具

分享一个microsoft开源的Python工具——markitdown,轻松将各类文件转换为Markdown格式。

markitdown支持的文件格式


markitdown使用

pip install markitdown
from markitdown import MarkItDown  
# 导入MarkItDown类
markitdown = MarkItDown()  
# 创建MarkItDown对象
result = markitdown.convert("test.xlsx")  
# 转换test.xlsx为Markdown格式
print(result.text_content)  
# 输出转换后的内容
from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o"#指定使用"gpt-4o"模型
result = md.convert("example.jpg")
print(result.text_content)
markitdown path-to-file.pdf > document.md
#将path-to-file.pdf转为document.md文件

进一步学习:https://github.com/microsoft/markitdown

-END-


往期精彩回顾





请备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“加群。

也可以加入机器学习交流qq群772479961


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

markitdown Markdown Python 文件转换 开源工具
相关文章