PaperAgent 2024年12月18日
微软开源MarkitDown,RAG文档解析就这么解决了~
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软开源MarkItDown,可将多种文件转换为Markdown,支持多种格式,使用pip或源代码安装,还可结合语言模型进行图像描述,文中还推荐了一些阅读内容并提到公众号。

🎈MarkItDown能将各种文件转为Markdown,支持多种格式,如PDF、PPT等

💻使用pip或从源代码可安装MarkItDown,Python中有基本用法

🤖可提供llm_client和llm_model,用大型语言模型进行图像描述

📖文中推荐了一些相关阅读内容并提到公众号'PaperAgent'

2024-12-18 11:47 湖北

RAG有这么一个说法:“垃圾进,垃圾出”,文档解析与处理以获取高质量数据至关重要。近期,微软开源了MarkItDown,一款将各种文件转换为 Markdown 的实用程序(用于索引、文本分析等)。

https://x.com/shao__meng/status/1867348058662744236

MarkItDown支持

MarkItDown使用

使用 pip: pip install markitdown。或者,从源代码安装它:pip install -e .

Python中的基本用法:

from markitdown import MarkItDown md = MarkItDown() result = md.convert("test.xlsx") print(result.text_content)

要使用大型语言模型进行图像描述,请提供llm_client和llm_model:

from markitdown import MarkItDown from openai import OpenAI client = OpenAI() md = MarkItDown(llm_client=client, llm_model="gpt-4o") result = md.convert("example.jpg") print(result.text_content)

MarkItDown试用

https://www.html.zone/markitdown/

https://github.com/microsoft/markitdown

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MarkItDown 文件转换 语言模型 公众号
相关文章