RAG入门之数据导入

LangChain 是什么

LangChain 是一个用于构建基于大语言模型（LLM）应用的开源框架。它提供了一套工具和抽象，让开发者能够轻松构建复杂的AI应用。

LangChain 的核心功能

文档加载和处理

文本分割

向量存储

链式调用

Agent

RAG（检索增强生成）

主要竞争对手和替代方案

1. LlamaIndex（原名 GPT Index）

# LlamaIndex 示例from llama_index import VectorStoreIndex, SimpleDirectoryReaderdocuments = SimpleDirectoryReader('data').load_data()index = VectorStoreIndex.from_documents(documents)

特点：

专注于数据索引和检索更简单的API更好的RAG性能

2. Haystack

# Haystack 示例from haystack import Pipelinefrom haystack.nodes import BM25Retriever, FARMReaderretriever = BM25Retriever(document_store=document_store)reader = FARMReader(model_name_or_path="deepset/roberta-base-squad2")

特点：

企业级搜索和问答强大的NLP流水线生产环境优化

3. Semantic Kernel（微软）

// Semantic Kernel 示例 (C#)var kernel = new KernelBuilder()    .WithOpenAIChatCompletionService("gpt-3.5-turbo", apiKey)    .Build();

特点：

微软开发支持多种编程语言与Azure集成良好

4. AutoGPT / GPT-Engineer

特点：

自主AI代理自动化任务执行代码生成专门化

5. Chroma

# Chroma 示例import chromadbclient = chromadb.Client()collection = client.create_collection("my_collection")

特点：

专注向量数据库简单易用轻量级

各框架对比

框架	专长	优势	适用场景
LangChain	全栈LLM应用	生态丰富、社区活跃	原型开发、复杂应用
LlamaIndex	数据索引检索	API简洁、RAG性能好	知识库搜索
Haystack	企业搜索	生产级稳定性	大规模部署
Semantic Kernel	多语言支持	微软生态集成	.NET环境
Chroma	向量存储	轻量级、易部署	简单向量搜索

选择建议

初学者/原型

专注RAG

生产环境

微软技术栈

简单向量搜索

如何使用数据加载器读取简单文本？

from langchain_community.document_loaders import TextLoaderloader = TextLoader("/Users/shuyixiao/PycharmProjects/RAGPracticalCourse/my.text")document = loader.load()print(document)

my.text文件内容

生成式AI应用工程师(高级)认证 | 阿里云博客专家 | Java应用开发职业技能等级认证 境是人非叶落处，焕景深处已向春~ 代码是我的文字，程序是我的诗篇，我不是程序员，我是诗人。大浪淘沙，去伪存真，破后而立，否极泰来。 真正的有所成，只能是慢慢来...

输出结果

/Users/shuyixiao/PycharmProjects/RAGPracticalCourse/.venv/bin/python /Users/shuyixiao/PycharmProjects/RAGPracticalCourse/testLangChain.py [Document(metadata={'source': '/Users/shuyixiao/PycharmProjects/RAGPracticalCourse/my.text'}, page_content='生成式AI应用工程师(高级)认证 | 阿里云博客专家 | Java应用开发职业技能等级认证 境是人非叶落处，焕景深处已向春~ 代码是我的文字，程序是我的诗篇，我不是程序员，我是诗人。大浪淘沙，去伪存真，破后而立，否极泰来。 真正的有所成，只能是慢慢来...')]进程已结束，退出代码为 0

解释一下为什么是Document对象？

Document 是 LangChain 中的标准数据结构，用于统一处理各种文档格式。它包含两个主要部分：

page_content

metadata

为什么使用 Document 对象？

# 统一的数据格式，便于后续处理# 无论是文本、PDF、网页等，都统一为 Document 格