掘金 人工智能 前天 11:13
LlamaIndex(一):LlamaIndex核心组件
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

LlamaIndex 是一个用于快速构建工作流、检索增强生成(RAG)和 Agent 的开源框架。它提供了数据加载、文本切分、索引、检索、后处理、Prompt、LLM 和 Embedding 等核心组件,支持多种数据类型和第三方工具,方便开发者构建定制化的 LLM 应用。

💡 **核心功能组件**: LlamaIndex 提供了数据加载、文本切分与解析、索引与检索、后处理、Prompt、LLM 与 Embedding 等核心组件,涵盖了构建 LLM 应用的完整流程。

📚 **多样的数据加载器**: 支持多种文件类型如 PDF、DOCX、EPUB 等,也支持网页、数据库等多种数据源,方便用户加载不同格式的数据。

🧩 **灵活的文本处理**: 提供了多种文本切分和解析工具,如 TokenTextSplitter、SentenceSplitter、HTMLNodeParser 等,用户可以根据需求灵活处理文本数据。

🔍 **丰富的检索机制**: 内置了多种检索方法,包括向量检索、关键字检索等,并支持自定义 VectorStore,满足不同的检索需求。

⚙️ **易于扩展**: 支持第三方数据加载器、自定义 VectorStore 和各种后处理模块,为用户提供了高度的灵活性和可定制性。

什么是LamaIndex

LlamaIndex是一个可以用于快速构建workflow,RAG,Agent的开源框架

LlmamIndex有Typescript和python两个版本,两个版本都有对应的文档,但python版本相对更完善

安装

# 通过pip安装pip install llama-index# 通过 npm 安装npm install llamaindex# 通过 yarn 安装yarn add llamaindex# 通过 pnpm 安装pnpm add llamaindex

LlamaIndex的核心组件

数据加载

不管是什么程序,很重要的一部分就是获取需要的数据,LlamaIndex提供了一系列的工具

SimpleDirectoryReader

SimpleDirectoryReader是一个简单的本地文件加载器,会遍历指定目录,并根据文件扩展名自动加载文件内容

文档是从deepseek论文中截取的一部分: pan.baidu.com/s/1jE5GfTZY…

import jsonfrom pydantic.v1 import BaseModelfrom llama_index.core import SimpleDirectoryReaderdef show_json(data):    """用于展示json数据"""    if isinstance(data, str):        obj = json.loads(data)        print(json.dumps(obj, indent=4, ensure_ascii=False))    elif isinstance(data, dict) or isinstance(data, list):        print(json.dumps(data, indent=4, ensure_ascii=False))    elif issubclass(type(data), BaseModel):        print(json.dumps(data.dict(), indent=4, ensure_ascii=False))def show_list_obj(data):    """用于展示一组对象"""    if isinstance(data, list):        for item in data:            show_json(item)    else:        raise ValueError("Input is not a list")        reader = SimpleDirectoryReader(        input_dir="./data", # 目标目录        recursive=False, # 是否递归遍历子目录        required_exts=[".pdf"] # (可选)只读取指定后缀的文件    ) documents = reader.load_data()show_json(documents[0].json())

输出:

我们可以看到,文件是加载出来了,但是文件里的表格都是散的。

这里可以更换LlamaCloud提供的文件加载器,这个加载器收费,但是一开始注册会赠送免费额度

from llama_cloud_services import LlamaParsefrom llama_index.core import SimpleDirectoryReaderimport nest_asyncionest_asyncio.apply() # 只在Jupyter笔记环境中需要此操作,否则会报错# set up parserparser = LlamaParse(    result_type="markdown"  # "markdown" and "text" are available)file_extractor = {".pdf": parser}documents = SimpleDirectoryReader(input_dir="./data", required_exts=[".pdf"], file_extractor=file_extractor).load_data()print(documents[0].text)

可以看到效果好了很多

Data Connectors

SimpleDirectoryReader只能加载文件,音频,视频,图片默认是不会加载的,这个时候我们就需要Data Connectors

例:读取网页
pip install llama-index-readers-web
from llama_index.readers.web import SimpleWebPageReaderdocuments = SimpleWebPageReader(html_to_text=True).load_data(    ["https://juejin.cn/"])print(documents[0].text)

更多DataConnectors可以在 LlamaHub上找到也可以使用第三方数据加载器

文本切分与解析(Chunking)

为了检索方便,一般我们会把文档进行切分为Node,在LlamaIndex中,Node被定义为一个文本的chunck

使用TextSplitters对文本做切分

例如:TokenTextSplitter 按指定 token 数切分文本

from llama_index.core import Documentfrom llama_index.core.node_parser import TokenTextSplitternode_parser = TokenTextSplitter(    chunk_size=1000,  # 每个 chunk 的最大长度    chunk_overlap=500  # chunk 之间重叠长度 )nodes = node_parser.get_nodes_from_documents(    documents, show_progress=False)show_json(nodes[1].json())show_json(nodes[2].json())

LlamaIndex 提供了丰富的 TextSplitter,例如:

使用 NodeParsers 对有结构的文档做解析

例如:HTMLNodeParser解析 HTML 文档

from llama_index.core.node_parser import HTMLNodeParserfrom llama_index.readers.web import SimpleWebPageReaderdocuments = SimpleWebPageReader(html_to_text=False).load_data(    ["https://juejin.cn/post/7474803002438057994"])# 默认解析 ["p", "h1", "h2", "h3", "h4", "h5", "h6", "li", "b", "i", "u", "section"]parser = HTMLNodeParser(tags=["span"])  # 可以自定义解析哪些标签nodes = parser.get_nodes_from_documents(documents)for node in nodes:    print(node.text+"\n")

更多的 NodeParser 包括 MarkdownNodeParserJSONNodeParser等等

索引(Indexing)与检索(Retrieval)

现在数据已经获取到了,也进行了切分,那么接下来就是进行灌库,专业点说,叫进行索引,然后就是等待检索

在检索的过程中,索引是为了实现快速检索而设计的特定数据结构,关于索引的具体原理,可参考传统索引向量索引

向量检索

VectorStoreIndex

使用VectorStoreIndex 直接在内存中构建一个 Vector Store 并创建索引

from llama_index.core import VectorStoreIndex, SimpleDirectoryReaderfrom llama_index.core.node_parser import TokenTextSplitter# 加载 pdf 文档documents = SimpleDirectoryReader(    "./data",     required_exts=[".pdf"],).load_data()# 定义 Node Parsernode_parser = TokenTextSplitter(chunk_size=1000, chunk_overlap=500)# 切分文档nodes = node_parser.get_nodes_from_documents(documents)# 构建 indexindex = VectorStoreIndex(nodes)# 获取 retrievervector_retriever = index.as_retriever(    similarity_top_k=2 # 返回2个结果)# 检索results = vector_retriever.retrieve("deepseek v3数学能力怎么样")print(results[0].text)

LlamaIndex默认embedding模型是text-embedding-ada-002,后续文章会写到如何进行更换

自定义VectorStore
pip install llama-index-vector-stores-qdrant
from llama_index.core.indices.vector_store.base import VectorStoreIndexfrom llama_index.vector_stores.qdrant import QdrantVectorStorefrom llama_index.core import StorageContextfrom qdrant_client import QdrantClientfrom qdrant_client.models import VectorParams, Distanceclient = QdrantClient(location=":memory:")collection_name = "demo"collection = client.create_collection(    collection_name=collection_name,    vectors_config=VectorParams(size=1536, distance=Distance.COSINE))vector_store = QdrantVectorStore(client=client, collection_name=collection_name)# storage: 指定存储空间storage_context = StorageContext.from_defaults(vector_store=vector_store)# 创建 index:通过 Storage Context 关联到自定义的 Vector Storeindex = VectorStoreIndex(nodes, storage_context=storage_context)# 获取 retrievervector_retriever = index.as_retriever(similarity_top_k=1)# 检索results = vector_retriever.retrieve("deepseek v3数学能力怎么样")print(results[0])

LlamaIndex 内置了丰富的检索机制,例如:

检索后处理

有的时候检索结果不是很符合我们的需求,所以LlamaIndex也提供了一系列的后处理模块,比如,我们可以使用不同的模型对检索后的Nodes进行重排序

# 获取 retrievervector_retriever = index.as_retriever(similarity_top_k=5)# 检索nodes = vector_retriever.retrieve("deepseek v3有多少参数?")for i, node in enumerate(nodes):    print(f"[{i}] {node.text}\n")

使用postprocessor

from llama_index.core.postprocessor import LLMRerankpostprocessor = LLMRerank(top_n=2)nodes = postprocessor.postprocess_nodes(nodes, query_str="deepseek v3有多少参数?")for i, node in enumerate(nodes):    print(f"[{i}] {node.text}")

更多的 Rerank 及其它后处理方法,参考官方文档:Node Postprocessor Modules

经过了文档的加载,切分,索引,检索及后处理,没有以外我们就可以得到合适的查询内容了,下面就是生成回复

生成回复

单轮问答
qa_engine = index.as_query_engine()response = qa_engine.query("deepseek v3数学能力怎么样?")print(response)

输出:

DeepSeek-V3在数学相关的基准测试中取得了最先进的表现,超过了所有非长CoT开源和闭源模型。特别是在特定基准测试如MATH-500上甚至胜过了o1-preview,展示了其强大的数学推理能力。
多轮对话
chat_engine = index.as_chat_engine()response = chat_engine.chat("deepseek v3数学能力怎么样?")print(response)

输出:

DeepSeek v3 has state-of-the-art performance on math-related benchmarks and demonstrates robust mathematical reasoning capabilities. It even outperforms o1-preview on specific benchmarks like MATH-500.
response = chat_engine.chat("代码能力呢?")print(response)

输出:

DeepSeek v3 emerges as the top-performing model for coding competition benchmarks, such as LiveCodeBench, solidifying its position as the leading model in the coding domain.
流式输出
chat_engine = index.as_chat_engine()streaming_response = chat_engine.stream_chat("deepseek v3数学能力怎么样?")# streaming_response.print_response_stream()for token in streaming_response.response_gen:    print(token, end="", flush=True)

输出:

DeepSeek v3 has state-of-the-art performance on math-related benchmarks among all non-long-CoT open-source and closed-source models. It demonstrates robust mathematical reasoning capabilities and even outperforms o1-preview on specific benchmarks, such as MATH-500.

好了,数据加载,切分,索引,检索,后处理都有了,好像还少一些东西,对了,prompt的处理,embedding,和LLM还没有搞定

LlamaIndex也提供了对应的接口

Prompt、LLM 与 Embedding

Prompt

prompt模板和其他框架类似,没有什么太特殊的点

from llama_index.core import PromptTemplateprompt = PromptTemplate("写一个关于{topic}的笑话")prompt.format(topic="小明")
多轮消息模板
from llama_index.core.llms import ChatMessage, MessageRolefrom llama_index.core import ChatPromptTemplatechat_text_qa_msgs = [    ChatMessage(        role=MessageRole.SYSTEM,        content="你叫{name},你必须根据用户提供的上下文回答问题。",    ),    ChatMessage(        role=MessageRole.USER,         content=(            "已知上下文:\n" \            "{context}\n\n" \            "问题:{question}"        )    ),]text_qa_template = ChatPromptTemplate(chat_text_qa_msgs)print(    text_qa_template.format(        name="小明",        context="这是一个测试",        question="这是什么"    ))

输出

system: 你叫小明,你必须根据用户提供的上下文回答问题。user: 已知上下文:这是一个测试问题:这是什么

LLM

from llama_index.llms.openai import OpenAIllm = OpenAI(temperature=0, model="gpt-4o")response = llm.complete(prompt.format(topic="小明"))print(response.text)

输出:

小明有一天去参加数学考试,考完后他对同学说:“这次考试太简单了,我都没用计算器!”  同学好奇地问:“那你是怎么做的?”  小明自信地回答:“我用手机拍照搜题!”
response = llm.complete(    text_qa_template.format(        name="小明",        context="这是一个测试",        question="你是谁,我们在干嘛"    ))print(response.text)

输出:

我是小明,我们正在进行一个测试。
连接DeepSeek
pip install llama-index-llms-deepseek
import osfrom llama_index.llms.deepseek import DeepSeekllm = DeepSeek(model="deepseek-reasoner", api_key=os.environ["DEEPSEEK_API_KEY"])llm.complete("写个笑话")

输出

设置全局语言模型
from llama_index.core import SettingsSettings.llm = OpenAI(temperature=0, model="gpt-4o")

除了openai的模型,LlamaIndex还继承了很多其他的大语言模型,包括云服务和本地部署api,官方文档:Available LLM integrations

Embedding模型

from llama_index.embeddings.openai import OpenAIEmbeddingfrom llama_index.core import Settings# 全局设定Settings.embed_model = OpenAIEmbedding(model="text-embedding-3-small", dimensions=512)

和大语言模型一样,LlamaIndex也集成了很多Embedding模型,官方文档

现在一个RAG系统关键部分都有了,下面我们来实现一个完整的RAG系统

完整版RAG

功能要求:

import timefrom llama_index.core import VectorStoreIndex, KeywordTableIndex, SimpleDirectoryReaderfrom llama_index.vector_stores.qdrant import QdrantVectorStorefrom llama_index.core.node_parser import SentenceSplitterfrom llama_index.core.ingestion import IngestionPipelinefrom llama_index.core import Settingsfrom llama_index.core import StorageContextfrom llama_index.core.postprocessor import LLMRerankfrom llama_index.core.retrievers import QueryFusionRetrieverfrom llama_index.core.query_engine import RetrieverQueryEnginefrom llama_index.core.chat_engine import CondenseQuestionChatEnginefrom llama_index.llms.openai import OpenAIfrom llama_index.embeddings.openai import OpenAIEmbeddingfrom qdrant_client import QdrantClientfrom qdrant_client.models import VectorParams, DistanceEMBEDDING_DIM = 512COLLECTION_NAME = "full_demo"PATH = "./qdrant_db"# 连接向量数据库client = QdrantClient(path=PATH)# 指定全局llm与embedding模型Settings.llm = OpenAI(temperature=0, model="gpt-4o")Settings.embed_model = OpenAIEmbedding(model="text-embedding-3-small", dimensions=EMBEDDING_DIM)# 指定全局文档处理的 Ingestion PipelineSettings.transformations = [SentenceSplitter(chunk_size=500, chunk_overlap=250)]# 加载本地文档documents = SimpleDirectoryReader("./data").load_data()if client.collection_exists(collection_name=COLLECTION_NAME):    client.delete_collection(collection_name=COLLECTION_NAME)# 创建 collectionclient.create_collection(    collection_name=COLLECTION_NAME,    vectors_config=VectorParams(size=EMBEDDING_DIM, distance=Distance.COSINE))# 创建 Vector Storevector_store = QdrantVectorStore(client=client, collection_name=COLLECTION_NAME)# 指定 Vector Store 的 Storage 用于 indexstorage_context = StorageContext.from_defaults(vector_store=vector_store)index = VectorStoreIndex.from_documents(    documents, storage_context=storage_context)# 定义检索后排序模型reranker = LLMRerank(top_n=2)# 定义 RAG Fusion 检索器fusion_retriever = QueryFusionRetriever(    [index.as_retriever()],    similarity_top_k=5, # 检索召回 top k 结果    num_queries=3,  # 生成 query 数    use_async=False,    # query_gen_prompt="...",  # 可以自定义 query 生成的 prompt 模板)# 构建单轮 query enginequery_engine = RetrieverQueryEngine.from_args(    fusion_retriever,    node_postprocessors=[reranker])# 对话引擎chat_engine = CondenseQuestionChatEngine.from_defaults(    query_engine=query_engine,     # condense_question_prompt=... # 可以自定义 chat message prompt 模板)while True:    question=input("User:")    if question.strip() == "":        break    response = chat_engine.chat(question)    print(f"AI: {response}")

输出:

User: deepseek v3有多少参数AI: DeepSeek-V3有6710亿个总参数。User: 每次激活多少AI: DeepSeek-V3每次激活37B参数。

以上就是LlamaIndex的部分核心组件及使用,为什么是部分?开头提到LlamaIndex不止可以做RAG,还可以做workflow和agent,后面的文章会进行介绍

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LlamaIndex RAG Agent LLM
相关文章