RAG系列（四）：RAG系统性能优化技巧

搭建基础的RAG系统只是第一步，要使其在实际应用中表现出色，性能优化至关重要。优化可以从检索模块、生成模块以及系统整体等多个层面进行。

检索模块优化 (Optimizing Retriever)

检索质量是RAG系统的基石，所谓“垃圾进，垃圾出”，如果检索不到相关的上下文，LLM也难以生成高质量的答案。

技巧1：选择更优的Embedding模型

原理： Embedding模型的质量直接决定了文本语义表示的准确性。一个好的Embedding模型能使语义相似的文本在向量空间中更接近，从而提高检索的相关性。

实现要点/配置：

参考榜单：

模型大小与性能权衡：

bge-large-zh-v1.5

bge-small-zh-v1.5

领域适应性：

及时更新：

技巧2：查询重写/扩展 (Query Rewriting/Expansion)

原理： 用户的原始查询可能存在口语化、指代不明、信息不完整等问题，直接用于检索效果可能不佳。通过LLM对原始查询进行“预处理”，可以生成更适合向量检索的查询。

实现要点/代码片段 (LangChain示例 - 查询重写)：

假设llm是一个已初始化的LLM实例 (如ChatOpenAI或Ollama)。

from langchain.chains import LLMChainfrom langchain_core.prompts import PromptTemplate# rewrite_llm = llm # 可以用与主生成LLM相同的模型，或一个更轻量的模型rewrite_template_str = """你的任务是将用户提出的原始问题改写成一个更清晰、更具体、更适合进行向量数据库检索的版本。请保留原始问题的核心意图，但可以澄清模糊表达、补全省略的关键信息。例如，如果用户问“那个新功能怎么样？”，假设你知道“那个新功能”指的是“智能摘要功能”，你可以改写为“智能摘要功能有哪些优点和缺点？”。原始问题：{original_query}改写后的问题："""rewrite_prompt = PromptTemplate.from_template(rewrite_template_str)# query_rewriter_chain = LLMChain(llm=rewrite_llm, prompt=rewrite_prompt) # 旧版LLMChain# 使用LCEL风格构建query_rewriter_chain = rewrite_prompt | llm | StrOutputParser()# 假设 user_query 是原始用户输入# original_user_query = "RAGFlow的部署麻烦吗？" # rewritten_query = query_rewriter_chain.invoke({"original_query": original_user_query})# print(f"原始查询: {original_user_query}")# print(f"改写后用于检索的查询: {rewritten_query}")# # 之后，使用 rewritten_query 来调用 retriever.invoke()

查询扩展则可能涉及生成多个相关查询，然后并发检索并将结果合并。

技巧3：重排阶段 (Reranking Stage)

原理： 初步的向量检索（也称“召回”）通常会返回Top-K个候选文档块，这些文档块在语义上与查询相似。但这种相似度并不总能完美代表“相关性”，尤其是在细微差别或特定约束条件下。重排阶段引入一个更精细（通常也更慢）的模型，对这K个候选文档块进行二次排序，以提升最终送入LLM的上下文质量。

实现要点：

Cross-Encoder模型：

BAAI/bge-reranker-large

ms-marco-MiniLM-L-12-v2

集成到LangChain：

FlashRankRerank

sentence-transformers

CrossEncoder

# 示例：使用 sentence-transformers 的 CrossEncoder (概念性)# from sentence_transformers.cross_encoder import CrossEncoder# reranker_model = CrossEncoder('BAAI/bge-reranker-base') # 选择一个合适的reranker模型# # 假设: # # retrieved_docs: List[Document] 是初步检索得到的文档列表# # user_query: str 是用户查询# if retrieved_docs:#     query_doc_pairs = [[user_query, doc.page_content] for doc in retrieved_docs]#     try:#         scores = reranker_model.predict(query_doc_pairs, show_progress_bar=False)        #         # 将分数与文档配对并按分数降序排序#         reranked_docs_with_scores = sorted(#             zip(scores, retrieved_docs), #             key=lambda pair: pair[0], #             reverse=True#         )        #         # 获取重排后的文档列表#         reranked_docs = [doc for score, doc in reranked_docs_with_scores]        #         # print("\n--- 重排后的文档 (Top 3) ---")#         # for i, doc in enumerate(reranked_docs[:3]):#         #     print(f"Rank {i+1} (Score: {reranked_docs_with_scores[i][0]:.4f}): {doc.page_content[:100]}...")#         # # 后续使用 reranked_docs (或其Top-N) 作为LLM的上下文#     except Exception as e:#         print(f"重排失败: {e}. 将使用原始检索结果。")#         # reranked_docs = retrieved_docs # 出错则回退# else:#    reranked_docs = []

平衡效果与延迟：

技巧4：混合检索 (Hybrid Search)

原理： 向量检索（稠密检索）擅长捕捉语义相似性，但在精确匹配关键词（尤其是专有名词、ID或罕见词）方面可能不如传统的稀疏检索方法（如BM25, TF-IDF）。混合检索结合两者的优势，通常能获得更鲁棒的检索效果。

实现要点：

分别检索再融合：

原生支持的数据库：

LangChain支持：

EnsembleRetriever

技巧5：优化文本分块策略 (Chunking Strategy Optimization)

原理： 文本分块是RAG流程的起点，分块的质量直接影响后续所有步骤。不恰当的分块（过大导致噪音，过小丢失上下文，切断语义）会严重损害RAG性能。

实现要点：

语义分块 (Semantic Chunking): 尝试使用模型（如小型LLM或专门的分割模型）或基于语义相似性的算法（如比较句子嵌入向量）来识别文本中的自然语义边界，而不是简单地按固定长度切分。

父文档检索 (Parent Document Retriever) / 小块嵌入-大块检索： 这是一个重要的策略。具体做法是：

将文档分割成较小的、语义集中的子块（child chunks）用于生成Embedding和进行检索。同时，保留这些子块与其所属的更大父块（parent chunks）或原始文档的关联。当检索到相关的子块时，实际提供给LLM作为上下文的是其对应的父块或包含该子块的更完整段落。

这样做的好处是：检索时利用小块的精确性，生成时利用大块的上下文完整性。LangChain的ParentDocumentRetriever 就是为此设计的。

RAPTOR (Recursive Abstractive Processing for Tree-Organized Retrieval): 一种更高级的分块和检索策略。它递归地对文本块进行聚类和摘要，构建一个多层次的摘要树。查询时，可以在树的不同层级进行检索，整合来自不同粒度（从详细文本块到高度概括的摘要）的信息，特别适合处理非常长的文档或需要多层次理解的任务。

调整chunk_size和chunk_overlap：即使使用基础的RecursiveCharacterTextSplitter，也需要根据文档特性和模型能力仔细调整这两个参数。通常需要实验来找到最佳值。

生成模块优化 (Optimizing Generator)

即使检索到了高质量的上下文，LLM生成答案的环节也同样需要优化，以确保最终输出满足用户期望。

技巧1：精细化Prompt调优 (Advanced Prompt Engineering)

方法： Prompt是与LLM沟通的桥梁，其质量直接影响LLM的行为和输出。

角色扮演 (Role-playing):

思维链 (Chain-of-Thought, CoT):

Few-shot示例 (In-Context Learning):

结构化输出指令:

处理“我不知道”的情况：

示例（CoT增强）：

基础Prompt可能只是简单要求基于上下文回答。加入CoT的Prompt可能如下：

... (其他部分同前) ...【上下文信息】:---{context_str}---【用户问题】: {user_query}【你的思考过程】: (请你在这里一步步思考如何回答问题，例如：1. 理解用户问题的核心。2. 在上下文中寻找相关信息。3. 如果找到，如何组织答案。如果没找到，如何回应。)【你的回答】:

虽然LLM不一定会显式输出“【你的思考过程】”这部分内容给用户（除非你要求），但这个指令会引导其内部处理过程。

技巧2：LLM参数调整 (LLM Parameter Tuning)

关键参数及其影响：

temperature

top_p (nucleus sampling)

top_p

temperature

top_p

max_tokens

max_new_tokens

frequency_penalty

presence_penalty

调整策略： 根据应用场景选择。如果RAG用于创意写作辅助，可以适当提高temperature；如果用于客服或知识查询，则应保持较低的temperature。参数的最佳值往往需要通过实验获得。

技巧3：选择更适合的LLM模型

原理： 不同的LLM在遵循指令能力、总结归纳能力、特定语言（如中文）或特定领域知识的表现上存在差异。

实现要点：

上下文窗口：

指令遵循能力 (Instruction Following)：

成本与性能的平衡：

中文场景：

微调 (Fine-tuning)：

系统整体优化 (Overall System Optimization)

技巧1：结果缓存 (Caching)

缓存对象与原理： 对于重复的查询或相似的上下文组合，可以缓存中间或最终结果以减少重复计算和API调用，从而加快响应速度并降低成本。

查询Embedding缓存：

检索结果缓存：

LLM生成结果缓存：

实现方式：

内存缓存：

functools.lru_cache

外部缓存服务：

LangChain缓存：

InMemoryCache

SQLiteCache

RedisCache

# import langchain# from langchain.cache import InMemoryCache# langchain.llm_cache = InMemoryCache() # 设置全局LLM缓存 (示例)# # 之后，对同一个 prompt 的 LLM 调用结果会被缓存# # llm.invoke("相同的prompt") # 第二次调用会从缓存读取 (如果provider和参数不变)

技巧2：流水线异步化与批处理 (Asynchronous Pipeline & Batching)

适用场景与原理： RAG链中通常包含多次网络I/O操作（如调用Embedding服务API、向量数据库API、LLM API）。在处理高并发请求时，同步阻塞的方式会导致请求堆积和响应缓慢。异步化可以将这些I/O等待时间利用起来处理其他请求。批处理则可以在调用外部服务（尤其是Embedding和LLM API）时，将多个独立请求打包成一个批量请求，通常能提升总吞吐量并可能降低单位成本。

实现方式：

异步处理 (Asynchronous Programming): 使用Python的asyncio库和async/await语法。FastAPI等现代Web框架原生支持异步请求处理函数。LangChain的许多组件和链也提供了异步版本的方法（如ainvoke, aget_relevant_documents）。

# # 示例：LangChain组件的异步调用 (概念性)# # async def process_query_async(query: str):# #   retrieved_docs = await retriever.ainvoke(query)# #   # ... 后续异步处理 ...# #   answer = await rag_chain.ainvoke(query) # 假设rag_chain支持异步# #   return answer

批处理 (Batching):

Embedding：

HuggingFaceBgeEmbeddings

embed_documents

embed_query

embed_documents

LLM调用：

技巧3：知识库的持续更新与维护

原理： RAG的一大优势在于能够利用最新的知识。因此，确保知识库内容的时效性和准确性至关重要。这需要一个自动或半自动的机制来更新向量数据库中的索引。

实现方式：

定期重建/增量更新索引：

完全重建：

增量更新：

数据漂移监控 (Data Drift Monitoring)： 监控知识库中的数据分布、主题变化等，确保索引内容与当前业务需求和用户查询模式保持一致。如果发现显著偏移，可能需要调整数据源、预处理逻辑或Embedding模型。

版本控制与回滚： 对知识库的索引建立版本控制机制，以便在更新出现问题时能够快速回滚到稳定版本。

技巧4：针对中文场景的特定优化

中文分词/分块：

分隔符选择：

RecursiveCharacterTextSplitter

separators

。\n！？，、

专业分词工具：

jieba

pkuseg

LTP

字符 vs. Token：

chunk_size

tiktoken

中文字符友好的Embedding模型和LLM：

如前所述，选择明确支持中文且在中文任务上表现良好的模型至关重要。例如，BAAI的BGE系列、M3E系列，以及国内厂商（阿里、智谱等）推出的Embedding和LLM模型。

混合检索的中文适配：

如果使用BM25等基于词频的稀疏检索方法，必须配合中文分词器对查询和文档进行分词处理，否则无法正确匹配。

(腾讯云ES RAG实践中也强调了中文场景下向量+文本混合搜索的重要性)

通过上述优化技巧的组合应用，并结合持续的监控和评估，可以显著提升RAG系统的性能、稳定性和用户体验。

检索模块优化 (Optimizing Retriever)

技巧1：选择更优的Embedding模型

技巧2：查询重写/扩展 (Query Rewriting/Expansion)

技巧3：重排阶段 (Reranking Stage)

技巧4：混合检索 (Hybrid Search)

技巧5：优化文本分块策略 (Chunking Strategy Optimization)

生成模块优化 (Optimizing Generator)

技巧1：精细化Prompt调优 (Advanced Prompt Engineering)

技巧2：LLM参数调整 (LLM Parameter Tuning)

技巧3：选择更适合的LLM模型

系统整体优化 (Overall System Optimization)

技巧1：结果缓存 (Caching)

技巧2：流水线异步化与批处理 (Asynchronous Pipeline & Batching)

技巧3：知识库的持续更新与维护

技巧4：针对中文场景的特定优化

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签