从零开始搭建RAG系统系列（九）：RAG系统性能优化技巧-检索模块优化 (Optimizing Retriever)

搭建基础的RAG系统只是第一步，要使其在实际应用中表现出色，性能优化至关重要。优化可以从检索模块、生成模块以及系统整体等多个层面进行。

检索模块优化 (Optimizing Retriever)

检索质量是RAG系统的基石，所谓“垃圾进，垃圾出”，如果检索不到相关的上下文，LLM也难以生成高质量的答案。

技巧1：选择更优的Embedding模型

原理： Embedding模型的质量直接决定了文本语义表示的准确性。一个好的Embedding模型能使语义相似的文本在向量空间中更接近，从而提高检索的相关性。

实现要点/配置：

参考榜单：

模型大小与性能权衡：

bge-large-zh-v1.5

bge-small-zh-v1.5

领域适应性：

及时更新：

技巧2：查询重写/扩展 (Query Rewriting/Expansion)

原理： 用户的原始查询可能存在口语化、指代不明、信息不完整等问题，直接用于检索效果可能不佳。通过LLM对原始查询进行“预处理”，可以生成更适合向量检索的查询。

实现要点/代码片段 (LangChain示例 - 查询重写)：

假设llm是一个已初始化的LLM实例 (如ChatOpenAI或Ollama)。

from langchain.chains import LLMChainfrom langchain_core.prompts import PromptTemplate# rewrite_llm = llm # 可以用与主生成LLM相同的模型，或一个更轻量的模型rewrite_template_str = """你的任务是将用户提出的原始问题改写成一个更清晰、更具体、更适合进行向量数据库检索的版本。请保留原始问题的核心意图，但可以澄清模糊表达、补全省略的关键信息。例如，如果用户问“那个新功能怎么样？”，假设你知道“那个新功能”指的是“智能摘要功能”，你可以改写为“智能摘要功能有哪些优点和缺点？”。原始问题：{original_query}改写后的问题："""rewrite_prompt = PromptTemplate.from_template(rewrite_template_str)# query_rewriter_chain = LLMChain(llm=rewrite_llm, prompt=rewrite_prompt) # 旧版LLMChain# 使用LCEL风格构建query_rewriter_chain = rewrite_prompt | llm | StrOutputParser()# 假设 user_query 是原始用户输入# original_user_query = "RAGFlow的部署麻烦吗？" # rewritten_query = query_rewriter_chain.invoke({"original_query": original_user_query})# print(f"原始查询: {original_user_query}")# print(f"改写后用于检索的查询: {rewritten_query}")# # 之后，使用 rewritten_query 来调用 retriever.invoke()

查询扩展则可能涉及生成多个相关查询，然后并发检索并将结果合并。

技巧3：重排阶段 (Reranking Stage)

原理： 初步的向量检索（也称“召回”）通常会返回Top-K个候选文档块，这些文档块在语义上与查询相似。但这种相似度并不总能完美代表“相关性”，尤其是在细微差别或特定约束条件下。重排阶段引入一个更精细（通常也更慢）的模型，对这K个候选文档块进行二次排序，以提升最终送入LLM的上下文质量。

实现要点：

Cross-Encoder模型：

BAAI/bge-reranker-large

ms-marco-MiniLM-L-12-v2

集成到LangChain：

FlashRankRerank

sentence-transformers

CrossEncoder

# 示例：使用 sentence-transformers 的 CrossEncoder (概念性)# from sentence_transformers.cross_encoder import CrossEncoder# reranker_model = CrossEncoder('BAAI/bge-reranker-base') # 选择一个合适的reranker模型# # 假设: # # retrieved_docs: List[Document] 是初步检索得到的文档列表# # user_query: str 是用户查询# if retrieved_docs:#     query_doc_pairs = [[user_query, doc.page_content] for doc in retrieved_docs]#     try:#         scores = reranker_model.predict(query_doc_pairs, show_progress_bar=False)        #         # 将分数与文档配对并按分数降序排序#         reranked_docs_with_scores = sorted(#             zip(scores, retrieved_docs), #             key=lambda pair: pair[0], #             reverse=True#         )        #         # 获取重排后的文档列表#         reranked_docs = [doc for score, doc in reranked_docs_with_scores]        #         # print("\n--- 重排后的文档 (Top 3) ---")#         # for i, doc in enumerate(reranked_docs[:3]):#         #     print(f"Rank {i+1} (Score: {reranked_docs_with_scores[i][0]:.4f}): {doc.page_content[:100]}...")#         # # 后续使用 reranked_docs (或其Top-N) 作为LLM的上下文#     except Exception as e:#         print(f"重排失败: {e}. 将使用原始检索结果。")#         # reranked_docs = retrieved_docs # 出错则回退# else:#    reranked_docs = []

平衡效果与延迟：

技巧4：混合检索 (Hybrid Search)

原理： 向量检索（稠密检索）擅长捕捉语义相似性，但在精确匹配关键词（尤其是专有名词、ID或罕见词）方面可能不如传统的稀疏检索方法（如BM25, TF-IDF）。混合检索结合两者的优势，通常能获得更鲁棒的检索效果。

实现要点：

分别检索再融合：

原生支持的数据库：

LangChain支持：

EnsembleRetriever

技巧5：优化文本分块策略 (Chunking Strategy Optimization)

原理： 文本分块是RAG流程的起点，分块的质量直接影响后续所有步骤。不恰当的分块（过大导致噪音，过小丢失上下文，切断语义）会严重损害RAG性能。

实现要点：

语义分块 (Semantic Chunking): 尝试使用模型（如小型LLM或专门的分割模型）或基于语义相似性的算法（如比较句子嵌入向量）来识别文本中的自然语义边界，而不是简单地按固定长度切分。

父文档检索 (Parent Document Retriever) / 小块嵌入-大块检索： 这是一个重要的策略。具体做法是：

将文档分割成较小的、语义集中的子块（child chunks）用于生成Embedding和进行检索。同时，保留这些子块与其所属的更大父块（parent chunks）或原始文档的关联。当检索到相关的子块时，实际提供给LLM作为上下文的是其对应的父块或包含该子块的更完整段落。

这样做的好处是：检索时利用小块的精确性，生成时利用大块的上下文完整性。LangChain的ParentDocumentRetriever 就是为此设计的。

RAPTOR (Recursive Abstractive Processing for Tree-Organized Retrieval): 一种更高级的分块和检索策略。它递归地对文本块进行聚类和摘要，构建一个多层次的摘要树。查询时，可以在树的不同层级进行检索，整合来自不同粒度（从详细文本块到高度概括的摘要）的信息，特别适合处理非常长的文档或需要多层次理解的任务。

调整chunk_size和chunk_overlap：即使使用基础的RecursiveCharacterTextSplitter，也需要根据文档特性和模型能力仔细调整这两个参数。通常需要实验来找到最佳值。

检索模块优化关键点总结

⾼质量Embedding是基础：选择与任务和语⾔匹配的优秀Embedding模型。

查询理解先⾏：通过查询重写/扩展提升检索的“命中率”。

召回与排序并重：初步召回（向量检索/混合检索）保证覆盖⾯，精细重排提升头部结果质量。

分块策略是艺术：尝试语义分块、⽗⽂档检索等⾼级策略，找到最适合数据特点的⽅法。

持续迭代与评估：没有一劳永逸的⽅案，需要根据实际效果不断调整和优化检索策略。

检索模块优化 (Optimizing Retriever)

技巧1：选择更优的Embedding模型

技巧2：查询重写/扩展 (Query Rewriting/Expansion)

技巧3：重排阶段 (Reranking Stage)

技巧4：混合检索 (Hybrid Search)

技巧5：优化文本分块策略 (Chunking Strategy Optimization)

检索模块优化关键点总结

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签