RAG 每日一技（九）：你的RAG是“人工智障”还是“真智能”？聊聊RAG的评估

前情回顾

兄弟们，恭喜大家坚持到了今天！从分块、嵌入、建库、检索、精排，再到最后的Prompt工程，我们已经亲手构建了一个能完整跑通的RAG系统。当它根据我们的文档，生成第一个答案时，那种成就感无与伦比。

但是，兴奋过后，冷静下来想一想：

这个答案的质量真的高吗？我们怎么向别人证明，我们的系统是可靠的，而不是在“一本正经地胡说八道”？当我们想优化它（比如换个Embedding模型，或者改下Prompt），怎么知道这次改动是正向优化，还是“负向优化”？

“凭感觉”是业余玩家的搞法，而数据度量才是专业工程师的准则。今天，我们就来聊聊RAG系统中至关重要的、也常常被忽视的一环——评估（Evaluation）。

为什么“感觉良好”远远不够？

依赖人工去判断RAG的好坏，既耗时又不稳定。我们需要一套客观、可重复的评估方法，来帮助我们：

量化性能

指导优化

防止退化

RAG评估的两大支柱：检索与生成

一个RAG系统的最终效果，由“R”（Retrieval）和“G”（Generation）两部分共同决定。因此，我们的评估也必须双管齐下。

1. 检索质量评估 (Retrieval Evaluation)

这一步是评估我们“找得准不准”的能力。核心指标有两个：

Context Precision (上下文精确率)

真正相关

Context Recall (上下文召回率)

2. 生成质量评估 (Generation Evaluation)

这一步是评估我们“答得好不好”的能力。这比评估检索更复杂，核心指标通常包括：

Faithfulness (忠实度)

这是RAG最重要的评估指标！

完全忠于

Answer Relevancy (答案相关性)

直接、有效地回应

Ragas：你的专属RAG质检员

理解了指标，但怎么计算呢？特别是像“忠实度”这种复杂的语义概念，难道要人工去判断吗？

当然不是！我们再次请出强大的“AI魔法”来解决问题。向大家介绍一个专门用于RAG评估的开源框架：Ragas。

Ragas的核心思想是：利用LLM本身强大的语言理解能力，来评估另一个LLM生成的答案质量。

例如，要评估“忠实度”，Ragas会向一个强大的裁判LLM（如GPT-4）提问：“请判断下面这段‘答案’中的每一句话，是否都能在给定的‘上下文’中找到依据？”

通过这种方式，Ragas为我们提供了一套自动化的、可量化的评估流程。

上手实战：用Ragas给我们的系统“体检”

让我们来快速体验一下用Ragas评估是多么简单。

首先，安装必要的库：

pip install ragas openai "langchain-openai" # ragas需要llm来做裁判

注意：Ragas需要一个LLM作为裁判，这里以OpenAI为例。你需要设置你的OpenAI API Key。

然后，我们准备评估数据，并进行评估。

import osfrom datasets import Datasetfrom ragas import evaluatefrom ragas.metrics import (    faithfulness,    answer_relevancy,    context_recall,    context_precision,)from langchain_openai import ChatOpenAI# 设置你的OpenAI API Key# os.environ["OPENAI_API_KEY"] = "sk-..."# --- 1. 准备评估数据集 ---# 在真实场景中，你会有一个包含几十上百个问题的“黄金”测试集# 这里我们只用一个样本来演示# ground_truth是人类专家给出的标准答案dataset_dict = {    "question": ["macOS上怎么安装Python？"],    "answer": ["要在macOS上安装Python，推荐使用Homebrew。首先打开终端，输入 'brew install python'。"], # 这是我们RAG系统生成的答案    "contexts": [ # 这是我们RAG系统召回的上下文        "要在macOS上安装Python，推荐使用Homebrew。首先打开终端，输入命令 'brew install python' 即可。",        "Homebrew是macOS的包管理器。"    ],    "ground_truth": ["在macOS上安装Python，可以使用Homebrew包管理器，在终端执行命令 'brew install python'。"]}dataset = Dataset.from_dict(dataset_dict)# --- 2. 运行评估 ---# 定义评估用的llmllm = ChatOpenAI(model="gpt-4o-mini")# 选择我们想评估的指标metrics = [    faithfulness,    answer_relevancy,    context_precision,    context_recall,]# 执行评估result = evaluate(    dataset=dataset,    metrics=metrics,    llm=llm)# --- 3. 查看结果 ---print(result)

输出结果（一个漂亮的字典或DataFrame）：

{  'faithfulness': 1.0,   'answer_relevancy': 0.98,   'context_precision': 1.0,   'context_recall': 1.0}

（注：由于LLM裁判的随机性，你得到的分数可能略有浮动，但趋势是一致的）

这个结果告诉我们：我们的RAG系统在这个问题上的表现非常出色！忠实度、召回率、精确率都是满分，答案相关性也极高。有了这套打分，我们就可以放心地说：“我的系统在这个问题上，效果很好！”

总结与预告

今日小结：
“凭感觉”无法有效优化RAG系统，量化评估是走向专业和生产级的必经之路。RAG评估主要关注检索质量（上下文精确率/召回率）和生成质量（忠实度/答案相关性）。Ragas 等框架利用LLM作为“裁判”，实现了对RAG系统自动化、多维度的评估。

恭喜你！至此，你已经掌握了从0到1构建一个RAG系统，并对其进行科学评估的全套基础知识。我们的“新手村”系列到这里就告一段落了。

但技术的探索永无止境。我们目前使用的还都是最基础的RAG组件。真实世界中的顶尖RAG系统，会使用更多高级的技巧来应对复杂场景。

明天预告：RAG 每日一技（十）：向量检索的“死穴”？用混合搜索（Hybrid Search）来拯救！

我们将开启本系列的全新篇章——“RAG高级技巧篇”。第一站，我们就来解决一个纯向量检索的致命弱点：对关键词和稀有实体（如产品型号、人名）不敏感。我们将学习如何将经典的关键词搜索与向量搜索结合，实现1+1>2的混合搜索效果！

前情回顾

为什么“感觉良好”远远不够？

RAG评估的两大支柱：检索与生成

1. 检索质量评估 (Retrieval Evaluation)

2. 生成质量评估 (Generation Evaluation)

Ragas：你的专属RAG质检员

上手实战：用Ragas给我们的系统“体检”

总结与预告

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签