过程监督>结果监督！华为港城重构RAG推理训练，5k样本性能反超90k模型

原创让你更懂AI的 2025-06-03 13:46 北京

本文提出了一种基于过程奖励的 Agentic RAG 强化学习训练范式。

随着大语言模型（LLMs）迅猛发展，检索增强生成（RAG）已成为 AI 获取知识的必经之路。但传统 RAG 面临一个致命缺陷：它们只会机械地"查一次资料、回一次答"，面对需要层层深入、步步推理的复杂问题时束手无策。这就像让一个只会查字典的学生去解决数学证明题——注定失败。

"Agentic RAG"应运而生，它让 AI 像人类专家一样，能够自主决定何时需要查阅资料、如何提炼关键问题、怎样整合多方信息。Deep-research 等明星项目正是这场革命的先行者。

学术界的最新进展如 Search-R1 等方法，将结果监督的强化学习引入 Agentic RAG 训练流程，通过最终答案的正确与否作为唯一奖励信号，取得了可观成果。但是结果监督策略——只关心最终答案对错，用单一奖励信号指导整个训练过程。这就像教孩子解题只告诉"答案错了"，却不指出错在哪一步。

来自香港城市大学与华为诺亚方舟实验室的研究团队发现，结果监督的强化学习在 Agentic RAG 中存在三大关键问题：

探索盲目低效：模型如同在黑暗中摸索，只有完成全部步骤才知道对错

功过不分明：正确的前期推理常因后续错误而被错误"惩罚"

反馈过于粗糙：缺乏精细指导，模型难以掌握复杂决策技巧

研究团队提出了一个关键洞见：训练一个真正具备"思考能力"的 Agentic RAG 系统，仅依靠最终答案作为奖励远远不够，推理过程中的每一个关键决策都应当被精确监督与优化。

基于这一理念，团队首次将过程监督强化学习方法系统性地引入 Agentic RAG 训练流程，构建出全新框架——ReasonRAG。该方法通过三大创新机制显著提升了模型性能：

细粒度奖励机制

基于搜索的最优路径构建

偏好优化训练策略

实验结果令人瞩目：在多个权威评测集上，ReasonRAG 仅使用 5k 条训练数据就超越了需要 90k 条数据训练的 Search-R1 模型，展现出卓越的数据效率和推理能力。

论文标题：

Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning

论文地址：

https://arxiv.org/abs/2505.14069

代码地址：

https://github.com/wlzhang2020/ReasonRAG

技术难点

实现 Agentic RAG 过程监督优化面临两大核心挑战：

如何定义高质量过程奖励？奖励不仅要判断模型推理是否正确，更要引导其走出最短、最有效的路径。同样正确的答案，路径短的更应该被鼓励。

如何自动标注过程监督数据？高质量的中间步骤通常需要人工标注，但这种方式耗时耗力、难以扩展。如何让模型自动生成有监督的中间推理步骤，成为关键。

核心技术解析

ReasonRAG 构建了一个环环相扣的推理闭环系统，整条路径从奖励设计到模型决策，围绕五个关键步骤展开：设定过程奖励 → 搜索推理路径 → 构建偏好数据 → 优化决策策略 → 实时动态推理。这五步，让模型学会结合搜索完成一条“既答得准，也走得快”的推理通路。

第一步：奖励机制不只看结果，也关心过程。在传统方法中，模型只有答对才拿分。ReasonRAG 却给每一步推理“打分”，引入最短路径奖励估计（SPRE），通过模拟多种路径，奖励快速准确的决策，惩罚冗余无效的思考，让模型学会“少绕弯、多命中”。

第二步：推理路径不拍脑袋，用树来找。面对海量可能的思维路径，ReasonRAG 不靠直觉决策，而是借助蒙特卡洛树搜索（MCTS），系统性地搜索“查不查、答不答”的多轮组合。每一次推理都像走迷宫，通过状态-动作树，逐步逼近最佳路径。

第三步：偏好样本，不求人自己造。过程监督数据不足不是问题，ReasonRAG 干脆自己生成了 RAG-ProGuide。这个数据集中，模型通过前面两步构建出的推理路径被自动打分、排序，最终形成优劣对比示例，让模型通过强化学习优化决策偏好。

第四步：偏好学习，让选择有章可循。有了明确的偏好对比，ReasonRAG 使用 DPO 优化策略，帮助模型逐步学习，做出更优决策。

第五步：推理流程灵活调度。ReasonRAG 设计了清晰的推理控制流。模型能根据当前任务状态动态决定是否检索、是否生成答案，能够灵活调用各个能力模块，实现智能、有序的思维推进。

实验结果

性能对比

论文在五个权威问答数据集上与 12 个 SOTA 方法进行了系统对比，结果展示了 ReasonRAG 在数据效率、多跳推理和泛化能力上的显著优势：

数据效率高：仅用 5k 训练样本，ReasonRAG 即在平均 EM（34.4%）和 F1（42.3%）上超越 Search-R1（训练数据 90k，EM 32.8%，F1 40.7%）。过程奖励显著优于传统的结果奖励。

多跳推理更强：在 HotpotQA 上，ReasonRAG 以 48.9% 的 F1 分数超越 AutoRAG（43.7%）和 Search-R1（47.0%），展现出强大的复杂推理整合能力。

跨领域泛化能力好：在 Bamboogle 和 MuSiQue 等挑战性测试集上，ReasonRAG 表现稳定领先，显示其推理策略具备良好的迁移性与鲁棒性。

训练效率

ReasonRAG 在 PopQA、HotpotQA 和 2WikiMultiHopQA 上的 EM 表现随 GPU 小时数增长，始终快于 Search-R1，表明其更高的训练效率。

优化策略

实验进一步对比了不同优化策略的效果：包括基础模型（Base）、监督微调（SFT）、结果监督（ORL）和过程监督（PRL）。

结果显示，ReasonRAG 在所有数据集上均取得最佳性能，表明过程奖励所带来的精细化反馈机制更有助于学习复杂的推理策略。

总结与未来方向

ReasonRAG 提出了一种基于过程奖励的 Agentic RAG 强化学习训练范式，展现出在训练效率、复杂推理能力与泛化性能上的潜力。相比传统结果监督方法，过程级监督提供了更细粒度、更稳定的优化信号，尤其适用于多轮、复杂任务的学习。

未来可进一步探索：

构建更丰富的过程奖励体系，引入信息冗余惩罚等多维反馈信号；

推广至更多任务场景，如多模态问答、代码推理、复杂工具调用等 agentic 应用。

关于作者

论文第一作者张文林目前就读于香港城市大学数据科学学院，博士二年级，导师为赵翔宇教授，目前的研究方向主要包括检索增强生成、大语言模型、推荐系统。论文的共同第一作者李向阳与董奎材来自华为诺亚方舟推荐与搜索实验室，主要研究方向包括检索增强生成，代码大模型，推荐系统等。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签