本报告介绍了Search-R1,一个创新的强化学习框架,旨在训练大型语言模型在推理过程中自主生成并优化搜索查询。该框架支持多轮搜索交互,并通过检索结果掩码和基于结果驱动的简单奖励,保障了强化学习训练的稳定性。实验表明,Search-R1在问答基准数据集上取得了显著的性能提升,最高可达41%。报告还将分享强化学习设计、模型规模扩展行为以及检索增强推理中响应长度作用等方面的实践经验。报告人金博文是UIUC计算机科学系的博士生,研究方向包括大型语言模型、多模态学习等。
🔍 Search-R1 是一种创新的强化学习框架,其核心在于训练大型语言模型在推理过程中自主生成和优化搜索查询。它通过允许模型在推理过程中进行多轮搜索交互,从而更有效地利用外部知识。
💡 Search-R1 采用检索结果掩码和基于结果驱动的简单奖励机制,以确保强化学习训练的稳定性。这种设计有助于模型专注于关键信息,并根据检索结果进行学习。
📊 在七个问答基准数据集上的实验结果表明,Search-R1 相比现有的检索增强基线方法,性能提升高达41%。这证明了该框架在提升大型语言模型推理能力方面的有效性。
👨🏫 报告还将分享在强化学习设计、模型规模扩展行为以及检索增强推理中响应长度作用等方面的实践经验,为相关研究提供了有价值的参考。
🧑🎓 报告人金博文是伊利诺伊大学厄本那-香槟分校(UIUC)计算机科学系的博士生,研究方向涵盖大型语言模型、多模态学习等,拥有丰富的研究经验。

报告主题:通过强化学习训练大型语言模型进行推理与搜索引擎调用
报告日期:05月08日(本周四)10:30-11:30
报告要点:
为了实现高效的推理与文本生成,大型语言模型(LLMs)越来越需要实时访问外部知识。虽然在推理过程中提示LLMs发起搜索查询是一种常见策略,但由于模型并未专门训练以高效地与搜索引擎交互,这种方式往往效果有限。在本次报告中,我将介绍 Search-R1,一个创新的强化学习(RL)框架,旨在训练大型语言模型在推理过程中自主生成并优化搜索查询。Search-R1 支持推理过程中多轮搜索交互,并通过检索结果掩码和基于结果驱动的简单奖励,保障了强化学习训练的稳定性。在七个问答基准数据集上的实验表明,Search-R1 相比强大的检索增强基线方法带来了最高41%的性能提升。报告中,我还将分享在强化学习设计、模型规模扩展行为以及检索增强推理中响应长度作用等方面的实践经验。代码与模型已开源:https://github.com/PeterGriffinJin/Search-R1金博文是伊利诺伊大学厄本那-香槟分校(UIUC)计算机科学系的博士四年级学生,师从韩家炜教授。他获得了 Apple 博士奖学金(Apple PhD Fellowship)和鲍云妮-鲍美心纪念奖学金(Yunni and Maxine Pao Memorial Fellowship)的资助。他的研究兴趣主要集中在大型语言模型(LLMs)、多模态学习与信息网络的交叉领域,特别关注基础模型如何融合文本、网络和多模态数据,来解决信息检索与知识发现等现实世界问题。目前,他的研究兴趣包括 LLM Agent、推理与强化学习(RL)。他以第一作者身份在 ICLR、ICML、NeurIPS、KDD、SIGIR、ACL、COLM 和 EMNLP 等国际顶级会议上发表了多篇论文。
更多信息请访问他的个人主页:https://hub.baai.ac.cn/users/106296。

扫码报名


内容中包含的图片若涉及版权问题,请及时与我们联系删除