PaperAgent 05月14日 22:58
14B检索能力超过Google Search,阿里ZeroSearch通过RL激发LLM检索推理能力~
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里通义Lab提出的ZEROSEARCH框架,旨在无需与真实搜索引擎交互的情况下,提升大型语言模型(LLM)的搜索能力。该框架通过轻量级的监督微调将LLM转化为检索模块,使其能够生成相关和噪声文档。在强化学习训练中,采用课程式训练策略,逐步降低生成文档的质量,使模型适应更具挑战性的检索场景,从而激发其推理能力。实验结果表明,ZEROSEARCH在不同模型家族和参数大小上均表现出良好的泛化能力,甚至在14B检索模块时超越了Google Search。

🔍ZEROSEARCH的核心思想是,通过强化学习训练LLM,使其在不依赖真实搜索引擎的情况下,也能有效进行信息检索。这降低了API成本,并解决了文档质量不可控的问题。

📚ZEROSEARCH采用多轮交互模板,包括内部推理、搜索查询和答案提供三个阶段,引导策略模型进行迭代推理和信息检索,直到得出最终答案。

📈ZEROSEARCH的课程式训练策略逐步增加生成文档的噪声概率,使策略模型逐渐适应更具挑战性的检索场景,从而有效提升模型的鲁棒性和泛化能力。

🏆ZEROSEARCH的实验结果表明,该方法在多个数据集上都取得了优异的性能,甚至在某些情况下超越了传统搜索引擎,证明了其有效性和潜力。

2025-05-11 11:23 湖北

有效的信息搜索对于提升 LLMs 的推理和生成能力至关重要。近期探索的强化学习(RL)方法面临两大主要挑战:(1)文档质量不可控:搜索引擎返回的文档质量往往是不可预测的;(2)高昂的API成本:RL训练频繁地进行模拟运行,涉及数十万次搜索请求,导致了巨大的API费用。
为此,阿里通义Lab提出了ZEROSEARCH,这是一个无需与真实搜索引擎交互即可激励LLMs搜索能力的强化学习框架。
ZEROSEARCH从轻量级的监督微调开始,将LLM转化为一个检索模块,使其能够根据查询生成相关和噪声文档。在强化学习训练过程中,采用基于课程式训练策略,逐步降低生成文档的质量,通过让模型逐渐适应更具挑战性的检索场景,逐步激发其推理能力。

    训练模板:采用多轮交互模板,引导策略模型进行迭代推理和信息检索,直到得出最终答案。模板分为三个阶段:内部推理(<think>...</think>)、搜索查询(<search>...</search>)和答案提供(<answer>...</answer>)。

    搜索模拟微调:通过收集与真实搜索引擎交互的轨迹,并对其进行标注(正确答案为正,错误答案为负),然后提取查询-文档对进行微调,使LLM能够生成有用或噪声文档。

    课程式训练策略:在训练过程中,逐步增加生成文档的噪声概率,使策略模型逐渐适应更具挑战性的检索场景。

    奖励设计:采用基于F1分数的奖励函数,平衡精确率和召回率,避免模型通过生成过长答案来增加正确答案的出现概率。

    训练算法:兼容多种强化学习算法,如PPO、GRPO和Reinforce++,并通过损失掩码机制稳定训练过程。

实验使用了Qwen-2.5-7B、Qwen-2.5-3B和LLaMA-3.2-3B等模型家族,并通过SerpAPI与Google Web Search进行交互。训练时,将NQ和HotpotQA的训练集合并为统一数据集进行微调,并在七个数据集上评估性能。

更多信息:《动手设计AI Agents:CrewAI版》、《高级RAG之36技》、新技术实战:中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日报/月报、最新技术热点追踪解读(GPT4-o/数字人/MCP/Gemini 2.5 Pro)
    https://arxiv.org/pdf/2505.04588ZeroSearch: Incentivize the Search Capability of LLMs without Searchinghttps://github.com/Alibaba-NLP/ZeroSearch

    推荐阅读


      欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

      阅读原文

      跳转微信打开

      Fish AI Reader

      Fish AI Reader

      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

      FishAI

      FishAI

      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

      联系邮箱 441953276@qq.com

      相关标签

      ZEROSEARCH 强化学习 LLM 信息检索
      相关文章