掘金 人工智能 15小时前
阿里WebDancer:自主信息搜索Agent
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里通义实验室提出了WebDancer,一套端到端的信息检索智能体构建范式,旨在解决构建具备长期任务规划与复杂信息检索能力Agent的关键问题。该系统支持多轮、多工具交互与长程推理,并通过四阶段流程——数据构造、轨迹采样、冷启动微调和强化学习泛化——实现智能体的构建。WebDancer在GAIA与WebWalkerQA等复杂多跳信息检索任务中展现出优异性能,甚至在部分场景下超越了GPT-4o,证明了其在真实Web环境中的有效性和可扩展性。

💡 **端到端智能体构建范式**:WebDancer提出一个四阶段的流程来构建自主信息检索智能体,包括数据构造(利用CRAWLQA和E2HQA策略自动合成高质量QA数据集)、轨迹采样(结合LLM和LRM采集Short-CoT与Long-CoT轨迹)、冷启动微调(使用结构化标注训练策略模型)以及强化学习泛化(通过DAPO算法优化策略,提升鲁棒性和数据效率),为构建复杂智能体提供了系统化的路径。

📈 **高质量数据集自动合成**:为解决数据稀缺问题,WebDancer设计了CRAWLQA和E2HQA两种合成策略。CRAWLQA模拟人类浏览行为,从专业网站爬取结构化页面并合成问答;E2HQA则通过迭代搜索与问题改写,逐步增加问题复杂度,生成需要长链推理的QA对,为训练提供丰富和多样化的数据。

🧠 **推理轨迹采样与建模**:系统基于ReAct框架采集Thought-Action-Observation的完整交互轨迹,并利用GPT-4o生成Short-CoT,QwQ-Plus生成Long-CoT,覆盖短链和长链推理路径。通过对所有轨迹进行rejection sampling并进行合法性、正确性、质量三重过滤,确保了样本的高质量和可用性。

🚀 **动态采样强化学习算法DAPO**:为了提升智能体在真实动态Web环境中的泛化能力,WebDancer采用了DAPO算法进行策略优化。该算法通过优化采样和奖励机制,设计0/1二元奖励(考虑格式合法性与答案准确性),显著提升了策略的鲁棒性、数据效率以及在多轮多工具交互中的智能行为表现。

🏆 **实验验证与跨语言能力**:在GAIA和WebWalkerQA等复杂任务上,WebDancer的表现显著优于无代理能力的方法,且在开源模型中性能远超vanilla ReAct,甚至在某些设置下超越了GPT-4o。此外,其在BrowseComp(英文)和BrowseComp-zh(中文)数据集上的稳定表现,凸显了WebDancer在跨语言和复杂搜索场景中的强大适应能力。

摘要

随着大语言模型(LLMs)和大推理模型(LRMs)的能力不断提升,构建具备长期任务规划与复杂信息检索能力的智能体Agent成为关键研究方向。阿里通义实验室提出WebDancer——一套从数据构建到训练策略的端到端信息检索智能体构建范式,支持多轮、多工具交互与长程推理。该系统在 GAIA与 WebWalkerQA 等复杂多跳信息检索任务中表现优异,验证其方法有效性与可扩展性。

要点总结

WebDancer 提供了构建自主信息检索智能体的系统路径,技术要点如下:

1 引言

WebDancer 的核心目标是构建能够在真实 Web 环境中实现自主搜索、点击与读取,并完成复杂推理任务的智能体系统。其具备以下三项能力:

构建这样的智能体面临多重挑战,包括:1)数据稀缺:真实世界多跳推理与信息操作任务的数据集极为有限;2)训练困难:多轮交互 + 多工具调用会造成 RL 训练不稳定;3)泛化困难:代理模型在真实动态 Web 环境中难以应对变化和长程目标。

2 方法

WebDancer 的构建流程分为四个阶段:

Step 1:构建高质量 QA 数据对

如图1所示,使用两种方式构建数据集:

Step 2:采样高质量推理轨迹

Step 3:监督微调实现冷启动

采用结构化格式(、<tool_call>、<tool_response>、)标注训练数据;训练策略模型,将工具调用输出部分(Observation)进行MASK,防止模型在学习早期被外部信息干扰。

Step 4:强化学习实现泛化

使用 DAPO算法优化策略(最大化公式(3));奖励设计为 0/1 二元打分,考虑格式合法性(score_format)与答案准确性(score_answer),其中正确性分数使用裁判模型(Qwen2.5-72B-Instruct)判定。

3 实验

实验结果

在 GAIA 与 WebWalkerQA 上,WebDancer 显著优于无代理能力的方法;在开源模型中,WebDancer 在 ReAct 框架下性能远超 vanilla ReAct,甚至在某些设置下超越 GPT-4o。

高难度任务测试

在 BrowseComp(英文) 和 BrowseComp-zh(中文) 数据集上表现稳定,凸显 WebDancer 在跨语言与复杂搜索场景中的适应能力。

长短思维链分析

对于非推理模型,强化学习显著提升回答一致性与 Pass@3 表现;对于推理模型(如 QwQ-Plus),RL 虽提升幅度有限,但明显提升 Cons@3(思维路径一致性)。

4 总结与未来工作

WebDancer提出了一种系统化、端到端的多步信息检索代理构建范式,覆盖从数据构建、轨迹采样、思维建模到策略优化全过程,未来工作可以在以下几个方面开展:

案例展示

作者在最后附了一个较长的案例展示,案例展示的问题来自于GAIA

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

WebDancer 信息检索 智能体Agent 大语言模型 强化学习
相关文章