机器之心 16小时前
通义实验室大火的 WebAgent 续作:全开源模型方案超过GPT4.1 , 收获开源SOTA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

WebShaper项目提出了一种全新的“形式化驱动”数据合成范式,用于训练AI智能体进行信息检索(IS)任务。该方法通过数学建模IS任务,克服了传统“信息驱动”范式在知识结构一致性、推理逻辑以及预检索内容局限性上的缺陷。WebShaper利用集合论和“知识投影”概念,精确控制任务的推理路径和复杂度,实现全域任务覆盖和精准结构控制。其智能体式扩展合成流程,通过专用的Expander模块,以逐层扩展机制生成高质量、无冗余且无推理捷径的训练数据。基于此方法训练的模型,在GAIA评测中取得了60.1分的SOTA表现,显著提升了开源模型在IS任务上的能力。

💡 WebShaper开创性地提出了“形式化驱动”数据合成新范式,旨在解决传统“信息驱动”方法在训练AI智能体进行信息检索(IS)任务时存在的缺陷。该范式通过数学建模IS任务,从而实现更广泛的任务覆盖、更精准的结构控制以及结构语义的对齐,为构建高质量的IS训练数据提供了新的解决方案。

🧠 WebShaper基于集合论构建了IS任务的形式化模型,引入了“知识投影”(KP)概念,将IS任务分解为对实体集合的R-并集、交集和递归操作。这种形式化方法能够精确控制推理路径和任务复杂度,使数据合成过程更加可控、可解释和可扩展,摆脱了自然语言理解的歧义性。

🚀 智能体式扩展合成是WebShaper的核心技术之一。通过专用的“Expander”智能体,系统将形式化的基础种子任务进行多步扩展,采用逐层扩展机制以最小化冗余并防止推理捷径。这一过程结合了搜索、网页摘要、验证等工具,确保了生成任务的正确性和推理链的严谨性。

🏆 WebShaper通过其新范式生成的高质量数据,并结合监督微调(SFT)和GRPO强化学习策略训练的Agent,在GAIA评测中取得了60.1分的SOTA表现,大幅超越了许多开源模型,并缩小了与顶尖闭源模型的差距。这证明了高质量数据和先进训练方法对于提升Agent能力的重要性。

🌟 WebShaper的开源共享不仅为社区提供了高质量的QA数据集和模型,更重要的是推动了信息检索任务形式化研究的进展。其核心思想可以扩展到比IS更复杂的任务,为AI智能体的能力发展和社区生态繁荣奠定了基础。


WebAgent 续作《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中,作者们首次提出了对 information-seeking(IS)任务的形式化建 并基于该建模设计了 IS 任务训练数据合成方法,并用全开源模型方案取得了 GAIA 评测最高 60.1 分的 SOTA 表现


WebShaper 补足了做 GAIA、Browsecomp 上缺少高质量训练数据的问题,通义实验室开源了高质量 QA 数据!


WebShaper 体现了通义实验室对 IS 任务的认知从前期的启发式理解到形式化定义的深化。



GitHub 链接:https://github.com/Alibaba-NLP/WebAgent

huggingface 链接:https://huggingface.co/datasets/Alibaba-NLP/WebShaper

model scope 链接:https://modelscope.cn/datasets/iic/WebShaper


图表 1:WebShaper 在 GAIA 上取得开源方案 SOTA。


WebShaper —— 合成数据范式的转变


在大模型时代,「信息检索(Information Seeking, IS)」早已不是简单的 搜索 + 回答 那么简单,而是 AI 智能体(Agent)能力的重要基石。无论是 OpenAI 的 Deep Research、Google 的 Gemini,还是国内的 Doubao、Kimi,它们都把 能不能上网找信息 当作核心竞争力。


系统性地构造高质量的信息检索训练数据成为激发智能体信息检索能力的关键,同时也是瓶颈。当前主流方法依赖 信息驱动 的合成范式 —— 先通过网络检索构建知识图谱,再由大模型生成问答对(如 WebDancer、WebWalker 等方案)。这种模式存在两大缺陷:知识结构与推理逻辑的不一致性,以及预检索内容的局限导致的任务类型、激发能力和知识覆盖有限。


图表 2:WebShaper 从 「信息驱动」到 「形式化驱动」 的范式转变。


WebShaper 系统开创性提出 形式化驱动 新范式,通过数学建模 IS 任务,并基于该形式化,检索信息,合成训练数据。形式化驱动的优点包括:


1. 全域任务覆盖 :基于形式化框架的系统探索,突破预检索数据边界,实现覆盖更广任务、能力、知识的数据生成。

2. 精准结构控制 :通过形式化建模,可精确调控推理复杂度与逻辑结构。

3. 结构语义对齐 :任务形式化使信息结构和推理结构一致,减少数据合成中产生的错误。


Information Seeking 形式化建模


图表 3: 形式化建模


WebShaper 首先提出基于集合论的 IS 任务形式化模型。


该模型包含核心概念「知识投影(Knowledge Projection)」,他是一个包含实体的集合:


每个 IS 任务都由 KP 的 R - 并集(R-Union)、交集(Intersection)、递归操作构成,能够精准控制推理路径和任务复杂度;

每个 IS 任务旨在确定一个复杂的由 KP 组合而成的目标集合 T 中包含的实体。


该形式化建模让 WebShaper 不再依赖自然语言理解的歧义,而是可控、可解释、可扩展的数据合成方案。


智能体式扩展合成:让 Agent 自己 「写题」


为了与形式化建模保持一致,WebShaper 整个流程开始于预先构建且形式化的基础种子任务,然后在形式化的驱动下,将种子问题多步扩展为最终的合成数据。此过程采用专用的代理扩展器 (Expander) 模块,旨在通过关键过程 (KP) 表征来解释任务需求。在每个扩展阶段,系统都会实现逐层扩展机制,以最小化冗余,同时通过控制复杂度进程来防止推理捷径。


种子任务构建


为了构建种子任务,作者下载了全部 WikiPedia,并在词条中随机游走检索信息,合成基础的种子 IS 任务。


KP 表示


IS 任务形式化模型是复杂度的,其中包含大量的交、R - 并和递归操作。为了在 Expander 中表示和使用该模型,作者提出了一种 KP 表示。其中通过引入 变量 和 常量,以及 R - 并的可交换性质,表示了 IS 形式化模型。


如,将如下的问题:


Which player of a team in the 2004-05 season, who was born in 90s? This team is founded in 1966 and is an East German football team.


表示为:


图表 4 :形式化表示。


逐层扩展结构


数据扩展的策略是数据合成的关键。之前的方法在我们的形式化模型中将得到下图中的 Random Structure 和 Sequential Structure:


图表 5 :扩展策略对比。


这样的结构存在两个问题:


冗余性: 如上图中的 Random Structure 所示,存在一些已知常量与其他已知常量相联系。在这种情况下,诸如 柏林迪纳摩是一家位于柏林的足球俱乐部这样的句子会存在于问题中。然而,这并没有增加任务解决的推理链。

推理捷径: 如上图中的 Sequential Structure 所示,存在一个将常量直接连接到目标的推理链条。如果发生这种情况,模型可能会通过仅推理较近的常量而忽略较深的序列来猜测答案。


为此,作者提出如上图所示的逐层结构,每次扩展都选择叶结点常量进行扩展,有效地解决了上述的两个问题。


扩展智能体


具体扩展是由 Expander 智能体负责执行,他接受当前问题的形式化表示:

根据图结构层次遍历找到可扩展常量节点;

调用搜索、网页摘要、验证等工具;

自动生成形式化任务、并进行答案验证和复杂度过滤。


这一步,使得我们不仅能构建覆盖度广的任务,更能确保任务正确性和推理链条的严谨性,大幅减少错误传播。


Agent 训练


基于形式化生成的高质量任务和完整的行为轨迹,作者使用监督微调(SFT)+ GRPO 强化学习策略来训练 Agent。WebShaper 最终得到 5k 的训练轨迹。

训练后,模型在 GAIA 基准任务中获得:


60.1 分,超越所有开源方案

闭源模型 GPT4.1 只有 40.7 分、Claude Sonnet4 58.2 分、O4 mini 66.99


我们在全使用开源模型方案下拉近了用最强闭源模型 o4 mini 的差距,大幅领先第二名的开源方案。


图表 6 :与最新基线方法的对比。


进一步分析


论文中,作者还进一步分析了数据和训练模型,发现:


1. WebShaper 数据领域覆盖充分。

2. 在 WebShaper 数据上,通过 RL 训练能大幅激发模型的 IS 能力。

3. 消融实验验证了形式化建模和逐层扩展策略的有效性。

4. 求解 WebShaper 任务,相比于基线数据要求更多的智能体 action。


为什么这件事重要?


任务形式化 = WebShaper 是基于形式化任务合成数据的开端。该思想可以扩展于相比 IS 更为复杂的任务。

数据质量 = Agent 能力上限。好的智能体,先要有好的训练任务。

Agentic 数据合成 = 智能体数据构建需要结合推理和信息检索,使用 agent 合成数据可以大幅减少中间过程开销和误差传递

开源共享 = 社区生态繁荣。我们相信,用最开放的方式推动最前沿的研究,是 AI 发展的正路。


用开源数据 + 模型做到 GAIA 60 分,你也可以。


现在就来试试:https://github.com/Alibaba-NLP/WebAgent


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


今天看啥地址:http://www.jintiankansha.me/t/EKAbSV1nw9

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

WebShaper 信息检索 AI智能体 数据合成 形式化建模
相关文章