在信息爆炸的时代,互联网就像一座庞大的迷宫,藏着无数宝藏。但传统搜索引擎往往只能触及表面,对于复杂、多层级的信息检索显得力不从心。比如,你想知道某个学术会议的详细议程、嘉宾介绍,还得自己手动点开一个个网页深挖,费时费力。通义实验室RAG团队提出WebWalker帮你解决这一问题!
?论文:WebWalker: Benchmarking LLMs in Web Traversal
?论文地址:
https://arxiv.org/pdf/2501.07572
?主页地址:
https://alibaba-nlp.github.io/WebWalker/
?Modelscope Demo:
https://www.modelscope.cn/studios/jialongwu/WebWalker
? Dataset 地址:
https://huggingface.co/datasets/callanwu/WebWalkerQA
?Leaderboard 地址:
https://huggingface.co/spaces/callanwu/WebWalkerQALeadeboard
?Github 地址:
https://github.com/Alibaba-NLP/WebWalker
如下图所示,给定ACL2025的网页地址和问题:industry track的截止日期和开会地址。
WebWalker通过一次又一次的click点击依次找到对应的信息,对网站进行充分的探索和挖掘。
01
背景
大模型的“知识局限”与检索瓶颈
大型语言模型(LLMs)在自然语言处理任务中大放异彩,但它们的“知识”在训练后就固定了。虽然通过检索增强生成(RAG)能从网上获取最新信息,可传统搜索引擎的横向搜索方式,很难深入挖掘网站内部深层内容,导致大模型在处理复杂信息时“心有余而力不足”。传统搜索引擎如谷歌、必应等,它们的搜索方式更像是在海面上的浅尝辄止,只能进行水平方向的搜索,难以深入到网站内部,挖掘那些深埋在网页之下的深层内容,对于隐藏在网页深层的有价值信息无能为力。无法像人类一样通过点击、输入等操作,逐步深入探索网页,获取更丰富的背景知识和细节。
02
解题思路
WebWalkerQA基准与WebWalker框架
为了解决这一难题,研究者们提出了一个全新的任务——Web Traversal,即给定一个与查询相关的初始网站,系统地遍历网页以揭露隐藏在其中的信息。WebWalkerQA应运而生,它是一个专门设计来评估大模型处理复杂、多步骤网页交互中嵌入查询能力的基准测试。WebWalkerQA聚焦于文本推理能力,采用问答格式来评估大模型在网页场景中的遍历和问题解决能力,并且将动作限制为“点击”,以更精准地评估智能体的导航和信息寻求能力,这种范式更加贴合实际应用场景。同时利用Multi-agent框架搭建了WebWalker来进行网页的游走,获取需要需要的信息。
WebWalkerQA
WebWalkerQA通过两阶段漏斗式标注策略构建数据,先用GPT-4o进行初步标注,再由众包标注者进行质量控制和筛选。最终获得高质量的680个问答对,覆盖1373个网页,其中涉及到的领域有教育、会议、组织和游戏,贴近现实真实场景,并且分为多源和单源问答两种类型,模拟人类不同网页探索行为。
WebWalker
WebWalker框架由explorer agent和critic agent组成。explorer agent基于ReAct框架,遵循思考-行动-观察范式,负责在网页中点击按钮、跳转页面;critic agent则负责记忆,维护一个memory来保存对query回答有帮助的信息和判断memory中的所有信息能否对query进行回答。
这种分工协作,让大模型能更高效地管理记忆,应对长文本和复杂逻辑。WebWalker让大模型在网页导航任务中能够更加高效地处理长文本信息,深入网页挖掘有价值的内容。这种框架的引入,如同为大模型配备了一艘能够深入海洋探索的潜水艇,让它们能够在信息的海洋中自由穿梭,挖掘那些深藏不露的宝藏。
03
实验结果
我们分别在两种setting下测试了WebWalkerQA的性能。第一种是agent性能,输入给定的网页和问题,让agent在网页内游走,获取信息。分别在react和reflexion,两种最主流的single-agent框架以及我们提出的webwalker上进行了测试。
Agent上的性能
可以发现引入multi-agent的webwalker框架对于长上下文理解的web navigation任务很有作用。数据集深度越深,考察内容越多,需要挖掘的信息越难找到,性能越低。
实验表明,WebWalkerQA对现有大模型来说是个巨大挑战,即使是性能最强的大模型gpt-4o,其表现也未达理想状态,仅仅只有40,凸显了该基准的难度。
在ReAct框架下,参数相对较小的模型由于缺乏深入挖掘信息的能力,无论是否找到了相关信息,在进行几次操作迭代后便开始进行回答判断,常常表现出“摆烂”或者不耐烦的特性。通过引入记忆机制来管理长上下文,或者随着模型参数的增强这种现象有所缓解,说明这种现象源于长上下文中噪声信息的干扰以及模型自身能力的局限性。
RAG系统上的性能:
另一种设置是直接测试RAG系统性能,分别测试了在close book和一些开源和商用RAG系统上的性能,同样地,WebWalkerQA需要搜索引擎搜到比较深的页面内容,或者需要拆解query进行搜索,这给RAG系统带来了挑战,最好的结果也是40左右。
04
二维RAG的探索
值得注意的是,webwalker中的memory对于回答query是非常重要的。如果rag链路中的搜索引擎可以当作对query进行横向搜索,webwalker是对页面的纵向深度探索,这是完全可以互补的。
因此我们把webwalker中的memory拼接到rag链路上,这种横向和纵向整合表现出色,在所有类别和难度的数据集上效果均有提升,证明了垂直探索页面对于提升RAG性能的潜力。这是对RAG二维探索的首次尝试!
此外,我们对webwalker 的挖掘点击次数进行scale up,看是否能得到更好的、更多的memory信息,随着挖掘点击次数的增大,不仅在webwalker上有较大提升,把memory加入到rag系统之后,性能也随之提升。这给rag系统进行test-time的拓展提供了新的角度。
突出 Insight
网页导航寻找信息仍比较困难:在需要规划和推理的任务中,网页导航仍需付出努力。
结合RAG有效:RAG与WebWalker的结合,在信息检索问答任务中展现出强大效果。Agentic 的二维RAG会很有帮助。
垂直探索有潜力:页面的垂直探索为RAG系统test-time的扩展提供了新思路。突破迭代搜索的范式,对页面垂直探索。
05
应用场景
想象一下,未来你只需向大模型提出问题,比如“这款电子产品在不同电商平台的优缺点对比”,它就能自动浏览各个平台,综合评论、参数等信息,为你生成一份详尽报告。在教育领域,学生可快速获取跨学科知识;科研人员能轻松追踪前沿动态,加速学术交流与创新。
既可以作为独立的网页信息检索助手,或无缝集成到RAG系统中,拓展其应用范围,让它们能够处理更加复杂、多步骤的信息检索任务。
06
技术总结
WebWalker通过模拟人类上网行为,为大模型打开了深入互联网世界的大门,让其在复杂信息检索任务中更得心应手。它不仅提升了大模型的实用性,还为未来的智能信息检索提供了新思路。WebWalkerQA和WebWalker的出现,为大模型在复杂、多步骤信息检索任务中的网页遍历能力评估提供了新标准和工具。它们强调了网页任务中深度、垂直探索的重要性,为更可扩展、可靠的大模型基础信息检索与RAG的结合铺平了道路。
07
全文总结
挑战性强:WebWalkerQA的高难度设置,能够有效挑战现有的RAG系统,推动相关技术的不断发展和进步,促使研究者们探索更加先进的解决方案。
结合效果佳:RAG与WebWalker的结合,在提升网页导航性能方面展现出了卓越的效果。这种协同作用不仅提升了信息检索的效率,还为处理复杂任务提供了更强大的支持,让大模型能够在各种场景中发挥更大的作用。
模拟真实场景:通过多源和单源问答类型,WebWalkerQA精准地模拟了人类在网页探索中的真实行为模式。这种模拟不仅让基准测试更加贴近实际应用场景,还为大模型提供了一个更加真实、更具挑战性的训练环境,有助于提升它们在现实世界中的表现
08
局限和讨论
数据规模:目前WebWalkerQA包含680个高质量问答对,规模有限,还有拓展空间。
多模态拓展:目前仅基于HTML-DOM解析,未来可结合视觉模态如截图,提供更直观的交互体验。
Agent微调:WebWalker目前仅靠提示驱动,后续可通过精细调优,让大模型更好地掌握网页浏览技巧。
Momory与rag 结合:目前是给定了webwalker页面进行了挖掘,如果想与rag链路进行更好的结合,可以对query进行改写到官网定位,再进行挖掘,把memory和正常检索到的知识一起作为检索增强的知识,这样结合更自然。
点击阅读原文,即可跳转体验~
?点击关注ModelScope公众号获取
更多技术信息~