我爱计算机视觉 01月21日
通义实验室提出WebWalker: 对RAG的二维升级
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了WebWalkerQA,一个评估大型语言模型(LLM)网页遍历能力的基准,以及WebWalker,一个模拟人类网页导航的多代理框架。传统搜索引擎在检索增强生成(RAG)中存在局限性,无法进行深层信息挖掘。WebWalkerQA通过构建不同难度和来源的QA对来评估LLM的网页遍历能力。WebWalker采用explorer-critic范式,模拟人类在网页中的点击和信息收集过程。实验结果表明,WebWalkerQA具有挑战性,结合WebWalker的RAG在实际场景中通过横向搜索和纵向页面挖掘集成具有显著效果,提升了RAG的性能。

🌐WebWalkerQA:一个新基准,用于评估LLM在网页遍历方面的能力,它通过构建不同难度和来源的QA对来测试LLM是否能够系统地遍历网站子页面以获取信息,弥补了传统搜索引擎在信息深度挖掘上的不足。

🤖WebWalker框架:采用多代理架构,包含一个探测代理(explorer agent)和一个裁判代理(critic agent)。探测代理模仿人类的浏览行为,通过思考、行动和观察来点击网页链接;裁判代理则负责存储搜索过程中的信息,并判断何时停止探索,有效提升信息获取效率。

🔍RAG二维探索:WebWalker的提出是对RAG系统的一次创新尝试,将传统搜索引擎的横向网页搜索与WebWalker的纵向深度探索相结合,实验证明,这种横向和纵向整合显著提升了RAG的性能,并为RAG系统的test-time拓展提供了新的思路。

💡类比Pair Programming:WebWalker的设计理念类似于pair programming,即两人协作编程。探测代理负责探索网页内容,而裁判代理则负责检查和筛选信息,二者协同工作,实现高效的信息挖掘,这为我们理解和应用WebWalker提供了更直观的视角。

52CV 2025-01-21 12:17 江苏




关注公众号,发现CV技术之美




检索增强生成(RAG)在开放域问答任务中表现出色。然而,传统搜索引擎可能会检索浅层内容,限制了大型语言模型(LLM)处理复杂、多层次信息的能力。

为了解决这个问题,我们引入了WebWalkerQA,一个旨在评估LLM执行网页遍历能力的基准。它评估LLM系统性地遍历网站子页面以获取对应信息的能力。同时我们提出了WebWalker,一个通过explorer-critic范式模拟人类网页导航的multi-agent框架。

广泛的实验结果表明,WebWalkerQA具有挑战性,证明了结合WebWalker的RAG在实际场景中通过横向搜索和纵向页面挖掘集成的有效性。

RAG场景下,搜索引擎只是对query的横向网页搜索,缺少对搜索到的网页进行纵向的深度深挖!


动机

大型语言模型(LLM)通常处于知识固定状态(无法实时更新)。

尽管使用检索增强生成(RAG)可以获取最新信息,但传统搜索引擎(如谷歌、百度等)的横向搜索方式限制了对信息的深层挖掘能力,无法像人类一样通过逐步点击等操作获取更多细节,从而更“聪明”地获取所需信息。

因此,作者提出了一个新任务——Web Traversal,旨在给定与查询相关的初始网站,系统地遍历网页以揭露隐藏在其中的信息。


WebWalkerQA和WebWalker


实验

值得注意的是,webwalker中的memory对于回答query是非常重要的。如果rag链路中的搜索引擎可以当作对query进行横向搜索,webwalker是对页面的纵向深度探索,这是完全可以互补的。

因此可以把webwalker中的memory拼接到rag链路上,这种横向和纵向整合表现出色,在所有类别和难度的数据集上效果均有提升,证明了垂直探索页面对于提升RAG性能的潜力。这是对RAG二维探索的首次尝试!

此外,对webwalker 的挖掘点击次数进行scale up,看是否能得到更好的、更多的memory信息,随着挖掘点击次数的增大,不仅在webwalker上有较大提升,把memory加入到rag系统之后,性能也随之提升。这给rag系统进行test-time的拓展提供了新的角度。

? WebWalker的设计让人联想到pair programming(对编程),即两人协作,一个写代码,一个检查bug。探测代理和裁判代理的功能其实类似于这种协作。

? 文章最后提出了三项发现,首次提出了RAG二维探索的scaling潜力,探讨如何更“聪明”地进行横向和垂直两个方向的探索(test-time compute)。

作者介绍:本文主要作者来自通义实验室和东南大学。通讯作者是通义实验室蒋勇和东南大学周德宇。第一作者吴家隆,东南大学硕士二年级,主要研究方向是Agent和Efficient NLP,该工作在阿里巴巴通义实验室RAG团队科研实习完成,

最新 AI 进展报道
请联系:amos@52cv.net

END




欢迎加入「大模型交流群?备注:LLM




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RAG WebWalker LLM 网页遍历 多代理
相关文章