AI科技评论 前天 19:58
InfoDeepSeek:首个开放网络环境下的智能体信息搜寻质量评估基准
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

InfoDeepSeek是一个评估智能体在真实动态网络环境中信息搜寻质量的基准,旨在弥补现有静态评估方法的不足。它包含专为智能体设计的挑战性问题,直接在真实互联网环境中进行评估,并采用创新的评估框架,无需预设“正确文档集”。通过系统性的问题构建方法和全面的实验分析,InfoDeepSeek为研究者们提供了一个评估和改进智能体RAG系统的强大工具,并为相关领域的研究提供了有益借鉴。

🌐InfoDeepSeek基准旨在评估Agentic RAG系统中的智能体信息搜寻能力,通过构建具有确定性、困难性和多样性三大标准的查询,模拟真实动态网络环境。

🔍该基准采用检索、增强、生成三阶段模式,核心评估指标包括答案准确率 (ACC)、信息准确率 (IA@k)、有效证据利用率 (EEU) 和信息紧凑性 (IC),全面衡量信息搜寻效果。

🤖实验结果表明,即使是SOTA LLM在InfoDeepSeek上的表现也面临挑战,尤其是在多跳、长尾、含干扰信息等复杂属性的问题上。搜索引擎的选择和计算资源的投入也会显著影响智能体的性能。

⚠️研究揭示了“检索干扰”现象,即外部检索信息可能降低LLM的准确性。同时,引导智能体使用“优势语言”搜索及增加搜索步数能有效提升表现。

西云佳,林江浩 2025-05-28 15:51 广东

InfoDeepSeek 有效地弥补了现有静态评估方法的不足,为智能体信息搜寻领域的研究提供了重要评测标准。

InfoDeepSeek 有效地弥补了现有静态评估方法的不足,为智能体信息搜寻领域的研究提供了重要评测标准。

作者丨西云佳 林江浩

检索增强生成(RAG)通过引入外部信息来提升大型语言模型(LLMs)回复的准确度,而Agentic RAG则更进一步将LLM智能体引入信息搜寻过程,实现灵活和鲁棒的信息获取。然而,现有RAG基准大多局限于静态的、小规模的文本库和简单的查询,难以激发智能体的复杂行为;其评估方式也依赖于预定义的“正确文档集”,不适用于真实网络环境,因此难以评估智能体信息搜寻的质量。

为解决这些痛点,上海交通大学与华为诺亚方舟实验室的研究者们联合推出了 InfoDeepSeek,首个评估真实动态网络环境下智能体信息搜寻质量的基准。

论文标题: InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation

项目链接: https://infodeepseek.github.io/

项目亮点包括:

1. 专为智能体设计的挑战性问题: 

InfoDeepSeek 包含一系列挑战性问题,旨在激发和评估智能体在信息搜寻中的规划、多轮工具使用等核心能力 。

2. 真实动态环境:      

与依赖静态、固定文本库的传统基准不同,InfoDeepSeek 直接在真实、动态的互联网环境中进行评估,更贴近实际应用场景 。

3. 严格的问题构建标准:

提出了系统性的问题构建方法论,确保问题满足“确定性”、“困难性”和“多样性”三大标准。

4. 创新的评估框架:      

针对动态环境,开发了无需预设“正确文档集”的评估框架,包含信息准确性、效用性和紧凑性等指标,全面衡量信息搜寻的效果。

5. 全面的实验分析:      

通过广泛实验揭示了智能体在不同LLM、搜索引擎和问题类型下的行为特性,为未来研究提供实践指导 。

InfoDeepSeek 不仅为研究者们提供了一个评估和改进智能体RAG系统的强大工具,其构建理念和评估方法也为相关领域的研究提供了有益借鉴。

图1 传统RAG测评基准(上)和我们的InfoDeepSeek基准(下)的对比

1

背景介绍

大语言模型(LLMs)在众多领域取得了显著进展,但其固有的局限性,如事实幻觉、知识陈旧以及无法访问实时信息,依然是亟待解决的挑战 。检索增强生成(RAG)技术通过结合外部知识源,显著提升了LLM的响应质量和可靠性。RAG通常包括检索、增强和生成三个阶段,其中信息搜寻(检索与增强)是核心环节。

随着技术的发展,研究者们发现传统RAG系统在处理复杂任务时,其固定的工作流程显得力不从心。于是,Agentic RAG应运而生。它将自主的LLM智能体集成到RAG流程中,赋予系统动态规划、执行多步搜索、与环境交互(如使用工具浏览网页)以及根据中间结果进行反思和调整策略的能力。

这种范式极大地增强了信息获取的灵活性和鲁棒性,并已在一些实际系统中得到应用,例如OpenAI、谷歌的Gemini以及Perplexity AI等产品都集成了Deep Research,它们都利用智能体在实时网络中迭代搜索和整合信息 。智能体的引入主要革新了RAG的信息搜寻部分,而最终的生成步骤则与传统RAG类似,依旧是基于获取到的外部信息来构建答案。

因此,评估Agentic RAG系统的核心目标之一,便是衡量其智能体信息搜寻的有效性。然而,现有的RAG基准在评估此类系统时显得捉襟见肘:

1. 环境与语料库限制:     

大多数基准依赖于静态的、预先固定的、规模有限的文本集合 。这与真实网络环境的海量、动态、URL可能失效以及搜索引擎结果波动等特性相去甚远。因此,它们无法反映Agentic RAG系统在实际部署中需应对的复杂性。

2. 评估方法不适:      

传统评估方法常依赖预定义的“正确文档集”并使用如NDCG等传统指标来评估信息检索效果。但在开放和动态的网络中,预先确定一个全面、固定的正确文档集合几乎不可能,这使得这些方法难以适用。

3. 问题复杂度不足:      

现有基准中的查询往往较为简单,LLM通过自身知识或单轮搜索即可解决。这类问题不足以激发和评估智能体的规划、多轮交互及复杂推理等核心能力。

为了弥补这些差距,迫切需要一个能够在真实、动态的网络环境中,通过具有挑战性的复杂问题来评估智能体信息搜寻能力的全新基准和评估框架。这正是InfoDeepSeek项目诞生的初衷。

2

数据集构建

InfoDeepSeek数据集的构建旨在产出一系列高质量、具挑战性的查询,用于评估智能体在真实网络环境中的信息搜寻能力。

1. 查询构建三大核心标准:

2. 系统化构建方法:

采用“事实驱动的问题起草”、“从锚点知识扩展”、“多样化策略”、“过滤与精炼”以及“多阶段验证”的流程。

图2 数据集构建流程

最终,InfoDeepSeek包含245个经过严格验证的高质量问题,每个问题都附有标准答案、来源网页及详细元数据(困难属性、领域、优势语言等)。

3

InfoDeepSeek测评基准

InfoDeepSeek不仅提供了数据集,还设计了相应的Agentic RAG框架和一套创新的评估指标与协议,专注于评估信息搜寻过程(检索与增强阶段)。

1. Agentic RAG框架概览:

该框架遵循检索、增强、生成三阶段模式。

2. 核心评估指标:

3. 评估协议:

上述指标的计算高度依赖于判断LLM生成的答案合人类标注回答是否一致。InfoDeepSeek采用人类评估(human-eval)和基于LLM的自动评估(auto-eval)相结合的方式。依靠LLM评估器判度胺回答一致性,并且针对错误前提问题进行了专门的优化,使得LLM评估的准确性可以达到99.29%(与人工评估相比)。

4

实验

InfoDeepSeek项目开展了广泛实验,以评估不同LLM、搜索引擎及问题属性对智能体信息搜寻性能的影响。

1. 不同LLM的性能: 实验涵盖了GPT-4o、Claude-3.7-Sonnet、DeepSeek、Gemini等多种LLM。

2. 不同搜索引擎的影响: 对比了DuckDuckGo、Google、Bing、Yahoo四种搜索引擎。

3. 不同问题属性的表现: 分析了模型在多跳、长尾、错误前提等六种属性上的性能。

此外我们也进行了很多深入的分析,揭示了一些模型提升可能的方向:

5

总结

InfoDeepSeek通过构建一个面向真实动态网络环境的挑战性基准,有效地弥补了现有静态评估方法的不足,为智能体信息搜寻领域的研究提供了重要工具 。其核心贡献在于系统性的查询构建方法(确保问题的确定性、困难性和多样性) 以及为动态环境量身定制的细粒度评估指标。

关键实验结论与思考:

1. SOTA LLM仍面临挑战:当前顶尖LLM在InfoDeepSeek的复杂信息搜寻任务上表现平平,显示智能体在规划、交互及信息整合能力上有较大提升空间。

2. 推理与检索缺一不可:优化的推理能力和高质量的搜索引擎均能提升性能,但在长尾知识、多跳推理等难题上,两者需协同作用。

3. “检索干扰”值得关注:外部检索信息可能反而降低LLM的准确性,提示需更智能地平衡内外知识。

4. 语言和计算资源的重要性:引导智能体使用“优势语言”搜索及增加计算投入(如搜索步数)能有效提升表现。

点击文末底部阅读原文即可跳转至论文链接~

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

//

推荐阅读

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

InfoDeepSeek Agentic RAG 信息搜寻 LLM 评估基准
相关文章