2025-07-04 17:21 四川
Introducing deep research: An agent that uses reasoning to synthesize large amounts of online information and complete multi-step research tasks for you.
OpenAI
时代信号:信息入口的悄然易主
苹果 WWDC 2025 披露系统级 AI 助手,直连 ChatGPT 生成多步摘要,引发“更换默认搜索引擎”的市场猜想。
多家独立统计显示:2024 Q4 — 2025 Q2,Google 桌面检索份额出现持续下滑;与之形成鲜明对比的是,LLM 原生应用保持高速成长:ChatGPT 月活已破 4 亿,周访问量逾 5 亿;Claude 的 月活也在 2025 H1 突破 18 M,并以两位数季度增速继续攀升。
GitHub 上,“DeepResearcher”“R1-Searcher”“DeerFlow” 等 Deep Research Agent 仓库在半年内即斩获数千 star,远超传统 RAG 工具库的同期增长。
本文所解读的论文《From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents》由伊利诺伊大学(芝加哥分校、香槟分校)联合清华大学、北京大学、UCLA、UCSD、亚马逊、Salesforce、港中文等全球多所高校与企业 AI 研究员共同完成。完整资源见项目页:https://github.com/DavidZWZ/Awesome-Deep-Research。
范式演进:从 Web Search 到 Agentic Deep Research研究与社区热度:范式跃迁的强劲动能学术层面 DeepResearcher、Search-R1、R1-Searcher 等论文在 2025 年密集发布,重点探讨 推理-检索协同 与 强化学习代理。开源生态 DeepSearcher、DeerFlow、ODS、WebThinker……多款项目数周内斩获千星;论文统计显示 Deep Research 相关库的 star 曲线 显著高于传统 RAG 项目。为系统评估 Agentic Deep Research 模型的实用价值,作者引入三项高难评测基准,涵盖多步骤、多源知识聚合任务。 在BrowseComp、 BrowseComp-ZH、HLE,标准 LLM(如 GPT-4、Claude-3)表现普遍低于 20%,而 OpenAI Deep Research Agent 在三项任务中分别达成 51.5%、42.9%、26.6%,显著优于各类baseline。方法论精要:三大技术支柱
- Reasoning LLM:奠基性推理能力
- 学会“search”的LLM代理:强化学习驱动
- Test-Time Scaling Law for Deep Research
- 可信的Human-in-loop系统:后续系统需把人类反馈融入关键检索-推理环节,引入细粒度的访问控制、证据核查与交互式校正界面,从而在保证自动化效率的同时,实现输出过程的可解释、可追溯与责任分担。
- 垂直领域专家级深研:医学、法律、生命科学等高门槛场景要求专业数据库构建和领域范式对齐。未来代理需对接分散的领域资料库,适配专业推理范式(如法律判例推理、医学假设验证),以生成高可信度的专家级研究结果。
- 结构化-组织型深研系统: 将检索与推理过程中的中间产物显式转化为图结构,有助于在长上下文内保持信息一致性,并为多智能体协同提供高效的消息传递通道。 这既提升单代理的逻辑连贯性,也为多代理协作奠定数据基础。
- 从文本到多模态的信息融合:真正的人类研究能力依赖跨文本、图像、视频及结构化数据的综合分析。未来工作需解决跨模态语义对齐、冲突信息消解和大规模异构数据检索三大难题,为深研代理注入视觉-语言-多模态一体化认知能力。
- 高效 Test-Time Scaling 与资源自管理:随着推理深度与检索广度的持续扩张,落地必须在固定 token 预算内自适应分配计算资源。研究方向包括:小模型能力迁移、潜在推理压缩、检索预算动态调度,力求在性能与成本之间取得可量化的最优平衡
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。