IT之家 23小时前
Claude 团队大揭秘:如何调动多智能体搞深度搜索
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic团队分享了构建高效多智能体研究系统的经验,该系统采用协调器-工作器架构,通过主代理协调子代理并行探索复杂查询。文章详细介绍了系统架构、提示工程和评估方法,并展示了多智能体在不同领域的应用比例。研究表明,多智能体系统能有效扩展推理能力,提升效率,但同时也面临着“蝴蝶效应”、调试和更新等挑战。团队通过多种策略应对这些挑战,并开源了部分提示和示例,为构建可靠的智能体系统提供了宝贵的参考。

🧠 **架构设计:** 采用协调器-工作器架构,主代理分解查询并协调子代理并行工作,实现多步搜索而非静态检索,提高研究效率。

💡 **提示工程:** 运用启发式方法优化代理行为,包括任务分解、工具选择、思维链构建等,使代理能显性展现思考过程,并进行自我改进。

✅ **评估方法:** 采用小样本评估、LLM 评判者和人工评估相结合的方式,既保证了结果的准确性,又确保了流程的合理性。

⚠️ **挑战与应对:** 针对“蝴蝶效应”、调试和更新等问题,团队采取错误恢复、生产环境追踪、彩虹部署等策略,确保系统稳定运行。

🔄 **长时程对话管理:** 通过总结已完成的工作阶段、子代理输出写入文件系统等方式,提高对话效率和性能,避免信息丢失。

如何用多智能体的方法构建深度搜索?

现在,Claude 团队把自家最新的心得,对外分享了。

在这篇文章中,它详细展示了如何构建一个有效的多智能体研究系统,这是一个架构,其中主代理(The Lead Agent)会生成和协调子代理(Subagents),以并行方式探索复杂查询,内容涵盖系统架构、提示工程以及评估方法等。

Claude 数据显示了不同行业领域使用此功能的比例 —— 专业领域软件系统开发占比 10%,开发和优化专业和技术内容、开发业务增长和创收策略皆占比 8%,协助学术研究和教育材料开发占比 7%,研究和审核信息占比 5%。

网友们点评:

Anthropic 团队对 AI 模型的理解真是 killer 级别啊。

一起来看看这篇干货教程。

关键架构:协调器-工作器架构

Claude 团队使用了协调器-工作器架构,专门用于管理多个智能体之间的任务分配与协作。下图展示了多智能体架构运行情况。

此外,该系统使用多步搜索而非静态检索,动态地查找相关信息,适应新的发现,并分析结果来形成高质量的答案。

上图展示了团队多智能体研究系统完整工作流程。

该系统允许 Claude 利用网络、工作空间和自定义工具集成,动态规划、搜索和合成大型语料库中的高质量答案。

主代理分解查询,启动专门的子代理(每个子代理拥有自己的工具、提示和内存),并整合他们的结果。

这种并行、广度优先的设计极大地提高了研究任务中顺序 LLM 使用的性能。

与单个代理的 Claude 相比,它在内部评估中成功率达到 90% 更高,比如,以 Claude Opus 4 为领导智能体、Claude Sonnet 4 为子智能体的多智能体系统,在团队的内部研究评估中比单智能体 Claude Opus 4 表现高出 90.2%。

而通过将工作分配给多个代理和上下文窗口,Claude 的系统高效扩展了推理能力,并增加了并行推理的容量。

最新的 Claude 模型在 token 使用上起到了巨大的效率提升作用,升级到 Claude Sonnet 4 带来的性能提升,比在 Claude Sonnet 3.7 上翻倍 token 预算还要大。

这导致 token 成本比标准聊天高出 15 倍。因此多智能体架构能有效扩展 token 使用,以应对超出单个智能体限制的任务,但是,只适用于高价值查询

提示工程:启发式方法

Anthropic 通过提示设计迭代优化了代理行为。他们使用了用于任务复杂度扩展、委托清晰度、工具选择和思维策略的启发式方法

团队引导代理显性地展现其思考过程,扩展其思维轨迹,使 Claude 能在生成中输出额外的 token。主代理会利用这一思考机制来规划整体策略,评估任务所需工具,判断查询的复杂度,决定是否需要调用子代理,以及如何分配每个子代理的具体角色。

具体方式如下:

了解代理准确心理模型: 团队使用控制台构建了模拟,使用了系统中的确切提示词和工具,然后逐步观察智能体的工作。这立即验证了,有效的提示词依赖于了解智能体行为的准确心理模型,能够揭示最关键、最具影响力的优化路径。

分配任务: 在系统中,主代理 (The Lead Agent) 将查询分解为子任务,描述清晰的目标、预期的输出格式、可使用的工具和信息来源指引以及明确的任务边界,将子任务传递给子代理。

调整工作规模: 为了让代理能准确判断不同任务所需的合理工作量,团队在提示中嵌入了指导方针 —— 规模调整规则,加以引导。例如,简单的信息收集任务通常只需 1 个子代理,并调用工具 3 至 10 次;而复杂的研究类任务则可能涉及 10 个以上的子代理,且需进行明确的角色划分与职责分工。

工具设计与选择: 团队给代理提供了明确的启发式方法:例如,首先检查所有可用工具,将工具使用与用户意图匹配,进行广泛的网络搜索以探索外部信息,或优先选择专业工具而非通用工具。

自我改进: 团队创建了一个工具测试智能体 —— 当给定有缺陷的 MCP 工具时,它会尝试使用该工具,然后重写工具描述以避免失败。这帮助智能体在之后的工作任务中大幅提升准确率,完成任务时间减少了 40%。

搜索范围聚焦: 团队通过提示代理先从简短、宽泛的查询开始,评估可用资源,再逐步缩小关注范围来抵消这种倾向。

并行工具调用: 团队引入了两种并行策略:(1) 主智能体不再顺序生成子智能体,而是同时创建 3–5 个子智能体;(2) 每个子智能体同时调用 3 个以上的工具进行信息检索与分析。这些优化使复杂查询的处理时间缩短了高达 90%,原本需要数小时完成的研究任务现在可在几分钟内完成,且覆盖的信息范围更广,超越了其他系统的处理能力。

评估:方法灵活,保证结果

良好的评估对于构建可靠的智能体至关重要。传统评估方法常遵循固定路径,而多智能体系统无法确定“正确步骤”。

团队使用以下方法,既能判断智能体是否达成了正确的成果,又能确保其遵循了合理的流程。

小样本评估: 团队认为,先使用几个例子进行小规模测试,而不是等到能够构建更全面的评估时再开始会更好。比如,早期智能体开发中,一个提示词的微调可能将成功率从 30% 提升至 80%。

使用 LLM 作为评判者: 团队使用一个 LLM 作为“评判者”,依据预设评分标准对每个输出进行评估,具体维度包括:

团队尝试过多个评判者对各部分进行评估,但实验发现:通过单次 LLM 调用,输出 0.0–1.0 的评分与通过 / 不通过判断,是效果最稳定、与人工评价最一致的方法

借助 LLM 自动评估机制,研究者能够以可扩展的方式高效评估数百个复杂输出,显著提升了评估工作的速度与一致性。

人工评估: 人工评估人员常常能识别出自动评分难以察觉的异常行为,比如模型在面对不寻常查询时产生的幻觉回答、系统性故障,或更微妙的偏见以及偏向特定类型的信息来源。

即使在高度自动化的评估体系中,人工测试仍是不可替代的关键环节,能够持续发现盲区并提升系统的整体可靠性。

除此之外,还需注意,多智能体系统具有典型的涌现行为 —— 这些行为并非源于特定的编程逻辑,而是在多个智能体相互作用中自然产生的。比如说,对主智能体的一处微小改动,可能会以不可预测的方式改变子智能体的行为。

因此,要构建成功的多智能体系统,关键在于理解它们的交互模式

这也意味着,针对智能体的最佳提示不仅仅是严格的指令,更是定义劳动分工、问题解决方法和努力预算的合作框架

要实现这一合作框架,需要精心设计提示与工具,建立可靠的启发式方法,实现可观察性,并建立紧密的反馈循环。

团队在 Cookbook 中开源了部分提示以及示例。

问题与挑战:小改动引发“蝴蝶效应”

智能体系统中微小改变会引发一系列联动,产生“蝴蝶效应”,引发大的行为改变和后果。

智能体会保持“状态”,且错误会累积。团队构建了能够在错误发生时从智能体当时所处位置恢复的系统,并利用模型智能性来处理问题,并与重试逻辑和定期检查点等确定性安全措施相结合。比如,在工具失败时通知智能体并让它适应,效果十分不错。

调试需要新的方法。团队引入了完整的生产环境追踪机制,系统性地定位代理失败的具体原因并加以修复。除了常规的可观察性指标,团队还监控智能体的决策路径和交互结构 —— 这些过程均不涉及对具体对话内容的监控,以确保用户隐私。这种高层级、结构化的观察能力使团队能够识别根本问题、发现异常行为,并及时修复系统中的常见故障。

更新需要仔细协调。团队需要防止版本更新时,破坏系统当前运行状态。团队使用彩虹部署策略来避免中断运行中的智能体,逐步将流量从旧版本引导至新版本,同时保持两个版本同时运行。

同步执行存在瓶颈。同步执行会在代理之间造成信息流瓶颈,即主代理无法引导子代理,子代理无法协调,造成搜索被迫中止问题。团队尝试异步执行:能够实现额外的并行运行,代理可以同时工作并在需要时创建新的子代理。但异步执行方式也会带来结果协调、状态一致性和子代理之间的错误传播等问题。团队预计,异步执行带来的性能提升将超过其处理复杂性。

额外建议

对在多回合中改变状态的智能体进行终态评估。团队发现专注于终态评估而非逐回合分析效果更好。这种方法承认智能体可能会找到到达同一目标的替代路径,同时仍然确保能实现预期结果。对于复杂的业务流程,不要试图验证每个中间步骤,将评估分解为离散的检查点,观察在这些检查点中应该发生的特定状态变化。

长时程对话管理。生产代理通常参与持续数百轮的对话,需要精心设计上下文管理策略。团队实现代理总结已完成的工作阶段,并将关键信息存储在外部内存中,然后再进行新任务的模式。

子代理将输出写入文件系统以减少“电话游戏”现象。不同于主代理与子代理的引导-传递模式,可通过专业代理创建输出,子代理调用工具将工作存储在外部系统,然后将轻量级引用传递回协调器,从而提高保真度和性能。

这防止了多阶段处理中的信息丢失,并减少了通过对话历史复制大型输出的 token 开销。该模式特别适用于代码、报告或数据可视化等结构化输出,其中子代理的专业提示产生的结果比通过通用协调器过滤更好

在构建智能体系统时,在开发者机器上运行的工作代码库需要大量的工程工作才能成为可靠的生产系统。一个步骤的失败可能导致智能体朝着完全不同方向的去探索,从而产生不可预测的结果。

团队已经表明诸多原因,并表示原型系统与可供用户成熟使用的生产系统之间的差距往往比预期要大得多。

当单个智能体的能力接近上限时,多智能体系统就成为突破边界、实现“智能倍增”的关键手段。

参考链接

本文来自微信公众号:量子位(ID:QbitAI),作者:奕然

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多智能体 深度搜索 Anthropic 提示工程 LLM
相关文章