橘子汽水铺 18小时前
多智能体系统的八个问题和八个原则
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文总结了Anthropic关于多智能体系统的研究,探讨了其定义、优势、挑战、与RAG的区别、评估方法、生产环境的稳定性以及提示词工程的原则。文章分析了多智能体系统在解决复杂任务上的潜力,并提供了实用的开发经验,尤其适合Agent研究和开发者参考。

💡 **多智能体系统定义与优势**:多智能体系统是由多个AI智能体协同工作,并行使用工具完成复杂任务的系统。相较于单智能体,它能同时探索多个方向,提升效率,尤其适合开放性、动态变化的问题,例如市场调研、学术综述等。

🤔 **多智能体系统为何有效**:Anthropic的架构采用“主导-子智能体”模式,主导智能体负责分析任务、制定策略,子智能体并行探索,主导智能体整合。这种架构通过增加并行推理能力,有效地利用token解决问题。在BrowseComp评估中,token使用量与性能差异高度相关。

⚠️ **多智能体系统的局限性**:多智能体系统成本较高,智能体token使用量是聊天的4倍,多智能体系统更是达到15倍。此外,不适合所有任务,例如需要所有智能体共享上下文或具有依赖关系的任务。

🔍 **多智能体系统 vs RAG**:RAG是静态检索,而多智能体系统使用多步骤搜索,动态查找信息,结合新发现分析结果。一个完整的流程包括主导研究员、子智能体、网络搜索、评估工具结果、引文处理等,最终生成研究结果。

⚙️ **生产环境中的稳定性和提示词工程**:在生产环境中,需要状态管理、断点恢复、智能自愈等能力。Anthropic强调高层次可观测性,追踪智能体决策路径。提示词工程应注重启发式方法,而非严格规范,强调劳动分工、工具设计和反馈循环。

原创 橘子OrangeAI 2025-06-14 09:53 北京

做 Agent 研究和开发的朋友们,不要错过今天 Anthropic 发布的关于多智能体系统的文章。

做 Agent 研究和开发的朋友们,不要错过今天 Anthropic 发布的关于多智能体系统的文章。

今天读完这篇文章之后,橘子整理了多智能体系统的8个问题和8个原则,为你全面解析多智能体系统。

关于多智能体系统的8个问题1.什么是多智能体系统?

Multi Agent 多智能体系统是指由多个 AI 智能体协同工作、并行使用工具来完成复杂任务的系统。

单智能体,代表了个体智慧。

多智能体系统,代表了集体智慧。

与单智能体相比,多智能体系统能同时探索多个方向,分工明确,提升效率和覆盖面,尤其适合开放性、动态变化的问题。

2.为什么要用多智能体系统?

在过去的十万年里,人类个体的智能水平不断提升,但个体的智能水平总归有上限。 

而在信息时代,随着人类集体智慧和协调能力的提升,人类社会的能力也呈指数增长。 

在智能体领域也是类似的,即便是通用的智能体,在单独运作时也会遇到瓶颈,而智能体集结成群,可以完成更加多样更加复杂的任务。

多智能体系统最适合解决那些“路径不可预知、需要多方向探索”的复杂研究型任务。比如:市场调研、竞争对手分析、学术综述、政策解读等。这些任务往往没有固定流程,需要根据中间发现不断调整策略。

单一智能体容易陷入线性思维,而多智能体可以同时探索多条路径,快速聚合多维度信息。 

 在 Anthropic 内部研究评估中,以 Claude Opus 4 为主智能体,以 Claude Sonnet 4 为子智能体的系统,比 Claude Opus 4 的单智能体性能高出 90.2% 。

举例来说,当被要求识别信息技术标准普尔 500 指数公司的所有董事会成员时,多智能体系统通过将其分解为子智能体的任务找到了正确答案,而单智能体系统则无法通过其缓慢的顺序搜索找到答案。

3.为什么多智能体系统是有效的?

Anthropic 的架构采用“主导-子智能体”模式。用户提出问题后,主导智能体会分析任务、制定策略,并根据不同子任务生成多个子智能体。

每个子智能体独立使用工具(如网页搜索、文档检索等),并行探索不同方向。主导智能体负责整合各子智能体的发现,判断是否需要进一步细化任务或补充信息。

搜索的本质就是压缩,从庞大的语料库中提炼 Insights。 

当语料过于庞大时,压缩就会失真。

通过多智能体系统就能有效解决这一问题。 

子智能体在自己的上下文窗口中进行压缩,为主智能体提供多个方面的浓缩信息。 

子智能体各有分工,会使用不同的工具、提示词、探索路径,这样减少了路径依赖,实现多个独立方向的同时调查。 

多智能体系统的有效,是因为他们有效地使用了足够多的 token 来解决问题。 

在 BrowseComp 评估 (测试浏览智能体查找难以找到的信息能力),80%的性能差异都可以用 token 使用的多少来解释。

只有 15% 的差异可以用工具调用次数和模型选择来解释。 

所以,多智能体是一种非常有效的架构。把工作分配给具有单独上下文窗口的智能体,以增加并行推理能力。

4.多智能体系统的缺点是什么?

多智能体也不是没有缺点。

缺点嘛,就是贵。 

智能体使用的 Token 一般是聊天的 4 倍。 

而多智能体系统使用的 Token 一般那是聊天的 15 倍。

只有任务的价值足够高,才能对得起这么高的成本。 

此外,一些任务并不适合多智能体系统,比如要求所有智能体共享上下文,或多智能体之间具有依赖关系的任务。

例如,大多数的编码任务,可并行化任务比较少,就不适合多智能体系统。

5.多智能体系统和 RAG 的区别是什么?

传统的搜索方法使用 RAG,这是一种静态检索。

获取与输入查询最相似的一组数据块,并用这些数据块进行回应。 

而多智能体架构使用多步骤搜索,动态查找相关信息,结合新发现的信息,分析结果,并形成高质量的答案。

这个流程图展示了智能体研究系统的完整工作流程。

当用户提交查询时,系统会创建一个主导研究员智能体,并进入迭代研究流程。

主导研究员首先仔细考虑方法并将其计划保存到内存中以保留上下文,因为如果上下文窗口超过 200,000 个标记,它将被截断,并且保留计划非常重要。 

然后,它会创建专门的子智能体(此处显示两个,但数量可任意),并执行特定的研究任务。每个子智能体独立执行网络搜索,运用交叉思维评估工具结果,并将结果返回给主导研究员。

主导研究员会综合这些结果,并决定是否需要进一步研究——如果需要,它可以创建更多子智能体或改进其策略。 

一旦收集到足够的信息,系统就会退出研究循环并将所有发现传递给 CitationAgent,后者处理文档和研究报告以确定引用的具体位置。 

这确保所有声明都正确归属于其来源。最终的研究结果(包括引文)将返回给用户。

6.评估多智能体系统效果时,应该采用哪些方法和指标?

传统的评估通常假设人工智能每次都遵循相同的步骤:给定输入 X,系统应该遵循路径 Y 来产生输出 Z。但多智能体系统并不以这种方式工作。

因为我们并不总是知道正确的步骤是什么,所以我们通常不能只检查智能体是否遵循了我们事先规定的“正确”步骤。

相反,我们需要灵活的评估方法来判断智能体是否在遵循合理流程的同时取得了正确的结果。

一些评估原则:

立即开始使用小样本进行评估 。在智能体开发的早期阶段,由于存在大量唾手可得的成果,因此更改往往会产生显著的影响。及时调整可能会将成功率从 30% 提高到 80%。由于效果如此显著,您只需几个测试用例就能发现变化。

我们从一组大约 20 个代表真实使用模式的查询开始。测试这些查询通常能让我们清楚地看到更改的影响。

我们使用了 LLM 评判员来根据评分标准对每个输出进行评估:事实准确性(声明是否与来源相符?)、引用准确性(引用的来源是否与声明相符?)、完整性(是否涵盖所有要求的方面?)、来源质量(是否使用主要来源而不是质量较低的次要来源?)和工具效率(是否合理地使用了正确的工具的次数?)。

那还需要人工的评估吗?

在我们的案例中,人工测试人员注意到,我们早期的智能体总是选择经过 SEO 优化的内容农场,而不是权威但排名较低的来源,例如学术 PDF 或个人博客。

在提示中添加来源质量启发式方法有助于解决这个问题。

即使在自动化评估的世界中,人工测试仍然至关重要。

7.在生产环境中,如何保证多智能体系统的稳定性和可恢复性?

如果你想让AI系统在生产环境下真正“可用、可控、可恢复”,必须把“状态管理、断点恢复、智能自愈、渐进式部署、结构化观测”这些能力作为底层工程基石。AI的智能和工程的确定性,缺一不可。

多智能体系统不像传统软件那样“无状态”,它们在长时间运行中会不断积累上下文和中间结果。如果没有良好的状态管理和错误处理机制,一个小错误可能会导致整个流程崩溃。频繁重启不仅浪费资源,还会极大影响用户体验。因此,系统必须能“断点续跑”,在出错时从最近的状态恢复,而不是全盘重来。

Anthropic 的做法是“双保险”:一方面,利用AI模型的自适应能力,让智能体能感知到工具失效、数据异常等情况,并自动调整策略;另一方面,系统层面设置了“重试机制”和“定期检查点”,确保即使AI自适应失败,也能通过工程手段保障流程不中断。这种“智能+工程”的组合,是生产级AI系统稳定运行的关键。

在生产环境中,传统的日志和监控已不够用。Anthropic 强调“高层次可观测性”,不仅追踪每个智能体的决策路径和交互结构,还能在不侵犯用户隐私的前提下,快速定位和修复系统性问题。这种“结构化观测”是大规模多智能体系统可靠运行的基础。

8.多智能体系统中,写提示词的思路会有哪些不同?

使用启发式提示词,而非严格规范。

多智能体系统具有涌现行为,这些行为无需特定编程即可产生。例如,主智能体上的微小变化可能会不可预测地改变子智能体的行为。成功的关键在于理解交互模式,而不仅仅是单个智能体的行为。

因此,对于这些智能体来说,最好的提示不仅仅是严格的指示,而是定义劳动分工、解决问题的方法和工作量预算的协作框架。

要做到这一点,需要依靠仔细的提示和工具设计、可靠的启发式方法、可观察性和紧密的反馈循环 。

这里是官方开源的一些提示词可以参考:

https://github.com/anthropics/anthropic-cookbook/tree/main/patterns/agents/prompts

多智能体系统提示词工程的8大原则:1.想象你就是那个智能体。

要迭代提示词,就要了解提示词的效果,构建一个模拟环境,模拟每一次提示词修改产生的结果,以进行有效的修改。

2.教会首席智能体如何指挥下属。

首席智能体将查询分解为子任务,并将它们描述给下级智能体。每个下级都需要一个目标、一个输出格式、关于使用工具和资源的指导,以及明确的任务界限。

3.根据查询的复杂性调整工作量。 

简单的事实调查只需要 1 名智能体进行 3-10 次工具调用,直接比较可能需要 2-4 名子智能体,每名子智能体进行 10-15 次调用,而复杂的研究可能需要 10 名以上分工明确的子智能体。

4.工具的设计和选择至关重要。 

智能体会遇到一些描述质量参差不齐的、从未见过的工具。 我们为我们的智能体提供了明确的启发式方法:例如,首先检查所有可用的工具,将工具使用与用户意图相匹配,在网络上搜索广泛的外部探索,或者优先选择专门的工具而不是通用工具。

5.让智能体自我提升。 

我们发现 Claude 4 模型可以成为优秀的提示工程师。当给出提示和故障模式时,它们能够诊断智能体失败的原因并提出改进建议。 我们甚至创建了一个工具测试智能体——当遇到有缺陷的 MCP 工具时,它会尝试使用该工具,然后重写工具描述以避免故障。通过数十次测试,该智能体发现了关键的细微差别和错误。

6.先从广度入手,再逐步缩小范围。 

我们通过促使智能体从简短、广泛的查询开始,评估可用的内容,然后逐步缩小焦点来抵消这种趋势。

7.扩展思考模式。 

首席智能体运用思维来规划其方法,评估哪些工具适合执行任务,确定查询的复杂性和子智能体数量,并定义每个子智能体的角色。我们的测试表明,扩展思维能够提升指令遵循能力、推理能力和效率。

8.并行工具调用改变了速度和性能。 

为了提高速度,我们引入了两种并行化: 

(1)主智能体并行而不是串行启动 3-5 个子智能体;

(2)子智能体并行使用 3 个以上的工具。 

这些变化将复杂查询的研究时间缩短了高达 90%,使研究能够在几分钟内而不是几小时内完成更多工作,同时涵盖比其他系统更多的信息。

总之,我们的提示策略侧重于灌输良好的启发式方法而不是严格的规则。

结语:

多智能体系统正在推动AI能力的边界,让复杂任务的协作与探索前所未有地高效。

Anthropic的最新研究为我们梳理了实践中的难点与原则,也为Agent开发者们提供了宝贵经验。

期待未来多智能体架构持续迭代,为各行各业带来更多创新突破。

如果你对技术细节感兴趣,强烈建议阅读全文原文,深入了解背后的方法与思考。

https://www.anthropic.com/engineering/built-multi-agent-research-system

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多智能体系统 Agent Anthropic AI研究
相关文章