多智能体系统的八个问题和八个原则

原创橘子OrangeAI 2025-06-14 09:53 北京

做 Agent 研究和开发的朋友们，不要错过今天 Anthropic 发布的关于多智能体系统的文章。

今天读完这篇文章之后，橘子整理了多智能体系统的8个问题和8个原则，为你全面解析多智能体系统。

关于多智能体系统的8个问题1.什么是多智能体系统？

Multi Agent 多智能体系统是指由多个 AI 智能体协同工作、并行使用工具来完成复杂任务的系统。

单智能体，代表了个体智慧。

多智能体系统，代表了集体智慧。

与单智能体相比，多智能体系统能同时探索多个方向，分工明确，提升效率和覆盖面，尤其适合开放性、动态变化的问题。

2.为什么要用多智能体系统？

在过去的十万年里，人类个体的智能水平不断提升，但个体的智能水平总归有上限。

而在信息时代，随着人类集体智慧和协调能力的提升，人类社会的能力也呈指数增长。

在智能体领域也是类似的，即便是通用的智能体，在单独运作时也会遇到瓶颈，而智能体集结成群，可以完成更加多样更加复杂的任务。

多智能体系统最适合解决那些“路径不可预知、需要多方向探索”的复杂研究型任务。比如：市场调研、竞争对手分析、学术综述、政策解读等。这些任务往往没有固定流程，需要根据中间发现不断调整策略。

单一智能体容易陷入线性思维，而多智能体可以同时探索多条路径，快速聚合多维度信息。

在 Anthropic 内部研究评估中，以 Claude Opus 4 为主智能体，以 Claude Sonnet 4 为子智能体的系统，比 Claude Opus 4 的单智能体性能高出 90.2% 。

举例来说，当被要求识别信息技术标准普尔 500 指数公司的所有董事会成员时，多智能体系统通过将其分解为子智能体的任务找到了正确答案，而单智能体系统则无法通过其缓慢的顺序搜索找到答案。

3.为什么多智能体系统是有效的？

Anthropic 的架构采用“主导-子智能体”模式。用户提出问题后，主导智能体会分析任务、制定策略，并根据不同子任务生成多个子智能体。

每个子智能体独立使用工具（如网页搜索、文档检索等），并行探索不同方向。主导智能体负责整合各子智能体的发现，判断是否需要进一步细化任务或补充信息。

搜索的本质就是压缩，从庞大的语料库中提炼 Insights。

当语料过于庞大时，压缩就会失真。

通过多智能体系统就能有效解决这一问题。

子智能体在自己的上下文窗口中进行压缩，为主智能体提供多个方面的浓缩信息。

子智能体各有分工，会使用不同的工具、提示词、探索路径，这样减少了路径依赖，实现多个独立方向的同时调查。

多智能体系统的有效，是因为他们有效地使用了足够多的 token 来解决问题。

在 BrowseComp 评估（测试浏览智能体查找难以找到的信息能力），80%的性能差异都可以用 token 使用的多少来解释。

只有 15% 的差异可以用工具调用次数和模型选择来解释。

所以，多智能体是一种非常有效的架构。把工作分配给具有单独上下文窗口的智能体，以增加并行推理能力。

4.多智能体系统的缺点是什么？

多智能体也不是没有缺点。

缺点嘛，就是贵。

智能体使用的 Token 一般是聊天的 4 倍。

而多智能体系统使用的 Token 一般那是聊天的 15 倍。

只有任务的价值足够高，才能对得起这么高的成本。

此外，一些任务并不适合多智能体系统，比如要求所有智能体共享上下文，或多智能体之间具有依赖关系的任务。

例如，大多数的编码任务，可并行化任务比较少，就不适合多智能体系统。

5.多智能体系统和 RAG 的区别是什么？

传统的搜索方法使用 RAG，这是一种静态检索。

获取与输入查询最相似的一组数据块，并用这些数据块进行回应。

而多智能体架构使用多步骤搜索，动态查找相关信息，结合新发现的信息，分析结果，并形成高质量的答案。

这个流程图展示了智能体研究系统的完整工作流程。

当用户提交查询时，系统会创建一个主导研究员智能体，并进入迭代研究流程。

主导研究员首先仔细考虑方法并将其计划保存到内存中以保留上下文，因为如果上下文窗口超过 200,000 个标记，它将被截断，并且保留计划非常重要。

然后，它会创建专门的子智能体（此处显示两个，但数量可任意），并执行特定的研究任务。每个子智能体独立执行网络搜索，运用交叉思维评估工具结果，并将结果返回给主导研究员。

主导研究员会综合这些结果，并决定是否需要进一步研究——如果需要，它可以创建更多子智能体或改进其策略。

一旦收集到足够的信息，系统就会退出研究循环并将所有发现传递给 CitationAgent，后者处理文档和研究报告以确定引用的具体位置。

这确保所有声明都正确归属于其来源。最终的研究结果（包括引文）将返回给用户。

6.评估多智能体系统效果时，应该采用哪些方法和指标？

传统的评估通常假设人工智能每次都遵循相同的步骤：给定输入 X，系统应该遵循路径 Y 来产生输出 Z。但多智能体系统并不以这种方式工作。

因为我们并不总是知道正确的步骤是什么，所以我们通常不能只检查智能体是否遵循了我们事先规定的“正确”步骤。

相反，我们需要灵活的评估方法来判断智能体是否在遵循合理流程的同时取得了正确的结果。

一些评估原则：

立即开始使用小样本进行评估。在智能体开发的早期阶段，由于存在大量唾手可得的成果，因此更改往往会产生显著的影响。及时调整可能会将成功率从 30% 提高到 80%。由于效果如此显著，您只需几个测试用例就能发现变化。

我们从一组大约 20 个代表真实使用模式的查询开始。测试这些查询通常能让我们清楚地看到更改的影响。

我们使用了 LLM 评判员来根据评分标准对每个输出进行评估：事实准确性（声明是否与来源相符？）、引用准确性（引用的来源是否与声明相符？）、完整性（是否涵盖所有要求的方面？）、来源质量（是否使用主要来源而不是质量较低的次要来源？）和工具效率（是否合理地使用了正确的工具的次数？）。

那还需要人工的评估吗？

在我们的案例中，人工测试人员注意到，我们早期的智能体总是选择经过 SEO 优化的内容农场，而不是权威但排名较低的来源，例如学术 PDF 或个人博客。

在提示中添加来源质量启发式方法有助于解决这个问题。

即使在自动化评估的世界中，人工测试仍然至关重要。

7.在生产环境中，如何保证多智能体系统的稳定性和可恢复性？

如果你想让AI系统在生产环境下真正“可用、可控、可恢复”，必须把“状态管理、断点恢复、智能自愈、渐进式部署、结构化观测”这些能力作为底层工程基石。AI的智能和工程的确定性，缺一不可。

多智能体系统不像传统软件那样“无状态”，它们在长时间运行中会不断积累上下文和中间结果。如果没有良好的状态管理和错误处理机制，一个小错误可能会导致整个流程崩溃。频繁重启不仅浪费资源，还会极大影响用户体验。因此，系统必须能“断点续跑”，在出错时从最近的状态恢复，而不是全盘重来。

Anthropic 的做法是“双保险”：一方面，利用AI模型的自适应能力，让智能体能感知到工具失效、数据异常等情况，并自动调整策略；另一方面，系统层面设置了“重试机制”和“定期检查点”，确保即使AI自适应失败，也能通过工程手段保障流程不中断。这种“智能+工程”的组合，是生产级AI系统稳定运行的关键。

在生产环境中，传统的日志和监控已不够用。Anthropic 强调“高层次可观测性”，不仅追踪每个智能体的决策路径和交互结构，还能在不侵犯用户隐私的前提下，快速定位和修复系统性问题。这种“结构化观测”是大规模多智能体系统可靠运行的基础。

8.多智能体系统中，写提示词的思路会有哪些不同？

使用启发式提示词，而非严格规范。

多智能体系统具有涌现行为，这些行为无需特定编程即可产生。例如，主智能体上的微小变化可能会不可预测地改变子智能体的行为。成功的关键在于理解交互模式，而不仅仅是单个智能体的行为。

因此，对于这些智能体来说，最好的提示不仅仅是严格的指示，而是定义劳动分工、解决问题的方法和工作量预算的协作框架。

要做到这一点，需要依靠仔细的提示和工具设计、可靠的启发式方法、可观察性和紧密的反馈循环。

这里是官方开源的一些提示词可以参考：

https://github.com/anthropics/anthropic-cookbook/tree/main/patterns/agents/prompts

多智能体系统提示词工程的8大原则：1.想象你就是那个智能体。

要迭代提示词，就要了解提示词的效果，构建一个模拟环境，模拟每一次提示词修改产生的结果，以进行有效的修改。

2.教会首席智能体如何指挥下属。

首席智能体将查询分解为子任务，并将它们描述给下级智能体。每个下级都需要一个目标、一个输出格式、关于使用工具和资源的指导，以及明确的任务界限。