原创一支烟一朵花 2025-03-10 11:54 上海

关于AI Agent的概念，误传，关于多Agent及架构

澄清AI Agent的概念误区

在当前人工智能技术的浪潮中，"AI Agent"这一术语已经成为了热门话题，各种产品和服务纷纷以"Agent"为卖点。然而，随着这一概念的普及，也产生了不少误解和混淆。　

在我们深入探讨AI Agent的本质之前，先澄清它"不是什么"，以避免将其与其他相似但本质不同的技术概念混为一谈。　

AI Agent不是模板系统

许多人将AI Agent误认为是一种高级的模板系统，认为它只是预设了一些固定的输入输出格式。　

这种理解是片面的。　

模板系统通常是静态的、结构固定的，而真正的AI Agent具有动态适应能力，能够根据上下文和环境信息调整其行为和输出。　

模板系统可能会根据输入生成标准化的输出，但它缺乏对任务的理解和自主决策能力。　

相比之下，AI Agent能够理解任务的本质，制定执行计划，并在执行过程中根据反馈进行调整。　

模板可能是Agent使用的工具之一，但Agent绝不仅仅是模板的集合。　

模板与AI Agent的关系

模板是预设的结构和格式，用于标准化输出和处理。它提供了一种固定的框架，用户只需填充特定内容即可生成标准化的文档或结果。　

AI Agent能够根据上下文和需求动态生成和调整内容，不受固定模板的限制。Agent可以利用模板作为参考或起点，但不局限于模板的固定结构，能够根据实际情况进行创新和调整。　

模板就像是一张填空题，只能在预设的空格中填入内容；而Agent则能够根据需要重新设计整个问题结构，甚至创造全新的表达方式。　

AI Agent不是预设的工作流

另一个常见的误解是将AI Agent等同于预设的工作流系统。　

工作流系统通常是按照预定义的步骤和规则运行的，缺乏灵活性和自适应能力。它们在面对预期情况时表现良好，但在处理异常或未预设的情况时往往束手无策。　

AI Agent与工作流的根本区别在于自主决策能力。　

工作流是由人类设计者预先定义的执行路径，而Agent能够自主分析情况、制定计划并执行行动。　

Agent可能会利用工作流作为执行任务的一种方式，但其核心价值在于能够自主决定何时以及如何使用这些工作流。　

工作流与AI Agent的关系

工作流是通过预定义的代码路径对LLM和工具进行编排的系统，侧重于流程的设计和执行。它通常由人类设计者预先定义执行路径，缺乏自适应能力。　

AI Agent则是LLM动态指挥其自身的流程和工具使用的系统，并保持对任务完成方式的控制权，侧重于大模型的分析调度能力。　

Agent能够根据实际情况动态调整执行计划，展现出更高的灵活性和适应性。　

工作流更像是一条预设的铁轨，火车（任务执行）只能沿着这条轨道行驶；　

而Agent更像是一个有导航系统的自动驾驶汽车，能够根据路况和目的地动态规划路线。　

AI Agent不是传统的RPA

机器人流程自动化(RPA)技术已经在企业中广泛应用，有些人可能会将AI Agent视为RPA的升级版。　

然而，这两者在本质上有着显著差异。　

RPA主要关注于模拟人类在计算机系统中的重复性操作，通常基于预定义的规则和流程。　

它擅长处理结构化数据和固定流程，但缺乏理解能力和适应性。　

AI Agent则超越了简单的流程自动化，具备了理解、推理、学习和适应的能力，能够处理非结构化数据和复杂多变的任务。　

RPA是"做什么"和"怎么做"都由人类预先定义的自动化工具，而AI Agent则可以自主决定"做什么"和"怎么做"，这是两者之间的本质区别。　

AI Agent与RPA的区别

机器人流程自动化（Robotic Process Automation, RPA）是一种成熟的企业自动化技术，而AI Agent则代表了更高级的智能自动化范式。两者有着本质的区别。　

自动化程度对比

RPA主要依赖于预设的规则和流程进行自动化操作，自动化程度相对较低，难以应对复杂多变的业务场景。它就像是一个按照固定脚本行动的演员，只能按照导演（开发者）的指示表演，无法即兴发挥。　

相比之下，AI Agent具备更高的自主性和智能性，能够根据实际业务情况灵活调整执行策略，实现更高程度的自动化。它更像是一个有创造力的演员，能够根据剧情发展和观众反应调整自己的表演。　

交互能力对比

RPA通常只能执行固定的任务，缺乏与用户进行自然交互的能力。用户需要通过特定的界面和操作来控制RPA机器人，交互方式相对机械和有限。　

AI Agent则通过自然语言处理等技术，能够基于用户需求，与用户进行流畅的对话，并提供准确的解决方案。　

用户可以像与人类助手交流一样与Agent交流，大大提升了用户体验。　

学习与适应能力对比

在处理复杂业务时，RPA往往需要人工进行大量的规则和流程设置，且难以应对业务变化。一旦业务流程发生变化，通常需要重新编程或调整规则。　

AI Agent具备强大的学习与适应能力，能够通过不断的数据积累和算法优化，提升自动化处理的准确性和灵活性。它能够从经验中学习，逐渐适应新的业务场景和需求变化。　

主动性对比

RPA机器人通常不会主动发起任务，只能根据人们预设的程序去处理工作任务。　

它们是被动的执行者，缺乏主动性和创造性。　

AI Agent更像是一个智能代理，能够通过感知信息、独立思考，进而调用工具去逐步完成给定目标。在某些情况下，Agent甚至能够主动识别问题并提出解决方案，展现出一定程度的主动性。　

优势对比

从智能程度、灵活性和成本效益等方面看，AI Agent相比RPA具有明显优势：　

智能程度

：AI Agent具备更强的智能化能力，能够理解并执行复杂指令，根据上下文进行智能推理和决策。

灵活性

：AI Agent能够适应不同的业务需求和环境变化，无需固定流程和规则。

成本效益

：AI Agent可以减少对人工的依赖，降低运营成本约20%，同时减少后期维护和优化成本。

尽管如此，RPA在处理高度结构化、规则明确的重复性任务时仍然具有其价值和优势。在实际应用中，两种技术可以互补使用，发挥各自的优势。　

AI Agent不是单纯的Computer Use或Browser Use

随着大语言模型技术的发展，出现了一些使模型能够操作计算机或浏览器的技术，如Computer Use和Browser Use。有些人可能会将这些技术等同于AI Agent，但这种理解也是不准确的。　

Computer Use和Browser Use本质上是扩展大语言模型与计算机系统交互能力的工具，它们使模型能够"看到"屏幕并执行鼠标点击、键盘输入等操作。这些技术确实是构建AI Agent的重要组件，但它们本身并不构成完整的Agent系统。　

真正的AI Agent不仅需要与计算机系统交互的能力，还需要理解任务、制定计划、执行行动并从结果中学习的能力。　

Computer Use和Browser Use提供了"手"和"眼"，但Agent还需要"大脑"来指导这些交互。　

AI Agent与Computer Use/Browser Use的关系

Computer Use和Browser Use是近年来随着大语言模型发展而出现的新技术，它们与AI Agent有着密切的关系，但也存在明显区别。　

Computer Use

Computer Use是一种让AI能够像人类一样使用计算机的技术，通过观看屏幕截图，实现移动光标、点击按钮、使用虚拟键盘输入文本等操作。　

Computer Use与AI Agent的关系可以理解为工具与使用者的关系。Computer Use是AI Agent的一种能力扩展，使Agent能够操控计算机执行各种任务。它不是针对特定任务的工具，而是教会AI通用的计算机技能。　

通过Computer Use，AI Agent能够：　

使用为人类设计的各种标准工具和软件程序

自动化重复性流程

构建和测试软件

进行开放式研究

然而，Computer Use本身并不构成完整的Agent系统，它只是提供了"手"和"眼"，还需要"大脑"（即Agent的决策系统）来指导这些交互。　

Browser Use

Browser Use是一个为大语言模型服务的智能浏览器工具，使AI代理能够像人类一样自然地浏览和操作网页。　

它是AI Agent与网络交互的重要工具，扩展了Agent的能力范围。　

Browser Use的核心功能包括：　

网页浏览与操作：执行点击、输入、滚动等操作

多标签页管理：同时管理多个浏览器标签页

视觉识别与内容提取：从网页中提取必要内容

操作记录与重复执行：记录操作并通过重放机制再次执行

自定义动作支持：定义自定义操作，如保存数据、数据库交互等

Browser Use为AI Agent提供了"眼睛"和"手指"，使其能够看到网页内容并与之交互，但Agent的智能决策仍然依赖于大语言模型和Agent架构。　

技术实现与应用场景

Computer Use和Browser Use通过API允许AI感知和交互计算机界面，将指令（如"使用我的计算机和在线数据填写此表单"）转换为计算机命令。　

这些技术的应用场景广泛，包括：　

自动化网页操作与任务处理

：在线购物、票务预订等

个性化推荐与智能搜索

：基于用户历史行为和偏好提供服务

数据分析与报告生成

：自动收集和分析数据，生成报告

自动化测试与质量保证

：模拟用户行为进行网站测试

为什么会有这些误解？

这些误解的产生有多方面的原因：　

概念的新颖性

：AI Agent作为一个相对新兴的技术概念，其定义和边界尚未在业界完全统一。

营销宣传的影响

：一些产品为了跟随技术潮流，可能会将传统的自动化工具或模板系统包装为"Agent"，导致概念混淆。

功能的重叠性

：AI Agent确实可能包含模板、工作流、自动化和计算机交互等功能，这种功能重叠使得区分变得困难。

技术的快速演进

：随着技术的发展，传统工具也在不断融入智能特性，使得技术边界变得模糊。

接下来我们将基于权威文献和研究，深入探讨AI Agent的本质定义和核心能力，以及它与大语言模型之间的关系。　

AI Agent的定义与本质

大模型作为Agent的"大脑"

大语言模型为Agent提供了理解自然语言、生成文本、进行推理等基础能力。　

它是Agent的核心组件，但不是唯一组件。如上图所示，大模型需要与其他模块协同工作，才能构成完整的Agent系统。　

严格来说，语言模型只是条件概率模型，使用输入来预测下一个标记。　

它本身不具备感知环境、制定计划和执行行动的能力。这些能力需要通过额外的架构和组件来实现。　

Agent如何扩展大模型的能力边界

AI Agent通过以下方式扩展了大语言模型的能力边界：　

环境感知

：Agent架构使大模型能够感知和理解环境信息，而不仅限于处理文本输入。

工具使用

：Agent可以调用外部工具和API，获取大模型知识范围之外的信息或执行大模型无法直接完成的操作。

记忆管理

：Agent通常具有更复杂的记忆系统，能够存储和检索长期信息，克服大模型上下文窗口的限制。

规划能力

：Agent架构增强了大模型的规划能力，使其能够分解复杂任务并制定执行计划。

行动执行

：Agent能够将大模型的输出转化为具体行动，如操作计算机、控制机器人等。

自主性与主动性

AI Agent最显著的特征是自主性和主动性。　

不同于被动执行指令的传统软件，Agent能够主动感知环境、制定计划并采取行动。它不仅能够响应外部刺激，还能够基于自身的"目标"主动发起行动。　

这种自主性使得Agent能够在没有持续人类干预的情况下完成复杂任务，大大提高了人工智能系统的实用性和效率。例如，一个客户服务Agent不仅能回答用户问题，还能主动提供相关信息，甚至预测用户可能的后续需求。　

感知-规划-行动循环

AI Agent通常遵循"感知-规划-行动"的基本循环：　

感知（Perception）

：通过各种传感器或接口获取环境信息，包括用户输入、系统状态、外部数据等。

规划（Planning）

：基于感知到的信息和自身的知识/目标，制定行动计划。

行动（Action）

：执行计划中的行动，可能包括生成文本、调用API、操作系统等。

这一循环是连续的，Agent会不断感知环境变化，调整计划并采取新的行动。这种动态适应能力是Agent区别于静态系统的关键特征。　

工具使用能力

现代AI Agent的一个重要特征是能够使用各种工具扩展自身能力。这些工具可以是API、数据库、搜索引擎、计算器，甚至是其他AI系统。　

工具使用能力使Agent突破了单一模型的局限性，能够访问最新信息、执行复杂计算、与外部系统交互。例如，一个研究助手Agent可能会使用搜索引擎获取最新论文，使用PDF解析工具阅读论文内容，使用数据分析工具处理实验数据，最终生成研究报告。　

学习与适应能力

高级AI Agent具有从经验中学习和适应的能力。　

这种学习可以是基于明确的反馈（如用户评价），也可以是基于隐含的信号（如任务完成效率）。　

学习能力使Agent能够随着时间推移不断改进其性能，适应新的环境和任务要求。　

例如，一个写作Agent可以通过分析用户对其生成内容的修改，逐渐调整自己的写作风格以更好地满足用户偏好。　

AI Agent与大语言模型的关系

在当前技术实现中，大语言模型（LLM）通常作为AI Agent的"大脑"，提供核心的理解、推理和生成能力。　

Agent与LLM并不是同义词，两者之间存在明确的区别。　

AI Agent以大语言模型为核心，通过各种功能模块扩展LLM的能力边界：　

大语言模型作为Agent的“大脑”，提供基础的理解、推理和生成能力

各功能模块赋予Agent感知环境、规划任务、记忆信息、使用工具和执行行动的能力

Agent通过这些模块与大模型的协同工作，实现从理解到行动的完整闭环大模型为Agent提供智能决策支持，Agent为大模型里提供与外部世界交互的能力

主流AI Agent框架与核心能力

ReAct框架：推理与行动结合

ReAct（Reasoning and Acting）框架是一种将推理和行动相结合的Agent架构，　

它的核心思想是"少样本prompt+Thought+Action+Observation"。　

ReAct框架的独特之处在于它显式地将思考过程（Thought）作为Agent工作流程的一部分。在执行任何行动之前，Agent会先进行推理，明确自己为什么要执行这个行动以及期望达到什么效果。这种"思考-行动-观察"的循环使Agent的决策过程更加透明和可解释。　

ReAct框架特别适合需要复杂推理和工具使用的场景，如信息检索、问题解答和任务规划。　

例如，当用户询问"2022年奥斯卡最佳影片获奖者的导演还执导过哪些电影？"时，　

ReAct Agent会先思考需要查询的信息（2022年奥斯卡最佳影片是什么，谁是导演），然后执行搜索操作，观察结果，再进行下一步推理和行动。　

BabyAgi框架：任务规划与执行

BabyAgi框架专注于优化规划和任务执行的流程，特别适合处理需要分解为多个子任务的复杂任务。　

BabyAgi的核心优势在于它能够自动将复杂任务拆解成多个子任务，再依次或批量执行。　

这种方法大大降低了计算成本和时间消耗，因为它只需调用三次大模型（创建任务列表、优先级排序和执行任务），而不是每次工具调用都要调用大模型。　

例如，对于"研究并比较三种不同的投资策略"这样的复杂任务，　

BabyAgi会将其分解为：　

1）研究股票投资策略，　

2）研究债券投资策略，　

3）研究房地产投资策略，　

4）比较三种策略的风险和回报，　

5）总结最适合不同投资者的策略。　

然后依次执行这些子任务，最终完成整体任务。　

LLmCompiler框架：并行任务执行

LLmCompiler框架采用并行执行任务的方式，通过生成一个有向无环图(DAG)来执行action，将多个工具聚合成一个工具执行图。　

LLmCompiler的最大特点是能够识别任务之间的依赖关系，并将没有依赖的任务并行执行，大大提高了执行效率。例如，如果需要同时查询多个不同的数据源，LLmCompiler可以并行发起这些查询，而不是按顺序一个接一个地执行。　

这种并行执行的能力使LLmCompiler特别适合处理数据密集型任务和需要多源信息整合的场景，如市场研究、数据分析和综合报告生成。　

其他主流框架

AutoGPT

AutoGPT类似个人助理，强调对外部工具的使用。　

它的特点是功能全面，能够根据用户指定的任务自主完成一系列操作。　

然而，AutoGPT也存在一些局限，如无法控制迭代次数、可用工具有限等。　

HuggingGPT

HuggingGPT的独特之处在于它可以调用HuggingFace上不同的模型来完成任务，实现了模型间的协作。这种方法提高了任务的精确度和准确率，特别适合需要专业模型处理的复杂任务。不过，调用多个模型也意味着更高的计算成本。　

TaskWeaver

TaskWeaver专注于数据分析任务，能够有效协调各种插件执行数据分析任务。它的优势在于能够解释命令、转换为代码并精确执行任务，但使用者需要一定的编程基础。　

CrewAI

CrewAI是基于LangChain的Multi-agent框架，提供代理人之间的交流和合作平台。它的特点是动态且适应性强，特别适合需要多个专业Agent协作的复杂任务。　

多Agent架构的技术阐述

多Agent架构的基本概念

多Agent架构（Multi-Agent Architecture）是指由多个AI Agent组成的协作系统，这些Agent各自拥有不同的能力、知识和目标，通过协作共同完成复杂任务。　

与单Agent系统相比，多Agent系统能够处理更复杂的任务，提供多角度的分析和解决方案，并具有更强的鲁棒性和可扩展性。　

就像一个高效的团队比单个专家更能解决复杂问题一样，多Agent系统通过分工协作实现了整体能力的提升。　

多Agent系统的核心在于：　

多个独立的AI Agent（每个Agent可以有自己的提示词、LLM底层模型、工具和自定义代码）

Agent之间的连接和通信机制

协作决策和任务分配机制

多Agent架构的三种主要模式

如上图所示，多Agent架构主要有三种模式：协作模式、代理中介者模式和分层代理团队模式。每种模式都有其独特的特点和适用场景。　

1. 协作模式（Collaborative Mode）

协作模式的核心特点是多个Agent在共享的消息草稿（共享思考链上下文）上进行协作，每个Agent所做的工作对其他Agent可见。这种模式特别适合需要透明决策过程的场景。　

工作流程：　

每个Agent是一个单一的LLM调用，具有特定的提示模板

通过路由器（Router）控制状态转换

路由器基于规则决定下一步行动：调用工具、返回最终答案或转到另一个LLM

优势：　

决策过程透明，其他Agent可以看到所有个别步骤

适合需要详细推理过程的任务

便于监控和调试

劣势：　

信息传递可能过于冗长

有时只需要一个Agent的最终答案而非完整过程

可能导致信息过载

2. 代理中介者模式（Agent Supervisor Mode）

代理中介者模式的特点是多个Agent不共享草稿板，各自有独立的工作空间，最终响应被附加到全局草稿板。由中介者Agent负责协调和分配任务。　

在这种模式下，每个Agent是一个完整的LangChain代理，具有自己的提示、LLM和工具。中介者Agent负责将任务路由到各个专业Agent，可以被视为其他Agent的"代理"。　

优势：　

每个Agent可以专注于自己擅长的领域

信息传递更加高效，减少不必要的冗余

适合需要多种专业知识的复杂任务

劣势：　

中介者的决策质量对整体性能影响较大

可能需要更复杂的协调机制

中介者可能成为系统瓶颈

3. 分层代理团队模式（Hierarchical Agent Teams）

分层代理团队模式的特点是节点中的Agent实际上是其他LangGraph对象，形成层次化的Agent结构。　

这种模式特别适合非常复杂的任务。　

LangGraph代理子节点，通过中介代理和代理组将它们连接起来，形成多层次的决策和执行结构。　

这种架构类似于大型组织的层级结构，有高层决策者、中层管理者和一线执行者。　

优势：　

可以处理极其复杂的任务

提供更灵活的组织结构

适合大规模Agent协同

劣势：　

实现复杂度高

可能需要更多的计算资源和时间

调试和优化难度大

多Agent系统的核心组件

一个完整的多Agent系统通常包含以下核心组件：　

1. Environment（环境）

环境是所有Agent处于其中的共享空间，包含全局状态信息。Agent与环境之间存在信息交互与更新。环境可以是虚拟的（如模拟系统）或现实的（如物理世界）。　

环境不仅存储了所有Agent可以访问的共享信息，还定义了Agent可以执行的行动和观察到的状态。在某种意义上，环境是多Agent系统的"游戏规则"制定者。　

2. Stage（阶段）

多Agent系统通常采用SOP（标准操作程序）思想，将复杂任务分解为若干子任务或阶段。每个阶段可能需要不同的Agent参与，或者需要Agent以不同的方式协作。　

例如，在软件开发场景中，"编写2048游戏"这个任务可以被分解为：编写产品需求文档、设计框架、编写代码、代码审查等子任务。不同的Agent可以负责不同的阶段，或者在不同阶段扮演不同的角色。　

3. Controller（控制器）

控制器可以是LLM或预定义规则，负责环境在不同Agent和Stage之间的切换。它决定下一时刻行动的Agent，协调整个系统的运行。　

控制器是多Agent系统的"指挥官"，它根据当前状态和任务进展，动态调整系统的行为和资源分配。高级的控制器还具备学习能力，能够根据历史经验优化决策策略。　

4. Memory（记忆）

多Agent系统的记忆比单Agent系统更复杂，需要记录发送方、接收方等字段。　

记忆可能包括全局记忆（所有Agent共享）和Agent个体记忆（仅特定Agent可访问）。　

记忆系统使Agent能够存储和检索过去的交互和决策，为未来的行动提供参考。它是Agent学习和适应的基础，也是Agent之间知识传递的媒介。　

主流多Agent框架分析

1. MetaGPT

MetaGPT是一个专注于软件开发场景的多Agent框架。它模拟了软件公司的工作流程，包括产品经理、架构师、开发工程师、测试工程师等角色。　

核心模块：　

Role（角色）：不同角色信息的Agent，如Engineer、Architect

RoleSetting：存储角色名字、目标等信息

RoleContext：包含运行中的状态信息

Environment：环境，包括所有角色信息和全局memory

Action：对应Stage，不同Action会重载run()函数

核心流程：　

1. 环境调用每个角色的run()函数

2. 角色观察环境、更新memory

3. 角色思考并执行动作

4. 将执行结果更新到环境中

2. AgentVerse

AgentVerse是清华大学开发的多Agent框架，提供了一个基于LLMs来搭建多智能体交互的平台。　

核心流程：　

1. 专家招聘阶段：确定智能体的专家成员

2. 协作决策阶段：各智能体参与讨论和制定策略

3. 行动执行阶段：各智能体根据决策进行执行

4. 评估阶段：提供关于当前状态的进展与目标的对比

AgentVerse的设计流程模拟了人类的决策过程，特别强调了协作决策和评估反馈的重要性。　

这种多智能体合作的方式在软件开发、咨询和游戏等领域优于单一智能体。　

3. CrewAI

CrewAI是基于LangChain的Multi-agent框架，提供代理人之间的交流和合作平台。它的特点是动态且适应性强，特别适合需要多个专业Agent协作的复杂任务。　

CrewAI允许开发者定义不同的Agent角色，每个角色有自己的目标、工具和背景知识。这些Agent可以协同工作，共同解决复杂问题，类似于一个专业团队的协作方式。　

多Agent架构的应用案例

1. GPT-Newspaper

GPT-Newspaper是一个创建个性化报纸的自主代理系统，由六个专门的子代理组成：　

编辑：负责整体内容规划和质量控制

新闻记者：收集和撰写新闻文章

特写作家：创作深度特写和分析文章

评论员：提供观点和评论

校对员：检查语法和事实准确性

排版设计师：负责报纸的视觉呈现

这个系统包含作家-评论循环，形成有益的反馈机制，使内容质量不断提升。　

GPT-Newspaper展示了多Agent系统在创意内容生成领域的潜力。　

2. 软件开发团队

多Agent架构可以模拟软件公司的开发流程，包括产品经理、架构师、开发工程师、测试工程师等角色。各角色协作完成从需求分析到代码实现的全流程。　

例如，产品经理Agent负责理解用户需求并创建产品需求文档，架构师Agent设计系统架构，开发工程师Agent编写代码，测试工程师Agent进行测试和质量保证。这种协作方式可以大大提高软件开发的效率和质量。　

3. 数据分析与决策支持

多Agent系统在数据分析领域也有广泛应用，包括数据收集Agent、数据清洗Agent、分析Agent和可视化Agent。这些Agent协作完成从原始数据到决策支持的转化。　

在金融分析场景中，一个Agent可能负责收集市场数据，另一个负责分析历史趋势，第三个负责预测未来走势，第四个负责生成投资建议。这种分工协作使得分析过程更加专业和全面。　

多Agent架构的优势与挑战

优势

专业化分工

：每个Agent可以专注于特定领域，提高效率和质量

复杂问题分解

：将复杂任务分解为可管理的子任务

多视角分析

：不同Agent提供多角度思考，减少盲点

可扩展性

：可以根据需要添加或移除Agent

鲁棒性

：单个Agent失效不会导致整个系统崩溃

挑战

协调复杂性

：Agent间的协调需要精心设计

通信开销

：Agent间的信息交换可能产生大量开销

一致性维护

：确保所有Agent的行动一致且朝向共同目标

资源消耗

：多Agent系统通常需要更多的计算资源

评估困难

：难以评估每个Agent的贡献和整体系统性能

AI Agent不仅仅是一个被动的响应系统，而是能够主动感知环境、制定计划、执行行动并从结果中学习的智能实体。　

这种能力使其能够处理更加复杂和开放性的任务，大大扩展了人工智能的应用边界。　

将AI Agent与模板系统、工作流、RPA或单纯的计算机操作工具混淆，不仅会导致技术选型的错误，还会影响对AI技术发展方向的判断。　

多Agent系统通过分工协作，能够处理单一Agent难以应对的复杂问题，展现出巨大的潜力。无论是协作模式、代理中介者模式还是分层代理团队模式，都为不同场景下的复杂问题解决提供了有效方案。　

最后

如果看到这里，给大家一个值得研究的小tips　

manus是多智能体架构　

“less structure more intelligence”　

这句话值得所有Agent产品，框架深挖再深挖。　

不要再吵了，咱们谦虚认真的好好研究学习一下吧。　

参考文献

1. Russell, S., & Norvig, P. (2020). Artificial Intelligence: A Modern Approach (4th ed.). Pearson.

2. Wooldridge, M., & Jennings, N. R. (1995). Intelligent agents: Theory and practice. The Knowledge Engineering Review, 10(2), 115-152.

3. 中国科学院大学. (2023). 人工智能领域伦理主体agent（行为体）的追本溯源. 中国科学院大学学报.

4. Qian, Y., et al. (2023). The Rise and Potential of Large Language Model Based Agents: A Survey. arXiv preprint arXiv:2309.07864.

5. Li, F., et al. (2024). Agent AI: Surveying the Horizons of Multimodal Interaction. arXiv preprint arXiv:2401.03568.

6. Anthropic. (2023). Computer Use: Teaching Language Models to Use Computer Tools. Retrieved from https://www.anthropic.com/news/3-5-models-and-computer-use

7. Gao, Y., et al. (2023). MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework. arXiv preprint arXiv:2308.00352.

8. Qian, Y., et al. (2023). AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents. arXiv preprint arXiv:2308.10848.

9. Park, J., et al. (2023). GenerativeAgents: Interactive Simulacra of Human Behavior. arXiv preprint arXiv:2304.03442.

阅读原文

跳转微信打开