一支烟花AI 04月09日 17:54
AI Agent不是什么以及多Agent架构的阐述
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章深入探讨AI Agent的概念,澄清其常见误区,阐述其与多种技术的关系、核心能力、主流框架及多Agent架构等内容。

AI Agent不是模板系统、预设工作流、RPA机器人等,它具有动态适应和自主决策能力

AI Agent与Computer Use/Browser Use密切相关,前者需要后者提供交互能力,同时自身还需具备理解等能力

AI Agent具有环境感知、工具使用、记忆管理等核心能力,遵循感知-规划-行动循环

介绍了ReAct、BabyAgi等主流AI Agent框架及多Agent架构的模式、组件和应用案例

原创 一支烟一朵花 2025-03-10 11:54 上海

关于AI Agent的概念,误传,关于多Agent及架构

 

澄清AI Agent的概念误区

在当前人工智能技术的浪潮中,"AI Agent"这一术语已经成为了热门话题,各种产品和服务纷纷以"Agent"为卖点。然而,随着这一概念的普及,也产生了不少误解和混淆。 

 

在我们深入探讨AI Agent的本质之前,先澄清它"不是什么",以避免将其与其他相似但本质不同的技术概念混为一谈。 

 

 

 

 

AI Agent不是模板系统

许多人将AI Agent误认为是一种高级的模板系统,认为它只是预设了一些固定的输入输出格式。 

这种理解是片面的。 

 

模板系统通常是静态的、结构固定的,而真正的AI Agent具有动态适应能力,能够根据上下文和环境信息调整其行为和输出。 

 

模板系统可能会根据输入生成标准化的输出,但它缺乏对任务的理解和自主决策能力。 

相比之下,AI Agent能够理解任务的本质,制定执行计划,并在执行过程中根据反馈进行调整。 

 

模板可能是Agent使用的工具之一,但Agent绝不仅仅是模板的集合。 

 

模板与AI Agent的关系

模板是预设的结构和格式,用于标准化输出和处理。它提供了一种固定的框架,用户只需填充特定内容即可生成标准化的文档或结果。 

 

AI Agent能够根据上下文和需求动态生成和调整内容,不受固定模板的限制。Agent可以利用模板作为参考或起点,但不局限于模板的固定结构,能够根据实际情况进行创新和调整。 

 

模板就像是一张填空题,只能在预设的空格中填入内容;而Agent则能够根据需要重新设计整个问题结构,甚至创造全新的表达方式。 

 

AI Agent不是预设的工作流

另一个常见的误解是将AI Agent等同于预设的工作流系统。 

工作流系统通常是按照预定义的步骤和规则运行的,缺乏灵活性和自适应能力。它们在面对预期情况时表现良好,但在处理异常或未预设的情况时往往束手无策。 

 

AI Agent与工作流的根本区别在于自主决策能力 

工作流是由人类设计者预先定义的执行路径,而Agent能够自主分析情况、制定计划并执行行动。 

Agent可能会利用工作流作为执行任务的一种方式,但其核心价值在于能够自主决定何时以及如何使用这些工作流。 

 

工作流与AI Agent的关系

工作流是通过预定义的代码路径对LLM和工具进行编排的系统,侧重于流程的设计和执行。它通常由人类设计者预先定义执行路径,缺乏自适应能力。 

 

AI Agent则是LLM动态指挥其自身的流程和工具使用的系统,并保持对任务完成方式的控制权,侧重于大模型的分析调度能力。 

Agent能够根据实际情况动态调整执行计划,展现出更高的灵活性和适应性。 

 

工作流更像是一条预设的铁轨,火车(任务执行)只能沿着这条轨道行驶; 

而Agent更像是一个有导航系统的自动驾驶汽车,能够根据路况和目的地动态规划路线。 

 

 

 

AI Agent不是传统的RPA

机器人流程自动化(RPA)技术已经在企业中广泛应用,有些人可能会将AI Agent视为RPA的升级版。 

然而,这两者在本质上有着显著差异。 

 

RPA主要关注于模拟人类在计算机系统中的重复性操作,通常基于预定义的规则和流程。 

它擅长处理结构化数据和固定流程,但缺乏理解能力和适应性。 

AI Agent则超越了简单的流程自动化,具备了理解、推理、学习和适应的能力,能够处理非结构化数据和复杂多变的任务。 

RPA是"做什么"和"怎么做"都由人类预先定义的自动化工具,而AI Agent则可以自主决定"做什么"和"怎么做",这是两者之间的本质区别。 

 

AI Agent与RPA的区别

机器人流程自动化(Robotic Process Automation, RPA)是一种成熟的企业自动化技术,而AI Agent则代表了更高级的智能自动化范式。两者有着本质的区别。 

 

自动化程度对比

RPA主要依赖于预设的规则和流程进行自动化操作,自动化程度相对较低,难以应对复杂多变的业务场景。它就像是一个按照固定脚本行动的演员,只能按照导演(开发者)的指示表演,无法即兴发挥。 

 

相比之下,AI Agent具备更高的自主性和智能性,能够根据实际业务情况灵活调整执行策略,实现更高程度的自动化。它更像是一个有创造力的演员,能够根据剧情发展和观众反应调整自己的表演。 

 

交互能力对比

RPA通常只能执行固定的任务,缺乏与用户进行自然交互的能力。用户需要通过特定的界面和操作来控制RPA机器人,交互方式相对机械和有限。 

 

AI Agent则通过自然语言处理等技术,能够基于用户需求,与用户进行流畅的对话,并提供准确的解决方案。 

用户可以像与人类助手交流一样与Agent交流,大大提升了用户体验。 

 

学习与适应能力对比

在处理复杂业务时,RPA往往需要人工进行大量的规则和流程设置,且难以应对业务变化。一旦业务流程发生变化,通常需要重新编程或调整规则。 

 

AI Agent具备强大的学习与适应能力,能够通过不断的数据积累和算法优化,提升自动化处理的准确性和灵活性。它能够从经验中学习,逐渐适应新的业务场景和需求变化。 

 

主动性对比

RPA机器人通常不会主动发起任务,只能根据人们预设的程序去处理工作任务。 

它们是被动的执行者,缺乏主动性和创造性。 

 

AI Agent更像是一个智能代理,能够通过感知信息、独立思考,进而调用工具去逐步完成给定目标。在某些情况下,Agent甚至能够主动识别问题并提出解决方案,展现出一定程度的主动性。 

 

优势对比

从智能程度、灵活性和成本效益等方面看,AI Agent相比RPA具有明显优势: 

    智能程度:AI Agent具备更强的智能化能力,能够理解并执行复杂指令,根据上下文进行智能推理和决策。灵活性:AI Agent能够适应不同的业务需求和环境变化,无需固定流程和规则。成本效益:AI Agent可以减少对人工的依赖,降低运营成本约20%,同时减少后期维护和优化成本。

 

尽管如此,RPA在处理高度结构化、规则明确的重复性任务时仍然具有其价值和优势。在实际应用中,两种技术可以互补使用,发挥各自的优势。 

 

 

AI Agent不是单纯的Computer Use或Browser Use

随着大语言模型技术的发展,出现了一些使模型能够操作计算机或浏览器的技术,如Computer Use和Browser Use。有些人可能会将这些技术等同于AI Agent,但这种理解也是不准确的。 

Computer Use和Browser Use本质上是扩展大语言模型与计算机系统交互能力的工具,它们使模型能够"看到"屏幕并执行鼠标点击、键盘输入等操作。这些技术确实是构建AI Agent的重要组件,但它们本身并不构成完整的Agent系统。 

 

真正的AI Agent不仅需要与计算机系统交互的能力,还需要理解任务、制定计划、执行行动并从结果中学习的能力 

Computer Use和Browser Use提供了"手"和"眼",但Agent还需要"大脑"来指导这些交互。 

 

 

AI Agent与Computer Use/Browser Use的关系

Computer Use和Browser Use是近年来随着大语言模型发展而出现的新技术,它们与AI Agent有着密切的关系,但也存在明显区别。 

 

Computer Use

Computer Use是一种让AI能够像人类一样使用计算机的技术,通过观看屏幕截图,实现移动光标、点击按钮、使用虚拟键盘输入文本等操作。 

 

Computer Use与AI Agent的关系可以理解为工具与使用者的关系。Computer Use是AI Agent的一种能力扩展,使Agent能够操控计算机执行各种任务。它不是针对特定任务的工具,而是教会AI通用的计算机技能。 

 

通过Computer Use,AI Agent能够: 

 

然而,Computer Use本身并不构成完整的Agent系统,它只是提供了"手"和"眼",还需要"大脑"(即Agent的决策系统)来指导这些交互。 

 

Browser Use

Browser Use是一个为大语言模型服务的智能浏览器工具,使AI代理能够像人类一样自然地浏览和操作网页。 

它是AI Agent与网络交互的重要工具,扩展了Agent的能力范围。 

 

Browser Use的核心功能包括: 

 

Browser Use为AI Agent提供了"眼睛"和"手指",使其能够看到网页内容并与之交互,但Agent的智能决策仍然依赖于大语言模型和Agent架构。 

 

技术实现与应用场景

Computer Use和Browser Use通过API允许AI感知和交互计算机界面,将指令(如"使用我的计算机和在线数据填写此表单")转换为计算机命令。 

 

这些技术的应用场景广泛,包括: 

    自动化网页操作与任务处理:在线购物、票务预订等个性化推荐与智能搜索:基于用户历史行为和偏好提供服务数据分析与报告生成:自动收集和分析数据,生成报告自动化测试与质量保证:模拟用户行为进行网站测试

 

为什么会有这些误解?

这些误解的产生有多方面的原因: 

    概念的新颖性:AI Agent作为一个相对新兴的技术概念,其定义和边界尚未在业界完全统一。营销宣传的影响:一些产品为了跟随技术潮流,可能会将传统的自动化工具或模板系统包装为"Agent",导致概念混淆。功能的重叠性:AI Agent确实可能包含模板、工作流、自动化和计算机交互等功能,这种功能重叠使得区分变得困难。技术的快速演进:随着技术的发展,传统工具也在不断融入智能特性,使得技术边界变得模糊。

 

接下来我们将基于权威文献和研究,深入探讨AI Agent的本质定义和核心能力,以及它与大语言模型之间的关系。 

 

AI Agent的定义与本质

大模型作为Agent的"大脑"

大语言模型为Agent提供了理解自然语言、生成文本、进行推理等基础能力。 

它是Agent的核心组件,但不是唯一组件。如上图所示,大模型需要与其他模块协同工作,才能构成完整的Agent系统。 

 

严格来说,语言模型只是条件概率模型,使用输入来预测下一个标记。 

它本身不具备感知环境、制定计划和执行行动的能力。这些能力需要通过额外的架构和组件来实现。 

 

 

Agent如何扩展大模型的能力边界

AI Agent通过以下方式扩展了大语言模型的能力边界: 

    环境感知:Agent架构使大模型能够感知和理解环境信息,而不仅限于处理文本输入。工具使用:Agent可以调用外部工具和API,获取大模型知识范围之外的信息或执行大模型无法直接完成的操作。记忆管理:Agent通常具有更复杂的记忆系统,能够存储和检索长期信息,克服大模型上下文窗口的限制。规划能力:Agent架构增强了大模型的规划能力,使其能够分解复杂任务并制定执行计划。行动执行:Agent能够将大模型的输出转化为具体行动,如操作计算机、控制机器人等。


自主性与主动性

AI Agent最显著的特征是自主性和主动性。 

不同于被动执行指令的传统软件,Agent能够主动感知环境、制定计划并采取行动。它不仅能够响应外部刺激,还能够基于自身的"目标"主动发起行动。 

 

这种自主性使得Agent能够在没有持续人类干预的情况下完成复杂任务,大大提高了人工智能系统的实用性和效率。例如,一个客户服务Agent不仅能回答用户问题,还能主动提供相关信息,甚至预测用户可能的后续需求。 

 

感知-规划-行动循环

AI Agent通常遵循"感知-规划-行动"的基本循环: 

    感知(Perception):通过各种传感器或接口获取环境信息,包括用户输入、系统状态、外部数据等。规划(Planning):基于感知到的信息和自身的知识/目标,制定行动计划。行动(Action):执行计划中的行动,可能包括生成文本、调用API、操作系统等。

 

这一循环是连续的,Agent会不断感知环境变化,调整计划并采取新的行动。这种动态适应能力是Agent区别于静态系统的关键特征。 

 

工具使用能力

现代AI Agent的一个重要特征是能够使用各种工具扩展自身能力。这些工具可以是API、数据库、搜索引擎、计算器,甚至是其他AI系统。 

 

工具使用能力使Agent突破了单一模型的局限性,能够访问最新信息、执行复杂计算、与外部系统交互。例如,一个研究助手Agent可能会使用搜索引擎获取最新论文,使用PDF解析工具阅读论文内容,使用数据分析工具处理实验数据,最终生成研究报告。 

 

学习与适应能力

高级AI Agent具有从经验中学习和适应的能力。 

这种学习可以是基于明确的反馈(如用户评价),也可以是基于隐含的信号(如任务完成效率)。 

 

学习能力使Agent能够随着时间推移不断改进其性能,适应新的环境和任务要求。 

例如,一个写作Agent可以通过分析用户对其生成内容的修改,逐渐调整自己的写作风格以更好地满足用户偏好。 

 

 

AI Agent与大语言模型的关系

在当前技术实现中,大语言模型(LLM)通常作为AI Agent的"大脑",提供核心的理解、推理和生成能力。 

Agent与LLM并不是同义词,两者之间存在明确的区别。 

 

AI Agent以大语言模型为核心,通过各种功能模块扩展LLM的能力边界: 

 

 

 

 

主流AI Agent框架与核心能力

ReAct框架:推理与行动结合

ReAct(Reasoning and Acting)框架是一种将推理和行动相结合的Agent架构, 

它的核心思想是"少样本prompt+Thought+Action+Observation"。 

 

ReAct框架的独特之处在于它显式地将思考过程(Thought)作为Agent工作流程的一部分。在执行任何行动之前,Agent会先进行推理,明确自己为什么要执行这个行动以及期望达到什么效果。这种"思考-行动-观察"的循环使Agent的决策过程更加透明和可解释。 

 

ReAct框架特别适合需要复杂推理和工具使用的场景,如信息检索、问题解答和任务规划。 

例如,当用户询问"2022年奥斯卡最佳影片获奖者的导演还执导过哪些电影?"时, 

ReAct Agent会先思考需要查询的信息(2022年奥斯卡最佳影片是什么,谁是导演),然后执行搜索操作,观察结果,再进行下一步推理和行动。 

 

BabyAgi框架:任务规划与执行

BabyAgi框架专注于优化规划和任务执行的流程,特别适合处理需要分解为多个子任务的复杂任务。 

BabyAgi的核心优势在于它能够自动将复杂任务拆解成多个子任务,再依次或批量执行。 

这种方法大大降低了计算成本和时间消耗,因为它只需调用三次大模型(创建任务列表、优先级排序和执行任务),而不是每次工具调用都要调用大模型。 

 

例如,对于"研究并比较三种不同的投资策略"这样的复杂任务, 

BabyAgi会将其分解为: 

1)研究股票投资策略, 

2)研究债券投资策略, 

3)研究房地产投资策略, 

4)比较三种策略的风险和回报, 

5)总结最适合不同投资者的策略。 

然后依次执行这些子任务,最终完成整体任务。 

 

 

LLmCompiler框架:并行任务执行

LLmCompiler框架采用并行执行任务的方式,通过生成一个有向无环图(DAG)来执行action,将多个工具聚合成一个工具执行图。 

 

LLmCompiler的最大特点是能够识别任务之间的依赖关系,并将没有依赖的任务并行执行,大大提高了执行效率。例如,如果需要同时查询多个不同的数据源,LLmCompiler可以并行发起这些查询,而不是按顺序一个接一个地执行。 

 

这种并行执行的能力使LLmCompiler特别适合处理数据密集型任务和需要多源信息整合的场景,如市场研究、数据分析和综合报告生成。 

 

其他主流框架

AutoGPT

AutoGPT类似个人助理,强调对外部工具的使用。 

它的特点是功能全面,能够根据用户指定的任务自主完成一系列操作。 

然而,AutoGPT也存在一些局限,如无法控制迭代次数、可用工具有限等。 

 

HuggingGPT

HuggingGPT的独特之处在于它可以调用HuggingFace上不同的模型来完成任务,实现了模型间的协作。这种方法提高了任务的精确度和准确率,特别适合需要专业模型处理的复杂任务。不过,调用多个模型也意味着更高的计算成本。 

 

TaskWeaver

TaskWeaver专注于数据分析任务,能够有效协调各种插件执行数据分析任务。它的优势在于能够解释命令、转换为代码并精确执行任务,但使用者需要一定的编程基础。 

 

CrewAI

CrewAI是基于LangChain的Multi-agent框架,提供代理人之间的交流和合作平台。它的特点是动态且适应性强,特别适合需要多个专业Agent协作的复杂任务。 

 

 

 

 

多Agent架构的技术阐述

 

多Agent架构的基本概念

多Agent架构(Multi-Agent Architecture)是指由多个AI Agent组成的协作系统,这些Agent各自拥有不同的能力、知识和目标,通过协作共同完成复杂任务。 

 

与单Agent系统相比,多Agent系统能够处理更复杂的任务,提供多角度的分析和解决方案,并具有更强的鲁棒性和可扩展性 

就像一个高效的团队比单个专家更能解决复杂问题一样,多Agent系统通过分工协作实现了整体能力的提升。 

 

多Agent系统的核心在于: 

 

 

多Agent架构的三种主要模式

如上图所示,多Agent架构主要有三种模式:协作模式、代理中介者模式和分层代理团队模式。每种模式都有其独特的特点和适用场景。 

 

1. 协作模式(Collaborative Mode)

协作模式的核心特点是多个Agent在共享的消息草稿(共享思考链上下文)上进行协作,每个Agent所做的工作对其他Agent可见。这种模式特别适合需要透明决策过程的场景。 

 

工作流程 

 

优势 

 

劣势 

 

2. 代理中介者模式(Agent Supervisor Mode)

代理中介者模式的特点是多个Agent不共享草稿板,各自有独立的工作空间,最终响应被附加到全局草稿板。由中介者Agent负责协调和分配任务。 

 

在这种模式下,每个Agent是一个完整的LangChain代理,具有自己的提示、LLM和工具。中介者Agent负责将任务路由到各个专业Agent,可以被视为其他Agent的"代理"。 

 

优势 

 

劣势 

 

3. 分层代理团队模式(Hierarchical Agent Teams)

分层代理团队模式的特点是节点中的Agent实际上是其他LangGraph对象,形成层次化的Agent结构。 

这种模式特别适合非常复杂的任务。 

 

LangGraph代理子节点,通过中介代理和代理组将它们连接起来,形成多层次的决策和执行结构。 

这种架构类似于大型组织的层级结构,有高层决策者、中层管理者和一线执行者。 

 

优势 

 

劣势 

 

 

 

多Agent系统的核心组件

一个完整的多Agent系统通常包含以下核心组件: 

1. Environment(环境)

环境是所有Agent处于其中的共享空间,包含全局状态信息。Agent与环境之间存在信息交互与更新。环境可以是虚拟的(如模拟系统)或现实的(如物理世界)。 

 

环境不仅存储了所有Agent可以访问的共享信息,还定义了Agent可以执行的行动和观察到的状态。在某种意义上,环境是多Agent系统的"游戏规则"制定者。 

 

2. Stage(阶段)

多Agent系统通常采用SOP(标准操作程序)思想,将复杂任务分解为若干子任务或阶段。每个阶段可能需要不同的Agent参与,或者需要Agent以不同的方式协作。 

 

例如,在软件开发场景中,"编写2048游戏"这个任务可以被分解为:编写产品需求文档、设计框架、编写代码、代码审查等子任务。不同的Agent可以负责不同的阶段,或者在不同阶段扮演不同的角色。 

 

3. Controller(控制器)

控制器可以是LLM或预定义规则,负责环境在不同Agent和Stage之间的切换。它决定下一时刻行动的Agent,协调整个系统的运行。 

 

控制器是多Agent系统的"指挥官",它根据当前状态和任务进展,动态调整系统的行为和资源分配。高级的控制器还具备学习能力,能够根据历史经验优化决策策略。 

 

4. Memory(记忆)

多Agent系统的记忆比单Agent系统更复杂,需要记录发送方、接收方等字段。 

记忆可能包括全局记忆(所有Agent共享)和Agent个体记忆(仅特定Agent可访问)。 

 

记忆系统使Agent能够存储和检索过去的交互和决策,为未来的行动提供参考。它是Agent学习和适应的基础,也是Agent之间知识传递的媒介。 

 

 

主流多Agent框架分析

 

1. MetaGPT

MetaGPT是一个专注于软件开发场景的多Agent框架。它模拟了软件公司的工作流程,包括产品经理、架构师、开发工程师、测试工程师等角色。 

 

核心模块 

 

核心流程 

    1. 环境调用每个角色的run()函数

    2. 角色观察环境、更新memory

    3. 角色思考并执行动作

    4. 将执行结果更新到环境中

 

2. AgentVerse

AgentVerse是清华大学开发的多Agent框架,提供了一个基于LLMs来搭建多智能体交互的平台。 

 

核心流程 

    1. 专家招聘阶段:确定智能体的专家成员

    2. 协作决策阶段:各智能体参与讨论和制定策略

    3. 行动执行阶段:各智能体根据决策进行执行

    4. 评估阶段:提供关于当前状态的进展与目标的对比

 

AgentVerse的设计流程模拟了人类的决策过程,特别强调了协作决策和评估反馈的重要性。 

这种多智能体合作的方式在软件开发、咨询和游戏等领域优于单一智能体。 

 

3. CrewAI

CrewAI是基于LangChain的Multi-agent框架,提供代理人之间的交流和合作平台。它的特点是动态且适应性强,特别适合需要多个专业Agent协作的复杂任务。 

 

CrewAI允许开发者定义不同的Agent角色,每个角色有自己的目标、工具和背景知识。这些Agent可以协同工作,共同解决复杂问题,类似于一个专业团队的协作方式。 

 

 

多Agent架构的应用案例

1. GPT-Newspaper

GPT-Newspaper是一个创建个性化报纸的自主代理系统,由六个专门的子代理组成: 

 

这个系统包含作家-评论循环,形成有益的反馈机制,使内容质量不断提升。 

GPT-Newspaper展示了多Agent系统在创意内容生成领域的潜力。 

 

2. 软件开发团队

多Agent架构可以模拟软件公司的开发流程,包括产品经理、架构师、开发工程师、测试工程师等角色。各角色协作完成从需求分析到代码实现的全流程。 

 

例如,产品经理Agent负责理解用户需求并创建产品需求文档,架构师Agent设计系统架构,开发工程师Agent编写代码,测试工程师Agent进行测试和质量保证。这种协作方式可以大大提高软件开发的效率和质量。 

 

3. 数据分析与决策支持

多Agent系统在数据分析领域也有广泛应用,包括数据收集Agent、数据清洗Agent、分析Agent和可视化Agent。这些Agent协作完成从原始数据到决策支持的转化。 

 

在金融分析场景中,一个Agent可能负责收集市场数据,另一个负责分析历史趋势,第三个负责预测未来走势,第四个负责生成投资建议。这种分工协作使得分析过程更加专业和全面。 

 

 

多Agent架构的优势与挑战

优势

    专业化分工:每个Agent可以专注于特定领域,提高效率和质量复杂问题分解:将复杂任务分解为可管理的子任务多视角分析:不同Agent提供多角度思考,减少盲点可扩展性:可以根据需要添加或移除Agent鲁棒性:单个Agent失效不会导致整个系统崩溃

 

挑战

    协调复杂性:Agent间的协调需要精心设计通信开销:Agent间的信息交换可能产生大量开销一致性维护:确保所有Agent的行动一致且朝向共同目标资源消耗:多Agent系统通常需要更多的计算资源评估困难:难以评估每个Agent的贡献和整体系统性能

 

 

AI Agent不仅仅是一个被动的响应系统,而是能够主动感知环境、制定计划、执行行动并从结果中学习的智能实体。 

这种能力使其能够处理更加复杂和开放性的任务,大大扩展了人工智能的应用边界。 

 

将AI Agent与模板系统、工作流、RPA或单纯的计算机操作工具混淆,不仅会导致技术选型的错误,还会影响对AI技术发展方向的判断。 

 

多Agent系统通过分工协作,能够处理单一Agent难以应对的复杂问题,展现出巨大的潜力。无论是协作模式、代理中介者模式还是分层代理团队模式,都为不同场景下的复杂问题解决提供了有效方案。 

 

 

 

最后

 

如果看到这里,给大家一个值得研究的小tips 

 

 

manus是多智能体架构 

 

“less structure more intelligence” 

这句话值得所有Agent产品,框架深挖再深挖。 

不要再吵了,咱们谦虚认真的好好研究学习一下吧。 

 

 

 

参考文献

    1. Russell, S., & Norvig, P. (2020). Artificial Intelligence: A Modern Approach (4th ed.). Pearson.

    2. Wooldridge, M., & Jennings, N. R. (1995). Intelligent agents: Theory and practice. The Knowledge Engineering Review, 10(2), 115-152.

    3. 中国科学院大学. (2023). 人工智能领域伦理主体agent(行为体)的追本溯源. 中国科学院大学学报.

    4. Qian, Y., et al. (2023). The Rise and Potential of Large Language Model Based Agents: A Survey. arXiv preprint arXiv:2309.07864.

    5. Li, F., et al. (2024). Agent AI: Surveying the Horizons of Multimodal Interaction. arXiv preprint arXiv:2401.03568.

    6. Anthropic. (2023). Computer Use: Teaching Language Models to Use Computer Tools. Retrieved from https://www.anthropic.com/news/3-5-models-and-computer-use

    7. Gao, Y., et al. (2023). MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework. arXiv preprint arXiv:2308.00352.

    8. Qian, Y., et al. (2023). AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents. arXiv preprint arXiv:2308.10848.

    9. Park, J., et al. (2023). GenerativeAgents: Interactive Simulacra of Human Behavior. arXiv preprint arXiv:2304.03442.


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI Agent 多Agent架构 核心能力 主流框架
相关文章