AI Agents 的七大启示:研究与应用
近年来,基于大型语言模型(LLM)的自主代理在架构、记忆、感知、推理与行动等方面不断发展,在多个领域展现出重新定义可能性的潜力。
🎯代理研究趋势涵盖多种进步及不同类型代理
📄代理架构包含多个模块,如档案、记忆等
👀LLM智能体的感知能力及多模态感知的挑战
🧠推理与规划的方法、挑战及研究方向
🤝多智能体系统的架构、合作与挑战
近年来,基于大型语言模型(LLM)的自主代理在架构、记忆、感知、推理与行动等方面不断发展,在多个领域展现出重新定义可能性的潜力。
撰文:Rituals
编译:白话区块链
近年来,代理(Agent)的概念在哲学、游戏和人工智能等多个领域的重要性日益凸显。从传统意义上看,代理指的是一个实体能够自主行动、做出选择并具有意图性,这些特质通常与人类联系在一起。
而在人工智能领域,代理的内涵变得更加复杂。随着自主代理的出现,这些代理能够在环境中进行观察、学习并独立行动,使得过去抽象的代理概念被赋予了计算系统的具体形式。这些代理几乎无需人为干预,展现出一种虽非意识却具备计算性意图的能力,能够做出决策、从经验中学习,并以越来越复杂的方式与其他代理或人类互动。
本文将探讨自主代理这一新兴领域,特别是基于大型语言模型(LLM)的代理及其在游戏、治理、科学、机器人等不同领域的影响。在探讨代理基本原则的基础上,本文将分析人工智能代理的架构与应用。通过这种分类视角,我们能够深入了解这些代理如何执行任务、处理信息并在其特定的操作框架中不断发展。
本文的目标包括以下两个方面:
注:由于文章篇幅问题,本文编译对原文有删减。
基于大型语言模型(LLM)的代理发展标志着人工智能研究的重大进展,涵盖了符号推理、反应式系统、强化学习到自适应学习的多重进步。
现代代理架构包括多个模块,形成综合系统。
档案模块决定代理行为,通过分配角色或个性来确保一致性,适用于需要稳定个性的场景。LLM 代理的档案分为三类:人口学角色、虚拟角色和个性化角色。
摘自《从角色到个性化》论文
角色对性能的提升角色设定可显著提升代理的表现和推理能力。例如,LLM 作为专家时回应更深入、符合语境。在多代理系统中,角色匹配促进协作,提升任务完成率和互动质量。
档案创建方法 LLM 代理档案可通过以下方式构建:
记忆是 LLM 代理的核心,支持适应性规划与决策。记忆结构模拟人类过程,主要分为两类:
记忆格式常见的记忆存储格式包括:
记忆操作代理通过以下操作与记忆交互:
基于《Generative Agents》论文的内容
研究意义与挑战
尽管记忆系统提升了智能体能力,但也带来研究挑战:
LLM 智能体通过处理多样化的数据源提升对环境的理解与决策能力,类似于人类依赖感官输入。多模态感知整合文本、视觉和听觉等输入,增强智能体执行复杂任务的能力。以下是主要输入类型及其应用:
文本输入文本是 LLM 智能体的主要沟通方式。尽管智能体具备高级语言能力,理解指令背后的隐含意义仍是挑战。
视觉输入视觉感知让智能体理解物体与空间关系。
听觉输入听觉感知让智能体识别声音和语音,尤其在互动和高风险场景中重要。
多模态感知的研究挑战与考量:
推理与规划模块帮助智能体通过分解复杂任务高效解决问题。类似人类,它能制定结构化计划,既可以预先构建完整计划,也能根据反馈实时调整策略。规划方法按反馈类型分类:
没有反馈的规划在无反馈情况下,智能体从一开始就制定完整计划并执行,不调整。包括单路径规划(按步骤执行)和多路径规划(同时探索多个选项,选择最佳路径)。
单路径推理任务分解为顺序步骤,每一步接着下一步:
来自 CoT 论文
与单路径推理不同,多路径推理允许智能体同时探索多个步骤,生成并评估多个潜在解决方案,从中选择最佳路径,适用于复杂问题,尤其在多种可能途径的情况下。
示例:
当 LLM 面对特定领域的规划挑战时,外部规划器提供支持,整合 LLM 缺乏的专业知识。
有反馈的规划有反馈的规划使代理根据环境变化实时调整任务,适应不可预测或复杂的场景。
环境反馈代理与环境交互时,根据实时反馈调整计划,保持任务进度。
来自《ReAct》论文
通过与人类互动,帮助代理与人类价值观对齐,避免错误。示例:
模型反馈来自预训练模型的反馈帮助代理自我检查并优化推理与行动。示例:
来自《SelfCheck》论文
推理与规划中的挑战与研究方向尽管推理与规划模块提升了智能体功能,但仍面临挑战:
行动模块是智能体决策过程的最后阶段,包括:
行动影响:行动根据结果可分为:
微调获取能力:
无微调能力获取在微调不可行时,代理可通过提示工程和机制工程提升能力。
提示工程通过设计提示引导 LLM 行为,提高性能。
机制工程通过专门规则和机制增强代理能力。
经验积累
自驱进化
来自《Voyager》论文
微调能显著提升任务特定的性能,但需要开源模型且资源消耗较大。提示工程和机制工程适用于开源和闭源模型,但受到输入上下文窗口的限制,且需要精心设计。
多智能体架构将任务分配给多个智能体,各自专注不同方面,提升鲁棒性和适应性。智能体间的协作和反馈增强整体执行效果,并可根据需求动态调整智能体数量。然而,这种架构面临协调挑战,沟通至关重要,避免信息丢失或误解。
为促进智能体间的沟通与协调,研究关注两种组织结构:
来自《ChatDev》论文
DyLAN 将垂直和水平结构结合成混合方法,代理在同层内水平协作,并跨时间步交换信息。DyLAN 引入排名模型和代理重要性评分系统,动态评估并选择最相关的代理继续协作,表现不佳的代理被停用,形成层级结构。高排名代理在任务和团队构成中起关键作用。
合作型多代理框架通过共享信息和协调行动,聚焦各代理优势,实现互补合作以最大化效率。
来自《Agentverse》论文
合作互动分为两种类型:
来自 MetaGPT 论文
对抗性多智能体框架合作性框架提升效率和协作,而对抗性框架通过挑战推动智能体进化。受博弈论启发,对抗性交互鼓励智能体通过反馈和反思改进行为。例如,AlphaGo Zero 通过自我对弈改进策略,LLM 系统通过辩论和「以牙还牙」交换提高输出质量。尽管这种方法促进智能体适应性,但也带来计算开销和错误风险。
涌现行为在多智能体系统中,可能出现三种涌现行为:
基准测试与评估基准测试是评估智能体表现的关键工具,常用平台包括 ALFWorld、IGLU 和 Minecraft 等,用于测试智能体在规划、协作和任务执行方面的能力。同时,工具使用和社交能力的评估也十分重要,平台如 ToolBench 和 SocKET 分别评估智能体的适应能力与社交理解。
应用数字游戏成为 AI 研究的重要平台,基于 LLM 的游戏智能体注重认知能力,推动 AGI 研究。
来自《基于大语言模型的游戏智能体调查》论文
游戏中的智能体感知在视频游戏中,智能体通过感知模块理解游戏状态,主要方法有三种:
游戏智能体案例研究
Cradle(冒险游戏):该游戏要求智能体理解故事情节、解决谜题和导航,面临多模态支持、动态记忆和决策的挑战。Cradle 的目标是实现通用计算机控制(GCC),使智能体通过屏幕和音频输入,执行任何计算机任务,具有更大通用性。
PokéLLMon(竞技游戏)竞技游戏因其严格规则和可与人类玩家比较的胜率,成为推理和规划性能的基准。多个智能体框架已展示出竞技表现。比如,《大型语言模型玩《星际争霸 2》:基准与链式总结方法》中的 LLM 智能体与内建 AI 进行文本版《星际争霸 2》对战。 PokéLLMon 是首个实现人类水平表现的 LLM 智能体,在《宝可梦》战术游戏中获得 49% 排位赛胜率和 56% 邀请赛胜率。该框架通过增强知识生成与一致性动作生成,避免幻觉和链式思维中的恐慌循环。智能体将战斗服务器的状态日志转化为文本,确保回合连贯性并支持基于记忆的推理。
智能体通过四种反馈强化学习,包括 HP 变化、技能效果、行动顺序的速度估算、以及技能状态效果,以优化策略并避免循环使用无效技能。
PokéLLMon 利用外部资源(如 Bulbapedia)获取知识,如类型克制和技能效果,帮助智能体更精准地使用特殊技能。此外,通过评估 CoT、Self-Consistency 和 ToT 方法,发现 Self-Consistency 显著提升胜率。
ProAgent(合作游戏)合作游戏需要理解队友意图并预测行动,通过显式或隐式合作完成任务。显式合作效率高但灵活性较低,隐式合作则依靠预测队友策略进行适应性互动。 在《Overcooked》中,ProAgent 展示了隐式合作的能力,其核心流程分五步:
其中,信念修正机制尤为关键,确保智能体随着互动更新理解,提高情境感知和决策准确性。
ProAgent 超越了五种自我对弈和基于人群的训练方法。
虚拟角色如何体现人类行为的深度和复杂性?尽管早期 AI 系统如 SHRDLU 和 ELIZA 尝试自然语言交互,基于规则的方法和强化学习也在游戏中取得进展,但它们在一致性和开放互动上存在局限。如今,结合 LLM 与多层架构的智能体突破了这些限制,具备存储记忆、反思事件并适应变化的能力。研究表明,这些智能体不仅能模拟真实人类行为,还展现了传播信息、建立社交关系和协调行为的突现能力,推动虚拟角色更加逼真。
来自《大规模语言模型智能体的崛起与潜力:一项调查》
自动课程利用 LLM 生成与智能体状态和探索进度相关的目标,使任务逐步复杂化。智能体生成模块化代码执行任务,并通过链式思维提示反馈结果,必要时修改代码。成功后,代码存储于技能库以备后用。
Voyager 框架显著提升了技术树解锁效率,木材、石材和铁的解锁速度分别快 15.3 倍、8.5 倍和 6.4 倍,并成为唯一解锁钻石的框架。其探索距离比基准长 2.3 倍,发现新物品多 3.3 倍,展现了卓越的终身学习能力。
代理通过区块链自主操作钱包、交易与交互 DeFi 协议。
这些技术为代理的自主链上交互与加密生态应用带来新机遇。
链下验证是区块链研究的热点,主要应用于高复杂度计算。研究方向包括零知识证明、乐观验证、可信执行环境(TEE)以及加密经济博弈论。
分布式节点系统可运行多代理系统并达成共识。
由 a16z 开发,专为区块链设计的开源多代理框架,支持个性化智能代理创建与管理。
研究进展:
通过新闻检索和推理增强,大型语言模型(LLMs)预测准确率从 50% 提升至 71.5%,接近人类预测的 77%。
集成 12 个模型预测效果接近人类团队,展示「群体智慧」提升可靠性。
LLMs 在角色扮演领域表现出色,结合社会智能和记忆机制,能模拟复杂交互。
Character-LLM 借助传记数据重现历史人物特质,精准还原角色。
这些技术推动了 AI 在社交模拟和个性化互动等领域的应用拓展。
摘自《Character-LLM》论文
RPLA(Role-Playing Language Agent 角色扮演语言智能体 )的应用
以下是部分 RPLA 应用的简要列表:
评估 LLM 是否符合人类价值观是一项复杂任务,因实际应用场景的多样性与开放性而充满挑战。设计全面对齐测试需投入大量精力,但现有的静态测试数据集难以及时反映新兴问题。
目前,AI 对齐多通过外部人工监督完成,例如 OpenAI 的 RLHF(基于人类反馈的强化学习)方法,该过程耗时 6 个月,耗费大量资源以实现 GPT-4 的对齐优化。
也有研究尝试减少人工监督,利用更大的 LLM 进行审查,但新的方向是借助代理框架分析模型的对齐情况。例如:
通过动态生成真实场景检测微妙或「长尾」风险,克服传统静态测试的局限性。
两阶段流程:
基于「多角色扮演」自我对齐方式,启发于社会学理论,通过模拟多方互动来理解价值观。
核心特点:
摘自《MATRIX 论文》
关于代理 AI 对齐的研究还有很多,可能值得单独写一篇文章。
治理与组织 组织依赖标准操作程序(SOP)来协调任务和分配责任。例如,软件公司中的产品经理使用 SOP 分析市场和用户需求,并制定产品需求文档(PRD)来指导开发过程。这种结构适用于多代理框架,如 MetaGPT,其中代理角色明确,具备相关工具和规划能力,且通过反馈优化表现。
机器人技术 基于代理的架构提升了机器人在复杂任务规划和自适应交互中的表现。语言条件下的机器人政策帮助机器人理解环境,并根据任务需求生成可执行的行动序列。
架构框架 LLM 与经典规划结合,能有效解析自然语言命令并转化为可执行的任务序列。SayCan 框架结合强化学习和能力规划,使机器人能够在现实中执行任务,确保指令的可行性和适应性。Inner Monologue 进一步提升了机器人的适应性,通过反馈调整行动实现自我修正。
示例框架 SayCan 框架使机器人在面对自然语言指令时,能评估和执行任务(如从桌子上取饮料)并确保与实际能力匹配。
科学 《Empowering Biomedical Discovery with AI Agents》提出了多代理框架,结合工具和专家,支持科学发现。文章介绍了五种协作方案:
文章还讨论了 AI 代理的自主性级别:
AI 代理正在改变智能的概念与应用,重塑决策和自主性。它们在科学发现、治理框架等领域成为活跃参与者,不仅是工具,也是协作伙伴。随着技术进步,我们需要重新思考如何平衡这些代理的力量与潜在的伦理和社会问题,确保其影响是可控的,推动技术发展并减少风险。
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
AI Agents 的七大启示:研究与应用
近年来,基于大型语言模型(LLM)的自主代理在架构、记忆、感知、推理与行动等方面不断发展,在多个领域展现出重新定义可能性的潜力。
从骗局到财富:Memecoin 市场结构分析
通过对 Memecoin 市场的深入调研,分析了从社区参与、代币发行、平台使用到用户需求等方面的现状,揭示了这一现象背后的社会动因和未来潜力。
Meme 热潮到顶了吗?4 大关键因素决定了它的未来
2024 年 Memecoins 市场数据统计及其发展趋势。
特朗普获胜、比特币飙升,市场接下来将何去何从?
十几位加密货币风险投资家分享特朗普获胜和比特币飙升后的下一步计划。
什么是加密叙事?2024 年热门叙事盘点
加密叙事是指在加密货币市场中流行的故事、想法和趋势,它们影响投资者情绪、市场走势和技术应用,并在 2024 年呈现出迷因币、流动质押衍生品等多样化趋势。
一览当前比特币监管的全球格局
比特币的法律地位在全球范围内因地区差异而有所不同,部分国家支持其发展,而有些其他国家对其实施严格监管甚至完全禁止。
Dune Analytics :如何在 Web3 中释放亚洲的潜力?
亚洲市场凭借庞大的数字化原住民人口、以消费者为中心的创新和强大的超级应用生态系统,成为 Web3 发展的关键区域,链上数据进一步揭示其增长潜力。
比特币创始人中本聪现已成为全球第 19 位富豪?
比特币在周三创下了 93495 美元的新纪录。
特朗普泡沫:比特币下一步会怎么走?
特朗普胜选,比特币冲刺 10 万美元,特朗普泡沫如何影响市场?
牛市小贴士:如何在不失去理智的情况下实现收益最大化
牛市中,理性管理、设定明确目标、分散投资、保持情绪纪律和长期视角,有助于在最大化收益的同时有效控制风险。
加密货币大规模采用离普通人还有多远?
加密货币虽然具有潜力,但其复杂性和缺乏简化的用户体验使得大规模采用变得困难。
Web3 + AI:是炒作还是我们已经为 Web4.0 做好准备了?
欢迎来到 Web4.0 的黎明时代:一个不仅去中心化,甚至可能具备意识的互联网。在这个新世界中,人工智能与人类智慧协同进化,以前所未有的方式挑战我们对自主性和智能的理解。
链上费用超以太坊,SOL 真的要取代 ETH 的地位了?
Solana 如何成为 2024 年最受欢迎的区块链?
2024 大选后的加密黄金时代:政策转向与市场新机遇
特朗普获胜后,预计加密货币行业将迎来政策支持,推动市场进入「黄金时代」,美国有望巩固其全球加密中心地位。
唐纳德·特朗普赢得大选后,加密行业下一步将何去何从?
随着唐纳德·特朗普赢得美国总统大选,并且共和党有望掌控众议院和参议院,人们已经开始猜测在他于 1 月 20 日正式就职之前,加密货币行业将迎来哪些变化。
赵长鹏等比特币大佬的「入狱风险」为何居高不下?
「走钢丝」的加密创业者们悬着的心终于要放下了。
如何监控美国选举日「聪明钱」在加密货币领域的动向
观察主要平台上的关键加密指标可以洞察「聪明资金」在美国大选期间的动向。
美国大选倒计时:比特币价格历史表明选举后将出现反弹
随着美国总统选举临近,比特币历史上在选举后常迎来抛物线式上涨,预计 2024 年剩余两个月可能突破历史新高,并可能在 2025 年达到 300000 美元。
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑