index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
该研究报告深入探讨了基础AI Agents的最新发展与挑战,从大脑的智能机制出发,构建模块化、受大脑启发的架构,整合认知科学、神经科学和计算研究。报告涵盖了智能Agents的模块化基础、自我增强和适应性进化机制、协作和进化multi-Agent系统以及安全可靠的AI系统构建。研究重点关注Agents的认知、感知、行动系统,以及记忆、世界模型和奖励机制。此外,报告还讨论了LLM在Agent自我进化中的应用,以及multi-agent系统的协作和进化能力。
🧠 模块化基础:该研究将智能Agents的认知、感知和操作模块映射到类似人类大脑的功能,包括记忆、世界建模、奖励处理等核心组件,为Agents构建提供了蓝图。
🔄 自我进化机制:探讨了通过自动化优化范式(如AutoML和LLM驱动的优化策略)自主完善Agents能力、适应动态环境并实现持续学习的方法,推动Agents的自我改进。
🤝 协作与进化:研究协作和进化multi-Agent系统,分析Agent互动、合作以及社会结构中涌现的集体智能,强调其与人类社会动态的相似之处,促进Agents的共同进步。
🛡️ 安全性与可靠性:着重讨论构建安全、可靠且有益的AI系统,确保AI的发展符合伦理和社会价值观,为AI的实际应用提供保障。
💡 LLM驱动的优化:报告强调了LLM在Agent自我进化中的作用,LLM为传统的优化方法提供了一种高效的替代方案,实现Agents的自动化改进。
2025-04-12 17:03 湖北

MetaGPT&微软&港科大&斯坦福&谷歌等20个机构联合发表长达264页的最强基础 Agents 发展与挑战:从受大脑启发的智能到进化、协作和安全的系统, 提供了一个全面的概述,将智能 Agents 置于一个模块化、受大脑启发的架构中,整合了认知科学、神经科学以及计算研究的原则。
按主要脑区划分的关键人类大脑功能的示意图,标注了其在 AI (大型语言模型LLMs、AI Agent)研究中的当前探索水平。突出了现有成就、差距以及推动 AI 能朝着更全面、受大脑启发的能力发展的潜在机会。主张从人脑中汲取灵感,系统地分析和设计 AI Agents 框架:生物系统通过将专业化的组件(用于感知、推理、行动等)紧密整合来实现通用智能——这种方法可以作为加强当前基于LLM的 Agents 的蓝图。描述智能Agents循环和Agents社会的总体框架概览更多信息:《动手设计AI Agents:CrewAI版》、《高级RAG之36技》、新技术实战:中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日报/月报、最新技术热点追踪解读(GPT4-o/数字人/MCP/Gemini 2.5 Pro)首先,深入研究智能Agents的模块化基础,系统地将其认知、感知和操作模块映射到类似人类大脑的功能,并阐明记忆、世界建模、奖励处理以及类似情感系统等核心组件。其次,讨论自我增强和适应性进化机制,探讨如何通过自动化优化范式(包括新兴的AutoML和LLM驱动的优化策略)自主完善其能力、适应动态环境并实现持续学习。第三,研究协作和进化multi-Agent系统,调查从Agent互动、合作以及社会结构中涌现的集体智能,并强调其与人类社会动态的相似之处。
认知(Cognition):首先探讨学习,研究它在心理状态内部发生的空间以及它所服务的具体目标。随后,研究推理,分析结构化和非结构化的方法,最后专门探讨规划能力作为一种特殊的推理行为。
记忆(Memory):首先简要概述人类记忆,重点关注编码、巩固和检索等关键阶段。然后,将探讨设计人工智能代理记忆系统的多样化方法,从传统的符号表示到前沿的基于神经网络的方法。最后,将考虑如何从神经科学和认知心理学中汲取原则以指导未来研究。
世界模型(World Model):探讨了人类认知研究中的“心理模型”与人工智能中的AI世界模型之间的关系,并将其归类为四种范式:隐式范式、显式范式、基于模拟器的范式以及一类其他新兴方法(例如,指令驱动范式)。
奖励(Reward):奖励帮助代理区分有益和有害的行动,塑造其学习过程并影响其决策制定。
感知(Perception):感知是人类和智能Agent获取信息、解释周围环境并最终做出明智决策的基础途径
行动系统(Action System):基础模型为Agent奠定了基础,而行动系统决定了它们实现复杂目标的最终潜力
所有手工设计的Agent人工智能系统最终都将被可学习和自我进化的系统所取代,这最终可能会将Agent人工智能的开发和改进置于一个自主、自给自足的循环中。关键概念的示意图:包括优化空间、优化器和优化目标。优化器在优化空间内迭代地细化组件,以增强代理系统,直到达到满意的结果,从而在LLM代理系统中实现自我改进。为了实现自动化人类努力的目标,许多研究提出了利用LLM作为驱动力,以实现代理系统的自我进化。特别是,LLM为传统的优化方法(如基于梯度和基于强化学习的方法)提供了一种高效的替代方案。它们将优化空间从数值扩展到更多样化的领域,自然语言作为通用桥梁。LLM能够优化复杂的、异构的参数,如指令和工具实现,并且可以在包括开源和闭源模型在内的各种LLM上运行。这种方法的一个显著例子是AFLOW,它自动化了整个代理系统工作流程的生成和优化。该系统采用蒙特卡洛树搜索来利用LLM的全面能力。在这个框架中,传统手工制作的代理系统被算法生成的系统所取代,标志着一种范式的转变。最近在代理系统研究中探索的各种优化空间,包括提示、工具和工作流程。
优化算法,讨论了传统的优化范式和元优化,其中优化过程也会影响底层的优化算法本身。自我进化场景,将其分为两种类型:在线优化和离线优化。
大型语言模型(LLM)代理自我改进技术的应用,特别是在人工智能用于科学(AI-for-science)领域的知识发现。
系统地调研了基于LLM的multi-agent系统的协作机制和进化能力。不同的系统目标如何塑造代理的角色、行为模式和协作策略。分析了各种通信结构,包括促进有效代理间和人机通信的交互协议。探讨了协作决策制定方法,以及代理如何利用其独特的专业知识和视角,讨论了集体智能和进化机制以及进化过程,重点介了适应性学习方法、持续的知识共享以及共同提升MAS性能的迭代改进机制。
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。
阅读原文
跳转微信打开