掘金 人工智能 17小时前
从规划到翻车,聊聊 Agent 背后的真相
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了AI Agent在实际应用中遇到的挑战与发展趋势。它从AI Agent的基本定义出发,深入分析了Agent在感知、规划、记忆和执行方面的局限性,以及单Agent架构的不足。文章随后介绍了多种Agent架构,如Workflow、Plan & Execute、ReWOO等,并讨论了多Agent协作的优缺点。最后,文章总结了AI Agent开发的复杂性,并展望了Agent的未来发展方向,强调了模型内在智能提升的重要性。

🤖 **AI Agent定义与核心特性:** AI Agent是一个基于大模型,具备感知环境、自主决策、执行任务能力的智能系统,其核心特性包括感知、规划、记忆和执行,类似人类的思考和工作方式。

🤔 **单Agent的局限性:** 由于大模型输出的不确定性、无状态性以及每次调用的“重新做人”特性,单Agent在多轮决策、工具调用和状态记忆时容易出错,导致任务执行不稳定。

💡 **Agent架构演进:** 介绍了多种Agent架构,如Workflow、Plan & Execute、ReWOO、LLMCompiler等,它们试图通过不同的方式解决单Agent的局限性,例如全局规划、任务分解和异步并发执行。

🤝 **多Agent协作的挑战:** 探讨了多Agent架构的优势和挑战,虽然多Agent可以提升整体性能,但也存在沟通成本高、任务冲突、角色扮演错乱等问题,甚至可能导致协作效率降低。

🔮 **Agent的未来展望:** 强调了Agent的关键在于模型内在智能的提升,未来Agent的发展方向可能将“自主性”直接训练到模型内部,从而减少甚至消除对传统Agent开发工作的需求。

你是否也在各类社交平台刷到过这样的标题:AI 自己干活,不用你教

什么“感知、规划、记忆、执行”,“能自己拆任务、选工具、还会复盘”——这些听起来像是终极打工 AI的功能,全都被打包进一个词:AI Agent。看完我只想说一句:模型你这么能,工资卡要不要也一起拿去?

最近,胖虎也在工作中尝试落地 AI Agent,调研了不少构建方式,过程嘛……说不上痛苦,但确实走也遇到了一些问题。胖虎想用 Agent 干活,它却规划好了怎么划水。玩笑话了,言归正传,Agent 并非镜中花水中月——它确实在试图回答一个值得技术人认真思考的问题:

当我们不再让 AI 只输出一句话,而是完成一整件事,它该怎么思考,如何做?

这篇文章把过程中的观察、踩过的坑,以及一些不成熟的想法整理出来。不是“教你怎么用 Agent”,而是“我踩过的坑,给你照个路”。希望能帮你节省一点 debug 时间,哪怕不多。

什么是 AI Agent:一句话说不清,但我说说看

你心中的 AI Agent 是什么样?

曾经,一切内嵌了大模型的系统都被称为 Agent:

在这篇文章中,我们讨论的 AI Agent,指的是:一个 基于大模型具备感知环境、自主决策、执行任务能力的智能系统。 也就是说,它不只是被调用,还要 自己想清楚要干嘛,然后去干。 其核心特性: 感知 + 规划 + 记忆 + 执行。 Anthropic 给出的定义也很贴切:

Agent 通常是在一个循环中,根据环境反馈使用工具的大模型。

听起来就像我们自己上班干活:一边观察需求,一边想怎么做,一边忘掉上周做过什么。

为啥叫“智能体”,看起来却不智能

你可能也遇到过这种情况:

这是因为,Agent 的“智能”建立在模型本身的能力之上。但问题在于:

所以当 Agent 需要多轮决策、工具调用和状态记忆时,就容易出错:出错一次是模型的锅,出错三次就是你 Agent 架构的问题。做一个能跑起来的 Agent并不难,但做一个靠谱、稳定、能复用的 Agent,就真得下功夫了。所以 Barry(Anthropic)才说:

Agent 最适合用在那些任务复杂、有价值、可行性高,但对失败容忍度也高的场景。

换句话说:重要但不致命的活,Agent 才能放心接。 有时候我看着 Agent 输出的内容都想劝它一句:您别干了,您歇会儿,活我自己来。

从单Agent solo 到多 Agent 乐队

既然 Agent 一不留神就翻车,那业内当然要出招解决。于是,各种 Agent 架构和“派系”纷纷出山,八仙过海,各显神通。

workflow 派 :你别瞎干,我帮你安排好流程

Agent 总是乱来?那我们就固定运行流程,让 AI 仅在需要的环节发挥作用就好。Agent 与 workflow 最大的区别在于大模型能否在其中起到自主规划的作用。目前workflow更多的是对业务逻辑的描述和封装,AI仅作为其中的一个节点/组件服务于特定环节。说白了就是:你别琢磨怎么决策,你就把第三步的 API 调了就行。

我们依然借用 Anthropic 对二者区别的描述:

Workflows are systems where LLMs and tools are orchestrated through predefined code paths

Agents, on the other hand, are systems where LLMs dynamically direct their own processes and tool usage, maintaining control over how they accomplish tasks.

虽然 workflow 难以支撑复杂场景的端到端智能化,但是它可以作为Agent 的工具,成为 Agent 的一部分

Beyond Agent 派:别再“走一步看一步”了

在前面我们提到 Agent 通常是在循环中根据环境反馈进行决策和⼯具使用,虽然这种 ReAct 模式是当下主流的 Agent 行动框架但它也存在显著的问题:走一步看一步,缺少全局规划;工具调用结果追加到上下文中导致 token 爆掉,最终任务执行失败。

于是更“聪明”的结构来了:

✅ Plan & Execute

Manus 是一种典型借鉴这种思路的Agent,通过生成全局规划并按照任务清单进行执行,避免出现“走一步看一步,渐行渐远”的经典 Agent 翻车场景。

✅ ReWOO(Reasoning Without Observation)

相较于 Plan&Execute ReWOO 在规划器和执行器之外增加了一个求解器(Solver),Solver专门负责综合规划和工具执行结果生成最终答案,极端一点:大模型只管思考,调用逻辑交给外部系统。

✅ LLMCompiler

把任务提前编译成 DAG,所有调用异步并发,解决 ReAct 顺序调用工具导致的延迟高、成本大、准确率受限等问题。

多 Agent 乐队

当单 Agent 在处理复杂任务遇到上限时,我们开始尝试让 Agent 组成团队,用类似人类协同的方式来提升整体的性能。单个 Agent 能力有限,干脆来点“集体智慧”。于是我们看到多 Agent 架构开始流行。几种典型组织方式如下:

架构特点
网状结构自由对话,但容易吵成一团
监督者模式有个“老板 Agent”,所有人听它的
层级结构类似人类组织:经理-主管-执行者

框架选型也不少:

现在的趋势是:越来越多框架都在做“Agent 编排” ,即通过多 Agent 协作完成复杂任务,而不是让一个 Agent 背锅到底。甚至 Google、OpenAI 都推出了自己的 Agent SDK,说明这个方向正走向标准化。但多 Agent 架构也不全是美好:多打一把反而打成绣花针,协调成本甚至超过了问题本身。沟通同步、任务冲突、上下文割裂、角色扮演错乱……这不是搞 AI,是搞一场全息职场模拟。

所以也有人说:

Don’t build multi-Agents.

你看人类都天天内耗了,Agent 组队翻车也不过分吧?🤣

一些思考和感悟

落地AI的“五味瓶”

在经过与大模型相爱相杀的一番折腾之后无论是技术同学还是为此买单的老板,几乎都会经过以下的心理路程:

1、AI 什么都能做

2、AI 什么都不能做

3、好像还是能做

4、好像还是不能做

5、貌似换个姿势也能做

简单总结:从信仰到破灭,再到将信将疑的实用主义。AI 到底能不能行,仍需要在具体的场景中贴紧业务上下求索。

Agent 开发:还是门复杂的工程活

你想让 Agent 不翻车,至少得解决这些问题:

看起来像是“AI 编排”,本质上还是**开发一套能自证正确的分布式系统,**这仍然是一项复杂的工程挑战。

未来的 Agent 会变成什么样

通过提示词使模型输出工具调用指令OpenAI 将 Function Call 的能力训练到模型内部

提示词引导模型进行思维链模式的思考OpenAI O 系列模型/DeepSeek R1 推理模型开始登场

纯工程 Agent模型微调 Agent 再到端到端 Agent

模型的能力正在一步步增强,它们逐渐能够直接完成复杂任务从而减少甚至消除对传统意义上独立于模型之外的Agent开发工作的需求。

当下正有一种“主流”观点:在未来模型即服务、模型即产品 该观点认为Agent 的关键在于模型内在智能的提升,而不是通过预先设定好的、由提示词和工具调用路径构成的工作流,AI Agent 发展的下一个阶段是将传统Agent所追求的“自主性”(如自主规划、决策、执行能力)直接训练到模型内部,Agent 消失,智能内生。

如此以来工程复杂度没了,效果还更好了。如果真有那么一天,可能唯一还需要我的地方就是:给它插上电源,静静地看它自己上线、自己调用、自己复盘……然后顺手开我一张发票。✌️

尾声:你也在搞 Agent 吗?

你如果也在做 Agent,欢迎来聊聊你遇到过最迷惑的调用行为,或者你最想对 Agent 说的一句话。

评论区见,我们继续 debug。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI Agent 大模型 架构 多Agent 未来
相关文章