从规划到翻车，聊聊 Agent 背后的真相

你是否也在各类社交平台刷到过这样的标题：AI 自己干活，不用你教

什么“感知、规划、记忆、执行”，“能自己拆任务、选工具、还会复盘”——这些听起来像是终极打工 AI的功能，全都被打包进一个词：AI Agent。看完我只想说一句：模型你这么能，工资卡要不要也一起拿去？

最近，胖虎也在工作中尝试落地 AI Agent，调研了不少构建方式，过程嘛……说不上痛苦，但确实走也遇到了一些问题。胖虎想用 Agent 干活，它却规划好了怎么划水。玩笑话了，言归正传，Agent 并非镜中花水中月——它确实在试图回答一个值得技术人认真思考的问题：

当我们不再让 AI 只输出一句话，而是完成一整件事，它该怎么思考，如何做？

这篇文章把过程中的观察、踩过的坑，以及一些不成熟的想法整理出来。不是“教你怎么用 Agent”，而是“我踩过的坑，给你照个路”。希望能帮你节省一点 debug 时间，哪怕不多。

什么是 AI Agent：一句话说不清，但我说说看

你心中的 AI Agent 是什么样？

曾经，一切内嵌了大模型的系统都被称为 Agent：

聊天机器人？Agent。工作流加个 LLM？Agent。能自己调 API、还知道拆任务的？真·Agent。

在这篇文章中，我们讨论的 AI Agent，指的是：一个 基于大模型具备感知环境、自主决策、执行任务能力的智能系统。 也就是说，它不只是被调用，还要 自己想清楚要干嘛，然后去干。 其核心特性： 感知 + 规划 + 记忆 + 执行。 Anthropic 给出的定义也很贴切：

Agent 通常是在一个循环中，根据环境反馈使用工具的大模型。

听起来就像我们自己上班干活：一边观察需求，一边想怎么做，一边忘掉上周做过什么。

为啥叫“智能体”，看起来却不智能

你可能也遇到过这种情况：

Agent 明明理解了任务，却执行得乱七八糟；你写了一大段 prompt，它还是“想当然”；模型输出完一段话，甚至忘了自己刚才说了什么。

这是因为，Agent 的“智能”建立在模型本身的能力之上。但问题在于：

概率模型

无状态

每次调用都可能“重新做人”

所以当 Agent 需要多轮决策、工具调用和状态记忆时，就容易出错：出错一次是模型的锅，出错三次就是你 Agent 架构的问题。做一个能跑起来的 Agent并不难，但做一个靠谱、稳定、能复用的 Agent，就真得下功夫了。所以 Barry（Anthropic）才说：

Agent 最适合用在那些任务复杂、有价值、可行性高，但对失败容忍度也高的场景。

换句话说：重要但不致命的活，Agent 才能放心接。 有时候我看着 Agent 输出的内容都想劝它一句：您别干了，您歇会儿，活我自己来。

从单Agent solo 到多 Agent 乐队

既然 Agent 一不留神就翻车，那业内当然要出招解决。于是，各种 Agent 架构和“派系”纷纷出山，八仙过海，各显神通。

workflow 派：你别瞎干，我帮你安排好流程

Agent 总是乱来？那我们就固定运行流程，让 AI 仅在需要的环节发挥作用就好。Agent 与 workflow 最大的区别在于大模型能否在其中起到自主规划的作用。目前workflow更多的是对业务逻辑的描述和封装，AI仅作为其中的一个节点/组件服务于特定环节。说白了就是：你别琢磨怎么决策，你就把第三步的 API 调了就行。

我们依然借用 Anthropic 对二者区别的描述：

Workflows are systems where LLMs and tools are orchestrated through predefined code paths
Agents, on the other hand, are systems where LLMs dynamically direct their own processes and tool usage, maintaining control over how they accomplish tasks.

虽然 workflow 难以支撑复杂场景的端到端智能化，但是它可以作为Agent 的工具，成为 Agent 的一部分

Beyond Agent 派：别再“走一步看一步”了

在前面我们提到 Agent 通常是在循环中根据环境反馈进行决策和⼯具使用，虽然这种 ReAct 模式是当下主流的 Agent 行动框架但它也存在显著的问题：走一步看一步，缺少全局规划；工具调用结果追加到上下文中导致 token 爆掉，最终任务执行失败。

于是更“聪明”的结构来了：

✅ Plan & Execute

全局规划：根据任务生成一个全局的多步骤的详细执行计划任务执行：按照计划表进行执行，返回结果重规划：根据执行结果动态调整计划

Manus 是一种典型借鉴这种思路的Agent，通过生成全局规划并按照任务清单进行执行，避免出现“走一步看一步，渐行渐远”的经典 Agent 翻车场景。

✅ ReWOO（Reasoning Without Observation）

相较于 Plan&Execute ReWOO 在规划器和执行器之外增加了一个求解器(Solver)，Solver专门负责综合规划和工具执行结果生成最终答案，极端一点：大模型只管思考，调用逻辑交给外部系统。

✅ LLMCompiler

把任务提前编译成 DAG，所有调用异步并发，解决 ReAct 顺序调用工具导致的延迟高、成本大、准确率受限等问题。

多 Agent 乐队

当单 Agent 在处理复杂任务遇到上限时，我们开始尝试让 Agent 组成团队，用类似人类协同的方式来提升整体的性能。单个 Agent 能力有限，干脆来点“集体智慧”。于是我们看到多 Agent 架构开始流行。几种典型组织方式如下：

架构	特点
网状结构	自由对话，但容易吵成一团
监督者模式	有个“老板 Agent”，所有人听它的
层级结构	类似人类组织：经理-主管-执行者

框架选型也不少：

手动编排流程

多 Agent 协作编排

现在的趋势是：越来越多框架都在做“Agent 编排” ，即通过多 Agent 协作完成复杂任务，而不是让一个 Agent 背锅到底。甚至 Google、OpenAI 都推出了自己的 Agent SDK，说明这个方向正走向标准化。但多 Agent 架构也不全是美好：多打一把反而打成绣花针，协调成本甚至超过了问题本身。沟通同步、任务冲突、上下文割裂、角色扮演错乱……这不是搞 AI，是搞一场全息职场模拟。

所以也有人说：

Don’t build multi-Agents.

你看人类都天天内耗了，Agent 组队翻车也不过分吧？🤣

一些思考和感悟

落地AI的“五味瓶”

在经过与大模型相爱相杀的一番折腾之后无论是技术同学还是为此买单的老板，几乎都会经过以下的心理路程：

1、AI 什么都能做

2、AI 什么都不能做

3、好像还是能做

4、好像还是不能做

5、貌似换个姿势也能做

简单总结：从信仰到破灭，再到将信将疑的实用主义。AI 到底能不能行，仍需要在具体的场景中贴紧业务上下求索。

Agent 开发：还是门复杂的工程活

你想让 Agent 不翻车，至少得解决这些问题：

提示词怎么写才对齐意图？工具描述怎么结构化才不被模型误解？怎么容错？怎么回滚？怎么重试？怎么观察系统表现？怎么自动化测试？

看起来像是“AI 编排”，本质上还是**开发一套能自证正确的分布式系统，**这仍然是一项复杂的工程挑战。

未来的 Agent 会变成什么样

从 通过提示词使模型输出工具调用指令 到 OpenAI 将 Function Call 的能力训练到模型内部

从 提示词引导模型进行思维链模式的思考 到 OpenAI O 系列模型/DeepSeek R1 推理模型开始登场

从纯工程 Agent 到模型微调 Agent 再到端到端 Agent

模型的能力正在一步步增强，它们逐渐能够直接完成复杂任务从而减少甚至消除对传统意义上独立于模型之外的Agent开发工作的需求。

当下正有一种“主流”观点：在未来模型即服务、模型即产品。 该观点认为Agent 的关键在于模型内在智能的提升，而不是通过预先设定好的、由提示词和工具调用路径构成的工作流，AI Agent 发展的下一个阶段是将传统Agent所追求的“自主性”（如自主规划、决策、执行能力）直接训练到模型内部，Agent 消失，智能内生。

如此以来工程复杂度没了，效果还更好了。如果真有那么一天，可能唯一还需要我的地方就是：给它插上电源，静静地看它自己上线、自己调用、自己复盘……然后顺手开我一张发票。✌️

尾声：你也在搞 Agent 吗？

你如果也在做 Agent，欢迎来聊聊你遇到过最迷惑的调用行为，或者你最想对 Agent 说的一句话。

评论区见，我们继续 debug。

什么是 AI Agent：一句话说不清，但我说说看

你心中的 AI Agent 是什么样？

为啥叫“智能体”，看起来却不智能

从单Agent solo 到多 Agent 乐队

workflow 派：你别瞎干，我帮你安排好流程

Beyond Agent 派：别再“走一步看一步”了

多 Agent 乐队

一些思考和感悟

落地AI的“五味瓶”

Agent 开发：还是门复杂的工程活

未来的 Agent 会变成什么样

尾声：你也在搞 Agent 吗？

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

什么是 AI Agent：一句话说不清，但我说说看

你心中的 AI Agent 是什么样？

为啥叫“智能体”，看起来却不智能

从单Agent solo 到多 Agent 乐队

workflow 派 ：你别瞎干，我帮你安排好流程

Beyond Agent 派：别再“走一步看一步”了

多 Agent 乐队

一些思考和感悟

落地AI的“五味瓶”

Agent 开发：还是门复杂的工程活

未来的 Agent 会变成什么样

尾声：你也在搞 Agent 吗？

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

workflow 派：你别瞎干，我帮你安排好流程