对 agent 的一个暴论：现有 (multi) agent workflow 的模式没有太大价值。Agent 今年（在以吴恩达老师为首的各类大佬的吹捧下）热度很高，但现有的这些所谓的 (m...

对 agent 的一个暴论：现有 (multi) agent workflow 的模式没有太大价值。Agent 今年（在以吴恩达老师为首的各类大佬的吹捧下）热度很高，但现有的这些所谓的 (multi) agent workflow，本质上是把一个大任务拆分成很多个子任务，每个子任务都有明确的 input 和 output，自己定义一些变量和接口，把这些子任务串起来。这种方式很像是早期的自动驾驶，把感知和规控分开解，或者是上一代的语音助手，把语音转文字、LLM、语音合成这些工作流串起来。

终极的解决方案应该不是这个样子的。现有的 (multi) agent workflow，速度慢先不说，最大的问题还是在接口的地方把信息降维了。这些 input / output 的接口和变量，本质上都是把信息降维到人能理解的维度，这是以高维信息的损失为代价的。每多一层 workflow，损失的信息就多了一次。面对简单问题时， (multi) agent workflow 或许是可行的，但它注定无法解决复杂问题。就好比Waymo 用感知+规控的架构，搭配高精地图，能够在凤凰城和三藩市勉强把本地 L4 跑通，但很难 scale 成一个通用的解法。只有 Tesla 端到端的方案才是自动驾驶的未来。

因此，现有的 (multi) agent workflow方式注定只是一个中间状态，类似自动驾驶中感知+规控+高精地图的拼凑。而最终想要解决复杂问题，需要靠基础模型的进化。当模型能力足够强之后，应该是可以端到端的解决问题。你可以在 prompt 里提示它去使用某些工具，或者采用某些步骤，但应该不需要人为去把 workflow 拆出来。

Agent 的概念依旧重要，但应该回归它更加 native 的定义，即每一个 Agent 应该是独立的智能体，拥有自己的 memory, planning, tool use 等能力，能够端到端地解决问题，而不是需要人类按照自己的理解一口口地把饭喂到嘴里。一个 Agent 就应该是一辆独立的L5 Autopilot 的汽车，而不是一堆弱智 L2 Workflow 凑出来的所谓 multi agents 辅助驾驶杂牌军团。这听起来就很不优雅。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签