真正的AI智能体即将到来：告别死板提示词，迎接自主规划时代！

最近到处都在讨论「智能体」（Agents），但最重要的一次智能体突破却几乎无人察觉。

2025年1月，OpenAI发布了名为DeepResearch的O3模型变种，专门用于网页和文档搜索。得益于在浏览任务上的强化学习训练，DeepResearch具备了制定搜索策略、交叉核对信息源、甚至利用反馈获得深层次知识的能力。无独有偶，Anthropic的Claude Sonnet 3.7也成功地将同样的强化学习方法应用于代码领域，在复杂的编程任务中展现出超越以往所有模型编排系统的能力。

正如William Brown在演讲中所说的：「LLM智能体能够完成长时间、多步骤的任务了。」

这一进展促使我们重新思考：什么才是真正的LLM智能体？去年12月，Anthropic提出了一个全新的定义：「LLM智能体能动态地决定自己的执行流程和工具使用方式，并自主控制任务的完成过程。」

与之相对，目前更为普遍的所谓智能体实际上都是工作流系统（workflows），也就是通过预设的代码和规则来协调LLM和工具的系统。例如最近备受关注的Manus AI，经过我的亲自测试后发现，它其实仍存在明显缺陷，这些缺陷早在AutoGPT时代就已经很明显了，特别是在搜索方面表现更差：

因此，这篇文章提出一个更严谨的「LLM智能体」定义，试图结合有限的官方信息、开放研究进展以及我个人的一些推测，解释智能体究竟是什么、它们将如何改变世界。

LLM智能体的「苦涩教训」

传统的智能体与基础大语言模型（base LLM）完全不同。

在经典的强化学习中，智能体生活在有限制的环境里，就像在迷宫里行走。智能体的每个动作都有物理或规则上的约束。随着训练，它们会逐渐记住路径、总结经验，并探索最佳策略。这一过程被称为「搜索」（search），类似于我们日常使用搜索引擎的点击行为。去年曾经热议的OpenAI Q-star算法，据传就是从1968年著名的搜索算法A-star衍生出来的。

然而，大语言模型（LLM）的基础逻辑恰恰相反：

智能体能记住环境，但基础LLM不能，它们只能处理当前窗口内的信息；

智能体受现实条件限制，但基础LLM生成的是概率最高的文本，随时可能「跑题」；

智能体能规划长期策略，基础LLM却只能做好单步推理，面对多步推理任务很快就会「超载」。

目前，大部分「LLM智能体」的做法都是利用预定义的提示词（prompt）和规则来引导模型。然而，这种方法注定要遇到「苦涩教训」（Bitter Lesson）。所谓苦涩教训是指，人们经常倾向于将自己的知识硬编码进系统中，短期内效果很好，但长期却严重限制了系统的发展。真正的突破总是来自搜索与学习能力的提升，而非人为规则的增加。

这就是为什么类似Manus AI这类工作流系统无法顺利地订机票或教你徒手打虎——它们本质上是被苦涩教训咬了一口。靠提示词和规则无法持续扩展，你必须从根本上设计能够真正搜索、规划、行动的系统。

RL+推理：LLM智能体的制胜秘诀

真正的LLM智能体，应该长什么样呢？官方信息虽然少，但从现有的研究中可以归纳出一些共同特征：

强化学习（RL）
LLM智能体采用强化学习进行训练，类似传统的游戏智能体：定义一个目标（奖励），再训练模型通过反复尝试获得这个奖励。

草稿模式（Drafts）
模型并非逐字逐句进行训练，而是一次生成一整段文字（draft），再整体进行评估和反馈，从而加强模型的推理能力。

结构化输出（rubric）
模型的输出被限定成明确的结构，以便于快速、准确地进行奖励验证。

多步训练（如DeepSeek提出的GRPO算法）
模型不是单步训练，而是连续多步训练。例如搜索任务中，模型会不断调整策略、回溯、重新搜索等，逐步提高效率。

上述过程能在不耗费过多计算资源的情况下实现，从而逐渐走向大众化，这将成为未来LLM智能体爆发的基础。

等等，这东西能规模化吗？

然而，要真正实现像DeepResearch这样的搜索智能体，还有一个大问题：我们根本没有足够的训练数据！

过去搜索模型往往只能靠历史数据，而现有的公开数据集中，几乎找不到真正体现用户规划和搜索行为的数据（如点击轨迹）。类似谷歌用户搜索历史这种数据，几乎只能从大公司获得，但这些数据几乎是不对外开放的。

目前能想到的解决方案是：用模拟方式创造数据。我们可以把互联网内容包装成一个虚拟的「网络模拟器」，让模型在里面反复尝试搜索目标，不断优化搜索路径。这种训练过程耗费巨大，但可以通过技术优化来减轻负担。

我推测OpenAI和Anthropic这样的公司，可能就是用类似方法在训练DeepResearch这样的模型：

创建虚拟的网络环境，训练模型自由地进行搜索；

先用轻量的监督微调（SFT）进行预热；

再用强化学习多步训练，不断提高搜索策略；

最后再训练模型更好地整理输出结果。

真正的LLM智能体，根本不需要「提示」

当真正的LLM智能体出现之后，它会和现在基于提示词和规则的系统完全不同。回到Anthropic的定义：

LLM智能体动态地决定自己的流程和工具用法，完全自主。

以搜索任务为例：

模型自动分析用户需求，如果不明确，会主动询问；

模型自主选择最佳的信息源或API接口；

模型会自己规划搜索路径，能在走错路时主动调整；

所有过程都有记录，提升了可解释性和信任度。

LLM智能体可以直接操纵现有的搜索基础设施，用户再也不用特意学习如何使用「提示词」了。

这种方法同样可以延伸到金融、网络运维等多个领域：未来，一个真正的智能体不再是个花哨的AI助手，而是一个懂你需求、主动帮你完成任务的真正代理。

2025：智能体元年？

目前，只有少数几家大公司有能力开发出真正的LLM智能体。虽然短期内这样的技术可能仍集中在巨头手里，但长远来看，这种局面必须被打破。

我不喜欢过度炒作新技术，但LLM智能体的爆发力不容忽视。2025年会是智能体真正崛起的一年吗？答案还要看我们如何行动。

让我们拭目以待！

LLM智能体的「苦涩教训」

RL+推理：LLM智能体的制胜秘诀

等等，这东西能规模化吗？

真正的LLM智能体，根本不需要「提示」

2025：智能体元年？

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签