宝玉的分享 03月13日 21:50
真正的AI智能体即将到来:告别死板提示词,迎接自主规划时代!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了LLM智能体的发展,包括其突破、特点、面临的问题及未来前景。OpenAI和Anthropic的模型展现了LLM智能体的能力,文章还提出了更严谨的定义,并探讨了其训练方法和应用领域,以及规模化的问题。

OpenAI发布DeepResearch用于网页和文档搜索,Anthropic的Claude Sonnet 3.7应用强化学习于代码领域

真正的LLM智能体应具备强化学习、草稿模式、结构化输出、多步训练等特征

实现搜索智能体面临训练数据不足问题,可通过模拟创造数据解决

真正的LLM智能体无需提示,能自主决定流程和工具用法,可应用于多领域

最近到处都在讨论「智能体」(Agents),但最重要的一次智能体突破却几乎无人察觉。

2025年1月,OpenAI发布了名为DeepResearch的O3模型变种,专门用于网页和文档搜索。得益于在浏览任务上的强化学习训练,DeepResearch具备了制定搜索策略、交叉核对信息源、甚至利用反馈获得深层次知识的能力。无独有偶,Anthropic的Claude Sonnet 3.7也成功地将同样的强化学习方法应用于代码领域,在复杂的编程任务中展现出超越以往所有模型编排系统的能力。

正如William Brown在演讲中所说的:「LLM智能体能够完成长时间、多步骤的任务了。

这一进展促使我们重新思考:什么才是真正的LLM智能体?去年12月,Anthropic提出了一个全新的定义:「LLM智能体能动态地决定自己的执行流程和工具使用方式,并自主控制任务的完成过程。」

与之相对,目前更为普遍的所谓智能体实际上都是工作流系统(workflows),也就是通过预设的代码和规则来协调LLM和工具的系统。例如最近备受关注的Manus AI,经过我的亲自测试后发现,它其实仍存在明显缺陷,这些缺陷早在AutoGPT时代就已经很明显了,特别是在搜索方面表现更差:

因此,这篇文章提出一个更严谨的「LLM智能体」定义,试图结合有限的官方信息、开放研究进展以及我个人的一些推测,解释智能体究竟是什么、它们将如何改变世界。


LLM智能体的「苦涩教训」

传统的智能体与基础大语言模型(base LLM)完全不同。

在经典的强化学习中,智能体生活在有限制的环境里,就像在迷宫里行走。智能体的每个动作都有物理或规则上的约束。随着训练,它们会逐渐记住路径、总结经验,并探索最佳策略。这一过程被称为「搜索」(search),类似于我们日常使用搜索引擎的点击行为。去年曾经热议的OpenAI Q-star算法,据传就是从1968年著名的搜索算法A-star衍生出来的。

然而,大语言模型(LLM)的基础逻辑恰恰相反:

    智能体能记住环境,但基础LLM不能,它们只能处理当前窗口内的信息;

    智能体受现实条件限制,但基础LLM生成的是概率最高的文本,随时可能「跑题」;

    智能体能规划长期策略,基础LLM却只能做好单步推理,面对多步推理任务很快就会「超载」。

目前,大部分「LLM智能体」的做法都是利用预定义的提示词(prompt)和规则来引导模型。然而,这种方法注定要遇到「苦涩教训」(Bitter Lesson)。所谓苦涩教训是指,人们经常倾向于将自己的知识硬编码进系统中,短期内效果很好,但长期却严重限制了系统的发展。真正的突破总是来自搜索与学习能力的提升,而非人为规则的增加。

这就是为什么类似Manus AI这类工作流系统无法顺利地订机票或教你徒手打虎——它们本质上是被苦涩教训咬了一口。靠提示词和规则无法持续扩展,你必须从根本上设计能够真正搜索、规划、行动的系统。


RL+推理:LLM智能体的制胜秘诀

真正的LLM智能体,应该长什么样呢?官方信息虽然少,但从现有的研究中可以归纳出一些共同特征:

    强化学习(RL)
    LLM智能体采用强化学习进行训练,类似传统的游戏智能体:定义一个目标(奖励),再训练模型通过反复尝试获得这个奖励。

    草稿模式(Drafts)
    模型并非逐字逐句进行训练,而是一次生成一整段文字(draft),再整体进行评估和反馈,从而加强模型的推理能力。

    结构化输出(rubric)
    模型的输出被限定成明确的结构,以便于快速、准确地进行奖励验证。

    多步训练(如DeepSeek提出的GRPO算法)
    模型不是单步训练,而是连续多步训练。例如搜索任务中,模型会不断调整策略、回溯、重新搜索等,逐步提高效率。

上述过程能在不耗费过多计算资源的情况下实现,从而逐渐走向大众化,这将成为未来LLM智能体爆发的基础。


等等,这东西能规模化吗?

然而,要真正实现像DeepResearch这样的搜索智能体,还有一个大问题:我们根本没有足够的训练数据!

过去搜索模型往往只能靠历史数据,而现有的公开数据集中,几乎找不到真正体现用户规划和搜索行为的数据(如点击轨迹)。类似谷歌用户搜索历史这种数据,几乎只能从大公司获得,但这些数据几乎是不对外开放的。

目前能想到的解决方案是:用模拟方式创造数据。我们可以把互联网内容包装成一个虚拟的「网络模拟器」,让模型在里面反复尝试搜索目标,不断优化搜索路径。这种训练过程耗费巨大,但可以通过技术优化来减轻负担。

我推测OpenAI和Anthropic这样的公司,可能就是用类似方法在训练DeepResearch这样的模型:

    创建虚拟的网络环境,训练模型自由地进行搜索;

    先用轻量的监督微调(SFT)进行预热;

    再用强化学习多步训练,不断提高搜索策略;

    最后再训练模型更好地整理输出结果。


真正的LLM智能体,根本不需要「提示」

当真正的LLM智能体出现之后,它会和现在基于提示词和规则的系统完全不同。回到Anthropic的定义:

LLM智能体动态地决定自己的流程和工具用法,完全自主。

以搜索任务为例:

    模型自动分析用户需求,如果不明确,会主动询问;

    模型自主选择最佳的信息源或API接口;

    模型会自己规划搜索路径,能在走错路时主动调整;

    所有过程都有记录,提升了可解释性和信任度。

LLM智能体可以直接操纵现有的搜索基础设施,用户再也不用特意学习如何使用「提示词」了。

这种方法同样可以延伸到金融、网络运维等多个领域:未来,一个真正的智能体不再是个花哨的AI助手,而是一个懂你需求、主动帮你完成任务的真正代理。


2025:智能体元年?

目前,只有少数几家大公司有能力开发出真正的LLM智能体。虽然短期内这样的技术可能仍集中在巨头手里,但长远来看,这种局面必须被打破。

我不喜欢过度炒作新技术,但LLM智能体的爆发力不容忽视。2025年会是智能体真正崛起的一年吗?答案还要看我们如何行动。

让我们拭目以待!

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LLM智能体 强化学习 训练数据 自主决策
相关文章