掘金 人工智能 前天 11:23
当 think 遇上 tool:深入解析 Agent 的规划之道
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了AI Agent在执行任务时遇到的“不三思而后行”的问题,并基于Anthropic和OpenAI的最新研究,提出了通过引入“思考工具”(Think Tool)来重塑Agent行为模式的解决方案。文章指出,与“扩展思考”(Extended Thinking)不同,“思考工具”允许Agent在响应过程中主动暂停、整理思路,并显式记录思考过程,从而显著提升了处理复杂任务的效率和准确性。作者结合实际开发经验,分享了构建规划Agent的三大主流方案,重点推荐了“思考工具”的工程化实践,并提供了模型选型、工具配置、Prompt设计及防循环错误处理的四步实战指南。最终强调,将Agent的思考过程显式化是提升其可靠性和可控性的关键。

💡 AI Agent普遍存在“不规划、先执行”的问题,表现为启动过快、重复调用接口、逻辑断片等,作者将其归因于AI缺乏“做计划”的意识,并提出“规划”是Agent的第一性能力,如同人类的“先在脑子里走一遍流程”。

🚀 OpenAI和Anthropic的研究揭示了“规划”的重要性:OpenAI通过“强行规划”指令配合RLHF,在SWE-bench上提升了4%的通过率;Anthropic则通过引入“思考工具”(Think Tool),在τ-bench上实现了54%的完成率提升,证明了显式规划对重塑模型行为模式的有效性。

🤔 “思考工具”与“扩展思考”的区别在于发生时机和可追踪性:“扩展思考”发生在AI响应之前,是内部黑盒的“打草稿”;而“思考工具”发生在响应过程中,是显式触发、可记录、可分析的“暂停整理”,更适合处理需要分析外部信息和保持逻辑一致性的复杂场景。

🛠️ 主流规划方案包括Prompt显式规划、结构化思考工具和独立规划模块,其中“思考工具”因其对开源模型的友好性、强制结构化输出以及可追溯调试的优点,成为当前优选。蚂蚁集团的生产级实践也印证了其工程化价值,通过强制结构化、步骤追踪、行动导向和流式输出,提升了Agent的可靠性。

📈 构建规划Agent的实战指南包括:选择对Function Call优化的模型(如DeepSeek-V3 Function Call版),配置核心的“思考与规划工具”并强制调用;严谨描述业务工具,明确使用场景、边界和限制;设计系统级和业务层Prompt,提供清晰的“行为准则”;以及通过硬性限制和软性引导的双层防护机制,防止Agent陷入死循环。

当 think 遇上 tool:深入解析 Agent 的规划之道

字数:约 3500 字 | 预计阅读时间:10 分钟

大家好,我是 Leon

AIcoding越来越卷,工具越接越多,但越用越让我焦虑 —— 特别是某 c....r
它总像一个急着表现的新同事,不问全局、就开始动手执行。我发现它:

这些坑我踩过太多次,以至于后来我都养成了“先给 AI 做一个冷启动提示词”的习惯。
有点像是:

“你别急,我先帮你想好怎么干,你再去动手。”

我们人类其实很擅长“在脑子里先走一遍流程”这件事。
这种能力,说白了就是 规划(Planning) 。AI 不具备,是因为它根本没有“做计划”这个意识。

作为一个在 AI 应用开发一线摸爬滚打的算法工程师,我的目标是让 Agent 拥有它。今天就和大家分享一下最近的学习心得 —— 如何让你的 Agent 学会「三思而后行」:基于 Anthropic、OpenAI 的最新研究,以及我在实际开发中的踩坑经验。

一、AI,不擅长“打草稿”这件小事

数据不会骗人,两个官方实验直接拉开了差距

实验1:OpenAI官方的"强行规划"实验

在 SOTA 论文里,OpenAI 的研究员干了一件很极致的事——他们不是引导模型去规划,而是强行命令它:“先规划,再行动,别自作主张”。

贴一个原话:

多加这一句,SWE-bench 的通过率就提升了 4%。
虽然你可能觉得 4% 不多,但要知道这是在已经很强的模型上拉的提升。

更重要的是——OpenAI 这个实验不是靠 prompt 魔法,而是配合后训练(RLHF)来强化这个指令的。
我们用的开源模型,别说RLHF了,连理解都不一定到位……

实验2:Anthropic的"思考工具"

Anthropic更进一步,他们不只是"要求"模型规划,而是给了模型一个专门的工具——think tool:

看起来简单到令人发指,对吧?但这就是工程学的美妙之处——最优雅的解决方案往往是最简单的

直接在 τ-bench 上直接提升了 54% 的完成率。

一个“思考工具”能顶得上半个模型优化?!

然后我意识到一件事:这不是在优化“推理能力”,这是在重塑模型的行为模式——让它从“习惯执行”变成“先组织认知,再输出行为”。

Think Tool vs Extended Thinking:不只是"暂停"

这里有个重要的概念需要澄清。很多人会问:"这和Extended Thinking有什么区别?"

模式思考发生时间可控性记录性Extended Thinking回复之前黑盒无法追踪Think Tool回复之中显式触发可记录、可分析

Think Tool更适合处理那些需要分析外部信息的复杂场景,比如:

54%的性能提升背后,是AI从"盲目执行"到"深思熟虑"的质的飞跃。
你可能会觉得:一个工具调用而已,至于这么讲究吗?

但我想说的是,在我不断试错的过程中发现,只有让“思考”成为流程的一部分,Agent 才不再是一个随机响应的黑盒,而是一个可以协同的思考体。

这就是我为什么把“规划能力”当成是 Agent 的第一性能力——只有它拥有了“画施工图”的本领,才有可能成为我们真正意义上的智能助手。

二、三大主流规划方案:各有千秋

那么,如何让AI学会规划呢?目前业界主流的方案有三种,各有千秋

方案 代表 实现方式 我的评价 Prompt显式规划OpenAI在Prompt中要求输出规划步骤简单直接,但效果限于OAI的后训练模型结构化思考工具Anthropic定义think工具让模型主动调用可靠性高无限制,首选独立规划模块OpenManus专门的Planning Flow生成计划适合超复杂任务,但重炮打蚊子

为什么“思考工具”是当前优选?

Leon's Take: 作为一个追求优雅和通用方案的J人,答案其实很清晰。我们需要的不是一个更聪明的“黑盒”,而是一个更可靠、更可控的“流程”。

    1. 开源模型友好:对于"请规划一下"这种模糊指令,开源模型的理解能力参差不齐。但「调用xx工具」这是它们的强项。2. 强制结构化:工具可以强制模型输出特定字段,比如:
    3. 可追溯调试:每次思考都有记录,出问题时能快速定位。

蚂蚁集团的论文也印证了我的想法。他们在构建自己的Agent平台时,最终选择了复用Anthropic的 思考工具 思路

蚂蚁集团的生产级实践

蚂蚁的工程师们在实际部署中,设计了一个更加工程化的思考工具:

这个设计的巧妙之处在于:

特别是thoughtNumber,对于我们这些需要调试和复盘的J人来说,简直是福音。

三、实战指南:四步构建规划Agent

接下来,我们以构建一个具备规划能力的Agent为例,提供一套从模型选型到Prompt设计的完整实践指南。

Step 1: 模型选型——工欲善其事,必先利其器

Step 2: 核心关键工具配置

思考与规划工具 (think_and_plan)

这是我们为Agent植入的“大脑”。它的定义至关重要。

使用逻辑:可以在System Prompt强制模型在每次调用业务工具前,必须先调用此think_and_plan工具。模型需要根据这个工具的输出来决策下一步的具体行动。

📌 核心经验:投入在优化工具和工具Prompt描述上的精力,与最终提升用户体验的精力,是1:1的。(这句话得是多么痛的领悟...

业务工具描述——像写API文档一样严谨

一个常见的失败模式是Agent遇到问题时,陷入无限循环调用。我们需要一个“熔断”机制,这和写普通代码的异常处理逻辑是相通的,另外给LLM的路径尽量用绝对路径等等

✅ 好的工具描述

❌ 糟糕的工具描述

区别在哪里?好的描述告诉AI:

    1. 什么时候用我(使用场景)2. 我能做什么(功能边界)3. 我做不了什么(限制条件)4. 怎么用我(参数规范)

Step 3: Prompt设计——Agent的"行为准则"

系统级指令

业务层补充

针对具体场景,我会添加更详细的指导,举个栗子:

Step 4: 防循环与错误处理——给Agent装上"安全带"

在实际项目中,我遇到过Agent陷入死循环的情况。比如:

      调用工具A失败
      重新规划,还是调用工具A
      再次失败,再次规划...
      无限循环

解决方案:双层防护

硬性限制(写进代码)

软性引导(写进 Prompt)

四、争议与思考:工具 vs 纯推理

一个常见的问题是:我们能否用一个更强的推理模型,来代替think工具呢?

Anthropic的结论是:不能,至少目前不行。

在Claude 3.7上的实验表明, “思考工具 + 专用Prompt” 的效果,显著优于单纯依赖模型自身推理的模式。

可能的原因

    1. 领域定制:工具的Prompt可以针对特定领域(如航空、金融)的思考模式进行深度定制和优化,这是通用推理模式无法比拟的。2. 上下文保留:工具调用会将每一次的思考过程(规划、反思)完整地保留在上下文中,形成一个清晰的逻辑链。而纯推理模型为了节省token,可能会在内部“遗忘”或删减中间的思考步骤。3. 可控性:工具调用是可控的、可追踪的,而模型内部推理对我们来说是黑盒。

这让我想起了软件工程中的一个原则:显式优于隐式。把思考过程显式化,总是比依赖黑盒推理更可靠。

结语:从"码农"到"AI架构师"

写到这里,我想分享一个感悟。

把“规划”显式化这件事很反直觉。毕竟人类的思维是隐性的、灵活的。但 Agent 是个偏执行型的东西,如果不给它立规矩,它就永远是个胡乱点技能的萌新。

毕竟“聪明”这件事,是在限制中长出来的。

我们未来的能力,也许不在于 Prompt 写得多 fancy,
而在于我们能不能把模糊的问题,变成清晰的链路;
把复杂的世界,变成模型可理解的认知场。

📬 如果你也在做 Agent 系统设计,欢迎一起讨论。

我们都在试错路上,别让自己一个人踩坑。

往期精彩RAG检索策略深度解析:从BM25到Embedding、Reranker,如何为LLM选对“导航系统”?10分钟搞定!AI表情包自由,白嫖GPT-4o,让你在群里横着走!还在置顶文件传输助手吗?元宝也可以置顶聊天了!快来试试AI助手吧!SEO老了?GEO来了!玩转传统搜索+AI搜索,吸引眼球大作战!智能Agent如何改造传统工作流:从搜索到全能助手AI团队比单打独斗强!CrewAI多智能体协作系统开发踩坑全解析深入浅出:Agent如何调用工具——从OpenAI Function Call到CrewAI框架一文读懂-多智能体编译:从例行到交接的奥秘《使用coze搭建一个会搜索、写ppt、思维导图的Agent》AI驱动开发:用Cursor零基础打造web项目的终极指南在 RAG 中数据处理的关键:数据切片的挑战与解决方案阅读原文链接了解更多信息

觉得有用?点赞、在看、转发三连,下次教你更刺激的AI玩法!

参考资料

[1]github.com/openai/open…

[2]www.anthropic.com/engineering…

[3]github.com/modelcontex…

[4]www.anthropic.com/engineering…

[5]docs.anthropic.com/en/docs/bui…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Agent AI规划 思考工具 Function Call Prompt工程
相关文章