掘金 人工智能 05月01日 17:48
【LLM SFT & RL】论文分享No.4:AutoCoA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了一种名为AutoCoA的自动行动链生成框架,旨在提升推理模型在多轮工具使用方面的能力,尤其是在需要长期推理和多步骤操作的任务中。AutoCoA通过动态交织思维与行动,使模型能够自主决策何时及如何使用工具,从而实现推理与行动的无缝衔接。该框架在SFT和RL两个阶段进行训练,通过模拟环境和真实环境的结合,让模型学会规划最佳行动链,并适应动态变化的环境。实验结果表明,AutoCoA能显著提高任务完成率,并降低真实工具调用成本。

💡CoT与CoA的区别:CoT侧重于模型的逐步推理,而CoA则强调思维与行动的动态结合,赋予模型自主决策何时及如何使用工具的能力,从而解决需要多步骤工具交互的任务。

🤖Agent Model与POMDP:作者将Agent Model的推理过程类比为AI助手解决问题的过程,并用POMDP进行描述。AI助手在每次决策时,需要考虑下一步是思考还是行动,并根据环境反馈调整策略,最终给出答案。

🔥模型训练:SFT阶段旨在让模型学会人类的“规矩”,即何时以及如何使用工具,同时保留纯推理能力。RL阶段则让模型自主规划最佳行动链,减少真实工具调用成本,并适应动态环境变化。

论文:arxiv.org/abs/2503.06…

代码:github.com/ADaM-BJTU/A…

时间线:2025/03/09(submitted)

简介

这篇论文提出了一个自动行动链生成(AutoCoA)框架,目的是为了增强推理模型的多轮工具使用能力,尤其是那些需要长期推理和多步骤操作的任务,效果会非常好。

通篇看下来,工作还是非常扎实的,所以篇幅有点长,可以耐心看完,一起交流学习经验。

CoT vs CoA

在正式介绍论文开始,先说明下CoT和CoA的区别,有助于理解论文的内容,CoT大家应该都很熟悉了,就是你用DeepSeek这种模型的时候,模型的思考过程,但CoA对大部分人应该就很陌生了,主要是在Agent应用中用到,因为有动作(Action),涉及到使用具体的工具(Tool)。论文里面的图2,也展示了 CoT(Level 2)和 CoA(Level 3)的区别。

列一张表格说明下区别:

维度Chain-of-Thought (CoT)Chain-of-Action (CoA)
定义思维链,强调模型通过分步推理生成中间逻辑步骤,逐步推导答案。行动链,动态交织思维(Thought)与行动(Action),生成包含工具调用、环境交互的序列化动作序列。
核心目标增强模型的逻辑推理透明度,解决复杂推理问题(如数学、逻辑问答)。赋予模型自主决策何时及如何使用工具/环境的能力,实现推理与行动的无缝衔接,解决需要多步工具交互的任务。
交互方式纯文本推理,依赖内部知识,无需外部工具或环境交互。结合内部推理与外部工具调用(如API查询、计算器、知识库检索等),需与真实/数字环境互动。
决策自主性仅决定“如何思考”,不涉及工具使用的触发或执行。主动判断“是否需要行动”、“使用什么工具”、“如何执行动作”,具备工具使用的自主决策能力。
典型输出推理过程文本(如“首先计算A,然后比较B和C,最后得出结论…”)。包含动作指令的序列(如“调用天气API获取某地温度→根据温度推荐衣物→生成建议文本”)。
应用场景数学题解答、逻辑推理、常识问答等纯文本推理任务。开放域问答(需外部知识)、任务型对话(需调用工具)、机器人控制(需物理环境交互)等。

Agent Model

作者定义了Agent Model,它的推理过程可以想象成一个 AI助手帮你解决问题的过程,它需要 边想边做,中间可能还要用工具(比如查资料、调用 APP)。这个过程可以用 POMDP(部分可观察马尔可夫决策过程)来描述,核心是说:AI助手每次做决策时,既要想下一步该 “思考” 还是该 “行动”,又要根据环境反馈(比如工具返回的结果)调整策略

POMDP

状态(State)

有个状态(State) 的概念,可以理解成当前已知的所有信息,论文里的状态公式可以拆解为三个:

类比:就像你打开外卖APP时,APP知道你在哪、你说了“想吃辣”,还记录了你之前搜过什么、看过哪些餐厅的评价。

三种操作模式

每次决策时,AI助手可以选以下三种操作模式:

关键

策略(Policy)

策略 就是AI助手的“决策规则”,它根据当前状态(已知信息)决定下一步该选⟨think⟩⟨action⟩还是⟨answer⟩

比如:

实际案例说明

模型训练 - SFT Stage

这个阶段目的是让模型先学会人类的“规矩”,也就是说:“什么时候该用工具”、“怎么用工具”,同时保留纯推理的能力(比如算满减)。

可以看到,SFT、RL 两个阶段都混合了CoT数据,理由是确保模型不会忘记推理能力,并且可以自适应的决定是否在不同难度的任务上使用行动。同时,在SFT的开始阶段,作者添加了一个额外的子阶段,称为CoT+A。

子阶段 1:CoT+A

给模型看“正反对比”的案例,强制它学会,对于某些问题,需要用工具才能答对。

子阶段 2:CoT+CoA(w/ observation mask)

训练模型怎么用对工具,但暂时不关心工具返回的真实结果。

子阶段 3:CoT+CoA(w/o observation mask)

让模型能够预判工具的结果是怎样的,像是在点餐时,看到“西红柿炒鸡蛋”,就大概知道是什么样子了。

模型训练 - RL Stage

让模型自主规划最佳行动链,减少真实工具调用成本,适应动态环境(比如餐厅营业时间变化)。

子阶段 1:CoT+CoA(simulated environment)

子阶段 2:CoT+CoA(real environment)

训练数据构造

训练集

取自 HotpotQA,是一个多跳问答数据集,包含多步推理的问题和答案。作者随机选取2万个样本构成数据集D,每个数据的样式为QA对:

构造工具

CoT数据构造

从数据集D中随机选取1万个样本作为基础数据,使用 DeepSeek-R1-Distill-Qwen-32B ,通过一个CoT Prompt,让模型生成了纯思维链过程,但不允许使用外部工具。

这些CoT数据包括问题拆解、已知信息分析和最终答案,能够保持模型的基本推理能力,确保它能够处理不需要外部知识补充的问题。

CoA数据构造

从数据集中选择剩下的1万个样本进行构造,同样使用一个引导模型在遇到知识差距时调用搜索工具的CoA prompt。这些CoA数据包括问题、推理过程和最终答案,能够让模型学习何时以及如何触发动作,以及如何根据返回的观察结果继续推理。

CoT+A数据构造

筛选 “双错样本”:首先从构造的CoT和CoA样本中,找出两种方法单独使用都会导致错误的样本。

生成对比对:对于同一个问题,生成两个版本的推理路径:

SFT 数据训练

数据配比

Stage-1:CoT+A

作者用 表示在策略模型下提高其概率的序列,用 表示想降低概率的序列。

对于大多数的样本,将包含⟨action⟩标记的序列视为 ,剩下的都是一些仅包含⟨think⟩标记并最终得出正确答案的序列。

对于给定的上下文,计算每个目标输出序列的对数概率,归一化后,结果为:

其中 表示序列的长度, 表示当前模型针对给定序列输出的概率。所以,最终的对比损失函数为:

其中 sigmoid函数,这个损失会激励模型为选定的序列分配比被拒绝的序列更高的概率。

但在实际的训练过程中,作者观察到一种现象:被选择的和被拒绝的序列概率往往会同时降低,这可能会导致模型崩溃。为了防止这种情况,引入了一个辅助的有监督微调损失。

这种辅助损失会让模型为选定的序列保持高概率,同时将它们与被拒绝的序列区分开来。那么最终损失函数为:

其中 是控制辅助损失的权重系数。

Stage-2:CoT+CoA(w/ observation mask)

这一阶段与下一阶段最大的区别是,有无mask掉工具返回的结果,这一阶段mask掉了,因为重点是让模型先学会怎么使用工具,所以不要让模型受到工具返回结果的干扰。

给定上下文,以及完整的决策轨迹,其中,因此该阶段的损失函数定义为:

其中表示与外部反馈不对应的标记,并且在损失计算中,只考虑与这些标记相关的数值项。

Stage-3:CoT+CoA(w/o observation mask)

这个阶段就不做mask的操作了,因为训练目标是要让模型优化其内部推理和动作输出,学会准确预测外部反馈结果,原文是没给出损失函数的定义,但也很好推出来,将去掉就行:

RL 数据训练

Reward Function

分两个,内容与格式上的约束:

优化方法

采用近期大热的GRPO方法,具体原理不多说了,放一张图。

实验结果

评测方式

模型与框架选型

关键结论

作者还通过图3说明了CoA 的作用,能让模型从 “只能做简单几步操作” 升级为 “能连贯处理多步复杂任务” ,尤其是需要长期推理和多次工具交互时优势明显。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AutoCoA 行动链 推理模型 工具使用
相关文章