掘金 人工智能 07月14日 14:13
「CoT」巧思还是骗局?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了CoT(Chain of Thought)技术,该技术旨在通过引导大语言模型展示推理过程来提升其解决复杂问题的能力。文章首先介绍了CoT的概念和应用,并通过示例展示了其优势。随后,文章讨论了对CoT有效性的质疑,并提出了在实际应用中结合CoT进行结构化输出的技巧,最后,文章还提到了CoT与ReAct等技术的关联,展示了AI领域不断发展的趋势。

🤔 CoT的核心在于优化Prompt,通过引导模型逐步展示推理过程来提升输出质量。例如,通过“请一步步思考并回答”的指令,可以使模型更清晰地解决问题。

🧐 尽管CoT在提升模型表现方面效果显著,但其可解释性仍面临挑战。有观点认为,模型展示的推理过程可能并非真正的思考过程,而更像是一种“表演”。

💡 为了在实际应用中实现结构化输出并结合CoT,可以在Prompt中设计包含推理细节的JSON格式。例如,在意向分类场景中,可以在JSON的特定字段中嵌入推理过程,方便后续处理和审计。

🚀 ReAct技术结合了推理和行动能力,在CoT的基础上,允许模型执行具体动作以获取信息,从而进一步优化输出结果。这代表了AI领域在提升模型推理能力上的发展趋势。

CoT是什么

Cot(Chain of Thought) 最初是由Google Research在2022年发表的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中正式提出的概念。

论文中,Cot被定义为:

"A method that enables language models to decompose multi-step problems into intermediate steps, enabling them to solve complex reasoning tasks by generating a series of intermediate reasoning steps before arriving at the final answer."

【主观理解】本质上可以理解为一种prompt的优化手段—通过让模型输出思考过程的方式来拆解复杂任务,提升模型输出的表现。

传统prompt: "直接回答X"CoT prompt: "请一步步思考并回答X,展示你的推理过程"

CoT示例

传统Prompt(直接回答)

Prompt:

一个商店有120个苹果,第一天卖出总数的1/3,第二天卖出剩余苹果的1/4,第三天又进了50个苹果。现在商店里有多少个苹果?

模型回复:

现在商店里有90个苹果。

CoT优化版本

Prompt:

请一步步思考并解决这个问题:一个商店有120个苹果,第一天卖出总数的1/3,第二天卖出剩余苹果的1/4,第三天又进了50个苹果。现在商店里有多少个苹果?请详细展示你的计算过程。

模型回复:

让我一步步计算:1. 初始状态:商店有120个苹果2. 第一天卖出总数的1/3:   - 卖出的数量 = 120 × (1/3) = 40个   - 剩余数量 = 120 - 40 = 80个3. 第二天卖出剩余苹果的1/4:   - 卖出的数量 = 80 × (1/4) = 20个   - 剩余数量 = 80 - 20 = 60个4. 第三天进了50个苹果:   - 最终数量 = 60 + 50 = 110个答案:现在商店里有110个苹果。

自Cot概念的提出以来,也有非常多的实验与理论佐证—Cot确实对模型输出的优化起到了非常好的正向作用,这里也不再赘述:

Cot相关原理可参考:zhuanlan.zhihu.com/p/629087587

质疑与思考

CoT骗局?

近期一篇集结了多位大佬(包括图灵奖得主Bengio)心血的论文,其核心观点犀利指出:

即使语言模型通过思维链一步步展示了推理过程,但这并不等同于真正意义上的“可解释性”,看起来很靠谱的推理步骤,其实只是一个精彩的表演,而不是我们理解的思考真相

结论确实有些反直觉,但确实我们日常使用大模型的过程中,推导与结论并不一致的情况时有发生,虽然没有深入研究论文中的论述,但对于llm界的吃瓜大众来说,也确实埋下了质疑的种子。

个人观点

其实不难理解,不仅思维链,llm本身的内部执行对用户,甚至对模型的缔造者来说,都是一个“黑盒”。这种黑盒属性,让模型的可解释性受到质疑。

虽然llm大模型的代码、参数和训练方法是公开透明的,但我们仍然难以追踪和理解它们如何从特定的输入生成特定的输出。这种复杂性源自于模型内部多层次的非线性数据处理和海量参数的复杂交互,使得追溯和理解其决策路径成为一项巨大挑战

但作为ai时代下的冲浪人,无论那个最终的结果,或者说真相如何,在ai探索与使用过程中,只要是能对我们的使用体验起到正向作用的方法,就应该踊跃的去尝试。

CoT使用巧思

既要结构化出参,又要 CoT ?可以试试这样写 Prompt

背景

业务场景下,尤其是在workflow搭建agent应用时,经常需要让大模型以JSON的格式进行输出

示例

比如我们可以用大模型来构造一个意向分类器,将意向分类结果作为某个规则引擎的入参去触发一些外部动作,由于规则引擎接收的输入是一串 JSON,所以我们需要大模型在输出分类结果时直接输出 JSON,其 Prompt 可以是这样的:

# 你的角色是意向分类机器人,需要根据对话上下文从意向集合中选出一个最合适的用户意向,这是可选的意向及其描述  {{用户意向列表}}# 你给出的用户意向应当以 JSON 格式返回,这是你所需要遵循 JSON 的进行返回的示例:  {    'identifiedIntent':'情况属实',    'confidenceScore':'高'  }# JSON 字段解释  - identifiedIntent:你根据对话上下文所匹配出来的意向;  - confidenceScore:你匹配意向的置信度,分为「高」「中」「低」三个档:    「高」代表对话上下文中明确、显性、直接的表达了匹配意向;    「中」代表可以通过对话上下文较有把握的推理出匹配意向;    「低」代表了在可选意向列表中该意向相对于其它是可以勉强进行匹配的;    # 对话记录===以下是对话记录===<histories>      {{对话记录}}     </histories># 下面请输出你的意向分类JSON

在很多情况下,上述的 Prompt 可能就已经可以正常工作了。但是还有些情况,比如用户表述较为模糊,需要结合上下文进行适当推理,就可能出现大模型直接进行意向输出不够准确的问题,这时候引入 CoT 便是一个常见的选择。

CoT 输出对于结构并没有严格的要求,还是上面的例子,一种常见的Prompt修改是:

# 你的角色是意向分类机器人,需要根据对话上下文从意向集合中选出一个最合适的用户意向,这是可选的意向及其描述  {{用户意向列表}}# 为了分类的准确性你需要将你进行分类的思考过程一步一步的展示出来# 在思考过程输出完成后,紧接着你需要将你识别出的用户意向以 JSON 格式返回,这是你所需要遵循 JSON 的进行返回的示例:  {    'identifiedIntent':'情况属实',    'confidenceScore':'高'  }# JSON 字段解释  - identifiedIntent:你根据对话上下文所匹配出来的意向;  - confidenceScore:你匹配意向的置信度,分为「高」「中」「低」三个档:    「高」代表对话上下文中明确、显性、直接的表达了匹配意向;    「中」代表可以通过对话上下文较有把握的推理出匹配意向;    「低」代表了在可选意向列表中该意向相对于其它是可以勉强进行匹配的;    # 对话记录===以下是对话记录===<histories>      {{对话记录}}     </histories># 下面请输出你的思考过程及意向分类JSON

这是将以上 Prompt 给到 GPT-4 后得到的输出:

在输出结果中,思考过程和和意向分类JSON是一起给出的,无法直接给到规则引擎触发下一步动作,而是需要自己写个方法或借助 LangChain 等库提供的方法进行 JSON 提取,不怎么奥卡姆剃刀。还有一个问题,是如果我们需要把 CoT 过程落库,用作审计或Prompt优化,那我们要提取的不光是JSON,还要把Cot过程也给提取出来。

再就是,像 OpenAI 提供的JSON-mode:platform.openai.com/docs/guides…;只支持JSON格式的输出,有些解决方案是把CoT和JSON输出分成两次请求来做,这未免也是有点麻烦了。

好的,下面就是这个 trick 的本体了😂,那就是:让大模型在输出时直接把Cot过程塞到一个字段里:

# 你的角色是意向分类机器人,需要根据对话上下文从意向集合中选出一个最合适的用户意向,这是可选的意向及其描述  {{用户意向列表}}# 你需要识别的用户意向,以 JSON 格式返回,这是你所需要遵循 JSON 的进行返回的示例:  {    'inferenceDetails':'第一步xxx\n第二步xxx...'    'identifiedIntent':'情况属实',    'confidenceScore':'高',  }# JSON 字段解释  - inferenceDetails:你需要将你判断用户最终意图的推理过程一步一步写入该字段  - identifiedIntent:你根据对话上下文所匹配出来的意向;  - confidenceScore:你匹配意向的置信度,分为「高」「中」「低」三个档:    「高」代表对话上下文中明确、显性、直接的表达了匹配意向;    「中」代表可以通过对话上下文较有把握的推理出匹配意向;    「低」代表了在可选意向列表中该意向相对于其它是可以勉强进行匹配的;    # 对话记录===以下是对话记录===<histories>      {{对话记录}}     </histories># 下面请输出你的意向分类JSON

这样在后续的处理过程中如果不需要CoT的内容落库就直接丢弃,需要的话也很方便能拿到。

特别注意:大模型需要消耗Token来思考(大意就是大模型只有输出了才能作用于后续,这个表述可能不是那么准确,意会一下) ,所以:

时代演进

CoT不久后提出的ReAct(Reasoning + Acting),本质上也是通过应用层的手段,不断提高大语言模型的推理和行动能力,最终优化输出。

plus:ReAct结合了两个关键能力

    Reasoning(推理):像CoT一样进行逻辑思考Acting(行动):能够执行具体的动作来获取信息(本质上就是模型的工具调用,无论以特定的Function call还是Mcp的形式)

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CoT 大模型 Prompt ReAct 推理
相关文章