智源社区 2024年11月05日
慢思考准确率反降30%!普林斯顿揭示思维链某些任务上失效的秘密
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI的思维链(CoT)方法虽然在许多任务上提升了模型表现,但普林斯顿的研究发现,CoT在某些特定任务上反而会降低模型性能,例如生造词分类、面部识别和异常数据分类等。研究团队通过类比人类思考过程,发现当人类需要深思熟虑或解释自己的思路时,在这些任务上的表现也会下降。研究结果表明,CoT的有效性需要根据具体任务进行评估,并且认知心理学的研究成果可以为大模型的发展提供新的思路。

🤔**隐式统计学习任务中,人类和模型在不使用语言描述的情况下,表现更佳。**当需要用语言解释统计模式时,人类和模型的性能都会下降,例如识别“人造单词”的类别。

🧐**面部识别任务中,语言描述会干扰视觉感知,导致识别准确率下降。**人类和多模态大模型在不使用语言描述的情况下,面部识别能力更高,使用CoT提示反而会降低性能。

🚗**包含异常的数据分类任务中,CoT会使模型陷入总结规律的思维定式,导致解决问题的效率降低。**模型在不使用CoT的情况下,能更快地记住每辆车的正确分类,而使用CoT时,则需要更多尝试才能找到正确答案。

💡**CoT在某些需要模型缺乏相关先验知识、涉及空间直觉或工作记忆限制的任务中,反而能提升模型性能。**这可能是因为大模型拥有远超人类的工作记忆和逻辑推理能力。

🤝**认知心理学与大模型之间存在联系,心理学研究成果可以为大模型发展提供新的思路。**研究团队认为,心理学领域积累的丰富文献中,可能蕴藏着更多促进大模型发展的见解。

OpenAI o1彻底带火慢思考和思维链(CoT)方法,但CoT在某些任务上反而会降低模型表现。

比如给生造的词分类任务,GPT-4在zero-shot提示下的准确率高达94%,换成CoT的准确率却断崖式下跌到64.4%。

内置CoT的o1-preview准确率更是只有57.7%。

CoT究竟会“搞砸”哪些任务,在学术界仍是一个悬而未决的问题。

现在,普林斯顿计算机系与心理系合作,确定了其中一些任务的特征:人类深思熟虑或被要求解释自己的思路时,也会降低在这些任务上的表现。

新论文“一步一步想,但小心脚下”已上传到arXiv。

心理学探索思维链掉链子原因

为了缩小要探索的范围,团队在CoT提示和人类进行语言思考之间进行了类比。

大模型和人类具能力有着根本不同,因此影响表现的约束因素也不同。如大模型的上下文长度很长,远远超出了人类的记忆限制。

因此,团队预计CoT将在以下情况下损害模型性能:

(i) 深思熟虑会损害人类的表现
(ii) 影响人类在任务上表现的约束条件,可以普遍性地推广到大模型。

在实验中,选择了心理学文献中的6项任务,其中隐式统计学习、面部识别、包含异常的数据分类符合假设条件。

隐式统计学习(Implicit Statistical Learning)

心理学研究发现,当包含统计模式的数据不用语言来描述时,人类可以更好地概括这些数据。

使用有限状态语法构建“人造单词”,参与者的任务是识别哪些单词属于同一类别。

人类参与者可以识别格式不正确的序列,但无法用语言表达他们判断的基础。

在几个开源和闭源模型上评估这项任务,发现与zero-shot提示相比,使用CoT提示时性能大幅降低。

面部识别(Facial Recognition)

另一类任务中语言思考会干扰视觉感知,称为语言遮蔽(verbal overshadowing)。

在实验中选用了经典的人脸识别任务,首先展示一个人脸照片,要求参与者从候选列表中找出同一个人。

人类参与者不说话直接选准确率更高,先描述看到的人脸再选的话面部识别能力反而受损。

多模态大模型的表现相似,当使用CoT提示时,所有模型性能都下降。其中较弱的模型倾向于回答“所有图像都是同一个人的”。

包含异常的数据分类(Classifying Data With Patterns That Contain Exceptions)

第三类任务设置比较复杂,其中包含一个陷阱。

有10辆不同的车需要分为A类和B类,每辆车有5个特征:

    1个独特特征(车牌号,每辆车不同)

    1个看起来有规律的特征,如颜色,但有20%的例外。

    3个与分类无关的特征,如变速箱类型、座椅材质、车门数量

实际上只有车牌号才是最可靠的分类依据。

如果10辆车没有全部猜对,就会重新打乱顺序再来一轮,最多可以尝试15轮。

不用CoT提示时,模型很快就能记住每辆车的正确分类。使用CoT时,模型会陷入试图总结规律的思维定式,需要尝试的轮数增加。

和人类在被要求解释分类依据时的表现很像。

大模型和人类约束条件不同

同时,研究团队也找出三种,满足思考降低人类表现,但大模型使用CoT提示能提升性能的任务。

    自然语言推理

    空间直觉(涉及模型缺乏相关先验知识)

    涉及工作记忆限制的任务

团队分析原因认为,模型和人类具有根本不同的能力,存在不同的约束条件影响其性能,

这是因为大模型拥有远超人类的工作记忆(上下文长度)和某些特定的逻辑推理能力。

换言之,CoT到底好不好用,还得具体情况具体分析。

这项研究更大的意义在于,将认知心理学与大模型之间建立了联系。

论文的讨论部分提出,心理学界几十年来积累的丰富文献中,或许还能找出更多推进大模型领域的见解。

论文地址:
https://arxiv.org/abs/2410.21333

评选征集中

「2024人工智能年度评选」

量子位2024人工智能年度评选已开启报名通道,评选从企业人物产品三大维度设立了5类奖项。

欢迎扫码报名评选!评选结果将于12月MEET2025智能未来大会公布,期待与数百万从业者共同见证荣誉时刻。

点这里?关注我,记得标星哦~

一键三连「点赞」、「分享」和「在看」

科技前沿进展日日相见 ~ 

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

思维链 CoT 大模型 认知心理学 人工智能
相关文章