原创 大理洱海等风来~ 2025-02-01 16:08 云南
o1-like模型,在复杂推理任务中表现出的“underthinking”(思考不足)问题:模型频繁地在不同推理思路之间切换,而没有充分探索有希望的路径以达到正确解决方案,导致推理深度不足和性能下降。
在具有挑战性的 AIME2024 测试集上 “思考不足” 问题的示意图:在o1-like模型(例如 QwQ-32B-Preview 和 DeepSeek-R1-671B)中,错误答案往往比正确答案更频繁地切换推理策略(见图 b),这导致响应长度增加但准确度并未提高(见图 a)。传统的大语言模型(例如 Qwen-Math-72B 和 Llama3.3-70B)在错误答案和正确答案的响应长度上没有显著差异。
QwQ-32B-Preview 模型输出响应中的一个 “思考不足” 问题示例,其中单个解决方案包含 25 个推理思考。
腾讯AI Lab等通过一系列实验和分析,深入探讨了o1-like的大语言模型(LLMs)在解决复杂问题时表现出的“思考不足”(underthinking)问题以及解决方案:一种新的解码策略——思考转换惩罚(Thought Switching Penalty, TIP)。
思考不足深入实验分析
o1-like LLMs 的频繁思考切换
实验设置:选择了三个具有挑战性的测试集(MATH500、GPQA Diamond和AIME2024)和两个开源的o1类模型(QwQ-32B-Preview和DeepSeek-R1-671B)进行实验。
定义推理“思考”:将模型推理过程中的中间认知步骤定义为“思考”,并通过特定词汇(如“alternatively”)识别思考的切换。
关键发现:
难度越高,思考切换越频繁:随着问题难度的增加,模型生成的推理思考数量和生成的token数量均显著增加,表明模型在面对更复杂的问题时会更频繁地切换思考策略。
错误答案中思考切换更频繁:在生成错误答案时,o1类模型的思考切换频率显著高于生成正确答案时,这导致错误答案的token数量更多,但并未提高准确性。
思考不足(Underthinking)现象的存在
评估思考正确性:通过使用两个基于DeepSeek-R1-671B蒸馏的模型(DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1-Distill-Qwen-32B)来评估每个思考是否能导向正确答案。如果至少有一个模型对某个思考给出信心分数为2,则认为该思考是正确的。
关键发现:
早期思考往往是正确的但被放弃:在错误答案中,许多早期的思考实际上是正确的,但模型未能坚持深入探索这些思考,而是频繁切换到其他思考路径,导致未能得出正确答案。
大多数错误答案包含正确思考:超过70%的错误答案中至少包含一个正确的思考,超过50%的错误答案中超过10%的思考是正确的。这表明模型在启动正确推理路径后,未能持续深入探索以得出正确结论。
思考不足的实证结果
提出“思考不足”评估指标:引入了一个新的指标——“思考不足”(Underthinking, UT)分数,通过测量错误答案中token的效率来量化思考不足的程度。该指标通过计算从错误答案的开始到第一个正确思考的token数量与总token数量的比例来定义。
实验结果:
不同模型和测试集上的表现:在MATH500-Hard、GPQA Diamond和AIME2024测试集上,o1类模型均表现出显著的思考不足问题。例如,在AIME2024测试集上,QwQ-32B-Preview的UT分数为65.0,表明其在错误答案中存在大量无效的token生成。
思考不足与模型性能的关系:模型的准确性和思考不足程度在不同测试集上表现出不同的关系。例如,在MATH500-Hard和GPQA Diamond测试集上,性能更好的DeepSeek-R1-671B模型表现出更高的UT分数,而在AIME2024测试集上,该模型的UT分数较低,表明其在该测试集上更有效地利用了token。
思考不足解决方案
提出了一种新的解码策略——思考切换惩罚(Thought Switching Penalty, TIP)。该策略通过在解码过程中对与思考切换相关的token施加惩罚,鼓励模型在切换到新的思考路径之前,更深入地探索当前的思考路径。
具体实现:
标准解码:在标准解码中,每个token的生成概率是通过softmax函数计算得到的。
思考切换惩罚:通过修改与思考切换相关的token的logits值来实现惩罚机制。具体来说,对于与思考切换相关的token(如“alternatively”),在解码窗口内对其logits值减去一个惩罚值α,并将该惩罚持续β个位置。通过调整α(惩罚强度)和β(惩罚持续时间),可以控制模型的思考切换行为。
使用QwQ-32B-Preview模型进行实验,因为DeepSeek-R1-671B的API不允许修改logits。在所有测试集上,使用TIP策略的QwQ-32B-Preview模型的准确率均高于未使用TIP的模型。
TIP策略通过减少模型在错误答案中无效的思考切换,显著提高了模型在复杂问题上的准确率,同时降低了“思考不足”的程度。该策略无需对模型进行额外的微调,即可有效提升模型的推理效率和问题解决能力。
https://arxiv.org/pdf/2501.18585
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• DeepSeek R1/o1大型推理模型蓝图:架构设计及快速原型实现框架x1
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。