原创大理洱海等风来~ 2025-02-01 16:08 云南

o1-like模型，在复杂推理任务中表现出的“underthinking”（思考不足）问题：模型频繁地在不同推理思路之间切换，而没有充分探索有希望的路径以达到正确解决方案，导致推理深度不足和性能下降。

在具有挑战性的 AIME2024 测试集上 “思考不足” 问题的示意图：在o1-like模型（例如 QwQ-32B-Preview 和 DeepSeek-R1-671B）中，错误答案往往比正确答案更频繁地切换推理策略（见图 b），这导致响应长度增加但准确度并未提高（见图 a）。传统的大语言模型（例如 Qwen-Math-72B 和 Llama3.3-70B）在错误答案和正确答案的响应长度上没有显著差异。

QwQ-32B-Preview 模型输出响应中的一个 “思考不足” 问题示例，其中单个解决方案包含 25 个推理思考。

腾讯AI Lab等通过一系列实验和分析，深入探讨了o1-like的大语言模型（LLMs）在解决复杂问题时表现出的“思考不足”（underthinking）问题以及解决方案：一种新的解码策略——思考转换惩罚（Thought Switching Penalty, TIP）。

思考不足深入实验分析

o1-like LLMs 的频繁思考切换

实验设置：选择了三个具有挑战性的测试集（MATH500、GPQA Diamond和AIME2024）和两个开源的o1类模型（QwQ-32B-Preview和DeepSeek-R1-671B）进行实验。

定义推理“思考”：将模型推理过程中的中间认知步骤定义为“思考”，并通过特定词汇（如“alternatively”）识别思考的切换。

关键发现：

难度越高，思考切换越频繁：随着问题难度的增加，模型生成的推理思考数量和生成的token数量均显著增加，表明模型在面对更复杂的问题时会更频繁地切换思考策略。

错误答案中思考切换更频繁：在生成错误答案时，o1类模型的思考切换频率显著高于生成正确答案时，这导致错误答案的token数量更多，但并未提高准确性。

思考不足（Underthinking）现象的存在

评估思考正确性：通过使用两个基于DeepSeek-R1-671B蒸馏的模型（DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1-Distill-Qwen-32B）来评估每个思考是否能导向正确答案。如果至少有一个模型对某个思考给出信心分数为2，则认为该思考是正确的。

关键发现：

早期思考往往是正确的但被放弃：在错误答案中，许多早期的思考实际上是正确的，但模型未能坚持深入探索这些思考，而是频繁切换到其他思考路径，导致未能得出正确答案。

大多数错误答案包含正确思考：超过70%的错误答案中至少包含一个正确的思考，超过50%的错误答案中超过10%的思考是正确的。这表明模型在启动正确推理路径后，未能持续深入探索以得出正确结论。

思考不足的实证结果

提出“思考不足”评估指标：引入了一个新的指标——“思考不足”（Underthinking, UT）分数，通过测量错误答案中token的效率来量化思考不足的程度。该指标通过计算从错误答案的开始到第一个正确思考的token数量与总token数量的比例来定义。

实验结果：

不同模型和测试集上的表现：在MATH500-Hard、GPQA Diamond和AIME2024测试集上，o1类模型均表现出显著的思考不足问题。例如，在AIME2024测试集上，QwQ-32B-Preview的UT分数为65.0，表明其在错误答案中存在大量无效的token生成。

思考不足与模型性能的关系：模型的准确性和思考不足程度在不同测试集上表现出不同的关系。例如，在MATH500-Hard和GPQA Diamond测试集上，性能更好的DeepSeek-R1-671B模型表现出更高的UT分数，而在AIME2024测试集上，该模型的UT分数较低，表明其在该测试集上更有效地利用了token。

思考不足解决方案

提出了一种新的解码策略——思考切换惩罚（Thought Switching Penalty, TIP）。该策略通过在解码过程中对与思考切换相关的token施加惩罚，鼓励模型在切换到新的思考路径之前，更深入地探索当前的思考路径。

具体实现：

标准解码：在标准解码中，每个token的生成概率是通过softmax函数计算得到的。

思考切换惩罚：通过修改与思考切换相关的token的logits值来实现惩罚机制。具体来说，对于与思考切换相关的token（如“alternatively”），在解码窗口内对其logits值减去一个惩罚值α，并将该惩罚持续β个位置。通过调整α（惩罚强度）和β（惩罚持续时间），可以控制模型的思考切换行为。

使用QwQ-32B-Preview模型进行实验，因为DeepSeek-R1-671B的API不允许修改logits。在所有测试集上，使用TIP策略的QwQ-32B-Preview模型的准确率均高于未使用TIP的模型。

TIP策略通过减少模型在错误答案中无效的思考切换，显著提高了模型在复杂问题上的准确率，同时降低了“思考不足”的程度。该策略无需对模型进行额外的微调，即可有效提升模型的推理效率和问题解决能力。

https://arxiv.org/pdf/2501.18585Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

思考不足深入实验分析

o1-like LLMs 的频繁思考切换

思考不足的实证结果

思考不足解决方案

使用QwQ-32B-Preview模型进行实验，因为DeepSeek-R1-671B的API不允许修改logits。在所有测试集上，使用TIP策略的QwQ-32B-Preview模型的准确率均高于未使用TIP的模型。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签