PaperAgent 02月02日
让DeepSeek-R1/o1思考 “走心” ?腾讯AI深度拆解
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了o1-like大语言模型在复杂推理任务中存在的“思考不足”问题,即模型在不同推理思路间频繁切换,未能充分探索有希望的路径。研究发现,随着问题难度增加,模型思考切换更频繁,错误答案中切换尤为明显,导致推理深度不足。尽管早期思考可能是正确的,但模型未能坚持深入探索,而是频繁切换。为此,研究提出“思考不足”评估指标,并引入“思考切换惩罚”解码策略,通过惩罚与思考切换相关的token,鼓励模型深入探索当前路径,有效提升模型在复杂问题上的准确率,无需微调即可提升推理效率。

🤔 o1-like模型在复杂推理中存在“思考不足”问题,表现为推理思路频繁切换,未能深入探索有希望的路径,导致推理深度不足。

🧐 研究发现,问题难度越高,模型思考切换越频繁,且错误答案中的思考切换频率显著高于正确答案,但token数量增加并未提高准确性。

💡 早期思考往往是正确的,但模型未能坚持深入探索,而是频繁切换到其他路径,导致无法得出正确结论。为此,提出了“思考不足”评估指标,量化了错误答案中token的效率。

⚙️ 针对“思考不足”问题,研究提出“思考切换惩罚”解码策略,通过惩罚与思考切换相关的token,鼓励模型更深入地探索当前的思考路径,从而提高了模型在复杂问题上的准确率。

原创 大理洱海等风来~ 2025-02-01 16:08 云南

o1-like模型,在复杂推理任务中表现出的“underthinking”(思考不足)问题:模型频繁地在不同推理思路之间切换,而没有充分探索有希望的路径以达到正确解决方案,导致推理深度不足和性能下降

在具有挑战性的 AIME2024 测试集上 “思考不足” 问题的示意图:在o1-like模型(例如 QwQ-32B-Preview 和 DeepSeek-R1-671B)中,错误答案往往比正确答案更频繁地切换推理策略(见图 b),这导致响应长度增加但准确度并未提高(见图 a)。传统的大语言模型(例如 Qwen-Math-72B 和 Llama3.3-70B)在错误答案和正确答案的响应长度上没有显著差异。

QwQ-32B-Preview 模型输出响应中的一个 “思考不足” 问题示例,其中单个解决方案包含 25 个推理思考

腾讯AI Lab等通过一系列实验和分析,深入探讨了o1-like的大语言模型(LLMs)在解决复杂问题时表现出的“思考不足”(underthinking)问题以及解决方案:一种新的解码策略——思考转换惩罚(Thought Switching Penalty, TIP)。

思考不足深入实验分析

o1-like LLMs 的频繁思考切换

思考不足(Underthinking)现象的存在

思考不足的实证结果

思考不足解决方案

提出了一种新的解码策略——思考切换惩罚(Thought Switching Penalty, TIP)该策略通过在解码过程中对与思考切换相关的token施加惩罚,鼓励模型在切换到新的思考路径之前,更深入地探索当前的思考路径。

使用QwQ-32B-Preview模型进行实验,因为DeepSeek-R1-671B的API不允许修改logits。在所有测试集上,使用TIP策略的QwQ-32B-Preview模型的准确率均高于未使用TIP的模型

TIP策略通过减少模型在错误答案中无效的思考切换,显著提高了模型在复杂问题上的准确率,同时降低了“思考不足”的程度。该策略无需对模型进行额外的微调,即可有效提升模型的推理效率和问题解决能力。

https://arxiv.org/pdf/2501.18585Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 思考不足 推理策略 解码策略 思考切换惩罚
相关文章