一篇142页全面复盘DeepSeek R1思考推理技术综述

2025-04-26 18:28 湖北

从DeepSeek-R1推理的基本构建模块分类入手，深入分析探讨了推理长度的影响和可控性、对长篇或令人困惑上下文的管理、文化与安全问题，以及DeepSeek-R1与认知现象（如类似人类的语言处理和世界建模）的相对地位。

值得注意的是，发现DeepSeek-R1存在一个推理的“最佳点”，额外的推理时间可能会损害模型性能。还发现DeepSeek-R1倾向于持续纠结于之前探索过的问题表述，阻碍进一步探索

一、介绍与背景

大型语言模型（LLMs）的转变：传统的LLMs通常直接输出答案，而大型推理模型（LRMs）如DeepSeek-R1则通过生成详细的多步骤推理链条来解决问题。这种推理过程对用户是透明的，为研究模型的推理行为提供了机会。

DeepSeek-R1的出现：DeepSeek-R1的出现标志着LLMs在处理复杂问题时的一个根本性转变。它不仅能够生成推理链条，还能在推理过程中表现出类似人类的思考行为，这为研究模型的推理能力提供了新的视角。

比较大型语言模型（LLM，例如 GPT-4o）与大型推理模型（LRM，例如 DeepSeek-R1）对一个简单的数学推理问题的响应。LLM 生成一条单一的思考链，追求一种解决方法，而不对答案进行任何验证。相比之下，LRM 从不同角度仔细思考问题，同时持续验证其方法。

DeepSeek-R1 的多阶段训练过程。从左到右：

通过 GRPO 训练 DeepSeek-R1-Zero 模型。

在 DeepSeek-R1-Zero 生成的 CoT 数据和其他来源的数据上进行 SFT（冷启动）。

在推理密集型数据上进行 GRPO。

在大约 60 万个推理实例和 20 万个非推理实例上进行 SFT。注意，这一阶段从 DeepSeek-V3-base 模型重新开始。

使用 GRPO 在多样化的提示分布（包括安全训练）上进行强化学习微调。

二、DeepSeek R1推理的构建模块

提出了一个分类体系，将DeepSeek-R1的推理链条分解为以下几个基本单元：

问题定义（Problem Definition）：模型重新定义问题目标，通常以“我需要找到……”（I need to find...）结尾。

分解周期（Bloom Cycle）：模型首次分解问题，生成中间答案，并可能验证其信心。

重构周期（Reconstruction Cycle）：模型重新考虑初始假设，可能引入新的答案或验证现有答案。

最终决策（Final Decision）：模型得出最终答案，并表达对答案的信心。

通过分析DeepSeek-R1在多个任务中的推理链条，揭示了以下关键发现：

推理链条的结构一致性：DeepSeek-R1的推理链条在不同任务中表现出一致的结构，通常包括问题定义、分解、多次重构和最终决策。

反刍行为（Rumination）：模型在重构阶段会多次重新考虑问题的初始分解，这种行为类似于人类的“反刍”，但缺乏有效的监控机制。

推理链条的长度：推理链条的长度在不同任务中有所不同，但通常在分解周期最长，随后的重构周期逐渐变短，偶尔会出现较长的重构周期。

推理链条的多样性：在复杂的任务中，模型可能会尝试多种不同的问题分解方式，并在后续的重构周期中验证这些分解。

展示了一个来自 MATH-500 的更复杂的推理链条。用更深的紫色来突出显示较长的推理周期，用较浅的颜色来表示较短的周期。橙色和黄色突出了模型对这一分解所做的两次改变。

在较长的周期中，看到了一些“re-blooms”现象，即对问题的新颖分解。较短的周期通常会重新验证这些先前的分解（见图中对某一特定分解的频繁回调），将这种行为称为“反刍”，或者它们会放弃当前的推理路径（见第18周期）。

三、DeepSeek R1推理长度的影响

通过实验分析了推理长度对模型性能的影响，发现存在一个“推理甜点区”，超过这个长度范围，性能会下降。

对于某些问题，随着推理长度的增加，准确率先是上升，达到一个峰值后开始下降。这表明存在一个最优的推理长度范围（即“推理甜点区”），在这个范围内，模型的性能最佳。

例如，对于 AIME-24 中的某些问题，推理长度在 6k 到 10k tokens 之间时，准确率最高，超过这个范围后，准确率显著下降。

对于小数字乘法问题，模型几乎总是能够正确回答，推理长度对准确率影响不大。

对于中等数字乘法问题，推理长度与准确率的关系与 AIME-24 类似，存在一个最优的推理长度范围。

对于大数字乘法问题，模型几乎总是失败，这表明推理长度的增加并不能解决所有问题，某些问题可能需要其他策略。

四、DeepSeek R1长文本评估

DeepSeek-R1在处理长文本时表现不如一些专门针对长文本优化的LLMs，如Gemini-1.5-Pro。

DeepSeek-R1模型在长文本环境下有时会表现出混乱，生成无意义的文本。

四、DeepSeek R1与人类句子处理的关系

DeepSeek-R1在处理Garden path sentences时生成的推理链条显著长于处理非花园路径句时的推理链条。

这种推理链条长度的差异与人类处理Garden path sentences时的认知负荷高度相关，表明DeepSeek-R1在处理复杂句子时的行为与人类有一定的相似性。

然而，DeepSeek-R1在处理控制句（非Garden path sentences）时，推理链条长度不合理地长，且存在重复和循环推理的现象，这与人类的处理方式有显著差异。

DeepSeek-R1在处理比较错觉句时生成的推理链条显著长于处理控制句时的推理链条。

这种推理链条长度的差异进一步支持了DeepSeek-R1在处理复杂句子时的认知负荷与人类相似的观点。

然而，DeepSeek-R1在处理控制句时仍然表现出不合理的长推理链条和重复推理行为，这表明其推理过程缺乏人类的高效性和目标导向性。

DeepSeek-R1 Thoughtology:Let’s about LLM reasoninghttps://arxiv.org/pdf/2504.07128

Fish AI Reader