PaperAgent 05月08日 15:22
一篇142页全面复盘DeepSeek R1思考推理技术综述
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入剖析了DeepSeek-R1大型推理模型,从其推理的基本构建模块分类入手,探讨了推理长度的影响和可控性,以及对长篇或令人困惑上下文的管理。研究发现,DeepSeek-R1的推理链条在不同任务中表现出一致的结构,但同时也存在反刍行为和推理长度的“最佳点”。超过最佳范围,模型性能反而会下降。此外,DeepSeek-R1在处理长文本和复杂句子时,虽然与人类的认知过程存在相似之处,但也存在显著差异,表明其推理过程仍有提升空间。

🧩 **推理构建模块**:DeepSeek-R1的推理链条可分解为问题定义、分解周期、重构周期和最终决策四个基本单元,展现出在不同任务中一致的结构。

📈 **推理长度的影响**:研究发现DeepSeek-R1存在“推理甜点区”,即存在一个最优的推理长度范围,超过此范围,模型性能反而下降。例如,在AIME-24问题中,推理长度在6k到10k tokens之间时,准确率最高。

🤔 **反刍行为**:模型在重构阶段会多次重新考虑问题的初始分解,类似于人类的“反刍”行为,但缺乏有效的监控机制,可能导致重复和循环推理。

🗣️ **与人类句子处理的对比**:DeepSeek-R1在处理Garden path sentences时生成的推理链条显著长于处理非花园路径句时,与人类处理这些句子时的认知负荷高度相关,但处理控制句时存在不合理的长推理链条和重复推理现象。

2025-04-26 18:28 湖北

从DeepSeek-R1推理的基本构建模块分类入手,深入分析探讨了推理长度的影响和可控性、对长篇或令人困惑上下文的管理、文化与安全问题,以及DeepSeek-R1与认知现象(如类似人类的语言处理和世界建模)的相对地位。
值得注意的是,发现DeepSeek-R1存在一个推理的“最佳点”,额外的推理时间可能会损害模型性能。还发现DeepSeek-R1倾向于持续纠结于之前探索过的问题表述,阻碍进一步探索
一、介绍与背景
大型语言模型(LLMs)的转变:传统的LLMs通常直接输出答案,而大型推理模型(LRMs)如DeepSeek-R1则通过生成详细的多步骤推理链条来解决问题。这种推理过程对用户是透明的,为研究模型的推理行为提供了机会。
DeepSeek-R1的出现:DeepSeek-R1的出现标志着LLMs在处理复杂问题时的一个根本性转变。它不仅能够生成推理链条,还能在推理过程中表现出类似人类的思考行为,这为研究模型的推理能力提供了新的视角。
比较大型语言模型(LLM,例如 GPT-4o)与大型推理模型(LRM,例如 DeepSeek-R1)对一个简单的数学推理问题的响应。LLM 生成一条单一的思考链,追求一种解决方法,而不对答案进行任何验证。相比之下,LRM 从不同角度仔细思考问题,同时持续验证其方法。
DeepSeek-R1 的多阶段训练过程。从左到右:
二、DeepSeek R1推理的构建模块

提出了一个分类体系,将DeepSeek-R1的推理链条分解为以下几个基本单元:

    问题定义(Problem Definition):模型重新定义问题目标,通常以“我需要找到……”(I need to find...)结尾。

    分解周期(Bloom Cycle):模型首次分解问题,生成中间答案,并可能验证其信心。

    重构周期(Reconstruction Cycle):模型重新考虑初始假设,可能引入新的答案或验证现有答案。

    最终决策(Final Decision):模型得出最终答案,并表达对答案的信心。

通过分析DeepSeek-R1在多个任务中的推理链条,揭示了以下关键发现:

展示了一个来自 MATH-500 的更复杂的推理链条。用更深的紫色来突出显示较长的推理周期,用较浅的颜色来表示较短的周期。橙色和黄色突出了模型对这一分解所做的两次改变。
在较长的周期中,看到了一些“re-blooms”现象,即对问题的新颖分解。较短的周期通常会重新验证这些先前的分解(见图中对某一特定分解的频繁回调),将这种行为称为“反刍”,或者它们会放弃当前的推理路径(见第18周期)。

    三、DeepSeek R1推理长度的影响

    通过实验分析了推理长度对模型性能的影响,发现存在一个“推理甜点区”,超过这个长度范围,性能会下降。

    四、DeepSeek R1长文本评估
    DeepSeek-R1在处理长文本时表现不如一些专门针对长文本优化的LLMs,如Gemini-1.5-Pro
    DeepSeek-R1模型在长文本环境下有时会表现出混乱,生成无意义的文本
    四、DeepSeek R1与人类句子处理的关系

      DeepSeek-R1 Thoughtology:Let’s about LLM reasoninghttps://arxiv.org/pdf/2504.07128

      推荐阅读


        欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

        阅读原文

        跳转微信打开

        Fish AI Reader

        Fish AI Reader

        AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

        FishAI

        FishAI

        鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

        联系邮箱 441953276@qq.com

        相关标签

        DeepSeek-R1 大型推理模型 推理链条 推理长度 认知负荷
        相关文章