虎嗅 02月14日
非技术人10分钟读懂Deepseek R1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek R1的火爆并非偶然,它代表了AI技术发展的新方向。与传统大模型依赖“填鸭式教育”不同,DeepSeek R1采用纯强化学习,使其能够通过自我探索和试错来学习,摆脱了人类标注数据的限制。R1在少量人工引导后,依靠强化学习自主探索推理策略,不断提升回答的准确性,实现自我进化。这种“自学成才”的方式,让AI在解决问题时展现出超越人类研究员想象的潜力,再次点燃了AI全面超越人类的希望。DeepSeek R1的成功,预示着AI智能革命的到来,未来的AI将更加自主、更具创造性。

💡DeepSeek R1 是一种基于强化学习 (RL) 的推理模型,它在回答问题前会进行“自问自答”式的推理思考,从而提升最终回答的质量。这种方式模拟了人类的深度思考过程,使得AI能够更完备地准备答案。

📚 传统AI大模型的训练依赖于海量的“预训练”数据,进行“填鸭式教育”,这使得AI拥有海量的知识基础,但是无法让AI真正理解和运用这些知识,只能基于背过知识的统计概率进行“续写”,所以无法真正理解人类的问题。

🚀 DeepSeek R1 引入了纯强化学习,不依赖大量的人类标注数据,而是让 AI 通过自我探索和试错来学习,在奖励系统的反馈下,自主探索推理策略,不断提升回答的准确性,实现自我进化。这种方式使得AI挣脱人类经验的束缚,展现出超越人类研究员想象的成长潜力。

🎯 DeepSeek R1 通过准确率奖励和格式奖励,让模型把思考过程置于标签之间,以便人类观察模型的推理过程。其中,R1-zero 实验版本甚至没有进行任何的初始引导,而是采用了完全从零开始的强化学习,最终自发涌现出了更强的推理能力与顿悟时刻。

DeepSeek 在这个春节火到没边。 

不仅在公众号、小红书、抖音疯狂刷屏,就连过年餐桌上七大姑八大姨都会来找我唠上两句:“你知道滴噗系可吗”。 

抛开看热闹的浮躁气,我想从一个非技术人的角度,分享近期对 DeepSeek 的研究总结,主要围绕以下话题: 

    天才养成记:DeepSeek R1 为什么如此聪明?

    “填鸭”之困:传统大模型训练的瓶颈?

    自学成才:DeepSeek R1 的破局之道?

    纯强化学习:再次带来 AI 超越人类的希望?

天才养成记:DeepSeek R1 为什么如此聪明?

就我观察而言,大多数人讨论的 DeepSeek ,基本指的是它的深度思考版本——DeepSeek R1。 

DeepSeek R1 不同于先前的普通模型,它与 OpenAI 现在最先进的模型 o1、o3 一样,同属于一条技术路线:基于强化学习 RL 的 推理模型。 

其标志性表现就是,在回答用户问题前,R1 会先进行“自问自答”式的推理思考,凭此提升最终回答的质量。 

这种“自问自答”,并非简单的自言自语,而是 AI 在模拟人类的深度思考。 

从用户初始问题“先有鸡还是先有蛋”出发,AI 唤醒解决该问题所需的推理逻辑与知识,对问题进行多步推导,为最终回答提供更加完备的思考准备。 

用户初始指令:先有鸡还是先有蛋?

推理 1 - 问题领域分析:经典哲学、科学难题 

推理2 - 知识回忆:哲学-因果循环;科学-进化论、生物学发展 

推理3 - 用户意图分析:用户可能是在寻找明确答案,但这个问题没有绝对答案,所以需要解释不同观点

推理 4 - 结合用户场景:学生作业 → 更加结构化回答;普通用户 → 简洁易懂的解释……

最终回答:根据以上信息,综合生成结果

这种能力,并非凭空而来。 

如果把 AI 比作人类,那么 DeepSeek R1 的“聪明”,源于其背后独特的“教育方式”。

在许多其他的 AI 模型还在接受“填鸭式教育”时,DeepSeek R1 已经率先进入了“自学成才”的新阶段。 

“填鸭教育”之困:人类的局限,AI 的上限

当前 AI 大模型的训练分为两个阶段:“预训练”、“后训练”。 

“预训练”阶段,主要依赖于海量的“预训练”数据,一股脑地把各种知识“填鸭”给 AI。 

就像学龄前的孩子背诵唐诗三百首。 

虽然能“鹦鹉学舌”般地在“鹅,鹅,鹅 ”后接上“曲项向天歌”,却不理解诗词的格律、意境,更不懂如何运用这些知识去创作。 

你问他“鹅是什么”,他可能只会机械地接龙“曲项向天歌”,驴唇不对马嘴,无法和你有效回应。 

这便是大模型“预训练”的实质与局限: 

它赋予了 AI 海量的知识基础,却无法让 AI 真正理解和运用这些知识,只能基于背过知识的统计概率进行“续写”。 

更关键的在于,此时的 AI 还没有学会如何与人类进行有效的对话,不知道如何理解你的问题,也不知道如何组织语言来回答你。 

它就像一个“知识巨人,对话侏儒”,空有全世界的知识,却不知如何表达。

而在“后训练”阶段,则是对 AI 的输出方式、指令遵循、推理等特定任务进行“特训”。 

例如,让 AI 学会与人类对话,生成人类易于阅读的长句,或者学会输出更加合理的推理过程。 

此前,“后训练”主要采用监督微调或基于人类反馈的强化学习等方法。 

    监督微调:用特定数据集对模型进行“填鸭式”训练,使得模型参数得到微小的特定调整。

例如,让孩子额外加背宋词三百首,以应付明天的“唐诗+宋词”的综合性考试;或者反复强调“出门 → 要关灯”,机械训练节约用电的好习惯。 

    基于人类反馈的强化学习:人类训练者会对 AI 模型的多个输出进行评分或排序,训练模型理解什么是“好的回答”。

例如,小学生解答数学题时,老师会限制他们使用“代数方程”这类超纲解法,因为不符合小学教育测验的预期。 

这种方式的局限在于,AI 受限于人类训练者的认知局限与主观偏好,终究还是限制了模型自主探索最优解的能力。 

可见,无论是 SFT 还是 RLHF,都难以摆脱“填鸭式教育”的影子。 

它们或许能让 AI “鹦鹉学舌”,却无法让 AI “融会贯通”。人类标注者的认知天花板,也成为了 AI 能力提升的瓶颈。 

自学成才:纯强化学习再次带来 AI 超越人类的希望

而 DeepSeek R1 则引入了纯强化学习,不依赖大量的人类标注数据,而是让 AI 通过自我探索和试错来学习: 

DeepSeek R1 在“冷启动”阶段,仅通过少量人工精选的思维链数据进行初步引导,建立起符合人类阅读习惯的推理表达范式。 

随后,便主要依靠强化学习,在奖励系统的反馈下,自主探索推理策略,不断提升回答的准确性,实现自我进化。 

    准确率奖励:用于评估 AI 提供的最终答案是否正确,以此为 AI 提供答案准确度的反馈。

    格式奖励:强制结构化输出,让模型把思考过程置于标签之间,以便人类观察模型的推理过程。

正如 Alpha Zero 只训练了三天,就以 100 比 0 的战绩完胜 Alpha Go Lee。 

    Alpha Go:监督学习 + 强化学习。学习人类棋谱,也更接近人类职业棋手的风格,继承了人类的局限。

    Alpha Zero:完全摒弃人类数据的纯强化学习。从零开始自我博弈,不受限于人类经验,具有创造性的下棋风格。

大模型 AI 在纯强化学习下同样也展现出了超出人类研究员想象的成长潜力: 

“我们只需要简单地为其提供正确的激励措施,它就会自主开发高级的问题解决策略,RL 有可能解锁新的人工智能水平。” 

更有趣的是,DeepSeek 还有一个更加聪明的 R1-zero 实验版本

这个版本甚至没有进行任何的初始引导,而是采用了完全从零开始的强化学习。 

实验表明,无需任何人类的监督训练,R1-zero 自然而然地学会了用更多的思考步骤来解决推理任务,还学会了在推理过程中反思先前的推理步骤,探索解决问题的替代方法。 

没错,AI 在纯强化学习中,自发涌现出了更强的推理能力与顿悟时刻: 

纯强化学习,在 Alpha Zero 完胜所有人类棋手之后,再次点燃了 AI 全面超越人类的希望。 

当 AI 挣脱人类经验的束缚,真正的智能革命或许才刚刚拉开序幕。 

附:DeepSeek R1 完整训练过程

因文章定位与行文节奏设计,上文仅对影响 R1 涌现关键智能的前两个训练步骤进行了讲解。 

更加完善的训练说明,可直接阅读官方论文: 

DeepSeek-AI《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek R1 强化学习 AI推理 自学成才 AI进化
相关文章