赛博禅心 01月23日
DeepSeek-R1 是怎么训练的|深度拆解
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek开源的R1模型遵循MIT License,在多个任务上性能出色且价格优势明显。本文从多个纬度对其进行拆解,包括性能、方法、蒸馏等,并探讨了其训练流程、核心方法、奖励系统等方面。

💥R1遵循MIT License,允许用户借助其训练其他模型

🎯R1-Zero证明纯强化学习大模型有强大推理能力

🌟R1的训练结合监督学习和强化学习的优势

🔄将R1推理能力蒸馏到小型模型效果显著

📋R1在多个任务上性能超越或媲美其他模型

原创 金色传说大聪明 2025-01-21 11:16 广东

最好、最快的内容,总来自赛博禅心

自大 DeepSeek-v3 惊艳全场后:DeepSeek-V3 是怎么训练的|深度拆解


昨天晚上,DeepSeek 又开源了 DeepSeek-R1 模型(后简称 R1),再次炸翻了中美互联网: 

 

下面,让我们以更加系统的方式,来看看这次的 R1,是这么炼成的。 

 

本文将从性能、方法、蒸馏、展望几个纬度来拆解 V3,所用到的图表、数据源于其论文:《R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。  

公众号后台回复:DSR1,获得详细报告。 

 


 

结论前置

 

性能评估

论文在多个维度对 R1 的性能进行了评估,涵盖了知识密集型任务、推理密集型任务、长文本理解任务和开放式问答任务,并与多个业界领先的基线模型进行了对比。在评估中,对比了包括 DeepSeek-V3、Claude-3.5-Sonnet-1022、GPT-4o-0513、OpenAI-o1-mini 以及 OpenAI-o1-1217 在内的模型: 

 

上表来自于论文中的表 4,阅读课得出以下结论: 

 

 

训练流程

R1-Zero

性能表现: 展示了 R1-Zero 在 AIME 2024 基准测试上的性能变化曲线。随着 RL 训练的进行,模型的 pass@1 指标从最初的 15.6% 稳步提升至 71.0%,达到与 OpenAI-o1-0912 相当的水平。(第 7 页,图 2)。 

在 AIME 2024、MATH-500 等数学推理任务上,以及 GPQA Diamond 等知识问答任务上,R1-Zero 均取得了与 OpenAI-o1-0912 相媲美的成绩,部分任务甚至有较大的领先。(第 7 页,表 2) 

 

R1

 

核心方法

GRPO

R1 采用的核心算法是 Group Relative Policy Optimization (GRPO) 算法,并辅以精心设计的奖励机制来指导模型的学习。与传统的需要构建 Critic 模型来估计状态值函数的算法不同,GRPO 通过比较一组样本的奖励来估计优势函数 (Advantage),降低了训练过程的复杂度和所需的计算资源。GRPO 算法的目标函数和优势函数的计算公式在论文的 2.2.1 章节 (第 5 页) 中有详细的数学描述。 

 

 

奖励系统

R1-Zero 的奖励系统,主要以下两类: 

 

训练模板

R1-Zero 采用了一种简洁的训练模板 (表 1,第 6 页),要求模型首先输出推理过程,然后给出最终答案。模板如下: 

 

其中,prompt 会在训练过程中,被替换为具体的推理问题。 

模型蒸馏

DeepSeek 团队进一步探索了将 R1 的推理能力蒸馏到更小的模型中的可能性。他们使用 R1 生成的 800K 数据,对 Qwen 和 Llama 系列的多个小模型进行了微调。表 5 (第 14 页) 展示了模型蒸馏的结果。 

可以看出: 

 

表 6 (第 14 页) 对比了 R1-Distill-Qwen-32B 和 R1-Zero-Qwen-32B 的性能。 结果表明,直接在 Qwen-32B-Base 上进行强化学习,只能达到与 QwQ-32B-Preview 相当的水平,而经过 R1 蒸馏的 Qwen-32B 模型则远超两者。这说明,R1 学到的推理模式具有很强的通用性和可迁移性,可以通过蒸馏的方式传递给其他模型 

 

还有更多

在论文的最后,DeepSeek 团队也探讨了 R1 模型的局限性,并提出了未来的研究方向: 

 

局限性: 

 

未来工作: 

 

额外的

DeepSeek 团队在研究过程中也尝试了一些其他方法,但并未取得理想的效果,例如: 


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-R1 强化学习 模型蒸馏 性能评估 推理能力
相关文章