掘金 人工智能 05月06日 17:03
「推理革命」爆发 100 天:DeepSeek-R1 复现研究全揭秘!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了围绕DeepSeek-R1的复现研究,梳理了监督微调(SFT)、强化学习(RL)以及奖励机制、数据构建等关键技术细节。文章总结了近期复现研究的经验,并对未来发展方向进行了展望,旨在推动推理语言模型领域的发展。

🧠 监督微调(SFT)是提升RLMs推理能力的关键。研究人员通过收集多样化领域的问题,进行去重、拒绝采样和真值验证等数据清洗,构建高质量的推理数据集。尽管数据集主要集中在数学和编程任务上,但DeepSeek-R1和AM等模型在数据收集和蒸馏过程中纳入了更广泛的领域,旨在培养更通用的推理能力。

🏆 可验证奖励强化学习(RLVR)是训练推理语言模型的重要方法。研究重点在于配置RL框架的关键部分,包括采用高效的RL算法(如GRPO)和设计奖励机制。奖励机制通常分为准确性奖励、格式奖励和长度奖励三类,以引导模型学习有效的策略。采样策略如课程学习和拒绝采样,对RL的有效性至关重要。

💡 RLVR在不同任务中展现出潜力。DeepSeek-R1通过RLVR在复杂语境理解和问题解决等推理密集型任务中取得成功。受此启发,研究探索了RLVR在逻辑推理和面向应用的实际任务中的应用,并发现大模型在RL训练策略下展现出超越监督数据资源甚至人类能力的潜力。

🚀 未来发展方向包括:过程级奖励建模、偏好优化策略、泛化性、安全性、多模态和多语言。过程级奖励建模和偏好优化策略旨在解决传统RLVR的局限性。持续预训练和精心策划的高质量数据对泛化能力至关重要。安全性是推理语言模型面临的挑战,需要改进算法设计、训练策略和对齐安全策略。多模态和多语言是未来发展的重要方向,但仍面临技术挑战。

【新智元导读】本文深入梳理了围绕 DeepSeek-R1 展开的多项复现研究,系统解析了监督微调(SFT)、强化学习(RL)以及奖励机制、数据构建等关键技术细节。

最近,推理语言模型(RLMs)已经成为主流。

最新发布的、性能最强的 LLM 大都是推理模型。

尤其是 DeepSeek-R1 的发布,更是引发了广泛的社会影响,同时也点燃了研究社区对推理的热情。

但是,DeepSeek-R1 的一些实现细节还没有完全开源,比如 DeepSeek-R1-Zero 以及蒸馏的小模型等。

因此,许多复制 DeepSeek-R1 的研究应运而生(图 1),试图通过相似的训练流程和完全开源的训练数据来重现 DeepSeek-R1 的优异性能。

这些研究探索了监督微调(SFT)和基于可验证奖励的强化学习(RLVR)的可行策略,重点关注数据准备和方法设计,产出了不少宝贵经验。

为此,本文总结了近期的这些复现研究,以启发未来的探索。

论文地址:arxiv.org/abs/2505.00…

本文的结构大致对应 DeepSeek-R1 的训练流程,介绍当前在 SFT、RLVR 以及其他增强推理能力技术方面的复制工作:

    监督微调提升语言模型推理能力:研究团队全面梳理了通过监督微调(Supervised Fine-tuning, SFT)增强语言模型推理能力的相关研究。

    用可验证奖励强化学习训练推理语言模型:研究团队介绍了近期通过可验证奖励强化学习(Reinforcement Learning from Verifiable Rewards, RLVR)训练 RLMs 的研究,详细阐述了训练数据、学习算法和奖励系统设计。

    推理语言模型的更多发展方向:研究团队注意到,尽管 DeepSeek-R1 推动了 RLMs 的训练,但仍有许多监督策略尚未探索。他们提出了 RLMs 的更多发展方向,包括奖励建模和偏好优化,并分析了当前 RLMs 的优缺点,例如强大的分布外泛化能力和偶尔的过度思考。

通过监督微调提升 RLMs

推理数据集大多数从收集多样化领域的问题开始,例如数学、科学、编程和谜题,数据来源包括现有的基准测试或网络爬取。

在收集原始数据后,通常会进行多轮过滤以提升数据质量,包括:

为了保证数据的覆盖面和丰富性,许多数据集在选择过程中明确强调难度和多样性,通常使用启发式方法或模型通过率来优先选择较难的问题。

此外,大多数数据集依赖经过验证的思维链(COTs)或解决方案来确保正确性和质量。

验证方法因领域而异,例如:

这种结合领域验证和选择性保留的方法,使数据管理人员能够提炼出高质量的推理轨迹,从而更好地支持监督微调。

虽然这些数据集覆盖多个领域,但如表 1 所示,大多数数据集主要集中在数学和编程任务上。涉及更广泛推理任务(如科学、逻辑谜题和开放性问题)的覆盖率仍然相对有限。

值得注意的例外包括 DeepSeek-R1 和 AM,它们在数据收集和蒸馏过程中纳入了更广泛的领域,旨在培养更通用的推理能力。

长度分布

图 2 展示了数据集的 token 长度分布情况。

尽管这些数据集的长思维链(CoTs)都来源于同一个教师模型——DeepSeek-R1,但它们的分布却存在明显差异。

例如,AM 和 Synthetic-1 的数据集倾向于较短的序列,而 Light-R1 和 Open-R1 的分布范围更广,尾部更长,这表明它们包含更多复杂问题,这些问题通常会引发更长的思维链。

图 3 中展示了常用数学推理数据集之间的交叉引用结构。该图清晰地呈现了数据集之间的依赖网络和共享数据,帮助研究人员更好地解读结果,避免重复的训练或评估设置。

图中箭头从源数据集指向包含其部分数据的目标数据集。以淡紫色高亮显示的数据集包含从 DeepSeek-R1 提取的思维链(Chain-of-Thought)轨迹

性能比较

在实践中,SFT 阶段对于让基础模型从更强的模型中学习高质量推理轨迹至关重要。

表 2 展示了在常见数学推理基准(如 AIME24/25 和 MATH500)上的 SFT 结果比较,突出不同数据集选择和初始模型检查点的影响。

虽然许多方法强调通过增加训练样本数量来提升性能,但 LIMO 和 S1k-1.1 表明,通过精心挑选的小规模数据集也能取得优异成果。

训练细节

对于复杂推理等长上下文任务,通常会调整模型配置中的 RoPE 缩放因子(θ)和最大上下文长度,以支持扩展的上下文能力。

例如,Open-R1 将θ设为 300,000,上下文长度设为 32,768 个 token。常用的学习率包括 1.0 × 10⁻⁵和 5.0 × 10⁻⁵,批大小通常为 96 或 128。

此外,通常采用打包(packing)技术来提高训练效率。

RLVR 在推理语言模型中的应用

RL 数据集

DeepSeek-R1-Zero 通过独立的 RLVR 流程在推理和知识任务中取得了优异表现。其 RLVR 过程中使用的高质量精选数据集是成功的关键。

因此,多项复制研究探索了如何利用开源数据和强大模型高效创建训练数据集的策略。

这些数据集涵盖 R 训练中可验证的多种任务,主要聚焦于数学和编程问题解决的数据集。表 3 提供了这些数据集的统计概览。

RL 组件

随着 DeepSeek-R1-Zero 和 DeepSeek-R1 的发布,DeepSeek 展示了通过强化学习(RL)微调 LLM 以应对复杂推理任务的成功经验。

基于精心挑选的训练数据,相关研究主要集中在配置 RL 框架的关键部分,以实现卓越性能:采用高效的 RL 算法(如 GRPO)以及设计奖励机制。

表 4 提供了这些研究方法的比较。

表 4 总结了多个竞争性开源 DeepSeek-R1 复制研究在强化学习验证任务(RLVR)中使用的算法和奖励设计方案。为了便于比较,DeepSeek-R1 系列模型的相关信息被单独列出

在基于结果 - 奖励的 RL 方法中,PPO 和 GRPO 是最常用的微调大语言模型的算法。

有趣的是,近期的一些复制研究对这些方法进行了各种改进,针对特定目标优化了训练效果。

研究团队回顾了几种代表性的基于 RL 的大语言模型微调算法,包括 REINFORCE、PPO、GRPO 及其变体。此外,他们还梳理了这些方法的改进及其背后的动机,旨在清晰概述基于结果 - 奖励的 RL 训练方法的技术进步。

奖励机制

奖励是 RL 训练的核心,因为它定义了优化的目标,引导模型的行为。

一个设计良好的奖励机制能提供清晰、一致的信号,帮助模型学习到有效的策略。

然而,奖励模型常常容易被「奖励欺骗」(reward hacking,指模型通过钻空子获得高分而非真正解决问题),因此近期研究更倾向于使用基于规则的结果奖励系统。

这些系统通常分为三类:

采样策略

直观来说,在训练过程中合理选择样本对 RL 的有效性至关重要。

一方面,课程学习方法通过逐步增加任务难度,提高了复杂样本的利用率。另一方面,合理使用拒绝采样技术可以提升样本效率并稳定训练。

RLVR 在其他任务上的应用

通过 RLVR,DeepSeek-R1 的复杂推理能力显著增强,在复杂语境理解和问题解决等推理密集型任务中取得成功。

RLVR 使大模型能够在无需人工指导的情况下,通过可验证的答案学习和执行任务,激发其复杂推理能力。

受此启发,多项研究探索了 RLVR 在不同任务中的复杂推理范式。

这些结果凸显了复杂推理语言模型通过 RL 训练策略,超越监督数据资源甚至人类能力的潜力。

更多发展方向

虽然 DeepSeek-R1 的成功推进了 RLMs 的训练,但仍有许多监督策略有待探索。

推理增强的替代方法 : 旨在解决传统 RLVR 在捕捉中间步骤和对齐人类期望方面的局限性。

主要方向包括:

泛化性:RLMs 在学习推理能力时,能够很好地泛化到域外任务。

安全性 : 推理语言模型面临一些安全挑战,包括过度思考(生成过长推理链,增加成本,可能忽略环境反馈) 和奖励欺骗(模型利用奖励函数的漏洞或模糊性获取高分)。

自我演进过程引入了失控和未对齐的风险。

多模态和多语言:

结论

在本文中,研究团队全面概述了受 DeepSeek-R1 启发而进行的复现工作,特别重点关注了其背后的监督微调和强化学习方法。

他们探讨了开源项目如何整理指令微调数据集,如何实现基于结果奖励的强化学习策略,以及如何设计旨在增强模型推理能力的奖励系统。

除了总结当前各项工作的趋势之外,还对该领域未来充满希望的方向提出了自己的看法。这些方向包括将推理技能扩展到数学和编程任务之外,提升模型的安全性和可解释性,以及改进奖励机制以促进更复杂的推理行为。

团队希望本次综述不仅能捕捉到近期进展,还能为正在进行的研究提供坚实的基础,并标志着向实现通用人工智能迈出了更进一步。

参考资料:

arxiv.org/abs/2505.00…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-R1 推理语言模型 强化学习 监督微调 RLVR
相关文章