PaperAgent 05月14日 22:58
DeepSeek-R1发布100天后:全面复盘推理大模型复现研究及未来!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文总结了近期关于DeepSeek-R1推理语言模型复现的研究,重点关注监督微调(SFT)和基于可验证奖励的强化学习(RLVR)两个主要方向。在SFT方面,详细介绍了数据集的构建流程、现有数据集的细节以及训练与性能比较。在RLVR方面,深入讨论了数据集、算法设计、奖励系统和采样策略等关键组件,并分析了训练数据配方、RL算法设计、模型大小和类型、上下文长度以及奖励建模等方面的关键发现。为后续研究提供了有价值的参考。

📚 监督微调(SFT)是提升推理语言模型(RLMs)的关键方法,通过高质量数据集,如DeepSeek-R1、OpenThoughts等,并经过数据清洗、去重和难度筛选,来优化模型性能。不同数据集在CoT长度分布上存在差异,数据来源也存在交叉引用。

🤖 基于可验证奖励的强化学习(RLVR)通过数学和编程问题数据集,并采用PPO和GRPO等算法,结合准确性、格式和长度奖励,来训练推理语言模型。数据集构建需经过严格验证,并进行数据清洗和去重。

📈 训练数据配方对RLVR至关重要,需要大量多样化的数据、适中的难度以及严格的数据清洗。算法选择方面,PPO、GRPO及其变体表现出不同性能,模型大小从1.5B到32B均表现良好,上下文长度也需逐步增加。

🔑 奖励建模需要在准确性和多样性之间取得平衡,简单的准确性奖励通常最有效,但其他类型的奖励也可在特定情况下提高模型性能。KL损失在大规模RL训练中可能不是必需的。

2025-05-06 17:47 湖北

推理语言模型:RLMs (OpenAI-o1/o3/o4、DeepSeek-R1以及QwQ系列)的最新发展标志着大型语言模型的一次重大演变。特别,DeepSeek-R1的发布引发了广泛的社会影响,但其并实现细节未完全开源。
MiroMind&复旦&新加坡国立大学等总结了近期的DeepSeek-R1复现研究,主要关注SFT和RLVR这两个主要方向,介绍了当前复现研究在数据构建、方法设计和训练过程中的细节、实验结果的关键发现。
一、监督微调(SFT)

监督微调是通过高质量的数据集来提升推理语言模型(RLMs)的关键方法之一。详细介绍了用于监督微调的数据集,包括数据收集、数据集细节和分析讨论:

1.1 数据收集与整理流程
1.2 现有数据集细节
DeepSeek-R1、OpenThoughts、Open-R1、Light-R1、Bespoke Stratos、AM、Synthetic-1、S1k-1.1、LIMO
1.3 分析与讨论

1.4 训练与性能比较

二、基于可验证奖励的强化学习(RLVR)

2.1 RL 数据集

数据集主要涵盖数学和编程问题,并确保在训练过程中可以验证模型的输出。

2.2 RL 组件

详细讨论了强化学习的关键组件,包括算法设计、奖励系统和采样策略。

2.2.1 算法设计
2.2.2 奖励设计
2.2.3 采样策略

2.3 分析与讨论

总结了基于可验证奖励的强化学习在训练推理语言模型时的关键发现:

2.3.1 训练数据配方
2.3.2 RL 算法设计
2.3.3 模型大小和类型
2.3.4 上下文长度
2.3.5 奖励建模
2.3.6 KL 损失
      https://arxiv.org/pdf/2505.00551100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

      推荐阅读


        欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

        阅读原文

        跳转微信打开

        Fish AI Reader

        Fish AI Reader

        AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

        FishAI

        FishAI

        鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

        联系邮箱 441953276@qq.com

        相关标签

        推理语言模型 DeepSeek-R1 监督微调 强化学习 复现研究
        相关文章