PaperAgent 05月08日 15:22
DeepSeek-R1发布100天后:全面复盘推理大模型复现研究及未来!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文综述了DeepSeek-R1发布后,研究者们对其进行的复现研究进展,特别是针对监督微调(SFT)和基于可验证奖励的强化学习(RLVR)这两个关键方向。文章详细介绍了复现研究中涉及的数据集构建、方法设计和训练过程,并分析了实验结果。核心内容涵盖了SFT中使用的数据集、训练方法与性能比较,以及RLVR中的算法设计、奖励机制和采样策略。文章还总结了训练数据、RL算法、模型大小、上下文长度等因素对RLMs性能的影响,为理解和优化推理语言模型提供了重要参考。

🔍 监督微调(SFT)是提升推理语言模型(RLMs)的关键方法,通过高质量数据集进行训练。数据集构建涉及从数学、科学、编程等领域收集数据,并进行去重、验证和难度筛选。训练过程中,模型参数通过最小化负对数似然损失进行更新,性能评估则通过数学推理基准测试进行。

💡 基于可验证奖励的强化学习(RLVR)通过强化学习算法训练推理语言模型。核心组件包括算法设计(PPO、GRPO及其变体)、奖励系统(准确性奖励、格式奖励、长度奖励)和采样策略(课程学习、拒绝采样、历史重采样)。RLVR的数据集通常包含数学和编程问题,并进行严格的验证以确保输出可验证。

📊 RLVR训练的关键发现包括:大量多样化的数据、难度适中的数据选择、严格的数据清洗对模型性能至关重要。算法选择和改进、模型大小、上下文长度、奖励设计以及KL损失的应用也影响着模型的训练效果。研究表明,PPO、GRPO及其变体展现出不同的性能,而模型大小从1.5B到32B均表现出良好性能。

2025-05-06 17:47 湖北

推理语言模型:RLMs (OpenAI-o1/o3/o4、DeepSeek-R1以及QwQ系列)的最新发展标志着大型语言模型的一次重大演变。特别,DeepSeek-R1的发布引发了广泛的社会影响,但其并实现细节未完全开源。
MiroMind&复旦&新加坡国立大学等总结了近期的DeepSeek-R1复现研究,主要关注SFT和RLVR这两个主要方向,介绍了当前复现研究在数据构建、方法设计和训练过程中的细节、实验结果的关键发现。
一、监督微调(SFT)

监督微调是通过高质量的数据集来提升推理语言模型(RLMs)的关键方法之一。详细介绍了用于监督微调的数据集,包括数据收集、数据集细节和分析讨论:

1.1 数据收集与整理流程
1.2 现有数据集细节
DeepSeek-R1、OpenThoughts、Open-R1、Light-R1、Bespoke Stratos、AM、Synthetic-1、S1k-1.1、LIMO
1.3 分析与讨论

1.4 训练与性能比较

二、基于可验证奖励的强化学习(RLVR)

2.1 RL 数据集

数据集主要涵盖数学和编程问题,并确保在训练过程中可以验证模型的输出。

2.2 RL 组件

详细讨论了强化学习的关键组件,包括算法设计、奖励系统和采样策略。

2.2.1 算法设计
2.2.2 奖励设计
2.2.3 采样策略

2.3 分析与讨论

总结了基于可验证奖励的强化学习在训练推理语言模型时的关键发现:

2.3.1 训练数据配方
2.3.2 RL 算法设计
2.3.3 模型大小和类型
2.3.4 上下文长度
2.3.5 奖励建模
2.3.6 KL 损失
      https://arxiv.org/pdf/2505.00551100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

      推荐阅读


        欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

        阅读原文

        跳转微信打开

        Fish AI Reader

        Fish AI Reader

        AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

        FishAI

        FishAI

        鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

        联系邮箱 441953276@qq.com

        相关标签

        推理语言模型 DeepSeek-R1 SFT RLVR 人工智能
        相关文章