云中江树 02月24日
阅读 | DeepSeek-R1:怎么用强化学习把一个普通语言模型调教成推理高手?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek-AI团队的论文介绍了如何通过强化学习提升大型语言模型的推理能力,并推出了DeepSeek-R1-Zero和DeepSeek-R1两个模型。DeepSeek-R1-Zero是纯RL的实验品,验证了该方法的可行性,而DeepSeek-R1则是通过冷启动数据微调和多阶段训练得到的升级版,性能优异。此外,团队还开源了一些小模型,通过“蒸馏”技术将大模型的推理能力传递给小模型,取得了显著效果。论文详细对比了这些模型在推理、知识和其他任务上的表现,并探讨了成功经验和踩过的坑。

🧪DeepSeek-R1-Zero模型通过纯强化学习训练,无需监督数据,即可在推理任务上取得显著进展,证明了RL在提升LLM推理能力方面的潜力。例如,在AIME 2024数学邀请赛上,正确率从15.6%飙升至71%。

📚DeepSeek-R1模型在R1-Zero的基础上,采用“冷启动数据”微调基础模型,并结合推理强化学习、拒绝采样+SFT以及全面RL等多阶段训练方法,实现了性能的全面提升,可与OpenAI的o1-1217模型相媲美。例如,在MATH-500数据集上,正确率高达97.3%。

🔥通过“蒸馏”技术,DeepSeek-R1将大模型的推理能力传递给小模型(Qwen和Llama系列),即使是简单SFT也能使小模型性能大幅提升,甚至超越一些较大的模型。例如,7B的Qwen模型在AIME 2024上达到了55.5%的正确率。

原创 云中江树 2025-02-24 11:02 北京

DeepSeek-R1-Zero是纯RL的实验品,证明这路子走得通;DeepSeek-R1是加了料的成品,性能顶尖还好用。

这篇论文是DeepSeek-AI团队发表的,标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。

https://arxiv.org/abs/2501.12948

它主要讲了如何通过强化学习(Reinforcement Learning, RL)来提升大型语言模型(LLM)的推理能力,推出了两个模型:DeepSeek-R1-Zero和DeepSeek-R1,还顺带开源了一些小模型。这论文挺硬核的,但咱可以用大白话把它的核心内容掰开揉碎讲明白。



一、论文背景:为啥要搞这个研究?

大型语言模型(比如ChatGPT这类)这几年发展很快,已经在朝“通用人工智能”(AGI)迈进。推理能力是AI变得更聪明的重要一环,比如解决数学题、写代码、做科学推理等等。之前OpenAI推出了o1系列模型,通过延长推理过程(Chain-of-Thought, CoT)在推理任务上表现得很强,但具体怎么做到的,大家只能猜。

这篇论文的作者想搞清楚:能不能不用传统的那种监督微调(Supervised Fine-Tuning, SFT),直接靠强化学习让模型自己学会推理?他们用了DeepSeek-V3-Base作为基础模型,试着用纯RL打造一个推理高手,结果还真搞出了名堂。



二、主角登场:DeepSeek-R1-Zero和DeepSeek-R1

论文里主要讲了两个模型,一个是“原始版”DeepSeek-R1-Zero,一个是“升级版”DeepSeek-R1。


1. DeepSeek-R1-Zero:纯RL的试验田


2. DeepSeek-R1:加点料的升级版

    冷启动:收集几千条带长推理过程的数据,教模型怎么写得清楚又好看。

    推理强化学习:跟R1-Zero一样用RL,但加了个“语言一致性”奖励,避免中英混杂。

    拒绝采样+SFT:用RL训练到差不多时,生成一大堆数据(60万推理+20万非推理),再微调模型,让它不只会推理,还能写文章、回答常识问题。

    全面RL:再来一轮RL,优化帮助性和安全性,兼顾各种场景。

结果咋样?



三、顺手开源:小模型也能很强



四、实验结果:硬碰硬的数据对比

论文里给了详细的测试结果,跟一堆强模型(Claude-3.5、GPT-4o、o1系列)比了个遍。简单总结:

蒸馏的小模型也很有竞争力,尤其是14B、32B、70B,性价比很高。



五、聊聊得失:成功的秘密和踩过的坑


1. 为啥成功?


2. 踩了啥坑?



六、未来咋办?



七、大白话总结

这论文讲的就是DeepSeek团队怎么用强化学习把一个普通语言模型调教成推理高手。DeepSeek-R1-Zero是纯RL的实验品,证明这路子走得通;DeepSeek-R1是加了料的成品,性能顶尖还好用。他们还顺手把大模型的本事“蒸馏”到小模型上,开源给大家玩。整个过程既有惊喜(模型自己学会反思),也有教训(有些方法行不通),但总的来说,是AI推理领域的一次漂亮突破。


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-R1 强化学习 LLM 推理能力 模型蒸馏
相关文章