PaperAgent 02月14日
7G显存,训练自己的DeepSeek-R1,GRPO资源暴降80%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Unsloth AI带来黑科技,使用GRPO训练R1推理模型,增强流程且节省VRAM。DeepSeek研究人员观察到模型的‘顿悟时刻’,该模型可自动展示推理能力。文中还介绍了GRPO的工作原理、训练要求等内容。

🧠Unsloth AI使用GRPO训练R1推理模型,节省VRAM

✨DeepSeek研究人员发现模型的‘顿悟时刻’

🎯GRPO工作原理:根据响应评分强化模型

📋GRPO训练要求:至少12小时,适用于1.5B参数以上模型

2025-02-10 16:12 湖北

DeepSeek-R1自发布以来,已出现众多开源复现(Open-R1,Tiny-Zero、simpleRL-reason、Mini-R1等等),但受限于GPU条件限制,有小伙伴可能没run起来~

此刻,不用为GPU发愁,Unsloth AI黑科技来了,使用 Unsloth (GRPO) 训练自己的 R1 推理模型(附代码),增强了整个 GRPO 流程,使其使用的 VRAM 比 Hugging Face + FA2 少 80%。可以使用 Qwen2.5 (1.5B) 在仅 7GB VRAM 上重现 R1-Zero 的“顿悟时刻”

GRPO + “啊哈”时刻

DeepSeek 的研究人员在使用纯强化学习 (RL) 训练 R1-Zero 时观察到了“顿悟时刻”。该模型学会了通过重新评估其初始方法延长其思考时间,而无需任何人工指导或预定义指令。
尽管仅使用 GRPO 训练了 100 步的 Phi-4,但结果已经很明显了。没有 GRPO 的模型没有思考标记,而使用 GRPO 训练的模型有思考标记并且也有正确答案。

这种魔力可以通过 GRPO 重现,GRPO 是一种 RL 算法,它不需要价值函数就能有效优化响应,这与依赖价值函数的近端策略优化 (PPO) 不同。

工作原理:

举个例子,假设我们想要一个模型来解决:

1+1 等于多少?>> 思路/计算 >> 答案是 2。

2 +2 等于多少?>> 思路/计算 >> 答案是 4。

最初,必须收集大量数据来填补计算/思考流程。但 GRPO(DeepSeek 使用的算法)或其他 RL 算法可以引导模型自动展示推理能力并创建推理轨迹。相反,需要创建好的奖励函数或验证器。例如,如果它得到了正确的答案,就给它 1 分。如果有些单词拼写错误,就减 0.1 分。等等!可以提供很多函数来奖励这个过程。

Unsloth 中的 GRPO

等待至少 300 步,奖励才会真正增加,请使用最新版本的 vLLM。Unsloth在 Colab 上的示例只训练了一个小时,因此结果低于标准。为了获得良好的结果,需要训练至少 12 个小时

这是建议将 GRPO 应用于至少有 1.5B 参数的模型,以正确生成思考标记,因为较小的模型可能无法做到这一点。如果使用的是基础模型,请确保有一个聊天模板。GRPO 的训练损失跟踪现在直接内置在 Unsloth 中,无需使用 wandb 等外部工具

除了添加 GRPO 支持外,随后还支持在线 DPO、PPO 和 RLOO!

比较 Unsloth 的在线 DPO VRAM 消耗与标准 Hugging Face + FA2

https://unsloth.ai/blog/r1-reasoninghttps://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B)-GRPO.ipynb

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Unsloth AI R1推理模型 GRPO 顿悟时刻
相关文章