热点
"GRPO算法" 相关文章
社区供稿 | Hugging Face 又出新教程啦!手把手教你构建 DeepSeek-R1 推理模型
Hugging Face 2025-04-09T10:06:24.000000Z
使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独
机器之心 2025-03-11T09:01:55.000000Z
可以搞自己的本地推理模型了家人们,太强了 Unsloth AI 优化了 R1 核心算法 GRPO 只需要 15G 显存就能在本地将 15B 的模型训练为推理模型,极限情况下 7G 显卡也...
即刻AI圈子 2025-02-07T09:15:40.000000Z
DeepSeek R1 凭什么震惊全世界?
2025-01-26T12:08:27.000000Z