GRPO算法_Fishai

热点

"GRPO算法" 相关文章

社区供稿 | Hugging Face 又出新教程啦！手把手教你构建 DeepSeek-R1 推理模型

Hugging Face 2025-04-09T10:06:24.000000Z

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

机器之心 2025-03-11T09:01:55.000000Z

可以搞自己的本地推理模型了家人们，太强了 Unsloth AI 优化了 R1 核心算法 GRPO 只需要 15G 显存就能在本地将 15B 的模型训练为推理模型，极限情况下 7G 显卡也...

即刻AI圈子 2025-02-07T09:15:40.000000Z

DeepSeek R1 凭什么震惊全世界？

2025-01-26T12:08:27.000000Z

Copyright © 2019 FISHAI.All Rights Reserved