热点
关于我们
xx
xx
"
GRPO
" 相关文章
GRPO在《时空谜题》中击败o1、o3-mini和R1
AI科技评论
2025-04-09T10:02:57.000000Z
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
机器之心
2025-04-02T07:34:40.000000Z
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
掘金 人工智能
2025-04-01T10:57:46.000000Z
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
机器之心
2025-04-01T08:05:59.000000Z
Recent reasoning research: GRPO tweaks, base model RL, and data curation
Interconnects
2025-03-31T16:05:05.000000Z
「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍
智源社区
2025-03-12T11:14:28.000000Z
「古董」GPU也能跑DeepSeek同款GRPO,显存只需1/10,上下文爆涨10倍
36氪 - 科技频道
2025-03-10T08:03:42.000000Z
「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍
新智元
2025-03-10T06:52:26.000000Z
GRPO在《时空谜题》中击败o1、o3-mini和R1
AI科技评论
2025-03-08T11:50:13.000000Z
32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理
智源社区
2025-03-08T10:15:21.000000Z
社区供稿 | Hugging Face 又出新教程啦!手把手教你构建 DeepSeek-R1 推理模型
智源社区
2025-03-05T16:22:19.000000Z
HuggingFace 又出新教程啦!手把手教你构建DeepSeek-R1推理模型
机器学习初学者
2025-03-05T06:39:24.000000Z
社区供稿 | Hugging Face 又出新教程啦!手把手教你构建 DeepSeek-R1 推理模型
Hugging Face
2025-03-04T16:31:15.000000Z
DeepSeek关键RL算法GRPO,手把手教你从头跑通!
智源社区
2025-03-04T02:00:52.000000Z
DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码
机器之心
2025-03-02T05:18:30.000000Z
GRPO 实验经验笔记(1)
孔某人的低维认知
2025-02-19T23:26:24.000000Z
从PPO到GRPO,DeepSeek-R1做对了什么?
机器之心
2025-02-16T08:07:41.000000Z
7G显存,训练自己的DeepSeek-R1,GRPO资源暴降80%
PaperAgent
2025-02-13T16:22:50.000000Z
DeepSeek真正成为了一条鲶鱼
Cnbeta
2025-02-13T07:07:04.000000Z
DeepSeek-R1推理本地跑,7GB GPU体验啊哈时刻?GRPO内存暴降,GitHub超2万星
智源社区
2025-02-10T14:37:49.000000Z