热点
关于我们
xx
xx
"
GRPO
" 相关文章
PrefixGrouper:加速GRPO训练,即插即用,长上下文场景计算效率跃升!
我爱计算机视觉
2025-06-11T11:55:39.000000Z
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
智源社区
2025-05-27T04:33:58.000000Z
仅用图像也能Think:Google等提出一种视觉规划的全新推理范式!
PaperAgent
2025-05-26T12:03:04.000000Z
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
机器之心
2025-05-24T07:51:24.000000Z
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
新智元
2025-05-24T07:02:12.000000Z
GRPO=高级版拒绝采样?强化学习祛魅时刻:负样本“去芜存菁”才是关键!
PaperWeekly
2025-05-20T07:52:39.000000Z
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法
机器之心
2025-05-17T05:25:06.000000Z
万字长文带你读懂强化学习,去中心化强化学习又能否实现?
机器之心
2025-05-07T07:32:17.000000Z
GRPO在《时空谜题》中击败o1、o3-mini和R1
AI科技评论
2025-04-09T10:02:57.000000Z
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
机器之心
2025-04-02T07:34:40.000000Z
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
掘金 人工智能
2025-04-01T10:57:46.000000Z
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
机器之心
2025-04-01T08:05:59.000000Z
Recent reasoning research: GRPO tweaks, base model RL, and data curation
Interconnects
2025-03-31T16:05:05.000000Z
「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍
智源社区
2025-03-12T11:14:28.000000Z
「古董」GPU也能跑DeepSeek同款GRPO,显存只需1/10,上下文爆涨10倍
36氪 - 科技频道
2025-03-10T08:03:42.000000Z
「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍
新智元
2025-03-10T06:52:26.000000Z
GRPO在《时空谜题》中击败o1、o3-mini和R1
AI科技评论
2025-03-08T11:50:13.000000Z
32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理
智源社区
2025-03-08T10:15:21.000000Z
社区供稿 | Hugging Face 又出新教程啦!手把手教你构建 DeepSeek-R1 推理模型
智源社区
2025-03-05T16:22:19.000000Z
HuggingFace 又出新教程啦!手把手教你构建DeepSeek-R1推理模型
机器学习初学者
2025-03-05T06:39:24.000000Z