热点
"GRPO" 相关文章
Extending Group Relative Policy Optimization to Continuous Control: A Theoretical Framework for Robotic Reinforcement Learning
cs.AI updates on arXiv.org 2025-07-29T04:21:51.000000Z
One Step is Enough: Multi-Agent Reinforcement Learning based on One-Step Policy Optimization for Order Dispatch on Ride-Sharing Platforms
cs.AI updates on arXiv.org 2025-07-22T04:34:17.000000Z
AI大模型:一文读懂强化学习(RL)中PPO&GRPO(通俗版)
掘金 人工智能 2025-07-16T10:10:14.000000Z
人物设定一秒入魂!RAIDEN-R1提出可验证奖励新范式,让CoT推理更“人格一致”
PaperWeekly 2025-07-09T15:32:49.000000Z
Listener-Rewarded Thinking in VLMs for Image Preferences
cs.AI updates on arXiv.org 2025-07-02T22:33:35.000000Z
会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破
机器之心 2025-07-01T06:33:23.000000Z
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
机器之心 2025-06-22T22:50:49.000000Z
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
机器之心 2025-06-22T22:47:58.000000Z
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
机器之心 2025-06-22T07:57:51.000000Z
PrefixGrouper:加速GRPO训练,即插即用,长上下文场景计算效率跃升!
我爱计算机视觉 2025-06-11T11:55:39.000000Z
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
智源社区 2025-05-27T04:33:58.000000Z
仅用图像也能Think:Google等提出一种视觉规划的全新推理范式!
PaperAgent 2025-05-26T12:03:04.000000Z
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
机器之心 2025-05-24T07:51:24.000000Z
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
新智元 2025-05-24T07:02:12.000000Z
GRPO=高级版拒绝采样?强化学习祛魅时刻:负样本“去芜存菁”才是关键!
PaperWeekly 2025-05-20T07:52:39.000000Z
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法
机器之心 2025-05-17T05:25:06.000000Z
万字长文带你读懂强化学习,去中心化强化学习又能否实现?
机器之心 2025-05-07T07:32:17.000000Z
GRPO在《时空谜题》中击败o1、o3-mini和R1
AI科技评论 2025-04-09T10:02:57.000000Z
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
机器之心 2025-04-02T07:34:40.000000Z
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
掘金 人工智能 2025-04-01T10:57:46.000000Z