机器之心 02月16日
从PPO到GRPO,DeepSeek-R1做对了什么?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期会员通讯解读了三个AI与机器人领域的重要事件。DeepSeek-R1通过GRPO算法替代PPO,在强化学习方面取得突破,以更低成本实现卓越推理能力。同时,探讨了AI Native硬件产品的定义与发展瓶颈,指出交互能力是核心。ARK 2025年度展望则关注AI技术对全球经济的革新,预测Agent渗透行业、自动驾驶发展以及AI+机器人的产业影响。通讯还包含了27项AI与机器人赛道的要事速递,涵盖技术、国内和国外多个方面。

🚀DeepSeek-R1采用GRPO算法替代PPO,成为全球首个通过纯强化学习复现o1能力的模型,并开源技术细节,其亮点在于减少人类标注数据,通过精心设计的奖励机制自主学习推理。

💡GRPO的核心在于去除PPO中的Critic模型,降低计算资源成本。PPO采用Actor-Critic架构,而GRPO仅需Actor和Reference两个模型,通过Rule-based Reward取代难以调试的Reward模型进行判别。

🤝Kimi 1.5与DeepSeek-R1在技术方案上存在相似之处,两者都设计了简洁的RL框架,未采用复杂的树搜索或昂贵的PRM,而是通过精心设计的参考事实奖励机制进行判别,Kimi 1.5采用online Mirror Decent进行Policy Optimization。

原创 Pro会员通讯 2025-02-16 10:16 北京

本期通讯22569字,可免费试读至6%。

机器之心PRO · 会员通讯 Week 07

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---

1. 从 PPO 到 GRPO,DeepSeek-R1 做对了什么?

Kimi 1.5 的 Mirror Descent 是否与R1的GRPO殊途同归?Ruled-based Reward 比 PRM更好用?CoT 过程出错根本不影响推理效果提升?...

2. 什么样的硬件产品才配得上 「AI Native」? 

AI 硬件产品的边界在哪?为什么说 AI 硬件赛道仍处在非常早期的阶段?为什么 AI Native 硬件产品还未出现?AI 大模型的「肉身」并不重要,交互能力才是核心瓶颈?...

3. ARK 2025 年度展望:AI 技术将革新全球经济格局

ARK 的新报告关注了哪些 AI 趋势?Agent 将渗透哪些行业?自动驾驶今年要大火?RoboTaxi 和智能物流的市场哪个更大?AI+机器人会影响哪些产业?...


...本期完整版通讯含 3 项专题解读 + 27 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 9 项,国外方面 5 项。

本期通讯总计 22596 字,可免费试读至 6% 

 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 



要事解读①  从 PPO 到 GRPO,DeepSeek-R1 做对了什么?

引言:DeepSeek-R1 追平 o1 的推理能力和在推理中展现 Aha Moment 引发了大量对 DeepSeek-R1 技术方案的解读。其中,用 GRPO 替代 PPO 的强化学习方案为模型带来的 Aha Moment 尤其受到关注。

不要 Critic,Deepseek 为何用 GRPO 取代 PPO?

1、在 DeepSeek-R1 的技术报告所展示的强化学习方案是该工作最受关注的亮点,其也在后续的解读中被反复剖析。

① 清华大学刘知远教授近期在一场研讨会中评价 DeepSeek-R1 ,称其突破性贡献之一在于,该模型(R1-Zero)是全球首个通过纯强化学习技术,成功复现了 o1 的能力,并且开源了相关的技术细节,发布了相对详细的技术报告的工作。[1-1]

2、DeepSeek-R1 的强化学习方案中,其亮点之一在于通过 GRPO 算法取代了 RLHF 常用的 PPO,通过尽可能减少人类标注数据,设计纯 RL 的环境,用精心设计的奖励机制来训练模型自己学会推理。

3、在大模型训练中,强化学习常用于提升模型性能和对齐人类偏好,并且在后训练环节的应用愈发受到关注,流行的 RLHF 结合了机器学习和人类反馈训练奖励模型,然后用来微调模型,PPO 则是主流的 RLHF 方法之一。

4、DeepSeek-R1 采用的 GRPO 可以理解为 PPO 的一种替代,其核心在于去除了 PPO 中的 Critic(Value)模型,以此来减少训练的计算资源。[1-2]

① PPO 采用 Actor-Critic 架构,涵盖 Actor(policy)、Critic(Value)、Reward 和 Reference 四种模型。传统的 PPO 使用 Critic 模型来评估模型恢复的总收益,类似比赛中教练指导学员(Actor)的同时也在尝试学习裁判(Reward)的偏好。

② PPO 的缺陷在于 actor 与 critic 的交互会带来过高的成本,GRPO 的亮点在于去除 Critic 模型,用精心设计的 Rule-based Reward 取代难以调试的 Reward 模型进行判别,最终仅需要 Actor 和 Reference 两个模型,成本更低。

5、与 DeepSeek-R1 同一天发布技术报告的 Kimi 1.5 同样具备媲美 o1 的推理能力。有分析发现两者的技术方案虽有差异,但也有惊人的相似。[1-3]

① 两者均设计的简洁的 RL 框架,都没有采用类似 MCTS 那样复杂的树搜索,都没有采用昂贵的 PRM,没有密集的奖励建模,且都精心设计了参考事实的奖励机制来进行判别。

② 相比 DeepSeek-R1 采用 GRPO,Kimi 1.5 则采用了 online Mirror Decent 来进行 Policy Optimization。

R1 和 Kimi 1.5 都在用的 Rule-based Reward 有何神奇之处?

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-R1 强化学习 AI硬件 GRPO PPO
相关文章