GRPO_Fishai

热点

"GRPO" 相关文章

Extending Group Relative Policy Optimization to Continuous Control: A Theoretical Framework for Robotic Reinforcement Learning

cs.AI updates on arXiv.org 2025-07-29T04:21:51.000000Z

One Step is Enough: Multi-Agent Reinforcement Learning based on One-Step Policy Optimization for Order Dispatch on Ride-Sharing Platforms

cs.AI updates on arXiv.org 2025-07-22T04:34:17.000000Z

AI大模型：一文读懂强化学习（RL）中PPO&GRPO（通俗版）

掘金人工智能 2025-07-16T10:10:14.000000Z

人物设定一秒入魂！RAIDEN-R1提出可验证奖励新范式，让CoT推理更“人格一致”

PaperWeekly 2025-07-09T15:32:49.000000Z

Listener-Rewarded Thinking in VLMs for Image Preferences

cs.AI updates on arXiv.org 2025-07-02T22:33:35.000000Z

会“思考”的目标检测模型来了！IDEA提出Rex-Thinker：基于思维链的指代物体检测模型，准确率+可解释性双突破

机器之心 2025-07-01T06:33:23.000000Z

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

机器之心 2025-06-22T22:50:49.000000Z

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

机器之心 2025-06-22T22:47:58.000000Z

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

机器之心 2025-06-22T07:57:51.000000Z

PrefixGrouper：加速GRPO训练，即插即用，长上下文场景计算效率跃升！

我爱计算机视觉 2025-06-11T11:55:39.000000Z

OpenAI没做到，DeepSeek搞定了！开源引爆推理革命

智源社区 2025-05-27T04:33:58.000000Z

仅用图像也能Think：Google等提出一种视觉规划的全新推理范式！

PaperAgent 2025-05-26T12:03:04.000000Z

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

机器之心 2025-05-24T07:51:24.000000Z

OpenAI没做到，DeepSeek搞定了！开源引爆推理革命

新智元 2025-05-24T07:02:12.000000Z

GRPO=高级版拒绝采样？强化学习祛魅时刻：负样本“去芜存菁”才是关键！

PaperWeekly 2025-05-20T07:52:39.000000Z

泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别新解法

机器之心 2025-05-17T05:25:06.000000Z

万字长文带你读懂强化学习，去中心化强化学习又能否实现？

机器之心 2025-05-07T07:32:17.000000Z

GRPO在《时空谜题》中击败o1、o3-mini和R1

AI科技评论 2025-04-09T10:02:57.000000Z

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

机器之心 2025-04-02T07:34:40.000000Z

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

掘金人工智能 2025-04-01T10:57:46.000000Z

Copyright © 2019 FISHAI.All Rights Reserved