PPO_Fishai

热点

"PPO" 相关文章

小红书大模型探索实践：从0到1构建自研RLHF框架

dbaplus社群 2025-07-29T23:59:38.000000Z

小红书大模型探索实践：从0到1构建自研RLHF框架

dbaplus社群 2025-07-27T09:01:19.000000Z

CCL（AI PCB）使用的树脂

雪球今日话题 2025-07-19T07:36:13.000000Z

AI大模型：一文读懂强化学习（RL）中PPO&GRPO（通俗版）

掘金人工智能 2025-07-16T10:10:14.000000Z

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

机器之心 2025-06-22T22:50:49.000000Z

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

机器之心 2025-06-22T22:47:58.000000Z

微软副总裁X上「开课」，连更关于RL的一切，LLM从业者必读

机器之心 2025-05-26T07:35:33.000000Z

The State of Reinforcement Learning for LLM Reasoning

Ahead of AI 2025-04-19T11:15:11.000000Z

更长思维并不等于更强推理性能，强化学习可以很简洁

机器之心 2025-04-14T08:36:03.000000Z

从PPO到GRPO，DeepSeek-R1做对了什么？

机器之心 2025-02-16T08:07:41.000000Z

【NLP】万字长文梳理LLM+RL(HF)的脉络

机器学习初学者 2024-10-23T07:12:51.000000Z

Allen Institute for AI Releases Tulu 2.5 Suite on Hugging Face: Advanced AI Models Trained with DPO and PPO, Featuring Reward and Value Models

MarkTechPost@AI 2024-06-16T16:31:53.000000Z

Copyright © 2019 FISHAI.All Rights Reserved