热点
"奖励模型" 相关文章
Research Areas in Methods for Post-training and Elicitation (The Alignment Project by UK AISI)
少点错误 2025-08-01T10:43:05.000000Z
Towards Reliable, Uncertainty-Aware Alignment
cs.AI updates on arXiv.org 2025-07-23T04:03:14.000000Z
Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback
cs.AI updates on arXiv.org 2025-07-22T04:34:27.000000Z
只因一个“:”,大模型全军覆没
智源社区 2025-07-17T08:11:10.000000Z
RM-Gallery: 一站式奖励模型平台
魔搭ModelScope社区 2025-07-14T13:22:58.000000Z
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
智源社区 2025-07-14T07:03:41.000000Z
OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课
新智元 2025-07-11T11:39:58.000000Z
OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课
掘金 人工智能 2025-07-11T10:15:46.000000Z
OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课
新智元 2025-07-11T08:56:53.000000Z
OpenAI去年挖的坑填上了,奖励模型首现Scaling Law,1.8B给70B巨兽上了一课
36kr 2025-07-11T07:21:24.000000Z
Why is Your Language Model a Poor Implicit Reward Model?
cs.AI updates on arXiv.org 2025-07-11T04:04:19.000000Z
奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式
机器之心 2025-07-10T09:03:18.000000Z
奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式
机器之心 2025-07-10T07:21:34.000000Z
昆仑万维再次开源奖励模型!Skywork-Reward-V2在七大主流奖励模型评测榜单中全面夺魁
昆仑万维集团 2025-07-08T06:12:52.000000Z
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破
机器之心 2025-07-08T06:00:44.000000Z
SynPref-40M and Skywork-Reward-V2: Scalable Human-AI Alignment for State-of-the-Art Reward Models
MarkTechPost@AI 2025-07-07T02:15:50.000000Z
AI“读心术”进化:昆仑万维天工奖励模型V2,参数越小,能力越“怪”!
掘金 人工智能 2025-07-06T09:33:51.000000Z
4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源
智源社区 2025-07-05T01:27:50.000000Z
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破
掘金 人工智能 2025-07-04T11:21:26.000000Z
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破
机器之心 2025-07-04T03:33:40.000000Z