奖励模型_Fishai

热点

"奖励模型" 相关文章

Research Areas in Methods for Post-training and Elicitation (The Alignment Project by UK AISI)

少点错误 2025-08-01T10:43:05.000000Z

Towards Reliable, Uncertainty-Aware Alignment

cs.AI updates on arXiv.org 2025-07-23T04:03:14.000000Z

Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback

cs.AI updates on arXiv.org 2025-07-22T04:34:27.000000Z

只因一个“:”，大模型全军覆没

智源社区 2025-07-17T08:11:10.000000Z

RM-Gallery: 一站式奖励模型平台

魔搭ModelScope社区 2025-07-14T13:22:58.000000Z

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

智源社区 2025-07-14T07:03:41.000000Z

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

新智元 2025-07-11T11:39:58.000000Z

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

掘金人工智能 2025-07-11T10:15:46.000000Z

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

新智元 2025-07-11T08:56:53.000000Z

OpenAI去年挖的坑填上了，奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

36kr 2025-07-11T07:21:24.000000Z

Why is Your Language Model a Poor Implicit Reward Model?

cs.AI updates on arXiv.org 2025-07-11T04:04:19.000000Z

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

机器之心 2025-07-10T09:03:18.000000Z

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

机器之心 2025-07-10T07:21:34.000000Z

昆仑万维再次开源奖励模型！Skywork-Reward-V2在七大主流奖励模型评测榜单中全面夺魁

昆仑万维集团 2025-07-08T06:12:52.000000Z

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

机器之心 2025-07-08T06:00:44.000000Z

SynPref-40M and Skywork-Reward-V2: Scalable Human-AI Alignment for State-of-the-Art Reward Models

MarkTechPost@AI 2025-07-07T02:15:50.000000Z

AI“读心术”进化：昆仑万维天工奖励模型V2，参数越小，能力越“怪”！

掘金人工智能 2025-07-06T09:33:51.000000Z

4000万样本炼出AI读心术，刷新七榜SOTA，最强「人类偏好感应器」开源

智源社区 2025-07-05T01:27:50.000000Z

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

掘金人工智能 2025-07-04T11:21:26.000000Z

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

机器之心 2025-07-04T03:33:40.000000Z

Copyright © 2019 FISHAI.All Rights Reserved