热点
"奖励模型" 相关文章
破解 RL 训练崩溃难题,快手联合中科院、清华、南大提出多模态奖励模型 R1-Reward!
掘金 人工智能 2025-05-14T11:03:03.000000Z
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力
机器之心 2025-05-14T05:26:26.000000Z
首个奖励模型评分基准!清华复旦港科大联合攻克AI评委“偏科”
量子位 2025-05-13T08:58:15.000000Z
蚂蚁集团推出开源多模态框架Ming-Lite-Uni;微软推出LLM统一框架ARTIST|今日热门论文
智源社区 2025-05-08T05:33:36.000000Z
ThinkPRM: A Generative Process Reward Models for Scalable Reasoning Verification
MarkTechPost@AI 2025-04-29T17:40:39.000000Z
被《经验时代》刷屏之后,剑桥博士长文讲述RL破局之路
机器之心 2025-04-24T09:49:58.000000Z
字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节公开,4 月 17 日开放接口
IT之家 2025-04-14T04:53:36.000000Z
刚刚,DeepSeek-GRM模型发布,全新推理时Scaling,为R2打前站!
PaperAgent 2025-04-09T10:32:30.000000Z
让 LLM 来评判 | 奖励模型相关内容
Hugging Face 2025-04-09T10:06:25.000000Z
为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need
机器之心 2025-04-09T10:04:03.000000Z
Scalable and Principled Reward Modeling for LLMs: Enhancing Generalist Reward Models RMs with SPCT and Inference-Time Optimization
MarkTechPost@AI 2025-04-07T03:50:29.000000Z
DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊
36氪 AI 2025-04-07T01:37:28.000000Z
DeepSeek提出通用奖励模型新方法SPCT,探索推理时缩放提升AI对齐效率,或将应用于R2
MIT 科技评论 - 本周热榜 2025-04-06T16:06:42.000000Z
DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布!
智源社区 2025-04-06T11:47:52.000000Z
DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊
智源社区 2025-04-06T11:47:52.000000Z
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
机器之心 2025-04-05T07:57:04.000000Z
DeepSeek R2來了?全新推理時Scaling論文聯手清華震撼發佈!
富途牛牛头条 2025-04-04T12:29:57.000000Z
DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布
36kr 2025-04-04T10:23:45.000000Z
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
机器之心 2025-04-04T07:51:00.000000Z
Advancing Vision-Language Reward Models: Challenges, Benchmarks, and the Role of Process-Supervised Learning
MarkTechPost@AI 2025-04-03T07:25:28.000000Z