index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
DeepSeek联合清华发布了关于通用奖励模型(GRM)的最新研究,提出了DeepSeek-GRM-27B模型,该模型通过创新的推理时可扩展性技术,性能可与671B参数模型相媲美。研究重点在于通过推理计算改进奖励建模,并利用点式生成奖励建模(GRM)和“自我原则批评调整”(SPCT)学习方法,显著提升了模型质量和可扩展性。实验结果表明,DeepSeek-GRM-27B在多个奖励建模基准测试中表现出色,并通过并行采样和元奖励模型(Meta RM)指导投票,实现了推理时的性能提升。
🧠 DeepSeek-GRM的核心是点式生成奖励建模(GRM),这种方法允许模型为不同类型的输入生成奖励信号,并具备推理时可扩展的潜力。
💡 DeepSeek采用了“自我原则批评调整”(SPCT)的学习方法,通过在线强化学习训练GRM模型,使其能够生成原则和准确的批评,从而提高奖励生成的质量和可扩展性。SPCT包括拒绝式微调、基于规则的强化学习(RL)等。
📊 通过并行采样和元奖励模型(Meta RM)指导投票,DeepSeek-GRM-27B模型在推理时的性能随着采样数量的增加而显著提高,甚至超越了训练时模型规模扩展的性能。
🔬 实验结果表明,DeepSeek-GRM-27B在推理时扩展到32个样本时,能够达到与671B参数模型相当的性能,这展示了推理时可扩展性相比训练时模型规模扩展的优势。
2025-04-04 22:40 河南
DeepSeek-GRM-27B媲美671B的DeepSeek-V3/R1

DeepSeek联合清华发布了最新研究成果:通用奖励模型的推理时可扩展性,探讨了如何通过更多的推理计算来改进通用查询的奖励建模(RM),以及如何通过适当的学习方法提高性能与计算扩展的有效性。DeepSeek分三步走解决上述问题,并产生了DeepSeek-GRM模型:DeepSeek-GRM-27B能够达到与671B参数模型(DeepSeek V3/R1)相当的性能:在奖励建模方法上,采用点式生成奖励建模(Pointwise Generative Reward Modeling, GRM),它允许模型为不同类型的输入生成奖励信号,并具有推理时可扩展的潜力。
不同的奖励生成范式,包括(a)标量、(b)半标量和(c)生成式方法,以及不同的评分模式,包括(i)逐点式和(ii)成对式方法。我们列出了每种方法的代表性方法,并对应展示了推理时的可扩展性(是否可以通过多次采样获得更好的奖励)和输入灵活性(是否支持对单个和多个响应进行评分)。在学习方法上,提出“自我原则批评调整”(Self-Principled Critique Tuning SPCT):这是一种新的学习方法,通过在线强化学习(online RL)来训练GRM模型,使其能够自适应地生成原则(principles)和准确的批评(critiques),从而提高奖励生成的质量和可扩展性,并产生了DeepSeek-GRM模型
SPCT的示意图,包括拒绝式微调、基于规则的强化学习(RL),以及推理阶段的相应可扩展行为。通过简单的投票或由元奖励模型(Meta RM)引导的投票(基于大规模生成的原则),实现推理时的扩展,从而在扩展的价值空间内获得更细致的结果奖励。此外,为了实现有效的推理时扩展,使用并行采样来扩大计算使用,并引入了一个元奖励模型(Meta Reward Modeling, Meta RM)来指导投票过程,以实现更好的扩展性能。
SPCT的有效性:实验表明,SPCT显著提高了GRM模型的质量和推理时可扩展性,超越了现有的方法和模型,且在多个RM基准测试中表现出色,没有明显的领域偏差。推理时可扩展性:通过并行采样和元RM指导投票,DeepSeek-GRM-27B模型在推理时的性能随着采样数量的增加而显著提高,甚至超过了训练时模型规模扩展的性能。模型性能对比:DeepSeek-GRM-27B在推理时扩展到32个样本时,能够达到与671B参数模型相当的性能,显示出推理时可扩展性相比训练时模型规模扩展的优势。https://arxiv.org/pdf/2504.02495
Inference-Time Scaling for Generalist Reward Modeling
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。
阅读原文
跳转微信打开