PaperAgent 04月09日 18:32
刚刚,DeepSeek-GRM模型发布,全新推理时Scaling,为R2打前站!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek联合清华发布了关于通用奖励模型(GRM)的最新研究,提出了DeepSeek-GRM-27B模型,该模型通过创新的推理时可扩展性技术,性能可与671B参数模型相媲美。研究重点在于通过推理计算改进奖励建模,并利用点式生成奖励建模(GRM)和“自我原则批评调整”(SPCT)学习方法,显著提升了模型质量和可扩展性。实验结果表明,DeepSeek-GRM-27B在多个奖励建模基准测试中表现出色,并通过并行采样和元奖励模型(Meta RM)指导投票,实现了推理时的性能提升。

🧠 DeepSeek-GRM的核心是点式生成奖励建模(GRM),这种方法允许模型为不同类型的输入生成奖励信号,并具备推理时可扩展的潜力。

💡 DeepSeek采用了“自我原则批评调整”(SPCT)的学习方法,通过在线强化学习训练GRM模型,使其能够生成原则和准确的批评,从而提高奖励生成的质量和可扩展性。SPCT包括拒绝式微调、基于规则的强化学习(RL)等。

📊 通过并行采样和元奖励模型(Meta RM)指导投票,DeepSeek-GRM-27B模型在推理时的性能随着采样数量的增加而显著提高,甚至超越了训练时模型规模扩展的性能。

🔬 实验结果表明,DeepSeek-GRM-27B在推理时扩展到32个样本时,能够达到与671B参数模型相当的性能,这展示了推理时可扩展性相比训练时模型规模扩展的优势。

2025-04-04 22:40 河南

DeepSeek-GRM-27B媲美671B的DeepSeek-V3/R1

DeepSeek联合清华发布了最新研究成果:通用奖励模型的推理时可扩展性,探讨了如何通过更多的推理计算来改进通用查询的奖励建模(RM),以及如何通过适当的学习方法提高性能与计算扩展的有效性。
DeepSeek分三步走解决上述问题,并产生了DeepSeek-GRM模型:DeepSeek-GRM-27B能够达到与671B参数模型(DeepSeek V3/R1)相当的性能:
不同的奖励生成范式,包括(a)标量、(b)半标量和(c)生成式方法,以及不同的评分模式,包括(i)逐点式和(ii)成对式方法。我们列出了每种方法的代表性方法,并对应展示了推理时的可扩展性(是否可以通过多次采样获得更好的奖励)和输入灵活性(是否支持对单个和多个响应进行评分)。
SPCT的示意图,包括拒绝式微调、基于规则的强化学习(RL),以及推理阶段的相应可扩展行为。通过简单的投票或由元奖励模型(Meta RM)引导的投票(基于大规模生成的原则),实现推理时的扩展,从而在扩展的价值空间内获得更细致的结果奖励。
SPCT的有效性:实验表明,SPCT显著提高了GRM模型的质量和推理时可扩展性,超越了现有的方法和模型,且在多个RM基准测试中表现出色,没有明显的领域偏差。
推理时可扩展性:通过并行采样和元RM指导投票,DeepSeek-GRM-27B模型在推理时的性能随着采样数量的增加而显著提高,甚至超过了训练时模型规模扩展的性能。
模型性能对比:DeepSeek-GRM-27B在推理时扩展到32个样本时,能够达到与671B参数模型相当的性能,显示出推理时可扩展性相比训练时模型规模扩展的优势。
    https://arxiv.org/pdf/2504.02495Inference-Time Scaling for Generalist Reward Modeling

    推荐阅读


      欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

      阅读原文

      跳转微信打开

      Fish AI Reader

      Fish AI Reader

      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

      FishAI

      FishAI

      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

      联系邮箱 441953276@qq.com

      相关标签

      DeepSeek GRM 奖励模型 推理时可扩展性
      相关文章