智源社区 04月06日 19:47
DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文聚焦于大模型领域的最新动态,探讨了OpenAI和DeepSeek之间的竞争关系。OpenAI CEO奥特曼宣布推迟GPT-5发布,转而优先发布o3和o4-mini。与此同时,DeepSeek发布了关于推理时Scaling Law的论文,引发关注。文章重点介绍了DeepSeek与清华大学合作提出的SPCT方法,该方法通过在线强化学习优化原则和批判生成,实现了推理时扩展,解决了通用奖励模型在复杂任务中的局限性。研究结果表明,该方法在多个基准上表现优异,性能超越了传统的训练时扩展方法。

🧠 OpenAI CEO奥特曼宣布推迟GPT-5的发布,将优先发布o3和o4-mini,原因是整合所有内容比预想的更困难,需要确保有足够能力支持预期需求。

💡 DeepSeek与清华大学共同发布了Inference-Time Scaling for Generalist Reward Modeling论文,提出了SPCT方法,旨在解决通用奖励模型(RM)在复杂任务中的局限性。

✍️ SPCT方法的核心是生成式奖励模型(GRM),它通过生成文本形式的奖励(如critiques),支持灵活输入和推理时扩展,而非单一标量值。

⚙️ SPCT包含两个关键阶段:拒绝式微调(Rejective Fine-Tuning)用于生成初始数据;基于规则的在线RL用于优化原则和批判的生成,从而提升奖励质量。

🚀 推理时扩展技术是SPCT的第三个技术点,它通过多次采样生成多样化的原则和批判,并投票聚合最终奖励,同时训练辅助模型过滤低质量采样,以进一步提升扩展效果。

有点意思。

这不DeepSeek前脚刚刚上新了一篇关于推理时Scaling Law的论文嘛,引得大家纷纷联想是不是R2马上要来了

然鹅……奥特曼这边却发了一条“变卦”的消息:

计划改变:我们可能在几周之后先发布o3和o4-mini

至于大家翘首以盼的GPT-5,奥特曼表示:

将在几个月之后,而且效果会比我们最初设想的还要好。

至于原因,奥特曼也做出了解释。

大概意思就是,顺利整合所有内容比他们想象的要困难得多,希望确保有足够的能力来支持预期的需求。

咱就是说啊,现在真的是DeepSeek这边一有点声响,OpenAI那边就得有点动作来紧跟一下了。

DeepSeek新论文

在这个小插曲之后呢,我们还是把目光聚焦在DeepSeek这篇新论文身上。

这篇论文的名字叫做Inference-Time Scaling for Generalist Reward Modeling,由DeepSeek和清华大学共同提出。

这篇研究核心的亮点,就是提出了一个叫做SPCT方法(Self-Principled Critique Tuning)的方法——

首次提出通过在线强化学习(RL)优化原则和批判生成,实现推理时扩展。

之所以要做这么一项研究,是因为之前大家用奖励模型(Reward Model, RM)在RL中为大语言模型生成奖励信号。

但现有的RM在通用领域却表现出受限的情况,尤其是在面对复杂、多样化任务的时候。

因此,就出现了两个关键挑战点。

一个是通用RM需要灵活性(支持单响应、多响应评分)和准确性(跨领域高质量奖励)。

另一个则是现有RM(如标量RM、半标量RM)在推理时扩展性差,无法通过增加计算资源显著提升性能。

为了解决这个问题,DeepSeek和清华大学团队便提出了SPCT。

整体来看,这项研究主要包含三大核心技术点。

首先就是生成式奖励模型(GRM)。

它采用点式生成奖励模型(Pointwise GRM),通过生成文本形式的奖励(如critiques)而非单一标量值,支持灵活输入(单响应、多响应)和推理时扩展。

其中,C是生成的critique,fextract从中提取分数。

接下来,是关键的SPCT了。

主要是通过在线强化学习(RL)训练GRM,使其能动态生成高质量的原则(principles)和批判(critiques),从而提升奖励质量。

整体来看,SPCT是一个两阶段的过程,它们分别是:

    拒绝式微调(Rejective Fine-Tuning)
    :冷启动阶段,通过采样和拒绝策略生成初始数据。
    基于规则的在线RL
    :使用规则化奖励函数优化原则和批判的生成,鼓励模型区分最佳响应。

在此基础上,便是第三个技术点,即推理时扩展技术

先是通过多次采样生成多样化的原则和批判,投票聚合最终奖励,扩展奖励空间。

再训练一个辅助模型过滤低质量采样,进一步提升扩展效果。

基于上述的方法,团队也对结果做了一波测试。

在Reward Bench、PPE、RMB等基准上,DeepSeek-GRM-27B显著优于基线方法(如LLM-as-a-Judge、标量RM),且通过推理时扩展(32次采样)性能进一步提升(如Reward Bench准确率从86.0%提升至90.4%)。

总而言之,这篇研究证明了推理时扩展在通用RM中的有效性,性能超越训练时扩展。

One More Thing

奥特曼发布“变卦”消息之外,还不忘给自己带一波货,称有两本他亲自参与的书即将发布:

    一本是Keach Hagey写的关于奥特曼本人的书
    一本是Ashlee Vance写的关于OpenAI的书

论文地址:
https://arxiv.org/abs/2504.02495

参考链接:
[1]https://x.com/sama/status/1908167621624856998
[2]https://techcrunch.com/2025/04/04/openai-says-itll-release-o3-after-all-delays-gpt-5/
[3]https://x.com/sama/status/1908163013192069460

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

速抢席位!中国AIGC产业峰会观众报名通道已开启 🙋‍♀️

最新嘉宾曝光啦 🔥 百度、华为、AWS、无问芯穹、数势科技、面壁智能、生数科技等十数位AI领域创变者将齐聚峰会,让更多人用上AI、用好AI,与AI一同加速成长~

4月16日,就在北京一起来深度求索AI怎么用 🙌 点击报名参会


🌟 一键星标 🌟

科技前沿进展每日见


内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI DeepSeek 大模型 推理时扩展 奖励模型
相关文章