IT之家 04月08日 10:47
Deepseek 突破 AI 训练烧钱魔咒:1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek联合清华大学研发SPCT技术,该技术通过动态优化输出质量,突破了传统依赖大量训练数据的模式。SPCT采用“原则合成-响应生成-批判过滤-原则优化”的递归架构,使模型在推理时能动态修正输出。该方法分为拒绝式微调和基于规则的在线强化学习两个阶段。测试显示,270亿参数的DeepSeek-GRM模型通过SPCT技术,性能可媲美671B规模模型。SPCT显著降低了高性能模型的部署门槛,DeepSeek-GRM模型训练成本仅为1.2万美元,而GPT-4o的成本则高达630万美元。此外,SPCT还减少了90%的人工标注需求,能耗较DPO降低73%,为实时机器人控制等动态场景提供了新可能。

🧠 SPCT技术的核心在于其递归架构,该架构包括“原则合成-响应生成-批判过滤-原则优化”四个环节,使得模型能够在推理过程中动态修正输出,从而提升质量。

⚙️ SPCT方法分为两个阶段:首先是拒绝式微调,该阶段使GRM适应不同输入类型并以正确格式生成原则与点评内容;其次是基于规则的在线强化学习阶段,通过基于规则的结果奖励,鼓励GRM生成更好的原则与点评内容,从而提升推理阶段的可扩展性。

💰 与其他大型模型相比,SPCT技术显著降低了训练成本。例如,270亿参数的DeepSeek-GRM模型训练成本约为1.2万美元,而340B的Nemotron-4则需120万美元,GPT-4o的成本更是高达630万美元。

⚡️ SPCT技术在能耗方面也有显著优势,其能耗较DPO降低73%,同时减少了90%的人工标注需求,这使得SPCT技术更适用于实时机器人控制等动态场景。

IT之家 4 月 8 日消息,深度求索(DeepSeek)联合清华大学,合作推出全新 AI 对齐技术 SPCT(自我原则点评调优),突破传统依赖海量训练数据的模式,通过推理阶段动态优化输出质量。

根据研究团队 4 月 4 日发表的论文,该技术通过“原则合成-响应生成-批判过滤-原则优化”的递归架构,让模型能在推理时动态修正输出。

SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段,让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。二是基于规则的在线强化学习阶段,采用基于规则的结果奖励,鼓励 GRM 生成更好的原则与点评内容,提升推理阶段可扩展性。

测试中,270 亿参数的 DeepSeek-GRM 模型测试显示,通过每查询 32 次采样的推理计算,达到了 671B 规模模型的性能水平。这种硬件感知设计采用混合专家系统(MoE),支持 128k token 上下文窗口,单查询延迟仅 1.4 秒。

报告指出 SPCT 显著降低高性能模型的部署门槛,以 DeepSeek-GRM 模型为例,训练成本约 1.2 万美元(IT之家注:现汇率约合 87871 元人民币),MT-Bench 得分 8.35。

模型规模MT-Bench预估训练成本
DeepSeek-GRM27B8.35$12,000
Nemotron-4340B8.41$1.2 million
GPT-4o1.8T8.72$6.3 million

作为对比,340B 的 Nemotron-4 需 120 万美元获得 8.41 分。OpenAI 的 1.8T 参数 GPT-4o 虽得 8.72 分,但成本高达 630 万美元(现汇率约合 4613.2 万元人民币),而 DeepSeek-GRM 成本仅为 525 分之一。该技术减少 90% 人工标注需求,能耗较 DPO 降低 73%,为实时机器人控制等动态场景提供新可能。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek SPCT AI 模型优化 成本
相关文章