掘金 人工智能 05月06日 17:03
超越 DeepSeek-R1,英伟达开源新王登顶!14 万 H100 小时训练细节全曝光
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达开源了Llama-Nemotron系列模型,该系列模型在推理吞吐量和内存效率上显著超越了DeepSeek-R1。技术报告揭示了模型训练的关键,包括利用合成数据监督微调和强化学习来提升推理能力,以及从头构建完善的后训练流程。Llama-Nemotron系列包含LN-Nano 8B、LN-Super 49B和LN-Ultra 253B三个模型,其中LN-Ultra能在单个8xH100节点上运行,并优化了高吞吐量推理,同时保持强大的推理能力和最多128K的上下文长度。英伟达还首次推出了推理开关功能,用户可以通过提示词动态切换标准聊天模式和推理模式。

🧩Llama-Nemotron模型通过神经架构搜索(NAS)在Llama 3基础上优化推理效率,并引入前馈网络融合(FFN Fusion),借助Puzzle框架,将大语言模型转化为更适配硬件运行的高效版本,通过逐块局部蒸馏的方式,利用Llama 3 Instruct构建了替代Transformer模块的库,优化计算性能。

💡Llama-Nemotron模型使用监督微调(SFT),结合标准指令数据和DeepSeek-R1等强大教师模型的推理过程,从而具备多步骤推理能力。研究者通过在系统指令中加入「detailed thinking on」(开启详细思考)和「detailed thinking off」(关闭详细思考)来训练模型遵循「推理开关」指令,并使用数学、代码等相关领域的合成数据。

🚀Llama-Nemotron模型通过大规模强化学习(RL)增强科学推理能力,采用DeepSeek-R1同款的分组相对策略优化(GRPO)算法。研究者设计了准确性奖励和格式奖励,并对数据进行预处理,包括数据过滤和课程训练,采用基于通过率的渐进式批次分配,动态调整批次难度,以实现模型性能的持续提升。

🏆LN-Ultra 在 GPQA 上达到了开源模型中的最先进水平,充分证明了英伟达研究者大规模强化学习训练方法的有效性。它在推理和非推理基准测试中,与所有现有的开源权重模型相比表现持平或更优,且专门优化为可在单个 8×H100 节点上高效运行,从而提供更高的推理吞吐量和部署效率。

【新智元导读】超越 DeepSeek-R1 的英伟达开源新王 Llama-Nemotron,是怎么训练出来的?刚刚放出的论文,把一切细节毫无保留地全部揭秘了!

现在,英伟达 Llama-Nemotron 系列模型,正式超越 DeepSeek-R1!

而且,这些模型已经全部开源了。

换句话说,在推理吞吐量和内存效率上显著超越 DeepSeek-R1 的一系列推理模型,已经开源可用了。

超越 DeepSeek-R1 的模型,究竟是怎么炼出的?

就在刚刚,英伟达发布了技术报告中,揭秘了模型训练的关键——

· 利用合成数据监督微调 + 强化学习,全面提升模型的推理能力

· 从头构建完善的后训练流程

论文链接:arxiv.org/abs/2505.00…

上个月,英伟达正式官宣了的 Llama-Nemotron 253B,一下子就让发布 3 天的 Llama 4 变成了「陪衬」。(后者还陷入了刷榜等「诚信危机」

发布之后,英伟达的这一系列模型在业界引起不小的轰动。

根据人工分析智能指数,截至 2025 年 4 月,Llama-Nemotron-Ultra 被认为是目前「最智能」的开源模型。

这次,英伟达一口气推出了 Llama-Nemotron 系列三个模型——LN-Nano 8B,LN-Super 49B 和 LN-Ultra 253B。

值得一提的是,LN-Ultra 不仅在性能上超越了 DeepSeek-R1,还能在单个 8xH100 节点上运行,推理吞吐量更高

这些模型针对高吞吐量推理进行了优化,同时保持强大的推理能力和最多 128K 的上下文长度。

LN-Ultra 在各类推理任务中展现出领先的开源模型性能

并且,在全球 AI 开源届,英伟达首次推出了推理开关功能,用户只需通过系统提示词「detailed thinking on/off」就可以动态切换标准聊天模式和推理模式。

这种设计让模型既能满足日常通用需求,也能胜任复杂的多步骤推理,无需使用不同的模型或架构。

揭秘构建过程

Llama-Nemotron 模型的构建,分为五个阶段。

第一阶段:利用神经架构搜索(NAS)在 Llama 3 系列模型基础上优化推理效率,并引入前馈网络融合(FFN Fusion)。

第二阶段:通过知识蒸馏和继续预训练来恢复模型性能。

第三阶段:进行有监督微调(SFT),结合标准指令数据和来自 DeepSeek-R1 等强大教师模型的推理过程,从而让模型具备多步骤推理能力。

第四阶段:在复杂的数学和 STEM 数据集上进行大规模强化学习,这是学生模型能够超越教师模型能力的关键一步。对于 LN-Ultra,这一阶段在 GPQA-D 基准测试上带来了显著性能提升,确立其作为当前开源领域科学推理最强模型的地位。

为了支持如此大规模的强化学习训练,团队专门开发了新的训练框架,包含多项优化措施,其中最重要的是支持 FP8 精度的生成能力。

最后一个阶段:简短的对齐训练,重点在于指令跟随和符合人类偏好。

全新架构设计:优化推理效率

借助神经架构搜索 Puzzle 框架,LN-Super 和 LN-Ultra 优化了模型推理效率。

Puzzle 能够在实际部署限制下,将大语言模型转化为更适配硬件运行的高效版本,如图 3 所示。

通过「逐块局部蒸馏」的方式,开发者利用 Llama 3 Instruct 构建了替代 Transformer 模块的库。

在这个过程中,每个模块都会被独立且并行地训练,逼近原始模块的功能,同时优化计算性能。

这样,每个替代模块都具有特定的「精度 - 效率」权衡特性:有些模块虽然更高效,但可能会带来一定的质量下降,从而形成一种在计算成本与模型准确性之间的明确取舍。

这些模块的变体包括:

在构建好模块库后,Puzzle 会从每一层中选择一个模块,组装出一个完整的模型。

这个选择过程由混合整数规划(MIP)求解器控制,它会根据一系列约束条件(如硬件兼容性、最大允许延迟、内存预算或期望的推理吞吐量)来找出最优配置。

Puzzle 框架概览

垂直压缩与 FFN 融合

在 LN-Ultra 模型中,研究者引入了一项额外的压缩技术,称为 FFN Fusion(前馈网络融合),用于减少模型的序列深度并提升推理延迟效率。

Puzzle 在移除部分注意力层后,模型结构中出现的一种特性:模型中常会出现多个连续的 FFN 块。

FFN Fusion 能识别出这些连续结构,并将其替换为更少但更宽、可并行执行的 FFN 层。

这种替换方式在不牺牲模型表达能力的前提下,减少了顺序计算的步骤,显著提升了计算资源的利用率——特别是在多 GPU 环境中,跨层通信开销不可忽视的情况下,效果尤为明显。

图 4 展示了在 GPQA-Diamond 准确率(%)与处理吞吐量(token / 秒)之间的权衡。

值得注意的是,LN-Ultra 始终在准确性和效率上优于 DeepSeek-R1 和 Llama-3.1-405B,取得了准确性和效率的最佳平衡。

GPQA-Diamond 模型的精确度与吞吐量对比

NAS 后训练:知识蒸馏与持续预训练

在神经架构搜索(NAS)阶段之后,LN-Super 和 LN-Ultra 都进行了额外的训练,以提升模块之间的兼容性,并恢复在模块替换过程中可能出现的质量损失。

这一最终的预训练步骤,使 LN-Ultra 不仅追平了参考模型 Llama 3.1-405B-Instruct 的表现,还在关键基准测试中实现了超越。

这就,表明通过简短的蒸馏与预训练,可以在激进的架构优化和高模型性能之间实现兼容。

监督微调

想让 Llama-Nemotron 模型拥有超厉害的推理能力?

监督微调(Supervised Fine-Tuning,SFT)这一步简直就是「神助攻」。

前面的开发阶段,团队主要在研究怎么让模型架构更高效,怎么把海量知识塞进去。

而 SFT 就像给模型请了一位「私人教练」,专门针对特定任务的推理步骤,带着它从 DeepSeek-R1 这些「学霸」模型身上,偷师推理技巧。

不过要想让模型真正拥有扎实的推理功底,大规模、高质量的推理训练数据必不可少。

合成数据

研究者为监督微调精心整理了包含推理和非推理的数据样本。

对于推理样本,他们在系统指令中加入「detailed thinking on」(开启详细思考),而对于非推理样本,则使用「detailed thinking off」(关闭详细思考)。

这种设置,使模型能够在推理阶段根据提示内容切换推理行为。

为推理,精心准备了数学、代码等相关领域的合成数据

为了训练模型遵循「推理开关」指令,研究者构建了成对的数据集,其中每个提示都对应一个带推理的回复和一个不带推理的回复。

这种配对方式,使模型能够根据系统指令学习调节其推理行为。

随后会依据标准答案或奖励模型对这些回复进行筛选。

微调流程

在指令微调数据上,所有模型的训练,均采用 token 级交叉熵损失。

在大多数训练设置中,推理数据和非推理数据会被混合在一起,形成训练批次,其中每个提示都会根据系统指令「detailed thinking on/off」的条件,与相应的响应配对。

延长训练至多轮周期能提升性能,对小模型尤为明显。

这次主要使用 NeMo-Aligner 来进行强化学习训练,支持 GRPO 以及异构模型的训练。

论文链接:arxiv.org/abs/2405.01…

生成阶段使用 vLLM 实现,训练阶段则使用 Megatron-LM

训练和推理阶段共用同一批 GPU,在同一设备上完成。

整个训练过程中,他们共使用了 72 个节点,每个节点配备 8 张 H100 GPU

生成阶段采用 FP8 精度,训练阶段采用 BF16 精度,优化器状态使用 FP32

每个阶段维护一份独立的模型权重,并在每一步开始时进行同步。

强化学习:超越 R1 推理能力的关键

监督微调(SFT)可以让模型从强大的教师模型中提炼知识,从而获得出色的能力。

然而,知识蒸馏本质上为学生模型的性能设定了上限,特别是当学生模型的基础模型能力不超过教师模型时。

通过监督微调,LN-Ultra 的性能可以接近 DeepSeek-R1,但无法超越它。

为了使学生模型超越教师模型,大规模强化学习(RL)是一种可行的方法,因为它允许模型持续探索新的可能性并进行自我学习。

由于资源限制,研究者仅对 LN-Ultra 应用推理 RL,结果得到超越教师模型的学生模型。

在整个推理强化学习训练过程中,在 GPQA-Diamond 数据集上,LN-Ultra 的准确性

训练流程

对于 LN-Ultra,研究者通过大规模强化学习(RL)增强它的科学推理能力,采用 DeepSeek-R1 同款的分组相对策略优化(GRPO)算法。

整个训练过程大约需要 14 万 H100 小时,持续训练模型直至其在推理任务上实现收敛。

图 5 显示了训练过程中 GPQA-Diamond 的准确率得分。

奖励机制设计包含两类:

研究团队还对数据进行预处理,包括数据过滤和课程训练(curriculum training)。

用于偏好优化的强化学习

在完成科学推理训练之后,研究者对 LN-Super 和 LN-Ultra 模型进行了一个简短的强化学习阶段,重点提升其指令****跟随能力

研究者还使用 RLHF 对模型的通用帮助能力和聊天表现进行优化,同时保留了模型在数学、科学等其他领域的能力。

如表 4 所示,LN-Super 在 Arena Hard 测试中取得了 88.3 的高分,超越了专有模型如 Claude 3.5 Sonnet 和 GPT-4o-2024-05-13,也优于体量更大的开源模型。

为了实现这一结果,他们采用了「在线 RPO」(OnLine Reward-Policy Optimization)方法,最大化模型在 HelpSteer2 数据集上的预测奖励,奖励模型使用的是 Llama-3.1-Nemotron-70B-Reward。

两轮在线 RPO 训练将 Arena Hard 得分从 69.1 提升到 88.1

对于 LN-Ultra,他们使用类似流程,但采用了 GRPO

对于 LN-Nano,他们进行了两轮离线 RPO 训练,使用基于策略生成的训练数据。

在第一轮中,结合推理类和非推理类数据,并配合适当的系统提示词,以优化模型的推理控制能力。第二轮则专注于提升指令跟随能力。

评估结果

研究者在两个基准类别上评估所有 Llama-Nemotron 模型的性能:推理任务和非推理任务。

推理类基准包括:AIME24 和 AIME25、GPQA-Diamond、LiveCodeBench 以及 MATH500。

非推理类基准包括:用于指令遵循评估的 IFEval、用于函数调用工具使用评估的 BFCL V2 Live 以及用于评估对人类对话偏好对齐度的 Arena-Hard。

表 3 显示,尽管模型体积较小,LN-Nano 在所有推理类基准测试中都取得了出色的表现。

这表明,监督微调流程和精心策划的推理数据集,在将结构化推理能力迁移至小型模型方面是有效的。

表 4 将 LN-Super 与其参数规模相近的其他模型进行了对比,可见这个模型在推理任务和非推理任务中都表现出强劲的竞争力。

在「推理关闭」模式下,LN-Super 的表现与其蒸馏来源模型 Llama-3.3-70B 相当;在「推理开启」模式下,则超越了其他竞品模型,例如 DeepSeek-R1-Distilled-Llama-70B,在保持良好指令遵循能力的同时展现出强大的推理能力。

这些结果表明,LN-Super 是一个兼具推理优化模型和非推理模型优点的通用模型,适用于日常助手型任务和结构化推理任务。

表 5 显示,LN-Ultra 在推理和非推理基准测试中,与所有现有的开源权重模型相比表现持平或更优。它在 GPQA 上达到了开源模型中的最先进水平,充分证明了英伟达研究者大规模强化学习训练方法的有效性。

与 DeepSeek-R1 需要使用 8×H200 的硬件配置不同,LN-Ultra 专门优化为可在单个 8×H100 节点上高效运行,从而提供更高的推理吞吐量和部署效率。

从表 5 可见,LN-Ultra 的 SFT 阶段已经在多个推理基准测试(包括 GPQA 和 AIME)上接近或达到 DeepSeek-R1 的性能。

除了模型原本接受训练的推理和对话能力之外,他们还对模型在一个分布外任务

具体来说,模型在 JudgeBench 数据集上进行了测试,要求区分高质量与低质量的回答

如表 6 所示,新模型在该任务上表现优于当前顶尖的专有模型和开源模型。

其中,LN-Ultra 成为表现最好的开源模型,明显超过了 DeepSeek-R1,仅次于专有模型 o3-mini(high)。

此外,LN-Super 的表现也超过了 o1-mini,这说明新模型在各类任务中具备很强的泛化能力

参考资料:

arxiv.org/abs/2505.00…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Llama-Nemotron 英伟达 开源模型 强化学习 推理优化
相关文章