NVIDIA 为消费者带来 15 亿至 320 亿个参数的推理模型

cnBeta全文版 07月20日 21:19

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

NVIDIA发布了OpenReasoning-Nemotron系列模型，包含15亿、70亿、140亿和320亿参数的四种规模，均基于Qwen-2.5，并源自DeepSeek R1 0528。这些模型旨在降低高级推理实验的门槛，使其能在普通游戏设备上运行，无需高昂GPU成本。NVIDIA通过NeMo Skills生成了500万个数学、科学和代码解决方案，并进行监督微调。其中320亿参数模型在AIME24等竞赛中表现优异，性能比肩甚至超越部分先进模型。这些模型现已在Hugging Face上线，为研究和定制化提供了基础，并有望使玩家也能体验本地化的高性能AI推理。

🌟 **精简高效的模型家族：** NVIDIA推出了OpenReasoning-Nemotron系列，包含15亿、70亿、140亿和320亿参数的四种模型。这些模型均源自一个更大的671亿参数模型，并基于Qwen-2.5架构。其核心优势在于“精简”设计，使得高级推理实验能够在标准游戏设备上进行，显著降低了对昂贵GPU和云服务的依赖，让更多开发者和研究者能够便捷地进行实验。

📚 **基于海量解决方案的监督学习：** NVIDIA利用NeMo Skills流水线生成了500万个高质量的数学、科学和代码解决方案。随后，通过纯粹的监督学习（Supervised Fine-Tuning, SFT）对每个“学生”模型进行微调。这种方法强调“原始数据”的力量，确保模型在特定领域拥有扎实的学习基础，而非依赖复杂的指令调整或其他高级技术。

🏆 **优异的竞赛级性能表现：** 尽管模型规模精简，但其性能令人瞩目。例如，320亿参数的模型在AIME24数学竞赛中取得了89.2分，在HMMT二月竞赛中获得73.8分。即使是较小的15亿参数模型，也展现了稳定的55.5分和31.5分的成绩。通过GenSelect模式（多迭代生成并选优），32B模型的表现甚至在多项数学和编码基准测试中可媲美或超越OpenAI的o3-high。

🛠️ **面向研究与社区的开放工具：** NVIDIA将这些模型定位为强大的研究工具包，并已将所有四个检查点在Hugging Face上公开发布。这为社区探索强化学习驱动的推理、针对特定任务定制模型，或进行其他前沿AI研究提供了坚实的基础和便利的起点。由于其纯粹的监督微调训练方式，为未来的RL实验留下了清晰的路径。

🎮 **赋能玩家的本地化AI推理：** NVIDIA的愿景是让拥有强大游戏GPU的玩家和家庭爱好者也能享受到接近最先进水平的AI推理能力。这些模型可以在本地运行，提供高度的隐私性和灵活性，无需依赖云端服务，为用户带来更具沉浸感和个性化的AI体验。

NVIDIA 今天发布了 OpenReasoning-Nemotron，这是由四个精简的推理模型组成的集合，参数分别为 15 亿、70 亿、140 亿和 320 亿，均源自拥有 671 亿参数的 DeepSeek R1 0528。通过将庞大的“老师”模型压缩成四个基于 Qwen-2.5 的“学生”模型，NVIDIA 使得即使在标准游戏设备上也能进行高级推理实验，而无需担心高昂的 GPU 费用和云使用量。

关键不在于复杂的技巧，而在于原始数据。NVIDIA 使用 NeMo Skills 流水线生成了 500 万个数学、科学和代码解决方案，然后通过纯粹的监督学习对每个解决方案进行微调。目前，320 亿参数的模型在 AIME24 上获得了 89.2 分，在 HMMT 二月竞赛中获得了 73.8 分，而即使是 15 亿参数的版本也取得了 55.5 分和 31.5 分的稳定成绩。

NVIDIA 设想将这些模型打造为强大的研究工具包。所有四个检查点均可在 Hugging Face 上下载，为探索强化学习驱动的推理或针对特定任务定制模型奠定坚实的基础。使用 GenSelect 模式（每个问题进行多次迭代），可以生成多个并行生成并选出最佳答案，从而使 32B 模型的性能达到卓越水平，在多个数学和编码基准测试中堪比甚至超越 OpenAI 的 o3-high 性能。

由于 NVIDIA 仅使用监督微调训练这些模型，而未使用强化学习，因此社区拥有清晰、先进的未来强化学习实验起点。对于游戏玩家和家庭爱好者来说，如果您拥有更强大的游戏 GPU，我们将获得一个完全本地化的模型，该模型可以非常接近最先进的水平。

查看评论

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签