吞吐量30倍提升！NVIDIA秀Blackwell性能：打破MLPerf记录居第一

快科技资讯 04月03日 11:41

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

英伟达在MLPerf V5.0基准测试中展示了其Blackwell平台的卓越性能。该平台在运行最新的Llama 3.1 405B模型时，展现出惊人的吞吐量提升，尤其是在大型模型推理方面。测试结果表明，Blackwell平台在关键指标如首次响应时间和每个输出令牌的时间上均有显著改善，为用户提供了更流畅的体验。这些成果巩固了英伟达在AI计算领域的领先地位。

🚀 MLPerf V5.0是衡量人工智能硬件、软件和服务性能的标准化基准测试，由图灵奖得主大卫·帕特森联合多家顶尖机构成立，具有极高的权威性。

🔥 英伟达Blackwell平台在Llama 3.1 405B基准测试中表现出色。GB200 NVL72系统通过连接72个Blackwell GPU，实现了高达30倍的吞吐量提升，相比H200 NVL8系统。

⏱️ 在推理部署中，Blackwell平台显著缩短了首次响应时间（TTFT）和每个输出令牌的时间（TPOT）。在Llama 2 70B Interactive基准测试中，使用8个Blackwell GPU的DGX B200系统性能比使用8个H200 GPU的系统高出三倍。

快科技4月3日消息，NVIDIA在官网表示，在最新的MLPerf V5.0基准测试中，NVIDIA的Blackwell平台取得了令人瞩目的成绩。

MLPerf是一个衡量人工智能硬件、软件和服务性能的标准化基础测试平台，它由图灵奖得主大卫·帕特森联合谷歌、斯坦福、哈佛大学等顶尖企业和学术机构成立，是权威性最大、影响力最广的国际AI性能基准测试。

最新更新的MLPerf 添加了Llama 3.1 405B，这是最大和最难以运行的开放权重模型之一。

NVIDIA表示，虽然许多公司在其硬件上运行MLPerf基准测试以衡量性能，但只有NVIDIA及其合作伙伴提交并发布了Llama 3.1 405B基准测试的结果。

具体来看，GB200 NVL72系统通过连接72个NVIDIA Blackwell GPU，作为一个单一的超大GPU运行，在Llama 3.1 405B基准测试中，与H200 NVL8相比，实现了高达30倍的吞吐量提升。

据介绍，在生产环境中，推理部署通常受到两个关键指标的延迟限制：首次响应时间（TTFT）和每个输出令牌的时间（TPOT）。

新的Llama 2 70B Interactive基准测试将TPOT缩短了5倍，TTFT降低了4.4倍，模拟了更快的用户体验。

在这一测试中，NVIDIA使用8个Blackwell GPU的DGX B200系统，性能比使用8个H200 GPU的系统高出三倍，为这一更具挑战性的Llama 2 70B基准测试设定了新的高标准。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签