36kr-科技 2024年12月27日
英伟达年终大礼,最强AI GPU曝光,全新B300让o1/o3推理性能上天算力爆表
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达发布了新一代AI GPU——GB300和B300,相较于上一代产品,其算力和显存均提升了50%。B300采用了全新的TSMC 4NP工艺节点,并对计算芯片进行了优化。此次升级不仅提升了模型推理和训练性能,还打破了HBM升级周期通常会导致利润率下降的惯例。英伟达在供应链结构上也进行了调整,将部分组件的采购权转移给了客户,从而平衡了成本。尽管面临一些技术挑战和供应链重构,但GB300的推出为超算中心提供了更大的自主权,并有望显著提升性能和成本效益。

🚀B300/GB300算力与显存双重升级:新款GPU的FLOPS性能和HBM容量均提升50%,功耗虽有增加,但通过架构改进和系统级增强,实现了更优的动态功率分配。

🧠专为推理模型优化:显存的改进对于大模型的训练和推理至关重要,更大的显存容量和更高的带宽,使推理速度更快、成本更低,并能支持更长的思维链,提升模型智能。

🔄供应链重构:英伟达调整了供应链结构,将部分组件的采购权转移给客户,这为更多OEM和ODM厂商参与计算托盘制造创造了机会,同时也改变了VRM供应链的格局。

💰利润率打破惯例:尽管显存成本增加,但通过调整供应内容和客户采购,英伟达成功平衡了成本,使得GB300的增量毛利率达到73%,打破了HBM升级导致利润率下降的惯例。

🌐超算中心自主权提升:GB300的推出为超算中心提供了更大的自主权,客户可以自主定制主板、散热系统等,从而优化成本和性能,但同时也带来了更复杂的设计和验证挑战。

【导读】英伟达的圣诞大礼包曝光,最强B300、GB300算力和显存直接提高50%,模型推理训练性能史诗级提升,同时还打破了利润率下降的魔咒。

多亏了老黄,圣诞节如期而至。 

尽管Blackwell GPU多次因硅片、封装和底板问题而推迟发布,但这并不能阻挡他们前进的脚步。 

距离GB200和B200的发布才刚刚过去几个月,英伟达便推出了全新一代的AI GPU——GB300和B300。 

更为有趣的是,这次看似普通的更新背后,实则内含玄机。其中最为突出的,便是模型的推理和训练性能得到了大幅增强。 

而随着B300的推出,整个供应链正在进行重组和转型,赢家将从中获益(获得礼物),而输家则处境不妙(收到煤炭)。 

这正是英伟达送给所有超大规模云计算供应商、特定供应链合作伙伴、内存供应商以及投资者的特别「圣诞礼物」 

不过就在上周,天风国际分析师郭明錤却在研报中曝出,B300/GB300的DrMOS存在严重的过热问题! 

而这,很可能会影响B300/GB300的量产进度。 

具体分析如下—— 

这已经不是Blackwell第一次被曝出存在设计问题了 

B300和GB300:绝不仅是一次小升级

根据SemiAnalysis的最新爆料,B300 GPU对计算芯片的设计进行了优化,并采用了全新的TSMC 4NP工艺节点进行流片。 

相比于B200,其性能的提升主要在以下两个方面: 

1. 算力

FLOPS性能提升50%

功耗增加200W(GB300和B300 HGX的TDP分别达到1.4KW和1.2KW;前代则为1.2KW和1KW)

架构改进和系统级增强,例如CPU和GPU之间的动态功率分配(power sloshing)

2. 内存

HBM容量增加50%,从192GB提升至288GB

堆叠方案从8层HBM3E升级为12层

针脚速率保持不变,带宽仍为8TB/s

专为「推理模型」优化

序列长度的增加,导致KV Cache也随之扩大,从而限制了关键批处理大小和延迟。 

因此,显存的改进对于OpenAI o3这类大模型的训练和推理至关重要。 

下图展示了英伟达H100和H200在处理1,000个输入token和19,000个输出token时的效能提升,这与OpenAI的o1和o3模型中的思维链(CoT)模式相似。 

H100和H200的Roofline模拟,通过FP8精度的Llama 405B模型完成 

H100到H200的升级,主要在于更大、更快的显存: 

    更高的带宽使交互性能普遍提升了43%(H200为4.8TB/s,而H100为3.35TB/s) 更大的批处理规模,使每秒token生成量提升了3倍,进而使成本也降低了约3倍

而对运营商而言,这H100和H200之间的性能与经济差异,远远超过技术参数的数字那么简单。 

首先,此前的推理模型时常因请求响应时间长而影响体验,而现在有了更快的推理速度后,用户的使用意愿和付费倾向都将显著提高。 

其次,成本降低3倍的效益,可是极为可观的。仅通过中期显存升级,硬件就能实现3倍性能提升,这种突破性进展远远超过了摩尔定律、黄氏定律或任何已知的硬件进步速度。 

最后,性能最顶尖、具有显著差异化优势的模型,能因此获得更高溢价。 

SOTA模型的毛利率已经超过70%,而面临开源竞争的次级模型利润率仅有20%以下。推理模型可突破单一思维链限制,通过扩展搜索功能提升性能(如o1 Pro和o3),从而使模型更智能地解决问题,提高GPU收益。 

当然,英伟达并非唯一能提供大容量显存的厂商。 

ASIC和AMD都具备这样的能力。而AMD更是凭借更大的显存容量(MI300X:192GB、MI325X:256GB、MI350X:288GB)占据了优势地位。 

不过,老黄手里还有一张「绝对王牌」——NVLink。 

NVL72在推理领域的核心优势在于,它能让72个GPU以超低延迟协同工作、共享显存。 

而这也是全球唯一具备全连接交换(all-to-all switched connectivity)和全规约运算(all reduce)能力的加速器系统。 

英伟达的GB200 NVL72和GB300 NVL72,对以下这些关键能力的实现极其重要—— 

总体而言,NVL72可以在经济效益上实现10倍以上提升,尤其是在长推理链场景中。

而且,NVL72还是目前唯一能在高批处理下,将推理长度扩展至10万以上token的解决方案。

供应链重构

此前GB200时期,英伟达提供完整的Bianca主板(包含Blackwell GPU、Grace CPU、512GB LPDDR5X内存以及集成在同一PCB上的电压调节模块VRM),同时还提供交换机托盘和铜质背板。 

但随着GB300的推出,供应链的结构和产品内容,将发生重大调整。 

在新方案GB300中行,英伟达只提供三个核心组件的供应: 

终端客户将需要直接采购计算板上的其他组件。同时,第二级内存方案,从焊接式LPDDR5X改为可更换的LPCAMM模块,主要由美光供应。交换机托盘和铜质背板仍由英伟达全权负责。 

相比此前仅有纬创和富士康工业互联网(FII)能够制造Bianca计算板的局面,SXM Puck方案打破了原有的市场格局。 

它的采用为更多OEM和ODM厂商参与计算托盘制造创造了机会: 

其次,是VRM供应链。 

尽管SXM Puck上仍保留部分VRM组件,但主要的板载VRM将由超大规模数据中心运营商和OEM直接从供应商采购: 

第三,英伟达在互联技术也取得了突破。 

GB300平台搭载了800G ConnectX-8网络接口卡,可在InfiniBand和以太网上提供双倍的扩展带宽。 

相较于上一代ConnectX-7,ConnectX-8具有多项显著优势: 

对超算中心的影响

在2024年第三季度,受GB200和GB300发布延迟影响,大量订单转向了英伟达价格更高的新一代GPU。 

截至上周,所有超算中心均已决定采用GB300方案。这一决策基于两个因素: 

此前,由于上市时间压力以及机架、散热和供电密度的重大调整,超算中心此前难以对GB200服务器进行深度定制。 

这迫使Meta完全放弃了同时向博通和英伟达采购网络接口卡的计划,转而完全依赖英伟达。类似地,谷歌也放弃了自研网络接口卡方案,转而采用英伟达的解决方案。 

对于那些一向精于优化从处理器到网络设备,甚至到螺丝和钣金等各个环节成本的超算中心数千人研发团队来说,为其带去了极大的困扰。 

另外,亚马逊的案例最具代表性。他们选择了一个次优配置,导致总拥有成本(TCO)超过了参考设计。 

由于使用PCIe交换机和需要风冷的低效200G弹性网络适配器,亚马逊无法像Meta、谷歌、微软、甲骨文、xAI和Coreweave那样部署NVL72机架。 

受限于其内部网卡方案,亚马逊被迫采用NVL36架构,却因更高的背板和交换机成本推高了每个GPU的支出。 

总体而言,因定制化受限,导致亚马逊的配置方案并不理想。 

GB300的推出,为超算中提供了更大自主权,比如可以自主定制主板、散热系统等。 

这使得亚马逊能够开发自己的定制主板,将此前需要风冷的组件(如Astera Labs PCIe交换机)整合进水冷系统。 

随着更多组件采用水冷设计,加上K2V6 400G网卡将在2025年第三季度实现规模化量产,亚马逊有望重返NVL72架构,显著提升TCO效率。 

然而这也带来了一个显著挑战:超算中心需要投入更多资源进行设计、验证和确认工作。 

这无疑是超算中心面临的最复杂系统设计项目(除谷歌TPU外)。部分超算中心能够快速完成设计,但设计团队较慢的机构则明显落后。 

尽管市场传闻有公司取消订单,但SemiAnalysis观察到由于设计进度较慢,微软可能是最晚部署GB300的机构之一,他们在第四季度仍在采购GB200。 

随着部分组件从英伟达转移到原始设计制造商(ODM),客户的总采购成本出现较大差异。 

这不仅影响了ODM的收入,更重要的是导致英伟达全年的毛利率产生波动。下面将更详细分析这些变动对英伟达利润产生的影响。 

值得一提的是,三星在未来至少9个月内,都无法进入GB200或GB300的供应链。 

对英伟达利润的影响

怀着「圣诞精神」的英伟达,在新的定价策略上也颇有看点——这将直接影响Blackwell系列的利润。 

随着显存方案从SK海力士和美光的8层HBM3E堆栈升级至12层HBM3E堆栈,显存容量获得了显著提升。 

这一升级,直接导致英伟达芯片级物料清单(BOM)成本增加约2,500美元。 

成本的增加主要来自—— 

第三点也反映出高带宽显存(HBM)在物料成本中的主导地位(随着推理模型对显存容量和带宽需求增加,这一趋势将持续加强)。 

总体而言,GB300的平均售价较GB200提高约4,000美元,其中HBM成本增加约2,500美元,而增量利润率不足40%,而GB200整体的利润率维持在70%的中低水平。 

然而,由于前述内容变化,英伟达减少了整体供应内容,转由超算中心自行采购,由此,英伟达实现了成本平衡。 

首先,英伟达不再提供每个Grace CPU配套的512GB LPDDR5X内存,这抵消了大部分额外的HBM成本支出。 

其次,PCB的成本节省最为显著。 

综合各项因素,在平均销售价格提升4,000美元的同时,英伟达的物料成本仅增加略超1,000美元。 

GB300相对于GB200的增量毛利率达到73%,这意味着在良率保持稳定的情况下,该产品的利润水平基本持平。 

这一结果虽然看似平常,但值得注意的是,HBM升级周期通常会导致利润率下降(例如H200、MI325X的情况),而这次这一惯例被打破了。 

此外,随着各项工程技术问题的逐步解决,良率将会提升,在度过Blackwell初期的产能爬升期后,利润率预计会在年内逐步改善。 

参考资料: 

https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/#hyperscaler-impacts-with-gb300 

本文来自微信公众号“新智元”,编辑:编辑部 HYZ ,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

英伟达 B300/GB300 AI GPU 供应链 超算中心
相关文章