原创 算力百科 J 2025-04-12 06:00 湖南
硬件创新在加速。TPU v7 双die 4nm 每块Ironwood芯片的峰值算力为4614 TeraFLOPS(内存高达24*8=192GB hbm3e ;HBM带宽达到7.2 Tbps;B200 4500 TeraFLOPS
我们做了技术分析,认为这颗芯片是谷歌和博通合作的最新成功挑战英伟达gpu地位,依据是很多信息跟博通对外宣传的技术特征相符,这个结论是我们团队的技术分析,待确认!
谷歌TPU可以成功,国产AI芯也可以参考这个路线取得成功...
主要结论:
1.TPUv7应该是博通方案,这也证明了博通asic方案的成熟,未来火山也是这个类似方案,博通现在只要给钱,一套技术都卖,主要给大客户定制芯片(具体不阐述,可以去看看博通资料)
2.硬件创新在加速,这是时代的要求。TPU v7 双die 4nm 每块Ironwood芯片的峰值算力为4614 TeraFLOPS(内存高达24*8=192GB hbm3e ;HBM带宽达到7.2 Tbps;B200 4500 TeraFLOPS,8Tbps;
算力上 v7更大,显存带宽 B200更大,显存容量一致。
3.未来高端AI硬件一定是板载设计。
人工智能推理芯片的技术发展正处于一个关键转折点。随着人工智能模型在各行各业的广泛部署,对高效、低延迟的推理算力的需求呈指数级增长。谷歌发布的第七代张量处理器(TPU)芯片Ironwood,作为首款专为大模型moe推理设计的TPU,预示着未来推理算力AI芯片的主流技术路线。
深入分析Ironwood的技术特点,并将其与当前主流AI推理芯片进行对比,从而推测未来几年推理算力AI芯片可能采用的关键技术方向,并探讨Ironwood的技术特点可能对未来推理芯片设计产生的影响。报告总结了未来推理算力AI芯片的主流技术路线,并阐述了其发展趋势和潜在的挑战。可以预见,未来的推理芯片将更加专注于提升能效、增强内存带宽、优化互联技术,并针对新兴AI模型和特定应用场景进行硬件加速。
主攻大模型推理,推理时代与专用硬件的角色。通用硬件的局限性逐渐显现。尽管中央处理器(CPU)和图形处理器(GPU)都具备执行推理任务的能力,但在大规模、低延迟的推理场景下,它们的效率和性能往往无法满足需求,特别是对于日益复杂的模型而言 。通用硬件的设计目标在于支持广泛的应用,这导致它们在处理特定的人工智能工作负载时存在固有的瓶颈,例如冯·诺依曼瓶颈 。因此,为了克服这些限制,专门为人工智能设计的加速器应运而生。
专用AI加速器的出现是必然趋势。包括谷歌的TPU、亚马逊的Inferentia等专用集成电路(ASIC)的出现,正是为了满足人工智能工作负载的特定需求 。这些加速器通过定制化的架构,能够更高效地执行人工智能模型所需的计算,从而提供更高的性能和更低的延迟。这表明,为人工智能设计定制芯片已成为满足其不断增长的性能和效率需求的关键策略。
谷歌Ironwood TPU的推出具有里程碑意义。作为谷歌第七代TPU,Ironwood是首款明确为推理而设计的TPU 。它被定位为支持下一代“思考型”人工智能模型(包括大型语言模型和混合专家模型)的关键基础设施 。Ironwood明确侧重于推理,这反映出行业对推理阶段独特需求的日益重视,以及谷歌旨在优化其人工智能模型服务成本和延迟的战略举措。
Ironwood TPU:架构与关键技术创新。Ironwood TPU采用了高度可扩展的架构,单个Pod最多可容纳9,216个液冷芯片,并通过高带宽的芯片间互连(ICI)技术进行连接 。作为谷歌云人工智能超级计算机架构的一部分,Ironwood实现了硬件和软件的协同优化,以应对最苛刻的人工智能工作负载 1。这种大规模和液冷的设计表明,现代人工智能推理对计算能力的需求非常高,并且需要高效的散热管理来维持高性能运行。
在性能指标方面,每个Ironwood芯片的峰值计算能力高达4,614 TFLOPs,这很可能是在FP8精度下实现的。在一个包含9,216个芯片的Pod中,总计算能力可达到惊人的42.5 Exaflops 。
Ironwood TPU在高带宽内存(HBM)方面实现了显著增强。每个芯片配备了192 GB的HBM,是Trillium的6倍 。HBM带宽也达到了每芯片7.2 Tbps,是Trillium的4.5倍 。HBM容量和带宽的显著提升对于处理更大的AI模型和数据集至关重要,可以减少数据传输的频率并提高推理性能。这预示着未来AI芯片将更加注重以内存为中心的架构。
芯片间互连(ICI)技术也得到了增强。Ironwood的ICI双向带宽增加到1.2 Tbps,是Trillium的1.5倍 。更高的ICI带宽能够实现芯片之间更快速的通信,从而有效地扩展推理工作负载到多个加速器上,这对于处理超大型AI模型至关重要。
Ironwood还包含增强的SparseCore,这是一个专门用于处理排名和推荐工作负载中常见的大型嵌入的加速器 。Ironwood中扩展的SparseCore支持更广泛的工作负载,包括金融和科学领域 1。SparseCore的加入和增强表明,未来的推理芯片将更加重视对特定AI模型架构和应用领域(而不仅仅是传统的密集模型)的高效处理。
为了应对如此高的性能需求,Ironwood采用了液冷技术 。先进的液冷解决方案和优化的芯片设计即使在持续高负荷的AI工作负载下,也能可靠地维持高达标准风冷两倍的性能 。在如此大规模的芯片互连中采用液冷技术,凸显了高性能AI芯片在散热方面面临的挑战,以及先进散热解决方案对于维持最佳运行温度和性能的必要性。
主流AI推理芯片对比
特性 | 谷歌 Ironwood (TPU v7) | 英伟达 Blackwell Ultra (GB300 NVL72) | 英特尔 Gaudi 3 | AMD Instinct MI300X | Graphcore Bow IPU |
架构 | 定制 ASIC | GPU | 定制 ASIC | GPU | 定制 ASIC |
主要侧重 | 推理 | 训练 & 推理 | 训练 & 推理 | 训练 & 推理 | 训练 & 推理 |
制程工艺 | (4nm) | ( 4nm) | ( 5nm) | (4nm) | 7nm |
峰值算力 (FP8) | ~4,614 TFLOPs/芯片 | >1.4 ExaFLOPS (每 72 颗 GPU) | (未公开) | ~5,230 TFLOPs/芯片 | 350 TFLOPS/芯片 |
HBM 容量 | 192 GB/芯片 | 13.5 TB (每 72 颗 GPU) | (未公开) | 192 GB/芯片 | 900 MB (片上) + 448 GB (流式)/IPU-Machine |
HBM 带宽 | 7.2 Tbps/芯片 | - | - | 5.3 TB/s/芯片 | (未公开) |
互连 | ICI (1.2 Tbps/双向) | NVLink | 以太网 | Infinity Fabric | IPU-Fabric |
能效 | 比 Trillium 提高 2 倍 | 比 Hopper 提高 25 倍(推理) | 比 H100 提高 40%(推理) | (未公开) | 比 Gen 2 提高 16% |
当前主流AI推理芯片的关键规格,突显了不同架构在性能、内存和互连方面的特点。Ironwood在HBM容量和带宽方面表现突出,而英伟达的Blackwell Ultra则在整体算力上领先。英特尔和AMD也在各自的优势领域发力,Graphcore则以其独特的内存架构脱颖而出。
未来AI推理芯片的技术决胜因素:
(a) 更先进的半导体制造工艺节点:对更小制程节点的追求将持续推动AI推理芯片的发展。更先进的工艺节点(如3nm、2nm及更小)能够在相同面积内集成更多的晶体管,从而提高性能和能效 。这将使得未来的推理芯片能够在相似的功耗预算下,实现更高的计算速度和更大的内存容量。对于AI推理而言,更小的制程节点是提升芯片整体性能和降低功耗的基础驱动力。
(b) 更高效的内存架构(例如HBM、GDDR等):内存带宽和容量将继续是AI推理的关键瓶颈。高带宽内存(HBM)因其卓越的带宽能力,对于内存密集型AI工作负载至关重要,未来将被更广泛地采用和进一步发展 。对于带宽要求不那么严格但对成本更敏感的推理应用,GDDR也可能得到更广泛的应用。此外,增加片上SRAM的容量和效率,以更快地访问常用数据,也是一个重要的发展方向。Graphcore采用的大容量片上内存 就体现了这一趋势。未来的推理芯片很可能结合使用多种先进的内存技术,以优化性能和能效。
(c) 更灵活和可扩展的互连技术:为了处理日益庞大的AI模型,将推理工作负载高效地扩展到多个芯片上至关重要。芯片间互连技术(如谷歌的ICI、英伟达的NVLink、AMD的Infinity Fabric和Graphcore的IPU-Fabric)将持续进步,以实现更高的带宽和更低的延迟 。此外,光互连技术有望在大型部署中提供更高的带宽和更低的延迟。灵活且高带宽的互连技术将是未来推理芯片实现可扩展性的关键。
(d) 对新兴AI模型(例如Transformer)的优化:未来的推理芯片将越来越针对主流AI模型的独特计算模式进行优化,例如Transformer网络中的自注意力机制 1。对于具有稀疏激活模式和更大参数量的混合专家(MoE)模型,也将出现专门的硬件特性来高效处理 。Ironwood针对“思考型模型”(包括LLM和MoE)的设计就体现了这一趋势。
(e) 针对特定应用场景的硬件加速单元:随着AI应用的日益多样化,未来的推理芯片可能会集成针对特定应用场景的专用硬件加速单元,例如Ironwood中的SparseCore用于嵌入处理 1,或者用于加速图神经网络或其他常见推理操作的硬件模块。这种趋势旨在提高特定用例的性能和效率。
(f) 低功耗设计和能效提升:降低功耗和提高能效将是未来推理芯片的关键设计目标,这不仅可以降低运营成本,还可以支持在功耗受限的环境中进行部署 。Ironwood在能效方面相对于前几代TPU的显著提升就是一个很好的例子。未来,芯片设计者将探索新的电源管理技术和架构优化方法,以进一步降低功耗。
目前国内华为、算能、寒武纪、燧原都在深耕DSA领域芯片,其实大家没有必要自己创新,只要跟上就是成功,工程化能力是中国人的强项,创新需要试错,更不更高。
算力宝典,第一章、算力中心从入门到精通【概述篇】