华为在世界人工智能大会上展出了业界最大规模的昇腾384超节点,该节点打破传统CPU中心架构,采用对等计算架构,将总线扩展至整机柜乃至跨机柜,极大提升了数据传输和处理效率。相比传统集群,昇腾超节点在通信带宽和时延方面有显著提升,跨节点通信带宽提升15倍,通信时延降低10倍。其强大的互联能力支持384颗NPU点对点超大带宽互联,并能在一个超节点域内完成MoE模型的专家并行方案,显著提高了模型训练和推理效率。实际测试表明,其在LlaMA3等模型训练性能上可达传统集群的2.5倍以上,在多模态、MoE模型上更能提升3倍以上,并突破了Decode时延15ms,满足实时深度思考需求。
🚀 **颠覆传统架构,实现高效互联:** 华为昇腾384超节点突破了以CPU为中心的冯诺依曼架构,创新性地采用了对等计算架构,并将总线从服务器内部扩展到整机柜甚至跨机柜。这种设计极大地改变了数据传输和处理方式,解决了传统集群在大规模训练中资源利用率低、故障频发的问题,使得多颗NPU能够像一台计算机一样协同工作。
⚡️ **通信带宽与时延的飞跃:** 昇腾384超节点在通信性能上实现了质的飞跃。其跨节点通信带宽提升了15倍,通信时延从2μs大幅降低至0.2μs,减少了10倍。这种高速、低时延的通信能力,使得数据传输速度大幅加快,显著减少了数据处理的等待时间,为AI模型的训练和推理提供了坚实的基础。
💡 **强大的MoE模型训练与推理能力:** 该超节点拥有超强的互联能力,最大可实现384颗NPU点对点超大带宽互联。尤为突出的是,它是业界唯一支持在一个超节点域内完成所有专家并行(EP)方案的产品,特别适合MoE模型。这极大地提高了MoE模型训练和推理的效率,使其成为处理此类模型的最佳选择。
📊 **显著的性能提升与实时应用潜力:** 经过实际测试,昇腾384超节点在LlaMA3等千亿稠密模型训练上的性能表现,可达传统集群的2.5倍以上。对于通信占比更高的Qwen、DeepSeek等多模态、MoE模型,性能提升更是可以达到3倍以上。此外,它还突破了Decode时延15ms,能够满足实时深度思考下的用户体验需求,为AI应用的实时化提供了可能。
🔗 **统一内存编址与高效内存语义通信:** 昇腾超节点支持全局内存统一编址,具备更高效的内存语义通信能力。通过更低时延的指令级内存语义通信,能够满足大模型训练/推理中的小包通信需求,有效提升专家网络小包数据传输及离散随机访存的通信效率,进一步优化了整体计算性能。
快科技7月29日消息,在7月26日-7月29日于上海世博展览馆H1-A301举办的WAIC(世界人工智能大会)上,华为昇腾384超节点,即Atlas 900 A3 SuperPoD首次展出,成为备受瞩目的“镇馆之宝”,是业界目前最大规模的超节点。
昇腾384超节点打破了以CPU为中心的冯诺依曼架构,创新提出了对等计算架构,还将总线从服务器内部扩展到整机柜、甚至跨机柜,极大地改变了数据传输和处理的方式。
传统由服务器、存储、网络等设备堆叠而成的集群,在大规模训练时存在资源利用率低、故障频发的问题,严重阻碍AI发展。

而昇腾超节点通过高速总线连接多颗NPU,突破了互联瓶颈,让超节点像一台计算机一样协同工作。
通信带宽飞跃:跨节点通信带宽提升15倍,使得数据传输速度大幅加快。
通信时延骤减:通信时延从2μs降至0.2μs,下降了10倍,减少了数据处理等待时间。
超强互联能力:最大可实现384颗NPU点到点超大带宽互联,并且是业界唯一支持DeepSeek V/R1在一个超节点域内即可完成所有专家并行(EP)方案的产品,也是MoE模型的最佳训练/推理方案,极大提高了模型训练和推理的效率。

昇腾384超节点拥有三大优势:
超大带宽:超节点内任意两个AI处理器之间通信带宽,相较于传统架构提升15倍,超节点内单跳通信时延降低10倍,数据交互更流畅。
超低时延:昇腾超节点支持全局内存统一编址,具备更高效的内存语义通信能力,通过更低时延指令级内存语义通信,可满足大模型训练/推理中的小包通信需求,提升专家网络小包数据传输及离散随机访存通信效率。而且昇腾384超节点是业界唯一突破Decode时延15ms的方案,能满足实时深度思考下的用户体验需求。
超强性能:经过实际测试,在昇腾超节点集群上,LlaMA3等千亿稠密模型训练性能可达传统集群的2.5倍以上;在通信占比更高的Qwen、DeepSeek等多模态、MoE模型上,性能提升更是可以达到3倍以上。
