华为首次展出“算力核弹”！昇腾384超节点获评WAIC 2025镇馆之宝

快科技资讯 07月28日 06:47

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

华为在2025世界人工智能大会（WAIC）上首次展出其“算力核弹”——昇腾384超节点真机，Atlas 900 A3 SuperPoD，并被评为大会镇馆之宝。该超节点通过高速互联总线，解决了传统集群的互联瓶颈，实现了超大带宽、超低时延和超强性能。其内部任意两个AI处理器通信带宽提升15倍，时延降低10倍，支持全局内存统一编址，满足大模型训练推理中的小包通信需求。在实际测试中，昇腾384超节点在LLaMA3等模型训练上性能可达传统集群的2.5倍以上，多模态、MoE模型可达3倍以上。该产品将384颗昇腾NPU和192颗鲲鹏CPU通过MatrixLink高速网络全对等互联，算力总规模达300Pflops，是英伟达NVL72的1.7倍，网络互联总带宽和内存总带宽也大幅领先。

🚀 **突破互联瓶颈，实现超大带宽与超低时延：** 昇腾384超节点通过高速互联总线，使超节点内任意两个AI处理器之间的通信带宽相比传统架构提升15倍，单跳时延降低10倍。同时，它支持全局内存统一编址，具备更高效的内存语义通信能力，满足大模型训练推理中对小包通信和离散随机访存的需求，并突破了Decode时延至15ms，满足实时深度思考的用户体验。

💪 **显著提升大模型训练性能：** 实际测试表明，在昇腾超节点集群上，LLaMA3等千亿稠密模型训练性能可达传统集群的2.5倍以上。对于通信占比更高的Qwen、DeepSeek等多模态、MoE模型，性能提升更是高达3倍以上，展现了其在大规模模型训练方面的强大优势。

💡 **行业领先的算力规模与互联技术：** 昇腾384超节点是业界首创将384颗昇腾NPU和192颗鲲鹏CPU通过全新的高速网络MatrixLink实现全对等互联，构成一台超级“AI服务器”。其总算力规模达到300Pflops，是英伟达NVL72的1.7倍。网络互联总带宽高达269TB/s，比英伟达NVL72提升107%；内存总带宽达到1229TB/s，比英伟达NVL72提升113%；单卡推理吞吐量更是跃升至2300 Tokens/s，在性能和效率上均达到行业领先水平。

快科技7月28日消息，日前，2025世界人工智能大会（WAIC）在上海开幕，华为首次展出被称为“算力核弹”的昇腾384超节点真机，即Atlas 900 A3 SuperPoD。

华为表示，昇腾384超节点被评选为本次WAIC 2025镇馆之宝。

昇腾384超节点通过高速互联总线，突破互联瓶颈，让超节点像一台计算机一样工作。

相比传统集群，主要有以下3大优势：

超大带宽

超节点内任意两个AI处理器之间通信带宽，相较于传统架构提升15倍，超节点内单跳时延降低10倍。

超低时延

昇腾超节点支持全局内存统一编址，具备更高效的内存语义通信能力。通过更低时延指令级内存语义通信，可满足大模型训练/推理中的小包通信需求，提升专家网络小包数据传输及离散随机访存通信效率。

昇腾384超节点是业界唯一突破Decode时延15ms的方案，满足实时深度思考下的用户体验需求。

超强性能

经过实际测试，在昇腾超节点集群上，LLaMA3等千亿稠密模型训练性能可达传统集群的2.5倍以上。

在通信占比更高的Qwen、DeepSeek等多模态、MoE模型上，可以达到3倍以上的提升。

据了解，昇腾384超节点首创将384颗昇腾NPU和192颗鲲鹏CPU通过全新高速网络MatrixLink全对等互联，形成一台超级“AI服务器”，其算力总规模达300Pflops，是英伟达NVL72的1.7倍。

网络互联总带宽达269TB/s，比英伟达NVL72提升107%；内存总带宽达1229TB/s，比英伟达NVL72提升113%；单卡推理吞吐量跃升到2300 Tokens/s。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签