华为首次线下展出昇腾384超节点！任正非的话应验：芯片问题其实没必要担心

最新-新浪科技科学探索 07月28日 09:57

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

华为在2025世界人工智能大会上首次线下展出昇腾384超节点（Atlas 900 A3 SuperPoD），该产品基于超节点架构，通过总线技术实现384个NPU间的大带宽低时延互联，有效解决了集群通信瓶颈。华为CEO任正非曾表示，可通过数学和集群方法弥补单芯片的不足。昇腾超节点具备超大带宽、超低时延、超强性能，能够满足大模型训练和推理的严苛要求。与传统AI集群不同，CloudMatrix 384采用扁平化管理模式，CPU与NPU地位平等，直接通信效率更高。该方案在多项关键指标上被认为超越了英伟达GB200 NVL72，标志着中国在AI基础设施领域取得重要突破，具备与国际巨头竞争的实力。

💡 华为通过系统工程创新应对单芯片劣势：华为CEO任正非提出的“用数学补物理、非摩尔补摩尔、用群计算补单芯片”的策略，在昇腾384超节点上得到体现。该产品通过超节点架构和总线技术，实现了384个NPU的高效互联，解决了集群通信瓶颈，确保了计算结果的实用性，证明了系统级创新可以有效弥补单芯片性能上的代差。

🚀 昇腾384超节点的核心技术优势：该超节点具备超大带宽、超低时延、超强性能，特别是其384个NPU（昇腾910C）与192颗鲲鹏CPU的全对等互联，形成了强大的“超级AI服务器”。其单卡推理吞吐量达到2300Tokens/s，集群算力高达16万卡且万卡线性度达95%，并支持40天长稳训练和10分钟快速恢复，为大模型应用提供了极致算力支持。

🤝 创新的扁平化通信架构提升效率：与传统AI集群中CPU作为“领导”而NPU为“下属”的层级化通信模式不同，CloudMatrix 384采用了扁平化管理，CPU和NPU地位平等，通过UB网络直接通信。这种“平等对话”的模式大幅提升了数据传输效率，避免了CPU审批和签字的环节，使集群整体运行更像一台高效的超级计算机。

🏆 华为云CM384在AI算力领域实现重大突破：根据SemiAnalysis的报道，华为云CloudMatrix 384在系统架构设计和全栈技术创新上，多项关键指标超越了英伟达GB200 NVL72。虽然单颗昇腾芯片性能不及英伟达GPU，但华为通过规模化系统设计，实现了整体算力跃升，尤其在超大规模模型训练和实时推理方面展现出更强的竞争力，被认为在规模化解决方案上领先英伟达和AMD一个代差。

🌐 华为的系统级创新引领全球AI产业格局：华为的工程优势不仅体现在芯片本身，更在于网络架构、光学互联和软件优化等系统级创新。这些创新使得CM384能够充分发挥集群算力，满足超大规模AI计算需求。华为云CloudMatrix 384的发布，标志着中国在AI计算系统领域已具备与国际巨头正面竞争的实力，其规模化解决方案对全球AI产业格局将产生深远影响。

快科技7月27日消息，今年6月，华为CEO任正非接受人民日报采访时曾表示，芯片问题其实没必要担心，用叠加和集群等方法，计算结果上与最先进水平是相当的。

“我们单芯片还是落后美国一代，我们用数学补物理、非摩尔补摩尔，用群计算补单芯片，在结果上也能达到实用状况。”他说。

如今，这句话已经应验。

7月26日，2025世界人工智能大会（WAIC）在上海世博中心启幕，华为首次线下展出昇腾384超节点，即Atlas 900 A3 SuperPoD，该产品基于超节点架构，通过总线技术实现384个NPU之间的大带宽低时延互联，解决集群内计算、存储等各资源之间的通信瓶颈。

通过系统工程的优化，实现资源的高效调度，让超节点像一台计算机一样工作。

在今年5月的鲲鹏昇腾开发者大会上，华为推出了昇腾超节点（CloudMatrix 384），成功实现业界最大规模的384卡高速总线互联。昇腾超节点具备超大带宽、超低时延、超强性能的三大优势，包括多款训练和推理产品，基于超节点创新架构，更好的满足模型训练和推理对低时延，大带宽，长稳可靠的要求。

本月初，华为云官微通过一段视频展示了CloudMatrix 384超节点算力集群的威力——

384颗昇腾NPU（昇腾910C）+192颗鲲鹏CPU全对等互联，形成一台“超级AI服务器”；

业界最大单卡推理吞吐量——2300Tokens/s；

业界最大集群算力——16万卡，万卡线性度高达95%；

云上确定性运维-40天长稳训练、10分钟快速恢复。

华为云表示，新一代昇腾AI云服务，是最适合大模型应用的算力服务。

简单来说，华为CloudMatrix并非简单的“堆卡”，而是通过高带宽全对等互联（Peer-to-Peer）来设计，这也是CloudMatrix 384硬件架构的一大创新。

传统的AI集群中，CPU相当于公司领导的角色，NPU等其它硬件更像是下属，数据传输的过程中就需要CPU审批和签字，效率就会大打折扣。

但在CloudMatrix384中，CPU和NPU等硬件更像是一个扁平化管理的团队，它们之间的地位比较平等，直接通过UB网络通信直接对话，效率自然就上来了。

今年4月份，国际知名半导体研究和咨询机构SemiAnalysis发布专题报道称，华为云最新推出的AI算力集群解决方案CloudMatrix 384（简称CM384）凭借其颠覆性的系统架构设计与全栈技术创新，在多项关键指标上实现对英伟达旗舰产品GB200 NVL72的超越，标志着中国在人工智能基础设施领域实现里程碑式突破。

据SemiAnalysis披露，华为云CM384基于384颗昇腾芯片构建，通过全互连拓扑架构实现芯片间高效协同，可提供高达300 PFLOPs的密集BF16算力，接近达到英伟达GB200 NVL72系统的两倍。此外，CM384在内存容量和带宽方面同样占据优势，总内存容量超出英伟达方案3.6倍，内存带宽也达到2.1倍，为大规模AI训练和推理提供了更高效的硬件支持。

（图片引自SemiAnalysis报道）

报道分析称，尽管单颗昇腾芯片性能约为英伟达Blackwell架构GPU的三分之一，但华为通过规模化系统设计，成功实现整体算力跃升，并在超大规模模型训练、实时推理等场景中展现更强竞争力。

SemiAnalysis也指出，华为的工程优势不仅体现在芯片层面，更在于系统级的创新，包括网络架构、光学互联和软件优化，使得CM384能够充分发挥集群算力，满足超大规模AI计算需求。

此次华为云CloudMatrix 384的发布，标志着中国在AI计算系统领域已具备与国际巨头正面竞争的实力。

SemiAnalysis在报道中特别指出，华为的规模化解决方案“领先于英伟达和AMD目前市场上的产品一代”，并认为中国在AI基础设施上的突破将对全球AI产业格局产生深远影响。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：朝晖

文章内容举报

]article_adlist-->

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签