Cnbeta 07月01日 11:31
华为展示CloudMatrix 384“超级AI服务器” 推理效率超NV H100
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华为创始人任正非在采访中为中国芯片发展指明方向,强调通过叠加、集群等方法,能够在计算结果上与最先进水平持平。他指出,虽然单芯片技术仍落后于美国,但中国可以通过数学、非摩尔技术以及集群计算来弥补差距,满足实际需求。华为云展示了CloudMatrix 384超节点算力集群的强大性能,该集群采用昇腾NPU和鲲鹏CPU全对等互联,实现了高算力、高效率,并在大模型应用上展现出优势。华为还发布了相关论文,详细阐述了其下一代AI数据中心架构设计,为行业提供了新的思路。

💡任正非认为,中国芯片发展不必过度担忧,可以通过创新方法弥补技术差距。他提到,通过数学、非摩尔技术以及集群计算等手段,即便单芯片技术落后,也能在计算结果上达到实用水平。

🚀华为云展示了CloudMatrix 384超节点算力集群,该集群由384颗昇腾NPU和192颗鲲鹏CPU组成,实现了全对等互联,形成一台“超级AI服务器”。这种架构创新使得CPU和NPU之间的通信效率大幅提升。

🔥CloudMatrix 384在DeepSeek推理方面表现出色。官方数据显示,CloudMatrix 384的预填充吞吐量和解码阶段吞吐量均超过了NVIDIA H100/H800的性能,展现了其在AI计算领域的强大实力。

📢华为发布的论文详细介绍了下一代AI数据中心架构设计构想——Huawei CloudMatrix。该架构并非简单的“堆卡”,而是通过高带宽全对等互联来实现,为AI计算提供了新的解决方案。

前不久,华为创始人任正非接受《人民日报》采访时为中国芯片指路——芯片问题其实没必要担心,用叠加和集群等方法,计算结果上与最先进水平是相当的。他坦言,我们单芯片还是落后美国一代,我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。

任正非认为,中国在中低端芯片上是可以有机会的,中国数十、上百家芯片公司都很努力。特别是化合物半导体机会更大。硅基芯片,我们用数学补物理、非摩尔补摩尔,利用集群计算的原理,可以达到满足我们现在的需求。

那华为是怎么做的呢?

日前,华为云官微通过一段视频展示了CloudMatrix 384超节点算力集群的威力——

384颗昇腾NPU(昇腾910C)+192颗鲲鹏CPU全对等互联,形成一台“超级AI服务器”;

业界最大单卡推理吞吐量——2300Tokens/s;

业界最大集群算力——16万卡,万卡线性度高达95%;

云上确定性运维-40天长稳训练、10分钟快速恢复。

华为云表示,新一代昇腾AI云服务,是最适合大模型应用的算力服务。

此前,华为还发布了一一篇60页的重磅论文,提出了他们的下一代AI数据中心架构设计构想——Huawei CloudMatrix,以及该构想的第一代产品化的实现CloudMatrix384。

简单来说,华为CloudMatrix并非简单的“堆卡”,而是通过高带宽全对等互联(Peer-to-Peer)来设计,这也是CloudMatrix 384硬件架构的一大创新。

传统的AI集群中,CPU相当于公司领导的角色,NPU等其它硬件更像是下属,数据传输的过程中就需要CPU审批和签字,效率就会大打折扣。

但在CloudMatrix384中,CPU和NPU等硬件更像是一个扁平化管理的团队,它们之间的地位比较平等,直接通过UB网络通信直接对话,效率自然就上来了。

另外,论文还介绍了基于CloudMatrix384进行DeepSeek推理的最佳实践方案——CloudMatrix-Infer。

从官方给出的案例来看,CloudMatrix384预填充吞吐量达6688 token/s/NPU,解码阶段1943 token/s/NPU;计算效率方面,预填充达4.45 token/s/TFLOPS,解码阶段1.29 token/s/TFLOPS,均超过NVIDIA H100/H800上实现的性能。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

任正非 芯片 华为 CloudMatrix 集群计算
相关文章