最新-新浪科技科学探索 12小时前
华为首次展出“算力核弹”!昇腾384超节点获评WAIC 2025镇馆之宝
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

在2025世界人工智能大会上,华为首次展示了其“算力核弹”——昇腾384超节点真机Atlas 900 A3 SuperPoD。该超节点被誉为本届大会的镇馆之宝,通过创新的高速互联总线,实现了超大带宽、超低时延和超强性能,突破了传统AI计算的瓶颈。它将384颗昇腾NPU和192颗鲲鹏CPU以全对等方式互联,总算力高达300Pflops,网络互联总带宽和内存总带宽均大幅领先业界,为大模型训练和实时深度思考提供了强大的算力支持,有望成为AI发展的新引擎。

🚀 **超大带宽与超低时延提升互联效率**:昇腾384超节点通过高速互联总线,实现了超节点内任意两个AI处理器之间通信带宽相较传统架构提升15倍,单跳时延降低10倍。同时,它支持全局内存统一编址,具备高效的内存语义通信能力,满足大模型训练/推理中的小包通信需求,提升了通信效率,并突破了业界Decode时延15ms的瓶颈,满足实时深度思考的应用场景。

💪 **超强性能显著提升模型训练效率**:实际测试表明,在昇腾超节点集群上,LLaMA3等千亿稠密模型训练性能可达传统集群的2.5倍以上。对于通信占比更高的Qwen、DeepSeek等多模态、MoE模型,性能提升更是达到3倍以上,极大地加速了AI模型的开发和部署进程。

💡 **创新架构实现超级AI服务器**:昇腾384超节点首创性地将384颗昇腾NPU和192颗鲲鹏CPU通过全新的高速网络MatrixLink实现全对等互联,构建了一台超级“AI服务器”。其总算力达到300Pflops,网络互联总带宽高达269TB/s,内存总带宽达到1229TB/s,均显著超越英伟达NVL72,单卡推理吞吐量更是跃升至2300 Tokens/s,为AI计算提供了前所未有的强大算力基础。

🏆 **镇馆之宝彰显技术实力**:昇腾384超节点被评选为2025世界人工智能大会的镇馆之宝,这不仅是对华为在AI算力领域技术突破的肯定,也预示着其在推动AI产业发展方面的关键作用。该产品通过解决互联瓶颈,使超节点能够像一台计算机一样协同工作,为更复杂的AI应用提供了坚实的基础。

快科技7月28日消息,日前,2025世界人工智能大会(WAIC)在上海开幕,华为首次展出被称为“算力核弹”的昇腾384超节点真机,即Atlas 900 A3 SuperPoD。

华为表示,昇腾384超节点被评选为本次WAIC 2025镇馆之宝。

昇腾384超节点通过高速互联总线,突破互联瓶颈,让超节点像一台计算机一样工作。

相比传统集群,主要有以下3大优势:

超大带宽

超节点内任意两个AI处理器之间通信带宽,相较于传统架构提升15倍,超节点内单跳时延降低10倍。

超低时延

昇腾超节点支持全局内存统一编址,具备更高效的内存语义通信能力。通过更低时延指令级内存语义通信,可满足大模型训练/推理中的小包通信需求,提升专家网络小包数据传输及离散随机访存通信效率。

昇腾384超节点是业界唯一突破Decode时延15ms的方案,满足实时深度思考下的用户体验需求。

超强性能

经过实际测试,在昇腾超节点集群上,LLaMA3等千亿稠密模型训练性能可达传统集群的2.5倍以上。

在通信占比更高的Qwen、DeepSeek等多模态、MoE模型上,可以达到3倍以上的提升。

据了解,昇腾384超节点首创将384颗昇腾NPU和192颗鲲鹏CPU通过全新高速网络MatrixLink全对等互联,形成一台超级“AI服务器”,其算力总规模达300Pflops,是英伟达NVL72的1.7倍。

网络互联总带宽达269TB/s,比英伟达NVL72提升107%;内存总带宽达1229TB/s,比英伟达NVL72提升113%;单卡推理吞吐量跃升到2300 Tokens/s。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:拾柒

文章内容举报

]article_adlist-->

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

华为 昇腾384 AI算力 WAIC 2025 人工智能
相关文章