IT之家 15小时前
华为推出昇腾超节点技术,成功实现业界最大规模 384 卡高速总线互联
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华为在鲲鹏昇腾开发者大会上发布了昇腾超节点技术,实现了业界最大规模的384卡高速总线互联。这一技术打破了传统服务器以太网互联的带宽瓶颈,创新性地提出对等计算架构,将总线扩展到整机柜甚至跨机柜,使集群如同单机般协同工作。昇腾超节点通过高速总线互联将通信带宽提升15倍,单跳通信时延降低10倍,显著提升了AI大模型的训练性能。在LLaMA 3等稠密模型以及Qwen、DeepSeek等多模态模型上,性能提升均十分显著,处于行业领先地位。

🚀**昇腾超节点技术突破**:华为推出昇腾超节点技术,实现了业界最大规模的384卡高速总线互联,为AI大模型发展提供强大算力支撑。

💡**对等计算架构创新**:打破了以CPU为中心的冯诺依曼架构,创新提出了对等计算架构,将总线从服务器内部扩展到整机柜、甚至跨机柜。

🚄**性能显著提升**:通信带宽提升15倍,单跳通信时延降低10倍,LLaMA 3等千亿稠密模型性能提升2.5倍以上,Qwen、DeepSeek等多模态模型性能提升3倍以上。

🏢**超大规模扩展能力**:由12个计算柜和4个总线柜构成,可扩展为包含数万卡的Atlas 900 SuperCluster超节点集群,为未来更大规模的模型演进提供支撑。

IT之家 5 月 25 日消息,2025 年 5 月 23 日,在鲲鹏昇腾开发者大会 2025 —— 昇腾 AI 开发者峰会上,华为推出了昇腾超节点技术,成功实现业界最大规模的 384 卡高速总线互联

当前,大模型发展呈现参数与效率交替演进的态势:一方面,Scaling Law 不断推动模型能力突破极限;另一方面,以 DeepSeek 为代表的创新架构与工程技术,正加速模型能力在千行万业的落地应用。在此背景下,MoE 成为主流模型结构,其复杂的混合并行策略带来巨大挑战,TP、SP、EP 单次通信量高达 GB 级且难以掩盖。随着并行规模持续扩大,传统服务器跨机带宽已成为训练的核心阻碍,亟需计算架构的创新升级以适配未来模型发展。

传统服务器依赖以太网络实现跨机互联,通信带宽较低。实践表明,当 TP、SP 或 EP 等分布式策略的混合并行域超过 8 卡时,跨机通信带宽便成为性能瓶颈,导致系统性能大幅下降。

据介绍,华为昇腾超节点打破了以 CPU 为中心的冯诺依曼架构,创新提出了对等计算架构,凭借高速总线互联技术实现重大突破,把总线从服务器内部,扩展到整机柜、甚至跨机柜。在超节点范围内,用高速总线互联替代传统以太,通信带宽提升了 15 倍;单跳通信时延也从 2 微秒做到 200 纳秒,降低了 10 倍,使集群如同一台计算机般协同工作,有效突破系统性能限制。

IT之家从华为中国官方获悉,此次推出的昇腾 384 超节点,由 12 个计算柜和 4 个总线柜构成,是目前业界规模最大的超节点。依托华为在 ICT 领域深厚的技术与工程经验,通过最佳负载均衡组网方案,该超节点可进一步扩展为包含数万卡的 Atlas 900 SuperCluster 超节点集群,为未来更大规模的模型演进提供支撑。

性能测试数据显示,在昇腾超节点集群上,LLaMA 3 等千亿稠密模型性能相比传统集群提升 2.5 倍以上;在通信需求更高的 Qwen、DeepSeek 等多模态、MoE 模型上,性能提升可达 3 倍以上,较业界其他集群高出 1.2 倍,在行业中处于领先地位。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

昇腾超节点 高速互联 AI算力 华为 大模型
相关文章