IT之家 前天 13:38
华为 + DeepSeek 推理性能创新高,技术报告公布
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华为昇腾在超大规模MoE模型推理部署上取得重大突破,其国产芯片的推理性能超越了英伟达Hopper架构。通过CloudMatrix 384超节点和Atlas 800I A2推理服务器,在DeepSeek V3/R1的部署中,实现了单卡Decode吞吐量的大幅提升。华为昇腾采用“以数学补物理”的策略,通过数学理论、工具和算法来弥补硬件和工艺的局限性。华为不仅开源了相关技术报告,还将在一个月内陆续开源核心代码,展示了其强大的技术实力和开放的态度。

🚀**性能突破**:华为昇腾CloudMatrix 384超节点部署DeepSeek V3/R1,在50ms时延约束下单卡Decode吞吐突破1920 Tokens/s;Atlas 800I A2推理服务器在100ms时延约束下单卡吞吐达到808 Tokens/s。

💡**技术创新**:华为昇腾采用“以数学补物理”的策略,通过优化算子、模型和框架,开发了一整套面向集群的大规模专家并行解决方案,并针对不同硬件配置采取不同的部署优化策略。

⚙️**框架优化**:昇腾基于vLLM框架,适配DP和EP等多种并行策略,通过Prefill调度分桶、灵衢互联与分层传输等技术降低调度开销,优化请求下发、调度策略等环节,提升系统性能。

🤝**开源共享**:华为昇腾不仅分享了超大规模MoE模型推理部署的技术报告,还将在一个月内陆续开源实现这些核心技术的相关代码。

部署超大规模 MoE 这件事,国产芯片的推理性能,已经再创新高了 —— 不仅是“英伟达含量为 0”这么简单,更是性能全面超越英伟达 Hopper 架构!

而做到这一点的,正是华为昇腾;具体而言,共包含两个产品:

之所以能够这般,是因为华为昇腾所采取的“以数学补物理”—— 这种通过数学理论、工具、算法和建模等方式,来弥补硬件和工艺的局限性,实现最大化发挥芯片和系统能力效果。

华为昇腾还不只是“官宣”一下而已,后面更会是全面开源

不仅已经将昇腾在超大规模 MoE 模型推理部署的技术报告分享了出来,在一个月时间内,还会把实现这些核心技术的相关代码也都会陆续开源出来。

那么接下来,我们就来深入了解一下华为昇腾背后的技术实力。

在华为昇腾上推理 DeepSeek

在深挖华为昇腾背后技术创新之前,我们且需了解一下为什么要这么做。

从 2017 年 Google 提出的 Transformer 架构,到 2025 年 DeepSeek V3 / R1 的爆红,大语言模型的重心正在从训练开发转向推理应用落地。

推理能力不仅是大模型能力的“试金石”,各大企业已从“拼模型参数”转向“拼推理效率”:

谁能让大模型在实际应用中跑得更快、更稳、更省资源,谁就能在商业化浪潮中抢占先机。

然而,以 6710 亿参数的 DeepSeek V3 为例,这类超大规模 MoE 模型虽然强大,却给硬件带来三大“成长烦恼”:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

华为昇腾 MoE模型 推理性能 国产芯片 DeepSeek
相关文章