华为坐不住了，盘古大模型开源！

特大号 07月08日 14:35

华为坐不住了，盘古大模型开源！

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

华为宣布开源盘古7B稠密和72B混合专家模型，提出MoGE分组混合专家模型解决专家负载失衡问题，并针对昇腾芯片进行优化，提升效率。此次开源包括模型和推理代码，标志着大模型市场进入成熟期，竞争加剧。

🔍 MoGE分组混合专家模型：华为提出MoGE解决MoE专家负载失衡问题，将专家分组，每个分组中选取相同数量的专家进行激活，实现跨设备负载均衡。

🚀 昇腾原生优化：针对华为昇腾芯片进行优化，包括分层混合并行+通信裁剪、专家感知量化与KV压缩、定制化算子等，提升效率。

💡 软硬协同优势：华为开源盘古模型和推理代码，展示其在大模型市场的竞争力，推动大模型技术落地。

🔧 模型参数与对比：开源7B稠密模型和72B混合专家模型，与Llama-4-Scout等模型进行对比，展现MoGE的优势。

🔗 开源社区贡献：华为开源模型和代码，为开发者提供更多资源，促进大模型技术发展和应用。

原创小黑羊 2025-06-30 11:21 北京

刚刚，华为宣布开源盘古7B稠密和72B混合专家模型！

嘿嘿，一直以来“神龙见首不见尾”的华为盘古，终于亮剑。

此次,华为开源了两款模型：

1、7B参数量的稠密模型

2、72B参数量的MoE模型

在发布说明中，菊厂给出了一份并不算惊艳的测试对比表。

因为比的对象，大部分都不是“名流”。稍有点说服力的是跟同样MoE且激活参数量更大的Llama-4-Scout相比，基本全面碾压。

当然，既然是“后发”，菊厂肯定要拿出点不一样东西↓

别人都叫MoE，而这次华为提出了MoGE：分组混合专家模型（Mixture of Grouped Experts）。

MoGE核心就是要解决当下MoE最大的难题——专家负载失衡，传统的Top-K路由会把大量Token塞给同一张卡处理，导致整体吞吐被最慢的卡拖死。

MoGE先将专家划分为若干等规模的分组，再从每个分组中选取相同数量的专家进行激活。

在典型的分布式部署中，每个专家分组对应独立的计算设备，从而 MoGE 天然地实现了跨设备的计算负载均衡。

同时，菊厂把这个模型称为「昇腾原生的分组混合专家模型」，再次把菊厂软硬协同的优势打了出来。

怎么「原生」法？说白了，是针对菊厂自己的昇腾铲子，做了以下优化↓

1、分层混合并行+通信裁剪：MFU提升35%

2、专家感知量化与KV压缩：几乎为0的量化精度误差，大幅降低显存占用。

3、定制化算子——MulAttention+SwiftGMM。

4、MoGE分组路由天然负载均衡：训推都不卡长尾，效率提升。

5、MTP多Token并行解码：满足低延迟高并发场景。

Fish AI Reader