IT之家 前天 16:18
性能再翻倍:科大讯飞宣布联合华为在“飞星一号”上实现 MoE 模型大规模专家并行集群推理性能飞跃
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

科大讯飞研究院宣布,与华为昇腾联合团队通过优化,提升了“飞星一号”平台上MoE模型集群推理的性能,实现了大规模专家并行集群推理性能翻番。该团队率先突破国产算力集群上MoE模型的大规模跨节点专家并行集群推理,并公布了首个基于国产算力的MoE模型训练推理方案。通过适配MoE的PD分离部署、实现国产算力上MTP多token预测技术、专家负载均衡算法升级以及异步双发射技术,联合团队在“飞星一号”平台上对星火MoE模型、DeepSeekV3 / R1进行实测,推理性能提升1倍,逼近国产算力MoE集群推理的性能上限。

🚀 联合团队适配MoE的PD分离部署,通过定制集合通信协议,消除了集合通信流量冲突,解决了推理过程中Prefill阶段和Decode阶段的相互干扰,使得P实例和D实例均达到系统最优,性能提升20%以上。

💡 团队实现了国产算力上MTP多token预测技术,降低了MTP层计算耗时,整体性能提升30%以上。

⚖️ 专家负载均衡算法得到升级,实现了多DP负载均衡,卡间负载均衡差异小于8%,集群推理吞吐性能提升30%以上。

💡 团队创新性地实现了异步双发射技术,解决了高并发下的高CPU负载问题,实现了CPU和NPU的高效协同,降低了服务请求调度耗时,系统性能提升10%。

IT之家 4 月 18 日消息,科大讯飞研究院今日宣布,科大讯飞与华为昇腾联合团队通过多种优化手段提升“飞星一号”平台上 MoE 模型集群推理的性能上限,并在近期实现大规模专家并行集群推理性能翻番。

据介绍,科大讯飞不久前率先突破国产算力集群上 MoE 模型的大规模跨节点专家并行集群推理,公布业界首个基于国产算力的 MoE 模型训练推理方案。

在上一个版本算子和通信优化的基础之上,联合团队升级了适配 MOE 模型的 PD 分离 + 大规模专家并行系统解决方案,进行了多种技术创新工作,IT之家总结如下:

基于上述解决方案的迭代与升级,联合团队通过在“飞星一号”平台上对星火 MoE 模型、DeepSeekV3 / R1 进行实测,实现了推理性能比上一个版本提升 1 倍,已逼近国产算力上 MoE 集群推理的性能上限。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

科大讯飞 华为昇腾 MoE模型 国产算力 推理性能
相关文章