DeepSeek 致谢腾讯技术团队，DeepEP 开源通信框架性能显著提升

IT之家 05月07日 20:08

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

腾讯技术团队针对DeepSeek开源的DeepEP通信框架进行了深度优化，显著提升了其在多种网络环境下的性能。优化后的框架在RoCE网络环境下性能提升100%，在IB网络环境下提升30%，为企业进行AI大模型训练提供了更高效的解决方案。DeepEP是为专家混合（MoE）和专家并行（EP）量身定制的通信库，提供高吞吐量和低延迟的全对全GPU内核。腾讯星脉网络团队发现并解决了双端口网卡带宽利用率不足和CPU控制面交互时延两大瓶颈，最终实现了性能的提升。该技术已全面开源，并应用于腾讯混元大模型等项目。

🚀腾讯技术团队优化DeepSeek开源DeepEP通信框架，显著提升多种网络环境下的性能，尤其在RoCE和IB网络中表现突出。

💻DeepEP是专门为专家混合（MoE）和专家并行（EP）设计的通信库，提供高吞吐量和低延迟的全对全GPU内核，支持低精度运算，包括FP8。

💡腾讯星脉网络团队通过技术攻关，解决了DeepEP双端口网卡带宽利用率不足以及CPU控制面交互存在时延两大关键瓶颈，从而实现了性能的飞跃。

🌐优化后的DeepEP已全面开源，并成功应用于腾讯混元大模型等项目的训练推理，在腾讯星脉与H20服务器构建的环境中展现出良好的通用性。

IT之家 5 月 7 日消息，腾讯技术团队针对 DeepSeek 开源的 DeepEP 通信框架进行深度优化，使其在多种网络环境下均实现显著性能提升。

经测试，优化后的通信框架性能在 RoCE 网络环境提升 100%，IB 网络环境提升 30%，为企业开展 AI 大模型训练提供更高效的解决方案。

该技术方案获得了 DeepSeek 公开致谢，称这是一次“huge speedup”代码贡献。

IT之家注：DeepEP 是一个为专家混合（MoE）和专家并行（EP）量身定制的通信库。它提供高吞吐量和低延迟的全对全 GPU 内核，这些内核也被称为 MoE 派发和组合。该库还支持低精度运算，包括 FP8。

据悉，腾讯星脉网络团队在 DeepEP 开源后便展开技术攻关，发现两大关键瓶颈：一是对于双端口网卡带宽利用率不足，二是 CPU 控制面交互存在时延。

在腾讯的技术优化下，DeepEP 不仅在 RoCE 网络实现性能翻倍，反哺到 IB（InfiniBand）网络时更使原有通信效率再提升 30%。

目前，该技术已全面开源，并成功应用于腾讯混元大模型等项目的训练推理，在腾讯星脉与 H20 服务器构建的环境中，这套方案展现出出色的通用性。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签