Cnbeta 前天 19:48
DeepSeek致谢腾讯技术团队:对DeepEP的优化 是一次“huge speedup”代码贡献
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯技术团队对DeepSeek开源的DeepEP通信框架进行了深度优化,显著提升了其在RoCE和IB网络环境下的性能。优化后,RoCE网络性能提升100%,IB网络提升30%,为AI大模型训练提供更高效的解决方案。该团队通过优化双端口网卡带宽利用率和降低CPU控制面交互时延,解决了DeepEP在RoCE网络中表现不佳的问题。优化后的技术已全面开源,并应用于腾讯混元大模型等项目,在腾讯星脉与H20服务器构建的高性能环境中展现出色的通用性。

🚀 DeepEP框架原先在RoCE网络环境中表现不佳,限制了其广泛应用。腾讯星脉网络团队针对此痛点展开技术攻关。

💡 腾讯团队发现DeepEP在RoCE网络中的两大瓶颈:双端口网卡带宽利用率不足和CPU控制面交互存在时延。

📈 通过优化,DeepEP在RoCE网络实现了100%的性能提升,并且反哺到IB网络时,通信效率也提升了30%。

🌐 优化后的DeepEP技术已全面开源,并成功应用于腾讯混元大模型等项目的训练推理,在腾讯星脉与H20服务器上表现出通用性。

腾讯技术团队针对DeepSeek开源的DeepEP通信框架进行深度优化,使其在多种网络环境下均实现显著性能提升。经测试,优化后的通信框架性能在RoCE网络环境提升100%,IB网络环境提升30%,为企业开展AI大模型训练提供更高效的解决方案。该技术方案获得了DeepSeek公开致谢,称这是一次“huge speedup”代码贡献。


自今年2月DeepSeek开源包括DeepEP在内的五大代码库以来,该团队便向业界展示了如何利用有限的硬件资源实现接近万卡集群的性能。在这些技术中,DeepEP凭借突破性的方法提升了300%的通信效率,成功解决了MoE架构大模型对英伟达NCCL的依赖问题。但该技术在成本较低、适用面更广的RoCE网络环境中表现不佳,限制了其在更广泛场景的应用。这一痛点引发了开源社区的持续讨论。

据悉,腾讯星脉网络团队在DeepEP开源后便展开技术攻关,发现两大关键瓶颈:一是对于双端口网卡带宽利用率不足,二是CPU控制面交互存在时延。

在腾讯的技术优化下,DeepEP不仅在RoCE网络实现性能翻倍,反哺到IB(InfiniBand)网络时更使原有通信效率再提升30%。

目前,该技术已全面开源,并成功应用于腾讯混元大模型等项目的训练推理,在腾讯星脉与H20服务器构建的高性能环境中,这套方案展现出出色的通用性。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepEP 腾讯 AI大模型 RoCE IB网络
相关文章