富途牛牛头条 02月25日
MoE模型訓練效率飛躍!DeepSeek開源周第二日:開源EP通信庫
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek开源了全球首个专为混合专家模型(MoE)和专家并行(EP)设计的开源高性能通信库DeepEP,旨在解决大规模AI模型训练与推理中的通信瓶颈问题。DeepEP通过高效的全员沟通、支持NVLink和RDMA、提供高吞吐量和低延迟内核、原生FP8调度支持以及灵活的GPU资源控制,实现了高性能的通信。在H800 GPU测试中,DeepEP展现了极速的节点内GPU间通信和跨节点带宽,并通过支持FP8数据格式,减少通信数据量,特别适合千亿参数大模型的传输需求。DeepEP的开源,延续了DeepSeek“透明化AGI探索”的承诺。

🚀DeepSeek开源DeepEP通信库,专为MoE和EP设计,旨在解决大规模AI模型训练和推理中的通信瓶颈。

🚄DeepEP支持NVLink和RDMA技术,在H800 GPU测试中,节点内GPU间通信带宽高达150GB/s,跨节点带宽达45GB/s,显著提升通信效率。

💡DeepEP完整支持FP8等低精度计算模式,可使通信数据量减少50%,同时保持精度,特别适合千亿参数大模型的传输需求。

🧪DeepEP在H800 GPU测试中,训练场景下节点内分发/合并带宽达153-158GB/s,跨节点RDMA带宽稳定在45GB/s级别;推理场景下,延迟低至163微秒,RDMA带宽保持39-46GB/s,满足实时交互需求。

全球首个专为混合专家模型(MoE)和专家并行(EP)设计的开源高性能通信库,旨在解决大规模AI模型训练与推理中的通信瓶颈问题。

DeepSeek开源“第二弹”,重新定义AI通信效率。

“开源周”第二日,DeepSeek官宣全球首个用于MoE模型训练和推理的开源EP通信库,旨在解决大规模AI模型训练与推理中的通信瓶颈问题。

据介绍,EP通信库的特点包括:高效、优化的全员沟通;节点内和节点间均支持NVLink和RDMA;用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生FP8调度支持;灵活的GPU资源控制,实现计算-通信重叠。

总结而言,核心功能包括三块:

值得注意的是,该通信库仍然只支持英伟达 (NVDA.US)Hopper架构的GPU。

性能表现方面,在H800 GPU测试中,DeepEP可以通过NVLink技术实现单节点内GPU间极速通信,带宽高达150GB/s,相当于1秒传完30部高清电影;同时通过RDMA技术(类似高铁专线)连接不同服务器,跨节点带宽45GB/s,比传统方法快3倍以上。

同时,DeepEP支持FP8数据格式,意味着使通信数据量减少50%,同时保持精度,特别适合千亿参数大模型的传输需求。

同时公布的测试案例显示,DeepEP在H800 GPU(NVLink 160GB/s + RDMA 50GB/s)的测试中,训练场景下节点内分发/合并带宽达153-158GB/s,跨节点RDMA带宽稳定在45GB/s级别。

推理场景下,延迟低至163微秒,RDMA带宽保持39-46GB/s,满足实时交互需求。

作为“开源周”发布的第二个开源库,DeepEP延续了DeepSeek“透明化AGI探索”的承诺,发布后继续收获好评,有网友锐评:“你们才是真正的OpenAI。”

昨日,富途资讯《DeepSeek开源周第一天放大招!有望进一步催化AI+主题,这些港股或将受追捧》也梳理了部分港股市场受益股,供牛友们参考,感兴趣可以点击查看。

编辑/Somer

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek MoE EP 通信库 AI模型训练
相关文章