MoE模型訓練效率飛躍！DeepSeek開源周第二日：開源EP通信庫

全球首个专为混合专家模型（MoE）和专家并行（EP）设计的开源高性能通信库，旨在解决大规模AI模型训练与推理中的通信瓶颈问题。

DeepSeek开源“第二弹”，重新定义AI通信效率。

“开源周”第二日，DeepSeek官宣全球首个用于MoE模型训练和推理的开源EP通信库，旨在解决大规模AI模型训练与推理中的通信瓶颈问题。

据介绍，EP通信库的特点包括：高效、优化的全员沟通；节点内和节点间均支持NVLink和RDMA；用于训练和推理预填充的高吞吐量内核；用于推理解码的低延迟内核；原生FP8调度支持；灵活的GPU资源控制，实现计算-通信重叠。

总结而言，核心功能包括三块：

高性能内核：提供高吞吐、低延迟的GPU通信内核（即MoE中的"分发"与"聚合"操作）；

低精度支持：完整支持FP8等低精度计算模式；

智能通信优化：针对不同场景提供差异化加速方案。

值得注意的是，该通信库仍然只支持英伟达 (NVDA.US)Hopper架构的GPU。

性能表现方面，在H800 GPU测试中，DeepEP可以通过NVLink技术实现单节点内GPU间极速通信，带宽高达150GB/s，相当于1秒传完30部高清电影；同时通过RDMA技术（类似高铁专线）连接不同服务器，跨节点带宽45GB/s，比传统方法快3倍以上。

同时，DeepEP支持FP8数据格式，意味着使通信数据量减少50%，同时保持精度，特别适合千亿参数大模型的传输需求。

同时公布的测试案例显示，DeepEP在H800 GPU（NVLink 160GB/s + RDMA 50GB/s）的测试中，训练场景下节点内分发/合并带宽达153-158GB/s，跨节点RDMA带宽稳定在45GB/s级别。

推理场景下，延迟低至163微秒，RDMA带宽保持39-46GB/s，满足实时交互需求。

作为“开源周”发布的第二个开源库，DeepEP延续了DeepSeek“透明化AGI探索”的承诺，发布后继续收获好评，有网友锐评：“你们才是真正的OpenAI。”

昨日，富途资讯《DeepSeek开源周第一天放大招！有望进一步催化AI+主题，这些港股或将受追捧》也梳理了部分港股市场受益股，供牛友们参考，感兴趣可以点击查看。

编辑/Somer

Fish AI Reader