刚刚，高效部署DeepSeek R1的秘密被DeepSeek公开了~

PaperAgent 02月26日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

DeepSeek开源了DeepEP，这是一个专为混合专家模型（MoE）和专家并行（EP）设计的开源通信库。它提供高吞吐量和低延迟的GPU内核，支持MoE分发和合并，以及低精度操作，包括FP8。DeepEP还针对非对称域带宽转发进行了优化，例如NVLink到RDMA的数据转发，适用于训练和推理预填充任务。通过优化的内核，DeepEP旨在提升MoE模型在训练和推理过程中的效率和性能，尤其是在DeepSeek-V3等大型模型中。

🚀DeepEP是一个为MoE模型量身定制的通信库，旨在提高训练和推理效率。它通过提供高吞吐量和低延迟的GPU内核，优化MoE分发和合并过程。

💡该库支持低精度操作，包括FP8，这有助于进一步提升计算效率并降低内存占用。这对于训练大型MoE模型至关重要。

🔗DeepEP针对非对称域带宽转发进行了优化，特别是在NVLink和RDMA之间的数据传输。这种优化对于充分利用硬件资源，提高数据传输速度至关重要，尤其是在大规模训练和推理场景下。

2025-02-25 13:14 湖北

DeepSeek的开源周（OpenSourceWeek）Day2开源了DeepEP：第一个用于 MoE 模型训练和推理的开源 EP 通信库。

DeepEP 是一个为专家混合（Mixture-of-Experts，简称MoE）和专家并行（expert parallelism，简称EP）量身定制的通信库。它提供了高吞吐量和低延迟的 all-to-all GPU内核，这些内核也被称为MoE分发和合并。该库还支持低精度操作，包括FP8。

为了与DeepSeek-V3论文中提出的组限制门控算法相一致，DeepEP提供了一套针对非对称域带宽转发优化的内核，例如从NVLink域转发数据到RDMA域。这些内核提供高吞吐量，使它们既适用于训练任务，也适用于推理预填充任务。

带有NVLink和RDMA转发的正常内核：H800上测试，遵循DeepSeek-V3/R1预训练设置（每批4096 tokens, 7168 hidden, top-4 groups, top-8 experts, FP8 dispatching and BF16 combining）

带有纯RDMA的低延迟内核：H800上测试，遵循典型的DeepSeek-V3/R1生产设置（每批128 tokens， 7168 hidden, top-8 experts, FP8 dispatching and BF16 combining）

https://github.com/deepseek-ai/DeepEP

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签