2025-02-25 13:14 湖北
DeepSeek的开源周(OpenSourceWeek)Day2开源了DeepEP: 第一个用于 MoE 模型训练和推理的开源 EP 通信库。
DeepEP 是一个为专家混合(Mixture-of-Experts,简称MoE)和专家并行(expert parallelism,简称EP)量身定制的通信库。它提供了高吞吐量和低延迟的 all-to-all GPU内核,这些内核也被称为MoE分发和合并。该库还支持低精度操作,包括FP8。
为了与DeepSeek-V3论文中提出的组限制门控算法相一致,DeepEP提供了一套针对非对称域带宽转发优化的内核,例如从NVLink域转发数据到RDMA域。这些内核提供高吞吐量,使它们既适用于训练任务,也适用于推理预填充任务。
带有NVLink和RDMA转发的正常内核:H800上测试,遵循DeepSeek-V3/R1预训练设置(每批4096 tokens, 7168 hidden, top-4 groups, top-8 experts, FP8 dispatching and BF16 combining)
带有纯RDMA的低延迟内核:H800上测试,遵循典型的DeepSeek-V3/R1生产设置(每批128 tokens, 7168 hidden, top-8 experts, FP8 dispatching and BF16 combining)
https://github.com/deepseek-ai/DeepEP
推荐阅读
• 动手设计AI Agents:Coze版(编排、记忆、插件、workflow、协作)
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。