index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
DeepSeek 公开了其 DeepSeek-V3/R1 推理系统的技术细节,该系统通过跨节点专家并行(EP)技术,实现了吞吐量和延迟的优化。EP技术扩大了批处理规模,提高了GPU矩阵计算效率,同时将专家模块分布在不同GPU上,减少了内存访问需求。为应对EP带来的系统复杂度,DeepSeek 采用了预填充-解码解耦架构和 dual-batch 重叠策略,实现了计算与通信的并行处理。此外,通过负载均衡器,DeepSeek 确保了所有GPU上的计算和通信负载的平衡,最大化资源利用率。数据显示,DeepSeek-V3/R1推理服务的成本利润率高达545%,引发了业界对 OpenAI 亏损状况的关注。
🚀DeepSeek-V3/R1推理系统通过跨节点专家并行(EP)技术,显著提高了吞吐量和降低了延迟。EP技术扩大了批处理规模,提高了GPU矩阵计算效率,并通过将专家模块分布在不同GPU上,减少了内存访问需求。
💡为了应对EP带来的系统复杂度,DeepSeek采用了预填充-解码解耦架构,预填充阶段采用「路由专家EP32,MLA/共享专家DP32」,解码阶段采用「路由专家EP144,MLA/共享专家DP144」。同时,利用dual-batch重叠策略,将同一批请求分割为两个microbatch,以隐藏通信成本并提高整体吞吐量。
⚖️DeepSeek通过预填充阶段、解码阶段和专家并行负载平衡器,致力于在所有GPU上实现计算和通信负载的平衡,最大化资源利用率。预填充阶段平衡核心注意力计算和分发发送负载,解码阶段平衡KV缓存使用和请求处理数量,专家并行平衡专家计算工作量。
💰DeepSeek-V3/R1推理服务在H800 GPU上运行,矩阵乘法和分发传输采用FP8格式,核心MLA计算和组合传输使用BF16格式。在过去24小时内,V3和R1推理服务的合计峰值节点占用达到278个,平均占用226.75个节点,按照DeepSeek-R1的定价计费,理论上每日总收入可达到562,027美元,利润率为545%。
就在刚刚,当大家以为开源周已经结束的时候,真「Open AI」DeepSeek带来了压轴大戏——DeepSeek-V3/R1推理系统,全面揭秘!跨节点高效并行(EP)驱动的批处理扩展
计算与通信并行处理
智能负载均衡
每个H800节点每秒处理73,700/14,800输入/输出token成本利润率高达545%
DeepSeek表示,希望本周分享的技术见解能为开源社区带来价值,共同推进通用人工智能的发展目标。所以,基本免费的DeepSeek成本利润率高达545%,而堪称世界最贵的OpenAI却在亏损?简单来说,DeepSeek-V3/R1推理服务的优化目标是:提高吞吐量和降低延迟。为了实现这两个目标,团队采用了跨节点专家并行(Expert Parallelism,EP)技术。首先,EP显著扩大了批处理规模,提高了GPU矩阵计算效率,从而提升吞吐量。其次,EP将专家模块分布在不同GPU上,每个GPU仅处理少量专家模块(减少内存访问需求),从而降低延迟。然而,EP也增加了系统复杂度,主要体现在两个方面:EP引入了跨节点通信。为了优化吞吐量,需要设计合理的计算工作流,使通信过程与计算过程能够并行进行。
EP涉及多个节点,因此必然需要数据并行(Data Parallelism,DP),并要求在不同DP实例之间进行负载均衡。
大规模跨节点专家并行(EP)
DeepSeek-V3/R1中包含大量专家模块:每层256个专家中仅激活8个,所以模型的高稀疏性特点要求采用极大的整体批处理规模。这样才能确保每个专家模块获得足够的批处理量,从而实现更高的吞吐量和更低的延迟。因此,大规模跨节点EP技术成为必不可少的选择。DeepSeek采用了预填充-解码解耦架构(prefill-decode disaggregation architecture),在预填充和解码阶段分别采用不同程度的并行策略:预填充阶段「路由专家EP32,MLA/共享专家DP32」:每个部署单元跨越4个节点,配置32个冗余路由专家,每个GPU负责处理9个路由专家和1个共享专家。
解码阶段「路由专家EP144,MLA/共享专家DP144」:每个部署单元跨越18个节点,配置32个冗余路由专家,每个GPU管理2个路由专家和1个共享专家。
计算-通信重叠处理
为了缓解这一问题,采用dual-batch重叠策略,将同一批请求分割为两个microbatch,以隐藏通信成本并提高整体吞吐量。在预填充阶段,两个microbatch交替执行,一个microbatch的通信开销被另一个microbatch的计算过程所掩盖。
为此,需要将注意力层细分为两个步骤,并采用五阶段流水线(5-stage pipeline)技术,实现计算与通信的无缝重叠。实现最优负载均衡
大规模并行(包括数据并行DP和专家并行EP)带来了一个关键挑战:如果单个GPU在计算或通信方面过载,它将成为整个系统的性能瓶颈,导致系统速度下降,同时造成其他GPU资源闲置。为了最大限度地提高资源利用率,DeepSeek的目标是在所有GPU上实现计算和通信负载的平衡。关键问题:不同数据并行实例之间的请求数量和序列长度差异导致核心注意力计算和分发发送负载不平衡。
关键问题:数据并行实例之间请求数量和序列长度不均导致核心注意力计算(与KV缓存使用相关)和分发发送负载的差异。
关键问题:在混合专家模型(Mixture of Experts,MoE)中,存在天然的高负载专家,导致不同GPU上的专家计算工作负载不平衡。
DeepSeek在线推理系统图示
所有DeepSeek-V3/R1推理服务均在H800 GPU上运行,精度与训练保持一致。具体而言,矩阵乘法和分发传输采用与训练一致的FP8格式,而核心MLA计算和组合传输使用BF16格式,确保最佳的服务性能。此外,由于白天服务负载高而夜间负载低,团队采取了一种创新的机制:在夜间低负载时段,减少推理节点并将资源分配给研究和训练。
在过去24小时内(02月27日中午12:00至02月28日中午12:00),V3和R1推理服务的合计峰值节点占用达到278个,平均占用226.75个节点(每个节点包含8个H800 GPU)。假设租赁一个H800 GPU的成本为每小时2美元,每日总成本为87,072美元。上述统计数据包括来自网页、APP和API的所有用户请求。如果所有token都按照下列DeepSeek-R1的定价计费,每日总收入将达到562,027美元,利润率为545%。R1定价:输入token(缓存命中)每百万0.14美元,输入token(缓存未命中)每百万0.55美元,输出token每百万2.19美元。
只有部分服务实现了商业化(网页和APP访问仍然免费)在非高峰时段自动应用夜间折扣
https://x.com/deepseek_ai/status/1895688300574462431 内容中包含的图片若涉及版权问题,请及时与我们联系删除