PaperAgent 03月02日
冲,DeepSeek-R1/V3推理系统架构设计被开源了~
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek开源周的亮点之一是DeepSeek-V3/R1推理系统的概述,该系统通过优化吞吐量和延迟实现了高达545%的成本利润率。其关键在于大规模跨节点专家并行、计算-通信重叠以及负载均衡等策略。系统采用EP32/EP144,利用双batch重叠掩盖通信开销,并通过Prefill和Decode负载均衡确保各GPU计算和通信负载均衡。实际统计数据显示,DeepSeek V3和R1服务使用H800 GPU,峰值占用278个节点,虽然理论日收入可观,但实际收入受定价、服务占比和折扣影响。

🚀**高达545%的成本利润率**:DeepSeek-V3/R1推理系统通过优化吞吐量和延迟,实现了惊人的成本利润率,展示了其在资源利用率上的卓越表现。

🔧**大规模跨节点专家并行(EP)**:针对DeepSeek-V3/R1模型的高度稀疏性,系统采用EP32和EP144策略,确保每个专家获得足够的expert batch size,从而提升吞吐和降低延迟。Prefill阶段采用EP32,Decode阶段采用EP144。

⚖️**计算-通信重叠**:为了掩盖多机多卡专家并行引入的通信开销,系统采用双batch重叠策略,在Prefill和Decode阶段实现计算和通信的交错进行,有效提高了整体吞吐量。

⚡**负载均衡**:系统实施Prefill和Decode负载均衡,确保各GPU的计算量、token数量、KVCache占用量和请求数量尽量相同,同时优化Expert-Parallel负载均衡,最小化GPU的dispatch接收量最大值,避免性能瓶颈和资源浪费。

2025-03-01 21:33 湖北

DeepSeek高达545%的成本利润率,贡献了多少?

DeepSeek开源周并未结束,One More Thing:DeepSeek-V3/R1 推理系统概述以及高达545%的成本利润率:

? 跨节点EP驱动的批量扩展 

? 计算-通信重叠

⚖️ 负载均衡

⚡ 每个H800节点每秒73.7k/14.8k输入/输出 tokens 

成本利润率545%

DeepSeek-V3 / R1 推理系统的优化目标是:更大的吞吐,更低的延迟。

大规模跨节点专家并行(EP)

由于DeepSeek-V3/R1模型具有高度稀疏性,每层256个专家中仅激活8个,因此必须采用大的overall batch size来为每个专家提供足够的expert batch size,以实现更大的吞吐和更低的延迟。具体实现包括:

计算-通信重叠

为了掩盖由多机多卡专家并行引入的通信开销,系统采用了双batch重叠策略,以提高整体吞吐量:

负载均衡

由于采用了大规模并行(包括数据并行和专家并行),需要为每个GPU分配均衡的计算负载和通信负载,以避免性能瓶颈和资源浪费:

实际统计数据

DeepSeek V3和R1的所有服务均使用H800 GPU,并采用与训练一致的精度格式(FP8和BF16),以最大程度保证服务效果。在最近的24小时内,DeepSeek V3和R1推理服务的峰值占用为278个节点,平均占用226.75个节点。尽管理论上一天的总收入为$562,027,成本利润率545%,但实际收入会因V3的定价较低、收费服务占比和夜间折扣等因素而有所不同。

    https://zhuanlan.zhihu.com/p/27181462601https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md

    推荐阅读


    欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

    阅读原文

    跳转微信打开

    Fish AI Reader

    Fish AI Reader

    AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

    FishAI

    FishAI

    鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

    联系邮箱 441953276@qq.com

    相关标签

    DeepSeek 推理系统 成本利润率 专家并行 负载均衡
    相关文章