DeepSeek API理论利润率有545%，为什么还有云服务商停止服务了？

2025 年 3 月 1 日，DeepSeek公布的最新模型的理论API服务利润率有545%，但与此同时，很多第三方云服务商却要停止deepseek API服务了，为什么？既然利润率这么高，为什么还要停API服务？

我尝试来深度分析一下，这两个矛盾现象的背后原因。

2025 年 3 月 1 日，DeepSeek 面向开源社区公布了其最新的 V3/R1 推理系统的设计与实现细节，包括大规模跨节点专家并行（EP）技术、计算与通信重叠策略、负载均衡机制，以及与之对应的在线推理数据（吞吐量、时延、成本、收益等）。

V3/R1 推理系统的主要技术亮点是专家并行（Expert Parallelism, EP）与高稀疏 MoE 模型：

专家并行：DeepSeek 模型使用了混合专家（MoE）结构，每层 256 个专家仅激活 8 个，这就带来了极高的稀疏性。要想让“被激活”的专家单元始终拥有足够的批处理量，需要跨多节点进行调度与分配。

扩展大批处理：通过专家并行与数据并行结合，可以在不同节点/GPU 间分配专家模块，显著扩大批处理规模，从而提升吞吐量并降低延迟。

预填充-解码解耦（prefill-decode disaggregation）

预填充阶段：「路由专家 EP32，MLA/共享专家 DP32」：每个部署单元跨越 4 个节点，配置 32 个路由专家冗余；每块 GPU 处理 9 个路由专家 + 1 个共享专家。

解码阶段：「路由专家 EP144，MLA/共享专家 DP144」：每个部署单元跨越 18 个节点，配置 32 个路由专家冗余；每块 GPU 管理 2 个路由专家 + 1 个共享专家。

通过在不同阶段采用不同并行策略，提高了对推理过程（尤其是长序列推理）在吞吐量、延迟上的优化效率。

计算-通信重叠（Dual-batch Overlap）：

大规模跨节点通信是 EP 的一大挑战。DeepSeek 通过 dual-batch （双 microbatch）流水线策略，让一个 microbatch 在执行计算时，另一个 microbatch 同步进行通信，从而相互“掩盖”通信开销。解码阶段更进一步细分注意力层为两个步骤，采用五阶段流水线 (5-stage pipeline) 技术，将更多通信和计算重叠执行，从而减少等待时间。

负载均衡策略：

预填充阶段负载平衡器：尽量均衡各数据并行实例间输入序列长度、请求数量所带来的计算/分发不均衡。

解码阶段负载平衡器：均衡 KVCache 使用量，平衡核心注意力计算负载。

专家并行负载平衡器：在混合专家模型中，天然会出现“热门专家”被频繁访问而负载更高的现象。通过动态调度策略，让不同专家在不同 GPU 间更均衡地分配，避免某个节点/专家卡成为系统瓶颈。

1. deepseek API 服务利润利润率达到惊人的545%？

DeepSeek 在线API 服务数据

硬件配置：H800 GPU 集群（1 个节点 = 8 张 H800 GPU）。在本次统计区间内，峰值占用达 278 个节点，平均占用 226.75 个节点。精度设置：矩阵乘法与分发传输使用 FP8，核心 MLA 计算及组合传输使用 BF16，保证高效推理与高精度兼得。

24 小时内的吞吐量与开销

统计区间：2 月 27 日中午 12:00 至 2 月 28 日中午 12:00

总输入 token：6080 亿，其中 3420 亿（约 56.3%）命中磁盘 KV 缓存，不需要完整推理计算。

总输出 token：1680 亿，平均输出速度 20~22 token/s，每个 token 对应平均约 4,989 个 KV 缓存长度。

单节点吞吐量：

预填充阶段：每秒约 7.37 万个输入 token（含缓存命中）

解码阶段：每秒约 1.48 万个输出 token

成本与收益

成本估计：假设租用一张 H800 GPU 价格 2 美元/小时，则一天运行费用约 87,072 美元。

理论收入（使用Python模拟）：若所有请求都按 R1 定价计费（输入 token 0.14～0.55 美元/百万，输出 token 2.19 美元/百万），24 小时产生 562,027 美元收入，利润率高达 545%。

实际营收：由于 DeepSeek-V3 的计费低于 R1、网页/APP 免费、夜间折扣等原因，真实收入应低于理论值。

很多读者感慨“技术才是第一生产力”，在高效率、高吞吐量的推理架构之下，可以创造出让人惊叹的利润空间。也有网友提出，如果真的要做到免费，势必需要在夜间或者闲置资源时段进行灵活调度。对企业来说，盈利模式可能不只依赖于 token 收费，也可能通过定制化服务、企业级解决方案、API 授权等方式实现。

一些人也好奇，“输入比输出高这么多倍，是因为请求庞大还是响应不充分？” 根据文章给出的数据，主要还是用户请求量（输入）非常庞大，再加上大量的 KV 缓存命中，导致输入 token 总量远大于输出。

看起来这是一个非常可观的理论利润率（545%），真的有这么高吗？

从目前公开的信息来看，DeepSeek 在计算 GPU 成本时，主要采用了“每小时 2 美元”的「租赁成本」假设，并没有细化硬件折旧或整体运维摊销（包括工程师薪资、电力冷却、机房租金、网络带宽等）等因素。因此，文中给出的 545% 利润率更多体现了“理想化、基于 GPU 即时租用价格的利润测算”，并非企业全面财务核算之后的真实净利润率。

DeepSeek 给出的成本基于「按小时付费」的租赁价（2 美元/小时·卡）来估算。如果他们确实使用云服务（或第三方 GPU 机房）进行租赁，那么云服务商的定价中多少已经隐含了“硬件折旧 + 运维 + 利润”。

在这种情况下，折旧本身已经转化为云服务商的成本，对 DeepSeek 而言，确实只需要关心「租赁费用」即可。如果 DeepSeek 自行采购 GPU 并自行运维，就还要额外计算硬件折旧摊销、维护等隐藏成本；这部分在文中并未详细体现。

除了 GPU 硬件本身的折旧或租赁费用，企业真实运营往往还包含人力成本、机房租金、配套服务器（存储、带宽）以及其他运营支出。这些也同样会影响最终净利润率。DeepSeek 给出的数据更像是“推理集群的直接成本”估算（也可以理解为“云平台直接账单”），而非企业层面完整的会计核算。

理想化利润率为何可能很高？

DeepSeek 使用了高稀疏度 MoE（混合专家）模型和跨节点专家并行（EP）技术，让单位 GPU 服务更多请求，从而单卡产出远高于一般大模型推理部署。当某个系统在极高负载、且平均时段内大部分资源都被充分利用时（例如服务的平均并发量非常大），单位成本就被摊得很低。

输入 token 相比输出 token 价格低很多，但实际请求中有大比例命中了缓存，减少了实际计算负载；输出 token 价格比输入高不少，一旦产生大量输出（用户请求长回答），就能带来显著收入。在这种高并发 + 部分缓存命中 + 长文本输出的场景下，理论收益容易被放大。

从文中 545% 的数字看，更像是运营推理服务所获得的“毛利率”（基于云 GPU 租金 vs. token 收益），而非企业全局的纯利率。很多公司在仅计算“硬件云成本”时，毛利水平可高达几百到上千个百分点，但一旦把研发投入、人力、办公等再加进去，真实“净利润率”自然会下降。

DeepSeek 给出的 545% 利润率，应该是不包含硬件折旧（若自建机房则需要自行折旧计算），也没有全面覆盖其他各项运营成本（人力、带宽、冷却等）。这一数值主要反映在“以 GPU 即时租赁成本”对照“按 R1 计费方式的理想收入”，是一个理想化的推理业务端“毛利率”。

对于 AI 服务商，最终能否实现高利润，还取决于市场竞争、定价策略、用户规模、资源利用率以及内部研发/运营费用等多重因素。综上，545% 的数字虽然引人注目，但更多是技术与规模效应下的一种上限测算，并不代表实际财务报表中可直接落袋的净利润率。

2. 理论与现实存在巨大差距，第三方API服务商压力巨大

还跟哪些因素相关？如果真实的利润率这么高，很多第三方云服务商不至于还要停服吧？

近期潞晨科技CEO尤洋指出，满血版DeepSeek-R1每百万token（输出）定价16元，如果每日输出1000亿token，一个月算下来接入方企业可获得4800万元收入。
据他测算，完成1000亿token的输出，需要约4000台搭载H800的机器，以目前H800的市价或者折旧来计算，每月仅机器成本就达4.5亿元，因此企业方可能面临每月4亿元的亏损，“用户越多，服务成本越高，亏损越多”。

云服务商突然停服 DeepSeek API，并不违背“DeepSeek 理论利润率很高”这一事实：理想收益与真实运营成本之间，依旧存在不小的鸿沟。

DeepSeek 公布的 545% 利润率，是基于以下理想化假设计算所得：

仅将 GPU 小时租赁成本（2 美元/小时·卡）视为“唯一”成本；

所有流量都按 R1 标准定价收取（无折扣、无免费额度、无其他低价方案）。

然而，在真实的商业运营中，情况往往复杂得多：

机器并不总是「满负载」。如果吞吐不饱和，就难以充分摊薄每张卡的成本；

不同客户或场景可能享受免费或折扣。DeepSeek 自己也承认实际收入“远低于理论值”；

研发、运维、人员、带宽、电力、数据存储与分发等费用也不可忽视，单纯用“2 美元/小时·卡”无法覆盖所有支出；

如果云服务商自行采购 GPU 并长期持有，也得计算硬件折旧、资本开支（CapEx）、融资成本等因素。

理论利润高并不代表所有参与方都能拿到这样的高收益。一旦任何成本高于理论设定、或实际收费无法接近理论值，都可能让利润率迅速下降，甚至出现亏损。

商业模式与风险承担不对等，对于许多云服务提供商而言：

①云厂商承担了更多的底层成本和运维风险

要提供 API 服务，云厂商要先搭建或租用大规模 GPU 集群，一旦客户请求爆发式增长，云厂商就必须扩容，而成本大概率比“2 美元/小时·卡”更高（实际采购或运营成本要远大于此）；如果用户行为存在不确定性，云厂商在闲时则会有大量资源闲置，也在背负固定成本；

②定价策略由 DeepSeek 设定，云厂商只是“执行者”

假设 DeepSeek 对最终用户实施低价或免费策略，那么云厂商所得的分成或代理费用就会非常有限；如果出现高并发、高负载且大部分是免费用户，云厂商在资源层面却要付出真金白银，无法覆盖成本。

云厂商真实利润率不一定等同于 DeepSeek 官方披露的理想值

DeepSeek 的 545% 理论毛利率只是站在“以极优成本+高负载+R1 价”来衡量“推理服务”时所做的简化对比；对云厂商而言，实际成本结构中包含其他不可回避的项目（人力运维、能耗、专线网络……），且深度合作的分成模式也未必有如此高收益。

云服务商在运营 DeepSeek API 过程中，承担了底层运营风险和不对称的收入结构，一旦发现继续提供服务难以盈利，或收益预期极不稳定，停服也就不难理解。

DeepSeek 公开的“每卡 2 美元/小时”是租用成本的一种「理想化假设」，或在某些海外云平台上存在限时优惠。但在国内外市场实际采购或长期自营 GPU 时，可能面临：

巨额资本支出 (CapEx)：一台服务器可能搭载 8 张 H800（或 8× A100/A800…），购买成本往往在数十万元到上百万元不等。4000 台就可能是数十亿的初始投入。

折旧与维护：即便通过折旧摊销，综合月度成本也远高于“2 美元/小时 × 24 小时 × 30 天”所得到的数值。企业需要支付机房租金、电力空调、网络专线、人力运维等一系列额外花费。

峰谷不均衡：如果用户峰值负载只有 1~2 小时很高，其他时间段低迷，就会有很多 GPU 处于空转状态。但硬件折旧和机房运维费却是“无时不刻”地在发生。

所以，对于大多数企业来说，若想自建或长期租用大规模 GPU 集群提供“无限量”高质量推理服务，实际成本常常高得惊人，远不止 DeepSeek 理论模型中“2 美元/小时·卡”能覆盖。

潞晨科技 CEO 尤洋给出的测算，实际上直指了“大模型商用落地在算力层面的沉重成本”。当前看似“高收益、高利润率”的大模型推理服务，在真正面对海量用户时，硬件及运维成本会迅速放大。

仅靠“输出 token × 单价 = 收入”来覆盖成百上千台 GPU 的折旧、运维、能耗和研发投入，往往是不足的。当服务规模越大，所需 GPU 越多、支出曲线就可能呈指数级上升，而“用户付费意愿”或“单价”却难以跟上这样的成本增幅，于是出现“用户越多，亏损越大”的悖论。

“理论利润率 545%”本就带有极强的理想化前提；真正落地时，大规模并发+免费用户比例+贴近成本的资源价格等诸多现实因素，往往让云服务商无法复制或接近此理论利润率。

当云厂商评估发现：实际盈利前景有限，甚至处于亏损边缘，或对后续合作条款缺乏确定性，就可能果断停止 DeepSeek API 的对外服务。

因此，云服务商突然停服 DeepSeek API，并不违背“DeepSeek 理论利润率很高”这一事实：理想收益与真实运营成本之间，依旧存在不小的鸿沟。

3. 实际利润率还与更多因素相关

从数学模型的角度来抽象一下，可能理解会更加深刻：

针对DeepSeek-V3/R1推理系统的成本、收入与利润率问题，我们可通过建立数学模型进行定量分析，以下是基于公开数据的深度建模与推演：

一、成本模型（Cost Model）

1. 显性成本（Explicit Cost）

2. 隐性成本（Implicit Cost）

二、收入模型（Revenue Model）

1. 输入输出Token拆分

设每日总Token处理量为：

2. 分层定价与缓存影响

3. 吞吐量约束

三、利润率模型（Profitability Model）

1. 理论利润率（理想条件）

2. 实际利润率（含隐性成本与负载率）

四、敏感性分析（Sensitivity Analysis）

通过蒙特卡洛模拟或偏导数分析关键变量对利润率的边际影响：

1. 缓存命中率 β

2. 负载率γ

3. 定价策略

五、风险量化模型（Risk Quantification）

1. 盈亏平衡分析

2. 波动率影响

从抽象的数学模型来看，数学模拟带来的启示在于：DeepSeek API 服务商的商业模式高度依赖规模效应与技术护城河，需通过持续优化β、γ 、α 三变量来抵御市场波动。

DeepSeek 公布的 545% 利润率，依赖多项“理想化假设”：满负荷、无隐性成本或隐性成本极低、无限需求且全按高价收费。实际运营中，这些条件往往难以完全满足，导致真实利润率大打折扣。

关键点：提升缓存命中与利用率

①缓存命中率 (β)：直接影响输入部分的计费与计算负载；

②负载率 (γ)：是决定资源利用效率的核心，企业若想保持利润，就需要弹性调度、批量并行、峰谷错配等运营手段，将 GPU 利用率尽量提升。

关键护城河在于：第一，维持高缓存命中率（需用户行为可预测）；第二，技术优化压缩隐性成本（如电力效率提升）。

从缓存命中率和隐性成本优化的角度，垂直类企业SaaS服务公司确实可能比通用型AI服务商更有优势，垂直SaaS的缓存命中率优势：用户行为可预测性

① 场景收敛与需求模式固化

垂直领域特征：用户行为受行业规则限制（如医疗SaaS的ICD-10编码查询、零售SaaS的库存SKU检索），请求类型高度集中，长尾需求少。

缓存策略优化：可预置高频查询结果（如药品数据库、行业法规文本），甚至通过预训练领域知识图谱实现近100%缓存命中。

② 数据闭环增强可预测性

用户画像沉淀：垂直SaaS积累客户历史行为数据（如物流公司的运单查询周期、制造业的设备故障排查规律），可训练预测模型提前缓存相关结果。

主动缓存（Proactive Caching）：结合业务流程（如ERP系统中的月度财报生成），在需求波峰前预加载资源。

所以，SaaS企业+云巨头的API服务似乎能碰撞最大的火花。云巨头与垂直SaaS的协同，绝非简单的资源外包+行业经验叠加，而是通过数据流重构、算力-知识双向反馈、联合收益模型实现深度耦合。这种模式将重塑AI服务的成本结构——边际成本趋近于缓存维护而非原始计算，最终催生新一代“智能即服务”（Intelligence-as-a-Service）生态。胜负手在于：谁能更快构建跨域的缓存语义网络，并设计出激励相容的商业模式。

对 AI 从业者的有哪些重要启示？

技术层面：如何实现更高效的大模型推理？

提高批处理规模（GPU 矩阵运算效率更高）；

减少单卡专家负载（延迟更低）；

重叠通信和计算（流水线/双 microbatch）；

负载均衡避免单点瓶颈。

跨节点专家并行 (EP) + Data Parallel (DP) + Pipeline的组合拳：

这些经验可以为大规模模型在工业生产环境中的落地提供重要参考。

商业层面：分时调度 + 差异化定价

白天高峰时段部署更多节点，夜间缩减集群规模；

对不同类型的请求（缓存命中/未命中、输入/输出 token）实施不同价格；

通过缓存命中率降低系统负载，却仍可收取一定费用；

形成高效率+较合理价格的商业模式，同时保留免费策略吸引更多用户。

要真正落地并保持可观利润，还需考虑市场竞争、产品定位（免费策略 vs. 付费服务）、运营成本、研发投入等；如果能够像 DeepSeek 这样高效利用资源、在峰谷时段灵活调度，并拥有庞大用户量支撑，就可以在实际中获得较高的盈利水平。

本文来源：贝叶斯之美，原文标题：《DeepSeek API理论利润率有545%，为什么还有云服务商停止服务了？》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

V3/R1 推理系统的主要技术亮点是专家并行（Expert Parallelism, EP）与高稀疏 MoE 模型：

1. deepseek API 服务利润利润率达到惊人的545%？

2. 理论与现实存在巨大差距，第三方API服务商压力巨大

3. 实际利润率还与更多因素相关

对 AI 从业者的有哪些重要启示？

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签