信息平权 03月02日
原来今天才是绝杀...
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek发布的V3/R1推理系统展示了惊人的利润率,揭示了MaaS赢者通吃的残酷现实。不到2000张卡的集群服务了数千万DAU,远低于之前的想象。低成本的关键在于需求拉满和集群满负荷运行,用户数量的正外部性显著降低了算力准备需求。该系统EP并行,用阉割版H800实现了超越H200的性能。这给整个推理行业树立了benchmark,预示着新一轮价格战的到来,同时也可能引发对算力需求的反思。

🚀 **超高利润率与低成本**:DeepSeek V3/R1推理系统实现了惊人的545%利润率,其背后是不到2000张H800卡服务数千万DAU,远低于行业之前的预期,揭示了通过技术优化实现低成本的可能性。

💡 **MaaS赢者通吃**:用户数量具有显著的正外部性。拥有大量客户可以平抑算力需求波动,降低边际成本。大型互联网公司如阿里、腾讯等,将推理集群系统作为To C和To B业务的底座,将拥有更明显的成本优势。

📊 **EP专家并行技术**:DeepSeek推理的灵魂在于EP专家并行,通过优化并行策略,使用阉割版H800实现了1.5倍于H200的性能。官方最佳配置是40个节点320卡,这种紧耦合的百卡大系统实现了性能数量级提升和成本数量级下降。

🎯 **行业Benchmark与价格战**:DeepSeek的成果为整个推理行业树立了新的benchmark,让所有推理团队知道了最高标准。之前以为16元是盈亏平衡线,现在告诉你2元即可。新一轮价格战已经在路上。OpenAI的200美元/月订阅费显得尴尬。

原创 信息平权 2025-03-01 21:45 江苏

今天DeepSeek发布V3/R1推理系统,除了惊人的545%利润率(换算成我们通常理解是85%利润率),还告诉我们了什么?

1. 不到2000卡服务了几千万DAU...首先这的确不是一个典型服务,官方版本到今天很多还是繁忙等待,用户体验一般般。和阿里字节这种toC to B(尤其未来的苹果服务),是要奔着几倍的超额算力去满足各种约束条件。但即便2000卡*2或者乘以5,用几千张H800就服务了几千万DAU、一天输入800B输出168B token,依然是远低于之前的想象...

2. 低成本另一个要素:需求完全拉满,集群满负荷,并发效率最高,成本最低。转群内季老师评价:这揭露了一个残酷事实,MaaS以后就是赢者通吃。用户数量有显著的正的外部性。你有100个客户的时候可能真要按照3倍5倍去准备算力,但是有10000个客户的时候就只需要按30%准备额外算力了。毕竟这么多用户会平抑波动。

而大厂如字节、阿里、腾讯,当推理集群系统成为to C to B所有业务的底座,成本优势就是他们未来的产品优势,且会愈加明显。今天阿里朋友们在群里举的例子,不仅阿里后面有苹果,还有自己的夸克。而豆包和元宝的使命类似,规模越大,优势越大。这比云计算时代的规模效应特征更加明显。

3. 几个隐藏数字,from 老罗的暗中观察

1)日输出token总数为168B,那么每个节点(8卡)的平均吞吐输出为168B/5442/3600=8,575 t/s

而前几天英伟达自己公布的H200和B200推理r1吞吐如下(也是8卡HGX单节点)。因此这一套EP并行下来,用阉割版了接近一半NVLINK带宽+接近一半的HBM的H800,反而实现了1.5倍于H200的性能...

2)Deepseek服务的平均输出速率为20~22tps,那么我们可以轻松地算出平均的并发请求数为168B/24*3600/21=9.26万(每秒),并发数/DAU为0.386%


4. 到底需不需要超节点?

这次DeepSeek推理的灵魂在EP专家并行,而实现稀疏MoE专家并行的官方最佳配置就是40个节点320卡,这种紧耦合的百卡大系统,相比过去单卡推理,性能数量级提升+成本数量级下降。而除了NV有GB200这样的百卡超节点,全世界第二个实现的就是昇腾910C 384卡超节点...(且R1优化上上的通信问题,最近似乎已经解决了)


5. 对同行意味着什么?

Y博:对于一个技术团队的中高层, 他最核心的价值就是两点1)知道团队做到什么水平才算完;2)团队如果不合格, 确认是什么具体环节的问题。DS这次等于给所有推理团队送了个首席技术官....

换句话说, 现在推理全行业知道了benchmark最高标准在哪儿了...且告诉你了明确的路径和方法,很快会朝着这个目标继续努力。之前以为16块钱是盈亏平衡线,现在告诉你是2块钱...加完油吧各位。新一轮价格战已经在路上了。

另外,OpenAI的200美金/月天价订阅费,是不是有点尴尬...


6. 最后,到底是不是利空算力

说实话,今天为止所有人的感受都是——震惊。这个成本的确有点离谱...至少目前纸面数字算出来,DS这种“勉强”服务的2-3000万DAU,只用了2000卡..而目前互联网巨头每家都是几十万几十万的抢购H20。粗估大概能支持10亿DAU?

当然,杰文斯悖论继续成立。优化出来的算力只会以更多服务的方式提供给客户,且进一步刺激应用的爆发。这会是个过程。且国内的Capex逻辑比如阿里是自上而下的,并不会简简单单被技术因素左右。

但短期来看,很多国内尤其是海外大厂的CIO或者CFO可能都要回答一个问题:我的ROI为什么比DS低了这么多...

(完)

利空或利好哪些,星球内对这个问题讨论也很激烈,欢迎来探讨

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek 推理系统 算力优化 价格战
相关文章