deepseek 600 万美元的训练成本到底是啥？

原创 hidecloud 2025-01-30 13:15 北京

整件事的起点就是一篇特别优秀的技术报告，其中报告了一个在业界看来特别正常的数字。最终因为 R1 爆火，进入公共舆论领域，配合上地缘政治的敏感议题，媒体流量饥渴，让讨论彻底失控。

首先，这个数据的最原始出处是 deepseek V3 的技术报告 ( https://arxiv.org/html/2412.19437v1 ) 里提到的，这是一切后续纷繁复杂的舆论的起点：

在详细解释之前，我先下一个最终结论，deepseek 给出的这个数字没有任何问题，并且也不存在后续各种解读中提到的“虚报”“恶意压低”“作假”这样的动机。

然后，我们来看看为什么后续舆论开始走形。整个舆论的走向大概分为几个阶段：

技术报告发布，行业内讨论

行业内的人对这个数字整体上是没有任何疑问的，因为在确定了模型参数规模以及训练数据量后，训练成本是可以直接算出来的，这个在业内都不会有什么异议。

并且为了方便学术和行业交流，绝大部分的技术报告在提到训练成本时，都是按照这样的算法给出单次训练成本，因为只有这样的数字才具备可比性，让其他团队方便评估训练难度和复现可能性。不然把上下游所有变量（卡储备、人员工资、失败的尝试、基础研究、数据采买、办公室零食、……）引入进来，就失去了交流的意义。

并且最重要的， deepseek 丝毫没有去混淆视听，直接在上面的表格下面就写了这段话：

R1 火爆出圈，媒体介入
R1 过于火爆，国外社交网络上的 KOL 和部分媒体开始寻找话题来蹭流量，这个过程中他们挖掘了几个点，大多都和现实不符，但符合舆论传播的流量需求（主要还是因为他们对中国环境实在太不熟悉了）。比如：

罗福莉，其实已经去了小米，但因为是年轻女生，硬把她描绘为 deepseek 背后的秘密武器。

R1 只是中国一个量化基金的 side project，一不小心就干到全球第一了。事实上我们国内的从业者从来都不会觉得 deepseek 是一个 side project。

训练成本只要 600 万美元，秒杀 Meta 这些美国大厂，我们美国到底怎么了？！

民间舆论发酵，讨论彻底跑偏
以上提到的 a、b、c 三个谬误直接把美国那边的民间舆论带偏了，尤其是 c，因为很多不懂行的 KOL 和媒体在描绘 c 时，直接忽略了（我觉得就是压根没看）deepseek 技术报告中的原文，同时也不懂这个训练成本的计算方式在行业里的惯用定义是什么。最终传播的观点经过几步演化：

deepseek 用了 600 万就干了 Meta Llama 模型几千万的活儿。这还算是懂一点点的，是在对比单次训练成本。

deepseek 用了 600 万就干了美国公司几个亿的活儿。这已经开始离谱了，加上了人员工资以及上下游开销。

deepseek 用了 600 万就干翻了美国融资几十亿的公司。这直接变成神话了。

真相已经不再重要，屁股决定脑袋
舆论演化到 c 之后，各种人士都下场了，从地缘政治到两国教育、产业发展路线、企业管理思路，啥人都可以来就这个话题说两句。但已经没人关心 deepseek 最初始的表达到底是什么了，他们在辩论的是自己心中的那个靶子。AI 学术界和产业界的领袖在这个阶段还在试图给公众舆论解释，但缺乏有力的表达，并且后期明显泄气以及参杂进各自的利益考虑，甚至有的人开始迎合这种叙事去达成自己的目的。

但噪音会随着时间逐渐消减，那篇技术报告本身会跨越这些喧嚣对这个世界产生持续的影响。这是真正的创造，让能体会到其美丽的人视为珍宝。希望你也能感受到这种美好。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签