前天 10:33
deepseek 600 万美元的训练成本到底是啥?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了DeepSeek V3技术报告中关于R1模型训练成本引发的舆论风波。文章指出,最初的技术报告本身并无问题,但因公众对技术细节的不了解,以及媒体和KOL的误导性解读,导致讨论逐渐失控。文章分析了舆论演变的过程,强调了信息传播中的偏差和失真,并呼吁关注技术报告本身的价值。

💡 技术报告的发布是舆论的起点:DeepSeek V3技术报告中提及的训练成本在业内是常规数据,旨在方便学术和行业交流。报告本身并无问题,但后续的讨论却逐渐偏离了事实。

📢 舆论失控的几个关键阶段:首先是行业内的正常讨论,随后因R1模型的火爆,国外社交媒体和媒体开始关注,并出现了一些不准确的解读,例如对DeepSeek团队背景的误读,以及对训练成本计算方式的误解。

💥 舆论的演变与失真:公众对技术细节的不了解导致了对训练成本的夸大和误读,最终演变成了对中美两国AI发展、企业管理等更宏观层面的讨论,而最初的技术报告内容反而被忽略。

🧐 学术界和产业界的反应:在舆论发酵的过程中,学术界和产业界的人士试图解释,但表达力度不足,甚至掺杂了各自的利益考虑,使得澄清效果有限。

原创 hidecloud 2025-01-30 13:15 北京

整件事的起点就是一篇特别优秀的技术报告,其中报告了一个在业界看来特别正常的数字。最终因为 R1 爆火,进入公共舆论领域,配合上地缘政治的敏感议题,媒体流量饥渴,让讨论彻底失控。

首先,这个数据的最原始出处是 deepseek V3 的技术报告 ( https://arxiv.org/html/2412.19437v1 ) 里提到的,这是一切后续纷繁复杂的舆论的起点:

在详细解释之前,我先下一个最终结论,deepseek 给出的这个数字没有任何问题,并且也不存在后续各种解读中提到的“虚报”“恶意压低”“作假”这样的动机。

然后,我们来看看为什么后续舆论开始走形。整个舆论的走向大概分为几个阶段:

    技术报告发布,行业内讨论

    行业内的人对这个数字整体上是没有任何疑问的,因为在确定了模型参数规模以及训练数据量后,训练成本是可以直接算出来的,这个在业内都不会有什么异议。

    并且为了方便学术和行业交流,绝大部分的技术报告在提到训练成本时,都是按照这样的算法给出单次训练成本,因为只有这样的数字才具备可比性,让其他团队方便评估训练难度和复现可能性。不然把上下游所有变量(卡储备、人员工资、失败的尝试、基础研究、数据采买、办公室零食、……)引入进来,就失去了交流的意义。

    并且最重要的, deepseek 丝毫没有去混淆视听,直接在上面的表格下面就写了这段话:



    R1 火爆出圈,媒体介入
    R1 过于火爆,国外社交网络上的 KOL 和部分媒体开始寻找话题来蹭流量,这个过程中他们挖掘了几个点,大多都和现实不符,但符合舆论传播的流量需求(主要还是因为他们对中国环境实在太不熟悉了)。比如:

      罗福莉,其实已经去了小米,但因为是年轻女生,硬把她描绘为 deepseek 背后的秘密武器。

      R1 只是中国一个量化基金的 side project,一不小心就干到全球第一了。事实上我们国内的从业者从来都不会觉得 deepseek 是一个 side project。

      训练成本只要 600 万美元,秒杀 Meta 这些美国大厂,我们美国到底怎么了?!

    民间舆论发酵,讨论彻底跑偏
    以上提到的 a、b、c 三个谬误直接把美国那边的民间舆论带偏了,尤其是 c,因为很多不懂行的 KOL 和媒体在描绘 c 时,直接忽略了(我觉得就是压根没看)deepseek 技术报告中的原文,同时也不懂这个训练成本的计算方式在行业里的惯用定义是什么。最终传播的观点经过几步演化:

      deepseek 用了 600 万就干了 Meta Llama 模型几千万的活儿。这还算是懂一点点的,是在对比单次训练成本。

      deepseek 用了 600 万就干了美国公司几个亿的活儿。这已经开始离谱了,加上了人员工资以及上下游开销。

      deepseek 用了 600 万就干翻了美国融资几十亿的公司。这直接变成神话了。

    真相已经不再重要,屁股决定脑袋
    舆论演化到 c 之后,各种人士都下场了,从地缘政治到两国教育、产业发展路线、企业管理思路,啥人都可以来就这个话题说两句。但已经没人关心 deepseek 最初始的表达到底是什么了,他们在辩论的是自己心中的那个靶子。AI 学术界和产业界的领袖在这个阶段还在试图给公众舆论解释,但缺乏有力的表达,并且后期明显泄气以及参杂进各自的利益考虑,甚至有的人开始迎合这种叙事去达成自己的目的。

整件事的起点就是一篇特别优秀的技术报告,其中报告了一个在业界看来特别正常的数字。最终因为 R1 爆火,进入公共舆论领域,配合上地缘政治的敏感议题,媒体流量饥渴,让讨论彻底失控。

但噪音会随着时间逐渐消减,那篇技术报告本身会跨越这些喧嚣对这个世界产生持续的影响。这是真正的创造,让能体会到其美丽的人视为珍宝。希望你也能感受到这种美好。



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek R1模型 舆论风波 技术报告 AI
相关文章