网上关于DeepSeek的说法，哪些是错误的？

原创小黑羊 2025-02-05 17:11 北京

1st

DeepSeek成功绕过了NVIDIA CUDA？

错误！

这是个流传很广的说法，意指DeepSeek通过绕过CUDA，彻底摆脱了NVIDIA的依赖。

听起来确实很提气，但这个言论的依据是DeepSeek采用了PTX编程替代了CUDA C/C++编程。

实际上，DeepSeek这么干的初衷，是为了解决H800 GPU被阉割的互联带宽，不得不下沉到更低一层，用“PTX手搓”来提升跨芯片通信能力。

（如果换成H100，完全不需要这么做，因为互联带宽足够）。

那么用了PTX就是绕过了CUDA吗？完全不是。

PTX（Parallel Thread Execution）是NVIDIA CUDA编程模型的一部分，它是 CUDA 编译器将源代码（如 CUDA C/C++）转换为低级别、硬件相关的机器指令之前的一个中间阶段。

PTX在运行时会进一步被编译成在NVIDIA GPU上运行的最终机器码（SASS），然后交给GPU完成最终执行。

整个流程可以参考下图↓

实际上，DeepSeek就是跳过了第一个环节，直接用更为复杂的PTX来编写程序。

这样虽然编程复杂度高，但是既解决了前面说所的跨芯片通信瓶颈，又可以降低开销、提升执行效率（把第一部分编译过程省了）。

老司机都懂的，这相当于我们以前不用C这样的高级语言，直接拿汇编来写程序，门槛高但是效率也高。

不得不说，DeepSeek这招确实确实挺高，但是直接采用PTX编程并不等于摆脱了CUDA生态依赖。

首先PTX本身就是CUDA生态的一部分，同时PTX代码只能在N家GPU上运行，且依赖N记驱动、工具链和库，并不提供跨平台、跨厂商支持，另外PTX的编写和调试，仍然需要依靠CUDA提供的工具。

总的来说，虽然DeepSeek通过直接编写PTX获得了更低级的控制，提升代码执行效率，解决跨芯片通信瓶颈。

但这并不算绕开CUDA，因为PTX代码仍然需要CUDA的编译、运行和管理机制来执行。

2nd

DeepSeek仅用600万美元完成训练？

既对又不对！

数字是正确的，而且真实的数字比这个还少，只有557.6万美元。

但是我们需要理性的看待这个数字。

首先说这个数据哪里来的，它来源于DeepSeek V3的技术报告。(https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf)

在报告中明确指出，DeepSeek-V3 的完整训练（含预训练、上下文扩展和后训练）仅需278.8万H800GPU小时，总成本约 557.6 万美元。（按2美元/H800GPU小时计算）

而单看预训练，每训练1万亿个Tokens，需消耗18万H800GPU小时，折合36万美元。

玩过大模型训练的都明白，这个花费确实太低了，比如Meta Llama3 405B的训练成本约3930万H100 GPU小时，是DeepSeek的14倍，而后者的671B的参数量更大。

（花血本砸钱的6小虎和巨头们肯定哭晕在厕所，迎接他们的将是投资人的“拷打”）

但是，需要特别说明的是：大模型训练成本≠大模型开发成本。

557.6万美元，这仅仅是训练消耗的GPU算力成本，不包括整体软硬件投入、数据采集与处理、软件和系统开发、人力等等综合成本。

那么具体多少钱？官方没有披露，我们不妨问问DeepSeek自己，看它怎么说↓

而semianalysis.com也给出了DeepSeek的AI TCO分析，这张表很有参考价值，当然，这张表也只是按照自己囤卡来计算的GPU服务总成本+集群运营成本。

光这部分的成本算下来就超过了25亿美元。

所以，一开始，大家被600万美元的模型成本给敲懵了，甚至开始恐慌，GPU被做空。

但细细推敲下来，600万只是冰山一角，所以你看，这几天N家的股票开始慢慢回调了。

U1S1，557.6万美元的净算力成本，已经足够震撼了。

DeepSeek依靠创新的算法和架构做到了这一点，用更低的成本来训练和推理模型。

这也给广大创业公司打来了一扇窗，大家不再需要汗牛充栋囤卡堆算力，只要算法好，完全可以借鸡下蛋，租用GPU机时来搞定模型。

同时，也给广大AI创业公司关上了一扇门，跟投资人要钱买铲子、囤算力没那么容易了。

更深远的影响还在后面，比如低算力需求，可以让不怎么强的国产算力卡真正走上台面，既然大家不需要卷算力，确实可以卷卷自足可控了。

以及，我们可以考虑在自己笔记本上，运行一个性能相当不错的模型啦。

3rd

美国5大巨头全部接入DeepSeek？

这确实是真的，英伟达、微软、英特尔、AMD、AWS五大巨头确实先后宣布上架或者集成了DeepSeek。

英伟达，DeepSeek-R1正式登陆NVIDIA NIM；

亚马逊，DeepSeek-R1在Amazon Bedrock和SageMaker AI上线；

微软，DeepSeek-R1在云服务Azure上部署；

英特尔公布，DeepSeek目前能够在英特尔产品上运行；

AMD，DeepSeek-V3集成到Instinct MI300X GPU上。

这事儿确实“振奋人心”，但这件事，并不是像某些媒体说的那样，“老外被DeepSeek打服了，集体认怂”。

只能说老外蹭起流量来比我们还猛呀，大家只是觉得DeepSeek还是个不错的模型，有资格跟我在一个桌吃饭了。

而且这种所谓上架也不是第一次，举个例子，英伟达NVIDIA NIM其实上架了大量开源模型，比如Llama系列，StableDiffusion系列。

还包括阿里系的qwen系列，百度的飞桨OCR，以及零一万物和百川智能的模型。

所以，此番上架个DeepSeek也没啥稀奇的，既然卖铲子，所有的矿主和矿工都是我的生态，只有其他卖铲子的才是我的敌人。（相信英特尔和AMD也是这个思路）。

再看AWS和Azure，作为“云化铲子”，他们早就看到了云化算力、托管式模型服务是云计算的下一个增长点，此刻下场也理所当然，毫不意外。

当然，他们的套路也不是给了DeepSeek专宠，而是一只羊也是赶，一群羊也是赶。

比如AWS的Bedrock，其实已经网罗了170多个形形色色的模型，还差你这一个么？

不过，AWS还是给了DeepSeek足够的面子：一个独立的Provider分类。

不像很多模型，只能挤在HuggingFace大目录下。

但也仅限于这点小面子，因为DeepSeek在Bedrock上的部署模式还是基于Marketplace自助式，而并非像AWS亲儿子Nova和干儿子Claude那样，是全托管Serverless模式。

还有一点很有意思，跟国外巨头相比，可能因为春节假期原因，国内巨头铲子商们蹭热度明显慢了半拍，虽迟但到，赶在今天开工前，他们也都齐刷刷的上架了DeepSeek。

嘿嘿，嘿嘿这个节奏，很像去年大家集体卷帕鲁，年中集体卷黑神话一样呀。

不管怎么说，这波流量让大家都赚到了。

4th

DeepSeek遭受攻击，国内“复仇者联盟”集体救场？

DeepSeek被攻击时真的，这个提示目前还挂在官方注册页面。

人红是非多，何况是红遍全球，遭人嫉妒被攻击并不奇怪。

但是令人啼笑皆非的是接下来的剧情，相信类似的文字大家过年期间在某些文章或者短视频里都刷到过——

这鬼扯的剧情还真有人相信了，我真无了个大语。

我就不解释了，能信这条的，你怎么跟他解释没有用。

2023年春节，GPT让很多圈里人，开始重新认识AI的价值，2025年春节，DeepSeek彻底破圈，让更多普通人，也认识到了AI的价值。

你能想象在一个偏远的渔村小岛上，你的初中同学会跟你聊DeepSeek吗？

我这几天也小试了一下DeepSeek，总体感觉还可以，尤其作为“嘴替”，它输出的内容不“八股”，更像个人，你会被某些回答惊艳到。

但同样的，幻觉问题还是很多，比如仍然答不对“9.9和9.11哪个大”，比如联网搜索后，对多个搜索结果的归纳和提取不够好。

幻觉多可能是因为训练语料库不够的原因，而被大家津津乐道的“嘴替/更像人”，我觉得恰恰可能是DeepSeek对输出内容安全的力度不够，尚未遭受“社会毒打”。

另外，今天开工估计有更多的人涌向了DeepSeek，这种人肉DDoS充分考验DeepSeek的资源量和推理架构，反正整个下午，我打开DeepSeek，都是这样的。

不过，不管是昙花一现还是变身巨头，DeepSeek的意义都是深远的，其核心价值是走了一条与各大巨头、AI独角兽都不一样的道路，而且还走通了。

我年前还说：创业公司再难出巨头。现在这句话可以暂时收回了。

也许，在中国正有一批DeepSeek们，他们就像哪吒，打破所有偏见，挑战各大巨头，只因“我命由我不由天”。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签