特大号 03月08日 20:48
网上关于DeepSeek的说法,哪些是错误的?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek近期备受关注,围绕它出现了诸多争议。本文深入剖析了关于DeepSeek的四大争议点:是否绕过了NVIDIA CUDA、训练成本是否真的仅为600万美元、是否被美国五大科技巨头全面接入,以及是否遭受攻击后国内“复仇者联盟”集体救场。通过对这些问题的逐一解答,还原DeepSeek爆火背后的真相,让读者更全面、客观地了解DeepSeek的技术创新、市场策略以及面临的挑战。同时,也探讨了DeepSeek的出现对AI行业格局可能产生的影响。

🚀DeepSeek并未绕过NVIDIA CUDA,而是采用了PTX编程,这实际上是CUDA编程模型的一部分。DeepSeek通过直接编写PTX,解决了H800 GPU被阉割的互联带宽问题,提升了跨芯片通信能力,但仍依赖NVIDIA的驱动、工具链和库。

💰DeepSeek V3的完整训练成本(含预训练、上下文扩展和后训练)约为557.6万美元,但这仅仅是GPU算力成本,不包括整体软硬件投入、数据采集与处理、软件和系统开发、人力等综合成本。尽管如此,这一成本仍然远低于Meta Llama3等大型模型,显示了DeepSeek在算法和架构上的创新。

🤝美国五大巨头(英伟达、微软、英特尔、AMD、AWS)确实先后宣布上架或集成了DeepSeek,但这并非“老外被DeepSeek打服了”,而是巨头们为了蹭流量,将DeepSeek视为一个不错的模型,纳入到自己的生态中。例如,英伟达NIM上架了大量开源模型,AWS Bedrock也网罗了众多模型。

🛡️DeepSeek确实遭受了攻击,但所谓国内“复仇者联盟”集体救场的说法是虚构的。DeepSeek的爆火使其备受关注,但也面临着幻觉问题、输出内容安全等挑战,同时其资源量和推理架构也面临着考验。

原创 小黑羊 2025-02-05 17:11 北京



1st

DeepSeek成功绕过了NVIDIA CUDA?


错误!

这是个流传很广的说法,意指DeepSeek通过绕过CUDA,彻底摆脱了NVIDIA的依赖。

听起来确实很提气,但这个言论的依据是DeepSeek采用了PTX编程替代了CUDA C/C++编程。

实际上,DeepSeek这么干的初衷,是为了解决H800 GPU被阉割的互联带宽,不得不下沉到更低一层,用“PTX手搓”来提升跨芯片通信能力。

(如果换成H100,完全不需要这么做,因为互联带宽足够)。

那么用了PTX就是绕过了CUDA吗?完全不是。

PTX(Parallel Thread Execution)是NVIDIA CUDA编程模型的一部分,它是 CUDA 编译器将源代码(如 CUDA C/C++)转换为低级别、硬件相关的机器指令之前的一个中间阶段

PTX在运行时会进一步被编译成在NVIDIA GPU上运行的最终机器码(SASS),然后交给GPU完成最终执行。

整个流程可以参考下图↓

实际上,DeepSeek就是跳过了第一个环节,直接用更为复杂的PTX来编写程序。

这样虽然编程复杂度高,但是既解决了前面说所的跨芯片通信瓶颈,又可以降低开销、提升执行效率(把第一部分编译过程省了)。

老司机都懂的,这相当于我们以前不用C这样的高级语言,直接拿汇编来写程序,门槛高但是效率也高。

不得不说,DeepSeek这招确实确实挺高,但是直接采用PTX编程并不等于摆脱了CUDA生态依赖。

首先PTX本身就是CUDA生态的一部分,同时PTX代码只能在N家GPU上运行,且依赖N记驱动、工具链和库,并不提供跨平台、跨厂商支持,另外PTX的编写和调试,仍然需要依靠CUDA提供的工具。

总的来说,虽然DeepSeek通过直接编写PTX获得了更低级的控制,提升代码执行效率,解决跨芯片通信瓶颈。

但这并不算绕开CUDA,因为PTX代码仍然需要CUDA的编译、运行和管理机制来执行。

2nd

DeepSeek仅用600万美元完成训练?

既对又不对!

数字是正确的,而且真实的数字比这个还少,只有557.6万美元。

但是我们需要理性的看待这个数字。

首先说这个数据哪里来的,它来源于DeepSeek V3的技术报告。(https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf)

在报告中明确指出,DeepSeek-V3 的完整训练(含预训练、上下文扩展和后训练)仅需278.8万H800GPU小时,总成本约 557.6 万美元。(按2美元/H800GPU小时计算)

而单看预训练,每训练1万亿个Tokens,需消耗18万H800GPU小时,折合36万美元。

玩过大模型训练的都明白,这个花费确实太低了,比如Meta Llama3 405B的训练成本约3930万H100 GPU小时,是DeepSeek的14倍,而后者的671B的参数量更大。

(花血本砸钱的6小虎和巨头们肯定哭晕在厕所,迎接他们的将是投资人的“拷打”

但是,需要特别说明的是:大模型训练成本≠大模型开发成本。

557.6万美元,这仅仅是训练消耗的GPU算力成本,不包括整体软硬件投入、数据采集与处理、软件和系统开发、人力等等综合成本。

那么具体多少钱?官方没有披露,我们不妨问问DeepSeek自己,看它怎么说↓

semianalysis.com也给出了DeepSeek的AI TCO分析,这张表很有参考价值,当然,这张表也只是按照自己囤卡来计算的GPU服务总成本+集群运营成本

光这部分的成本算下来就超过了25亿美元。

所以,一开始,大家被600万美元的模型成本给敲懵了,甚至开始恐慌,GPU被做空。

但细细推敲下来,600万只是冰山一角,所以你看,这几天N家的股票开始慢慢回调了。

U1S1,557.6万美元的净算力成本,已经足够震撼了。

DeepSeek依靠创新的算法和架构做到了这一点,用更低的成本来训练和推理模型。

这也给广大创业公司打来了一扇窗,大家不再需要汗牛充栋囤卡堆算力,只要算法好,完全可以借鸡下蛋,租用GPU机时来搞定模型。

同时,也给广大AI创业公司关上了一扇门,跟投资人要钱买铲子、囤算力没那么容易了。

更深远的影响还在后面,比如低算力需求,可以让不怎么强的国产算力卡真正走上台面,既然大家不需要卷算力,确实可以卷卷自足可控了。

以及,我们可以考虑在自己笔记本上,运行一个性能相当不错的模型啦。


3rd

美国5大巨头全部接入DeepSeek?


这确实是真的,英伟达、微软、英特尔、AMD、AWS五大巨头确实先后宣布上架或者集成了DeepSeek。

英伟达,DeepSeek-R1正式登陆NVIDIA NIM;

亚马逊,DeepSeek-R1在Amazon Bedrock和SageMaker AI上线;

微软,DeepSeek-R1在云服务Azure上部署;

英特尔公布,DeepSeek目前能够在英特尔产品上运行;

AMD,DeepSeek-V3集成到Instinct MI300X GPU上。


这事儿确实“振奋人心”,但这件事,并不是像某些媒体说的那样,“老外被DeepSeek打服了,集体认怂”。

只能说老外蹭起流量来比我们还猛呀,大家只是觉得DeepSeek还是个不错的模型,有资格跟我在一个桌吃饭了。

而且这种所谓上架也不是第一次,举个例子,英伟达NVIDIA NIM其实上架了大量开源模型,比如Llama系列,StableDiffusion系列。

还包括阿里系的qwen系列,百度的飞桨OCR,以及零一万物和百川智能的模型。

所以,此番上架个DeepSeek也没啥稀奇的,既然卖铲子,所有的矿主和矿工都是我的生态,只有其他卖铲子的才是我的敌人。(相信英特尔和AMD也是这个思路)。

再看AWS和Azure,作为“云化铲子”,他们早就看到了云化算力、托管式模型服务是云计算的下一个增长点,此刻下场也理所当然,毫不意外。

当然,他们的套路也不是给了DeepSeek专宠,而是一只羊也是赶,一群羊也是赶。

比如AWS的Bedrock,其实已经网罗了170多个形形色色的模型,还差你这一个么?


不过,AWS还是给了DeepSeek足够的面子:一个独立的Provider分类。

不像很多模型,只能挤在HuggingFace大目录下。

但也仅限于这点小面子,因为DeepSeek在Bedrock上的部署模式还是基于Marketplace自助式,而并非像AWS亲儿子Nova和干儿子Claude那样,是全托管Serverless模式。

还有一点很有意思,跟国外巨头相比,可能因为春节假期原因,国内巨头铲子商们蹭热度明显慢了半拍,虽迟但到,赶在今天开工前,他们也都齐刷刷的上架了DeepSeek。

嘿嘿,嘿嘿这个节奏,很像去年大家集体卷帕鲁,年中集体卷黑神话一样呀。

不管怎么说,这波流量让大家都赚到了。


4th

DeepSeek遭受攻击,国内“复仇者联盟”集体救场?

DeepSeek被攻击时真的,这个提示目前还挂在官方注册页面。


人红是非多,何况是红遍全球,遭人嫉妒被攻击并不奇怪。

但是令人啼笑皆非的是接下来的剧情,相信类似的文字大家过年期间在某些文章或者短视频里都刷到过——


这鬼扯的剧情还真有人相信了,我真无了个大语。

我就不解释了,能信这条的,你怎么跟他解释没有用



2023年春节,GPT让很多圈里人,开始重新认识AI的价值,2025年春节,DeepSeek彻底破圈,让更多普通人,也认识到了AI的价值。

你能想象在一个偏远的渔村小岛上,你的初中同学会跟你聊DeepSeek吗?

我这几天也小试了一下DeepSeek,总体感觉还可以,尤其作为“嘴替”,它输出的内容不“八股”,更像个人,你会被某些回答惊艳到。

但同样的,幻觉问题还是很多,比如仍然答不对“9.9和9.11哪个大”,比如联网搜索后,对多个搜索结果的归纳和提取不够好。

幻觉多可能是因为训练语料库不够的原因,而被大家津津乐道的“嘴替/更像人”,我觉得恰恰可能是DeepSeek对输出内容安全的力度不够,尚未遭受“社会毒打”。

另外,今天开工估计有更多的人涌向了DeepSeek,这种人肉DDoS充分考验DeepSeek的资源量和推理架构,反正整个下午,我打开DeepSeek,都是这样的。

不过,不管是昙花一现还是变身巨头,DeepSeek的意义都是深远的,其核心价值是走了一条与各大巨头、AI独角兽都不一样的道路,而且还走通了。

我年前还说:创业公司再难出巨头。现在这句话可以暂时收回了。

也许,在中国正有一批DeepSeek们,他们就像哪吒,打破所有偏见,挑战各大巨头,只因“我命由我不由天”。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek CUDA AI模型 训练成本 科技巨头
相关文章