DeepSeek让智算中心分A/B/C型重建

原创算力百科 2025-02-08 06:03 上海

DeepSeek使智算中心定位更清晰，DeepSeek两大神技，训练时候用的蒸馏，推理时候用的强化学习，这两个核心技术都影响智算中心建设方向。

DeepSeek两大神技，训练时候用的蒸馏，推理时候用的强化学习，这两个核心技术都影响智算中心建设方向。

蒸馏技术：教会徒弟饿死师傅的AI实践

蒸馏的过程归纳总结：提问—甄别（提问者）—搜集（资料）—分析（筛选）—归纳（精炼）—（调用既定逻辑线程库）推理—回答（结论）

蒸馏能有好的模型的前提是有一个好的教师模型，原创的教师模型训练是0到1，需要非常大的算力，也就是目前欧美在建设的星际之门的意义，大算力是有意义的，只是不需要那么多个，全球几个超大算力中心足矣，未来全球的原创教师模型不会超过5个，需要持续迭代，保持6~18个月领先不被超越。

一旦从0到1的原创教师模型突破了可以被公开访问，很快就回被用于蒸馏获得新的模型，有人说可以反蒸馏么？目前已经有团队在研究这个领域，是否能够反蒸馏成功，还不好说，但至少这是一个研究方向。

这类似老师教学生，老师教学生会有三种结果：

1）青出于蓝而胜于蓝

2）学生不如老师

3）欺师灭祖把老师气够呛

Deepseek对全世界的贡献就是把openai 的GPT4给开源实现了，openai引以为傲的思维链技术被Deepseek独立探索出来并且开源，这让OpenAI一下慌神了，因为他们想靠着这个持续领先竞争对手，未来大模型竞争的本质是谁能搞出牛逼的0到1的原创教师模型并持续保持领先（或者反蒸馏成功）。

Deepseek另一个贡献就是公开了自己的所有训练思路和开源实现，让大家可以复制n个Deepseek，这是全人类的财富

智算中心定位划分

（定位很重要，请领导看仔细）

基于蒸馏+增强的的DS训推过程，未来的智算中心将分三类：

1）用于训练原创教师模型,简称A类，这类算力中心定位0到1的原创教师模型训练。需要使用万卡，十万卡，乃至百万卡的训练算力，这也是星际之门的主要用途，或者训练场项目的主要用途，这类不计成本投入，要的是先进性。

这类算力中心需要持续投资建设N卡H200 B200 甚至NVL72类似的设备，长期规划投资1000个小目标以上，并且持续深耕，投入型。

2）用于蒸馏1到N的学生模型,简称B类，这类算力中心，主要是蒸馏新的应用模型或者行业模型，按需使用，这类算力中心主要是A/H为主，主要考虑性价比。

这类算力中心基本上就利旧目前的A和H系列设备即可，设备roce即可，IB更好但是性价比不好，几十台到几百台为主，或者采购一部分高端的国产AI卡做个尝试，做尝试就有失败，做提前做好预期管理。

3）用于推理的算力中心,简称C类，主要用于部署教师和学生模型，用于推理业务，主要考虑性价比，特别是互联网公司和创业公司，对性价比敏感。

这类的算力中心基本上就是利旧原有设备比如3090、4090或者910A/ B和其他国产卡，如果要新增一定是选择48GB 4090或者RTX50系列，定位推理算力，可以持续打价格战。

总结一句话，N卡算力没有卖不出去，只有价格不合适。类似卖房子，没有卖不出去的房子，只有价格不合适，如果房子价格远低于市场价，房产中介一定会采购。如果N卡价格足够低，全国各地的算商一定会兜底。如果你的N卡算力没有算商兜底，请反思一下自己定价逻辑有没有符合市场。

智算中心25年运营风险

建设智算中心主要建设模式，如果是财政资金、平台资金（专项债、贷款）、社会金融资金，大概主要是三类，除了22年之前建设的是没有算力包销合同，23年开始就有算力包销合同的约束了。

这里把算力包销合同主题分强、弱两类来分析

强主体：各个参与方资质和信誉主题都很强。央国企、A股上市公司承建、金融机构垫资、互联网大厂包销，这种主要是H系列为主，这类风险相对可控，互联网大厂可以用来做B类，最不济可以用作C类。

待实际测试的问题：48GB 4090 和H100 推理DS ，TCO性价比哪个高，目前还没有定论，算力百科已经联合2家单位在优化测试，后续有结果会推送。这个问题涉及到互联网大厂B类和C类定位。

这类强主体合同约束比较规范而且各方信誉相对较好，除非特殊事件，一般情况下不会毁约。

弱主体：相对于强主体，出资方、承建方、包销方相对来说资质弱一些，比如包销方是一些AI大模型创业公司、创新型实验室或者，这类24年下半年已经开始毁约，风险非常高，毕竟H系列租金每个月6~8w/台，相当于一个核心工程师的工资了。这类的算力中心风险非常大，需要注意，这类算力使用方，未来多转向C类算力租赁，B类使用很少啦，而市场上更多的是弱主体。

针对弱主体，如果出现不良资产，市场上已经出现”资产盘活“公司，类似烂尾楼盘活一样，对资产进行评估，谈判价格再盘活。

DS给国产算力中心吃的是春药，后劲很大

DS出现是给国产算力中心的领导解套，各地的算力中心运营负责人年后第一件事就是让DS在自家算力中心上线然后发公众号，让领导在朋友圈点赞，表示已阅。

12家国产AI芯片企业（华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、太初元碁、云天励飞、燧原科技、昆仑芯、瀚博、算能）相继宣布适配或上架DeepSeek模型服务。

目前DS原生训练和推理用的是FP32、BF16和FP8，三种格式，也是DS团队探索出来效率最高的计算方式，但是很遗憾，目前国内有200多家AI芯片公司，原生支持FP8计算格式的AI芯片只有3款，同时支持三种计算格式的国产AI芯片公司只有1款。

李彦宏:大公司代表落后生产力千万不要看大公司在干嘛，一点也没错。支持FP8的都是创业AI芯片公司，国内大厂没有一家原生支持FP8的，这才是可悲的地方。

DS后续如果能持续发展迭代V4，指导所有的国产AI芯片公司重构自己的AI芯片计算格式，FP32、BF16、FP8、FP4方向走。

25年智算中心建设建议

A类智算中心，一定要选用高密度机柜，至少单机柜45kw~200kw之间，全夜冷，不计成本，主打先进性，就是速度快，定位：飞机，算力价格高，就是快。

B类智算中心，这类就看是不是有强主体包销，如果有，5年包销合同，建设，如果没有，建议展缓。目前东数西算的八大节点+新疆+黑龙江，基本上都是此类，已经严重饱和，特别是有一些弱主体马上毁约，空出很多算力，可以低成本捡漏。定位：高铁，价格相对较高，也够快。

C类智算中心，一定要选择性价比，风冷且单机柜8~24kw，RTX系列或者高性价比的国产推理卡，目标就是当别人打价格战的时候，你能打把价格打下去，而且还能生存。定位：绿皮车，能拉，便宜，皮实。

如果不是非建设不可，我建议所有的算力中心都等等，除非手里有强主体的闭口协议，等下半年会清晰明朗，等等党不会吃亏。

Deepseek引领的AI时代文艺复兴，欢迎加入DS前瞻圈！！

DeepSeek让多地智算中心停建

震惊！OpenAI O3-mini史诗级抄袭DeepSeek R1！硅谷巨头竟靠"中文思维"掩饰剽窃

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签