原创 算力百科 2025-02-08 06:03 上海
DeepSeek使智算中心定位更清晰,DeepSeek两大神技,训练时候用的蒸馏,推理时候用的强化学习,这两个核心技术都影响智算中心建设方向。
DeepSeek两大神技,训练时候用的蒸馏,推理时候用的强化学习,这两个核心技术都影响智算中心建设方向。
蒸馏技术:教会徒弟饿死师傅的AI实践
蒸馏的过程归纳总结:提问—甄别(提问者)—搜集(资料)—分析(筛选)—归纳(精炼)—(调用既定逻辑线程库)推理—回答(结论)
蒸馏能有好的模型的前提是有一个好的教师模型,原创的教师模型训练是0到1,需要非常大的算力,也就是目前欧美在建设的星际之门的意义,大算力是有意义的,只是不需要那么多个,全球几个超大算力中心足矣,未来全球的原创教师模型不会超过5个,需要持续迭代,保持6~18个月领先不被超越。
一旦从0到1的原创教师模型突破了可以被公开访问,很快就回被用于蒸馏获得新的模型,有人说可以反蒸馏么?目前已经有团队在研究这个领域,是否能够反蒸馏成功,还不好说,但至少这是一个研究方向。
这类似老师教学生,老师教学生会有三种结果:
1)青出于蓝而胜于蓝
2)学生不如老师
3)欺师灭祖把老师气够呛
Deepseek对全世界的贡献就是把openai 的GPT4给开源实现了,openai引以为傲的思维链技术被Deepseek独立探索出来并且开源,这让OpenAI一下慌神了,因为他们想靠着这个持续领先竞争对手,未来大模型竞争的本质是谁能搞出牛逼的0到1的原创教师模型并持续保持领先(或者反蒸馏成功)。
Deepseek另一个贡献就是公开了自己的所有训练思路和开源实现,让大家可以复制n个Deepseek,这是全人类的财富
智算中心定位划分
(定位很重要,请领导看仔细)
基于蒸馏+增强的的DS训推过程,未来的智算中心将分三类:
1)用于训练原创教师模型,简称A类,这类算力中心定位0到1的原创教师模型训练。需要使用万卡,十万卡,乃至百万卡的训练算力,这也是星际之门的主要用途,或者训练场项目的主要用途,这类不计成本投入,要的是先进性。
这类算力中心需要持续投资建设N卡H200 B200 甚至NVL72类似的设备,长期规划投资1000个小目标以上,并且持续深耕,投入型。
2)用于蒸馏1到N的学生模型,简称B类,这类算力中心,主要是蒸馏新的应用模型或者行业模型,按需使用,这类算力中心主要是A/H为主,主要考虑性价比。
这类算力中心基本上就利旧目前的A和H系列设备即可,设备roce即可,IB更好但是性价比不好,几十台到几百台为主,或者采购一部分高端的国产AI卡做个尝试,做尝试就有失败,做提前做好预期管理。
3)用于推理的算力中心,简称C类,主要用于部署教师和学生模型,用于推理业务,主要考虑性价比,特别是互联网公司和创业公司,对性价比敏感。
这类的算力中心基本上就是利旧原有设备比如3090、4090或者910A/ B和其他国产卡,如果要新增一定是选择48GB 4090或者RTX50系列,定位推理算力,可以持续打价格战。
总结一句话,N卡算力没有卖不出去,只有价格不合适。类似卖房子,没有卖不出去的房子,只有价格不合适,如果房子价格远低于市场价,房产中介一定会采购。如果N卡价格足够低,全国各地的算商一定会兜底。如果你的N卡算力没有算商兜底,请反思一下自己定价逻辑有没有符合市场。
智算中心25年运营风险
建设智算中心主要建设模式,如果是财政资金、平台资金(专项债、贷款)、社会金融资金,大概主要是三类,除了22年之前建设的是没有算力包销合同,23年开始就有算力包销合同的约束了。
这里把算力包销合同主题分强、弱两类来分析
强主体:各个参与方资质和信誉主题都很强。央国企、A股上市公司承建、金融机构垫资、互联网大厂包销,这种主要是H系列为主,这类风险相对可控,互联网大厂可以用来做B类,最不济可以用作C类。
待实际测试的问题:48GB 4090 和H100 推理DS ,TCO性价比哪个高,目前还没有定论,算力百科已经联合2家单位在优化测试,后续有结果会推送。这个问题涉及到互联网大厂B类和C类定位。
这类强主体合同约束比较规范而且各方信誉相对较好,除非特殊事件,一般情况下不会毁约。
弱主体:相对于强主体,出资方、承建方、包销方相对来说资质弱一些,比如包销方是一些AI大模型创业公司、创新型实验室或者,这类24年下半年已经开始毁约,风险非常高,毕竟H系列租金每个月6~8w/台,相当于一个核心工程师的工资了。这类的算力中心风险非常大,需要注意,这类算力使用方,未来多转向C类算力租赁,B类使用很少啦,而市场上更多的是弱主体。
针对弱主体,如果出现不良资产,市场上已经出现”资产盘活“公司,类似烂尾楼盘活一样,对资产进行评估,谈判价格再盘活。
DS给国产算力中心吃的是春药,后劲很大
DS出现是给国产算力中心的领导解套,各地的算力中心运营负责人年后第一件事就是让DS在自家算力中心上线然后发公众号,让领导在朋友圈点赞,表示已阅。
12家国产AI芯片企业(华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、太初元碁、云天励飞、燧原科技、昆仑芯、瀚博、算能)相继宣布适配或上架DeepSeek模型服务。
目前DS原生训练和推理用的是FP32、BF16和FP8,三种格式,也是DS团队探索出来效率最高的计算方式,但是很遗憾,目前国内有200多家AI芯片公司,原生支持FP8计算格式的AI芯片只有3款,同时支持三种计算格式的国产AI芯片公司只有1款。
李彦宏:大公司代表落后生产力 千万不要看大公司在干嘛,一点也没错。支持FP8的都是创业AI芯片公司,国内大厂没有一家原生支持FP8的,这才是可悲的地方。
DS后续如果能持续发展迭代V4,指导所有的国产AI芯片公司重构自己的AI芯片计算格式,FP32、BF16、FP8、FP4方向走。
25年智算中心建设建议
A类智算中心,一定要选用高密度机柜,至少单机柜45kw~200kw之间,全夜冷,不计成本,主打先进性,就是速度快,定位:飞机,算力价格高,就是快。
B类智算中心,这类就看是不是有强主体包销,如果有,5年包销合同,建设,如果没有,建议展缓。目前东数西算的八大节点+新疆+黑龙江,基本上都是此类,已经严重饱和,特别是有一些弱主体马上毁约,空出很多算力,可以低成本捡漏。定位:高铁,价格相对较高,也够快。
C类智算中心,一定要选择性价比,风冷且单机柜8~24kw,RTX系列或者高性价比的国产推理卡,目标就是当别人打价格战的时候,你能打把价格打下去,而且还能生存。定位:绿皮车,能拉,便宜,皮实。
如果不是非建设不可,我建议所有的算力中心都等等,除非手里有强主体的闭口协议,等下半年会清晰明朗,等等党不会吃亏。
Deepseek引领的AI时代文艺复兴,欢迎加入DS前瞻圈!!
震惊!OpenAI O3-mini史诗级抄袭DeepSeek R1!硅谷巨头竟靠"中文思维"掩饰剽窃