原创 算力百科 J 2025-03-04 06:01 贵州
现在DeepSeek经过两个月的发酵,终于有理性的看待这件事情,25年过去2个月在建设的智算中心几乎都是n卡的,国产的基本都停滞状态。
DeepSeek加速国产智算中心淘汰,重建建议GPGPU,现阶段个人认为,不适合TPU/NPU建设智算产业类智算中心。
先说个事实:现在DeepSeek经过两个月的发酵,终于有理性的看待这件事情,25年过去2个月在建设的智算中心几乎都是n卡的,国产的基本都停滞状态。
如果大家认可DeepSeek给产业带来的机会,那么就要认同DeepSeek发展迭代的技术路线,Fp8和fp4是deepseek走的核心技术路线,大家可以回去问问自家智算中心的技术人员,自家的算力中心与deepseek的技术需求是否匹配,就会发现,目前建设的绝大多少智算中心不符合deepseek引领的大模型浪潮,那就要加速淘汰已经建设的算力,在这个大背景下,重新建设国产智算中心势在必行。
智算中心ABC分类
1)用于训练原创教师模型,简称A类(建设加快),这类算力中心定位0到1的原创教师模型训练。需要使用万卡,十万卡,乃至百万卡的训练算力,这也是星际之门的主要用途,或者训练场项目的主要用途,这类不计成本投入,要的是先进性。
这类算力中心需要持续投资建设N卡H200 B200 甚至NVL72类似的设备,长期规划投资1000个小目标以上,并且持续深耕,投入型。
2)用于蒸馏1到N的学生模型,简称B类(已经饱和),这类算力中心,主要是蒸馏新的应用模型或者行业模型,按需使用,这类算力中心主要是A/H为主,主要考虑性价比。
这类算力中心基本上就利旧目前的A和H系列设备或者某些厂商标杆示范项目,几十台到几百台为主,或者采购一部分高端的国产AI卡做个尝试。
3)用于推理的算力中心,简称C类(25年爆发增长,淘汰重建主力),主要用于部署教师和学生模型,用于推理业务,主要考虑性价比,特别是互联网公司和创业公司,对性价比敏感。
这类的算力中心基本上就是利旧原有设备或者经营不善的B类。比如3090、4090或者910A/ B和其他国产卡,如果要新增一定是选择48GB 4090或者RTX50系列,定位推理算力,一定要符合技术主流,并且可以持续打价格战,抢占市场份额。
智算中心,重建推荐GPU路线
首先要明确所有的AI卡都可以跑deepseek,这是确定的答案。举个例子,从北京到上海有5种交通方式都可以到是确定的,走路、自行车、汽车、高铁和飞机。但是很显然,有一点常识的人都知道有一些方式是不合适的。deepseek运行也一样,能支持deepseek运行,但合不合适是另外一个开放性话题。
我们假设智算中心跟着deepseek技术走是正确的,也有人说deepseek只是运气好,很快就被超越。咱暂且认为deepseek的技术路线就是未来3年的主流技术路线,咱不能一边部署deepseek,一边不认可它的技术路线呀,那岂不是人格分裂。
智算中心重建就涉及到技术选型。3年内,我个人认为GPU(GPGPU)和ASIC((TPU/NPU/XPU属于这一类)两条路线之间,GPGPU更符合国情。
GPU类似客机,ASIC类似战斗机,客机适合多用途,拉人,拉货都可以;战斗机适合专业任务效率高。
GPU适合做生态,做产业,普适性更好;AISC适合专用任务,比如互联网业务,自动驾驶业务等垂直专业领域。
全球最大的算力中心就是比特大陆建设的ASIC算力中心,十几年来非常成功,wk的技术演进就是CPU→GPU→ASIC,目前已经演进到AISC阶段,演进的前提就是计算架构固化。
目前全球大模型架构并没有固化,而且在加速创新,这个阶段更适合普适性更好的GPU而不是ASIC。当然也许未来ASIC真的会碾压GPU。
当前的大模型架构,在deepseek这条鲶鱼作用下,全球的大模型架构加速创新,架构固化至少需要3年时间,也许更久,这个时候投资建设ASIC来说,就是炼狱时代,主流模型每发布一代架构,ASIC芯片厂商就逼迫投入巨大的研发资源去做适配,费时,费力。更可怕的是上一代刚适配完,下一代又发布了,ASIC芯片厂商被迫持续投入,但是产出极低,陷入技术适配陷阱,最终有可能公司资金链断裂被拖垮。
我们预测R1和R2的架构变动会相对比较大,R3以后架构趋于稳定,这里有2个技术佐证:
1.通过openinfra的的解读我们发现deepseek已经把hopper架构的潜力挖掘了90%以上的利用率,如果想在进一步提升推理效率,FP4势在必行,预计架构变化依然很大。
2.通过A100和H100,以及H100和B100的架构分析,可以基本发现,H100和B100 架构趋于稳定迭代,说明在目前的半导体材料的现状下,要想持续创新,约束还是比较明显的。
基于以上两个技术佐证和预测,R2和R1变化类似A100和H100,R2和R3变化类似H100和B100的关系。
智算中心重建需认清5个基本事实
1.智算需求会越来越旺盛是真的,但仅限于符合主流技术趋势的算力,不适合的算力一点也卖不出去。不适合的算力设备建议直接淘汰,因为电费都交不起。不要因为之前投资测算是按照5年甚至8年测算,就认为算力卡真的可以服务5年甚至8年,实际上也许2年就已经不符合技术主流啦(过时啦)。
2.deepseek的成功,让智算中心成为下一代政务云基础设施的概率越来越大,可以统筹政用的智算中心和政务云,毕竟两朵云,一个以CPU为计算核心,一个以GPU为计算核心,但是要准确的认识两朵云的不同,以及建设目的不同。
3.智算产业并不适合每一个城市落地,智算产业落地的基础是人才,一二线城市更容易落地,其他城市所谓的智算产业落地,仅仅是空想社会主义,落地的可行性极小。并不是说某某大公司挂个牌、落个子公司、落个产线、落个合资公司就代表着智算产业可以落地了。
4.一个赚钱的算力业务怎么可能送个你?!目前社会融资利息那么低,如果一个赚钱的业务,没有风险,为啥落到你的头上?!难道真的是特斯拉落地上海,技术出众,就缺钱扩大生产?!
要清晰地认识到:
第一波运作建设算力中心的主力是AI芯片公司的从业者;
第二波运作算力中心的主力是互联网、ICT和集成商;
第三波(现在)运作算力中心的主力已经变成产业资源的从业者。
5.赌徒心态不可取。数据和算法都开源了,就剩下算力可以售卖了,这是目前产业链三要素的现状,这只是开始,不是结局。基于这个现状,除了A类目前建设目标明确,B和C目前的建设目标都已经不明确,目前强主体兜底也不太可行,割大A韭菜模式容易被盯。等等党永远不吃亏,先行先试大概率成为垫脚石,保持谨慎乐观才是立于不败之地。
还是那个建议:
国产AI芯片进步神速,我们只是需要更多时间,吃皇粮的就应该扶持产业链,建议多多选择国产AI芯片。 市场化的,可以自由根据经济和市场环境需求,选择AI芯片。
we have a dream,如果大家不爱,请不要唱衰国产AI芯!
更多咨询,欢迎加入Deepseek引领的AI时代文艺复兴!