算力百科 02月15日
DeepSeek MoE架构被HBM卡脖子,倒逼的创新神技
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Deepseek MoE架构极大缓解AI芯片对HBM的需求,HBM无法量产,降低其需求成关键。文中还探讨了多种显存方案、国产AI芯情况及未来走向等。

💻Deepseek MoE架构以智能路由机制将带宽需求压缩至1/32

💰H200在显存和性价比方面的优势,以及A100的局限性

🚀国内多家AI芯片企业适配DeepSeek模型服务

📈未来国内AI芯片将分化为多种算力类型

原创 算力百科 2025-02-08 06:03 上海

Deepseek MoE架构极大缓解了AI芯片对HBM的需求,因为HBM无法量产,所以怎么降低对HBM的需求就成为了助力中国AI普惠的关键,缓解卡脖子问题。

卡脖子的HBM至今无法国产化


     AI算力设备两大竞争线条,明线竞争AI芯片,暗线竞争HBM,任何一个高端AI卡上一定有这两大组件,很遗憾HBM至今无法量产,预计今年开始突破上量。

    HBM被卡脖子,但是AI芯片已经取得突破,怎么降低HBM需求就成为了“刚需”,DDR方案应运而生。HBM可以理解为DDR的加强版,HBM牺牲了容量来满足带宽。

DeepSeek的MoE创新极大缓解HBM需求


    Deepseek MoE架构极大缓解了AI芯片对HBM的需求,因为HBM无法量产,所以怎么降低对HBM的需求就成为了助力中国AI普惠的关键,缓解卡脖子问题。

    传统Dense模型的推理速度与HBM带宽线性绑定,而Deepseek MoE架构以“256专家池+8激活专家”的智能路由机制,将带宽需求暴力压缩至1/32!这意味着什么?(将带宽的需求降低为原来的1/32(256个专家模型Expert,每次激活8个),而将容量的需求提升了一个数量级)同样的算力任务,MoE仅需传统模型3%的带宽即可完成! 与此同时,模型容量需求却激增一个数量级——这一颠覆性设计彻底重构了AI芯片的战场规则!


    以目前租赁市场来看,H200的租金为15K USD/台/月,而H100的租金在10K USD/台/月,运行Deepseekv3/R1模型最少需要两台H100或者一台H200,原因就在于H200的显存是141GB*8 hbm3e,而H100的显存是80GB*8 hbm3。而原来的A100也是80GB显存hbm2e,但是A100不支持FP8格式数据,需要做转义支持,转义支持,意味着效率的降低,而且降低会比较大, 综合来看对于DS架构,H200成了最具性价比的选择。

DS普及对国产AI芯的推动意义



    反观国内的算力芯片,大部分在售产品是64GB HBM显存,至少需要两台才能支持运行,性价比跟N卡没法比。    

    而如果采用DDR或者LPDDR等显存方案,以LPDDR5X为例,目前接口速率可以达到8533Mbps~9600Mbps,512bit的配置,显存带宽预计546~600GB/s,而容量可以达到256GB,理论上可以使用4卡来达到15token/s的推理速度以及8卡打到30token/s的速度。极具性价比。

    目前12家国产AI芯片企业(华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、太初元碁、云天励飞、燧原科技、昆仑芯、瀚博、算能)相继宣布适配或上架DeepSeek模型服务。 

    目前DS原生训练和推理用的是FP32、BF16和FP8,三种格式,也是DS团队探索出来效率最高的计算方式,但是很遗憾,目前国内有200多家AI芯片公司,原生支持FP8计算格式的AI芯片只有3款,同时支持三种计算格式的国产AI芯片公司只有1款。

    李彦宏:大公司代表落后生产力 千万不要看大公司在干嘛,一点也没错。支持FP8的都是创业AI芯片公司,国内大厂没有一家原生支持FP8的,这才是可悲的地方。

     DS后续如果能持续发展迭代V4,指导所有的国产AI芯片公司重构自己的AI芯片计算格式,FP32、BF16、FP8、FP4方向走。


未来国产化芯的走向


        DS开启了一个变革的时代,跨界是主流,让国人提高了大模型认知,第一次提高认识是GPT朋友圈火了,这次提高大模型认知是DS火了。一时间,搞AI的,搞IT的,搞科技的,搞金融的,甚至搞国际政治的,都要说下。不过,还是要明确“推理”?推理模型?模型推理?推理能力?推理成本?

        下一段国内AI芯片会分化,通用训练算力,通用推理算力,渲染算力和垂直算力。


       通用训练算力基本上会四家大公司:华为、寒武纪、海光和昆仑芯,他们的目标是建设万卡、十万卡乃至百万卡的A类智算中心,用于参与国际领先的教师大模型竞争。他们会继续以HBM显存为主。

        通用推理算力基本上都是AI芯片创业公司,会根据DS架构适配为主和DS架构深度耦合,DS加速了推理算力的DCN化,也就是说推理芯片在DS之下提供统一的openAPI,应用程序可以自由选择不同品牌的API,而且切换成本极低,类似CDN一样。他会以DDR显存为主。

         渲染算力,比如说做CPU的厂家、瀚博、芯动、摩尔等等

         垂直算力,比如特别行业,转码卡等等,不再展开。


欢迎一起参与DeepSeek引领的AI文艺复兴探讨

       

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Deepseek MoE AI芯片 HBM 显存方案
相关文章