原创 算力百科 2025-03-28 07:24 江苏
先说现状基本前提: 1.所有过长AI芯片厂商活的很艰难,AI芯片干的太好,老美制裁,干的不好市场上卖
先说现状基本前提:
1.所有国产AI芯片厂商活的很艰难,AI芯片干的太好,老美制裁,干的不好市场上卖不出去,国产AI芯片厂商很憋屈,夹缝中求生!
2.目前头部模型参数与智商成近似正比,AI应用越来越实用,AI推理市场会远大于AI训练市场
3.目前国产AI芯针对的应用场景主要是AI推理场景,大多数应用情况不好!
GB10 英伟达第一颗AISOC尝试,必将载入史册,主打AI推理,国产厂商肯定会魔改,应用在数据中心市场,做AI推理,打压的AI市场,抢占国产AI芯片市场份额。
当英伟达的GB10 Grace Blackwell超级芯片横空出世,全球AI算力的天平再次剧烈倾斜。
这颗融合了CPU与GPU一体化设计的“AI核弹”,不仅是英伟达技术霸权的象征,更是一记重锤,砸向了仍在追赶中的国产AI芯片产业。
在“算力即国力”的今天,这场技术博弈已不仅是商业竞争,更是一场关乎未来话语权的生死战!
GB10 首先是他合规的,会大量进入中国市场(也许明天不合规了),第二他的价格仅仅相等于4090芯片的价格10k左右,非常香,主要是强的没边。目标是AIPC,低功耗,性能强,魔改的最佳选择;
GB10是一款AISoC芯片,基于Grace架构 CPU和Blackwell GPU的组合,Grace GPU部分基于Arm架构,具有20个高效节能核心,Blackwell GPU部分则支持高达1PFlops(每秒一千万亿次)的FP4 AI性能,可运行2000亿参数的大模型。
GB10还采用了NVLink-C2C芯片间互联技术,将GPU与CPU之间的通信效率提升到新的高度,为本地AI模型的开发、推理和测试提供强大的支持
单芯提供20core ARM+1000T FP4(500T fp8),提供128GB lp5x统一内存,可当显存用,可怕的是他自带C2C ,英伟达牛逼的nvlink技术打底的C2C还是很顶的;
目前弯弯的产业链都在盯着GB10 的芯片资源,量产之后,将接替4090,成为推理新王。
有人说128GB 5090岂不是更香,虽然128GB GDDR7 比128GB lp5x 性能更强,带宽也更强,但是GB10 支持C2C,5090不支持C2C;
GB10属于官配128GB lp5x(旗舰手机里都用,性能和功耗平衡的产品),5090 128G 目前还在等4G GDDR7粒子,至少需要26年中才能量产,25年只能上市96GB 5090;
这意味着:
GB10 魔改组网成训练服务器单机16卡,提供8P FP8 的训练算力,成本只需要16w,再增加一些20w成本提供8P FP8训练算力,支持nvlink,做0到1的大模型训练肯定不行,但是做个学生模型或者微调,还是绰绰有余的,重要的是很香;
面对训练市场,当然不是万卡千卡集群,说的是千卡以下的训练市场:
30w G10 16卡服务器,8P FP8,4P FP16算力,2T lp5X显存、CUDA生态,超过910B、A100、P800、S5000、C500、X590等一众,Baclkwell狠起来连自己都打;
面对推理市场,8卡或者16卡,提供1T或者2T显存,做大模型推理
16~25w GB10 8卡服务器,提供4P FP8,2P FP16算力,1T lp5X显存,做大模型推理,私有化。
建C类算力中心,用GB10服务器,也许成为主流。。。
面对GB10来势汹汹,国产芯肯定任重道远,脚踏实地,希望有能力的单位多用国产芯片,希望对国产芯说几句话。
1、fp8 fp4并非多尖端,多难实现,给点时间就行;
2、生态是个大问题,假如真能全行业统一指令集,那定是不错,但那之前谁都是想去统一其他所有人而不是被人统一,所以难;
3、其实大模型收敛变成主流模型架构是利于追赶者的,相比以前那些更加繁多的算子类型,大模型的算子类型还少了不少的,也许某天突然就像ds一样爆出某个模型优化到世界最佳性能功耗比;
4,当前的落后虽然确实是全面落后,但最难攻克的主要还是工艺,一旦工艺突破,其他赶上会更快,大家可以关注一下新凯来;
总之,虽然前路是艰难,但胜利也是必然,因为我们只有这条路走...