新王128G GB10比128G 5090更适合魔改大模型推理

原创算力百科 2025-03-28 07:24 江苏

先说现状基本前提： 1.所有过长AI芯片厂商活的很艰难，AI芯片干的太好，老美制裁，干的不好市场上卖

先说现状基本前提：

1.所有国产AI芯片厂商活的很艰难，AI芯片干的太好，老美制裁，干的不好市场上卖不出去，国产AI芯片厂商很憋屈，夹缝中求生！

2.目前头部模型参数与智商成近似正比，AI应用越来越实用，AI推理市场会远大于AI训练市场

3.目前国产AI芯针对的应用场景主要是AI推理场景，大多数应用情况不好!

GB10 英伟达第一颗AISOC尝试，必将载入史册，主打AI推理，国产厂商肯定会魔改，应用在数据中心市场，做AI推理，打压的AI市场，抢占国产AI芯片市场份额。

当英伟达的GB10 Grace Blackwell超级芯片横空出世，全球AI算力的天平再次剧烈倾斜。

这颗融合了CPU与GPU一体化设计的“AI核弹”，不仅是英伟达技术霸权的象征，更是一记重锤，砸向了仍在追赶中的国产AI芯片产业。

在“算力即国力”的今天，这场技术博弈已不仅是商业竞争，更是一场关乎未来话语权的生死战！

GB10 首先是他合规的，会大量进入中国市场（也许明天不合规了），第二他的价格仅仅相等于4090芯片的价格10k左右，非常香，主要是强的没边。目标是AIPC，低功耗，性能强，魔改的最佳选择；

GB10是一款AISoC芯片，基于Grace架构 CPU和Blackwell GPU的组合，Grace GPU部分基于Arm架构，具有20个高效节能核心，Blackwell GPU部分则支持高达1PFlops(每秒一千万亿次)的FP4 AI性能，可运行2000亿参数的大模型。

GB10还采用了NVLink-C2C芯片间互联技术，将GPU与CPU之间的通信效率提升到新的高度，为本地AI模型的开发、推理和测试提供强大的支持

单芯提供20core ARM+1000T FP4（500T fp8），提供128GB lp5x统一内存，可当显存用，可怕的是他自带C2C ，英伟达牛逼的nvlink技术打底的C2C还是很顶的；

目前弯弯的产业链都在盯着GB10 的芯片资源，量产之后，将接替4090，成为推理新王。

有人说128GB 5090岂不是更香，虽然128GB GDDR7 比128GB lp5x 性能更强，带宽也更强，但是GB10 支持C2C，5090不支持C2C；

GB10属于官配128GB lp5x（旗舰手机里都用，性能和功耗平衡的产品），5090 128G 目前还在等4G GDDR7粒子，至少需要26年中才能量产，25年只能上市96GB 5090；

这意味着：

GB10 魔改组网成训练服务器单机16卡，提供8P FP8 的训练算力，成本只需要16w，再增加一些20w成本提供8P FP8训练算力，支持nvlink，做0到1的大模型训练肯定不行，但是做个学生模型或者微调，还是绰绰有余的，重要的是很香；

面对训练市场，当然不是万卡千卡集群，说的是千卡以下的训练市场：

30w G10 16卡服务器，8P FP8,4P FP16算力，2T lp5X显存、CUDA生态，超过910B、A100、P800、S5000、C500、X590等一众，Baclkwell狠起来连自己都打；

面对推理市场，8卡或者16卡，提供1T或者2T显存，做大模型推理

16~25w GB10 8卡服务器，提供4P FP8，2P FP16算力，1T lp5X显存，做大模型推理，私有化。

建C类算力中心，用GB10服务器，也许成为主流。。。

面对GB10来势汹汹，国产芯肯定任重道远，脚踏实地，希望有能力的单位多用国产芯片，希望对国产芯说几句话。

1、fp8 fp4并非多尖端，多难实现，给点时间就行；

2、生态是个大问题，假如真能全行业统一指令集，那定是不错，但那之前谁都是想去统一其他所有人而不是被人统一，所以难；

3、其实大模型收敛变成主流模型架构是利于追赶者的，相比以前那些更加繁多的算子类型，大模型的算子类型还少了不少的，也许某天突然就像ds一样爆出某个模型优化到世界最佳性能功耗比；

4，当前的落后虽然确实是全面落后，但最难攻克的主要还是工艺，一旦工艺突破，其他赶上会更快，大家可以关注一下新凯来；

总之，虽然前路是艰难，但胜利也是必然，因为我们只有这条路走...

打算用5章，把算力中心的事说清楚，抹平行业认知差，服务希望深耕算力和大模型产业链的从业者。《算力圣经，第一章、算力中心从入门到精通【概述篇】》

欢迎加入DS前瞻圈，一起领略Deepseek引领AI文艺复兴！！

Fish AI Reader