原创 信息平权 2025-04-20 17:58 上海
来自某神秘网友,说是“菊”外人...
以下文章来自夏core转发的神秘网友,是谁咱也不知道,总之截图了我们群里的消息...
华为发布的昇腾CloudMatrix 384超节点,号称采用UB互联完成了384颗NPU的互联,并号称能够与Nvidia的NVL72比肩。好巧不巧,不久前的三月底,华为还发布了一篇名为UB-Mesh的论文,也描述了一种也被称为超节点的NPU互联结构。
确实也有传言说CloudMatrix的组网就是UB-Mesh,但也有人说不是,但如果不是,他们之间是个什么关系呢?
不难发现,UB-Mesh的硬件全是1U的超薄Chasis,而CloudMatrix的Rack中,怎么看都找不到1U框的结构。而且,如果数数量的话,UB-Mesh论文很明确说每个Rack是64个NPU,但CloudMatrix每个Rack中NPU的数量是384/12 = 32个NPU。对不上,根本对不上(说明不是一代)
此外还有,CloudMatrix在新闻稿中,反复强调了其在DeepSeek的价值。其运行R1的推理,可以做到20TPS下,单卡Decode吞吐1920Tokens/s,而在UB-Mesh的论文中,对于中国大陆这个号称国运级的AI网络Deepseek产品,则完全一字不提,这显得很异常,政治上也非常不正确。那就只有一种可能了,即这篇UB-Mesh的论文,是在去年12月26日之前就已经完成了撰写!!
无论如何,眼下的线索已经可以假定CloudMatrix和UB-Mesh是在描述两种不同的硬件形态了。
在进一步分析这两个事物的关系前,想先引用一下前两天SemiAnalysis关于CloudMatrix的分析。SemiAnalysis的分析师无疑都非常专业,比中国那些为了炒HWJ或者光纤电缆的小作文可强多了。可文章中提到的关于CloudMatrix的两个弱点,却让人觉得他们又有点那么点菜菜。
第一个,文章估算CloudMatrix的总功耗接近500KW,是NVL72 145KW的4倍,并以此认定其能效不如NVL72。毫无疑问,简单看数字是如此。但这对中国真的那么严重吗? 建设核电站似乎比突破EUV光刻机来的轻松很多,你是认真想要把AI赛道的竞争从芯片制造变成核电站+电网的竞争?那基建狂魔嘴角都憋不住笑好吧。
第二个,也是文章中更大的错误,即对光纤的认知,也许是受到黄仁勋在GTC2025上嘲讽光纤的影响,但也许是整个美国科技界普遍性的误解。
光纤数量的计算看上去是足够专业的,从网上公开的信息可以查到,910B具有单向~200Gb的Scale-out能力,及单向~200GB的Scale-up能力(7个200G端口),那么如果910C是2x910B,用400G光模块来算的话,每颗芯片需要7x2x384=5376个400G光模块做Scale-Up,及2x2x384=1536个400G光模块做Scale-out。这与网上发布的5376个光模块的数量是相符的。
但SemiAnalysis与黄仁勋在GTC2025上的观点类似,认为这么多光纤带来了巨大的成本和功耗的代价,但这是真的吗?
冒昧猜测一下:可能CloudMatrix的架构师并没那么在乎光纤的成本,毕竟和Nvidia公司不同,华为这个公司本身就制造光模块,所以光纤在CloudMatrix中是属于一个公司系统内垂直整合或持续联合优化的一部分,甚至还可以是公司的销售或外部合作策略的一部分。
首先让人觉得SemiAnalysis不够专业的事情是关于光纤的速率的描述,Semi默认一个400G光模块速率是8x50G,并以此推算910C的Scale-Up带宽是7x8x50 = 2800Gbps,但一个高质量的QSFP-DD光模块,是可以运行8x53G=424G or 8x56G = 448G速率的,而如果芯片及光纤都是华为自己的,那为什么不能是8x60G或8x64G甚至更高呢?影响光模块传输速率的屏障是什么?是dell还是富士康的标准?
其次令人不安的是,传言Nvidia在scale up的策略上在GH200系统中使用光纤联结256颗Hopper GPU的失败而坚决转向了NVL72的全电互联。但看上去CloudMatrix在384颗910C用光互联做Scale-Up却成功商用了。这是否表明有可能这个UB协议相比Nvlink协议解决了光路传播上的可靠性等问题更强,而获得了更远更灵活的互联能力。虽然光纤增加了系统整体的功耗和成本,但光纤拉远降低了集成复杂度,cloudmatrix ~50KW的Rack相比NVL72那145KW的Rack,对Data Center的部署无疑具有更高的友好度,甚至于50KW量级的Rack是可以做到风冷部署。
但最大的阴霾,还是黄仁勋对光模块的成本和功耗的那种负面的态度(下图),历史上,上一个可类比的不相信光的是Elon Musk在tesla上对激光雷达的负面态度。确实,在musk造车的早期激光雷达昂贵无比,但musk绝对没有想到激光雷达能够被中国人卷成今天几百块钱的白菜价,今天再继续坚持纯视觉比激光雷达+camera更优不过是嘴巴硬罢了。同理,光模块这种东西,是最适合中国人把它卷到白菜价的,目标就是让国产光模块加上那关税也比老黄在美国买的便宜就好了呗,这个东西并不需要EUV光刻机,打开看优化空间也非常大。要记得,华为也卷过激光雷达,那么光模块……为什么不呢?
因为在UB-Mesh的论文中提到了用电来做Rack内的互联,这引发了纷纷传言,即菊花司的CloudMatrix是否如GH200一样是失败的,不得不切换到与NVL72相同的去光留铜的路径?再读一遍UB-Mesh的论文,当然不是。中国人常说,“黑猫白猫,抓到耗子就是好猫”。即使自动驾驶市场把激光雷达价格打到九块九包邮,那也不是说就放弃毫米波雷达,也不用camera吧。能用光的地方用光,能用电的地方用电。
搜索一下UB-Mesh论文中的数字,一个关键字会频繁出现,即8000。
引用我柯南小老弟那句话,真相只有一个!
CloudMatrix是一个商用的384个NPU的Scale-Up超节点,而UB-Mesh描述的是一个8000个NPU的Scale-Up超节点方案。Nvidia的scale-up超节点,在Rubin Ultra时代也只是NVL576,居然有人想做8000卡超节点??
你相信光吗?
老黄他不相信啊。若不相信光,那就只能在一个Rack内反复折腾电呗,即使把计量单位从Chip换成Die,也过不了千啊。把能量无限压缩到一个Rack内,真的是省功耗吗? 确定不是手搓炸药包?
作为菊外人,笔者无法假设论文描述的这个8000个NPU的超节点是什么状态? 仅仅是paper work 还是已经隐秘部署在中国的某个角落? 不过从论文中对多种拓扑结构的优劣对比在话语间始终留有商量余地的描述来看,可以推测这个超节点的状态是反复调优的过程中。
此外,文章中对为什么可以选择Mesh的拓扑结构的也是有段话解释的。即8000个NPU,若采用Clos(这是前面Semianalysis专家们对CloudMatrix组网的推断)拓扑,可以提供最高的灵活性,但会需要大量的交换资源,包括非常多的光模块和High Radix的Switch。
所以UB-Mesh这篇论文的主张是,若要部署一个8000 NPU的超节点,可以在Rack内采用电,而Rack间采用光的多Rack结构。并且在Rack内外建议使用定义为不同的维度,并使用不同的拓扑结构。若非固执于单一互联材质、单层拓扑结构,那拓扑的分级是不可避免的。
还记得知乎的一位朋友在一篇文章中还描述过在分级中的一些取舍得失,能感受到这位朋友的朋友的患得患失的心情。
今天再回头看,PlanB不就是cloudmatrix的组网么?而且,Nvidia的rubin ultra,其实也走向了PlanB呢(只是紫色的光换成纯电)
而UB-Mesh,不过是PlanA的更深入的探索之途。
此外,基于上图,UB-MESH描述中的NPU,也不是昇腾910C的样子了,论文中的NPU是自带了switch功能的(并未听闻910C有这个能力,所以这是910C next?)。就像图中绿色、紫色、蓝色的路径,如果这个switch做得足够好,即在系统中的每个NPU都包含了一个分布式switch,那么所谓的mesh拓扑即使物理上是非对称mesh,但并不会存在点到点无法直达的情况(分布式转发甚至比一级clos延迟更小),所以在逻辑视角UB-Mesh有可能是可以非常好的支持all2all的逻辑流量的。
算了,还是留个念想等菊花的人再补一篇ub-mesh for DeepSeek的论文再聊吧。但要是菊花司装死不补,笔者确实也没啥办法。
(文章完)
写在最后
1. 910C是UB1.0,而UB2.0这篇论文,大概率就是910C下一代要做的网络架构。如果说CloudMatrix 384作为昇腾初代超节点还未成熟,那么下一代理应值得更高期待。
2. 我们很早就在星球聊过384卡机柜方案,也引述过昇腾老师的话:超节点反而可能是华为的长期优势,网络上的积累know-how,华为甚至强于NV。不能太妄自菲薄,毕竟现在回头看GB200也有点小翻车...甚至华为超节点在实用性鲁棒性上还略胜一筹
3. 老黄最在乎中国的,难到真的是H20这点收入?显然不是。水货的那部分,也不是他能控制的。老黄更担心的,可能是不可抗力会孕育出一个独立的AI硬件生态。过去全球流通竞争环境下,NV可能永远长不出对手。但假如强行切割,加上突然冒出的DeepSeek,中国很可能被倒逼出一个全新的AI infra生态。甚至未来有潜力在全球范围参与竞争。这不是我说的,是反对AI diffusion的微软甲骨文英伟达这些人自己说的。
还是那句话,一定不要低估在1-10阶段中国“卷王”的工程化能力
更时效性的内容会实时推送到微信群