虎嗅 01月19日
CPO会是英伟达的下一个“宏大叙事”吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达近期面临GPU新品散热问题及大客户订单延迟的挑战,为了保持其“算力霸主”地位,正积极寻求解决方案。文章指出,英伟达将在GTC大会上推出CPO交换机,并有望在8月量产,以解决GB200系列服务器高功耗、散热和连接问题。CPO技术通过缩短光信号输入和运算单位之间的电学互连长度,实现更低功耗和更高带宽,被视为解决数据高速传输的关键技术。尽管CPO前景广阔,但量产仍面临挑战,需要1年甚至1年半以上的时间。英伟达正与台积电等合作伙伴共同努力,力求在未来数据中心领域取得突破。

🔥 英伟达GB200系列服务器因散热和连接问题,导致大客户订单延迟,面临严峻挑战。其机柜连接需要8万根铜线,散热和信号干扰问题突出,迫使微软、亚马逊等公司推迟订单。

💡 CPO(光电共封装)技术被视为解决英伟达散热和连接问题的关键。CPO通过缩短光信号输入和运算单位之间的电学互连长度,提高互连密度,降低功耗,实现更高带宽,有望解决未来数据运算处理中海量数据高速传输问题。

📈 CPO市场潜力巨大,预计2023年至2030年市场规模将从800万美元激增至93亿美元,年复合增长率高达172%。英伟达计划从2025年下半年推出的GB300芯片开始采用CPO技术,并将其应用于Rubin平台,以突破现有NVLink 72互连的限制。

🤝 多家科技巨头如AMD、思科、IBM和英特尔也在积极布局CPO技术,Marvell已推出整合CPO技术的定制AI加速器架构,IBM也实现了CPO技术突破,可大幅缩短AI模型训练时间并降低能耗。CPO技术正成为行业共识。

GPU新品出现散热问题、大客户订单受影响,这些天的英伟达,或许并不好过。想要保住“算力霸主”的宝座,这家巨头亟需一剂良药。

日前有消息称,英伟达将在今年3月的GTC大会上推出CPO交换机,若试产顺利,则有望8月量产,届时CPO交换机可实现115.2T的信号传输。

媒体援引供应链猜测称,“针对产能,英伟达非常着急。”

虽然黄仁勋对外宣称供货一切顺利,但目前GB200系列出货实在不容乐观。GB200 NVL72机柜设计复杂,高性能计算带来了高功耗及高散热需求。零部件厂商表示,单机柜问题已经“大致解决”,但多机柜连接问题“巨大”——机柜连接需要高达8万根铜线,散热、信号干扰等问题陆续浮现。

这不是耸人听闻的夸大其词——散热和连接的巨大问题,已经影响到了英伟达那些顶级大客户的订单。

本周有另一报道指出,微软、亚马逊、谷歌和Meta等公司已经选择推迟Blackwell订单、或直接“弃B投H”。一方面,GB200的功耗“前所未有地高”,每个机柜功耗高达120-132千瓦,直接将传统冷却系统推向极限。另一方面,Blackwell机柜还出现连接故障,妨碍了热量分配,又进一步加剧了热管理问题。

散热互连问题步步紧逼,英伟达拿什么解决?芯片级优化,更先进的冷却方案,还是彻底改造机柜?

这一次,光通信或许成为现阶段的最佳技术解药,英伟达将目光投向了CPO。

7年千倍成长空间与172%CAGR

为什么是CPO?

CPO全称为Co-Packaged Optics,中文译为光电共封装,是一种新型光电子集成技术。通过进一步缩短光信号输入和运算单位之间的电学互连长度,CPO在提高光模块和ASIC芯片之间互连密度的同时,实现了更低功耗,已成为解决未来数据运算处理中海量数据高速传输问题的重要技术途径。

在2023年2月发表的一篇研究论文中,英伟达研究人员曾直言,“现在,随着CPO面世,我们正处于新一场重大变革的边缘。在CPO架构中,光学器件将和ASIC封装在一起,以降低能耗、实现更高带宽。虽然十年前CPO就已开启系统部署,但最近的一系列研究演示以及相关产品说明都表明,未来几年,CPO将得到市场广泛采用。”

摩根士丹利在最新发布的AI供应链产业报告中指出,CPO具备AI数据中心的传输潜力,预估2023年至2030年期间,其市场规模将从800万美元激增至93亿美元——7年千倍的成长空间,年复合成长率高达172%。

此前有消息称,英伟达计划从2025年下半年推出的GB300芯片开始采用CPO,Rubin平台也将采用该技术,旨在突破目前NVLink 72互连的限制,提升通信质量。

大摩的报告则指出,英伟达的Rubin平台及其NVL服务器机柜系统,在导入CPO的能见度更高,且每系统中的内含价值更高,预估2027年占全球CPO需求的75%。

与巨头同行

不论如何,CPO这条路,英伟达也许是选对了,从AMD、思科、IBM到英特尔,都是同行者。

例如1月6日,美国芯片大厂Marvell宣布,公司在定制AI加速器架构上取得突破,整合了CPO技术,大幅提升服务器性能。这种新架构能让AI服务器能力实现拓展,从目前使用铜互连的单个机架内的数十个XPU,拓展到横跨多个机架的数百个XPU。通过这一架构,超大云服务商将能开发定制XPU,实现更高的带宽密度,并在单个AI服务器内提供更长距离的XPU到XPU连接,同时具有最佳延迟和功率效率。

2024年末IBM宣布实现一项重大CPO技术突破,可以以“光速”训练AI模型,同时节省大量能源。根据IBM结论,这项CPO技术可以将标准大模型的训练时间从3个月缩短至3周;并且,与中端电气连接相比,能耗降低了5倍多,数据中心互连电缆的长度可以从1米延伸至数百米,大幅降低拓展生成式AI的成本。

除此之外,英特尔、AMD、思科等均有在近年OFC展上推出CPO原型机。

还有多远?

站在当下节点,CPO这根“稻草”能救得了英伟达吗?

或许还需要等待。

在1月16日的投资者会议上,作为英伟达CPO合作伙伴台积电的董事长,魏哲家表示,虽然CPO已经有初步成果,但想要达到量产阶段仍需要1年甚至1年半以上时间。

另有媒体援引分析师表述称,CPO进度将影响英伟达Rubin系列的量产进程。供应链透露,目前“量产确实有难度,尤其是在设备部分仍相当吃紧,另外良率也有待提升”。

值得一提的是,1月16日,针对GB200服务器散热问题,黄仁勋表示,Blackwell平台散热技术相对复杂,不过Blackwell系统已开始全面量产,初期面对的挑战对比系统的复杂度,是很正常的,Blackwell系统已开始销售给全球客户。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

英伟达 CPO 散热问题 数据中心 光通信
相关文章