来源:腾讯新闻作者:前台积电建厂专家 Leslie Wu频繁炸场的$英伟达 (NVDA.US)$,没能守住3万亿美元的市值。北京时间6月19日,英伟达市值达到3.335万亿美元,一举超过了$微软 (MSFT.US)$和$苹果 (AAPL.US)$成为全球第一。在经历这一高光时刻之后,英伟达的市值开始走下坡路,截至8月2日收盘,英伟达的市值缩水26%。在此之前,已经有分析师呼吁投资者“踩刹车”。每日经济新闻援引投行DA Davidson分析师Gil Luria的观点,称英伟达业绩创纪录达到260亿美元,源于顶级客户对其GPU产品的支出,他认为这种趋势未来将会动摇,并且英伟达的股价在18个月内将出现两位数的跌幅。在Gil Luria这样的分析师看来,顶级客户们已有“二心”,而英伟达自身的“失误”,也给了客户变心和对手截胡的窗口期,一切都要从Blackwell架构芯片的负面传闻说起,包括CoWoS良率低、B100 SKU被放弃、B200出货延迟及重新流片等关键议题。从台积电内部获悉的情况来看,英伟达Blackwell芯片重新流片的消息确有其事,但主要涉及B100系列基础芯片,问题出在底层Standard cell(标准单元)——是预先设计好的标准特定功能、尺寸电路模块,如果把芯片设计理解为搭积木,标准单元就是积木的最小单位——在高压环境下会出现工况异常,目前问题都已经发现,需要重开掩膜版。不过,整体晶圆制造Wafer-in到Wafer-out的时间没办法缩短,好在2024年只有小批量出货,本身就不是Blackwell服务器的出货时间,今年年底前扩大产能把小批量出货的进度追回来,从我个人的从业经验来看,这对于台积电来说不算难事。1、替延迟出货背锅的良率B100被放弃、B200延迟出货重新流片属于对Blackwell芯片“跳票事故”的片面理解,这与英伟达复杂的命名有关。Blackwell系列芯片包含B100和B102两个基础芯片,包括B200GB200在内的这些SKU,都是采用基于B100系列的Chiplet方案,B200A则是基于B102打造。为了方便理解,给大家整理了一个表格,可以对照看B102和B100这个基础芯片,以及对应的服务器SKU,针对不同应用的服务器,还可以组合出更多款式,例如HGX B200A / HGX B200/ NVL36/72甚至是NVL8或GB210A的气冷版本。Blackwell芯片的命名及各种SKU让外界理解混乱,可以理解,但“CoWoS良率只有66%,一片晶圆只能切10颗Good die”这种说法则脱离了常识。我们可以从晶圆制造的前段和后段分别简要说说“良率”这个概念。前段的GPU Die,和苹果、$高通 (QCOM.US)$以及$美国超微公司 (AMD.US)$一样,英伟达这次采用的是N4P工艺,已经非常成熟,所以良率根本不用担心。后段封装,尤其是CoWoS的“oS”部分,不仅包含了GPU die,也还有HBM内存,而且8颗HBM本身成本就很高,如果GPU die故障,整个封装就成了废片,所以良率低于80%都不可能排产,不然成本会无限放大,毛利无法保障,如果是66%的水平,根本不会排产。在制造环节良率异常这种风险应对上,作为Fabless厂,不管是英伟达,还是苹果,都不可能全部将产品押注在新方案上,如果新方案有问题,整代产品就可能报废,这个风险太大,所以在下单时一定会有备选方案同时开案。换句话说,即便CoWoS-L的良率真出了问题,也不会影响Blackwell芯片的出货。我举个例子,苹果明年的A18芯片想采用台积电全新的2nm工艺,一定会同时开N3P工艺的方案,以确保“赚无一失”,英伟达自然也会如此。根据我们拿到的数据,Blackwell采用CoWoS-L封装,目前的良率大概在90%左右且还在爬升当中,这一点也和业内对CoWoS研究最透彻的野村团队保持一致。另外,年初台积电对CoWoS-L良率的预期是95%,相比H200、H100这些产品采用CoWoS-S封装的99%的良率,90%自然是表现不佳,但对于新工艺来说,勉强可以接受。所以说,CoWoS-L目前的良率确实不如预期,但将前段的GPU die因为标准单元的问题,需重新设计掩膜,导致Blackwell芯片无法顺利生产,间接导致后段的CoWoS-L产能出现停摆的现象,总结为CoWoS-L良率存在重大异常,来反推Backwell芯片不能顺利出货,有违事实,也有悖于行业常识。实际上,在这次B100系列基础芯片重新流片的问题之前,英伟达就已经出于CoWoS-L良率不及95%的问题进行了调整,在采用B102基础芯片的B200A上,更换为CoWoS-S封装,原计划是分担CoWoS-L的产能压力,确保2025年有更多Blackwell芯片的产出,现在这种调整,也能够帮助英伟达解决因为GPU die设计问题导致的进度延后问题,并且也能帮助拉高2025年Blackwell芯片的总体出货量。2、谁在掐着英伟达的“脖子”过去有很多讨论,说英伟达卡着算力的脖子,但是英伟达自己的“脖子”却被更上游的HBM内存这些企业卡着。应该这样说,目前HBM、液冷QCD快接头模块供应都比较紧张,但供应紧张并不会延迟出货,顶多是导致出货量减少,而且现阶段这些紧缺的零部件的工艺还是有保障的,比如三星,目前已经确定加入英伟达的HBM供应商体系当中。真正会影响Blackwell芯片发货的,是后续各种服务器产品化的节点。从产业链的消息来看,目前进入生产阶段的不止芯片,还有板卡组件、交换设备、机架、制冷方案等等。而从8卡机柜扩容到72卡机柜,需要考虑包括网络带宽收敛、以及各种并行策略(模型数据切分、分段计算、拷贝和重组)在整个机柜中的最佳工况等等诸多问题。此外,由于托盘变得更多,密度更高更紧凑,内部布线数量、高速交换、散热这些复杂的问题,都意味着机架也要重新设计,目前也应该都在测试当中。由于NVL36/72服务器都是全新的技术方案,所有子系统与集成是否完善也是风险点之一,外界的关注点过去都集中在性能上,实际上整个系统的高成熟度与可靠度,也是考量这代产品好坏的依据。对于采用水冷散热的GB200系列,还要考虑漏液的问题,主要涉及三个部件:水冷板、分歧管、CDU液冷分配单元以及QCD快接头,其中快接头最容易发生漏液,所以漏液也是服务器厂家最头疼的问题,它的质量最为关键,直接牵涉到责任的归属划分。一般情况下,如果出现漏液,英伟达会向客户先行赔付,然后再向鸿海、广达这类系统厂进行索赔,一台AI服务器机架动辄数百万美元,漏液赔偿可能会让一家小企业直接破产。从我们拿到的消息来看,目前英伟达与鸿海、广达这些系统厂还在进行水冷散热的测试,还没有大量导入。前面说的,不管是芯片厂、系统厂还是散热厂,面对动辄数百万美元的赔偿,没有哪一家厂商愿意轻易承担这种风险,都需要实际导入后,有了“小白鼠”后才能大规模落地。3、英伟达会“翻车”吗?文章开头我们提到,英伟达的市值已经自历史高点的3.3万多亿美元,下跌到现在的2.6万亿美元,跌幅超过26%,而在一季报发布的时候,英伟达自信的预期二季度营收280亿美元,误差在±2%的区间内。现在,由于GPU die的设计问题,CoWoS封装良率不及95%的预期,各种服务器技术方案还没定案,都会影响Blackwell芯片的顺利出货,那么这些问题是否会更进一步,将英伟达踢出2万亿市值的榜单?可以这样说,短期内不会有太大的问题,关键就在于,Blackwell芯片第三季度本身就是小批量排产,第四季度才会上量,而且这只是台积电的排产节奏,完成GPU die的生产之后,接下来是后段CoWoS,再接着就是Bumping厂,最后到$工业富联 (601138.SH)$、纬创这些系统厂做组装,进而完成服务器出货和业绩落地。一句话说,服务器出货才对英伟达的营收有影响,而不是台积电的芯片出货。按照现在的节奏,服务器的大批量交付最快也要到2025年的第一季度,换句话说,英伟达明年第一季度才会在Blackwell芯片上实现较大的业务增量。也就是说,这款芯片,到明年才会为英伟达贡献大量的营收,这也是原来市场就有的合理预期,并不会反映在第二季度、甚至是第三季度的业绩上。对英伟达来说,在三季度发现设计上的问题,并且拿出解决方案,然后在台积电跑个Super hot run(超级急件)对应的时间还是第四季度的中后期,大概在11月-12月,本身这部分产能就已经预定完成,3个月基本可以继续排产,且台积电不论N4P还是CoWoS - S/L,产能都比现在充足 , 把稼动率拉到120%,来应对因为设计缺陷导致原本第三季度要小批量出货的芯片延迟出货的问题 , 基本上没有太大困难 , 也就是说,以年度来计算 , 今年Blackwell出货虽然会少,但不会少很多。对英伟达和整个产业链下游来说,芯片问题目前已暴露,服务器的各个子系统也必须同时进行各种实际环境的的测试。比较乐观的地方在于,目前生产出的芯片 , 只在特定高压环境会有问题 ,这些芯片是可以交给鸿海等服务器系统厂家去做各种调适与测试,也就是服务器各子系统跟原本一样,还是有半年时间拿到芯片去模拟各种环境的测试 ,最终大量的出货时间点会落在2025年的2-3月份 。从目前的情况看,第二季度在H200泄洪式出货的背景下,业绩大概率还是符合指引并超预期,而且本身2023年的营收主力是H200系列,前面提到,今年Blackwell芯片小批量出货的规模会比原计划有所减少,大概在2万片晶圆(CoWoS-L从41K减少到不足20K),换算成英伟达业绩预估在80-95亿美元左右,但采取H系列增量销售以及B系列回片后冲刺产能的紧急应对措施,这次业绩损失大概会落在 50 亿美元左右,这些可能会反映在第四季度财报当中,对股价的冲击必定是有的,毕竟是产品翻车。比起Blackwell芯片“翻车”这个事情本身,更值得思考和重视的一个问题在于,英伟达每年都会推出新的SKU,需要许多创新技术,这个节奏非常之快,如果没有足够的时间去优化并提高可靠性,未来几年在某一款产品上彻底翻车这个可能性也是有的,这是我们需要重新审视的英伟达的发展逻辑,也是竞争对手们苦苦等待的机会。从更宏观的角度来,看尽管这两年英伟达的增长逻辑没有问题,但更长期的发展则是风险不断加大。这种风险不仅仅表现为每一代疯狂激进的技术更迭,还有应用端以及后续需求问题,简单说就是大家耳熟能详的“AI泡沫” ,又或者是否会出现新技术的强力竟争者,比如新的芯片技术或者掌握大模型的上游企业开始自研。这两天确实看到很多报道,关于中美巨头们都纷纷下场自研,插播一个消息供参考,OpenAI的自研芯片项目,已经和台积电谈的差不多了。编辑/jayden 來源:騰訊新聞作者:前臺積電建廠專家 Leslie Wu頻繁炸場的$英偉達 (NVDA.US)$,沒能守住3萬億美元的市值。北京時間6月19日,英偉達市值達到3.335萬億美元,一舉超過了$微軟 (MSFT.US)$和$蘋果 (AAPL.US)$成爲全球第一。在經歷這一高光時刻之後,英偉達的市值開始走下坡路,截至8月2日收盤,英偉達的市值縮水26%。在此之前,已經有分析師呼籲投資者“踩剎車”。每日經濟新聞援引投行DA Davidson分析師Gil Luria的觀點,稱英偉達業績創紀錄達到260億美元,源於頂級客戶對其GPU產品的支出,他認爲這種趨勢未來將會動搖,並且英偉達的股價在18個月內將出現兩位數的跌幅。在Gil Luria這樣的分析師看來,頂級客戶們已有“二心”,而英偉達自身的“失誤”,也給了客戶變心和對手截胡的窗口期,一切都要從Blackwell架構芯片的負面傳聞說起,包括CoWoS良率低、B100 SKU被放棄、B200出貨延遲及重新流片等關鍵議題。從台積電內部獲悉的情況來看,英偉達Blackwell芯片重新流片的消息確有其事,但主要涉及B100系列基礎芯片,問題出在底層Standard cell(標準單元)——是預先設計好的標準特定功能、尺寸電路模塊,如果把芯片設計理解爲搭積木,標準單元就是積木的最小單位——在高壓環境下會出現工況異常,目前問題都已經發現,需要重開掩膜版。不過,整體晶圓製造Wafer-in到Wafer-out的時間沒辦法縮短,好在2024年只有小批量出貨,本身就不是Blackwell服務器的出貨時間,今年年底前擴大產能把小批量出貨的進度追回來,從我個人的從業經驗來看,這對於台積電來說不算難事。1、替延遲出貨背鍋的良率B100被放棄、B200延遲出貨重新流片屬於對Blackwell芯片“跳票事故”的片面理解,這與英偉達複雜的命名有關。Blackwell系列芯片包含B100和B102兩個基礎芯片,包括B200\GB200在內的這些SKU,都是採用基於B100系列的Chiplet方案,B200A則是基於B102打造。爲了方便理解,給大家整理了一個表格,可以對照看B102和B100這個基礎芯片,以及對應的服務器SKU,針對不同應用的服務器,還可以組合出更多款式,例如HGX B200A / HGX B200/ NVL36/72甚至是NVL8或GB210A的氣冷版本。Blackwell芯片的命名及各種SKU讓外界理解混亂,可以理解,但“CoWoS良率只有66%,一片晶圓只能切10顆Good die”這種說法則脫離了常識。我們可以從晶圓製造的前段和後段分別簡要說說“良率”這個概念。前段的GPU Die,和蘋果、$高通 (QCOM.US)$以及$美國超微公司 (AMD.US)$一樣,英偉達這次採用的是N4P工藝,已經非常成熟,所以良率根本不用擔心。後段封裝,尤其是CoWoS的“oS”部分,不僅包含了GPU die,也還有HBM內存,而且8顆HBM本身成本就很高,如果GPU die故障,整個封裝就成了廢片,所以良率低於80%都不可能排產,不然成本會無限放大,毛利無法保障,如果是66%的水平,根本不會排產。在製造環節良率異常這種風險應對上,作爲Fabless廠,不管是英偉達,還是蘋果,都不可能全部將產品押注在新方案上,如果新方案有問題,整代產品就可能報廢,這個風險太大,所以在下單時一定會有備選方案同時開案。換句話說,即便CoWoS-L的良率真出了問題,也不會影響Blackwell芯片的出貨。我舉個例子,蘋果明年的A18芯片想採用台積電全新的2nm工藝,一定會同時開N3P工藝的方案,以確保“賺無一失”,英偉達自然也會如此。根據我們拿到的數據,Blackwell採用CoWoS-L封裝,目前的良率大概在90%左右且還在爬升當中,這一點也和業內對CoWoS研究最透徹的野村團隊保持一致。另外,年初台積電對CoWoS-L良率的預期是95%,相比H200、H100這些產品採用CoWoS-S封裝的99%的良率,90%自然是表現不佳,但對於新工藝來說,勉強可以接受。所以說,CoWoS-L目前的良率確實不如預期,但將前段的GPU die因爲標準單元的問題,需重新設計掩膜,導致Blackwell芯片無法順利生產,間接導致後段的CoWoS-L產能出現停擺的現象,總結爲CoWoS-L良率存在重大異常,來反推Backwell芯片不能順利出貨,有違事實,也有悖於行業常識。實際上,在這次B100系列基礎芯片重新流片的問題之前,英偉達就已經出於CoWoS-L良率不及95%的問題進行了調整,在採用B102基礎芯片的B200A上,更換爲CoWoS-S封裝,原計劃是分擔CoWoS-L的產能壓力,確保2025年有更多Blackwell芯片的產出,現在這種調整,也能夠幫助英偉達解決因爲GPU die設計問題導致的進度延後問題,並且也能幫助拉高2025年Blackwell芯片的總體出貨量。2、誰在掐着英偉達的“脖子”過去有很多討論,說英偉達卡着算力的脖子,但是英偉達自己的“脖子”卻被更上游的HBM內存這些企業卡着。應該這樣說,目前HBM、液冷QCD快接頭模塊供應都比較緊張,但供應緊張並不會延遲出貨,頂多是導致出貨量減少,而且現階段這些緊缺的零部件的工藝還是有保障的,比如三星,目前已經確定加入英偉達的HBM供應商體系當中。真正會影響Blackwell芯片發貨的,是後續各種服務器產品化的節點。從產業鏈的消息來看,目前進入生產階段的不止芯片,還有板卡組件、交換設備、機架、製冷方案等等。而從8卡機櫃擴容到72卡機櫃,需要考慮包括網絡帶寬收斂、以及各種並行策略(模型數據切分、分段計算、拷貝和重組)在整個機櫃中的最佳工況等等諸多問題。此外,由於托盤變得更多,密度更高更緊湊,內部佈線數量、高速交換、散熱這些複雜的問題,都意味着機架也要重新設計,目前也應該都在測試當中。由於NVL36/72服務器都是全新的技術方案,所有子系統與集成是否完善也是風險點之一,外界的關注點過去都集中在性能上,實際上整個系統的高成熟度與可靠度,也是考量這代產品好壞的依據。對於採用水冷散熱的GB200系列,還要考慮漏液的問題,主要涉及三個部件:水冷板、分歧管、CDU液冷分配單元以及QCD快接頭,其中快接頭最容易發生漏液,所以漏液也是服務器廠家最頭疼的問題,它的質量最爲關鍵,直接牽涉到責任的歸屬劃分。一般情況下,如果出現漏液,英偉達會向客戶先行賠付,然後再向鴻海、廣達這類系統廠進行索賠,一臺AI服務器機架動輒數百萬美元,漏液賠償可能會讓一家小企業直接破產。從我們拿到的消息來看,目前英偉達與鴻海、廣達這些系統廠還在進行水冷散熱的測試,還沒有大量導入。前面說的,不管是芯片廠、系統廠還是散熱廠,面對動輒數百萬美元的賠償,沒有哪一家廠商願意輕易承擔這種風險,都需要實際導入後,有了“小白鼠”後才能大規模落地。3、英偉達會“翻車”嗎?文章開頭我們提到,英偉達的市值已經自歷史高點的3.3萬多億美元,下跌到現在的2.6萬億美元,跌幅超過26%,而在一季報發佈的時候,英偉達自信的預期二季度營收280億美元,誤差在±2%的區間內。現在,由於GPU die的設計問題,CoWoS封裝良率不及95%的預期,各種服務器技術方案還沒定案,都會影響Blackwell芯片的順利出貨,那麼這些問題是否會更進一步,將英偉達踢出2萬億市值的榜單?可以這樣說,短期內不會有太大的問題,關鍵就在於,Blackwell芯片第三季度本身就是小批量排產,第四季度才會上量,而且這只是台積電的排產節奏,完成GPU die的生產之後,接下來是後段CoWoS,再接着就是Bumping廠,最後到$工業富聯 (601138.SH)$、緯創這些系統廠做組裝,進而完成服務器出貨和業績落地。一句話說,服務器出貨才對英偉達的營收有影響,而不是台積電的芯片出貨。按照現在的節奏,服務器的大批量交付最快也要到2025年的第一季度,換句話說,英偉達明年第一季度才會在Blackwell芯片上實現較大的業務增量。也就是說,這款芯片,到明年才會爲英偉達貢獻大量的營收,這也是原來市場就有的合理預期,並不會反映在第二季度、甚至是第三季度的業績上。對英偉達來說,在三季度發現設計上的問題,並且拿出解決方案,然後在臺積電跑個Super hot run(超級急件)對應的時間還是第四季度的中後期,大概在11月-12月,本身這部分產能就已經預定完成,3個月基本可以繼續排產,且台積電不論N4P還是CoWoS - S/L,產能都比現在充足 , 把稼動率拉到120%,來應對因爲設計缺陷導致原本第三季度要小批量出貨的芯片延遲出貨的問題 , 基本上沒有太大困難 , 也就是說,以年度來計算 , 今年Blackwell出貨雖然會少,但不會少很多。對英偉達和整個產業鏈下游來說,芯片問題目前已暴露,服務器的各個子系統也必須同時進行各種實際環境的的測試。比較樂觀的地方在於,目前生產出的芯片 , 只在特定高壓環境會有問題 ,這些芯片是可以交給鴻海等服務器系統廠家去做各種調適與測試,也就是服務器各子系統跟原本一樣,還是有半年時間拿到芯片去模擬各種環境的測試 ,最終大量的出貨時間點會落在2025年的2-3月份 。從目前的情況看,第二季度在H200泄洪式出貨的背景下,業績大概率還是符合指引並超預期,而且本身2023年的營收主力是H200系列,前面提到,今年Blackwell芯片小批量出貨的規模會比原計劃有所減少,大概在2萬片晶圓(CoWoS-L從41K減少到不足20K),換算成英偉達業績預估在80-95億美元左右,但採取H系列增量銷售以及B系列回片後衝刺產能的緊急應對措施,這次業績損失大概會落在 50 億美元左右,這些可能會反映在第四季度業績當中,對股價的衝擊必定是有的,畢竟是產品翻車。比起Blackwell芯片“翻車”這個事情本身,更值得思考和重視的一個問題在於,英偉達每年都會推出新的SKU,需要許多創新技術,這個節奏非常之快,如果沒有足夠的時間去優化並提高可靠性,未來幾年在某一款產品上徹底翻車這個可能性也是有的,這是我們需要重新審視的英偉達的發展邏輯,也是競爭對手們苦苦等待的機會。從更宏觀的角度來,看盡管這兩年英偉達的增長邏輯沒有問題,但更長期的發展則是風險不斷加大。這種風險不僅僅表現爲每一代瘋狂激進的技術更迭,還有應用端以及後續需求問題,簡單說就是大家耳熟能詳的“AI泡沫” ,又或者是否會出現新技術的強力竟爭者,比如新的芯片技術或者掌握大模型的上游企業開始自研。這兩天確實看到很多報道,關於中美巨頭們都紛紛下場自研,插播一個消息供參考,OpenAI的自研芯片項目,已經和台積電談的差不多了。編輯/jayden