AI & Big Data 01月20日
Nvidia新世代資料中心GPU雲端先行
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Nvidia的GB200 NVL72 AI伺服器在2024年台北國際電腦展亮相後,引發廣泛關注。儘管初期面臨過熱傳聞,但微軟、Google Cloud、Oracle和AWS等主要雲服務提供商紛紛宣布採用。微軟率先推出基於GB200的雲端虛擬機服務,Google Cloud和Oracle也積極部署GB200機櫃,AWS則計劃於2025年推出基於Blackwell的服務。Nvidia強調Blackwell已全面量產,並解決了初期工程挑戰。然而,Blackwell平台的發展仍需克服技術、應用和商業模式等多重挑戰,其成敗不僅影響Nvidia,也將波及整個IT生態。

☁️Nvidia GB200 NVL72伺服器在市場上引起廣泛關注,多家雲端服務商如微軟、Google Cloud、Oracle和AWS均宣布採用,顯示其在AI伺服器領域的領先地位。

🔥 儘管初期有過熱傳聞,但Nvidia強調Blackwell已全面量產,且正在解決初期工程挑戰。同時,多家廠商力挺,例如鴻海、廣達均表示不受影響,Dell也宣布首台GB200 NVL72正式出貨。

🚀 微軟Azure將率先使用GB200伺服器,並推出基於GB200 NVL72的雲端虛擬機服務;Google Cloud和Oracle也在積極部署GB200機櫃,顯示了雲端服務商對Nvidia技術的信心。

💻 AWS則計劃在2025年推出採用Blackwell的執行個體服務,速度將比現有GPU快2.5倍,進一步證明Blackwell架構在效能上的優勢。

🛠️ Blackwell平台面臨技術、應用和商業模式等多重挑戰,包括GPU升級、CPU與GPU融合,以及散熱方式的轉變。這些問題的解決將直接影響IT產業與高效能運算領域的發展。

在2024年6月台北國際電腦展,GPU大廠Nvidia偕同多家伺服器廠商,展出整櫃型AI伺服器GB200 NVL72,吸引多家公有雲業者與大型科技公司採購建置,然而,在同年7月下半、11月下半,有媒體報導可能有過熱問題的傳聞,令外界擔憂影響出貨。當時陸續有多家廠商力挺,例如,鴻海、廣達均一再強調不受影響; Dell創辦人暨執行長Michael Dell 11月18日宣布,全球第一臺GB200 NVL72正式出貨。而對於採購這些硬體設備的公有雲業者而言,他們如何看待與Nvidia的合作?微軟2024年10月8日表示,Azure會是首家用GB200的AI伺服器營運Blackwell的雲業者,11月19日宣布將推出基於GB200 NVL72的雲端虛擬機器服務,名為Azure ND GB200 V6系列,開放內部預覽測試,2025年1月8日微軟執行長Satya Nadella表示,他們的第一座NVL72叢集系統已經在Azure環境運作。Google Cloud在2024年10月16日表示,他們正與Nvidia合作組建GB200 NVL機櫃,秀出機櫃設置於資料中心的照片;Oracle 9月預告將建造雲端服務領域最大的AI超級電腦,在這座OCI Supercluster,最多供應131,072個Nvidia Blackwell GPU,運算效能規模達2.4 zettaFLOPS,11月20日他們宣布在全球雲端區域中心,率先啟用第一座有完整配備的Nvidia GB200 NVL72機櫃,支援客戶使用。至於AWS,2023年11月底與Nvidia宣布合作發展全球最快GPU架構AI超級電腦Project Ceiba;2024年3月Nvidia表示,這套AI超級電腦將以Nvidia GB200 NVL72組建而成,將配置20,736個B200 GPU與10,368個Grace CPU,AI效能達414 EFLOPS;到了12月,AWS預告2025年將推出採用Blackwell的執行個體服務P6,相較現行GPU,速度增2.5倍。Nvidia面對市場強烈期待,以及每隔一段時間的出貨進度質疑聲浪,他們如何回應?今年1月6日舉行的CES美國消費電子展期間,Nvidia創辦人暨執行長黃仁勳在開幕主題演講強調,Blackwell已全面量產,每家雲端服務商都有這樣的系統,而且正在使用,目前有15家系統製造商推出近200款機型與組態,當中有採用液冷或氣冷的系統,基於x86或Arm架構的系統,以及兩臺GB200 NVL36、1臺GB200 NVL72,這些會在45座工廠生產。正當大家以為新世代GPU整櫃型系統的生產製造進度符合預期,並且熱烈討論Nvidia本次在CES發表多項產品與技術的背後意義與趨勢之際,沒想到,1月13日系統過熱傳聞再度出現,引發全球關切。到了1月16日,黃仁勳來臺參加封測廠商矽品精密的潭科廠啟用揭牌儀式,媒體追問Blackwell現況。他表示,Blackwell採用CoWoS-L封裝,將兩個非常大的裸晶(die)連接成1個大晶片,Nvidia現行Hopper架構GPU採用CoWoS-S封裝,他們會逐漸轉移、增加CoWoS-L採用,這麼做並非為了減少容量,而是增加容量。關於散熱,黃仁勳強調Blackwell是非常複雜的技術,是全球有史以來製作方式最複雜的電腦,每一臺Blackwell系統重達3千磅,裡面總共包含60萬個元件,數量相當於一輛汽車的30倍,接著他重申Blackwell已進入全面生產狀態,這麼複雜的產品在工程的初期階段面臨許多挑戰,其實是相當正常的,而且他們已經開始將相關產品出貨到全世界。面對相關的爭議與傳聞,Blackwell平臺的發展、部署,以及後續推廣,顯然還需要持續克服技術、應用、商業模式等層面的挑戰,這次要處理的硬體環節相當廣泛,包含GPU的升級、CPU與GPU的融合,從一臺臺伺服器機架的設置躍升到單座與多座機櫃,散熱方式也從發展多年、成熟的氣冷,改為過去只在特定環境使用的液冷,這些議題都要在有限的時間之內盡速解決。一旦成功,IT產業勢必能夠以更順利的方式與高效能運算(HPC)領域的發展接軌,過渡到下個階段,走向更多元的未來科技發展,若無法成功,蒙受強烈衝擊的對象,絕對不只是Nvidia目前強勢主導的技術與商業生態體系,而可能是整個IT生態,因為其他運算平臺業者都各自有發展隱患,Nvidia若敗下陣來,競爭廠商未必能吃下這塊市場,因為他們可能更無法有效掌握這股機會衝刺。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Nvidia GB200 AI伺服器 Blackwell 雲端服務
相关文章