AI & Big Data 07月12日 11:33
Google推Blackwell GPU運算服務,導入輝達HGX B200平臺
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入分析了Google Cloud推出的A4雲端運算服務,該服務採用Nvidia Blackwell架構GPU,旨在提升AI模型的訓練與推論效能。文章詳細介紹了A4的硬體配置,包括英特爾第五代Xeon Scalable系列處理器、Titanium ML網路卡以及高速互連網路。此外,文章也提供了A4的效能數據,例如FP8運算效能和AI訓練效能的提升。總體而言,這篇文章揭示了Google Cloud如何透過先進的硬體和網路基礎設施,為用戶提供高效能的AI雲端運算服務。

💡 A4雲端服務採用Nvidia HGX B200平台,配置8個Blackwell架構GPU,並透過第五代NVLink介面互連。相較於前代產品,新一代GPU的尖峰運算效能提升了2.5倍,HBM記憶體容量也增加了2.25倍,能廣泛用於各種AI模型架構的訓練與微調。

💻 A4採用英特爾第五代Xeon Scalable系列的Xeon Platinum 8581C處理器。此外,A4與A3 Ultra伺服器皆配備Google Cloud新設計的Titanium ML網路卡,該網路卡基於Nvidia ConnectX-7網路卡,經過調校後,可針對AI工作負載提供安全、高效能的雲端服務體驗。

🌐 在網路基礎架構方面,A4與A3 Ultra結合4通道邏輯線路群組網路,透過RoCE技術提供3.2 Tbps的GPU互連網路傳輸頻寬。Google Cloud的資料中心交織網路採用Jupiter第五代技術架構,可提供13 Pbps的網路對分頻寬,支援大規模的GPU部署。

📊 A4的FP8運算效能可達到72 PFLOPS,AI訓練效能比起A3 Mega增長2.2倍。例如,a4-highgpu-8g配置了224顆虛擬處理器、3,968 GiB記憶體、12,000 GiB本機儲存空間、8個Nvidia B200 GPU(1,440 HBM3e記憶體)以及3,600 Gbps的網路頻寬。

輝達資料中心GPU炙手可熱,這幾年以來,三大公有雲業者持續擴充GPU運算服務陣容,以Google Cloud而言,2023年推出基於Nvidia L4(Ada Lovelace架構)的G2,以及基於Nvidia H100(Hopper架構)的A3,2024年6月增設網路頻寬加倍的A3 Mega,10月推出可配置1、2、4、8個H100的A3 High,以及網路頻寬達800 Gbps的A3 Edge,並且發表基於Nvidia H200(Hopper架構)的A3 Ultra,年底A3 Ultra上市

到了今年,Google Cloud在2月釋出基於Nvidia B200(Blackwell架構)的A4預覽版本,3月Nvidia GTC大會期間,A4正式上線,Google Cloud也釋出基於Nvidia GB200 NVL72(Blackwell架構)的A4X預覽版本,隨後於5月底A4X也正式上線

關於運算效能測試數據的公開揭露,MLCommon在4月與5月陸續發布的MLPerf Inference v5.0、MLPerf Training v5.0,Google Cloud針對Nvidia GPU的雲端運算服務,僅提交A3 Ultra的結果。

  

根據Google Cloud在2月發布的部落格文章,A4採用Nvidia HGX B200平臺,當中配置8個Blackwell架構GPU,並以第五代NVLink介面互連,就尖峰運算效能而言,新一代GPU領先幅度可達2.5倍,配備的HBM記憶體容量也增至2.25倍,能廣泛用於各種AI模型架構的訓練與微調。至於A4採用的處理器平臺,則是英特爾第五代Xeon Scalable系列的Xeon Platinum 8581C。

值得注意的是,用來建構A4與A3 Ultra的伺服器,也配備Google Cloud新設計的Titanium ML網路卡,而這個網路介面其實是基於Nvidia ConnectX-7網路卡而成。Google Cloud表示,經過調校之後,Titanium ML網路卡可針對AI工作負載提供安全、高效能的雲端服務使用體驗。

在網路基礎架構的配置上,A4與A3 Ultra結合遍及整個資料中心的4通道邏輯線路群組網路(4-way rail-aligned network),能藉由RoCE(RDMA over Converged Ethernet)技術,進而提供3.2 Tbps的GPU互連網路傳輸頻寬。若要擴充雲端服務的加速運算規模,Google Cloud用戶能夠將GPU數量設置到數萬個,關鍵在於:底層的資料中心交織網路,採用他們發展的Jupiter第五代技術架構,可提供13 Pbps的網路對分頻寬。

而在3月A4正式上線的消息當中,Google Cloud表明A4的具體成效,例如,FP8運算效能可達到72 PFLOPS,AI訓練效能比起稍早推出的A3 Mega,增長2.2倍。

產品資訊

Google Cloud A4
●原廠:Google Cloud
●建議售價:美國愛荷華州資料中心(us-central1),承諾使用1年每小時88.9272美元
●處理器:英特爾第五代Xeon Scalable(Xeon Platinum 8581C)
●提供服務規模選擇與組態:a4-highgpu-8g,224顆虛擬處理器、3,968 GiB記憶體、本機儲存空間為12,000 GiB、8個Nvidia B200 GPU(1,440 HBM3e記憶體)、網路頻寬為3,600 Gbps

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Google Cloud A4 Nvidia Blackwell GPU
相关文章