來源:華爾街見聞
此次測試構成了MLPerf基準測試中規模最大的英偉達GB200 NVL72集群,在基準測試套件中規模最大、最複雜的Llama 3.1 405B基礎模型訓練中,該集群僅用27.3分鐘就完成整個流程,相比其他測試者提交的相似規模集群,訓練性能提升超過兩倍。
一場關於算力基礎設施的較量正在雲端悄然展開——人工智能(AI)基礎設施供應商 $CoreWeave (CRWV.US)$ 聯手 $英偉達 (NVDA.US)$ 和 $IBM Corp (IBM.US)$ ,剛剛交出了MLPerf史上最大規模的MLPerf Training v5.0測試結果,也是動用最多英偉達GB200超級芯片的MLPerf基準測試成績。
美東時間6月4日週三,CoreWeave公佈,此次聯手英偉達和IBM的測試中,使用了2496塊GB200 Grace Blackwell超級芯片,運行CoreWeave的AI優化雲平台,凸顯了CoreWeave雲平台的規模之大以及其對當今嚴苛AI工作負載的充分準備。
CoreWeave稱,此次測試中構成了迄今爲止在MLPerf基準測試中規模最大的英偉達GB200 NVL72集群,這一規模比之前唯一來自雲服務商的提交結果大34倍。
而且,在基準測試套件中規模最大、最複雜的Llama 3.1 405B基礎模型訓練中,上述GB200 NVL72集群僅用27.3分鐘就完成了整個流程。相比其他參與測試者的相似規模集群提交測試結果,CoreWeave的英偉達GB200集群將訓練性能提升超過兩倍。
CoreWeave認爲,這一結果凸顯了GB200 NVL72架構帶來的顯著性能飛躍,也體現了,在提供一致且一流的AI工作負載性能方面,CoreWeave基礎架構擁有強大實力。
CoreWeave的首席技術官兼聯合創始人Peter Salanki表示:"AI實驗室和企業選擇CoreWeave,是因爲我們提供專門構建的雲平台,具備他們工作負載所需的規模、性能和可靠性。"
MLCommons發佈的MLPerf Training v5.0基準測試結果,展現了AI領域的快速增長和演進。本輪測試包含創紀錄的提交總數,大部分基準測試的提交數量相比v4.1版本都有所增加。
新版本引入了基於Llama 3.1 405B生成式AI系統的大語言模型預訓練基準,這是訓練基準測試套件中引入的最大模型,替代了之前版本中基於gpt3的基準。儘管剛剛推出,Llama 3.1 405B基準測試收到的提交數量已經超過了前幾輪基於gpt3的前身,顯示出大規模訓練的受歡迎程度和重要性。
編輯/jayden