蓝点网 2024年10月15日
埃隆马斯克的xAI团队在短短19天内搭建由10万张H200构成的超级集群
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

黄仁勋称赞xAI在短短19天内搭建由10万张H200 GPU构建的超级集群。该集群搭建过程复杂,包括设备安装与连接,且数据中心配备液冷技术和电力设备,英伟达派工程师协助。此进度令人震惊,黄仁勋称这一结果前所未有且难被复制。

💻xAI的超级集群由10万张H200 GPU和10万张其他型号加速卡构成,整个搭建过程中复杂的设备安装与连接是关键,且在现有的数据中心内安装如此多的GPU是极其庞大的工程。

🌡️数据中心配备了液冷技术和强大的电力设备,为超级集群的运行提供保障,英伟达还派遣大量工程师协助xAI进行部署。

😮在短短19天内,10万张H200不仅被成功部署,xAI甚至已在这个集群上进行了首次训练,此进度着实让人震惊。

注意:这是黄仁勋接受采访时发布的消息,该数据中心并不是最近才搭建的。

H200 Blackwell GPU 是英伟达目前旗舰款的人工智能加速卡,该 GPU 提供超强的算力,不过要想用来训练大型语言模型并提供服务那还得更庞大的计算集群。

日前英伟达创始人黄仁勋在接受采访时称赞埃隆马斯克旗下人工智能公司 xAI 取得的卓越成就:在短短 19 天内搭建由 10 万张 H200 GPU 构建的超级集群。

整个搭建过程最重要的就是复杂的设备安装与连接,xAI 的这个新超级集群不仅有 10 万张 H200 加速卡,还有 10 万张其他型号的加速卡。

黄仁勋表示通常数据中心需要四年时间才能完成搭建,这包括三年时间用于规划和建设,第四年用于运送设备、安装设备并进行调试使其正常运行。

即便在现有的数据中心内安装 20 万张 GPU 也是个极其庞大的过程,数据中心配备液冷技术和强大的电力设备,而英伟达也派遣了大量工程师协助 xAI 进行部署。

有趣的是在短短 19 天内这 10 万张 H200 不仅被成功部署,甚至 xAI 已经在这个集群上跑了一遍模型,也就是进行首次训练,这个进度着实让人震惊。

不过放在埃隆马斯克身上这好像也不是特别让人惊讶,例如在此前搬迁 X/Twitter 服务器过程中,工程师需要大量时间规划并将机柜拆除再包上各种防撞泡棉。

而埃隆马斯克显然非常嫌弃这种标准工作流和进度,所以他的做法是直接进机房拔掉机柜电源,接着让震惊的工程师们直接化身搬运工将机柜推出去直接装车。

所以黄仁勋了解此次数据中心搭建过程后夸赞这是个前所未有的结果,而且可能也不会再被其他公司复制,至少在很长一段时间内不会。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

xAI 超级集群 黄仁勋 H200 GPU
相关文章