马斯克19天建成世界最强AI集群，10万块H100「液冷怪兽」即将觉醒

凌晨4:20，大洋彼岸的最大超算训练集群开始轰鸣。

「420」也是马斯克最喜欢玩的梗，象征着自由、不受约束和反传统。

马斯克频繁把「420」用在他的产品定价，公司开会时间和星舰一发射时间上等等。

网友也在评论区打趣马斯克超绝仪式感，不到4:20不开工。

在最新采访中，马斯克透露了更多关于新建超算和xAI模型进展：

- Grok 2上个月完成了训练，大约用了15K H100

- Grok 2将于下个月发布，与GPT-4相当- Grok 3正在新建10万块液冷H100超算上，开始训练- 预计Grok 3将在12月发布，「届时将成为世界上最强大的人工智能」

10万块液冷H100，19天完成搭建

值得注意的是，这个全球最大的超算集群，大就大在拥有10万块H100，还是液冷的那种。

10万块H100是什么概念呢?

价格上来看，H100 GPU作为AI的关键组件、硅谷的热门商品，据估计每块成本在3万到4万美元之间，10万块H100就是一笔40亿的大单。

而在全美TOP 5的高校机器学习博士曾发帖说，实验室H100数量为0，要用GPU得靠抢。

李飞飞也在采访里表示，斯坦福的自然语言处理小组只有64块A100 GPU。

而马斯克一出手就是10万块，这个数字令评论区垂涎欲滴。

算力上来看，算力大约是OpenAI用于训练GPT4的25000块A100的20倍左右。

耗电上来看，仅仅是让这个超级计算中心维持运转，所需要的电力总功率就达到70MW，相当于这是一座普通电厂的装机容量，可满足20万人的能源需求。

今年5月，马斯克就曾表示，希望在2025年秋季前建成「超算工厂」。

现在看来，为了加速超级集群的建设，他选择了购买当前一代的H100 GPU，而不是等待新一代的H200或其他即将推出的基于Blackwell的B100和B200 GPU。

尽管市场预期Nvidia的新Blackwell数据中心GPU将在2024年底前上市，马斯克显然没有耐心等待。

当前AI军备竞赛越发火热，唯快不破，谁能最快地推出产品就能迅速占领市场。

xAI作为一家初创公司，更是要是与其他巨头之战中先声夺人。

在之前，马斯克与甲骨文的百亿大单就谈崩了，马斯克嫌弃甲骨文速度太慢，认为对方没有以可行的速度构建计算集群。

而甲骨文则觉得xAI建超算选址承担不了电力的需求，随着百亿订单的谈判破裂， xAI和甲骨文停止了讨论扩大现有合作的可能性。

xAI只得田纳西州孟菲斯市建设自己的人工智能数据中心，与甲骨文的合作破裂意味着xAI要自己动手单干，通过10万块H100构建独立的数据中心，以摆脱甲骨文等云提供商能力的限制。

马斯克自己也表示，xAI拥有世界最强的AI训练集群，可谓遥遥领先。

在马斯克最新一则采访中，披露了建立超算的一些细节。

据大孟菲斯商会（Greater Memphis Chamber）主席Ted Townsend透露，马斯克只花了大约一周的时间就决定将xAI的新超级计算机建造在孟菲斯。

Townsend说，经过3月份的几天旋风式谈判之后，马斯克和他的团队选择了田纳西州的这座城市，因为这里有充足的电力和快速建设的能力。

并且，仅仅花费了19天超算中心就建造完成，马斯克也在推文中赞扬了团队优秀的工作。

Supermicro公司也为xAI提供了大部分硬件支持，其CEO Charles Liang也在马斯克的推文下发表了评论，赞扬了团队的执行能力。

如此之大的训练集群，目的就是为了训练Grok 3。

本月初，马斯克就宣布8月底推出Grok 2，在Grok-2尚未发布的情况下，马斯克也透露了Grok-3的部分细节，为最强模型Grok 3造势。

马斯克在今年4月接受挪威主权基金负责人Nicolai Tangen采访时说，Grok 2需要大约2万张H100来进行训练。

Grok 3将于年底发布，可以预见，基于10万个GPU训练的Grok 3性能方面将比Grok 2更上一层楼。

如此巨大的超算中心，自然需要大量人才和技术的支持，马斯克也继续在推特上招兵买马，让数据优势、人才优势和算力优势全部扩张到极致。

参考资料：

https://x.com/elonmusk/status/1815325410667749760

https://x.com/tsarnick/status/1815493761486708993

本文来自微信公众号“新智元”，作者：新智元，36氪经授权发布。