富途牛牛头条 2024年07月23日
十萬塊H100打造全球最強超算集群,馬斯克是如何考慮的?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Elon Musk 的人工智能初创公司 xAI 在田纳西州孟菲斯启动了由 100,000 个英伟达 H100 GPU 组成的超级计算机集群,预计将用于训练该公司的大型语言模型 Grok。该集群的目标是打造“按各指标衡量世界上最强大的人工智能”,并计划在今年 12 月之前完成训练。

🚀 **超级计算机集群规模庞大:** xAI 的超级计算机集群由 100,000 个英伟达 H100 GPU 组成,这使得它成为世界上最大的 AI 超级计算机之一,远远超过了现有的超级计算机,例如 Frontier、Aurora 和 Microsoft Eagle。

💪 **目标打造全球最强大 AI:** xAI 的目标是训练“按各指标衡量世界上最强大的人工智能”,并计划在今年 12 月之前完成训练。该集群将用于训练该公司的大型语言模型 Grok,该模型目前作为 X Premium 订阅者的一项功能推出。

💰 **巨额投资:** xAI 为该项目投入了约 30 亿至 40 亿美元,每块英伟达 H100 GPU 的成本估计在 30,000 至 40,000 美元之间。这体现了 xAI 对人工智能领域的雄心壮志以及对打造世界领先 AI 的决心。

🏢 **孟菲斯超级工厂:** xAI 的超级计算机集群位于田纳西州孟菲斯的前伊莱克斯工厂,占地 785,000 平方英尺,被非正式地称为“计算超级工厂”。该项目是孟菲斯历史上新上市公司在该市进行的最大资本投资。

💡 **领先技术:** xAI 的超级计算机集群采用液冷技术,并使用 Nvidia H100 GPU 和超微提供的硬件。该集群在单个 RDMA 结构上运行,这是一种在不增加中央处理单元 (CPU) 负担的情况下在计算节点之间提供更高效、更低延迟的数据传输的方式。

🚀 **未来展望:** xAI 的超级计算机集群的启动标志着人工智能领域的发展进入了新的阶段。该集群的强大计算能力将为 xAI 的 AI 模型训练提供强力支持,并将为未来的 AI 发展带来新的可能性。

Elon Musk的人工智能初创公司 xAI 已启动位于田纳西州孟菲斯的超级计算机集群,该集群由100,000个 英伟达 (NVDA.US)H100 GPU组成。特斯拉 (TSLA.US)首席执行官埃隆·马斯克在社交媒体平台X上的一篇帖子中证实了这一里程碑。

xAI 的超级计算机集群预计将用于训练该公司的大型语言模型Grok,该模型目前作为X Premium订阅者的一项功能推出。本月早些时候,马斯克在 X 上的一篇文章中指出,xAI的Grok 3将在100000个H100 GPU 上进行训练,因此“这应该是一件非常特别的事情”。

马斯克进一步详细说明,该集群由100000个液冷H100图形处理单元 (GPU)组成,这是 Nvidia 从去年开始提供的芯片,受到AI模型提供商的高度需求,包括马斯克在OpenAI的竞争对手(和前朋友)。

马斯克还指出,该集群在单个RDMA结构或远程直接内存访问结构上运行,思科指出这是一种在不增加中央处理单元 (CPU) 负担的情况下在计算节点之间提供更高效、更低延迟的数据传输的方式。

显然,xAI 的目标是在超级集群上训练自己的大模型。但更重要的是,马斯克在回复中表示,该公司的目标是训练“按各指标衡量世界上最强大的人工智能”,并“在今年 12 月之前”实现这一目标。

他还发文称,孟菲斯超级集群将为此提供“显著优势”。

5 月份,我们报道了马斯克计划在 2025 年秋季之前开设超级计算工厂的雄心。当时,马斯克急于开始超级集群的开发,因此必须购买当前一代的“Hopper”H100 GPU。这似乎表明这位科技巨头没有耐心等待H200 芯片的推出,更不用说即将推出的基于Blackwell的B100和B200 GPU。尽管人们预计较新的Nvidia Blackwell数据中心GPU将在 2024 年底之前发货,但情况仍然如此。

那么,如果超级计算工厂预计将于 2025 年秋季开业,那么今天的新闻是否意味着该项目提前一年实现?确实可能提前了,但更有可能的是,今年早些时候接受路透社和 The Information 采访的消息人士在项目时间方面说错了话或被错误引用了。此外,随着 xAI 孟菲斯超级集群已经启动并运行,关于 xAI 为什么不等待更强大或下一代 GPU 的问题得到了解答。

超微提供了大部分硬件,该公司首席执行官也在马斯克的帖子下发表评论,称赞该团队的执行力。此前,超微CEO最近对马斯克的液冷 AI 数据中心大加赞赏。

在后续推文中,马斯克解释说,新的超级集群将“训练世界上所有指标中最强大的人工智能”。从之前的意向声明中,我们假设 xAI 的 100,000 个 H100 GPU 安装的功能现在将用于 Grok 3 训练。马斯克表示,改进后的 LLM 应该“在今年 12 月”完成训练阶段。

如果要将孟菲斯超级集群的计算资源放在某种背景下来看,当然,从规模上看,新的 xAI 孟菲斯超级集群在GPU马力方面轻松超越了最新Top500榜单上的任何一台超级计算机。世界上最强大的超级计算机,如 Frontier(37,888 个 AMD GPU)、Aurora(60,000 个 Intel GPU)和Microsoft Eagle(14,400 个 Nvidia H100 GPU),似乎都远远落后于 xAI 机器。

早在6 月初的报道中就披露,xAI 将在占地 785,000 平方英尺的前伊莱克斯孟菲斯工厂建造一个超级计算机集群,非正式地称为“计算超级工厂” 。大孟菲斯商会在一份新闻稿中表示,xAI 的超级计算机项目是孟菲斯历史上新上市公司在该市进行的最大资本投资。

xAI 的投资规模巨大。根据Benzinga 的一份报告,每块 Nvidia H100 GPU 的成本估计在 30,000 至 40,000 美元之间。考虑到 xAI 使用了 100,000 台 Nvidia H100 单元,埃隆·马斯克的 AI 初创公司似乎为该项目花费了约30亿至40亿美元。

值得一提的是,Elon Musk旗下的特斯拉已部署了约 35,000 台 Nvidia H100用于训练自动驾驶汽车,并使用其定制的Dojo芯片开发超级计算机。

编辑/Jeffrey

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

xAI Elon Musk 超级计算机 人工智能 Grok H100 GPU 孟菲斯
相关文章