IT之家 2024年07月28日
Meta 训练 Llama 3 遭遇频繁故障:16384 块 H100 GPU 训练集群每 3 小时“罢工”一次
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta 发布的一份研究报告揭示了其用于训练 4050 亿参数模型 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天的训练过程中出现的 419 次意外故障,平均每三小时就有一次故障。其中,超过一半的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。尽管如此,Meta 团队通过一系列工具和优化策略,仍保持了 90% 以上的有效训练时间。

💥 **硬件故障频发:** Meta 在训练 Llama 3 模型过程中,其 16384 个英伟达 H100 显卡集群在 54 天内出现了 419 次意外故障,平均每三小时就有一次。其中,超过一半的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。这些故障包括 NVLink 故障、HBM3 内存故障等。 由于系统规模巨大且任务高度同步,单个显卡故障可能导致整个训练任务中断,需要重新开始。Meta 团队通过一系列工具和优化策略,包括缩短任务启动和检查点时间、利用 PyTorch 的 NCCL 飞行记录器诊断性能问题、识别拖后显卡等,来提高训练效率。 Meta 还关注到了环境因素的影响,如午间温度波动对 GPU 性能的轻微影响,以及巨量 GPU 同时运行对数据中心电网的巨大压力。

💡 **故障分析与应对:** Meta 团队对故障进行了详细分析,发现 GPU 问题是导致故障的主要原因,占意外中断的 58.7%。其中,只有三起事件需要大量人工干预,其余的由自动化管理。Meta 还发现,软件错误、网络电缆和网络适配器等因素也会导致意外中断。 为了应对这些挑战,Meta 团队开发了一系列工具和优化策略,例如缩短任务启动和检查点时间、利用 PyTorch 的 NCCL 飞行记录器诊断性能问题、识别拖后显卡等。这些措施有效地提高了训练效率,确保了模型的顺利训练。

📈 **未来挑战:** 随着人工智能模型参数量的不断增加,所需的计算资源也随之扩大。以 xAI 计划中的 10 万块 H100 显卡集群为例,故障率可能会成倍增长,给未来的 AI 训练带来更大的挑战。Meta 团队需要不断探索新的技术和方法,以应对这些挑战,确保大型 AI 模型的稳定训练和应用。

IT之家 7 月 28 日消息,Meta 发布的一份研究报告显示,其用于训练 4050 亿参数模型 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天内出现了 419 次意外故障,平均每三小时就有一次。其中,一半以上的故障是由显卡或其搭载的高带宽内存(HBM3)引起的。

由于系统规模巨大且任务高度同步,单个显卡故障可能导致整个训练任务中断,需要重新开始。尽管如此,Meta 团队还是保持了 90% 以上的有效训练时间。

IT之家注意到,在为期 54 天的预预训练中,共出现了 466 次工作中断,其中 47 次是计划中断,419 次是意外中断。计划内的中断是由于自动化维护造成的,而意外的中断则主要源于硬件问题。 GPU 问题是导致故障的主要原因,占意外中断的 58.7%。其中只有三起事件需要大量人工干预,其余的由自动化管理。

在 419 个意外中断中,148 个(30.1%)是由各种 GPU 故障(包括 NVLink 故障)引起的,而 72 个(17.2%)是由 GPU 的 HBM3 内存故障引起的。有趣的是,54 天内只有两个 CPU 发生故障。41.3% 的意外中断是由多种因素造成的,包括软件错误、网络电缆和网络适配器。

为提高效率,Meta 团队开发了一系列工具和优化策略,包括缩短任务启动和检查点时间、利用 PyTorch 的 NCCL 飞行记录器诊断性能问题、识别拖后显卡等。此外,Meta 还关注到了环境因素的影响,如午间温度波动对 GPU 性能的轻微影响,以及巨量 GPU 同时运行对数据中心电网的巨大压力。

然而,随着人工智能模型参数量的不断增加,所需的计算资源也随之扩大。以 xAI 计划中的 10 万块 H100 显卡集群为例,故障率可能会成倍增长,给未来的 AI 训练带来更大的挑战。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 训练 硬件故障 Llama 3 H100 Meta
相关文章