IT之家 06月07日 21:38
特斯拉披露百万核心 Dojo 超算故障检测技术,失误一次可致数周 AI 训练工作白费
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

特斯拉介绍了其百万核心级Dojo超算系统的故障核心检测技术。该技术名为Stress,能够在不停机状态下检测易引发静默数据错误的核心。Dojo是全球最大的处理器之一,其高复杂性使得检测缺陷尤为重要。Stress工具通过创新技术,提高了检测效率和可靠性,包括为核心分配专属负载、利用内部高带宽通信以及周期性整合寄存器值。该工具已全面集成至Dojo集群,用于AI训练期间的硬件健康监测,故障率与行业水平相当。

💡Dojo 处理器设计复杂,单芯片包含 354 个定制的 64 位 RISC-V 核心,且功耗极高,使得静默数据错误(SDC)的影响被严重放大,因此需要严密的故障检测机制。

🔬特斯拉最初采用差分模糊测试技术检测核心故障,但因通信开销过大而效率较低。为改进检测,特斯拉开发了Stress工具,该工具通过为每个核心分配专属负载、利用内部高带宽通信以及周期性整合寄存器值来提高检测效率和可靠性。

⚙️Stress 工具通过三项创新来完成:为每个核心分配 0.5MB 随机指令专属负载,利用训练模块内部高带宽通信实现核心间负载传递与顺序执行,将指令测试量提升至 4.4GB 且大幅缩短时间,增加执行环境随机性以暴露潜在错误。

✅Stress 工具不仅能检测故障核心,还能发现设计级缺陷并通过软件调整修复。该工具已全面集成至运行中的 Dojo 集群,在 AI 训练期间实施硬件健康监测,监测结果表明其故障率与谷歌和 Meta 公布的数据相当。

IT之家 6 月 7 日消息,特斯拉昨日发文,向用户介绍了其百万核心级 Dojo 超算系统的故障核心检测技术。

据介绍,该公司开发的 Stress 工具能够在不停机的状态下,跨处理器乃至跨集群检测易引发静默数据错误(SDC)的核心。

特斯拉表示,Dojo 是当前全球唯二现存的最大处理器之一。这种晶圆级芯片采用整片 300mm 晶圆制成,单芯片尺寸已达物理极限。

由于 Dojo 大芯片的超高复杂性,即使在制造过程中也难以 100% 检测缺陷晶粒,而静默数据错误的检测更困难。

虽然 SDC 在所有硬件上都难以避免,但 Dojo 处理器有着 8,850 个核心、18000A 电流及 15000W 的超高功耗,这会严重放大其影响,因此所有核心必须按设计运行,否则单个数据错误便可毁掉整个耗时数周才能完成 AI 训练成果。

特斯拉将晶圆级 Dojo 处理器称为“训练模块”,每个模块包含 25 个 645mm² 的 D1 Chip,采用台积电 InFO_SoW 技术封装,集成 354 个定制的 64 位 RISC-V 核心(含 1.25MB SRAM 用于存储数据和指令),以 5×5 集群排列并通过机械网络互联,可提供 10TB/s 带宽。每个 D1 还支持 4TB/s 片外带宽,因此单个“训练模块”总共具备 8,850 核心,支持 8/16/32/64 位整数及多种数据格式。

为应对核心故障风险,特斯拉最初采用差分模糊测试技术:生成随机指令集并同步发送至所有核心,通过比对输出结果识别差异。但因为主机与训练模块间通信开销过大,该过程耗时明显过长。

为了提高效率,特斯拉想办法改进了其检测技术,这个过程主要通过三项创新来完成:

特斯拉表示,该技术不仅适用于训练模块层级或集成 12 个模块的机柜层级,更可在集群层级运作,实现百万级运行核心中的故障定位。

特斯拉报告显示,经优化配置的 Stress 监测系统在 Dojo 集群中检出大量故障核心。检测耗时分布呈现两极分化:多数缺陷在执行 1GB-100GB 负载指令(数秒至数分钟)时被发现;难检测缺陷需执行 1000GB 以上指令(数小时)。

需强调的是,Stress 工具测试负载轻量且核心自包含,支持后台测试无需离线。最终仅故障核心会被禁用,且每个 D1 芯片可容忍数个核心失效而不影响整体功能。

特斯拉透露,Stress 工具除检测故障核心外,还能发现罕见设计级缺陷并通过软件调整修复。在监测系统广泛部署期间,多个底层软件问题也被发现并修正。IT之家从官方获悉,目前 Stress 工具已全面集成至运行中的 Dojo 集群,在 AI 训练期间实施硬件健康监测。特斯拉表示,通过该监测观察到的故障率与谷歌和 Meta 公布的数据相当,表明监测工具与硬件水准达到行业同等水平。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

特斯拉 Dojo 超算 故障检测 AI
相关文章