热点
关于我们
xx
xx
"
GPU 故障
" 相关文章
Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱,气温波动都会影响吞吐量
智源社区
2024-07-30T07:07:01.000000Z
训练一次经历 419 次意外故障,英伟达 GPU 也差点玩不转 405B 模型,全靠 Meta 工程师后天救场
36kr-科技
2024-07-29T07:51:21.000000Z