Cnbeta 07月01日 12:26
AMD Instinct加速卡八卡1.5TB显存困扰Linux系统:无法休眠
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

随着AI计算对显存需求的增长,高带宽内存(HBM)加速卡的容量不断扩大,但这也给Linux系统带来了新的挑战。当服务器配备多块大容量显存的加速卡时,例如总显存达到1.5TB,Linux的休眠功能可能会失效。问题出在休眠过程中,系统需要将GPU显存数据卸载到内存中,并创建休眠镜像。由于显存容量过大,休眠镜像的大小可能超过系统内存容量,导致休眠失败。针对这一问题,AMD工程师提出了解决方案,旨在减少休眠时需要复制的内存量,并优化休眠恢复时间。

💾 随着AI加速计算卡的发展,HBM显存容量不断增大,AMD和NVIDIA的加速卡已达到192GB,未来甚至可能增至288GB,这给Linux系统带来了新的挑战。

💡 当服务器配备多块大容量显存的加速卡时,例如八块AMD Instinct加速卡,总显存达到1.5TB,Linux的休眠功能会失效。问题在于Linux在休眠过程中GPU显存的处理方式。

❌ 系统休眠时,GPU显存数据会被卸载到系统内存,然后内核会复制所有系统内存中的数据,包括显存,创建一个休眠镜像。如果显存容量过大,休眠镜像的大小可能超过系统内存容量,导致休眠失败。

👨‍💻 AMD工程师提出了解决方案,旨在减少休眠时需要复制的内存容量,从而解决休眠问题。但减少复制量会导致休眠恢复时间过长,因此又加入了新补丁来缩短恢复时间。

如今的AI加速计算卡配备的HBM高带宽内存(显存)容量越来越大,AMD、NVIDIA都都做到了惊人的192GB,而且即将增加到288GB,没想到给Linux造成了不小的困扰。AMD工程师Sameul Zhang在最新的Linux补丁中透露,如果一套系统配备多块AMD Instinct加速卡,超大容量显存会导致系统无法休眠。

比如某台服务器安装了八块AMD Instinct加速卡,单卡显存192GB,总计达到1.5TB,Linux就没办法正常休眠了。问题出自Linux在休眠过程中的GPU显存处理方式。

系统休眠时,所有的GPU显存都会卸载到系统内存,一般通过GTT(图形转换表)或者共享内存(shmem)。

然后,系统内核复制所有系统内存中的数据(包括处于evicted状态的显存),创建一个休眠镜像,放入第二个内存区域,用于后续结束休眠的时候重新写入磁盘。

简单地说,如果有1.5TB显存,休眠系统镜像就会最大达到3TB,从而超过2TB系统内存容量,自然无法再休眠。

当然,这个问题不止是AMD,任何大显存的GPU加速卡并行都会出现。

Sameul Zhang为此提出了自己的解决建议,主要是减少休眠时所需复制的内存容量,但这会导致休眠恢复时间过长,可能接近1个小时,所以又加入了一个新补丁,跳过一些步骤,从而大大缩短休眠恢复的时间。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI加速卡 HBM显存 Linux休眠 AMD
相关文章