就在刚刚,华为首次亮相了一套“虚”的技术——
数字化风洞,一个在正式训推复杂AI模型之前,可以在电脑中“彩排”的虚拟环境平台。

这套有种《黑客帝国》意味般的技术(都是通过虚拟世界预演现实),是由华为马尔科夫建模仿真团队构建,可以小时级预演万卡集群方案。
而之所以要在真枪实弹训推复杂AI模型之前来这么一个步骤,是因为华为研究团队发现,超过60%的算力浪费在硬件资源错配与系统耦合上。
于是,就像汽车设计师用风洞测试新车性能一样,华为通过这个平台在电脑里模拟AI大模型训练和推理的过程,便提前发现问题并优化配置。
一言蔽之,为的就是避免浪费时间和算力。
更具体来看,如果把运行大模型类比成开一辆高性能赛车,那么当下的痛点就主要集中在三点:
而数字化风洞在这个过程中起到的作用,就像是一位让AI算力“少踩坑、跑得更快更稳”的智能调度专家。
并且是对上述三大痛点逐一击破的那种。
Sim2Train:小时级自动寻优
训练大模型这件事可以说是越来越复杂,例如由于参数量越发庞大,就会对硬件提出更高的要求,传统的调度策略没法充分发挥它们的潜力。
因此,华为团队提出了一个叫做Sim2Train的仿真平台,用来模拟训练过程,找到最优的硬件配置和训练策略,让昇腾设备跑得更快、更高效。
这个平台主要的发力点在两个方面。
首先是模拟训练过程。
具体的方法叫做动静态融合的大规模训练集群建模仿真,可以通过模块化拼装AI任务流程,像搭积木一样灵活构建复杂模型,快速分析计算、内存和通信的资源消耗。
再结合对昇腾硬件的深度适配能力,静态规划与动态调优双管齐下,精准提升大规模训练集群的运行效率。
其次是自动寻找最优方案。
它可以实现面向昇腾平台的模型结构智能搜索与优化,做到模型性能与功能能力的最优均衡。
面对CloudMatrix昇腾超节点复杂拓扑结构,Sim2Train还可以做到芯片级、拓扑级与负载级的全栈架构建模与策略联合优化。
并且基于实时数据采集与自动反馈校准机制,完成对硬件的细粒度抽象建模,全面支撑昇腾集群在多样化负载场景下的高效部署策略自动求解与智能生成。

△Sim2Train训练仿真系统框架
Sim2Infer:分钟级动态加速
除了训练阶段,华为在仿真推理过程中也有妙招——Sim2Infer,让端到端推理性能提升30%。
它是一个多层级的推理系统建模仿真,核心能力可以分为五点:
除此之外,Sim2Infer还通过软硬协同的建模仿真驱动一系列的推理系统创新优化。包括:

△Sim2Infer推理仿真系统框架
Sim2Availability:秒级故障定位
除了训推之外,如何保证大模型在诸如万卡集群上稳定、有效运行,也是一个关键问题——高可用。
为此,同样是以仿真的形式,华为的解法便是Sim2Availability。
就像用电脑模拟天气一样,这个框架通过建立马尔科夫模型,在计算机里 “虚拟” 出一个集群,模拟各种故障发生,检测及后续影响和恢复的过程,从而分析如何提升可用度。
Sim2Availability在做模拟的关键环节包括:
这些环节可以高效精准构建集群系统对计算、存储、网络的“状态监控”,通过马尔科夫链刻画系统的随机行为,将系统离散化为有限状态(如“健康”、“亚健康”、“故障”等),并基于事件驱动构建状态转移模型,从宏观视角掌控全局硬件系统状态。

△Sim2Availability高可用仿真系统框架
以上便是关于华为“数字化风洞”的大致内容,更多详情可戳。
技术报告地址:
https://gitcode.com/ascend-tribe/ascend-cluster-infra/blob/main/SystemSim/ascend-cluster-infra-sim.md
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🌟 点亮星标 🌟
内容中包含的图片若涉及版权问题,请及时与我们联系删除