掘金 人工智能 前天 18:18
华为版《黑客帝国》首次亮相:训推复杂 AI 前先 “彩排”,小时级预演万卡集群
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华为推出数字化风洞技术,旨在通过虚拟环境平台预演AI大模型训练和推理过程,从而优化配置,避免算力浪费。该技术主要针对训练、推理和万卡集群三个关键环节的痛点,分别提供Sim2Train、Sim2Infer和Sim2Availability解决方案。Sim2Train用于小时级自动寻优,提升训练效率;Sim2Infer实现分钟级动态加速,优化推理性能;Sim2Availability则侧重于秒级故障定位,保障集群稳定运行。这项技术有助于AI算力更高效、稳定地运行。

⚙️Sim2Train:华为推出的训练仿真平台,通过模拟训练过程,找到最优的硬件配置和训练策略,以提升昇腾设备的运行效率。该平台通过动静态融合的大规模训练集群建模仿真,灵活构建复杂模型,并结合昇腾硬件的深度适配能力,实现高效部署。

🚀Sim2Infer:用于推理阶段的仿真平台,能够实现分钟级动态加速,提升端到端推理性能。它通过模拟负载特征、分析硬件架构、描述部署策略等方式,自动搜索最优的模型结构、部署策略和硬件配置,并驱动推理系统创新优化。

🛡️Sim2Availability:针对万卡集群稳定运行设计的仿真框架,通过模拟各种故障发生,检测及后续影响和恢复的过程,提升可用度。它包括故障“生成器”、“探测器”、“影响分析”和恢复“策略库”等环节,高效精准构建集群系统对计算、存储、网络的“状态监控”。

就在刚刚,华为首次亮相了一套 “虚” 的技术——

数字化风洞,一个在正式训推复杂 AI 模型之前,可以在电脑中 “彩排” 的虚拟环境平台

这套有种《黑客帝国》意味般的技术(都是通过虚拟世界预演现实),是由华为马尔科夫建模仿真团队构建,可以小时级预演万卡集群方案

而之所以要在真枪实弹训推复杂 AI 模型之前来这么一个步骤,是因为华为研究团队发现,超过 60% 的算力浪费在硬件资源错配与系统耦合上。

于是,就像汽车设计师用风洞测试新车性能一样,华为通过这个平台在电脑里模拟 AI 大模型训练和推理的过程,便提前发现问题并优化配置。

一言蔽之,为的就是避免浪费时间和算力

更具体来看,如果把运行大模型类比成开一辆高性能赛车,那么当下的痛点就主要集中在三点:

而数字化风洞在这个过程中起到的作用,就像是一位让 AI 算力 “少踩坑、跑得更快更稳” 的智能调度专家。

并且是对上述三大痛点逐一击破的那种。

Sim2Train:小时级自动寻优

训练大模型这件事可以说是越来越复杂,例如由于参数量越发庞大,就会对硬件提出更高的要求,传统的调度策略没法充分发挥它们的潜力。

因此,华为团队提出了一个叫做 Sim2Train 的仿真平台,用来模拟训练过程,找到最优的硬件配置和训练策略,让昇腾设备跑得更快、更高效。

这个平台主要的发力点在两个方面。

首先是模拟训练过程

具体的方法叫做动静态融合的大规模训练集群建模仿真,可以通过模块化拼装 AI 任务流程,像搭积木一样灵活构建复杂模型,快速分析计算、内存和通信的资源消耗。

再结合对昇腾硬件的深度适配能力,静态规划与动态调优双管齐下,精准提升大规模训练集群的运行效率。

其次是自动寻找最优方案

它可以实现面向昇腾平台的模型结构智能搜索与优化,做到模型性能与功能能力的最优均衡。

面对 CloudMatrix 昇腾超节点复杂拓扑结构,Sim2Train 还可以做到芯片级、拓扑级与负载级的全栈架构建模与策略联合优化。

并且基于实时数据采集与自动反馈校准机制,完成对硬件的细粒度抽象建模,全面支撑昇腾集群在多样化负载场景下的高效部署策略自动求解与智能生成。

Sim2Train 训练仿真系统框架

Sim2Infer:分钟级动态加速

除了训练阶段,华为在仿真推理过程中也有妙招——Sim2Infer,让端到端推理性能提升 30%

它是一个多层级的推理系统建模仿真,核心能力可以分为五点:

    模拟负载特征:把不同模型和输入数据的计算、内存访问、通信需求用数学模型表示出来。比如,MoE 模型中,不同专家被激活的频率、数据在不同设备间的传输量等。

    分析硬件架构:从芯片微架构(如 3D Cube 张量加速引擎)到整个集群的网络拓扑(如多台服务器怎么互联),全方位模拟硬件性能。

    描述部署策略:支持配置各种推理策略,比如数据并行(多个设备处理不同数据)、张量并行(拆分计算任务)等,看哪种策略在昇腾上效率最高。

    驱动仿真运行:用 “离散事件” 模拟推理过程,比如某个算子何时开始计算、数据何时传输,精确计算整个推理流程的耗时。

    自动搜索优化:给定约束条件(如延迟不超过 20ms),自动搜索最优的模型结构、部署策略和硬件配置。

除此之外,Sim2Infer 还通过软硬协同的建模仿真驱动一系列的推理系统创新优化。包括:

    建模分析系统参数与模型设计因素的关联关系,提出昇腾推理亲和的 MoE 模型结构建议。

    大 EP 场景 MoE 模型的最佳推理部署方案寻优。

    通过多维代价模型建模,从访存优化、负载均衡、计算通信掩盖、算子融合等多维度实现基于昇腾平台的软硬件协同推理加速创新。

Sim2Infer 推理仿真系统框架

Sim2Availability:秒级故障定位

除了训推之外,如何保证大模型在诸如万卡集群上稳定、有效运行,也是一个关键问题——高可用

为此,同样是以仿真的形式,华为的解法便是 Sim2Availability

就像用电脑模拟天气一样,这个框架通过建立马尔科夫模型,在计算机里 “虚拟” 出一个集群,模拟各种故障发生,检测及后续影响和恢复的过程,从而分析如何提升可用度。

Sim2Availability 在做模拟的关键环节包括:

这些环节可以高效精准构建集群系统对计算、存储、网络的 “状态监控”,通过马尔科夫链刻画系统的随机行为,将系统离散化为有限状态(如“健康”、“亚健康”、“故障” 等),并基于事件驱动构建状态转移模型,从宏观视角掌控全局硬件系统状态。

Sim2Availability 高可用仿真系统框架

以上便是关于华为 “数字化风洞” 的大致内容,更多详情可戳

技术报告地址:
gitcode.com/ascend-trib…

欢迎在评论区留下你的想法!

—  —

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

华为 数字化风洞 AI模型
相关文章