IT之家 2024年08月19日
摩尔线程“夸娥智算集群 KUAE” 1.2 版本发布:支持 64K 长文本、新增 LLaMA2 全系列大模型等
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

摩尔线程“夸娥智算集群 KUAE”1.2版本正式推出,对软硬件进行优化,新增多种功能及模型,提升训练效率等。

🎈摩尔线程“夸娥智算集群 KUAE”1.2版本在软硬件层面综合性优化,MFU提升10%,稠密模型集群训练MFU最高达55%,提升了大模型训练的性能。

💡新版本通过集成最新技术和优化,如Flash Attention2优化、支持64K长文本等,增强了对长文本大模型训练的支持,提升了处理复杂语言任务的能力。

🌟该版本支持混合专家模型,完成All2All优化,提升大模型训练效率;实现DeepSpeed适配和性能优化,强化长文本训练支持;引入可靠性功能,加强监控与故障恢复能力。

🎉KUAE内置模型库新增多种模型,且其AI旗舰产品夸娥智算集群解决方案将扩展至万卡规模,并开展三个万卡集群项目。

IT之家 8 月 19 日消息,摩尔线程“夸娥智算集群 KUAE” 1.2 版本正式发布。该版本对软硬件层面的综合性进行优化,支持 64K 长文本、新增 LLaMA2 全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。

IT之家整理此次更新内容如下:

MFU 提升 10%,最高可达 55%

    新版本使用千卡集群训练千亿模型,MFU 提升 10%。

    稠密模型集群训练 MFU 最高达到 55%。

Flash Attention2 优化

    通过集成最新的 MUSA SDK 平台与优化后的 Flash Attention2 技术,结合新版 Torch MUSA 和算子融合,提升了大模型训练的效率与资源利用率,缩短训练周期并降低了整体成本。

64K 长文本支持

    新版本增强了对长文本大模型训练的支持,优化处理长文本理解和生成任务的能力,能够更好地应对文档摘要、文章写作等复杂语言处理任务。

支持混合专家模型 MoE

    MCCL 通信库完成 All2All 优化,针对 muDNN 算子在不同形状下的矩阵运算进行优化,以更好地支持 MoE(Mixture of Experts)大模型的训练。

断点续训

    进一步提升大模型训练的 Checkpoint 读写性能,写入时间小于 2 秒,提高训练效率。

优化 DeepSpeed

    实现了基于摩尔线程 GPU 集群的 DeepSpeed 与 Ulysses 的适配和性能优化,强化长文本训练支持。

    适配国内外多款大模型,在 Hugging Face 上支持训练和微调主要开源大模型。

稳定性提升

    千卡集群软硬件进一步成熟,实现连续无故障训练 15 天。

    新版本引入了 KUAE Aegis 可靠性功能,加强对 GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。

可视化 / 可观测

    引入 PerfSight 性能监控系统,可实时显示模型训练过程中的资源消耗与性能分析数据。

内置模型库中新增大模型

    KUAE 内置模型库 Model Zoo 新增 LLaMA2 全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。

IT之家此前报道,摩尔线程 AI 旗舰产品夸娥(KUAE)智算集群解决方案从当前的千卡级别扩展至万卡规模,具备万 P 级浮点运算能力。摩尔线程将开展三个万卡集群项目,分别为青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

摩尔线程 夸娥智算集群 大模型训练 软硬件优化
相关文章