快科技资讯 2024年08月19日
连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

摩尔线程发布夸娥智算集群KUAE 1.2版本,通过软硬件优化,在功能、性能上多维升级,为大模型训练提供算力支撑。

🧐KUAE 1.2版本中,千卡集群训练千亿模型时MFU提升10%,稠密模型集群训练中MFU最高达55%,提升了模型算力利用率。

💡集成最新MUSA SDK平台与优化后的Flash Attention2技术,结合新版Torch MUSA和算子融合,提高大模型训练效率,降低成本。

📄增强对长文本大模型训练的支持,优化处理长文本理解和生成任务的能力,更好应对文档摘要、文章写作等任务。

🤝支持混合专家模型MoE,完成CCL通信库的All2All优化及muDNN算子优化,提升智算效率,为大规模参数大模型训练提供基础。

🔄进一步提升大模型训练的Checkpoint读写性能,写入时间小于2秒,提高训练效率。

🎛优化DeepSpeed支持,适配多款大模型,创新型企业可灵活选择开发智能应用。

💪千卡集群软硬件进一步成熟,连续无故障训练长达15天,引入可靠性功能加强监控与故障恢复能力。

👀引入PerfSight性能监控系统,实时显示资源消耗与性能分析数据,满足大模型性能调优需求。

📦内置模型库新增LLaMA2全系列大模型等多种模型。

快科技8月19日消息,摩尔线程正式发布了夸娥智算集群KUAE 1.2版本,通过软硬件层面的综合性优化,在功能、性能上多维升级,更高效、稳定,对生态系统更友好,可为大模型训练提供更坚实可靠的算力支撑。

夸娥1.2主要升级点:

▼MFU提升10% 最高可达55%

在新版本中,使用千卡集群训练千亿模型,MFU(模型算力利用率)提升10%。

稠密模型集群训练中,MFU最高达到55%。

▼Flash Attention2优化

通过集成最新的MUSA SDK平台与优化后的Flash Attention2技术,结合新版Torch MUSA和算子融合,显著提升了大模型训练的效率与资源利用率,大幅缩短训练周期,并降低了整体成本。

▼64K长文本支持

增强了对长文本大模型训练的支持,优化了处理长文本理解和生成任务的能力,能够更好地应对文档摘要、文章写作等复杂语言处理任务。

▼支持混合专家模型MoE

MCCL通信库完成了All2All优化,并针对muDNN算子在不同形状下的矩阵运算进行了优化,以更好地支持MoE(Mixture of Experts)大模型的训练。

这不仅提升了智算效率,还为更大规模参数的大模型训练提供了高度可扩展的基础。

▼断点续训

进一步提升了大模型训练的Checkpoint(检查点)读写性能,写入时间小于2秒,显著提高训练效率。

▼优化DeepSpeed

支持DeepSpeed、Ulysses的适配和性能优化,强化了长文本训练支持。

适配国内外多款大模型,在Hugging Face上支持训练和微调主要的开源大模型,创新型企业可以灵活选择不同的大模型开发智能应用。

▼稳定性提升

千卡集群软硬件进一步成熟,实现了连续无故障训练长达15天。

新版本引入了KUAE Aegis可靠性功能,加强了对GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。

▼可视化/可观测

引入了PerfSight性能监控系统,可实时显示模型训练过程中的资源消耗与性能分析数据,有助于快速发现并恢复训练期间的故障,满足大模型上的性能调优需求。

▼内置模型库中新增大模型

KUAE内置模型库Model Zoo新增LLaMA2全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

摩尔线程 夸娥智算集群 大模型训练 算力支撑
相关文章