快科技资讯 02月26日
原生FP8!摩尔线程GPU闪电适配DeepSeek开源库FlashMLA、DeepGEMM
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

摩尔线程作为国产GPU代表,在DeepSeek启动“开源周”后,快速完成对FlashMLA、DeepGEMM的适配。其GPU基于新架构,具备多种优势,相关开源仓库也有重要作用。

🎯摩尔线程GPU基于MUSA Compute Capability 3.1计算架构,提供FP8精度计算能力。

🚀升级MUTLASS,支持FlashMLA,优化实现FP8矩阵乘法,支持DeepGEMM功能。

💪FlashMLA可加速MLA机制计算,DeepGEMM为训练与推理提供动力,均基于GEMM库开发。

快科技2月26日消息,DeepSeek启动“开源周”以来,已经陆续开源了三个代码库,而作为国产GPU的代表,摩尔线程已经快速完成对FlashMLA、DeepGEMM的适配。

摩尔线程GPU基于全新的MUSA Compute Capability 3.1计算架构,可提供原生的FP8精度计算能力,同时升级了高性能线性代数模板库MUTLASS,快速支持FlashMLA。

不仅如此,摩尔线程还基于MUTLASS,在全新GPU架构上优化实现了FP8矩阵乘法,支持DeepGEMM的相应功能。

FlashMLA是一款高效的MLA推理内核开源仓库,可以加速MLA机制的计算,特别适用于DeepSeek系列模型,包括DeepSeek-V2、V3、R1。

DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,可以为V3/R1的训练与推理提供强大动力。

这两个重要的开源仓库,都基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发。

摩尔线程基于新一代计算架构MUSA Compute Capability 3.1的全功能GPU,具备全新的Tensor计算引擎及数据搬运引擎,能够提供原生FP8计算能力。

升级的MUTLASS高性能线性代数模板库,支持MUSA Compute Capability 3.1的全新特性,并提供了若干算子的优化参考实现,包括基于FlashAttention3思想实现的FlashMLA以及FP8矩阵乘算子,特别支持DeepSeek训练所需的Groupwise Scaling FP8矩阵乘法内核函数。

得益于全新的Tensor计算引擎,FP8计算具有足够高的累加精度,无需额外的二次精度修正,为前沿算法的探索打下了坚实基础。

借助MUTLASS 0.2.0,摩尔线程发布了开源仓库MT-FlashMLA,能够快速对DeepSeek FlashMLA进行兼容部署。

同时,摩尔线程MUTLASS提供了一个全新的参考实现,充分汲取FlashAttention3的先进算法思想,针对摩尔线程GPU设计了全新的计算流水线。

这一设计能够有效掩藏数据搬运的延迟和Softmax计算的开销,充分发挥摩尔线程MUSA Compute Capability 3.1全功能GPU的Tensor计算效率。

▼ MT-FlashMLA开源地址:

https://github.com/MooreThreads/MT-flashMLA

▼ MUTLASS FlashAttention3地址:

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

▼ MUTLASS FP8 GEMM地址:

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

摩尔线程 FlashMLA DeepGEMM GPU
相关文章