DeepSeek 开源周第三天:DeepGEMM。 DeepGEMM 是一个专为简洁高效的 FP8 通用矩阵乘法(GEMM)设计的库,具有细粒度缩放功能,如 DeepSeek-V3 中所提出。它支持普通和混合专家(MoE)分组的 GEMM。该库采用 CUDA 编写,在安装过程中无需编译,通过使用轻量级的即时编译(JIT)模块在运行时编译所有内核。 目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心。为了解决 FP8 张量核心累加不精确的问题,它采用了 CUDA 核心的两级累加(提升)方法。虽然它借鉴了 CUTLASS 和 CuTe 的一些概念,但避免了对它们模板或代数的重度依赖。相反,该库设计简洁,仅包含一个核心内核函数,代码量约为 300 行。这使其成为学习 Hopper FP8 矩阵乘法及优化技术的清晰且易于获取的资源。 ⚡ 在 Hopper GPU 上最高可达 1350+ FP8 TFLOPS ✅ 无重度依赖,简洁如教程 ✅ 完全即时编译 ✅ 核心逻辑约 300 行 - 但在大多数矩阵尺寸上仍优于专家调优的内核 ✅ 支持密集布局和两种 MoE 布局https://github.com/deepseek-ai/DeepGEMM