知乎全站热榜 02月26日
DeepSeek 开源周第三天推出 DeepGEMM,有哪些亮点值得关注?应用前景如何?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepGEMM是专为简洁高效的FP8通用矩阵乘法设计的库,采用CUDA编写,支持多种功能,是学习相关技术的优质资源,在Hopper GPU上有出色表现。

🎯DeepGEMM是为简洁高效FP8 GEMM设计的库,具细粒度缩放功能。

💻该库采用CUDA编写,安装时无需编译,运行时编译内核。

🚀它仅支持NVIDIA Hopper张量核心,采用两级累加方法解决问题。

📖设计简洁,仅含一个核心内核函数,代码量约300行。

DeepSeek 开源周第三天:DeepGEMM。 DeepGEMM 是一个专为简洁高效的 FP8 通用矩阵乘法(GEMM)设计的库,具有细粒度缩放功能,如 DeepSeek-V3 中所提出。它支持普通和混合专家(MoE)分组的 GEMM。该库采用 CUDA 编写,在安装过程中无需编译,通过使用轻量级的即时编译(JIT)模块在运行时编译所有内核。 目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心。为了解决 FP8 张量核心累加不精确的问题,它采用了 CUDA 核心的两级累加(提升)方法。虽然它借鉴了 CUTLASS 和 CuTe 的一些概念,但避免了对它们模板或代数的重度依赖。相反,该库设计简洁,仅包含一个核心内核函数,代码量约为 300 行。这使其成为学习 Hopper FP8 矩阵乘法及优化技术的清晰且易于获取的资源。 ⚡ 在 Hopper GPU 上最高可达 1350+ FP8 TFLOPS ✅ 无重度依赖,简洁如教程 ✅ 完全即时编译 ✅ 核心逻辑约 300 行 - 但在大多数矩阵尺寸上仍优于专家调优的内核 ✅ 支持密集布局和两种 MoE 布局https://github.com/deepseek-ai/DeepGEMM

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepGEMM FP8矩阵乘法 CUDA Hopper张量核心
相关文章