华尔街见闻 - 资讯 - undefined 02月26日
DeepSeek开源第三弹:惊人的300行代码驱动R1和V3的训练与推理,超越各种专家内核
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepGEMM是DeepSeek-AI团队打造的FP8 GEMM加速库,性能高达1350+TFLOPS,适用于多种模型,代码极简,采用JIT编译技术,有多项硬核技术加持,且开源。

🏃‍Hopper GPU上达1350+FP8 TFLOPS,提升模型训练与推理速度

📖代码极简,核心kernel函数仅300行,具可读性和可维护性

💡全JIT编译,动态优化,根据参数选择最佳kernel配置

🔧多项硬核技术加持,如精细粒度Scaling等,提升性能

DeepSeek开源周第三弹!DeepSeek-AI 重磅发布高效FP8 GEMM库 DeepGEMM:极致性能,代码精简,助力V3/R1模型训练与推理!

简单来说这是由 DeepSeek-AI 团队精心打造的 FP8 通用矩阵乘法 (GEMM) 加速库,专为追求极致性能和代码简洁而生。

我们一起来扒一扒:

Hopper GPU上狂飙1350+FP8 TFLOPS!

在算力为王的 AI 时代,矩阵乘法 (GEMM) 的效率至关重要。DeepGEMM 正是为了解决这一痛点!它充分利用 NVIDIA Hopper 架构 GPU的强大算力,在 FP8 精度下,性能 高达 1350+ TFLOPS!这意味着更快的模型训练速度,更流畅的推理体验,以及更低的计算成本!

DeepGEMM 不仅适用于传统的 稠密模型,更完美支持 混合专家模型 (MoE) 的 GEMM 计算,无论是 DeepSeek-V3 还是 R1 模型,都能得到强力加速!

代码极简!核心逻辑仅300行,堪比教程级!

你没听错!DeepGEMM 的核心 kernel 函数代码量仅有 惊人的 ~300 行! DeepSeek-AI 团队秉持着 “大道至简” 的设计理念,在保证极致性能的同时,力求代码的 可读性 和 可维护性。 即使是刚入门 CUDA 开发的同学,也能轻松理解 DeepGEMM 的实现原理,甚至可以作为学习 Hopper FP8 矩阵乘法和优化的绝佳教程!

✅ 无需编译!完全 Just-In-Time (JIT) 编译,即装即用! ✅

告别繁琐的编译过程!DeepGEMM 采用了 全 Just-In-Time (JIT) 编译 技术,所有 kernel 都在运行时动态编译,无需在安装时进行任何预编译。 这意味着你可以 即装即用 DeepGEMM,省去了大量的配置和编译时间,让你可以更专注于模型开发和实验。

DeepGEMM 的 JIT 设计还带来了额外的优势:它可以根据不同的 GEMM 形状、block size 等参数进行 动态优化,始终选择最佳的 kernel 配置,保证在各种场景下都能发挥出最佳性能。

 硬核技术解析:DeepGEMM的性能秘诀

DeepGEMM 在代码简洁的同时,性能却能比肩甚至超越一些专家调优的库,这背后离不开一系列硬核技术的加持:

DeepGEMM 虽然借鉴了 CUTLASS 和 CuTe 的一些概念,但它并没有过度依赖于复杂的模板或代数库,而是更加注重 简洁性 和 易用性。 这使得 DeepGEMM 不仅是一个高性能的计算库,更是一个学习 Hopper FP8 矩阵乘法和优化的优秀资源

实测性能数据:实力说话!

DeepGEMM 的性能究竟如何?我们用数据说话!在 DeepSeek-V3/R1 模型常用的各种 shape 上,DeepGEMM 都展现出了惊人的性能:

从数据中可以看出,DeepGEMM 在各种矩阵 shape 下都表现出色,速度提升明显! 

快速上手 DeepGEMM:只需几步!

想要体验 DeepGEMM 的强大性能? 上手非常简单!

环境要求:

安装步骤:

安装完成后,只需在你的 Python 项目中 import deep_gemm 即可开始使用

写在最后:

???? 项目地址:

https://github.com/deepseek-ai/DeepGEMM

DeepGEMM 现已以MIT许可方式正式开源!

DeepGEMM 的灵感来自 CUTLASS 项目

本文来源:AI寒武纪,原文标题:《DeepSeek开源第三弹:惊人的300行代码驱动R1和V3的训练与推理,超越各种专家内核》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepGEMM FP8 GEMM 代码简洁 JIT编译 硬核技术
相关文章