快科技资讯 02月26日
DeepSeek第三弹:开源DeepGEMM!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek履行开源周承诺,发布了专注于FP8高效通用矩阵乘法的DeepGEMM库。该库支持普通及混合专家分组的矩阵计算,动态优化资源分配以提升算力效率。基于CUDA开发,采用轻量级即时编译模块,运行时动态编译内核,无需预先编译安装。DeepGEMM旨在为DeepSeek-V3/R1模型的训练与推理提供简洁高效的底层支持,尤其针对Hopper架构GPU优化,兼顾高性能与低成本。此次开源是DeepSeek开源周的第三项成果,延续了其降低高性能计算技术应用门槛的策略。

🚀DeepGEMM是一个专注于为FP8高效通用矩阵乘法(GEMM)的库,支持普通及混合专家(MoE)分组的矩阵计算需求,旨在提升算力效率。

💻DeepGEMM基于CUDA开发,采用轻量级即时编译(JIT)模块,在运行时动态编译内核,无需预先编译安装,简化了使用流程。

🎯DeepGEMM的设计目标是为DeepSeek-V3/R1模型的训练与推理提供简洁高效的底层支持,特别针对Hopper架构GPU(如H800)进行了优化,实现了高性能与低成本的平衡。

快科技2月26日消息,今天上午9点,DeepSeek继续履行开源周承诺,发布了开源DeepGEMM。该帖子一经转发,立即引来了2.1万阅读量,足以见其在国内外受到追捧的热度。

据了解,DeepGEMM是一个专注于为FP8高效通用矩阵乘法(GEMM)库,支持普通及混合专家(MoE)分组的矩阵计算需求,可动态优化资源分配以提升算力效率。

该库基于CUDA开发,采用轻量级即时编译(JIT)模块,在运行时动态编译内核,无需预先编译安装。

值得一提的是,DeepGEMM设计目标是为DeepSeek-V3/R1模型的训练与推理提供简洁高效的底层支持,尤其针对Hopper架构GPU(如H800)优化,兼顾高性能与低成本。

作为开源周的第三项成果,DeepGEMM的发布延续了DeepSeek此前开源模型与工具(如FlashMLA)的策略,进一步降低高性能计算技术的应用门槛。

另外,本次开源属于DeepSeek“开源周”(2月24日-28日)的第三项项目,此前已发布FlashMLA(高效解码内核)和DeepEP(专家并行通信库)

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek DeepGEMM 开源 FP8 AI模型训练
相关文章