36氪 - 科技频道 02月26日
DeepSeek 开源第三枪:加速推理只需300行代码
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek开源了高性能矩阵计算库DeepGEMM,这是一个专为提升大模型训练与推理速度的“AI数学加速器”。该工具在Hopper架构GPU上实现了FP8精度下1350+ TFLOPS的算力,代码精简而性能强大。DeepGEMM采用FP8精度,在功耗和显存占用上表现出色,同时支持稠密矩阵和混合MoE布局,适用于不同模型需求。它的开源将助力DeepSeek R2模型的算力突破,并构建全栈开源Infra体系,加速AI创新。

🚀 **FP8精度突破算力天花板**: DeepGEMM采用8位浮点数格式,以牺牲微小精度为代价,换取3倍以上的速度提升,完美适配AI场景。

💡 **极简代码实现高性能**: 仅用300行代码,通过全流程JIT编译优化,实现超越手工调优算子的性能,且无额外依赖,易于集成。

⚡️ **双模式支持适配全场景计算**: 同时支持稠密矩阵和混合MoE布局,灵活应对不同模型需求,解决专家模型计算中的通信瓶颈。

🔋 **FP8的省电模式助力推理加速**: 低精度计算大幅降低显存占用和功耗,在24G显存单卡上也能实现大模型28倍推理加速。

DeepSeek开源周迎来第三弹——高性能矩阵计算库DeepGEMM 正式开源!

这个被称为“AI数学加速器”的工具,专为提升大模型训练与推理速度而生,在Hopper架构GPU上实现FP8精度下1350+ TFLOPS的恐怖算力 ,代码极简却性能炸裂,堪称算力领域的“暴力美学”。

FP8精度,算力天花板再突破,采用8位浮点数(FP8)格式,相比传统32位浮点运算,如同用“小杯装水”替代“大桶储水”,牺牲微小精度换取 3倍以上速度提升 ,完美适配AI场景对误差的容忍性。

在Hopper GPU上实测1350+ TFLOPS (每秒1.35千万亿次浮点运算),远超市面主流显卡(如RTX 4090的400-500 TFLOPS)。

300行代码,性能碾压手工优化核心逻辑仅需300行代码 ,却通过全流程JIT编译优化 ,实现比手工调优算子更高效能,真正诠释“少即是多”。无额外依赖项,开箱即用,开发者可快速集成至现有框架。

双模式支持,适配全场景计算同时支持稠密矩阵布局 (全量数据统一计算,如全班做同一张试卷)和混合MoE布局 (分任务处理,如数学题给专家A、语文题给专家B),灵活应对不同模型需求。

FP8的“省电模式” :低精度计算大幅降低显存占用和功耗,让万亿参数大模型在24G显存单卡上也能跑出28倍推理加速 (参考KTransformers项目)。

MoE杀手级优化 :通过连续/掩码双布局 ,解决专家模型计算中的通信瓶颈,让万亿参数MoE推理“快如闪电”。极简代码哲学 :摒弃冗余设计,专注底层优化,重新定义高性能计算边界。

随着DeepGEMM的开源,DeepSeek R2模型(预计5月发布)的算力瓶颈将进一步突破。未来,从训练到推理,从单卡到分布式,DeepSeek正构建一套全栈开源Infra体系 ,让AI创新不再受制于算力成本。

根据知情人士消息,DeepSeek 正在加速推出 1 月发布的 R1 模型升级版 — DeepSeek R2。其中两位知情人士表示,DeepSeek 原计划在 5 月初发布 R2,具体时间尚未透露。

同时DeepSeek 今天也重新开放了 API 充值入口,此前因资源紧张,其曾一度关闭充值入口。目前 deepseek-chat 模型优惠期结束,调用价格已变更为每百万输入 tokens 2 元,每百万输出 tokens 8 元。

本文来自微信公众号“PConline太平洋科技”,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek DeepGEMM 开源 AI加速 FP8
相关文章