DeepSeek 开源第三枪：加速推理只需300行代码

DeepSeek开源周迎来第三弹——高性能矩阵计算库DeepGEMM 正式开源！

这个被称为“AI数学加速器”的工具，专为提升大模型训练与推理速度而生，在Hopper架构GPU上实现FP8精度下1350+ TFLOPS的恐怖算力，代码极简却性能炸裂，堪称算力领域的“暴力美学”。

FP8精度，算力天花板再突破，采用8位浮点数（FP8）格式，相比传统32位浮点运算，如同用“小杯装水”替代“大桶储水”，牺牲微小精度换取 3倍以上速度提升，完美适配AI场景对误差的容忍性。

在Hopper GPU上实测1350+ TFLOPS （每秒1.35千万亿次浮点运算），远超市面主流显卡（如RTX 4090的400-500 TFLOPS）。

300行代码，性能碾压手工优化核心逻辑仅需300行代码，却通过全流程JIT编译优化，实现比手工调优算子更高效能，真正诠释“少即是多”。无额外依赖项，开箱即用，开发者可快速集成至现有框架。

双模式支持，适配全场景计算同时支持稠密矩阵布局（全量数据统一计算，如全班做同一张试卷）和混合MoE布局（分任务处理，如数学题给专家A、语文题给专家B），灵活应对不同模型需求。

FP8的“省电模式” ：低精度计算大幅降低显存占用和功耗，让万亿参数大模型在24G显存单卡上也能跑出28倍推理加速（参考KTransformers项目）。

MoE杀手级优化：通过连续/掩码双布局，解决专家模型计算中的通信瓶颈，让万亿参数MoE推理“快如闪电”。极简代码哲学：摒弃冗余设计，专注底层优化，重新定义高性能计算边界。

随着DeepGEMM的开源，DeepSeek R2模型（预计5月发布）的算力瓶颈将进一步突破。未来，从训练到推理，从单卡到分布式，DeepSeek正构建一套全栈开源Infra体系，让AI创新不再受制于算力成本。

根据知情人士消息，DeepSeek 正在加速推出 1 月发布的 R1 模型升级版 — DeepSeek R2。其中两位知情人士表示，DeepSeek 原计划在 5 月初发布 R2，具体时间尚未透露。

同时DeepSeek 今天也重新开放了 API 充值入口，此前因资源紧张，其曾一度关闭充值入口。目前 deepseek-chat 模型优惠期结束，调用价格已变更为每百万输入 tokens 2 元，每百万输出 tokens 8 元。

本文来自微信公众号“PConline太平洋科技”，36氪经授权发布。

Fish AI Reader