富途牛牛头条 02月24日
算力成本又挨「一刀」!DeepSeek開源周首日:開源FlashMLA,AI推理速度再進化
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek宣布启动“开源周”,首个开源代码库FlashMLA已投入生产。它针对英伟达Hopper架构GPU优化,能提升大模型推理效率,降低推理成本,后续还将陆续开源5个代码库。

🎯FlashMLA是针对英伟达Hopper架构GPU优化的高效MLA解码内核

💪在变长序列场景深度优化,提升大模型推理效率

📈突破GPU算力瓶颈,推理成本进一步降低

🛠️运行环境有特定要求,通过特定命令完成配置

突破H800计算上限!DeepSeek放出第一个开源库,FlashMLA再掀降本潮?

2月24日周一,DeepSeek宣布启动“开源周”,首个开源的代码库为Flash MLA,目前已投入生产。

据介绍,FlashMLA的灵感来自 FlashAttention 2&3 和 cutlass 项目,是针对英伟达Hopper架构的GPU优化的高效MLA解码内核,主要在变长序列 (variable-length sequences) 的场景进行了深度优化,能够显著提升大模型推理效率。

突破GPU算力瓶颈,推理成本进一步降低

MLA是DeepSeek提出的创新注意力架构,是DeepSeek在系列模型中实现成本大幅降低的关键所在。分析认为,随着FlashMLA的应用,算力成本有望继续下降。

一般来说,大模型主要包含训练和推理解码两个阶段。有分析表示,如果能在解码阶段有更强的核优化序列,意味着大模型可以更快地产出结果,这对实时生成任务(如聊天机器人、长上下文对话等)来说尤为关键。

开源网页信息显示,FlashMLA 的运行环境要求包括Hopper GPU、CUDA 12.3及以上版本以及PyTorch 2.0及以上版本,只需通过`python setup.py install`即可完成配置。

性能方面,FlashMLA在CUDA 12.6环境下,H800 SXM5内存受限配置下可实现3000 GB/s的带宽,计算受限配置下则可达580 TFLOPS的算力。

因此,可以将FlashMLA理解为:DeepSeek专门针对英伟达H800这一代高端加速卡做的深度优化。

有网友指出,FlashMLA的计算速度已达行业平均水准的8倍,甚至超过了H800 1681GB/s的传输峰值。

这意味着,通过使用FlashMLA,可以在更少的Hopper GPU服务器的情况下部署完成相同的任务量,而无需昂贵的硬件升级,使推理成本大大下降。

上周五,DeepSeek宣布,接下来一周会陆续开源5个代码库,每日都有新内容解锁,进一步分享新的进展。

编辑/ping

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek FlashMLA 英伟达Hopper架构 推理效率 降本
相关文章