掘金 人工智能 02月24日
刚刚,DeepSeek开源FlashMLA,推理加速核心技术,Star量飞涨中
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek本周为开源周,已开源用于Hopper GPU的高效MLA解码核FlashMLA。该项目上线后获高关注度,速度快,对可变长度序列服务优化,有特定部署要求,发布后好评如潮。

💻DeepSeek本周是开源周,将连续开源五个软件库

🚀开源的FlashMLA是适用于Hopper GPU的高效解码核

⚙️部署FlashMLA需要Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.0及以上版本

👍该项目速度快,发布后好评如潮

上周五,DeepSeek 发推说本周将是开源周(OpenSourceWeek),并将连续开源五个软件库。第一个项目,果然与推理加速有关。北京时间周一上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA。该项目上线才 45 分钟就已经收获了超过 400 star!并且在我们截图时,Star 数量正在疯狂飙升。项目地址:github.com/deepseek-ai…众所周知,MLA 是 DeepSeek 大模型的重要技术创新点,主要就是减少推理过程的 KV Cache,从而实现在更少的设备上推理更长的 Context,极大地降低推理成本。此次 DeepSeek 直接开源了该核心技术的改进版本,可以说是诚意满满。接下来,就让我看下这个开源项目的核心内容。据介绍,FlashMLA 是适用于 Hopper GPU 的高效 MLA 解码内核,针对可变长度序列服务进行了优化。目前已发布的内容有:其速度非常快,在 H800 SXM5 GPU 上具有 3000 GB/s 的内存速度上限以及 580 TFLOPS 的计算上限。在部署这个项目之前,你需要的有: Hopper GPU CUDA 12.3 及以上版本 PyTorch 2.0 及以上版本快速启动python setup.py installpython tests/test_flash_mla.py使用 CUDA 12.6,在 H800 SXM5 上,在内存绑定配置下实现高达 3000 GB/s,在计算绑定配置下实现 580 TFLOPS。from flash_mla import get_mla_metadata, flash_mla_with_kvcachetile_scheduler_metadata, num_splits = get_mla_metadata (cache_seqlens, s_q * h_q //h_kv, h_kv)for i in range (num_layers):...o_i, lse_i = flash_mla_with_kvcache (q_i, kvcache_i, block_table, cache_seqlens, dv,tile_scheduler_metadata, num_splits, causal=True,)...该项目发布后也是好评如潮。甚至有网友打趣地表示:「听说第五天会是 AGI」。最后,还是那句话:这才是真正的 OpenAI

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek MLA解码核 开源周 Hopper GPU
相关文章