虎嗅-AI 02月26日
DeepSeek开源周观察:让所有人都能用起来R1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek在开源周活动中发布了FlashMLA,这是一个针对英伟达Hopper GPU优化的高效多头潜在注意力解码内核。FlashMLA旨在解决大模型处理变长序列时的资源浪费问题,通过深度优化Kernel,提升内存带宽利用率和计算效率。在H800 SXM5 GPU上,FlashMLA达到了3000 GB/s的内存带宽和580 TFLOPS的计算性能,大幅提升了大模型推理速度。该内核支持BF16混合精度运算,并采用了块大小为64的分页KV缓存技术,有效减少冗余计算和显存浪费。DeepSeek此举旨在通过开源核心技术,降低大模型的使用成本,加速AGI的实现。

🚀FlashMLA是DeepSeek针对英伟达Hopper GPU优化的高效多头潜在注意力解码内核,旨在解决传统大模型在处理变长序列时资源浪费的问题。

💡通过深度优化Kernel,FlashMLA显著提升了内存带宽利用率和计算效率。在H800 SXM5 GPU上,实测达到了3000 GB/s的内存带宽和580 TFLOPS的计算性能,从而大幅提升了大模型推理速度。

💰FlashMLA支持BF16混合精度运算,并采用了块大小为64的分页KV缓存技术,有效减少了冗余计算和显存浪费,帮助用户降低大模型的使用成本。

🤝DeepSeek开源FlashMLA,体现了其致力于通过开源模型推动AGI发展的决心,并希望将其计算资源投入到AGI的研发中,将产品和应用交给开源社区和下游应用。

毫无疑问,DeepSeek已经是全球开源圈毫无疑问的一哥了。今天,DeepSeek在“开源周”活动中首发了FlashMLA,这是一个专门针对英伟达Hopper GPU优化的高效多头潜在注意力解码内核。

简单来说,FlashMLA解决了传统大模型在处理变长序列时资源浪费的问题,针对MLA架构,通过深度优化Kernel,提升内存带宽利用率和计算效率。这个工作,和之前的Native Sparse Attention是类似的优化思路:

    在H800 SXM5 GPU上,FlashMLA达到了3000 GB/s的内存带宽和580 TFLOPS的计算性能,大幅提升了大模型推理速度。

    该内核支持BF16混合精度运算,并采用了块大小为64的分页KV缓存技术,有效减少冗余计算和显存浪费。

    FlashMLA的设计受到了FlashAttention 2&3以及CUTLASS项目的启发,结合了先进的注意力机制优化策略。

    只需简单执行python setup.py install即可安装,并已开源在GitHub上,迅速获得大量关注和星标。

目前看起来,DeepSeek真的是为了人类社会早日通过开源模型实现AGI操碎了心:开源了模型,发论文解释了技术,还担心你没办法做到16人民币/百万Token的成本,于是打算通过这一整个开源周,把自己是怎么优化infra核心技术都开源。看起来,DeepSeek还是希望把自己的计算资源都投入到AGI的研发中。通过R1模型做产品和应用,看起来是希望交给开源社区和下游应用了。

DeepSeek这个开源周,从“Open”的角度,看起来会吊打CloseAI的12天发布。毫无疑问,这也将进一步强化我们长期的判断:DeepSeek R1开源会极大的利好下游应用,现在不光白送一个o1级别的模型,而且贴心地帮你把成本也优化了。

对于算力,FlashMLA是完全基于Nvidia GPU做的优化,对于NV的GPU是开箱即用的,短期肯定会进一步利好DeepSeek模型在Nvidia的部署和落地,增加对Nvidia的需求。

期待接下来4天,DeepSeek每天给我们带来惊喜!

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek FlashMLA 开源 大模型 AGI
相关文章