一支烟花AI 02月24日
Deepseek NSA可能是 Transfermer 的新解法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek AI 推出 Native Sparse Attention (NSA),为大模型处理超长序列问题提供了新解法。NSA 通过三分支稀疏化(Compression、Selection、Sliding)结合 GPU 的块状并行特性,实现了高效率的内存访问与算子执行。它原生可训练,无需蒸馏或后处理,能够无缝融入现有大模型框架,有效提升长文本处理速度和性能。NSA 的出现为跨文档合并、百页文本总结等应用场景提供了新的可能性,或将成为 Transformer 的下一个变革点。

💡 **三分支稀疏化:** NSA 在算法层面设计了 Compression、Selection、Sliding 三个分支,Compression 通过可学习的 MLP 对块内 token 进行聚合,Selection 评估各块重要性并选择关键块进行细致计算,Sliding 补足局部相邻 token 的细粒度关系,从而在保留全局信息的同时,不丢失关键信息。

🚀 **原生可训练与硬件加速:** NSA 属于原生可训练范畴,无需蒸馏或后处理,训练推理顺畅无缝。实验验证了 NSA 对 64k-token 级别长文本处理带来的多倍加速,且性能与传统全注意力相当甚至更优。

📚 **多场景应用潜力:** NSA 的出现为大模型在跨文档合并、百页文本总结等应用中提供了新的思路。结合 AutoSparse、超长检索、MoE 等技术,有望进一步拓展上下文能力,降低综合成本。

原创 D.S 宋大宝 2025-02-21 08:02 上海

大模型热潮里,大家都对更大参数、更长上下文趋之若鹜。


然而,当很多人还在惊叹某些超大规模模型(如 Grok3)时,DeepSeek AI 悄悄抛出一记王炸——Native Sparse Attention (NSA)。



稀疏注意力的老课题,新解法

Transformer 处理超长序列往往遇到  级的算力和显存开销,之前也有不少稀疏注意力的尝试,但大多在硬件上难以真正落地。NSA 的过人之处,在于它不仅在算法层面设计了三分支稀疏化(Compression、Selection、Sliding),还能结合 GPU 的块状并行特性,做到高效率的内存访问与算子执行。



1. Compression:将序列分成若干连续块,借助可学习的 MLP 对块内 token 进行聚合,输出“块向量”;
2. Selection:对各块做重要性评估,选出关键块进行更细致的注意力计算;
3. Sliding:补足局部相邻 token 的细粒度关系,保持短距离依赖的信息完整。

三分支输出最后用“门控融合”合并,从而既能保留全局信息,也不丢失关键信息,还解决了硬件端的访存难题。



原生可训练、硬件加速

DeepSeek 在实验中验证了 NSA 对长文本处理(64k-token 级别)带来的多倍加速,且性能与传统全注意力相当甚至更优。更重要的是,它属于“原生可训练”的范畴,不必蒸馏或后处理,让训练、推理都顺畅无缝。这意味着在预训练中就能直接加入 NSA 模块,完美融入现有大模型框架,不再被显存和算力压得喘不过气。



下一个关键节点:从超长文本到多场景

在大模型对话日益普及的现在,很多应用都开始要求“跨文档合并”或“百页文本总结”。如果没有合适的稀疏注意力机制,动辄十几万字的上下文往往让推理性能“跌到谷底”。

NSA 的出现可以让我们重新思考——有没有更高效、更灵活的方式拓展上下文能力?从硬件优化到分支式稀疏,再到端到端训练,NSA 提供了一个成熟的整体思路。


AutoSparse:

未来可以用 AutoML 搜索更佳的分块大小、注意力模式;
超长检索:适合多文档问答场景;
MoE + 稀疏 Attention:MLP 层和注意力层一起稀疏化,降低综合成本。

有些人认为“越大越好”才能解决一切问题,但当算力和显存扩张遭遇瓶颈,我们或许更需要“巧”的技术突破。NSA 告诉我们,真正能改变超长序列游戏规则的,未必是一味“堆料”,而是像这样把硬件特性和稀疏机制无缝整合的方案。

在我看来,这将是大模型进化史上又一个值得记住的里程碑:效率、速度、性能三方兼顾的“Native Sparse Attention”,或许会成为 Transformer 下一个变革点!


长序列,也可以更轻快。
NSA,开‘卷’有益!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Native Sparse Attention 大模型 长序列处理 DeepSeek AI
相关文章