原创 D.S 宋大宝 2025-02-21 08:02 上海
大模型热潮里,大家都对更大参数、更长上下文趋之若鹜。
然而,当很多人还在惊叹某些超大规模模型(如 Grok3)时,DeepSeek AI 悄悄抛出一记王炸——Native Sparse Attention (NSA)。
稀疏注意力的老课题,新解法
Transformer 处理超长序列往往遇到 级的算力和显存开销,之前也有不少稀疏注意力的尝试,但大多在硬件上难以真正落地。NSA 的过人之处,在于它不仅在算法层面设计了三分支稀疏化(Compression、Selection、Sliding),还能结合 GPU 的块状并行特性,做到高效率的内存访问与算子执行。
1. Compression:将序列分成若干连续块,借助可学习的 MLP 对块内 token 进行聚合,输出“块向量”;
2. Selection:对各块做重要性评估,选出关键块进行更细致的注意力计算;
3. Sliding:补足局部相邻 token 的细粒度关系,保持短距离依赖的信息完整。
三分支输出最后用“门控融合”合并,从而既能保留全局信息,也不丢失关键信息,还解决了硬件端的访存难题。
原生可训练、硬件加速
DeepSeek 在实验中验证了 NSA 对长文本处理(64k-token 级别)带来的多倍加速,且性能与传统全注意力相当甚至更优。更重要的是,它属于“原生可训练”的范畴,不必蒸馏或后处理,让训练、推理都顺畅无缝。这意味着在预训练中就能直接加入 NSA 模块,完美融入现有大模型框架,不再被显存和算力压得喘不过气。
下一个关键节点:从超长文本到多场景
在大模型对话日益普及的现在,很多应用都开始要求“跨文档合并”或“百页文本总结”。如果没有合适的稀疏注意力机制,动辄十几万字的上下文往往让推理性能“跌到谷底”。
NSA 的出现可以让我们重新思考——有没有更高效、更灵活的方式拓展上下文能力?从硬件优化到分支式稀疏,再到端到端训练,NSA 提供了一个成熟的整体思路。
AutoSparse:
未来可以用 AutoML 搜索更佳的分块大小、注意力模式;
超长检索:适合多文档问答场景;
MoE + 稀疏 Attention:MLP 层和注意力层一起稀疏化,降低综合成本。
有些人认为“越大越好”才能解决一切问题,但当算力和显存扩张遭遇瓶颈,我们或许更需要“巧”的技术突破。NSA 告诉我们,真正能改变超长序列游戏规则的,未必是一味“堆料”,而是像这样把硬件特性和稀疏机制无缝整合的方案。
在我看来,这将是大模型进化史上又一个值得记住的里程碑:效率、速度、性能三方兼顾的“Native Sparse Attention”,或许会成为 Transformer 下一个变革点!
长序列,也可以更轻快。
NSA,开‘卷’有益!