Deepseek NSA可能是 Transfermer 的新解法

原创 D.S 宋大宝 2025-02-21 08:02 上海

大模型热潮里，大家都对更大参数、更长上下文趋之若鹜。

然而，当很多人还在惊叹某些超大规模模型（如 Grok3）时，DeepSeek AI 悄悄抛出一记王炸——Native Sparse Attention (NSA)。

稀疏注意力的老课题，新解法

Transformer 处理超长序列往往遇到级的算力和显存开销，之前也有不少稀疏注意力的尝试，但大多在硬件上难以真正落地。NSA 的过人之处，在于它不仅在算法层面设计了三分支稀疏化（Compression、Selection、Sliding），还能结合 GPU 的块状并行特性，做到高效率的内存访问与算子执行。

1. Compression：将序列分成若干连续块，借助可学习的 MLP 对块内 token 进行聚合，输出“块向量”；
2. Selection：对各块做重要性评估，选出关键块进行更细致的注意力计算；
3. Sliding：补足局部相邻 token 的细粒度关系，保持短距离依赖的信息完整。

三分支输出最后用“门控融合”合并，从而既能保留全局信息，也不丢失关键信息，还解决了硬件端的访存难题。

原生可训练、硬件加速

DeepSeek 在实验中验证了 NSA 对长文本处理（64k-token 级别）带来的多倍加速，且性能与传统全注意力相当甚至更优。更重要的是，它属于“原生可训练”的范畴，不必蒸馏或后处理，让训练、推理都顺畅无缝。这意味着在预训练中就能直接加入 NSA 模块，完美融入现有大模型框架，不再被显存和算力压得喘不过气。

下一个关键节点：从超长文本到多场景

在大模型对话日益普及的现在，很多应用都开始要求“跨文档合并”或“百页文本总结”。如果没有合适的稀疏注意力机制，动辄十几万字的上下文往往让推理性能“跌到谷底”。

NSA 的出现可以让我们重新思考——有没有更高效、更灵活的方式拓展上下文能力？从硬件优化到分支式稀疏，再到端到端训练，NSA 提供了一个成熟的整体思路。

AutoSparse：

未来可以用 AutoML 搜索更佳的分块大小、注意力模式；
超长检索：适合多文档问答场景；
MoE + 稀疏 Attention：MLP 层和注意力层一起稀疏化，降低综合成本。

有些人认为“越大越好”才能解决一切问题，但当算力和显存扩张遭遇瓶颈，我们或许更需要“巧”的技术突破。NSA 告诉我们，真正能改变超长序列游戏规则的，未必是一味“堆料”，而是像这样把硬件特性和稀疏机制无缝整合的方案。

在我看来，这将是大模型进化史上又一个值得记住的里程碑：效率、速度、性能三方兼顾的“Native Sparse Attention”，或许会成为 Transformer 下一个变革点！

长序列，也可以更轻快。
NSA，开‘卷’有益！

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签