DeepSeek团队推出了一种名为NSA(Native Sparse Attention)的创新稀疏注意力机制,旨在实现超高速的长上下文训练与推理。NSA通过优化设计,显著提升推理速度,降低预训练成本,同时保证模型性能。该机制采用分层稀疏策略,分为压缩、选择和滑动窗口三个分支,捕捉全局上下文和局部精细信息。NSA的硬件对齐设计优化了内存访问和计算调度,大幅减少了长文本处理时的计算延迟和资源消耗。在通用基准测试、长上下文任务以及基于指令的推理中,NSA表现优异,与完全注意力模型相比表现相当甚至更佳。
🚀 DeepSeek团队推出NSA(Native Sparse Attention),一种为现代硬件高度协同设计的稀疏注意力机制,旨在实现超高速长上下文训练与推理。
💡 NSA采用分层稀疏策略,包含压缩、选择和滑动窗口三个分支,能同时捕捉全局上下文和局部精细信息,保证模型性能不下降。
⚙️ NSA通过硬件对齐设计,优化内存访问和计算调度,从而大幅减少模型在处理长文本时产生的计算延迟和资源消耗。
快科技2月18日消息,据报道,DeepSeek团队在其新发表的论文中介绍了NSA(Native Sparse Attention),这是一种创新的稀疏注意力机制,该机制专为与现代硬件高度协同且支持本机训练而设计,旨在实现超高速的长上下文训练与推理过程。
NSA通过一系列针对现代硬件特性的优化设计,不仅显著提升了推理速度,还有效降低了预训练成本,同时确保了模型性能的丝毫不减。

据官方介绍,NSA在通用基准测试、长上下文任务以及基于指令的推理中表现优异,与完全注意力模型相比表现相当甚至更佳。
据悉,DeepSeek设计了一种分层的稀疏策略,将注意力分为三个分支:压缩(compression)、选择(selection)和滑动窗口(sliding window),以便同时捕捉全局上下文和局部精细信息。
NSA不仅在算法上实现了稀疏注意力的高效建模,还通过硬件对齐的设计,优化了内存访问和计算调度,使得模型在处理长文本时能够大幅减少计算延迟和资源消耗。
论文地址:https://arxiv.org/pdf/2502.11089v1
