FishAI官方 04月09日 18:03
哇塞,拯救长上下文的新注意力架构NSA, DeepSeek告诉你,什么是高质量的降本增效
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了一种名为“原生稀疏注意力”(NSA)的新技术,旨在提升大语言模型处理长文本的效率并降低成本。通过“智能眼镜”般的机制,NSA让模型专注于关键信息,从而减少计算量。实验结果表明,NSA在性能上不输甚至超越传统全注意力模型,同时在速度上实现了显著提升,尤其是在处理超长文本时。NSA通过硬件对齐的系统优化和训练感知的算法设计,实现了高效、好用的特性,为下一代长文本大语言模型提供了新思路。

💡 **核心机制:** NSA 采用“原生稀疏注意力”机制,模型只关注重要信息,忽略不重要的内容,减少计算量,提升处理效率。

⚙️ **创新设计:** NSA 实现了“硬件对齐”的系统优化,充分利用现代GPU特性,并从训练阶段引入稀疏性,提升模型性能。

🧩 **分层策略:** NSA 使用“动态分层稀疏策略”,包括压缩注意力、选择性注意力和滑动窗口注意力,各司其职,优势互补,确保模型既能快速浏览全局信息,又能关注关键细节。

📊 **实验结果:** 在通用benchmark、长文本任务、推理评测和效率评测中,NSA 均表现出色,性能不输全注意力模型,推理任务更胜一筹,尤其是在长文本处理方面,NSA 展现出显著优势,例如在“Needle-in-a-Haystack”测试中,NSA在64k超长上下文下,完美找回目标信息,检索准确率高达100%。

🚀 **效率提升:** NSA 在训练和推理速度上均有大幅提升,64k长度时,前向传播速度提升9倍,反向传播速度提升6倍,内存访问量减少11.6倍,解码速度大幅提升。

原创 小可怜Gemini 2025-02-19 09:34 广东

省流:价格便宜,性能更好

 


现在的大语言模型是越来越强大,从32K 到 2 Million,个个都能处理超长篇幅的内容,无论是代码库、长文档还是多轮对话,都不在话下。

但是,能力越大,开销也越大传统的 “全注意力机制” 在处理长文本时,计算量会 平方级 增长,速度越来越慢,成本也蹭蹭上涨,这可咋整?成本上涨后,用户成本也得上涨...

别慌! 这篇论文就给我们带来了一个非常给力的解决方案 —— 原生稀疏注意力 (Native Sparse Attention, NSA)

简单来说,NSA 就像给模型的 “眼睛” 配上了 “智能眼镜”,让它只关注重点信息,忽略无关紧要的内容,从而大大提升效率!

Figure 1: 性能与效率的对比图

上图 Figure 1 就清晰地展示了 NSA 的强大之处:

这简直是鱼和熊掌兼得啊!既要又要还要党的福音!


🤔 稀疏注意力是啥?为啥它能提速? 🤔

可能有些小伙伴对 “稀疏注意力” 这个概念还不太熟悉。没关系,我来给大家简单科普一下。

传统的“全注意力”机制,就像 “地毯式搜索”,每个词都要和所有词计算关联度,计算量非常大。

而“稀疏注意力”,就像 “重点巡逻”,模型会学习到只关注 重要的词,忽略掉那些不重要的词,这样就大大减少了计算量,速度自然就提升上去了。

Figure 2: NSA 架构概览图

这篇论文提出的 NSA 更牛的地方在于,它不仅仅是 “稀疏” 而已,还做到了 “原生可训练” 和 “硬件对齐”!


🌟 NSA 的两大创新:既高效又好用! 🌟

这篇论文的核心贡献,可以总结为两大创新点:

    1. 硬件对齐的系统优化: 为了让稀疏注意力真正在硬件上跑得飞快,NSA 在算法设计上就充分考虑了现代 GPU 的特性,例如 Tensor Core 的高效利用 和 内存访问优化。作者们设计了专门的 kernel (你可以理解为更底层的优化代码),让 NSA 在各种硬件平台上都能发挥出极致的性能。

    2. 训练感知的算法设计: 很多稀疏注意力方法都只关注推理加速,但 NSA 更进一步,它从 训练阶段 就开始引入稀疏性。这意味着模型在训练的时候,就学会了如何更高效地利用稀疏注意力模式,而不是像以前的方法那样,先用全注意力模型训练好,再在推理时 “打补丁” 用稀疏注意力。 这种 “原生可训练” 的设计,不仅降低了训练成本,还保证了模型性能!

为了实现这两个创新点,NSA 采用了 “动态分层稀疏策略” (dynamic hierarchical sparse strategy)。 如图 Figure 2 所示,NSA 把注意力机制分成了 三条 “通路” (three attention paths):

这三种 “通路” 各司其职,优势互补,共同构成了 NSA 高效又强大的注意力机制!


🏆 实验结果:全面超越现有方法! 🏆

为了验证 NSA 的效果,作者们做了大量的实验,结果那是相当的亮眼!

1. 通用 Benchmark 评测:性能不输 Full Attention,推理任务更胜一筹!

如上图所示,在 MMLU, BBH, GSM8K, DROP 等多个通用benchmark 上, NSA 模型都取得了优异的成绩,平均性能甚至超过了 Full Attention 模型! 尤其是在 DROP 和 GSM8K 这些需要更强推理能力的 benchmark 上,NSA 的优势更加明显。

2. 长文本评测:LongBench 全面领先,Needle-in-a-Haystack 完美检索!

Figure 5: Needle-in-a-Haystack 检索准确率

在 Needle-in-a-Haystack 测试中,NSA 在 64k 超长上下文 下,完美找回 “大海捞针” 般的目标信息,检索准确率 高达 100%

Table 2

Table 2 展示了 LongBench 长文本 benchmark 上的评测结果。 NSA 模型在各个子任务上都表现出色,平均分也超过了 Full Attention 和其他 Sparse Attention 方法, 尤其在 HPQ 和 2Wiki 多跳问答任务上,优势巨大!

3. Chain-of-Thought 推理评测:NSA-R更擅长复杂数学推理!

    1. NSA-R 显著优于 Full Attention-R

在 8192 的 token 限制下,NSA-R 的得分为 0.121,而 Full Attention-R 的得分仅为 0.046。 NSA-R 的得分是 Full Attention-R 的近 2.6 倍。

在 16384 的 token 限制下,NSA-R 的得分为 0.146,而 Full Attention-R 的得分为 0.092。 NSA-R 的得分仍然明显高于 Full Attention-R,约为其 1.6 倍。

    2. 增加生成 Token 限制对两个模型都有正面影响

Full Attention-R: 从 8192 到 16384 的 token 限制,Full Attention-R 的得分从 0.046 提升到 0.092,几乎翻倍。

NSA-R: 从 8192 到 16384 的 token 限制,NSA-R 的得分也从 0.121 提升到 0.146,虽然提升幅度不如 Full Attention-R 那么显著,但仍然是正向提升。

可以看到,经过 Chain-of-Thought 指令微调 后,NSA-R 模型的准确率显著高于 Full Attention-R 模型,尤其是在 16k 长文本输入下,优势依然明显!

4. 效率评测:训练、推理速度大幅提升!,且内存访问大大减少

Figure 6: Triton Kernel 速度对比

Figure 6 展示了在 A100 GPU 上,NSA 的 Triton kernel 与 FlashAttention-2 的 Triton kernel 速度对比。 可以看到, 随着文本长度的增加,NSA 的加速效果越来越明显,64k 长度时,前向传播速度提升 9 倍,反向传播速度提升 6 倍!

上图则展示了解码阶段的内存访问量对比。 NSA 的内存访问量远低于 Full Attention, 64k 长度时,内存访问量减少了 11.6 倍! 这也解释了 NSA 解码速度大幅提升的原因。

这些实验结果都充分证明了 NSA 在性能和效率上的优越性,是下一代长文本大语言模型的理想选择!

这篇论文提出的 原生稀疏注意力 (NSA) 机制,是一项非常出色的创新工作。它不仅在算法设计上巧妙地融合了 分层稀疏策略,更重要的是,它 从硬件和训练的角度 出发,真正解决了稀疏注意力在实际应用中面临的效率和性能问题。

不愧是成本控制大师 DeepSeek 的作品,我愿意称他为古希腊掌握账本增效的神...

 


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

原生稀疏注意力 大语言模型 长文本 模型优化
相关文章