虎嗅 02月18日
DeepSeek发布最新技术论文!梁文锋挂名共创。据一财,2月18日,DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Spar...
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

2月18日,DeepSeek在海外平台发布关于NSA的技术论文。NSA是一种优化的稀疏注意力机制,可加速推理、降低成本且不牺牲性能,在多项测试中表现出色,DeepSeek创始人梁文锋为共创。这是多日来DeepSeek唯一发布的技术动态。

💻NSA是用于超快速长文本训练与推理的稀疏注意力机制

🚀NSA针对现代硬件优化,能加速推理并降低预训练成本

🎯NSA在多项测试中达到或超越全注意力模型的表现

DeepSeek发布最新技术论文!梁文锋挂名共创。

据一财,2月18日,DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力),官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

具体来说,NSA针对现代硬件进行了优化设计,能够加速推理过程,同时降低预训练成本,且不牺牲性能。它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。

记者注意到,在这篇名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人梁文锋也作为共创在列。

自1月20日发布DeepSeek-R1并搅动AI圈以来,DeepSeek方面一直较为低调,这是这么多天以来DeepSeek唯一发布的技术动态。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek NSA 技术论文
相关文章