动点科技 02月18日
DeepSeek发布最新技术论文!梁文锋挂名共创
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek官方发布了一篇关于原生稀疏注意力(NSA)的技术论文,这是一种为超快速长文本训练与推理设计的硬件对齐且可原生训练的稀疏注意力机制。NSA旨在优化现代硬件,加速推理过程并降低预训练成本,同时保持甚至超越全注意力模型的性能。该机制在通用基准测试、长文本任务和基于指令的推理中表现出色。这是DeepSeek自1月20日发布DeepSeek-R1以来,首次发布的技术动态,其创始人梁文锋也参与了该论文的创作。

🚀 DeepSeek发布NSA技术论文,提出一种硬件对齐且可原生训练的稀疏注意力机制,用于加速长文本处理。

💡 NSA通过优化设计,在加速推理、降低预训练成本的同时,保证甚至超越了全注意力模型的性能表现。

🎯 该机制在通用基准测试、长文本任务和基于指令的推理中均表现出色,验证了其有效性。

👨‍💻 DeepSeek创始人梁文锋参与了该论文的创作,体现了公司对技术研发的重视。

2月18日,DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力),官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

具体来说,NSA针对现代硬件进行了优化设计,能够加速推理过程,同时降低预训练成本,且不牺牲性能。它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。

记者注意到,在这篇名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人梁文锋也作为共创在列。

自1月20日发布DeepSeek-R1并搅动AI圈以来,DeepSeek方面一直较为低调,这是这么多天以来DeepSeek唯一发布的技术动态。

来源:一财

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek 稀疏注意力 长文本处理 人工智能
相关文章