信息平权 02月24日
今天的两个极端
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek在xAI推出Grok3之际发布NSA原生稀疏注意力论文,核心在于降低长上下文注意力的计算成本,是对MLA工作的补充。NSA尚未应用于V3训练,未来整合后有望显著提升模型能力。NSA使用Triton,或为适配更多类型计算卡做准备。DeepSeek在算力受限的情况下,代表了对工程效率的极限压榨,让持续开源在经济性上成为可能,或将压制北美高成本训练的闭源模型。

💡NSA论文的核心思想在于有效降低长上下文注意力的计算成本,是对去年5月MLA工作的补充,MLA从隐空间压缩,NSA从序列长度压缩。

🚀DeepSeek的V3模型基于CUDA和PTX充分挖掘N卡性能,而NSA采用了Triton,这可能为了后续适配更多类型的计算卡做准备,以应对国内特殊环境。

💰DeepSeek算力受限,代表了对工程效率的极限压榨,让持续开源在经济性上成为可能。这种廉价的开源模式,或可压制北美以昂贵成本训练出的闭源模型。

📈虽然xAI通过超大集群在短时间内反超了之前的SOTA,但这说明Pre-train收益递减,不如投入到RL后训练更划算。基座和RL双轮驱动是共识,基座仍需继续投入。

原创 信息平权、Y博 2025-02-18 19:36 上海

就在xAI隆重推出20w卡集群产物Grok3的同时,DeepSeek选择临近时间扔出来一份重磅论文:NSA原生稀疏注意力。两件事放在一起,我们看到了什么?


1. NSA这篇论文的核心思想,是如何有效降低长上下文注意力的计算成本。算是对去年5月MLA工作的补充不要低估这次的国产模型)。MLA是对隐空间的压缩,而NSA是从序列长度的压缩。


2. MLA已经在V2、V3体现,但NSA还未应用于V3的训练中。意味着如果后续DeepSeek训练中整合NSA, 可以预期DS基座模型整体能力,还有一次比较显著的提升。论文中原话:“使用NSA预训练的模型超过了全注意力模型”


3. NSA论文有一个彩蛋:当时V3一个亮点就是基于CUDA和PTX,充分挖掘了N卡性能。但NSA这次用了Triton,没有提及N卡专用库和框架。Triton底层可以调用CUDA,也可以调用其他比如AMD的rocm,当然也可以调用国产卡......而另一边NSA降低了浮点算力和内存占用的门槛。Triton已经很久了,但海外实践证明并不是对CUDA的替代,在N卡充裕的情况下N依然是最好选择。但国内情况大家懂的,DeepSeek可能为了后续更广泛、更普遍的开源, 在模型研发阶段就开始考虑,后续适配更多类型的计算卡。这里也不要直接解读为利空英伟达,这都是国内被逼出来的特殊境地...(反面例子请参考xAI的20w卡集群)


4. 每当探索出一个阶段的理论上限, 接下来往往是探索工程规模和效率的上限。北美“财大气粗”,xAI代表了对工程规模上的极致追求(Grok4要用百万卡、1.2GW集群)。DeepSeek算力受限,代表了对工程效率上的极限压榨。但DS的这条路径,让持续开源在经济性上成为可能。而廉价的开源,的确压制了北美以昂贵成本训练出的闭源模型,甚至可以比作数字化版本的“商品倾销”。


5. 这代表了训练什么样的未来呢?今天中午发在星球的帖子:“xAI 这次单纯靠超大集群,就用这么短时间反超了之前的SOTA,说明卷算力依然是核心。但仔细想想用了20w卡集群,尤其是对比V3,50倍成本实现30%的反超....说明Pre-train收益的确不大,不如投到RL后训练更划算。基座和 RL双轮驱动甚至脚踩脚也是共识,基座还得继续搞。”


6. 帖子下面有读者打了很好的比方:“一个原本60分的学生稍一努力就可以到90,原本90的再怎么努力也不一定能上到95。基数不同边际效果当然不同。但90的不努力不就被人超越了?所以还是得努力” 。的确,但如果大家都来到了95分,而一个过惯了阔绰日子,一个练就了一身高效本领...由奢入俭难啊。当年AWS可不就是一分一毛挤出来的成本优势和规模效应吗?


7. 因此,“卷算力是不是受益递减了”?不同人答案不同,本质上是工程技术的差异。你问北美这帮阔少,按照pre train投入和性能产出,的确曲线放缓。但你去问DS,他们依然对算力极度饥渴...且从这次NSA来看,scaling law以另一种工程优化形式得到了延续。


最后,最争议的问题,到底需不需超大集群?欢迎来星球继续讨论,稍晚上传一些海外付费博客对Grok3、DS这篇NSA的解读。


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek NSA 稀疏注意力 国产模型 AI模型训练
相关文章