知乎全站热榜 02月02日
DeepSeek 绕开 CUDA 垄断,针对英伟达 PTX 进行优化实现最大性能,英伟达护城河还在吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek-V3通过底层编程语言PTX而非CUDA,对英伟达H800 GPU进行深度优化,将132个流式多处理器中的20个调整为负责服务器通信,从而绕过了硬件通信速度限制,实现了比Meta等高出10倍的硬件效率。这种做法虽然复杂且难以维护,但展现了DeepSeek极致的优化能力,也引发了关于CUDA是否仍是护城河的讨论。DeepSeek的实践表明,直接编写PTX代码虽难以移植,但能有效提升特定硬件性能,并且他们也在积极拓展与其他硬件生态的合作。同时,AI辅助编写汇编代码的潜力也开始显现,Llama.cpp项目中的一个PR即是由DeepSeek-R1编写的。

🚀DeepSeek-V3通过修改GPU的流式多处理器,将部分用于服务器通信,绕过了硬件限制,显著提升了硬件效率。

🛠️DeepSeek采用PTX而非CUDA进行优化,PTX更接近汇编语言,允许细粒度的优化,但编程复杂且难以维护。

🔗DeepSeek的优化虽然不完全脱离CUDA生态,但表明他们有优化其他GPU的能力,并积极与AMD、华为等合作。

🤖Llama.cpp项目的新PR显示,DeepSeek-R1编写了SIMD指令优化代码,这预示着AI辅助编写底层代码的潜力。

英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来,又面临新的压力? 硬件媒体Tom‘s Hardware带来开年最新热议: DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。 这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。 来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。 在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。 变相绕过了硬件对通信速度的限制。 △DeepSeek-V3 Technical Report 这种操作是用英伟达的PTX(Parallel Thread Execution)语言实现的,而不是CUDA。 PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级别的调整。 这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。 换句话说,他们把优化做到了极致。 有网友表示,如果有一群人嫌CUDA太慢而使用PTX,那一定是前量化交易员。 一位亚马逊工程师提出灵魂质问:CUDA是否还是护城河?这种顶尖实验室可以有效利用任何GPU。 甚至有网友开始畅想,如果“新源神”DeepSeek开源了一个CUDA替代方案… 那么事情是否真会如此?DeepSeek真的绕过了CUDA? 首先要明确的是, PTX类似汇编语言,代码大概长这样: 在实际编译流程中,CUDA代码首先被编译为PTX代码,PTX代码再被编译为目标GPU架构的机器码(SASS,Streaming ASSembler)。 CUDA起到了提供高级编程接口和工具链的作用,可以简化开发者的工作。而PTX作为中间层,充当高级语言和底层硬件之间的桥梁。 另外,这种两步编译流程也使得CUDA程序具有跨架构的兼容性和可移植性。 反过来说,像DeepSeek这种直接编写PTX代码的做法,首先不仅非常复杂,也很难移植到不同型号的GPU。 有从业者表示,针对H100优化的代码迁移到其他型号上可能效果打折扣,也可能根本不工作了。 所以说,DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态,但确实代表他们有优化其他GPU的能力。 事实上,我们也能看到DeekSeek已经与AMD、华为等团队紧密合作,第一时间提供了对其他硬件生态的支持。 还有人提出,如此一来,让AI擅长编写汇编语言是AI自我改进的一个方向。 我们不知道DeepSeek内部是否使用AI辅助编写了PTX代码—— 但是确实刚刚见证 Llama.cpp项目中的一个新PR请求,使用SIMD指令(允许一条指令同时处理多个数据)显著提升WebAssembly在特定点积函数上的运行速度,提交者表示:这个PR中的99%的代码都是由DeekSeek-R1编写的。我唯一做的就是开发测试和编写提示(经过一些尝试和错误)。 llama.cpp项目的创始人检查了这段代码后表示“比预期的更爆炸”。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek CUDA PTX GPU优化 AI编程
相关文章