曝DeepSeek绕过CUDA！为适配中国国产GPU做准备跳出英伟达限制

最新-新浪科技科学探索 02月06日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

DeepSeek大语言模型另辟蹊径，绕过英伟达CUDA框架，使用底层硬件指令PTX语言进行优化，引发业界对GPU算力限制的关注。此举旨在为未来兼容国产GPU芯片做准备，摆脱对英伟达的依赖。通过更底层的编程语言进行优化，DeepSeek将优化做到了极致，展现了非凡的工程水平，同时也应对了美国对华制裁造成的“GPU短缺危机”。此举或为国产GPU的发展带来新的机遇，降低大模型对国外技术的依赖。

🚀 DeepSeek大模型使用英伟达H800芯片训练时，并未采用通用的高级编程语言CUDA，而是直接使用英伟达底层硬件指令PTX语言，实现绕过CUDA的优化策略。

🛠️ 相比于CUDA，PTX语言更接近汇编语言层级，允许进行细粒度的优化，如寄存器分配和Thread / Warp级别的调整，但编程难度极高，需要极强的底层开发能力。

💡 DeepSeek此举表明其拥有擅长PTX语言的内部开发者，且在硬件适配方面更具优势，未来使用国产GPU时，能更快地了解硬件驱动并进行代码适配。

🌍 韩国分析师认为，DeepSeek绕开CUDA的举动凸显了其非凡的工程水平，同时也表明美国对华制裁加剧的“GPU短缺危机”激发了他们的紧迫感和创造力。

快科技2月5日消息，DeepSeek全球爆火，再一次引发外界对GPU算力限制话题的关注。

据报道，DeepSeek开发的大语言模型绕过了英伟达的CUDA框架，正为未来兼容国产GPU芯片做准备。

众所周知，英伟达的CUDA（Compute Unified Device Architecture，统一运算架构）能大幅降低研发大模型的难度，获全球开发商使用，一举将英伟达推上AI芯片领域的垄断地位。

但最新发现显示，DeepSeek使用英伟达的H800芯片训练时，使用英伟达底层硬件指令PTX（Parallel Thread Execution）语言，而非高级编程语言CUDA。

这样意味着DeepSeek绕过了CUDA，使用更底层的编程语言做优化。

对于程序开发人员来说，CUDA是一种更加友好的高级语言，开发者只需要专注于程序和算法最相关的运行逻辑，而不太需要考虑具体的程序是如何在GPU等硬件上具体如何执行计算的，从而能够降低开发难度。

而PTX在接近汇编语言的层级运行，允许进行细粒度的优化，如寄存器分配和Thread / Warp级别的调整。这种编程非常复杂且难以维护，所以行业通用的做法是使用CUDA这样的高级编程语言。

换句话说，DeepSeek把优化做到了极致。

北京航空航天大学副教授黄雷表示，绕过CUDA可以直接根据GPU的驱动函数做一些新的开发，从而实现更加细粒度的操作。

这也说明DeepSeek拥有一些擅长写PTX语言的内部开发者。假如它之后使用国产GPU，其在硬件适配方面将会更得心应手，其只要了解这些硬件驱动提供的一些基本函数接口，就可以仿照英伟达GPU硬件的编程接口去写相关的代码，从而让自家大模型更加容易适配国产硬件。

“这凸显了DeepSeek非凡的工程水平，并表明美国对华制裁加剧的“GPU短缺危机”激发了他们紧迫感和创造力。”韩国Mirae Asset Securities Research的一名分析师表示。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：朝晖

文章内容举报

]article_adlist-->

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签