NVIDIA 近日发布了 CUDA 13.0 工具包的通用可用(GA)版本,该版本与最新的 NVIDIA R580 Linux 驱动程序测试版一同推出。CUDA 13.0 重点支持从 Turing 到 Blackwell 的 GPU 架构,并放弃了对旧款 GPU 的支持。此次更新统一了 Arm 平台的 CUDA 工具包,为所有 Arm 架构提供单一安装和一致的构建体验。此外,CUDA 13.0 更新了向量类型以支持 32 位对齐,提升了 Blackwell GPU 的加载/存储性能;增加了对企业级 Linux 发行版和 LLVM Clang 20、GCC 15 主机编译器的支持;引入了 cuda-checkpoint 实现 GPU 迁移;并将 Fatbin 文件压缩算法从 LZ4 切换到 Zstd,优化了 CUDA 运行时性能。新版本还提供了多项新的 CUDA API,具体改进详情可在 developer.nvidia.com 的发行说明中找到。
🚀 **支持范围更新与旧架构淘汰**:CUDA 13.0 工具包现在全面支持从 Turing 到 Blackwell 系列的 NVIDIA GPU 架构,这意味着对更早的 GPU 型号将不再提供支持,推动用户向更现代化的硬件平台迁移。
💡 **Arm 平台支持统一与优化**:该版本实现了 Arm 平台 CUDA 工具包的统一,为所有 Arm 架构提供单一安装包和一致的构建流程,简化了开发者的部署和使用体验。尽管基于 Jetson Orin 的硬件有特殊情况,但未来将致力于实现全面统一。
⚙️ **性能与兼容性增强**:CUDA 13.0 更新了向量类型,支持 32 位对齐,显著提升了 Blackwell GPU 的加载/存储性能。同时,增强了对企业级 Linux 发行版的支持,并改进了错误报告功能,为开发者提供更稳定可靠的开发环境。
✅ **新功能与效率提升**:引入了 cuda-checkpoint 功能,支持 GPU 迁移,提高了计算的灵活性。Fatbin 文件压缩算法从 LZ4 切换到 Zstd,提升了压缩效率。CUDA 运行时采用无上下文加载,并新增了多种 CUDA API,为 GPU 计算提供了更多可能性和优化。
🔧 **主机编译器支持扩展**:CUDA 13.0 增加了对 LLVM Clang 20 和 GCC 15 等新一代主机编译器的支持,确保了与最新开发工具链的兼容性,使开发者能够利用最新的编译器优化和特性。
随着今天的NVIDIA R580 Linux 驱动程序测试版的发布,CUDA 13.0 工具包现在可供下载,它依赖于新的 R580 Linux 驱动程序系列。CUDAToolkit 13.0 的 GA 版本现已推出,并与新的 R580 驱动程序系列配对。CUDA 13.0 支持 Turing 到 Blackwell GPU,旧款 GPU 现已被放弃。

借助 CUDA 13.0,Arm 平台支持现已在 CUDA 工具包中统一,因此所有 Arm 架构都有单一安装和一致的构建(基于 Jetson Orin 的硬件除外,但展望未来,他们承诺将致力于实现这一统一环境)。
CUDA 13.0 发行说明尚未概述NVIDIA 在 RISC-V 上 CUDA 的计划。
CUDA 13.0 还更新了向量类型,使其支持 32 位对齐,从而在 Blackwell 上实现更高的加载/存储性能,并支持更新的企业级 Linux 发行版,改进了错误报告功能,通过 cuda-checkpoint 支持 GPU 迁移,Fatbin 文件压缩从 LZ4 切换到 Zstd,CUDA 运行时现在使用无上下文加载,此外还提供了各种新的 CUDA API。CUDA 13.0 还增加了对 LLVM Clang 20 和 GCC 15 的主机编译器支持。
CUDA 13.0 可从developer.nvidia.com下载。
发行说明详细介绍了 CUDA 13.0 工具包版本的诸多新改进和其他变化。