AMD发布了ROCm 6.3版本更新,该版本集成了用于加速AI推理的SGLang,并重新设计了FlashAttention-2用于优化AI训练和推理。SGLang可以提升LLM和VLM的推理吞吐量,而FlashAttention-2则显著改进了Transformer模型的训练和推理速度。此外,ROCm 6.3还包含了全新的Fortran编译器,增强了计算机视觉库,为开发者提供了更强大的GPU计算能力和图像/视频处理支持。ROCm是一个AMD开发的开源软件栈,旨在优化AMD GPU上的生成式AI和高性能计算应用。
🚀 **SGLang集成:** AMD ROCm 6.3集成了SGLang Runtime,专门为AMD Instinct GPU优化大语言模型(LLMs)和视觉语言模型(VLMs)的推理。AMD承诺,通过集成SGLang,吞吐量可以提高6倍,并且使用更加便捷,支持Python和预配置的ROCm Docker容器。
💡 **FlashAttention-2重新设计:** ROCm 6.3重新设计了FlashAttention-2,相较于前一代,显著改进了前向和后向传递,大幅提升了Transformer模型的训练和推理速度,为AI模型训练和推理提供更强的性能。
💻 **全新Fortran编译器:** AMD推出了全新的Fortran编译器,支持直接GPU offload,并兼容之前的版本,同时完美集成HIP内核和ROCm库,为Fortran开发者提供了更强大的GPU计算能力,扩展了GPU计算的应用范围。
📷 **增强计算机视觉库:** rocDecode、rocJPEG和rocAL等计算机视觉库也得到了增强,分别支持AV1编解码、GPU加速JPEG解码和更优的音频增强功能,为图像和视频处理应用提供了更强大的支持,提升了处理效率。
📚 **ROCm简介:** ROCm是AMD开发的一个开放源代码软件栈,用于在AMD GPU上进行编程,包含驱动程序、开发工具和API,支持从底层内核到最终用户应用程序的GPU编程,并针对生成式AI和高性能计算(HPC)应用进行了优化。
IT之家 11 月 27 日消息,科技媒体 techpowerup 昨日(11 月 26 日)发布博文,报道称 AMD 公司发布了 ROCm 6.3 版本更新,集成了用于加速 AI 推理的 SGLang,并重新设计 FlashAttention-2 用于优化 AI 训练和推理等等。
SGLang
AMD 表示 ROCm 6.3 更新现支持 SGLang,这是一个 Runtime,为 AMD Instinct GPU 优化大语言模型(LLMs)和视觉语言模型(VLM)的推理。
AMD 承诺通过集成 SGLang,吞吐量可以提高 6 倍,并且由于集成了 Python 和预配置的 ROCm Docker 容器,使用起来更加便捷。
FlashAttention-2
AMD 在 ROCm 6.3 中重新设计了 FlashAttention-2,相比较 FlashAttention-1,显著改进了前向和后向传递,大幅提升了 Transformer 模型的训练和推理速度。
全新 AMD Fortran 编译器
AMD 推出了全新的 Fortran 编译器,支持直接 GPU offload,并兼容之前的版本,同时完美集成 HIP 内核和 ROCm 库,为 Fortran 开发者提供了更强大的 GPU 计算能力。
增强计算机视觉库
rocDecode、rocJPEG 和 rocAL 等计算机视觉库也得到了增强,分别支持 AV1 编解码、GPU 加速 JPEG 解码和更优的音频增强功能,为图像和视频处理应用提供了更强大的支持。
ROCm 简介
IT之家注:ROCm 是 AMD 开发的一个开放源代码软件栈,用于在 AMD 图形处理器 (GPU) 上进行编程。

它包含驱动程序、开发工具和 API,支持从底层内核到最终用户应用程序的 GPU 编程,ROCm 针对生成式 AI 和高性能计算 (HPC) 应用进行了优化,并涵盖了通用计算 (GPGPU)、高性能计算 (HPC) 和异构计算等多个领域。