快科技资讯 2024年11月05日
加速替代CUDA!摩尔线程开源vLLM-MUSA 加速国产GPU AI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

摩尔线程近日上线了大语言模型高速推理框架vLLM的MUSA移植版本,旨在为开发者提供基于摩尔线程GPU进行开源项目移植的范例。vLLM是一个高效易用的框架,支持多种优化技术,显著提升大语言模型推理性能。摩尔线程通过MUSA软件栈对CUDA软件栈接口兼容,并提供MUSIFY自动代码移植工具,大幅提升应用移植效率,缩短开发周期,构建完善的MUSA应用生态。该项目已完全开源,开发者可以进行二次开发和升级,推动大语言模型在摩尔线程GPU上的应用和发展。

🤔摩尔线程开源了vLLM的MUSA移植版本,为开发者提供基于摩尔线程GPU进行开源项目MUSA移植的范例,旨在构建完善的MUSA应用生态。

🚀vLLM是一个高效且易用的大模型推理和服务框架,支持PagedAttention内存管理、连续批处理请求等技术,可显著提高大语言模型的推理性能。

🛠️摩尔线程MUSA软件栈对CUDA软件栈接口兼容,并提供MUSIFY自动代码移植工具,大幅提升应用移植效率,缩短开发周期。

💻vLLM-MUSA项目已完全开源,开发者可以二次开发、升级vLLM到社区更新版本等。

🔗vLLM-MUSA开源地址:https://github.com/MooreThreads/vLLM_musa

快科技11月5日消息,近日,摩尔线程上线了大语言模型高速推理框架开源项目vLLM的MUSA移植版本,为开发者提供基于摩尔线程全功能GPU进行开源项目MUSA移植的范例。

摩尔线程表示,正努力围绕自主研发的统一系统架构GPU、MUSA软件平台,构建完善好用的MUSA应用生态。

vLLM是一个高效且易用的大模型推理和服务框架,支持创新的PagedAttention内存管理、连续批处理请求、CUDA/HIP图的快速模型执行、CUDA核心优化、分布式推理支持等,可显著提高大语言模型(LLM)的推理性能。

目前,vLLM已在各种大语言模型中得到广泛应用,成为业界常用的开源大模型推理框架。

摩尔线程基于vLLM v0.4.2版本,进行了移植适配,使之支持摩尔线程GPU后端Device,并完全开源,开发者可以二次开发、升级vLLM到社区更新版本等。

值得一提的是,得益于摩尔线程MUSA架构的先进性、软件栈对CUDA的优良兼容性,通过MUSIFY代码自动转换工具,用户可以快捷地将原有的CUDA代码迁移到MUSA平台,实现替代。

同时,CUDA相关库的调用,也可以快速替换为相应的MUSA加速库,如算子库muDNN、集合通信库MCCL、线性代数库muBLAS等。

摩尔线程通过MUSA软件栈对CUDA软件栈接口兼容,大幅提升了应用移植的效率,缩短了开发周期,还提供MUSIFY自动代码移植工具等一系列实用工具和脚本。

摩尔线程vLLM-MUSA开源地址:

https://github.com/MooreThreads/vLLM_musa

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

摩尔线程 vLLM MUSA 大语言模型 GPU
相关文章