阿里技术 05月16日 12:21
Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里云高级技术专家在GDC大会上分享了开源项目Mooncake在大模型存储架构上的最新进展。Mooncake通过共享KVCache以存换算,优化大模型推理效率,提升AI系统整体效率和可靠性。该项目与SGLang、vLLM等主流推理框架实现合作适配,并提供阿里云自研eRDMA网络底层传输路径。通过与SGLang集成,Mooncake实现了基于Mooncake Transfer Engine的PD分离框架,显著降低了Deepseek模型的部署成本。Mooncake的易用性和完整功能设计使其被Dynamo的设计所参考,并集成到Dynamo生态中。Mooncake与LMCache团队的技术整合,也显著优化了LLM服务性能。

🚀 Mooncake项目通过共享KVCache来以存换算,优化大模型推理效率,提升整体AI系统的效率和可靠性,旨在建设高性能推理框架的开源生态,共同探索大模型资源池化技术在工业界的应用。

🤝 Mooncake项目与SGLang、vLLM等主流大模型推理框架实现合作和适配,这些开源大模型推理框架可以通过使用Mooncake发布的whl包,支持pip安装,docker镜像部署等,实现了PD分离框架,极大提升了模型推理效率。

🌐 Mooncake项目为开源大模型推理框架提供了阿里云自研eRDMA网络的底层传输路径,以及兼容eRDMA的GPUDirect,保证用户能够在云上快速实现PD分离框架的规模化部署。

💰 通过和当前主流开源推理框架SGLang项目的合作集成开发,Mooncake实现了基于Mooncake Transfer Engine的PD分离框架,通过GDR的零拷贝通信技术能够支持EP+DP+TP+PD分离的场景下对Deepseek模型的高效部署,TPOT下降了将近20%,能够将成本降低至 0.2$/1M Token。

🌟 Mooncake项目拥有全链路零拷贝、多网卡池化的Transfer Engine,最高可聚合 8*400Gbps 带宽,实现拓扑感知、故障容错、负载均衡、多协议支持等功能。KVCache Store 充分利用了当前 GPU 集群中闲置的内存容量和互联带宽,省成本的同时降低响应延迟。

马腾 2025-05-16 08:30 浙江

Mooncake 项目与SGLang/vLLM等主流大模型推理框架实现合作和适配。

这是2025年的第56篇文章

( 本文阅读时间:15分钟 )

近日,阿里云高级技术专家马腾受邀参加在上海举办的 2025 全球开发者先锋大会(GDC),分享了主题《新技术新方案:产业共建大模型时代下的 Mooncake》的演讲,重点聚焦开源大模型的技术演进、产业实践与商业转化三大维度。会上,他详细介绍了阿里云在开源项目 Mooncake 大模型存储架构上的最新贡献,展示了开源项目 Mooncake 如何通过共享 KVCache 来以存换算,优化大模型推理效率,从而提升整体 AI 系统的效率和可靠性。现场嘉宾通过多维度的交流研讨,共同讨论了如何与行业合作伙伴共同构建高效 KVCache 解决方案的策略,推动开源大模型在更多实际应用场景中的落地,充分展现了开源人工智能技术在赋能传统产业转型升级中的创新动能与应用前景。

早在 2024 年 6 月,月之暗面 Kimi 和清华大学 MADSys 实验室联合推出了大模型推理架构 Mooncake,通过 KVCache 为中心设计,显著提升了 Kimi 智能助手的推理吞吐和成本效。同年 11 月,清华大学和阿里云、趋境科技、蚂蚁集团、9#AISoft 在内的多家企业和组织共同宣布开源 Mooncake 项目,共同推动推理实例共享和缓存池化层的标准化,实现高效分布式资源解耦提升大模型长上下文的推理性能,旨在建设高性能推理框架的开源生态,共同探索大模型资源池化技术在工业界的应用。

近期,Mooncake 项目与 SGLang、vLLM 等主流大模型推理框架实现合作和适配,这些开源大模型推理框架可以通过使用 Mooncake 发布的 whl 包,支持 pip安装,docker 镜像部署等实现了 PD 分离框架,极大提升了模型推理效率。在传输路径层面,Mooncake 项目为开源大模型推理框架提供了阿里云自研 eRDMA 网络的底层传输路径,以及兼容 eRDMA 的 GPUDirect,保证用户能够在云上快速实现 PD 分离框架的规模化部署。其中,Mooncake 项目通过和当前主流开源推理框架 SGLang 项目的合作集成开发,实现了基于 Mooncake Transfer Engine 的 PD 分离框架,通过 GDR 的零拷贝通信技术能够支持 EP+DP+TP+PD 分离的场景下对 Deepseek 模型的高效部署,TPOT 下降了将近 20%,能够将成本降低至 0.2$/1M Token由于 Mooncake 项目的易用性和完整功能设计,其被 Dynamo 的设计所参考,并在文档中专门致谢,近日也被集成到 Dynamo 生态中的传输框架 Nixl 中。

值得一提的是,Mooncake 与 LMCache 团队通过技术整合(结合 Mooncake 的 KVCache 存储架构与 LMCache 的缓存管理机制),显著优化了 LLM 服务性能,在缓存命中场景下,平均响应时间降低 69.1%、吞吐量提升 191%,验证了 KVCache 复用对分布式 LLM 服务效率的突破性提升。

(图/Mooncake 最新近况)

Mooncake 项目以高性能和灵活性为核心亮点,充分利用了 RDMA 和 GPUDirect 等高性能 IO 技术和特定推理系统解耦,进一步优化了面向单机多 RDMA 网卡场景的性能,实现了Transfer Engine、KVCache Store、LLM Integration、P2P Store 等功能特性。其中,Transfer Engine 拥有全链路零拷贝、多网卡池化的能力,最高可聚合 8*400Gbps 带宽,实现拓扑感知、故障容错、负载均衡、多协议支持等功能。

相比其他传输协议,Transfer Engine 能够更充分地发挥高性能网卡的优势,相比 nccl 更加灵活,更好地支持动态拓扑、故障容错等功能。KVCache Store 充分利用了当前 GPU 集群中闲置的内存容量和互联带宽,省成本的同时降低响应延迟,同时使用了阿里自研的开源 RPC 框架 coro_rpc 来降低控制路径开销,其透明多级缓存的能力可以在未来进一步下沉到底层廉价存储。Mooncake 的架构设计兼具高性能和灵活性,为未来的扩展性和生态建设奠定了坚实基础。

(图/Mooncake 整体架构

目前,Mooncake 项目在 Github 上拥有超过 3000 个 Star,吸引了二十余名活跃开发者,持续合入接入开源大模型框架项目的PR,被 Infoq、OSChina、新智元、机器之心、vLLM、LMSys 等媒体和组织高度关注和报道,现已在 SGLang 社区中成为广大开发者使用大模型推理框架的默认方案。Mooncake 项目的不同组件已经在阿里云、蚂蚁集团等大模型厂商实现内部部署,吸引了来自腾讯、美团、讯飞等企业开发者的关注。

未来,Mooncake 项目会持续性推出针对多 LLM 实例共享 KVCache 的 Mooncake Store v2 版本。Mooncake 也会支持更多推理框架,如 LMDeploy、TensorRT-LLM 等,持续性完善 Mooncake 的软件服务生态。同时,Mooncake 也会基于 LMCache 等推理服务插件来提升推理框架性能。阿里云将依托于开源大模型推理项目 Mooncake,与行业伙伴共建高效 KVCache 解决方案,共推开源大模型在更多实际应用场景中的落地应用。

欢迎留言一起参与讨论~

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Mooncake 大模型推理 KVCache SGLang 阿里云
相关文章