index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
Kimi 与清华大学合作研发的 Mooncake 项目,凭借其创新的分离式推理架构,荣获计算机存储领域顶级会议 FAST 2025 的“最佳论文”奖。Mooncake 采用以键值缓存(KVCache)为中心的设计,高效利用 GPU 集群资源,显著提升了长上下文输入场景下的请求处理能力。该技术已在 Kimi 内部广泛应用,并启动了开源计划,旨在推动 AI 基础设施的创新与发展。
💡 **核心架构:** Mooncake 采用以 KVCache 为中心的分离式架构,将预填充和解码集群分开,从而更有效地利用 GPU 集群中的 CPU、DRAM、SSD 和 NIC 资源。
🚀 **性能提升:** 在处理长上下文输入的场景中,Mooncake 表现出色,与基线方法相比,在符合服务级别目标(SLOs)的情况下,将有效请求处理能力提高了 59%~498%。
🌐 **实际应用:** Mooncake 已在数千个节点上运行,每天处理超过 1000 亿个 token。在实际部署中,Mooncake 的创新架构使 Kimi 在 NVIDIA A800 和 H800 集群上分别比以前的系统多处理 115% 和 107% 的请求。
🌱 **开源计划:** Mooncake 团队已启动开源计划,联合多家机构开源 Mooncake Transfer Engine,并将与 vLLM 团队合作,将 Mooncake 的创新性 KVCache 中心架构引入更多开源社区。
Kimi Infra 团队 2025-02-26 19:28 天津
FAST 是计算机存储领域的全球顶会

北京时间今天凌晨,Kimi 与清华大学合作研发的 Mooncake 项目技术报告获得计算机存储领域顶会 FAST 2025「最佳论文」奖。
论文第一作者秦若愚同学现场分享,目前在Kimi实习
Mooncake 是月之暗面 Kimi 的底层推理服务平台。该平台采用一种以键值缓存(KVCache)为中心的分离架构,不仅将预填充和解码集群分开,还高效利用了 GPU 集群中未充分利用的 CPU、DRAM、SSD 和 NIC 资源,建立了一个分离的 KVCache。Mooncake 的核心是其以 KVCache 为中心的全局缓存和调度器,旨在在严格的延迟相关服务级别目标(SLOs)下最大化吞吐量。实验表明,Mooncake 在处理长上下文输入的场景中表现出色。在使用真实数据进行的测试中,与基线方法相比,Mooncake在符合SLOs的情况下,将有效请求处理能力提高了59%~498%。目前,Mooncake已在数千个节点上运行,每天处理超过1000亿个token。在实际部署中,Mooncake的创新架构使Kimi 在NVIDIA A800和H800集群上分别比以前的系统多处理115%和107%的请求。简单来说,自从有了Mooncake,在业务高峰期“Kimi 累了”的情况出现得越来越少。2024年11月,月之暗面Kimi和清华大学MADSys实验室联合9#AISoft、阿里云、华为存储、面壁智能、趋境科技等机构启动了Mooncake开源计划,第一步开源了 Mooncake Transfer Engine。今天,Mooncake团队还和vLLM团队共同宣布,已经合作制定一个多阶段路线图,将为vLLM引入P/D(Prefill/Decode)分解和全局 KVCache 设计,把 Mooncake的创新性KVCache中心架构引入更多开源社区。
了解更多


阅读原文
跳转微信打开