今天，Mooncake 获得 FAST 2025「最佳论文」

Kimi Infra 团队 2025-02-26 19:28 天津

FAST 是计算机存储领域的全球顶会

北京时间今天凌晨，Kimi 与清华大学合作研发的 Mooncake 项目技术报告获得计算机存储领域顶会 FAST 2025「最佳论文」奖。

论文第一作者秦若愚同学现场分享，目前在Kimi实习

Mooncake 是月之暗面 Kimi 的底层推理服务平台。该平台采用一种以键值缓存（KVCache）为中心的分离架构，不仅将预填充和解码集群分开，还高效利用了 GPU 集群中未充分利用的 CPU、DRAM、SSD 和 NIC 资源，建立了一个分离的 KVCache。Mooncake 的核心是其以 KVCache 为中心的全局缓存和调度器，旨在在严格的延迟相关服务级别目标（SLOs）下最大化吞吐量。

实验表明，Mooncake 在处理长上下文输入的场景中表现出色。在使用真实数据进行的测试中，与基线方法相比，Mooncake在符合SLOs的情况下，将有效请求处理能力提高了59%~498%。目前，Mooncake已在数千个节点上运行，每天处理超过1000亿个token。在实际部署中，Mooncake的创新架构使Kimi 在NVIDIA A800和H800集群上分别比以前的系统多处理115%和107%的请求。

简单来说，自从有了Mooncake，在业务高峰期“Kimi 累了”的情况出现得越来越少。

“2024年6月，Mooncake技术报告公开之后，感受到产业界和社区的热情，我们沿两条路线分别向前推进Mooncake的发展和推广。在Kimi内部，Mooncake被应用于包括Kimi k1.5的强化学习训练加速、多模态服务等场景，不断推进智能降本的前沿。而在另一方面，Mooncake团队联合众多的外部力量开始开源版本的设计和重新实现计划。” Mooncake论文作者之一，清华大学MADSys实验室章明星助理教授分享了Mooncake的发展计划。

2024年11月，月之暗面Kimi和清华大学MADSys实验室联合9#AISoft、阿里云、华为存储、面壁智能、趋境科技等机构启动了Mooncake开源计划，第一步开源了 Mooncake Transfer Engine。

今天，Mooncake团队还和vLLM团队共同宣布，已经合作制定一个多阶段路线图，将为vLLM引入P/D（Prefill/Decode）分解和全局 KVCache 设计，把 Mooncake的创新性KVCache中心架构引入更多开源社区。

了解更多

Github项目地址：https://github.com/kvcache-ai/Mooncake

Paper 地址：https://arxiv.org/abs/2407.00079

开发者现身说法：

何蔚然：Mooncake 分离式推理架构创新与实践

对话章明星、许欣然：Mooncake架构背后，如何用“炒菜”的思路实现推理的极致优化

许欣然：关于 Mooncake 的碎碎念

章明星：

Mooncake (1): 在月之暗面做月饼，Kimi 以 KVCache 为中心的分离式推理架构

Mooncake (2)：Kimi “泼天的流量”怎么接，分离架构下基于预测的调度策略