月之暗面 Kimi 02月28日
今天,Mooncake 获得 FAST 2025「最佳论文」
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

月之暗面 Kimi 与清华大学合作研发的 Mooncake 项目技术报告荣获 FAST 2025「最佳论文」奖。Mooncake 是 Kimi 的底层推理服务平台,采用以键值缓存(KVCache)为中心的分离架构,高效利用 GPU 集群资源,建立分离的 KVCache。核心在于全局缓存和调度器,旨在严格的延迟相关服务级别目标下最大化吞吐量。实验表明,Mooncake 在处理长上下文输入时表现出色,有效请求处理能力提升显著。目前已在数千节点上运行,日处理超千亿 token。Mooncake 的创新架构使 Kimi 在 NVIDIA 集群上处理请求的能力大幅提升。团队还启动了 Mooncake 开源计划,并与 vLLM 团队合作,将 KVCache 中心架构引入更多开源社区。

🏆 Mooncake 项目荣获 FAST 2025 最佳论文奖,该项目是月之暗面 Kimi 与清华大学合作研发的底层推理服务平台,标志着其在计算机存储领域的领先地位。

💡 Mooncake 采用以 KVCache 为中心的分离架构,通过将预填充和解码集群分离,并有效利用 GPU 集群中的 CPU、DRAM、SSD 和 NIC 资源,实现了资源的高效利用。

🚀 Mooncake 的核心在于其全局缓存和调度器,能够在严格的延迟相关服务级别目标下最大化吞吐量,显著提升长上下文输入的处理能力,在实际部署中,Kimi 在 NVIDIA A800 和 H800 集群上的请求处理能力分别提升了 115% 和 107%。

🤝 Mooncake 团队启动了开源计划,并与 vLLM 团队合作,共同制定路线图,旨在将 Mooncake 的创新性 KVCache 中心架构引入更多开源社区,推动技术的共享和发展。

Kimi Infra 团队 2025-02-26 19:28 天津

FAST 是计算机存储领域的全球顶会

北京时间今天凌晨,Kimi 与清华大学合作研发的 Mooncake 项目技术报告获得计算机存储领域顶会 FAST 2025「最佳论文」奖

论文第一作者秦若愚同学现场分享,目前在Kimi实习

Mooncake 是月之暗面 Kimi 的底层推理服务平台。该平台采用一种以键值缓存(KVCache)为中心的分离架构,不仅将预填充和解码集群分开,还高效利用了 GPU 集群中未充分利用的 CPU、DRAM、SSD 和 NIC 资源,建立了一个分离的 KVCache。Mooncake 的核心是其以 KVCache 为中心的全局缓存和调度器,旨在在严格的延迟相关服务级别目标(SLOs)下最大化吞吐量。

实验表明,Mooncake 在处理长上下文输入的场景中表现出色。在使用真实数据进行的测试中,与基线方法相比,Mooncake在符合SLOs的情况下,将有效请求处理能力提高了59%~498%。目前,Mooncake已在数千个节点上运行,每天处理超过1000亿个token。在实际部署中,Mooncake的创新架构使Kimi 在NVIDIA A800和H800集群上分别比以前的系统多处理115%和107%的请求。

简单来说,自从有了Mooncake,在业务高峰期“Kimi 累了”的情况出现得越来越少。

“2024年6月,Mooncake技术报告公开之后,感受到产业界和社区的热情,我们沿两条路线分别向前推进Mooncake的发展和推广。在Kimi内部,Mooncake被应用于包括Kimi k1.5的强化学习训练加速、多模态服务等场景,不断推进智能降本的前沿。而在另一方面,Mooncake团队联合众多的外部力量开始开源版本的设计和重新实现计划。Mooncake论文作者之一,清华大学MADSys实验室章明星助理教授分享了Mooncake的发展计划

2024年11月,月之暗面Kimi和清华大学MADSys实验室联合9#AISoft、阿里云、华为存储、面壁智能、趋境科技等机构启动了Mooncake开源计划,第一步开源了 Mooncake Transfer Engine

今天,Mooncake团队还和vLLM团队共同宣布,已经合作制定一个多阶段路线图,为vLLM引入P/D(Prefill/Decode)分解和全局 KVCache 设计,把 Mooncake的创新性KVCache中心架构引入更多开源社区。


了解更多

Github项目地址:https://github.com/kvcache-ai/Mooncake

Paper 地址:https://arxiv.org/abs/2407.00079

开发者现身说法:

何蔚然:Mooncake 分离式推理架构创新与实践

对话章明星、许欣然:Mooncake架构背后,如何用“炒菜”的思路实现推理的极致优化

许欣然:关于 Mooncake 的碎碎念

章明星:

Mooncake (1): 在月之暗面做月饼,Kimi 以 KVCache 为中心的分离式推理架构 

Mooncake (2):Kimi “泼天的流量”怎么接,分离架构下基于预测的调度策略 

Mooncake (3): 开源数据集!以及一些感谢和碎碎念 

Mooncake (4): 月饼的皮和馅是怎样制成的,Mooncake 传输引擎开源以及后续的计划

第三方解读:

从Kimi: Mooncake谈谈云AI基础设施的分离式架构

Mooncake:将 P / D 分离进行到底

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Kimi Mooncake FAST 2025 KVCache 开源
相关文章