月之暗面 Kimi 和清华大学 MADSys 实验室联合发布了 Mooncake 开源项目,旨在构建以 KVCache 为中心的大模型推理架构。该项目基于以 KVCache 为中心的 PD 分离和以存换算架构,通过大幅减少算力开销来提升推理吞吐量。Mooncake 开源项目将逐步开源高性能 KVCache 多级缓存 Mooncake Store 的实现,并兼容各类推理引擎和底层存储/传输资源。目前,传输引擎 Transfer Engine 部分已在 GitHub 全球开源。最终目标是为大模型时代打造一种新型高性能内存语义存储的标准接口,并提供参考实现方案。
🤔**Mooncake 开源项目旨在构建以 KVCache 为中心的大模型推理架构**,通过以 KVCache 为中心的 PD 分离和以存换算架构,提升推理吞吐量,减少算力开销。
🚀**Mooncake 项目采用分阶段开源方式**,逐步开源高性能 KVCache 多级缓存 Mooncake Store 的实现,并兼容各类推理引擎和底层存储/传输资源。
🌐**Mooncake 项目的最终目标是为大模型时代打造一种新型高性能内存语义存储的标准接口**,并提供参考实现方案,推动大模型推理技术的发展。
💻**目前,Mooncake 项目的传输引擎 Transfer Engine 部分已在 GitHub 全球开源**,方便开发者使用和贡献。
🤝**Mooncake 项目由月之暗面 Kimi、清华大学 MADSys 实验室以及 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等共同发布**,展现了产学研合作的良好局面。
IT之家 11 月 28 日消息,月之暗面 Kimi 和清华大学 MADSys 实验室 2024 年 6 月联合发布了 Kimi 底层的 Mooncake 推理系统设计方案。该系统基于以 KVCache 为中心的 PD 分离和以存换算架构,提升了推理吞吐量。

近日,为了进一步加速该技术框架的应用与推广,月之暗面 Kimi 和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等共同发布开源项目 Mooncake,共建以 KVCache 为中心的大模型推理架构。
11 月 28 日,Mooncake 技术框架已开源上线,IT之家附地址如下:
https://github.com/kvcache-ai/Mooncake

据介绍,Mooncake 开源项目从论文延伸,以超大规模 KVCache 缓存池为中心,通过以存换算的创新理念大幅度减少算力开销,提升了推理吞吐量。
本次开源将采用分阶段的方式,逐步开源高性能 KVCache 多级缓存 Mooncake Store 的实现,同时针对各类推理引擎和底层存储 / 传输资源进行兼容。其中传输引擎 Transfer Engine 部分现在已经在 GitHub 全球开源。
Mooncake 开源项目的最终目标是,为大模型时代打造一种新型高性能内存语义存储的标准接口,并提供参考实现方案。

Mooncake 推理系统架构图