月之暗面 Kimi 2024年11月28日
Kimi 联合清华大学等机构,开源共建大模型推理架构 Mooncake
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

为了解决大模型推理效率难题,月之暗面Kimi与清华大学MADSys实验室联合发布了Mooncake推理系统。该系统以KVCache为中心,采用以存换算架构,大幅提升推理吞吐量,降低推理成本和延迟。近日,Mooncake项目正式开源,首阶段开源了传输引擎Transfer Engine。Mooncake旨在打造一种新型高性能内存语义存储标准接口,并提供参考实现方案,推动大模型推理平台的高效发展,让AI助手等产品惠及更多人群。该项目得到了9#AISoft、阿里云、华为存储等产学研力量的支持,旨在通过开源合作,共同探索更先进的模型推理系统架构。

🤔**Mooncake推理系统旨在解决大模型推理效率问题,包括高推理负载、推理成本和响应延迟等。**该系统基于以KVCache为中心的PD分离和以存换算架构,大幅提升推理吞吐,降低推理成本和响应延迟,受到业界广泛关注。

🚀**Mooncake项目正式开源,首阶段开源了传输引擎Transfer Engine。**该项目最终目标是打造一种新型高性能内存语义存储的标准接口,并提供参考实现方案,推动大模型推理平台的高效发展。

🤝**Mooncake项目得到了9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量的支持。**通过开源合作,共同探索更先进的模型推理系统架构,让基于大模型技术的AI助手等产品惠及更广泛人群。

💡**Mooncake架构创新在于以超大规模KVCache缓存池为中心,通过以存换算的理念大幅减少算力开销,显著提升推理吞吐量。**本次开源将分阶段进行,逐步开源高性能KVCache多级缓存Mooncake Store的实现,并针对各类推理引擎和底层存储/传输资源进行兼容。

👨‍💻**月之暗面Kimi工程副总裁许欣然表示,Mooncake实现了推理资源的极致优化,提升了用户体验和降低了成本。**同时,Mooncake为处理长文本和高并发需求提供了有效的解决方案,相信开源合作可以推动整个行业向更高效的推理平台方向发展。

Kimi 开放平台 2024-11-28 10:52 北京

传输引擎已在 GitHub 全球开源

在大模型时代,更多的数据、更大的模型、更长的上下文窗口带来更高的智能,但也对大模型推理系统的效率提出更高挑战。如何应对高推理负载、降低推理成本、降低响应延迟成为业界共同面临的难题。

2024 年 6 月,月之暗面 Kimi 和清华大学 MADSys 实验室联合发布了 Kimi 底层的 Mooncake 推理系统设计方案。该系统基于以 KVCache 为中心的 PD 分离和以存换算架构,大幅度提升了推理吞吐,受到业界广泛关注。

近日,为了进一步加速该技术框架的应用与推广,月之暗面 Kimi 和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量共同发布开源项目 Mooncake,共建以 KVCache 为中心的大模型推理架构。11月28日,Mooncake技术框架已正式开源上线(https://github.com/kvcache-ai/Mooncake)。

Mooncake 推理系统架构图

Mooncake 开源项目从论文延伸,以超大规模 KVCache 缓存池为中心,通过以存换算的创新理念大幅度减少算力开销,显著提升了推理吞吐量。本次开源将采用分阶段的方式,逐步开源高性能 KVCache 多级缓存 Mooncake Store 的实现,同时针对各类推理引擎和底层存储/传输资源进行兼容。其中传输引擎 Transfer Engine 部分现在已经在 GitHub 全球开源。Mooncake 开源项目的最终目标是,为大模型时代打造一种新型高性能内存语义存储的标准接口,并提供参考实现方案。

月之暗面 Kimi 工程副总裁许欣然表示:“通过与清华大学MADSys 实验室紧密合作,我们共同打造了分离式大模型推理架构 Mooncake,实现推理资源的极致优化。Mooncake 不仅提升了 Kimi 的用户体验,降低了成本,还为处理长文本和高并发需求提供了有效的解决方案。我们相信,通过与产学研机构开源合作,可以推动整个行业向更高效的推理平台方向发展。”

欢迎更多企业和研究机构加入 Mooncake 项目共建,共同探索更加高效和先进的模型推理系统架构创新,让基于大模型技术的AI助手等产品,持续惠及更广泛人群。


了解更多:

Mooncake (1): 在月之暗面做月饼,Kimi 以 KVCache 为中心的分离式推理架构

Mooncake (2):Kimi “泼天的流量”怎么接,分离架构下基于预测的调度策略

Mooncake (3): 开源数据集!以及一些感谢和碎碎念

Mooncake (4): 月饼的皮和馅是怎样制成的,Mooncake 传输引擎开源以及后续的计划

关于 Mooncake 的碎碎念

对话清华大学章明星、月之暗面Kimi许欣然:Mooncake架构如何实现大模型推理的极致优化

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Mooncake Kimi 大模型推理 KVCache 开源
相关文章