PaperAgent 2024年12月01日
Kimi悄悄开源了自家推理框架Mooncake~
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Mooncake是为Kimi服务的平台,具有以KVCache为中心的解耦架构,利用未充分利用资源,其调度器满足SLOs要求。实验表明其在长上下文场景表现出色,传输引擎支持多种协议,未来计划构建Mooncake Store。

🌙Mooncake是为Kimi服务的平台,采用以KVCache为中心的解耦架构。

🎯Mooncake的调度器在最大化吞吐量的同时满足服务水平目标。

🚀Mooncake传输引擎支持多种协议,具有最低I/O延迟。

2024-12-01 09:49 湖北

Mooncake是为Kimi服务的平台,Kimi是由Moonshot AI提供的领先的大型语言模型(LLM)服务。

Mooncake以KVCache为中心的解耦架构,将预填充和解码集群分开。它还利用GPU集群中未充分利用的CPU、DRAM和SSD资源来实现KVCache的解耦缓存。

Mooncake的核心是其以KVCache为中心的调度器,它在最大化整体有效吞吐量的同时,满足与延迟相关的服务水平目标(SLOs)要求。与假设所有请求都将被处理的传统研究不同,Mooncake面临着由于高度过载场景带来的挑战。为了缓解这些问题,开发了一种基于预测的早期拒绝策略。实验表明,Mooncake在长上下文场景中表现出色。与基线方法相比,在某些模拟场景中,Mooncake可以实现高达525%的吞吐量增加,同时遵守SLOs。在实际工作负载下,Mooncake的创新架构使Kimi能够处理比之前多75%的请求。

https://arxiv.org/pdf/2407.00079https://github.com/kvcache-ai/Mooncake

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Mooncake Kimi KVCache 传输引擎
相关文章