Context Caching 即将启动内测，让每个开发者都用得起长文本大模型

月之暗面 Kimi 2024年10月28日

Context Caching 即将启动内测，让每个开发者都用得起长文本大模型 | Kimi 开放平台

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Kimi开放平台的Context Caching功能即将启动内测，该功能通过缓存重复Tokens内容，可降本提速。在合适场景中使用，最高能节省90%调用成本并大幅提升响应速度，适用于多种业务场景。其相关实践、计费方案及技术文档即将发布。

🎯Context Caching是Kimi开放平台提供的高级功能，通过缓存重复Tokens内容，降低用户请求相同内容时的成本，适用于多种场景，能有效节省费用并提高效率。

💡在业务中，越是规模化、重复度高的prompt场景，Context Caching功能带来的收益越大，如提供大量预设内容的QA Bot、针对固定文档集合的频繁查询等。

📋Context Caching功能具有强烈业务属性，适用于如上市公司信息披露问答工具、对静态代码库或知识库的周期性分析、瞬时流量巨大的爆款AI应用、交互规则复杂的Agent类应用等场景。

Kimi API 2024-06-20 17:30 北京

最高降本 90%

? 厌倦了重复的查询和高昂的成本吗？

? 想要提升效率，节省宝贵时间？

? Kimi 开放平台 Context Caching 功能即将启动内测 ?

什么是 Context Caching？

Context Caching（上下文缓存）是由 Kimi 开放平台提供的一项高级功能，它通过缓存重复的 Tokens 内容，有效降低用户在请求相同内容时的成本。

Context Caching 的价值：降本、提速

在业务的合适场景中使用 Context Caching，根据您的业务特性，最高可以节省 90% 的调用成本。

同时，Context Caching 还能大幅提升 API 的接口响应速度（或者说首字返回速度）。简单来说，越是规模化、重复度高的 prompt 场景，Context Caching 功能带来的收益就越大。

Context Caching 的典型应用场景

Context Caching 特别适合于用频繁请求，重复引用大量初始上下文的情况，通过重用已缓存的内容，可以显著提高效率并降低费用。因为这个功能具有强烈的业务属性，我们下面简单列举一些合适的业务场景：

提供大量预设内容的 QA Bot，例如 Kimi API 小助手。

针对固定的文档集合的频繁查询，例如上市公司信息披露问答工具。

对静态代码库或知识库的周期性分析，例如各类 Copilot Agent。

瞬时流量巨大的爆款 AI 应用，例如哄哄模拟器，LLM Riddles。

交互规则复杂的 Agent 类应用，例如什么值得买 Kimi+ 等。

Coming Soon

Context Caching 功能的场景最佳实践/计费方案/技术文档即将发布，敬请期待。

Fish AI Reader