k1.5 新模型登场：Kimi 如何做到满血版多模态o1水平（附技术报告）

Kimi智能助手 2025-01-20 21:53 北京

分享 o1 级别多模态推理模型的技术实践

「There is no expedient to which a man will not resort to avoid the real labor of thinking. 人为了不必费力思考，任何取巧方法都不会放过。」

乔舒亚·雷诺兹爵士

今天分享两件事：

1. Kimi 全新 SOTA 模型—— k1.5 多模态思考模型来了

2. Kimi 首次公开模型训练技术报告

一、k1.5多模态思考模型

这是继去年 11 月发布 k0-math 数学模型，12月发布 k1 视觉思考模型之后，Kimi 连续第三个月带来 k 系列强化学习模型的重磅升级。

从基准测试成绩看，k1.5 多模态思考模型实现了 SOTA （state-of-the-art）级别的多模态推理和通用推理能力。

在 short-CoT 模式下，Kimi k1.5 的数学、代码、视觉多模态和通用能力，大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平，领先达到 550%。

在 long-CoT 模式下，Kimi k1.5 的数学、代码、多模态推理能力，也达到长思考 SOTA 模型 OpenAI o1 正式版的水平。这应该是全球范围内，OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能。

2025 年，Kimi 会继续沿着路线图，加速升级 k 系列强化学习模型，带来更多模态、更多领域的能力和更强的通用能力。

二、SOTA模型是如何训练出来的

伴随着 k1.5 多模态思考模型的发布，Kimi 技术团队也第一次准备了详细的技术报告，记录和分享新技术范式下的模型训练技术探索之路：《Kimi k1.5：借助大语言模型实现强化学习的 Scaling》（github 链接：https://github.com/MoonshotAI/kimi-k1.5）。

通过这份技术报告，我们可以了解到关于 k1.5 模型设计和训练的几个关键要素：

长上下文扩展。我们将 RL 的上下文窗口扩展到 128k，并观察到随着上下文长度的增加，性能持续提升。我们的方法背后的一个关键思想是，使用部分展开（partial rollouts）来提高训练效率——即通过重用大量先前的轨迹来采样新的轨迹，避免了从头开始重新生成新轨迹的成本。我们的观察表明，上下文长度是通过 LLMs 持续扩展RL的一个关键维度。

改进的策略优化。我们推导出了long-CoT的 RL 公式，并采用在线镜像下降的变体进行稳健的策略优化。该算法通过我们的有效采样策略、长度惩罚和数据配方的优化进一步得到改进。

简洁的框架。长上下文扩展与改进的策略优化方法相结合，为通过LLMs学习建立了一个简洁的RL框架。由于我们能够扩展上下文长度，学习到的 CoTs 表现出规划、反思和修正的特性。增加上下文长度的效果是增加了搜索步骤的数量。因此，我们展示了可以在不依赖更复杂技术（如蒙特卡洛树搜索、价值函数和过程奖励模型）的情况下实现强大的性能。

多模态能力。我们的模型在文本和视觉数据上联合训练，具有联合推理两种模态的能力。该模型数学能力出众，但由于主要支持LaTeX等格式的文本输入，依赖图形理解能力的部分几何图形题则难以应对。

此外，我们提出了有效的long2short方法，利用 Long-CoT 技术来改进 Short-CoT 模型，在短链思维推理方面取得了SOTA成绩——例如，在AIME上达到60.8分，MATH500上达到94.6分，LiveCodeBench上达到47.3分——大幅超越了现有的短链思维模型，如GPT-4和Claude Sonnet 3.5（提升幅度高达550%）。

希望更多技术人才可以通过这份技术报告，了解到 Kimi 在模型训练方面所做的部分工作。如果感兴趣的话，欢迎加入我们，一起登月。

k1.5 多模态思考模型的预览版将陆续灰度上线 Kimi.com 网站和最新版本的 Kimi 智能助手 app。如果你发现了如下图所示的模型切换按钮，就可以尝试用起来了。

k1.5 多模态思考模型，擅长深度推理，可以帮助我们解锁更多更难的事情。当你遇到难解的代码问题、数学问题、工作问题，都可以找 k1.5 模型来帮忙。Kimi 期待与你一起探索更大的世界。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签