Kimi 技术团队 2025-04-11 18:57 天津
附技术报告、代码和模型下载
Kimi-VL 在一系列广泛基准测试中的表现出色,包括通用基准测试(MMMU、MMBench)、OCR(InfoVQA)、多图像(BLINK)、长视频(LongVideoBench、Video-MME)、长文档(MMLongBench-Doc)以及智能体(ScreenSpot-Pro 和 OSWorld)。
具体来看,Kimi-VL 有这些优势:
在 MathVision 基准测试中,Kimi-VL-Thinking 与前沿开源视觉语言模型(VLM)的对比,包括短思考 VLM(例如 Gemma-3 系列、Qwen2.5-VL 系列)和长思考 VLM(QVQ-72B-Preview)。我们的模型仅激活了 2.8B 参数,就实现了强大的多模态推理能力。
模型架构
Kimi-VL 的架构主要包含三部分:支持原生分辨率的视觉编码器 MoonViT、多层感知器投影模块(MLP projector)和一个 MoE 架构的语言模型。如下图所示:
混合专家(MoE)语言模型:Kimi-VL 的语言模型部分采用了我们自研的 Moonlight 模型。它拥有 2.8B 激活参数和 16B 总参数。在具体实现中,我们从 Moonlight 预训练阶段的一个中间检查点(checkpoint)开始初始化——该检查点已处理过 5.2T token 的纯文本数据,并激活了 8K 的上下文长度。随后,我们采用一种包含多模态数据和纯文本数据的混合训练方案,继续对其进行预训练,训练数据总量为 2.3T token。
在加载了 Moonlight 预训练模型的中间检查点之后,Kimi-VL 的预训练总共包含 4 个阶段,整体消耗了 4.4T token:首先是独立的 ViT 训练,目的是建立一个强大的原生分辨率视觉编码器;随后是三个联合训练阶段(包括预训练 pre-training、冷却 cooldown 和长上下文激活 long-context activation),这些阶段旨在同时增强模型的语言能力和多模态能力。
Kimi-VL 和 Kimi-VL-Thinking 的后训练阶段包括两个联合监督微调(SFT)阶段,分别在 32K 和 128K 上下文中进行,以及进一步的长链推理(Long-CoT)微调和强化学习(RL)阶段,以激活和增强长思考能力。
更多预训练、后训练、基础设施以及数据配方的细节,欢迎阅读我们的技术报告 https://arxiv.org/abs/2504.07491v1。
下表展示了 Kimi-VL 与当前 SoTA 视觉语言模型在多个基准测试上的全面评估结果。与 GPT-4o、Llama-3.2-11B-Inst. 和 Gemma3-12B-IT 等更大模型相比,尽管 Kimi-VL 采用了少参数的架构(激活参数为 2.8B + 4B),但它在多个关键领域展现出有竞争力或更优越的性能。我们的模型采用了与 DeepSeek-VL2 类似的混合专家(MoE)架构,但在大多数基准测试上性能优于后者,同时使用的参数量显著更少(激活参数:2.8B vs 4.5B;总参数:16B vs 28B);此外,在 24 项基准测试中的 19 项上,其性能也优于 Qwen2.5-VL-7B(实际参数量为 8.3B),尽管后者的激活参数量是 Kimi-VL 的 2.59 倍。
此外,我们在 Kimi-VL 技术报告中具体分析了模型在不同领域的性能表现,结果显示 Kimi-VL 在光学字符识别(OCR)、数学、智能体(agent)应用、长篇内容理解、多图像及视频感知等方面具备显著优势。
Kimi-VL-Thinking 模型
我们通过长思维链(long-CoT)激活和强化学习,使 Kimi-VL 具备运用思维链(Chain-of-Thought, CoT)进行推理的能力,并推出了支持长思考(long-thinking)的模型版本——Kimi-VL-Thinking。
相比 Kimi-VL 模型,Kimi-VL-Thinking 性能取得了显著提升:在 MathVista 上提升了 2.6%,在 MMMU 上提升了 4.7%,在 MathVision 上提升了 15.4%。这表明该模型能够利用测试时计算(test-time computation)资源进行更深层次的推理,并能更好地处理复杂的多模态问题。
如上图所示,Kimi-VL-Thinking 媲美或超越了一些当前最先进的支持思维链(thinking)和不支持思维链(non-thinking)的模型:在 MathVista 上取得 71.3% 的成绩,优于 GPT-4o(63.8%)和 GPT-4o-mini(56.7%);在 MMMU 上得分 61.7%,超越了 GPT-4o-mini(60.0%)和 Qwen2.5-VL-7B(58.6%);在 MathVision 上达到 36.8%,超过了 GPT-4o(30.4%)、Gemma-3-27B-IT(35.5%),甚至 QVQ-72B(35.9%)。
尽管在少数几个基准测试上略微落后于一些更大规模的模型,Kimi-VL-Thinking 仅凭 3.2B 激活参数就取得了这些成绩——这比同类模型少了几个数量级——充分证明了其在多模态推理方面的高效率和有效性。
Kimi-VL 是一个视觉语言模型(VLM),其设计采用了平衡策略,兼顾了多模态和纯文本的预训练与后训练,并采用了基于 MoE(混合专家)的架构以实现可扩展的效率。其 128K 的扩展上下文窗口使其能够在长文本和长视频中进行精准信息检索。同时,其原生分辨率编码器 MoonViT 有助于在超高分辨率视觉任务中以较低的计算开销保持高准确率。此外,Kimi-VL-Thinking 支持在复杂的图像和视频推理中进行有效的长链推理。
总体而言,Kimi-VL 在多模态、长上下文和高分辨率任务中展现出强大的适应性和效率,显示出其在未来研究和工业应用中的巨大潜力。
然而,Kimi-VL 仍然面临一些挑战:
我们的下一步计划包括优化 Kimi-VL 并发布更大规模的版本,以及进一步完善后训练和测试时扩展机制,以期获得更好的长思考模型,为研究和行业更高级的应用铺平道路。
Kimi-VL 视觉语言模型