月之暗面 Kimi 04月12日 00:15
Kimi-VL:视觉语言模型(VLM)的新探索
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Kimi技术团队推出全新视觉语言模型Kimi-VL,该模型支持多模态信息输入,包括单图、多图、视频和包含视觉信息的长文档。Kimi-VL在图像细粒度感知、数学能力、大学级别的多模态多学科题目、OCR、Agent等基准测试中展现出有竞争力的水平。Kimi-VL-Thinking版本更是通过长思维链推理,在复杂推理任务中取得优异成绩。该模型具备高智力、长上下文和更强的视觉能力,在开源社区具有竞争力。

🖼️ **高智力表现:** Kimi-VL 在多模态推理和多步骤 Agent 基准测试中表现出色,文本能力与纯文本语言模型相当。

📏 **长上下文能力:** Kimi-VL 的上下文长度达到 128K,在长视频和长文档基准测试中领先同级别模型。

👁️ **更强的视觉能力:** Kimi-VL 在视觉感知、视觉世界知识、OCR、高分辨率屏幕快照解析等视觉场景中具备全面优势。

🧠 **Kimi-VL-Thinking 版本:** 通过长思维链推理,Kimi-VL-Thinking 在 MMMU、MathVista、MathVision 等高难度基准测试中取得优异成绩,部分结果甚至超越了更大规模的模型。

⚙️ **模型架构:** Kimi-VL 由支持原生分辨率的视觉编码器 MoonViT、MLP 投影模块和 MoE 架构的语言模型组成,MoonViT 编码器采用 NaViT 中的打包方法,确保处理不同分辨率图像时训练吞吐量不受影响。

Kimi 技术团队 2025-04-11 18:57 天津

附技术报告、代码和模型下载

自2022年底,语言模型变得强大后,AI聊天助手开始复兴。但 AI 聊天助手用得越多,用户对 AI 的视觉能力期待也越高,毕竟在手机上随手拍照要比文字输入快得多。只会文字聊天的模型,这时就不够用了。因此,可同时处理文本和视觉信息输出的 GPT-4o、Gemini 等原生多模态模型相继问世。最近几个月,OpenAI o1 和 Kimi k1.5等原生多模态+长思考模型,又进一步推动了AI模型解决数学、代码等复杂问题的能力。
在开源社区,有很多极具竞争力的纯文本模型供选择。相较之下,具备较强竞争力的视觉语言模型(VLM)仍比较有限。Qwen2.5-VL 和 Gemma-3 是稠密架构模型,扩展性逊于 MoE 架构。而 MoE 架构的 DeepSeek-VL2 和 Aria 则因为视觉编码器(Vision Encoder)是固定大小的,很难捕捉到复杂画面的细节信息,长下文长度也比较有限(4K-64K),限制了模型能力的发挥。此外,这些模型仍不支持长思维链推理(Long CoT)。
在此背景下,我们面向开源社区推出全新的视觉语言模型 Kimi-VL技术报告Github代码Hugging Face模型下载)。它的语言模型部分,采用了我们前一段时间发布的轻量级 MoE 模型 Moonlight,16B总参数,2.8B激活参数。视觉信息处理部分,采用了支持原生分辨率的 MoonViT 编码器——400M 参数 Vison Transformer 架构。Kimi-VL 支持广泛的多模态信息输入,包括单图、多图、视频、包含视觉信息的长文档等,在图像细粒度感知、数学能力、大学级别的多模态多学科题目、OCR、Agent等基准测试中展现了有竞争力的水平(如下图所示)。

Kimi-VL 在一系列广泛基准测试中的表现出色,包括通用基准测试(MMMU、MMBench)、OCR(InfoVQA)、多图像(BLINK)、长视频(LongVideoBench、Video-MME)、长文档(MMLongBench-Doc)以及智能体(ScreenSpot-Pro 和 OSWorld)。

具体来看,Kimi-VL 有这些优势:

1)高智力。与纯文本的语言模型相比,Kimi-VL 的文本能力也不逊色。无需「长思考」能力,Kimi-VL 在多模态推理和多步骤Agent 基准测试中(MMMU、MathVista、OSWorld等)已经拿到不错的成绩。
2)长上下文。Kimi-VL 的上下文长度是 128K,在长视频和长文档基准测试中(LongVideoBench和MMLongBench-Doc),以较大幅度领先同级别的其他模型。
3)更强的视觉能力。跟其他开源 VLM 模型相比,Kimi-VL 在多项视觉场景具备全面的竞争优势,比如在视觉感知、视觉世界知识、OCR、高分辨率屏幕快照解析等场景。
此外,我们还带来了支持长思考的模型分支版本:Kimi-VL-Thinking。它经过强化学习,激活了模型的长思维链推理能力(Long CoT)。尽管 Kimi-VL-Thinking 是个只有 2.8B 激活参数的轻量级模型,但在有较高推理难度的基准测试(包括 MMMU,MathVision,MathVista)中,部分成绩可以接近甚至超过超大尺寸的前沿模型。

在 MathVision 基准测试中,Kimi-VL-Thinking 与前沿开源视觉语言模型(VLM)的对比,包括短思考 VLM(例如 Gemma-3 系列、Qwen2.5-VL 系列)和长思考 VLM(QVQ-72B-Preview)。我们的模型仅激活了 2.8B 参数,就实现了强大的多模态推理能力。

模型架构

Kimi-VL 的架构主要包含三部分:支持原生分辨率的视觉编码器 MoonViT、多层感知器投影模块(MLP projector)和一个 MoE 架构的语言模型。如下图所示:

MoonViT 视觉编码器:我们为 Kimi-VL 设计的视觉编码器,能够以原生分辨率处理图像,不再需要对图像进行分割或拼接。我们引入了 NaViT 中的打包方法,其中图像被划分为图像块,展平后依次串联成一维序列。这些预处理操作使得 MoonViT 能够与语言模型共享相同的算子和优化方法,例如 FlashAttention 支持的可变长度序列注意力机制,从而确保在处理不同分辨率图像时训练吞吐量不受影响。
MLP 投影层:我们采用一个两层 MLP(多层感知机)来桥接MoonViT视觉编码器和 大语言模型。具体来说,我们首先通过像素重排(pixel shuffle)操作来压缩 MoonViT 提取出的图像特征的空间维度,这一步在空间域上执行 2x2 的下采样,并相应地扩展通道维度。然后,我们将经过像素重排的特征送入这个两层 MLP,将其投影到 LLM 嵌入(embeddings)所需的维度。

混合专家(MoE)语言模型:Kimi-VL 的语言模型部分采用了我们自研的 Moonlight 模型。它拥有 2.8B 激活参数和 16B 总参数。在具体实现中,我们从 Moonlight 预训练阶段的一个中间检查点(checkpoint)开始初始化——该检查点已处理过 5.2T token 的纯文本数据,并激活了 8K 的上下文长度。随后,我们采用一种包含多模态数据和纯文本数据的混合训练方案,继续对其进行预训练,训练数据总量为 2.3T token。

训练阶段

在加载了 Moonlight 预训练模型的中间检查点之后,Kimi-VL 的预训练总共包含 4 个阶段,整体消耗了 4.4T token:首先是独立的 ViT 训练,目的是建立一个强大的原生分辨率视觉编码器;随后是三个联合训练阶段(包括预训练 pre-training、冷却 cooldown 和长上下文激活 long-context activation),这些阶段旨在同时增强模型的语言能力和多模态能力。

为了保留文本能力,所有更新语言模型的阶段都是联合训练阶段。
训练阶段概览:数据组成、token 数量、序列长度以及训练组件。

Kimi-VL 和 Kimi-VL-Thinking 的后训练阶段包括两个联合监督微调(SFT)阶段,分别在 32K 和 128K 上下文中进行,以及进一步的长链推理(Long-CoT)微调和强化学习(RL)阶段,以激活和增强长思考能力。

更多预训练、后训练、基础设施以及数据配方的细节,欢迎阅读我们的技术报告 https://arxiv.org/abs/2504.07491v1

性能评估

下表展示了 Kimi-VL 与当前 SoTA 视觉语言模型在多个基准测试上的全面评估结果。与 GPT-4o、Llama-3.2-11B-Inst. 和 Gemma3-12B-IT 等更大模型相比,尽管 Kimi-VL 采用了少参数的架构(激活参数为 2.8B + 4B),但它在多个关键领域展现出有竞争力或更优越的性能。我们的模型采用了与 DeepSeek-VL2 类似的混合专家(MoE)架构,但在大多数基准测试上性能优于后者,同时使用的参数量显著更少(激活参数:2.8B vs 4.5B;总参数:16B vs 28B);此外,在 24 项基准测试中的 19 项上,其性能也优于 Qwen2.5-VL-7B(实际参数量为 8.3B),尽管后者的激活参数量是 Kimi-VL 的 2.59 倍。

此外,我们在 Kimi-VL 技术报告中具体分析了模型在不同领域的性能表现,结果显示 Kimi-VL 在光学字符识别(OCR)、数学、智能体(agent)应用、长篇内容理解、多图像及视频感知等方面具备显著优势。

Kimi-VL-Thinking 模型

我们通过长思维链(long-CoT)激活和强化学习,使 Kimi-VL 具备运用思维链(Chain-of-Thought, CoT)进行推理的能力,并推出了支持长思考(long-thinking)的模型版本——Kimi-VL-Thinking。

相比 Kimi-VL 模型,Kimi-VL-Thinking 性能取得了显著提升:在 MathVista 上提升了 2.6%,在 MMMU 上提升了 4.7%,在 MathVision 上提升了 15.4%。这表明该模型能够利用测试时计算(test-time computation)资源进行更深层次的推理,并能更好地处理复杂的多模态问题。

如上图所示,Kimi-VL-Thinking 媲美或超越了一些当前最先进的支持思维链(thinking)和不支持思维链(non-thinking)的模型:在 MathVista 上取得 71.3% 的成绩,优于 GPT-4o(63.8%)和 GPT-4o-mini(56.7%);在 MMMU 上得分 61.7%,超越了 GPT-4o-mini(60.0%)和 Qwen2.5-VL-7B(58.6%);在 MathVision 上达到 36.8%,超过了 GPT-4o(30.4%)、Gemma-3-27B-IT(35.5%),甚至 QVQ-72B(35.9%)。

尽管在少数几个基准测试上略微落后于一些更大规模的模型,Kimi-VL-Thinking 仅凭 3.2B 激活参数就取得了这些成绩——这比同类模型少了几个数量级——充分证明了其在多模态推理方面的高效率和有效性。

下一步计划

Kimi-VL 是一个视觉语言模型(VLM),其设计采用了平衡策略,兼顾了多模态和纯文本的预训练与后训练,并采用了基于 MoE(混合专家)的架构以实现可扩展的效率。其 128K 的扩展上下文窗口使其能够在长文本和长视频中进行精准信息检索。同时,其原生分辨率编码器 MoonViT 有助于在超高分辨率视觉任务中以较低的计算开销保持高准确率。此外,Kimi-VL-Thinking 支持在复杂的图像和视频推理中进行有效的长链推理。

总体而言,Kimi-VL 在多模态、长上下文和高分辨率任务中展现出强大的适应性和效率,显示出其在未来研究和工业应用中的巨大潜力。

然而,Kimi-VL 仍然面临一些挑战:

1. 尽管当前模型规模对于许多标准任务表现有效,但其规模仍然有限,难以应对高度专业化或领域特定的问题,或是那些严重依赖语言能力的问题,这限制了 Kimi-VL 处理极端复杂场景的能力。
2. 虽然其推理能力对于典型的应用场景已经足够强大,但尚未达到其上限,尤其是在需要多步推理或更深层次上下文理解的复杂任务上
3. 尽管提供了 128K 的扩展上下文窗口,但由于其注意力层的参数有限(仅相当于 3B 参数模型的水平),其长上下文能力对于某些需要处理极长序列或海量上下文信息的高级应用来说仍显不足
未来,我们将通过扩大模型规模扩展预训练数据以及改进后训练算法来应对这些挑战。

我们的下一步计划包括优化 Kimi-VL 并发布更大规模的版本,以及进一步完善后训练和测试时扩展机制,以期获得更好的长思考模型,为研究和行业更高级的应用铺平道路。



Kimi-VL 视觉语言模型

📜 ArXiv 论文:https://arxiv.org/abs/2504.07491v1 
💻 Github 代码:https://github.com/MoonshotAI/Kimi-VL 
🤗Hugging Face 模型下载:https://huggingface.co/moonshotai/Kimi-VL-A3B-Instructhttps://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Kimi-VL 视觉语言模型 多模态 人工智能
相关文章