魔搭ModelScope社区 前天 14:12
Kimi开源MoE架构多模态推理模型,小激活参数,大能量!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Moonshot AI 推出了 Kimi-VL,一款开源的混合专家(MoE)视觉-语言模型,仅激活2.8B参数。该模型擅长多模态推理、长文本理解和图像/视频处理等任务,性能卓越。Kimi-VL在多轮次代理交互任务中表现出色,并在多种视觉语言任务中展示了非凡能力,包括大学水平的图像和视频理解、OCR、数学推理等。它与GPT-4o-mini、Qwen2.5-VL-7B等模型竞争,并在某些专业领域超越GPT-4o。Kimi-VL还配备了128K的扩展上下文窗口,并推出了Kimi-VL-Thinking,增强了长期推理能力。

💡 Kimi-VL 是一款高效的开源混合专家(MoE)视觉-语言模型,其核心在于仅激活语言解码器中的2.8B参数,实现了高效推理。

🚀 该模型在多模态推理任务中表现出色,例如在多轮次代理交互任务(OSWorld)上表现出色,达到了与旗舰模型相当的最先进结果。

🖼️ Kimi-VL 具备强大的视觉理解能力,能够处理多种视觉语言任务,包括图像和视频理解、OCR、数学推理等,并支持超高分辨率视觉输入。

📚 Kimi-VL 拥有128K 的扩展上下文窗口,可以处理长而多样的输入,在 LongVideoBench 和 MMLongBench-Doc 等基准测试中取得优异成绩。

🧠 Moonshot 还推出了 Kimi-VL-Thinking,该模型通过长链思维(CoT)监督微调和强化学习开发,展现出强大的长期推理能力,尤其在数学推理任务中表现突出。

2025-04-11 19:18 广西

Moonshot AI 推出 Kimi-VL,开源 MoE 视觉-语言模型,仅激活 2.8B 参数,擅长多模态推理、长文本理解、图像/视频处理等,性能卓越,超越多个前沿模型。


01

引言



最近Moonshot AI推出了 Kimi-VL,这是一个高效的开源混合专家(MoE)视觉-语言模型(VLM),它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数(Kimi-VL-A3B)。

课代表敲黑板,Kimi-VL 在多个具有挑战性的领域中表现出色:


1、作为一个通用的 VLM,Kimi-VL 在多轮次代理交互任务(例如,OSWorld)上表现出色,达到了与旗舰模型相当的最先进结果。 


2、它在多种多样且具有挑战性的视觉语言任务中展示了非凡的能力,包括大学水平的图像和视频理解、光学字符识别 (OCR)、数学推理、多图像理解等。


3、在对比评估中,它有效地与 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT 等前沿高效 VLM 竞争,并在几个专业领域超越了 GPT-4o。


4、模型配备了一个 128K 的扩展上下文窗口,Kimi-VL 可以处理长而多样化的输入,在 LongVideoBench 上得分为 64.5,在 MMLongBench-Doc 上得分为 35.1;


5、其原生分辨率视觉编码器 MoonViT 进一步使其能够看到并理解超高分辨率的视觉输入,在 InfoVQA 上得分为 83.2,在 ScreenSpot-Pro 上得分为 34.5,同时在处理常见的视觉输入和一般任务时保持较低的计算成本。

基于这一基础,Moonshot同时推出了:Kimi-VL-Thinking。通过长链思维(CoT)监督微调(SFT)和强化学习(RL)开发,该模型展现出强大的长期推理能力。它在 MMMU 上得分 61.7,在 MathVision 上得分 36.8,在 MathVista 上得分 71.3,同时保持紧凑的 2.8B 激活 LLM 参数量,为高效且能力强的多模态思考模型树立了新标准。


02

模型架构



该模型采用 MoE 语言模型、原生分辨率视觉编码器(MoonViT)和 MLP 投影仪,如下图所示。


03

模型列表



对于一般的多模态感知和理解、OCR、长视频和长文档、视频感知以及代理用途,推荐使用 Kimi-VL-A3B-Instruct 以实现高效的推理;对于高级文本和多模态推理(例如数学),请考虑使用 Kimi-VL-A3B-Thinking

模型

总参数数

激活参数数

上下文长度

下载链接

Kimi-VL-A3B-Instruct

16B

3B

128K

https://www.modelscope.cn/models/moonshotai/Kimi-VL-A3B-Instruct

Kimi-VL-A3B-Thinking

16B

3B

128K

https://www.modelscope.cn/models/moonshotai/Kimi-VL-A3B-Thinking


04

模型性能



凭借有效的长思考能力,Kimi-VL-A3B-Thinking 在 MathVision 基准测试中的表现可以与 30B/70B 的前沿开源 VLMs 相媲美:


模型推理

使用ModelScope的SDK(兼容transformers)推理Thinking模型。

    from PIL import Imagefrom modelscope import AutoModelForCausalLM, AutoProcessormodel_path = "moonshotai/Kimi-VL-A3B-Thinking"model = AutoModelForCausalLM.from_pretrained(    model_path,    torch_dtype="auto",    device_map="auto",    trust_remote_code=True,)processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)image_paths = ["./figures/demo1.png""./figures/demo2.png"]images = [Image.open(path) for path in image_paths]messages = [    {        "role""user",        "content": [            {"type""image""image": image_path} for image_path in image_paths        ] + [{"type""text""text""Please infer step by step who this manuscript belongs to and what it records"}],    },]text = processor.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")inputs = processor(images=images, text=text, return_tensors="pt", padding=True, truncation=True).to(model.device)generated_ids = model.generate(**inputs, max_new_tokens=2048)generated_ids_trimmed = [    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]response = processor.batch_decode(    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]print(response)

    显存占用:


    点击阅读原文,即可跳转模型~



    👇点击关注ModelScope公众号获取
    更多技术信息~


    阅读原文

    跳转微信打开

    Fish AI Reader

    Fish AI Reader

    AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

    FishAI

    FishAI

    鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

    联系邮箱 441953276@qq.com

    相关标签

    Kimi-VL Moonshot AI 视觉语言模型 多模态 开源
    相关文章