达摩院开源 VideoLLaMA3：仅 7B 大小，视频理解拿下 SOTA

7B 大小的视频理解模型中的新 SOTA，来了！它就是由达摩院出品的 Video LLaMA 3，以图像为中心构建的新一代多模态视频-语言模型。

在通用视频理解、时间推理和长视频理解三个核心维度进行评估的过程中，VideoLLaMA 3 均取得优异成绩，超越多数基线模型。

不仅如此，适用于端侧的 2B 大小的 Video LLaMA 3，在图像理解上的表现也是较为出色。

在涵盖文档 / 图表 / 场景文本理解、数学推理、多图像理解和常识问答等多个维度的基准测试，如在 InfoVQA 中超越之前最好成绩，在 MathVista 数学推理任务上优势明显。

VideoLLaMA 3 以图片为中心的设计理念贯穿于整个模型架构和训练过程。

通过高质量的图片文本数据为视频理解打下坚实基础，仅使用 3M 视频文本数据，实现全面超越同参数量开源模型的视频理解能力。

在线可玩

目前，VideoLLaMA 3 已经在 HuggingFace 上提供了图像、视频理解的 demo。

例如我们给一张《蒙娜丽莎的微笑》，并向 VideoLLaMA 3 提问：

Discuss the historical impact and the significance of this painting in the art world.
讨论这幅画在艺术界的历史影响和意义。

VideoLLaMA 3 的回答是这样的：

《蒙娜丽莎》不仅是世界上最著名的画作之一，也是艺术史上的重要作品。它创作于文艺复兴时期，体现了该时期对人文主义的关注和古典学习的复兴。列奥纳多・达・芬奇的创新技术，如在色彩和色调之间进行柔和过渡的模糊手法，为这幅画的神秘品质做出了贡献。几个世纪以来，《蒙娜丽莎》一直是一个迷人的主题，激发了无数的解释和分析。它已成为西方文化的标志，象征着艺术成就的顶峰，象征着视觉艺术对跨越时间和文化的观众的持久魅力。

再来看下视频理解的 demo，我们的问题是：

What is unusual in the video?
视频中有什么不寻常之处？

对此，VideoLLaMA 3 表示：

这段视频的不同寻常之处在于，它展示了熊这种典型的野生动物，正在进行一种类似人类的活动，比如在桌子上吃寿司。

VideoLLaMA 3 回答可谓是非常简约且精准了。

并且这个 demo 在 HuggingFace 上的操作也是极其简单，只需上传图片或视频，再提出你的问题即可。

怎么做到的？

VideoLLaMA 3 的关键，在于它是一种以图像为中心的训练范式。

这种范式主要包含四个关键内容：

视觉编码器适配：让视觉编码器能处理动态分辨率图像，用不同场景图像提升其性能，使其能捕捉精细视觉细节。

视觉语言对齐：用丰富图像文本数据为多模态理解打基础，利用多种数据增强空间推理能力，同时保留模型语言能力。

多任务微调：用图像文本问答数据和视频字幕数据微调模型，提升其遵循自然语言指令和多模态理解能力，为视频理解做准备。

视频微调：增强模型视频理解和问答能力，训练数据包含多种视频及图像、文本数据。

从框架设计来看，主要包含两大内容。

首先是任意分辨率视觉标记化（AVT）。

这种方法突破了传统固定分辨率限制，采用 2D - RoPE 替换绝对位置嵌入，让视觉编码器能处理不同分辨率图像和视频，保留更多细节。

其次是差分帧剪枝器（DiffFP）。

针对视频数据冗余问题，通过比较相邻帧像素空间的 1-范数距离，修剪冗余视频标记，提高视频处理效率，减少计算需求。

除了框架之外，高质量数据也对 VideoLLaMA 3 的性能起到了关键作用。

首先是高质量图像重新标注数据集 VL3Syn7M 的构建。

为给 VideoLLaMA 3 提供高质量训练数据，团队构建了包含 700 万图像-字幕对的 VL3Syn7M 数据集。

Aspect Ratio Filtering（长宽比过滤）：图像长宽比可能影响模型特征提取。像一些长宽比极端的图像，过宽或过长，会使模型在处理时产生偏差。通过过滤，确保数据集中图像长宽比处于典型范围，为后续准确的特征提取奠定基础。

Aesthetic Score Filtering（美学评分过滤）：利用美学评分模型评估图像视觉质量，舍弃低评分图像。这一步能去除视觉效果差、构图不佳的图像，减少噪声干扰，保证模型学习到的图像内容和描述质量更高，进而提升模型生成优质描述的能力。

Text-Image Similarity Calculation with Coarse Captioning（带粗略字幕的文本-图像相似度计算）：先用 BLIP2 模型为图像生成初始字幕，再借助 CLIP 模型计算文本 - 图像相似度，剔除相似度低的图像。这一操作确保剩余图像内容与描述紧密相关，使模型学习到的图文对更具可解释性和代表性。

Visual Feature Clustering（视觉特征聚类）：运用 CLIP 视觉模型提取图像视觉特征，通过 k-最近邻（KNN）算法聚类，从每个聚类中心选取固定数量图像。这样既保证数据集多样性，又维持语义类别的平衡分布，让模型接触到各类视觉内容，增强其泛化能力。

Image Re - caption（图像重新标注）：对过滤和聚类后的图像重新标注。简短字幕由 InternVL2-8B 生成，详细字幕则由 InternVL2-26B 完成。不同阶段训练使用不同类型字幕，满足模型多样化学习需求。

其次是各训练阶段的数据混合。

在 VideoLLaMA 3 的不同训练阶段，数据混合策略为模型提供了丰富多样的学习场景。此外，团队使用统一的数据组织形式以统一各个阶段的训练。

Vision Encoder Adaptation（视觉编码器适配）：此阶段旨在增强模型对多样场景的理解和特征提取能力，训练数据融合场景图像、文档识别图像和少量场景文本图像。

场景图像来源广泛，像 VL3-Syn7M-short 等，其中 Object365 和 SA-1B 数据集的引入增加了数据多样性；场景文本图像来自 BLIP3-OCR，其文本内容和简短重新标注都作为字幕；文档图像选取自 pdfa-eng-wds 和 idl-wds，文档文本内容按阅读顺序作为图像字幕。

Vision-Language Alignment（视觉语言对齐）：该阶段使用高质量数据微调模型，涵盖场景图像、场景文本图像、文档、图表、细粒度数据以及大量高质量纯文本数据。

场景图像整合多个数据集并重新标注；场景文本图像包含多种中英文数据集，并对 LAION 数据集中图像筛选形成 Laion-OCR 数据集，其字幕包含文本内容和文本位置的边界框注释。

文档图像除常见数据集外，还加入手写和复杂文档数据集；图表数据虽量少，但来自 Chart-to-Text 数据集；细粒度数据包含区域字幕数据和带框字幕数据，增强模型对图像细节的理解。

Multi-task Fine-tuning（多任务微调）：用指令跟随数据进行指令微调，数据混合覆盖多种任务。

图像数据分为一般、文档、图表 / 图形、OCR、定位和多图像六类，每类针对特定视觉理解方面。同时包含大量纯文本数据，提升模型处理涉及视觉和文本输入的指令跟随任务的能力。

视频数据则结合常用高质量视频字幕数据集、少量问答数据，以及 VideoLLaMA2 的内部数据和内部时间定位数据，增强模型视频理解能力。

Video - centric Fine - tuning（视频微调）：此阶段聚焦提升模型视频理解能力，收集多个开源数据集中带注释的视频数据，还通过合成特定方面的密集字幕和问答对扩展数据规模。

此外，引入流媒体视频理解和时间定位特征，同时使用一定量的纯图像和纯文本数据，缓解模型灾难性遗忘问题。

论文和 demo 地址放在下面了，感兴趣的小伙伴可以去体验喽~

论文地址：

https://arxiv.org/abs/2501.13106

GitHub 项目地址：

https://github.com/DAMO-NLP-SG/VideoLLaMA3/tree/main?tab=readme-ov-file

图像理解 demo：

https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image

视频理解 demo：

https://huggingface.co/spaces/lixin4ever/VideoLLaMA3

HuggingFace 地址：

https://huggingface.co/collections/DAMO-NLP-SG/videollama3-678cdda9281a0e32fe79af15

本文来自微信公众号：量子位（ID：QbitAI），作者：关注前沿科技

在线可玩

怎么做到的？

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签