IT之家 02月14日
达摩院开源 VideoLLaMA3:仅 7B 大小,视频理解拿下 SOTA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

达摩院推出7B大小的Video LLaMA 3,一款以图像为中心构建的新一代多模态视频-语言模型,并在通用视频理解、时间推理和长视频理解等核心维度超越多数基线模型。即使是适用于端侧的2B版本,在图像理解方面也表现出色,在文档/图表理解、数学推理、多图像理解和常识问答等基准测试中均有突出表现。VideoLLaMA 3通过高质量的图片文本数据为视频理解打下基础,仅使用3M视频文本数据,实现了超越同参数量开源模型的视频理解能力。目前,该模型已在HuggingFace上提供图像、视频理解的demo。

🖼️ Video LLaMA 3以图像为中心,采用新一代多模态视频-语言模型架构,在通用视频理解、时间推理和长视频理解三个维度均表现卓越,超越多数基线模型。

🧮 该模型在图像理解方面表现出色,尤其是在涵盖文档/图表/场景文本理解、数学推理、多图像理解和常识问答等多个维度的基准测试中,例如在InfoVQA和MathVista等任务中均有明显优势。

⚙️ Video LLaMA 3的关键在于其以图像为中心的训练范式,包括视觉编码器适配、视觉语言对齐、多任务微调和视频微调四个关键内容,以及任意分辨率视觉标记化(AVT)和差分帧剪枝器(DiffFP)两大技术。

📚 为了提供高质量的训练数据,团队构建了包含700万图像-字幕对的VL3Syn7M数据集,通过长宽比过滤、美学评分过滤、文本-图像相似度计算和视觉特征聚类等步骤,确保数据集的质量和多样性。

7B 大小的视频理解模型中的新 SOTA,来了!它就是由达摩院出品的 Video LLaMA 3,以图像为中心构建的新一代多模态视频-语言模型。

在通用视频理解、时间推理和长视频理解三个核心维度进行评估的过程中,VideoLLaMA 3 均取得优异成绩,超越多数基线模型。

不仅如此,适用于端侧的 2B 大小的 Video LLaMA 3,在图像理解上的表现也是较为出色。

在涵盖文档 / 图表 / 场景文本理解、数学推理、多图像理解和常识问答等多个维度的基准测试,如在 InfoVQA 中超越之前最好成绩,在 MathVista 数学推理任务上优势明显。

VideoLLaMA 3 以图片为中心的设计理念贯穿于整个模型架构和训练过程。

通过高质量的图片文本数据为视频理解打下坚实基础,仅使用 3M 视频文本数据,实现全面超越同参数量开源模型的视频理解能力。

在线可玩

目前,VideoLLaMA 3 已经在 HuggingFace 上提供了图像、视频理解的 demo。

例如我们给一张《蒙娜丽莎的微笑》,并向 VideoLLaMA 3 提问:

Discuss the historical impact and the significance of this painting in the art world.

讨论这幅画在艺术界的历史影响和意义。

VideoLLaMA 3 的回答是这样的:

《蒙娜丽莎》不仅是世界上最著名的画作之一,也是艺术史上的重要作品。它创作于文艺复兴时期,体现了该时期对人文主义的关注和古典学习的复兴。列奥纳多・达・芬奇的创新技术,如在色彩和色调之间进行柔和过渡的模糊手法,为这幅画的神秘品质做出了贡献。几个世纪以来,《蒙娜丽莎》一直是一个迷人的主题,激发了无数的解释和分析。它已成为西方文化的标志,象征着艺术成就的顶峰,象征着视觉艺术对跨越时间和文化的观众的持久魅力。

再来看下视频理解的 demo,我们的问题是:

What is unusual in the video?

视频中有什么不寻常之处?

对此,VideoLLaMA 3 表示:

这段视频的不同寻常之处在于,它展示了熊这种典型的野生动物,正在进行一种类似人类的活动,比如在桌子上吃寿司。

VideoLLaMA 3 回答可谓是非常简约且精准了。

并且这个 demo 在 HuggingFace 上的操作也是极其简单,只需上传图片或视频,再提出你的问题即可。

怎么做到的?

VideoLLaMA 3 的关键,在于它是一种以图像为中心的训练范式。

这种范式主要包含四个关键内容:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Video LLaMA 3 多模态模型 视频理解 达摩院
相关文章