我爱计算机视觉 03月04日
Long-VITA:突破百万Tokens限制!开源多模态大模型新标杆
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯优图实验室和南京大学等推出多模态大模型Long-VITA,原生支持长上下文输入,在多种场景表现优异,且完全开源可复现,具有诸多亮点。

原生支持4096帧图像、一百万Tokens输入,采用全参训练

在支持长上下文的同时,保持短上下文效果优异

只用开源数据训练,效果超过使用非公开数据训练的主流模型

完全开源可复现,训练和推理流程全国产化

2025-03-04 18:02 江苏




关注公众号,发现CV技术之美




近期,多模态大模型(MLLMs)发展迅速,但开源模型在长上下文场景(如长视频或高分辨率图像)中仍显著落后于闭源模型。部分专注于长上下文场景的开源模型在短上下文场景(如短视频或静态图像)中又表现不佳。

为此,腾讯优图实验室和南京大学等联合推出全开源、可复现的多模态大模型 Long-VITA,原生支持 4096 帧图像或者 100 万 Tokens 输入,在支持长上下文场景的同时,保持短上下文场景的优异表现。在单机推理上,实现推理长度扩展 417% 和推理速度降低 47.3%。


背景介绍

目前多模态大模型在处理长上下文(长视频、高分辨率图像等)时通常面临以下挑战:

Long-VITA 致力于推动长上下文多模态大模型的开发与应用,为学术界和工业界提供一个强大的开源基准模型。Long-VITA 具有以下亮点:


模型架构

Long-VITA 采用经典的 Vision Encoder - Vision Projector - LLM 架构。


训练数据

Long-VITA 只采用开源数据进行训练,没有采用数据过滤操作。

不同训练阶段的数据配比不同。其中包括:


训练流程

阶段一:视觉-文本对齐

该阶段旨在实现图像表征与 LLM 输入文本空间的初步对齐。只训练 Vision Projector。训练数据主要为图像描述数据和文档类型数据。

阶段二:通用知识学习

该阶段旨在促进模型对通用视觉-文本知识的学习。训练全部模块。训练数据包括图像-文本,视频-文本,纯文本数据,数据长度较短。采用 Packing 技术将多条数据拼接至固定长度,同时修改位置编码和 Attention Mask 确保数据彼此独立,以最大程度利用计算资源。

阶段三:长序列微调

该阶段将模型的上下文长度扩展至 128K。训练全部模块。训练数据中降低长度较短数据的比例,引入长度较长的漫画、视频、文本数据。采用 Packing 技术,但不修改位置编码和 Attention Mask。

阶段四:超长序列微调

该阶段将模型的上下文长度扩展至 1024K。训练全部模块。训练数据额外使用 MovieNet-Summary。采用 Packing 技术,但不修改位置编码和 Attention Mask。


推理扩展

Long-VITA 设计了两种提高模型在推理阶段能处理的 tokens 数量的实现:


实验评估

图像理解评估

Long-VITA-16K 在 OpenCompass 的 8 个 Benchmark 上表现优异,超越了许多开源模型,尤其在处理多图像任务时展现出强大的能力。

但 Long-VITA-1M 的表现略逊于 Long-VITA-16K 和 Long-VITA-128K,这可能是由于在 1M 训练中未修改 Attention Mask 来隔离样本导致了不同数据样本的混淆。Long-VITA 展示了使用开源数据训练也能实现与私有数据训练相媲美的强大性能。

视频理解评估

在 Video-MME 上,Long-VITA-128K 在处理 256 帧视频时超越了所有其他 20B 参数以下的模型,尤其在中长视频任务上表现出色。Long-VITA-1M 能够原生支持 4096 帧的视频输入,并兼容 slow-fast 和 progressive pooling 等 training-free 方法进一步扩展视觉上下文窗口。

此外,由于在预训练和微调阶段未调整旋转位置编码的比例因子,因此在推理阶段可通过位置编码插值进一步实现长度外推。

在 LongVideoBench 和 MVBench 上,Long-VITA 分别展示了在长视频理解和短视频理解上的优异性能。另外,由于缺少多模态长上下文数据,Long-VITA-1M 仍有提升空间。


未来工作

Long-VITA 完全基于开源数据,在长视觉上下文和短视觉上下文中均展现出优异的性能,在各种视频和图像理解任务中处于领先地位。未来 Long-VITA 将采取多模态长上下文数据扩充过滤、训练流程优化等手段进一步改善模型性能。

最新 AI 进展报道
请联系:amos@52cv.net

END




欢迎加入「大模型交流群?备注:LLM




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Long-VITA 多模态大模型 开源数据 长上下文
相关文章