我爱计算机视觉 04月30日 21:12
Video-XL-Pro:端侧3B模型长视频理解新sota!性能赶超7B巨头!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

上海交通大学等机构联合推出的Video-XL-Pro,是一个针对超长视频理解的大模型。该模型采用创新的“重构式令牌压缩”技术,实现了近万帧视频的单卡处理,并在多个基准评测上超越了Meta的7B模型Apollo-7B等。Video-XL-Pro仅用3B参数,性能优异,且项目代码、模型、训练数据均已开源,为长视频理解领域带来了新的突破。

💡 Video-XL-Pro的核心技术是“重构式令牌压缩”(ReCoT),通过动态令牌合成器(DTS)和语义引导掩码(SGM)来提升视频理解效率和质量。

✨ Video-XL-Pro在长视频理解任务上表现卓越,在MLVU、TempCompass等多个主流评测基准上取得了领先,超越了包括Apollo-7B在内的多个7B模型。

🚀 该模型具备处理超长上下文的能力,在“大海捞针”测试中,以8192帧为输入,准确率接近99%。

⏱️ 在时间理解方面,Video-XL-Pro在V-STaR长视频时间基准测试中表现出色,远超其他开源模型,展现了卓越的长视频时间理解能力。

Video-XL-Pro团队 2025-04-30 15:01 江苏

模型、代码、训练数据均已开源




关注公众号,发现CV技术之美




长视频理解是多模态大模型的核心能力之一,也是迈向通用人工智能(AGI)的关键一步。然而,现有的多模态大模型难以大规模训练超长视频,并且在处理长视频时,仍然面临性能差和效率低的双重挑战。

对此,上海交通大学、北京智源研究院、特伦托大学的联合研究团队推出了小时级的超长视频理解大模型Video-XL-Pro,创新提出“重构式令牌压缩”技术,实现近一万帧视频的单卡处理,大海捞针准确率超98%!

并且使用较少的训练数据,在多个基准评测上超越了之前Meta发布的7B模型Apollo-7B,以及同尺寸的知名开源模型Qwen2.5-VL-3B,InternVL2.5-4B等,项目代码,模型,训练数据均已开源!


模型结构

Video-XL-Pro的核心在于其提出的重构性令牌压缩技术(ReCoT),该技术通过自监督学习生成全面且紧凑的视频令牌,显著提升了视频理解的效率和质量。ReCoT包含两个关键组件:动态令牌合成器(DTS)和语义引导掩码(SGM)。

DTS通过轻量级的时空注意力块对令牌进行压缩,有效捕捉视频中的动态运动;而SGM则通过自适应掩码策略,减少冗余视觉令牌,从而优化重构学习过程。这些创新设计使得模型在仅需3B参数的情况下,性能超越了许多7B参数的模型。

此外,为了增强模型对超长视频理解能力,模型还引入了查询选择器,使得在输入上下文超过限制时模型能够选择性关注和查询有关的片段。

为了进一步提升训练效率,研究团队还提出了视频数据集剪枝策略。这些方法通过筛选高质量视频数据,显著降低了计算成本,同时保障模型的性能。


评测基准

Video-XL-Pro选用多个主流视频理解评测基准,对模型进行了全面的评测,对于长视频理解任务,评测了LongVideoBench、MLVU、Video-MME,TempCompassVNbench。

其中MLVU,VideoMME,LongVideoBench集中在评测模型的长视频理解能力;

VNbench则是兼顾长视频与短视频,TempCompass则是评测模型在视频中的时间理解能力。

如表1所示,Video-XL-Pro在多个主流的长视频评测基准上展现了卓越性能。

在MLVU的Dev,Test,以及TempCompass上,VIdeo-XL-Pro均斩获了第一名,不光超越同参数量的知名开源模型qwen2.5-VL-3BinternVL2.5-4B等,也超越了一众7B模型,包括Meta发布的7B模型Apollo-7B等。

在VideoMME,LongVideoBench,Video-XL-Pro也超越了绝大部分同参数量模型,并达到与7B模型相当的水准;

最后在VNbench上,VIdeo-XL-Pro也取得有竞争力的结果,说明模型在增强长视频理解能力的同时,也能兼顾短视频能力。

值得注意的是,VIdeo-XL-Pro只使用了相对较少的SFT数据(1M),低于Apollo的3.2M,远低于Qwen2.5-VL,InternVL2.5等知名开源模型,进一步说明了方法的有效性。

Video-XL-Pro还进行了视频「大海捞针」测试来评估其处理超长上下文的能力。得益于ReCot模块和查询选择器的设计,使得模型可以输入极长的上下文序列,在相同硬件条件下,模型可以以8192帧为输入,达到了近99%的准确率。


时间理解

为了更全面的评估模型性能,我们还选用了经典时间评测基准Charades-STA和最新的长视频时间评测基准V-STaR。

V-STaR注重在极长视频中找出与问题相关的片段,精准回答片段时间范围,现有开源模型在V-STaR中很难取得很好的成绩,即便是Qwen2.5-VL-7B,mIoU得分也仅为11.48。

Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分,在IoU>0.7时仍能达到15.58的准确率,远上超越一众知名开源模型,包括InternVL2.5-8BQwen2.5-VL-7B,并超越上一代冠军Video-LLaMA3,展现了卓越的长视频时间理解能力,并且在Charades-STA上也有着不俗的表现。


总结

该工作提出了Video-XL-Pro模型,利用自监督学习压缩视觉标记,使用相对少量数据下训练的3B模型就能获得超越大多数7B模型的性能。Video-XL-Pro在多个主流长视频理解基准评测上表现优异。模型有望在多个长视频理解的应用场景中展现出广泛的应用价值,成为得力的长视频理解助手。目前,模型、代码、训练数据均已开源,以促进长视频理解社区的合作和发展。

本文为Video-XL-Pro团队投稿
最新 AI 进展报道
请联系:amos@52cv.net

END




欢迎加入「视频理解交流群👇备注:video




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Video-XL-Pro 长视频理解 大模型 开源
相关文章