2025-04-07 14:35 江苏
关注公众号,发现CV技术之美
让AI像人类一样看视频! VideoMindVideoMind: A Chain-of-LoRA Agent for Long Video Reasoning
提出长视频推理新范式,性能超越 GPT-4o,AK两次转发!代码、数据、Demo全开源!
AK两次转发推文:
1. 背景:长视频推理的挑战
随着视频数据量的激增,如何理解和推理长视频中的复杂场景和事件成为了多模态人工智能研究的热点。
不同于静态图像,视频不仅包含视觉信息,还包含时间维度上的动态变化,这要求模型在理解视频时不仅要识别画面中的物体和场景,还要理解这些物体和场景如何随时间变化和相互作用。
传统的基于文本和图像的推理模型(如OpenAI o1, DeepSeek R1等)往往无法应对这种复杂的时间维度推理任务。
2. VideoMind的创新设计
VideoMind框架的核心创新在于其角色化推理(Role-based Reasoning)和链式LoRA(Chain-of-LoRA)策略。区别于文本和图片,长视频理解难以用传统的单次感知 + 纯文字推理实现。
相比之下,人类在理解长视频(如教学视频、故事类视频)时往往会寻找相关片段并反复观看,以此获取更可靠的结论。受该现象启发,作者根据视频理解所需要的4种核心能力(制定计划、搜索片段、验证片段、回答问题),为VideoMind定义了4个角色,并构建了一个角色化的工作流,有效地解决了长视频中的时序推理问题。
为了高效整合以上角色,作者进一步提出了链式LoRA(Chain-of-LoRA)策略,在一个统一的Base模型(如Qwen2-VL)上同时加载多个轻量的LoRA Adapter,并在推理时根据需要进行动态切换,以实现不同角色间的转换。
该策略仅需要在Base模型上添加少量可学习参数,即可实现多个角色/功能间的无缝切换,既获得了比单一模型显著更优的性能,也避免了多模型并行带来的计算开销,从而在确保性能的同时大幅提高了计算效率。
3. VideoMind推理流程
如图2所示,模型接收一个视频和一个用户提出的问题作为输入,通过切换多个角色来推理出最终答案。其中,Planner首先对视频和问题进行分析,执行后续推理的计划,其结果以JSON list的形式呈现。推理计划主要可分为以下三种:
其中
Grounder负责接收一个自然语言查询,并在视频中定位相关片段。针对这一复杂任务,研究团队提出了Timestamp Decoder模块,将离散的Token预测任务和连续的时间回归任务解耦开来,并使LLM通过Special Token进行调用,实现了强大的Zero-shot时序定位性能。
为保证时间分辨率,Grounder往往工作在较低的空间分辨率下,因此获得的时间片段可能会不准确。针对此问题,作者设计了Verifier角色来对每个片段进行放大验证,并从多个候选片段中选取置信度最高的作为目标片段。试验证明该策略可以进一步显著提高Temporal Grounding任务的性能。
为训练VideoMind,作者针对不同角色收集/制作了多个数据集,共计包含接近50万个样本。不同角色使用不同数据集进行训练,并在推理时合并加载,以确保每个角色的性能最大化。所有训练数据(包括前期探索使用的更多数据集)全部公开可用。
4. 实验与评估
为了验证VideoMind的有效性,作者在14个公开基准测试集上进行了广泛的实验,涵盖了长视频定位 + 问答(Grounded VideoQA)、视频时序定位(Video Temporal Grounding)和普通视频问答(General VideoQA)等任务。
视频定位 + 问答(Grounded VideoQA)
在CG-Bench、ReXTime、NExT-GQA等长视频基准上,VideoMind在答案精确度和时序定位准确性方面表现出了领先优势。特别的,在平均视频长度约为27分钟的CG-Bench中,较小的VideoMind-2B模型在时序定位和问答任务上超越了GPT-4o、Gemini-1.5-Pro等最先进的模型。
视频时序定位(Video Temporal Grounding)
VideoMind的Grounder通过创新的Timestamp Decoder和Temporal Feature Pyramid设计,显著提高了视频时序定位的准确性。Verifier的设计进一步提升了高精度定位的性能。VideoMind在Charades-STA、ActivityNet-Captions、QVHighlights等基准上都取得了最佳性能。此外,VideoMind也是首个支持多片段grounding的多模态大模型,因此可以在QVHighlights数据集上跟现有模型公平对比。
一般视频问答(General VideoQA)
对于通用的视频理解问题,VideoMind也表现出了强大的泛化能力。在Video-MME、MVBench、MLVU、LVBench、LongVideoBench等基准上,VideoMind得益于其Planner的设计,可以自适应地决定是否需要grounding,其性能超越了许多先进的视频问答模型,显示了其在不同视频长度下的优越表现。
5. 可视化
以下例子展现了VideoMind在实际场景中的推理流程。给定一个视频和一个问题,该模型可以拆解问题、指定计划、搜索片段、验证结果,并根据获取的片段推理最终答案。该策略相比传统的纯文字推理(左下部分)更加符合人类行为,结果也更加可靠。
6. 结语
VideoMind的提出不仅在于视频理解性能的突破,更在于提出了一个模块化、可扩展、可解释的多模态推理框架。该框架首次实现了类似人类行为的“指定计划、搜索片段、验证结果、回答问题”流程,真正让AI能“像人类一样理解视频”,为未来的视频理解和多模态智能系统领域奠定了基础。
最新 AI 进展报道
请联系:amos@52cv.net
END
欢迎加入「视频理解」交流群👇备注: