小米技术 前天 05:17
Time-R1突破视频时序定位挑战:多模态强化学习后训练框架仅用2.5K数据刷新SOTA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

小米大模型团队联合中国人民大学AIM3实验室,提出Time-R1,一项基于强化学习的创新方案,显著提升了多模态大模型在长视频时序定位任务中的性能。该研究仅使用2.5K训练数据,刷新了7B模型在相关任务上的SOTA,并开源了所有代码和模型。Time-R1通过Time-RFT训练框架、数据构建策略和TVGBench评测基准,为视频时序定位与推理任务开辟了新路径,展现了强化学习在多模态领域的巨大潜力。

💡Time-R1采用基于强化学习(RL)的后训练框架,解决了传统监督微调(SFT)在长视频时序定位任务中的局限性。通过直接优化交并比(IoU),模型更关注于事件的语义理解,而非严格的时间点对齐。

🎬TimeRFT训练策略是关键,它通过数据筛选、多轮训练和冷启动策略,有效地提升了模型的泛化能力和训练效率。特别是,TimeRFT仅使用2.5K训练数据即刷新了该任务在7B多模态大模型上的新SOTA。

🔬TVGBench评测基准的构建,提升了评测效率,并确保了任务覆盖的广度与代表性。该基准包含800个样本,覆盖多种查询类型,有助于全面评估模型在视频时序定位方面的能力。

小米大模型团队 2025-06-19 17:00 北京

近期,以Deepseek-R1为代表的大语言模型通过强化学习后训练(RL post-training)显著提升了模型推理能力,这一技术范式正迅速向多模态领域延伸。

小米大模型Plus团队联合中国人民大学AIM3实验室在长视频时序定位(Temporal Video Grounding)任务中取得突破性进展,在长视频任务上首次验证了强化学习后训练提升多模态大模型视频推理能力的可行性。

团队提出的Time-R1(TimeZero续作)创新性地采用基于RL的多模态后训练框架,仅需2.5K规模的训练数据即刷新了该任务在7B多模态大模型上的新SOTA,为视频时序定位与推理任务开辟了新的技术路径。

01

论文信息


近期将开源所有训练数据、训练代码、测试数据、测试代码及模型权重,开源代码支持在视频定位任务TimeRFT、Charades、ActivityNet上的训练,并支持测试集如下:视频定位测试集TVGBench、Charades、ActivityNet、短视频问答测试集MVBench、TempCompass、长视频问答测试集VideoMME、EgoSchema,开源代码支持vLLM框架的加速测试。

核心贡献

本文为强化学习后训练多模态大模型在视频定位领域提出新的技术方向,构建可靠的基线方法,提供一套完整的训练和测试框架,达到SOTA的性能。

02

RL对比以往训练范式

时序视频定位(Temporal Video Grounding,TVG)作为长视频理解的核心挑战之一,其任务是根据语言查询定位特定的视频时间片段。

传统视频时序定位方法通常采用基于特征的视觉语言训练范式:首先通过预训练模型(如CLIP、I3D)提取文本和视频特征,再通过特定任务的定位模型进行推理。然而,这类方法因依赖预提取特征而产生误差累积问题,且模型性能上限受限于预训练特征质量。

为突破这一局限,近期研究转向端到端的多模态大模型,这类模型可直接处理长视频和文本查询。然而需要注意的是,尽管多模态大模型(参数量达7B)的预训练数据规模达到特定领域基准数据集的100倍以上,其性能却往往逊于参数量极小的传统模型(如仅9M参数量的特征模型EaTR)。

这引出了一个关键问题:为何具备海量预训练知识的多模态大模型在视频定位任务中表现欠佳?

我们认为,多模态大模型性能瓶颈源于监督微调(SFT)过程中对假阴性样本的过度惩罚。例如,当真实时间片段为[2s, 4s]时,即使模型给出[1.9s, 3.9s]的合理预测,自回归损失仍会被不恰当地放大。这种对合理预测的过度惩罚会导致模型过拟合和泛化能力下降。

现有解决方案试图通过两种途径缓解该问题:1. 扩展词表:在词汇表中新增时间戳token,避免对数字的输出和拟合,2.添加预测头:通过附加的回归头预测时间戳。但这些方法往往以牺牲大语言模型原有的数字理解能力为代价。

受近期大语言模型强化学习后训练成功案例的启发,我们探索了将强化学习作为解决视频时序定位任务的解决方案。与监督微调不同,强化学习可直接优化任务特定指标(如交并比IoU),从而缓解自回归损失的刚性惩罚问题,并鼓励模型生成合理的时间戳预测。本研究提出基于强化学习的Time-R1框架,通过高效后训练多模态大模型,成功突破了视频定位任务的性能瓶颈。

03

方法细节

Time-R1训练框架

1.基于GRPO训练框架目标

强化学习的训练目标是优化模型让模型能够获得更高的奖励R(o),同时加入KL散度来约束模型参数更新不要离原有模型参数差距太大。

2.奖励(Reward)函数设计 r(o)

强化学习的优势是让模型能够直接面向最终的评价指标进行优化,从而改善性能,因此我们的奖励设计遵循这样的原则进行,同时加入先思考后回复的模式来改善模型可解释性和性能。

优化交并比本质上会促使多模态大模型的预测允许一定误差范围,这种方法引导多模态大模型更关注事件在可能时间范围内的语义理解,而非像监督微调那样严格要求时间点精确对齐。

然而,标准交并比在某些场景下可能无法准确反映时间对齐的质量。例如,当真实时间跨度为 [0, 30](即整个视频时长)时,任何覆盖超过 30% 视频的预测都会产生大于 0.3 的IoU值。像 [10, 25] 这样的预测会得到 0.5 的 IoU,尽管时间戳错误却仍被高估质量。

为解决这一问题,我们引入时间戳感知交并比(tIoU)作为修正指标。tIoU 在标准 IoU 基础上增加了时间戳偏差惩罚项,其定义为:

TimeRFT训练策略与数据集构建

由于强化学习训练的计算成本较高,我们探索了数据高效的策略以降低样本需求。为此,我们提出了TimeRFT方法,通过构建针对视频时序定位任务的数据集,并设计强化学习友好的微调策略,旨在提升模型泛化能力的同时,尽可能减少训练数据开销。

1.TimeRFT数据筛选

2.TimeRFT训练策略

TVGBench评测基准构建

鉴于现有视频定位评测基准规模较大,评估多模态大模型的效率较低,我们构建了一个小而全面的评测基准TVGBench,共包含800 个样本,以提升评测效率的同时保证任务覆盖的广度与代表性。

该基准从主流视频定位评测集(包括Charades-STA、ActivityNet-Captions、HiREST、EgoNLQ和TaCoS)中,依据视频时长数据集类型查询中心三个维度进行均匀采样。我们预先定义并构建了11种查询类型,确保评测具有广泛性和针对性。

具体而言,查询类型划分为三大类:关于人类、物体、环境的语义查询,并进一步细化如下:

04

实验结果

实验设置:如无说明,基座模型均基于Qwen2.5-VL-7B。输入视频以1秒2帧的速率采样,并动态限制最大的视频输入为2.8M个像素点。举例而言,一个50秒的视频会输入100帧,每帧大约为96*96*3的分辨率。

1.视频定位(TVG)性能。尽管我们仅使用2.5K条训练样本,Time-R1在多个主流视频时序定位基包括Charades,ActivityNet,TVGBench上全面超越现有所有轻量级开源模型,达到新SOTA。例如在Charades上相对VideoChat-Flash在R1@0.7提升27.8%;在ActivityNet上相较于VTimeLLM在R1@0.7上提升49.6%;在TVGBench上相较于TRACE在R1@0.7上提升12.3%。值得强调的是,Time-R1在部分任务上性能超越了如Gemini-2.5-Pro这样可能有几十倍参数量差距的闭源模型。此外,在下游任务上进行进一步微调后,其性能可超越多个以往传统方法。

2.短/长视频理解(MCQ)性能。值得注意的是,Time-R1模型未使用任何多选题(MCQ)类型数据进行训练的前提下,依然在短视频与长视频问答评测基准上展现出性能提升,优于两种设置的监督微调(SFT)基线模型。并且,监督微调的训练对多选题的性能会造成一定损失,验证了强化学习在多模态理解任务中相较 SFT 的潜在优势。

3.消融实验:如表2所示,初始数据筛选(GF)与多轮训练(ME)均能独立提升模型性能,其中ME带来的增益将R1@0.7指标从第1行的13.2提升至第4行的14.2。值得注意的是,当结合tIoU reward与ME训练时(第6行),R1@0.7显著提升到16.4。随着更多组件的引入性能持续优化,最终达到R1@0.3为41.8,R1@0.5为29.4与R1@0.7指标16.4的峰值表现。

而对于冷启动来说,如图5所示,冷启动机制不仅更好地提升了模型(尤其是3B模型)的性能,还控制了两种模型生成的token数量。我们认为这得益于冷启动对幻觉生成的抑制作用——这种现象在性能较弱的模型中往往更为显著。

更多的样例展示

蓝色是Time-R1的预测结果,红色是Qwen2.5-VL模型的预测结果。

05

总结

本研究针对多模态大模型在长视频理解任务中的时序定位瓶颈,创新性地提出基于强化学习的后训练优化方案。

本文提出Time-R1训练框架、TimeRFT数据构建及训练策略,以及TVGBench评测基准,首次系统性探索了基于规则的强化学习后训练范式在长视频时序定位中的应用价值。

实验表明,该方法在时序定位准确率方面取得显著提升,并且能提升模型的视频问答能力,相关技术方案(代码/模型)已在GitHub开源。尽管本研究的时序推理已取得阶段性突破,长视频的理解、定位与推理仍处于发展阶段,未来还存在广阔的探索空间。



END





阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Time-R1 强化学习 多模态大模型 视频理解
相关文章