小米大模型团队 2025-06-19 17:00 北京
01
论文信息
- 论文名称: Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding论文链接: https://arxiv.org/pdf/2503.13377v2论文主页: https://xuboshen.github.io/Time-R1/代码链接:https://github.com/xiaomi-research/Time-R1
近期将开源所有训练数据、训练代码、测试数据、测试代码及模型权重,开源代码支持在视频定位任务TimeRFT、Charades、ActivityNet上的训练,并支持测试集如下:视频定位测试集TVGBench、Charades、ActivityNet、短视频问答测试集MVBench、TempCompass、长视频问答测试集VideoMME、EgoSchema,开源代码支持vLLM框架的加速测试。
▍核心贡献本文为强化学习后训练多模态大模型在视频定位领域提出新的技术方向,构建可靠的基线方法,提供一套完整的训练和测试框架,达到SOTA的性能。
Time-R1训练框架:通过强化学习后训练提升视频时序定位能力的训练框架。
TimeRFT数据构建及训练策略: 包含高效训练Time-R1模型的策略及配套数据集构建方法。
TVGBench评测基准: 一个规模小巧但覆盖面广的小型评测基准,用于快速评估模型的TVG能力。
SOTA性能和全面实验:仅使用2.5K训练数据,Time-R1即在多个TVG下游任务上达到SOTA,在TVGBench上提升79.14%,表现优于Gemini-2.5-Pro,微调后的性能超越了专为特定任务训练的小型模型。此外,我们发现提升TVG能力还能进一步改善视频问答性能。
02
RL对比以往训练范式
时序视频定位(Temporal Video Grounding,TVG)作为长视频理解的核心挑战之一,其任务是根据语言查询定位特定的视频时间片段。传统视频时序定位方法通常采用基于特征的视觉语言训练范式:首先通过预训练模型(如CLIP、I3D)提取文本和视频特征,再通过特定任务的定位模型进行推理。然而,这类方法因依赖预提取特征而产生误差累积问题,且模型性能上限受限于预训练特征质量。为突破这一局限,近期研究转向端到端的多模态大模型,这类模型可直接处理长视频和文本查询。然而需要注意的是,尽管多模态大模型(参数量达7B)的预训练数据规模达到特定领域基准数据集的100倍以上,其性能却往往逊于参数量极小的传统模型(如仅9M参数量的特征模型EaTR)。这引出了一个关键问题:为何具备海量预训练知识的多模态大模型在视频定位任务中表现欠佳?我们认为,多模态大模型性能瓶颈源于监督微调(SFT)过程中对假阴性样本的过度惩罚。例如,当真实时间片段为[2s, 4s]时,即使模型给出[1.9s, 3.9s]的合理预测,自回归损失仍会被不恰当地放大。这种对合理预测的过度惩罚会导致模型过拟合和泛化能力下降。现有解决方案试图通过两种途径缓解该问题:1. 扩展词表:在词汇表中新增时间戳token,避免对数字的输出和拟合,2.添加预测头:通过附加的回归头预测时间戳。但这些方法往往以牺牲大语言模型原有的数字理解能力为代价。受近期大语言模型强化学习后训练成功案例的启发,我们探索了将强化学习作为解决视频时序定位任务的解决方案。与监督微调不同,强化学习可直接优化任务特定指标(如交并比IoU),从而缓解自回归损失的刚性惩罚问题,并鼓励模型生成合理的时间戳预测。本研究提出基于强化学习的Time-R1框架,通过高效后训练多模态大模型,成功突破了视频定位任务的性能瓶颈。03
方法细节
▍Time-R1训练框架1.基于GRPO训练框架目标强化学习的训练目标是优化模型让模型能够获得更高的奖励R(o),同时加入KL散度来约束模型参数更新不要离原有模型参数差距太大。- 保留KL散度: 实验表明保留KL散度能使模型产生有用且可读的思维链。尽管完全舍弃KL散度可带来微小的性能提升,但这会导致模型放弃思考过程而直接输出答案。为平衡性能与可解释性,最终选择保留KL散度。为了提升模型的推理和泛化能力,我们冻结视觉编码器,并全量微调大语言模型,来激活大语言模型的推理能力。
- 时间戳感知IoU(tIoU):视频时序定位任务主要采用交并比(IoU)来评估预测片段[t_s, t_e]与真实标注[t'_s, t'_e]之间的匹配质量,其计算公式为:
- 格式奖励: 训练模型遵循先思考后回复的格式输出:思考过程应包含在"<think>"与"</think>"标签之间,最终答案应包含在"<answer>"与"</answer>"标签之间。format:"<think>...</think><answer><ts to te></answer>"
- 奖励混合: 格式奖励为二元值(0或1),tIoU取值范围为0到1。最终奖励设置为二者之和。
- 初始数据收集: 我们从多个互联网视频数据集中收集训练视频,包括YT-Temporal、DiDeMo、QuerYD、InternVid和HowTo100M。并利用VTG-IT、TimeIT、TimePro、HTStep以及LongVid等标注数据集获取时序定位标注,最终构建了包含33.9万条时序定位样本的数据集。数据筛选: 为避免训练过程中受过难或过易样本干扰,我们使用Qwen2.5-VL-7B模型对样本通过IoU来标记难易程度,并基于均值为 0.3、标准差为 0.2 的正态分布筛选样本,精选出2.5K核心训练数据,用于高效训练。
- 难样本筛选采样: 我们采用多轮训练(multi-epoch)机制,每轮训练后动态剔除简单样本(即模型预测 IoU > 0.7 的数据),从而保持数据整体难度,降低对易样本的过拟合风险。冷启动策略: 对于较小规模模型(如 3B),直接进行强化学习训练往往导致生成内容逻辑混乱或推理步骤虚构,且训练初期文本长度控制困难,影响稳定性。为此,我们引入冷启动策略,即先使用少量格式规范、内容合理的思维链示例对模型进行微调,引导其生成与视频内容紧密关联的推理过程,从而提升推理质量并稳定训练流程。
- 人类:1. 人体姿态:“一位妇人的脸庞”;2. 人类动作(简单文本查询):“一个人走进门”;3. 人类动作(复杂文本查询):“他到达平地并踢了一脚”;4. 人类动作(步骤性文本查询):“那人从抽屉里取出一把刀,冲洗干净后切掉了无花果的蒂”。物体:5. 物体属性:“那个包的颜色是什么”;6. 物体计数:“这里有14个甜点”;7. 物体形态变化:“肉被放进了锅里”;8. 物体位置(简单文本查询):“自行车在哪里”;9. 物体位置(复杂文本查询):“我用脚挪过之后,脚垫去哪儿了”环境:10. 环境变化:“屏幕变黑了”;11. 环境状态:“展示了一个电话中心大楼”