PaperWeekly 04月09日
视频推理的R1时刻!港中文、清华推出首个Video-R1,7B模型竟超GPT-4o?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近日,港中文联合清华团队发布了Video-R1,首个将强化学习范式应用于视频推理的模型。该模型采用T-GRPO算法,提升了时间建模能力,并首次实现了图像与视频的混合训练。Video-R1在VSI-Bench等权威测试中表现优异,甚至超越了GPT-4o,展现出强大的推理能力。研究团队开源了全部代码、模型权重和数据集,为视频AI领域带来了新的突破。该模型通过T-GRPO算法和高质量数据集的构建,实现了在视频中深度思考的能力,为视频推理带来了新的可能性。

🧠 Video-R1 采用了创新的T-GRPO算法,该算法在GRPO的基础上加入了时序建模,使得模型能够更好地理解视频中的时间关系,从而提升推理能力。

🖼️ 为了解决高质量视频推理训练数据稀缺的问题,研究团队构建了Video-R1-COT-165k和Video-R1-260k两个数据集,并首次实现了图像+视频的混合训练,增强了模型的通用推理能力。

🚀 在VSI-Bench视频空间推理测试中,Video-R1(7B参数)的准确率达到了35.8%,超越了GPT-4o,展现出强大的性能,证明了强化学习在视频推理领域的优越性。

💡 Video-R1在推理过程中出现了“顿悟时刻”,即模型能够进行自我反思式的推理,这表明模型已经能够理解视频时序并进行推理,实现了逻辑闭环。

原创 让你更懂AI的 2025-04-09 13:16 北京

最近,港中文联合清华团队正式发布了首个将 “R1 范式”系统性落地到视频推理领域的模型——Video-R1。

以 DeepSeek-R1 为代表的强化学习范式,近期在语言模型领域掀起了一次“推理革命”。


而这一次,轮到视频了。


最近,港中文联合清华团队正式发布了首个将 “R1 范式”系统性落地到视频推理领域的模型——Video-R1。


不仅将强化学习算法从 GRPO 升级为更懂“时间”的 T-GRPO,还首次打通了图像+视频的混合训练路径,搭建了两个高质量数据集,真正让模型在视频中学会了“深度思考”。


更炸裂的是:在李飞飞团队提出的 VSI-Bench 这一权威视频空间推理测试中,Video-R1(仅 7B 参数)竟然干掉了GPT-4o!


目前,研究团队已经将全部代码、模型权重、数据集一并开源,视频推理的 “R1 时刻”,真的来了。

论文链接:

https://arxiv.org/abs/2503.21776

项目地址:

https://github.com/tulerfeng/Video-R1 


推特知名博主 AK 也在第一时间推荐了这篇论文:


视频推理为什么这么难?

研究团队指出,在多模态大模型中,若直接使用传统 GRPO 算法做强化学习,会面临两个致命问题:


1.  没有时间感,推理全靠“猜”


原始 GRPO 不具备时间建模能力,模型很容易“走捷径”——看一帧就匆匆回答,完全忽略前后画面的因果关系。


最终学到的是一种投机式的浅层策略,泛化能力极差。下面这张图展示的就是典型的“误判式推理”。


2.  训练数据太“浅”,推理根本练不起来


目前大多数开源视频数据集,任务多以识别、分类为主,缺乏真正考验逻辑推理的内容。


这也让模型压根没机会锻炼深层次的“思考能力”。



Video-R1 怎么做的?

为了解决上述两个挑战,研究团队提出了 Video-R1,主要包含如下内容:


T-GRPO 训练算法:首先,研究团队将 GRPO 算法加入时序建模,拓展为 T-GRPO 算法。简单来说,这个算法就是要“逼”模型认真看完视频、考虑时序。


方法也不复杂:它把视频帧以乱序输入,再跟原本顺序输入做对比,只有模型在顺序那组得到正确答案的比例更大,才能得到一个设定的时序奖励。


通过这一套对比奖励机制,能够让模型在推理时明白:原来视频不是一堆图堆在一起,而是“前因后果”的线索串联。

数据集精心构建:为了解决高质量的视频推理训练数据稀缺的问题,研究团队策略性地引入了高质量的图像推理数据,用于增强视频推理能力


他们精心构建了两个数据集:一个是 Video-R1-COT-165k,用来做 SFT 冷启动;另一个是 Video-R1-260k,用于强化学习训练。


图像数据在训练中并非配角,反而成了通用推理能力的重要地基;而精心筛选的视频样本,则补上了模型对时序逻辑与动态变化的理解能力。


这种“图像+视频”的混合训练机制,不只是解决了数据稀缺的问题,更关键的是——让模型学会了从静态图像中学推理、再迁移到动态视频中用推理,真正打通了多模态认知的任督二脉。



视频推理的“aha moment”

在 Video-R1 中,一个有趣的现象是,模型也出现了自我反思式的推理行为,通常被称为“顿悟时刻(aha moments)”。


例如下面两个例子,第一个询问视频中哪个动作会损失系统能,第二个则是希望根据视频游览房屋的内容,得出从书柜走到浴缸的路径。


这两个问题都不是看一眼就能答的,而是需要真正理解视频时序并进行推理,Video-R1 都做到了精准推理,逻辑闭环,成功答对。


实验结果

从实验结果中,可以发现:


Video-R1 的卓越性能:在大多数评测基准上,Video-R1 的表现显著优于以往模型,尤其是在等视频推理的 benchmark上。值得注意的是,在 VSI-Bench 这一专注于视频空间推理的评测中,Video-R1-7B 达到了 35.8% 的最新准确率,超越了闭源模型 GPT-4o。


RL 相对于 SFT 的优越性:SFT 模型 Qwen2.5-VL-7B-SFT 在多个评测中未能持续带来性能提升,可能是由于过拟合或在未知场景下泛化能力有限。而 Video-R1  在所有评测中都实现了显著提升,特别是在推理任务中效果尤为明显。这表明了强化学习强大的泛化能力。


更多帧带来更强推理:当输入帧数从 16 增加到 32 时,几乎所有评测任务的表现都有所提升。这表明更长的上下文和更丰富的时序信息对模型推理能力具有积极影响。开发能够推理更长视频内容的模型,是未来研究中一个有前景且必要的方向。

在消融实验中,也可以看到,去除了图像训练数据或是去除了时序建模后,模型的表现都下降了,这说明了提出的方法的有效性。

上图展示了 Video-R1 在强化学习过程中的训练动态。


准确率奖励和时序奖励整体呈上升趋势,表明模型在强化学习过程中不断提升其生成正确答案的能力,并且在训练中也逐步采用了更多基于时间的推理策略。


而对于输出长度,在强化学习训练初期,模型的输出长度先是下降,随后逐步上升,最终稳定在一个固定范围内。这可能是由于训练初期模型会先抛弃 SFT 中学习到的次优推理策略,再逐步收敛到一种更优的推理模式。



写在最后

Video-R1 证明了:强化学习不只是语言模型的专属,在视频领域同样能激发模型的深度推理潜力。


更关键的是,它是全开源的。


视频 AI 的“推理纪元”,正在从这一刻开启。


更多细节,请参考论文原文。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Video-R1 视频推理 强化学习 GPT-4o
相关文章