PaperAgent 03月13日
DeepSeek-R1的风吹到了多模态,Visual-RFT发布,视觉任务性能飙升20%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

上海交大等机构开源的Visual-RFT,通过将强化学习的思想引入视觉任务,显著提升了大型视觉语言模型(LVLMs)在视觉感知和推理任务中的性能。该方法通过设计可验证的奖励函数,优化模型策略,使其能够生成包含推理过程和最终答案的响应。实验结果表明,Visual-RFT在细粒度图像分类、少样本目标检测和推理定位等任务中,相较于传统的监督微调方法,展现出更强的数据效率和泛化能力,尤其在样本量有限的情况下,性能提升更为显著。

💡Visual-RFT的核心在于利用LVLMs生成多个包含推理过程和最终答案的响应,并通过可验证奖励函数(如IoU奖励和分类准确率奖励)对模型进行策略优化,从而提升模型性能。

🎯Visual-RFT在单样本细粒度图像分类中,准确率比基线提高了24.3%;在少样本目标检测中,在COCO的两样本设置中超过了基线21.9,在LVIS上超过了15.4%,展示了其在数据有限情况下的优越性。

🔍Visual-RFT通过引入推理过程,显著提升了大型视觉语言模型(LVLMs)的推理能力,从而提高了图像分类和推理定位的性能,定性结果也验证了这一点。

2025-03-13 10:46 湖北

尽管DeepSeek-R1风格的模型在语言模型中已经取得了成功,但其在多模态领域的应用仍然有待深入探索。

上交大等提出并开源 Visual-RFT,将 RFT 扩展到视觉任务,通过设计针对不同视觉任务的可验证奖励函数,提升 LVLMs 在视觉感知和推理任务中的性能。

视觉强化微调(Visual-RFT)的概述。与(a)数据驱动的视觉指令微调相比,(b)视觉强化微调(Visual-RFT)在有限数据下更具数据效率。(c)成功地将RFT应用于一系列多模态任务,并在底部展示了模型的推理过程示例。

Visual-RFT 的核心在于利用 LVLMs 生成多个包含推理过程和最终答案的响应,并通过可验证奖励函数对模型进行策略优化。具体步骤如下:

可验证奖励函数

视觉强化微调(Visual-RFT)的框架。给定问题和视觉图像输入后,策略模型会生成多个包含推理步骤的响应。然后,使用可验证奖励(如IoU奖励和分类奖励)与策略梯度优化算法来更新策略模型。

在细粒度图像分类、少样本目标检测、推理定位以及开放词汇目标检测基准测试中的实验结果表明,与监督微调(SFT)相比,Visual-RFT具有竞争力的性能和先进的泛化能力:

Visual-RFT代表了对LVLMs微调范式的一种转变,提供了一种数据高效、由奖励驱动的方法,增强了对特定领域任务的推理能力和适应性。

细粒度图像分类的定性结果。推理过程显著提升了大型视觉语言模型(LVLMs)的推理能力,从而提高了图像分类的性能。

在LISA [11] 数据集上的推理定位任务的定性结果。通过Visual-RFT,推理过程显著提升了模型的推理定位能力。

https://arxiv.org/pdf/2503.01785Visual-RFT: Visual Reinforcement Fine-Tuninghttps://github.com/Liuziyu77/Visual-RFT

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Visual-RFT 多模态 强化学习 LVLMs
相关文章