2025-07-09 12:23 江苏
关注公众号,发现CV技术之美
本篇分享ICCV 2025论文 Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction
,南开大学程明明实验室、南开国际先进研究院、上海人工智能实验室、香港中文大学联合提出局部对齐的CLIP零样本学习。论文第一作者为南开大学博士研究生李运恒,通讯作者为侯淇彬教授。
预训练视觉语言模型(VLMs),如CLIP,已展现出令人瞩目的零样本识别能力,但在密集预测任务中表现仍欠佳。自蒸馏作为一种无需大量标注即可微调VLMs以更好地适应局部区域的方法,近年来逐渐成为研究热点。然而,以往的最先进方法往往存在显著的“前景偏见”——模型倾向于将背景区域错误地识别为前景物体,比如把天空认成大厦,把雪地认成雪板。
为缓解这一问题,作者提出DenseVLM框架,旨在从强大的预训练VLM表征中学习无偏的区域-语言对齐。DenseVLM利用预训练VLM为未标记区域检索类别,然后解耦前景与背景特征之间的干扰。这种分离确保了准确的区域-类别对齐,同时在训练过程中保持语义区分。
作者研究表明,DenseVLM可直接替代开放词汇目标检测和图像分割方法中的原始VLM,从而带来显著的性能提升。此外,在更广泛多样的数据集上训练时,它还展现出良好的零样本扩展性。
研究背景
研究问题
本文旨在解决预训练视觉-语言模型(VLMs)在密集预测任务中表现不佳的问题,特别是存在“前景偏差”(foreground bias)的情况,即模型倾向于错误地将背景区域识别为前景对象。
研究难点
VLMs通常在图像-文本对上进行预训练,忽略了局部图像区域与特定文本描述之间的对应关系,导致在局部视觉语义理解方面存在局限性。
之前的方法在解决前景偏差问题上存在不足,如一些基于区域-文本或伪区域-文本对的方法受限于高注释成本且缺乏可扩展性;自蒸馏方法虽然不依赖标注数据,但教师模型的性能不佳以及前景偏差问题会影响其效果。
相关工作
在开放词汇密集预测方面,已有研究利用预训练的VLMs取得了一定进展,但在局部视觉语义理解和避免前景偏差方面仍存在挑战。
在视觉-语言对齐方面,从图像-文本级别到区域级别的对齐都有相关研究,但都存在各自的问题,如需要大量标注数据或受教师模型性能影响等。
研究方法
DenseVLM的核心是一个无需人工标注、旨在减轻前景偏见的区域-语言对齐框架。该方法巧妙地利用一个强大的、固定的预训练VLM(称为P-VLM)来指导一个新的、无偏VLM(称为U-VLM)的训练。整个流程如图所示,包含以下关键步骤:
高效的区域特征提取:为避免传统图像裁剪带来的高计算开销,DenseVLM直接在VLM的密集特征图上操作。它将特征图划分为网格,并通过池化操作(RoIAlign)为这些网格区域提取特征,从而高效捕获前景与背景信息。
基于P-VLM的类别检索:一个强大的、参数冻结的P-VLM(如ViT-L/14)被用作“教师”,为上述未标记的区域块检索最相关的类别。它通过计算每个区域特征与一个广泛类别库的文本嵌入之间的余弦相似度来完成匹配。该类别库可从大型数据集中获取或由生成模型产生,保证了语义的多样性。
区域去噪:为了保证对齐的质量,模型会过滤掉那些与所有类别匹配置信度都低于特定阈值的区域。这一去噪步骤确保了用于指导训练的区域-类别配对是高精度且可靠的。
解耦对齐训练U-VLM:这是解决前景偏见的核心创新。P-VLM检索到的区域-类别关系被划分为“前景(Thing)”和“背景(Stuff)”两组。U-VLM的训练采用了一种非对称的解耦对齐策略: 背景区域(Stuff):在训练时,模型不仅要拉近该区域与其对应的“Stuff”类别的距离,还要同时推远其与无关“Stuff”类别及所有“Thing”类别的距离。这迫使模型学习区分背景与不相关前景的特定特征。 前景区域(Thing):在训练时,模型只需关注前景类别内部的区分,而无需与“Stuff”类别进行对比。
这种选择性的对比学习机制,有效避免了模型将背景上下文与前景物体错误关联,从而直接缓解了“前景偏见”问题。整个框架通过KL散度损失进行端到端的优化。
实验结果
表1对比不同模型在密集表征任务上的性能,主要通过“Top1平均准确率”和“Top5平均准确率”两个指标来评估,具体涵盖三类任务:
Boxes(边界框分类):对图像中物体的边界框区域进行类别识别;
Masks-T(前景掩码分类):对图像中前景物体(如动物、家具等“Thing”类别)的掩码区域进行识别;
Masks-S(背景掩码分类):对图像中背景区域(如天空、草地等“Stuff”类别)的掩码区域进行识别。
表中带†的模型表示它们在COCO数据集上训练后,在ADE20K数据集上进行零样本评估(即未在ADE20K上训练,直接测试模型对新类别的泛化能力)。本文提出的DenseVLM在所有任务中表现最优,尤其在背景识别上提升显著——COCO数据集上Masks-S Top1达44.9%(比CLIPSelf高3.2%),ADE20K零样本评估中Masks-STop1达57.0%(比CLIPSelf高3.3%),证明其有效缓解了“前景偏见”,同时兼顾前景与背景的精准识别。
图4展示了不同模型在COCO数据集各类别上的掩码识别准确率对比。
黑色文字代表前景类别(如“sports ball”“surfboard”“backpack”等具体物体);
红色文字代表背景类别(如“sky”“grass”等场景元素)。
其他模型在前景类别上的准确率较高,但背景类别的准确率明显偏低,而DenseVLM在保持前景类别高准确率的同时,大幅提升了背景类别的识别性能。
图5通过视觉特征与文本嵌入之间的余弦相似度图可视化,对比了DenseVLM与其他方法(EVA-CLIP、CLIPSelf)的区域-语言对齐效果。颜色越鲜艳,表示该区域与文本的对齐程度越高。
EVA-CLIP和CLIPSelf的相似度图中,与目标文本对应的区域(如沙发、天空)往往出现对齐不完整或干扰较多的问题。例如,描述“沙发”时,这些方法可能将周围的地毯、墙壁等区域也误判为高相似度,导致定位模糊。
而DenseVLM的相似度图能更精准地聚焦于目标区域:提及“沙发”时,仅沙发区域呈现高相似度;提及“天空”时,也能清晰定位天空区域,且受其他物体(如建筑物)的干扰显著减少。
这一可视化直观证明了DenseVLM在区域-语言对齐上的优势——通过解耦前景与背景特征,有效减少了无关区域的干扰,实现了更准确、更纯净的视觉-文本匹配。
研究贡献
识别了现有VLMs中的前景偏差问题,并提出通过结合类别指导的显式语义结构进行区域-文本对齐的方法。
提出了DenseVLM框架,利用强大的VLM检索未标记区域的类别,并解耦前景和背景特征以减少前景偏差。
在多个密集预测基准测试中,DenseVLM优于以前的方法,并表现出良好的可扩展性。
研究局限性与未来方向
局限性
目前使用ViT-L/14作为强大的P-VLM,更强大的VLM可能会带来更好的性能,且将丰富的语义知识转移到训练模型是有前景的方向。
目前将对象分为宽泛的thing和stuff类,细粒度的语义分割和解耦对齐可提高模型区分相似类别的能力。
未来方向
探索利用更强大的VLM并转移其语义知识。
进行细粒度的语义分割和解耦对齐研究。
了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net
END
欢迎加入「视觉语言」交流群👇备注: