CV君 2025-08-10 12:18 江苏
近日,一篇发表于顶级期刊TPAMI的论文提出了一种名为 DAPT(Decouple before Align Prompt Tuning) 的新型提示调优(Prompt Tuning, PT)框架,旨在解决视觉-语言模型(VLM)中普遍存在但易被忽视的“信息不对称”问题。该方法通过“先解耦后对齐”的核心思想,显著提升了模型在小样本学习、领域泛化等任务上的表现。
论文基本信息
论文标题:Decouple before Align: Visual Disentanglement Enhances Prompt Tuning
作者团队:Fei Zhang, Tianfei Zhou, Jiangchao Yao, Ya Zhang, Ivor W. Tsang, Yanfeng Wang
作者机构:上海交通大学、上海创新研究院、上海人工智能实验室、北京理工大学、新加坡A*STAR前沿人工智能研究中心
论文地址:https://arxiv.org/pdf/2508.00395v1
项目主页:https://github.com/Ferenas/DAPT
收录信息:Accepted at IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)
研究背景与动机
近年来,以CLIP为代表的视觉-语言基础模型(VLM)在多模态领域取得了巨大成功。为了使这些通用大模型更好地适应下游特定任务,提示调优(Prompt Tuning, PT)作为一种轻量化、高效率的微调范式应运而生。它通过仅调整少量可学习的“提示”(prompt)参数,就能激发VLM在特定任务上的潜力。
然而,现有PT方法普遍忽略了一个根本性问题:信息不对称(information asymmetry)。具体来说,在VLM进行图文对齐时,图像通常包含丰富的上下文信息(如背景、无关物体等),而文本提示(如“一张[物体]的照片”)则高度聚焦于目标物体本身。这种不对称性导致模型在对齐过程中容易产生注意力偏差,即将注意力错误地分配给背景或与目标无关的区域,而非真正需要识别的前景物体,从而导致错误的分类。
上图直观展示了该研究的动机。传统方法因信息不对称导致注意力偏向背景(如天空),而DAPT通过解耦图文模式,实现了对称的对齐,将模型注意力引导至感兴趣区域(ROI),实现精准识别。
如下图所示,研究者可视化了CoOp和MaPLe等主流PT方法在正确和错误分类样本上的注意力图。可以清晰地看到,在错误分类的样本中,模型的注意力(高亮区域)往往集中在背景上,而对前景物体的关注严重不足。这正是信息不对称导致的“注意力跑偏”现象。
DAPT:先解耦,后对齐
为解决上述问题,论文提出了一个简洁而有效的框架—— DAPT ,其核心理念是“ 先解耦后对齐 ”(Decouple-before-Align)。该框架旨在通过显式地分离图像中的前景和背景信息,并分别与对应的文本描述进行对齐,从而实现一种更对称、更无偏的模态对齐。
DAPT的整体框架图。在训练阶段,模型将解耦后的视觉三元组(原始图、前景图、背景图)特征与丰富化的文本特征(前景文本、背景文本)进行对齐。推理时则只使用原始图像和前景文本。
DAPT主要包含以下三个关键步骤:
1. 视觉解耦(Visual Disentanglement)
首先,DAPT利用视觉分割线索将输入图像I
解耦为前景图像If
和背景图像Ib
。论文探索了两种不同粒度的解耦方式:
DAPT-G (Coarse-grained) :利用模型自身生成的粗粒度注意力图(如Grad-CAM)作为掩码(mask),这种方式成本低廉,无需外部工具。
DAPT-S (Fine-grained) :利用强大的现成分割模型(如SEEM)生成精细的物体掩码,提供更准确的前景背景分离。
上图展示了DAPT-G(基于Grad-CAM的粗粒度掩码)和DAPT-S(基于SEEM的精细掩码)生成的视觉线索。值得注意的是,即使是强大的分割模型也未必能完美分割所有物体,但DAPT证明了其方法对不完美的分割依然具有鲁棒性。
2. 对称对齐(Symmetrical Alignment)
在获得解耦的视觉特征后,DAPT进行对称的图文对齐:
前景对齐:将前景视觉特征Zf
与原始的、面向物体的文本提示(如“a photo of a dog”)对齐。
背景对齐:将背景视觉特征Zb
与一组手工设计的、描述背景概念的文本提示(如“a photo of grass”、“a photo of sky”)对齐。
这种对称设计不仅强化了模型对前景的关注,还利用背景信息增强了模型的泛化能力,防止其在任务上过拟合。
3. 视觉拉推正则化(Visual Pull-Push Regularization)
为了进一步强制模型将注意力聚焦于前景,DAPT引入了一种视觉三元组损失(visual triplet loss)。该损失函数将原始图像特征Z
作为“锚点(anchor)”,前景特征Zf
作为“正样本(positive)”,背景特征Zb
作为“负样本(negative)”。其目标是:
拉近(Pull):在特征空间中,将Z
拉向Zf
。
推远(Push):将Z
从Zb
推远。
通过这种“拉近前景,推远背景”的操作,模型被引导产生对ROI(感兴趣区域)的无偏注意力。
实验结果与分析
论文在11个主流基准数据集上进行了广泛的实验,涵盖了小样本学习、数据高效学习、基类到新类泛化等多种具有挑战性的场景。
小样本学习性能优越
在小样本分类任务中,DAPT在所有数据集上均一致性地超越了现有的SOTA方法,展示了其强大的领域自适应学习能力。
数据高效性显著
在数据高效学习的设定下,DAPT表现出极高的训练数据利用率。如下图黑色箭头所示,DAPT仅用 50%的训练数据 ,就能达到甚至超过其他方法使用全部数据时的性能,这在实际应用中极具价值。
强大的泛化能力
在从基类到新类(Base-to-Novel)的泛化任务中,DAPT同样表现出色。实验结果表明,DAPT不仅在基类上性能优异,在新类(未见过的类别)上也保持了很高的识别准确率。特别是当DAPT作为即插即用模块与PromptSRC和PromptKD等先进框架结合时,取得了 SOTA 性能 ,在11个数据集上的调和平均值(HM)达到了 84.45% 。
此外,论文还在跨数据集评估和多目标识别任务上验证了DAPT的有效性,均取得了领先的结果,证明了其强大的鲁棒性和泛化性。
论文贡献与价值
CV君认为,这篇论文的贡献主要有以下几点:
揭示并定义了新问题:首次深入探讨了VLM提示调优中的“信息不对称”问题,并从理论和实验上证明了其对模型性能的负面影响。
提出了简洁有效的解决方案:提出的DAPT框架,基于直观的“先解耦后对齐”思想,巧妙地解决了信息不对 称问题,且无需复杂的架构设计,易于实现和集成。
SOTA性能和广泛验证:在多个极具挑战性的基准测试中取得了当前最佳性能,充分证明了方法的有效性和通用性。
即插即用的代码:作者团队将开源代码(https://github.com/Ferenas/DAPT),便利社区进行后续研究和应用。
总而言之,DAPT通过一种创新的视角重新审视了多模态对齐的本质,为如何更有效地进行视觉-语言模型的提示调优提供了一个全新的、极具潜力的方向。这项工作不仅对学术界有重要的启发意义,也为工业界在资源受限场景下高效利用VLM提供了宝贵的实践指导。
了解最新 AI 进展,欢迎关注公众号:aicvml
投稿寻求报道请发邮件至:amos@52cv.net
欢迎点赞、转发、评论。