我爱计算机视觉 11小时前
TPAMI 2025 | DAPT:先解耦再对齐,破解视觉语言模型“信息不对称”难题,显著提升“提示调优”性能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

发表于TPAMI的论文提出DAPT框架,通过“先解耦后对齐”解决VLM提示调优中的信息不对称问题,提升小样本学习、领域泛化等任务表现。DAPT利用视觉分割线索将图像解耦为前景和背景,分别与文本进行对齐,并引入视觉拉推正则化,实现更精准的模态对齐。实验证明,DAPT在多个基准数据集上取得SOTA性能,展现强大鲁棒性和泛化性。

🔍DAPT通过视觉分割线索将图像解耦为前景和背景,分别与对应的文本描述进行对齐,实现更对称、更无偏的模态对齐,解决VLM提示调优中的信息不对称问题。

🌟DAPT包含三个关键步骤:视觉解耦(利用Grad-CAM或SEEM生成掩码分离前景和背景)、对称对齐(前景与面向物体的文本提示对齐,背景与描述背景概念的文本提示对齐)、视觉拉推正则化(拉近前景特征,推远背景特征,引导模型关注感兴趣区域)。

💪实验结果表明,DAPT在小样本学习、数据高效学习、基类到新类泛化等任务上均取得SOTA性能,展现出强大的领域自适应学习能力、数据利用率和泛化能力。

CV君 2025-08-10 12:18 江苏

近日,一篇发表于顶级期刊TPAMI的论文提出了一种名为 DAPT(Decouple before Align Prompt Tuning) 的新型提示调优(Prompt Tuning, PT)框架,旨在解决视觉-语言模型(VLM)中普遍存在但易被忽视的“信息不对称”问题。该方法通过“先解耦后对齐”的核心思想,显著提升了模型在小样本学习、领域泛化等任务上的表现。

论文基本信息

    论文标题:Decouple before Align: Visual Disentanglement Enhances Prompt Tuning

    作者团队:Fei Zhang, Tianfei Zhou, Jiangchao Yao, Ya Zhang, Ivor W. Tsang, Yanfeng Wang

    作者机构:上海交通大学、上海创新研究院、上海人工智能实验室、北京理工大学、新加坡A*STAR前沿人工智能研究中心

    论文地址https://arxiv.org/pdf/2508.00395v1

    项目主页https://github.com/Ferenas/DAPT

    收录信息:Accepted at IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

研究背景与动机

近年来,以CLIP为代表的视觉-语言基础模型(VLM)在多模态领域取得了巨大成功。为了使这些通用大模型更好地适应下游特定任务,提示调优(Prompt Tuning, PT)作为一种轻量化、高效率的微调范式应运而生。它通过仅调整少量可学习的“提示”(prompt)参数,就能激发VLM在特定任务上的潜力。

然而,现有PT方法普遍忽略了一个根本性问题:信息不对称(information asymmetry)。具体来说,在VLM进行图文对齐时,图像通常包含丰富的上下文信息(如背景、无关物体等),而文本提示(如“一张[物体]的照片”)则高度聚焦于目标物体本身。这种不对称性导致模型在对齐过程中容易产生注意力偏差,即将注意力错误地分配给背景或与目标无关的区域,而非真正需要识别的前景物体,从而导致错误的分类。

上图直观展示了该研究的动机。传统方法因信息不对称导致注意力偏向背景(如天空),而DAPT通过解耦图文模式,实现了对称的对齐,将模型注意力引导至感兴趣区域(ROI),实现精准识别。

如下图所示,研究者可视化了CoOp和MaPLe等主流PT方法在正确和错误分类样本上的注意力图。可以清晰地看到,在错误分类的样本中,模型的注意力(高亮区域)往往集中在背景上,而对前景物体的关注严重不足。这正是信息不对称导致的“注意力跑偏”现象。

DAPT:先解耦,后对齐

为解决上述问题,论文提出了一个简洁而有效的框架—— DAPT ,其核心理念是“ 先解耦后对齐 ”(Decouple-before-Align)。该框架旨在通过显式地分离图像中的前景和背景信息,并分别与对应的文本描述进行对齐,从而实现一种更对称、更无偏的模态对齐。

DAPT的整体框架图。在训练阶段,模型将解耦后的视觉三元组(原始图、前景图、背景图)特征与丰富化的文本特征(前景文本、背景文本)进行对齐。推理时则只使用原始图像和前景文本。

DAPT主要包含以下三个关键步骤:

1. 视觉解耦(Visual Disentanglement)

首先,DAPT利用视觉分割线索将输入图像I解耦为前景图像If和背景图像Ib。论文探索了两种不同粒度的解耦方式:

    DAPT-G (Coarse-grained) :利用模型自身生成的粗粒度注意力图(如Grad-CAM)作为掩码(mask),这种方式成本低廉,无需外部工具。

    DAPT-S (Fine-grained) :利用强大的现成分割模型(如SEEM)生成精细的物体掩码,提供更准确的前景背景分离。

上图展示了DAPT-G(基于Grad-CAM的粗粒度掩码)和DAPT-S(基于SEEM的精细掩码)生成的视觉线索。值得注意的是,即使是强大的分割模型也未必能完美分割所有物体,但DAPT证明了其方法对不完美的分割依然具有鲁棒性。

2. 对称对齐(Symmetrical Alignment)

在获得解耦的视觉特征后,DAPT进行对称的图文对齐:

    前景对齐:将前景视觉特征Zf与原始的、面向物体的文本提示(如“a photo of a dog”)对齐。

    背景对齐:将背景视觉特征Zb与一组手工设计的、描述背景概念的文本提示(如“a photo of grass”、“a photo of sky”)对齐。

这种对称设计不仅强化了模型对前景的关注,还利用背景信息增强了模型的泛化能力,防止其在任务上过拟合。

3. 视觉拉推正则化(Visual Pull-Push Regularization)

为了进一步强制模型将注意力聚焦于前景,DAPT引入了一种视觉三元组损失(visual triplet loss)。该损失函数将原始图像特征Z作为“锚点(anchor)”,前景特征Zf作为“正样本(positive)”,背景特征Zb作为“负样本(negative)”。其目标是:

    拉近(Pull):在特征空间中,将Z拉向Zf

    推远(Push):将ZZb推远。

通过这种“拉近前景,推远背景”的操作,模型被引导产生对ROI(感兴趣区域)的无偏注意力。

实验结果与分析

论文在11个主流基准数据集上进行了广泛的实验,涵盖了小样本学习、数据高效学习、基类到新类泛化等多种具有挑战性的场景。

小样本学习性能优越

在小样本分类任务中,DAPT在所有数据集上均一致性地超越了现有的SOTA方法,展示了其强大的领域自适应学习能力。

数据高效性显著

在数据高效学习的设定下,DAPT表现出极高的训练数据利用率。如下图黑色箭头所示,DAPT仅用 50%的训练数据 ,就能达到甚至超过其他方法使用全部数据时的性能,这在实际应用中极具价值。

强大的泛化能力

在从基类到新类(Base-to-Novel)的泛化任务中,DAPT同样表现出色。实验结果表明,DAPT不仅在基类上性能优异,在新类(未见过的类别)上也保持了很高的识别准确率。特别是当DAPT作为即插即用模块与PromptSRC和PromptKD等先进框架结合时,取得了 SOTA 性能 ,在11个数据集上的调和平均值(HM)达到了 84.45% 。

此外,论文还在跨数据集评估和多目标识别任务上验证了DAPT的有效性,均取得了领先的结果,证明了其强大的鲁棒性和泛化性。

论文贡献与价值

CV君认为,这篇论文的贡献主要有以下几点:

    揭示并定义了新问题:首次深入探讨了VLM提示调优中的“信息不对称”问题,并从理论和实验上证明了其对模型性能的负面影响。

    提出了简洁有效的解决方案:提出的DAPT框架,基于直观的“先解耦后对齐”思想,巧妙地解决了信息不对 称问题,且无需复杂的架构设计,易于实现和集成。

    SOTA性能和广泛验证:在多个极具挑战性的基准测试中取得了当前最佳性能,充分证明了方法的有效性和通用性。

    即插即用的代码:作者团队将开源代码(https://github.com/Ferenas/DAPT),便利社区进行后续研究和应用。

总而言之,DAPT通过一种创新的视角重新审视了多模态对齐的本质,为如何更有效地进行视觉-语言模型的提示调优提供了一个全新的、极具潜力的方向。这项工作不仅对学术界有重要的启发意义,也为工业界在资源受限场景下高效利用VLM提供了宝贵的实践指导。

了解最新 AI 进展,欢迎关注公众号:aicvml
投稿寻求报道请发邮件至:amos@52cv.net
欢迎点赞、转发、评论。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DAPT 视觉-语言模型 提示调优 信息不对称 小样本学习
相关文章