魔搭ModelScope社区 03月05日
CLIPer:开创性框架提升CLIP空间表征,实现开放词汇语义分割突破
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

CLIPer是一个创新的分层框架,旨在提升CLIP模型的空间表征能力,从而在无需额外训练的情况下,显著提高像素级开放词汇语义分割的性能。该框架通过浅层融合模块和精细补偿模块,分层增强CLIP的空间表征。浅层融合模块嵌入浅层特征和注意力图,以保留空间结构信息,生成更具空间一致性的分割图。精细补偿模块则利用扩散模型的自注意力图来补偿局部细节。实验结果表明,CLIPer在多个分割数据集上实现了最先进的性能,尤其在VOC和COCO Object任务上表现突出。

💡CLIPer框架通过浅层融合模块,将CLIP图像编码器最后一层缺乏的空间特性进行弥补,融合浅层特征和注意力图,保留空间结构信息,生成具有更好空间一致性的分割图。

🔍CLIPer的精细补偿机制,巧妙地将扩散模型中的细节融入到分割过程中,利用扩散模型中的多头自注意力头蕴含的细节信息,通过矩阵链乘法的形式去优化粗糙的分割结果。

🧪实验证明,CLIPer在多种数据集上表现出色,尤其是在类别分类和掩码预测两个方面,均优于其他方法。通过图像级分类和弱监督分割实验,验证了CLIPer在类别分类和分割能力上的优势。

🚀CLIPer在魔搭社区进行了部署,用户可以在魔搭社区免费提供的GPU算力上体验CLIPer,体验地址为https://modelscope.cn/studios/sunlin449/CLIPer。

2025-03-04 19:27 浙江

CLIPer,一个创新的分层框架,通过增强CLIP的空间表征能力,在无需额外训练的情况下,显著提升了像素级开放词汇语义分割的性能,实现了在多个数据集上的良好表现。

论文链接:

https://arxiv.org/abs/2411.13836


模型链接:

https://modelscope.cn/studios/sunlin449/CLIPer


01


论文解读



对比语言-图像预训练(CLIP)在多种图像级任务上表现出强大的零样本分类能力,促使研究行人尝试将CLIP应用于像素级开放词汇语义分割,而无需额外训练。关键在于提升图像级CLIP的空间表征能力,例如,用自-自注意力图或基于视觉基础模型的自注意力图替换最后一层的自注意力图。本文提出了一种新颖的分层框架CLIPer,该框架分层提升了CLIP的空间表征能力。


CLIPer包括浅层融合模块和精细补偿模块。浅层融合模块包括嵌入浅层特征和注意力图以保留空间结构信息,生成具有更好空间一致性的分割图。精细补偿模块利用扩散模型的自注意力图来补偿局部细节。本文在七个分割数据集上进行了实验,并在这些数据集上实现了最先进的性能。在不采用使用滑动窗口的策略下,使用ViT-L模型,CLIPer在VOC和COCO Object任务上的mIoU分别达到69.8%和43.3%,分别高出ProxyCLIP模型9.2%和4.1%。


方法描述

CLIPer方法有以下几个关键步骤:

1.最后一层注意力机制的弥补:原始的CLIP图像编码器最后一层缺乏空间特性,CLIPer通过利用浅层空间连续性强的特性,将浅层的多头注意力图直接融合至最后一层中,并去掉了残差连接以及前向传播网络,以提高最终分割的连续性。


2.浅层特征的提取:在每次经过CLIP图像编码时,CLIPer会记录所有Transformer块的特征,并将这些特征送入到修改后的最后一层,并分别与文本特征计算相似度,得到分割结果。


3.精细补偿机制:CLIPer提出将扩散模型中的细节融入到分割中。该模块利用扩散模型中的多头自注意力头蕴含的细节信息,通过矩阵链乘法的形式去优化粗糙的分割结果。

论文实验

本文对CLIPer与一些最先进的方法在各种数据集上的表现进行了比较。当使用ViT-B和ViT-L两种框架时,CLIPer几乎在所有这些数据集上都达到了最佳性能。


另外,本文还将开放词汇语义分割可以看作是两个方面:类别分类和掩码预测。为了深入展示CLIPer在这两个方面上的优势,本文通过两个实验与其他方法进行了更多比较。

本文第一个实验结果的图像级分类的形式展示了CLIPer的分类能力,通过表二可以得出CLIPer取得更优的mAP、F1、P和R分数,表明在类别分类上表现更好,这对于开放词汇语义分割非常有用。


本文的第二个实验通过弱监督的设置展示了CLIPer的分割能力,通过表三可以得出,CLIPer在弱监督设置中较其他方式取得更优的mIoU分数,说明具备更好的分割能力。


对于推理时间,与ClearCLIP相比,CLIPer*具有更快的速度和更高的mIoU。与ProxyCLIP相比,CLIPer*具有更快的速度和可比的mIoU。此外,CLIPer通过细粒度补偿显著提升了CLIPer*的性能。

本文也有一系列的消融实验。具体包括:

1. 单独只使用浅层特征融合模块(CLIPer*),单独只使用精细补偿模块,以及两者同时具备(CLIPer)的情况,发现每一个模块均能单独提升分割结果,并且同时使用两者能更进一步的提升效果。


2. 进一步的消融浅层特征融合模块,展示了只融合浅层特征,只融合自注意力,以及同时融合两者同同条件下使用q-q,k-k,v-v的对比,得出这两种融合的有效性。


3. 在精细补偿中,本文也探讨了如何融合扩散模型自注意力图,包括选取其中一个自注意力图,平均所有自注意力图以及将所有自注意力图做矩阵链乘法,得出矩阵链乘法能显著的提升分割精度的结果。

02


最佳实践



CLIPer在魔搭社区上进行了部署,在魔搭社区免费提供的GPU免费算力上可体验CLIPer。


体验地址:

https://modelscope.cn/studios/sunlin449/CLIPer


小程序体验


运行结果:


点击阅读原文,即可跳转模型~




?点击关注ModelScope公众号获取

更多技术信息~



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CLIPer 语义分割 分层框架 深度学习
相关文章