机器学习初学者 2024年10月16日
通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

TransXNet是一种新型的通用视觉主干网络,它通过引入Dual Dynamic Token Mixer(D-Mixer)模块,融合了全局和局部动态性,显著提升了模型对多尺度特征的动态表征能力。D-Mixer可以利用网络上一层的feature map信息,生成用于提取当前层feature maps的全局和局部动态权重,从而增强模型对多尺度特征的动态表征能力。研究团队在ImageNet-1K、COCO 2017和ADE20K数据集上进行了实验,结果表明,TransXNet作为一个通用视觉主干网络,展现出了卓越的性能。

🤔 **D-Mixer模块:融合全局和局部动态性** D-Mixer是TransXNet的核心创新点,它能够动态地捕获全局和局部信息,从而使网络兼具大感受野和稳定的归纳偏置。D-Mixer由Input-dependent Depthwise Convolution (IDConv)、Overlapping Spatial Reduction Attention (OSRA) 和 Squeezed Token Enhancer (STE) 三个模块组成。 - **IDConv**:利用上一层特征图的语义信息动态地生成卷积核的权重,增强模型对全局信息的捕捉能力。 - **OSRA**:通过Overlapping卷积进行降采样,保留更多的局部信息,提升模型对局部特征的敏感度。 - **STE**:将IDConv和OSRA处理后的特征进行高效地融合,确保模型能够有效地利用全局和局部信息。

🚀 **TransXNet的性能优势** TransXNet在ImageNet-1K、COCO 2017和ADE20K数据集上都取得了显著的性能提升,尤其是在目标检测和语义分割任务中表现出色。 - **图像分类**:在ImageNet-1K数据集上,TransXNet展现出比现有方法更优秀的性能和更好的tradeoff。 - **目标检测**:在COCO 2017数据集上,TransXNet在处理小目标时比Slide-Tranformer性能更好,表明了全局和局部动态性对模型性能的提升作用。 - **语义分割**:在ADE20K数据集上,TransXNet同样取得了优异的性能,并在与其他强大Vision Backbones的比较中脱颖而出。

💡 **动态卷积的重要性** 实验结果表明,动态卷积在卷积-Attention混合模型中扮演着重要角色,可以有效地扩展模型的感受野。 - **有效感受野**:TransXNet在具有最大感受野的同时,也拥有显著的局部敏感度,这得益于D-Mixer模块对全局和局部信息的动态捕获能力。 - **性能对比**:与其他Vision Backbones相比,TransXNet展现出了更强大的全局和局部特征提取能力,并在多个视觉任务中取得了领先的性能。

📊 **消融实验** 研究团队对TransXNet的核心模块进行了广泛的消融实验,验证了每个模块的有效性。 - **D-Mixer**:与其他token mixer相比,D-Mixer展现出更出色的性能。 - **动态卷积**:与其他动态卷积方法相比,IDConv在配合self-attention模块方面取得了最佳效果。 - **STE**:STE在特征融合方面比使用全连接层更有效,并具有更低的计算复杂度。

🌟 **结论** TransXNet通过融合全局和局部动态性,有效地提升了视觉模型对多尺度特征的表征能力,在多个视觉任务中取得了显著的性能提升,展现了其作为通用视觉主干网络的强大潜力。

2024-10-16 12:04 浙江


作者丨我爱计算机视觉    来源丨我爱计算机视觉    编辑丨极市平台

导读

 

本文介绍了一种新型的通用视觉主干网络TransXNet,它通过引入Dual Dynamic Token Mixer(D-Mixer)模块,融合了全局和局部动态性,显著提升了模型对多尺度特征的动态表征能力,并在多个数据集上展现出卓越的性能。

本篇分享论文TransXNet: Learning both global and local dynamics with a dual dynamic token mixer for visual recognition,通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!

论文链接:https://arxiv.org/abs/2310.19380 (预印版)

代码链接:https://github.com/LMMMEng/TransXNet

摘要

香港大学计算机科学系俞益洲教授(https://www.cs.hku.hk/~yzyu/)及其研究团队开发了一种新型的通用视觉主干网络—TransXNet,该模型同时融合了全局和局部动态性。其创新之处在于引入了一个即插即用的模块,名为Dual Dynamic Token Mixer(D-Mixer)。

与以往的卷积和self-attention混合模块或全局与局部信息融合模块不同,D-Mixer专注于动态性的捕捉

具体来说,D-Mixer能够利用网络上一层的feature map信息,生成用于提取当前层feature maps的全局和局部动态权重,从而显著增强模型对多尺度特征的动态表征能力。

为了验证TransXNet的性能,研究团队分别在ImageNet-1K、COCO 2017和ADE20K数据集上进行了广泛的实验,结果表明,TransXNet作为一个通用视觉主干网络,展现出了卓越的性能。

动机

在本文中,作者深入探讨了self-attention和卷积在权重计算方式上的不同,并基于此提出了改进方案。作者指出,self-attention之所以性能卓越,部分原因在于其权重(即attention matrix)会根据不同的输入动态变化,这种input-dependent的特性使得模型能够更好地捕捉输入数据的特征。

相比之下,传统的卷积操作中的权重是静态的,与输入数据无关,即input-independent,这限制了其表征能力。据此,作者进一步分析了如果将self-attention和传统的卷积简单地结合可能遇到的问题:

方法

为了解决上述问题,作者提出了一个即插即用模块D-Mixer。该模块能够动态地捕获全局和局部信息,从而使网络兼具大感受野和稳定的归纳偏置。

如图1(a)所示,对于给定的输入特征图, D-Mixer首先会将其沿通道维度拆分为两部分,并分别将这两部分输入到两个不同的模块中,即Input-dependent Depthwise Convolution(IDConv)以及 Overlapping Spatial Reduction Attention(OSRA)。

输出结果会进行拼接,并且由一个轻量级的Squeezed Token Enhancer(STE)进行整合。以下为不同模块的具体描述:

图1 D-Mixer

**Input-dependent Depthwise Convolution (IDConv)**:如图1(b)所示,对于任意输入特征图,作者首先使用一个自适应平均池化层聚合空间上下文,并将空间维度压缩至K×K,其中K为待生成的动态卷积核的大小。紧接着,输出的特征图被送入两个1×1卷积层中,并生成多组维度为G×C×K×K的空间注意力图,其中G、C分别表示注意力图的组数以及输入特征图的通道数量,注意力图在G维度上使用 softmax 函数对其进行归一化,使其具备自适应的选择能力。最后,通过将注意力图和一组维度同为G×C×K×K的可学习参数进行逐元素相乘来生成动态卷积核,并将其用于输入特征图的特征提取。IDConv可以根据上一层特征图携带的语义信息来动态地生成卷积核的权重,进而可以与self-attention进行深度嵌合。

Overlapping Spatial Reduction Attention (OSRA): 如1图(c)所示,OSRA的整体流程和PVT中提出的 Spatial Reduction Attention(SRA)类似,都采用了token-to-region的全局建模方式。主要不同之处在于,SRA在降采样的过程中使用的是Non-overlapping的卷积,即卷积核大小和步长大小一致。因此,一些连续的局部信息会在这个过程中被破坏,从而降低key/value分量包含的空间结构信息。据此,OSRA引入了 Overlapping卷积来进行降采样,即卷积核的大小大于步长。此外,OSRA还引入了一个轻量的局部算子(用3×3的depthwise卷积实现)来进一步提炼 key/value 分量的局部信息。

**Squeezed Token Enhancer (STE)**:为了高效地将IDConv和OSRA处理后的特征进行融合,本文引入了一个轻量级的特征融合模块STE。如图1(d)所示,STE通过一个3×3的depthwise卷积和两个通道压缩的 1×1 卷积来实现特征融合。值得一提的是,STE相较于直接使用一个全连接层进行特征融合具有更好的性能以及更优的计算复杂度。

TransXNet 整体架构:如图 2 所示,TransXNet的基本构成部分主要包含D-Mixer和Multiscale Feed-forward Network(MS-FFN)。其中,MS-FFN 使用了多个不同卷积核大小的 depthwise 卷积来提取多尺度信息。由于TransXNet同样沿用了ResNet和Swin Transformer中的金字塔设计,因此,该网络可以应用到各类视觉任务中。

图2 TransXNet整体架构

实验结果:

    图像分类: TransXNet在大规模数据集ImageNet-1K 上表现出了卓越的性能,相较于现有方法,展现出更为出色的性能以及更加优秀的tradeoff,如图 3 所示。

图3 不同模型在ImageNet-1K上的性能对比

    目标检测: 如表1所示,在COCO 2017数据集上,TransXNet 同样展示出了更优的性能。值得注意的是,TransXNet在处理小目标时比强调局部性的Slide-Tranformer性能更好,充分展现了TransXNet利用全局和局部动态性获得的强大能力。

    语义分割: 如表2所示,TransXNet在ADE20K上也进行了全面的评估,其性能在与一些强大的Vision Backbones的比较中脱颖而出,并且有着更优秀的tradeoff。

    消融研究: 如表3所示,TransXNet对核心模块进行了广泛的消融实验,例如与不同token mixer的性能对比以及和不同动态卷积的性能对比等。可以看出,TransXNet中的核心部件相较于其他算法有着更加出众的性能。除此之外,原文还包含有更多的性能和效率对比及分析。

表1 目标检测和实例分割性能对比
表2 语义分割性能对比
表3 核心部件的消融研究

可视化研究

动态卷积在卷积 - Attention混合模型中的重要性:

如图4 (a) 所示,在动态卷积的加持下,卷积-Attention混合模型能够拥有更大的有效感受野(Effective Receptive Field, ERF)。其中,所提出的IDConv展现出了最好的性能,表明其可以更好地配合self-attention 模块来捕获上下文信息。

不同Vision Backbones的ERF对比:

如图4 (b) 所示,TransXNet在具有最大感受野的同时还具备显著的局部敏感度,这是其他模型无法兼备的能力,进一步表明了全局和局部动态性的重要性。

图4 不同模型有效感受野(Effective Receptive Field, ERF)对比

往期精彩回顾





欢迎加入机器学习爱好者微信群一起和同行交流,目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群,请扫描下面的微信号加群,备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~(也可以加入机器学习交流qq群772479961


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

TransXNet 视觉主干网络 动态性 D-Mixer 全局和局部信息
相关文章