Machine Intelligence Research

新加坡科技研究局和ETH Zurich的研究人员旨在解决视觉Transformer中与多头自注意力(MHSA)相关的高计算/空间复杂度问题。为此,文章提出了分层多头自注意力(H-MHSA),这是一种全新的分层式计算自注意力的方法。具体来说,研究人员首先把输入图像分成固定大小的像素块,其中每一个像素块被视为一个token。而后,本文所提出的H-MHSA从局部的像素块中学习token间的关系,为局部关系建模。接下来,小的像素块被合并成更大的像素块,H-MHSA再为合并而成的数量不多的token进行全局依赖性建模。最后,对局部的和全局的注意力特征进行汇总,以获得具有强大表征能力的特征。因为研究人员在每一步只计算有限数量token的注意力,所以计算量大大减少。因此,H-MHSA可以在不丢失细粒度信息的前提下,有效地对token之间的全局关系进行建模。在引入H-MHSA模块的前提下,研究人员搭建了一个基于分层注意力的Transformer网络,命名为HAT-Net。为了证明HAT-Net在场景理解方面的优越性,研究者们在各种基本视觉任务上做了大量的实验,包括图像分类、语义分割、物体检测和实物分割。因此,HAT-Net为视觉Transformer提供了一个新的视角。代码和预训练模型可在https://github.com/yun-liu/HAT-Net获得。

图片来自Springer

全文下载:

Vision Transformers with Hierarchical Attention

Yun Liu, Yu-Huan Wu, Guolei Sun, Le Zhang, Ajad Chhatkuli & Luc Van Gool

https://link.springer.com/article/10.1007/s11633-024-1393-8

https://www.mi-research.net/article/doi/10.1007/s11633-024-1393-8

全文导读

在过去的十年里,卷积神经网络(CNNs)已经成为计算机视觉中的首选架构,这归功于其从图像/视频中学习表征的强大能力。同时,在自然语言处理(NLP)领域,Transformer架构已经成为了处理长距依赖关系的业界标准。Transformer高度依赖自注意力机制去对序列数据的全局关系进行建模。尽管全局建模对于视觉任务来说也是非常重要的,但是2D/3D的视觉数据结构使应用Transformer变得不那么简单。而这种困境近期已经被Dosovitskiy等人攻破,他们将一种纯Transformer模型应用于处理图像像素块的序列。

受此启发,大量关于视觉Transformer的研究相继涌现,以解决由计算机视觉和自然语言处理两大领域之间的差距所引起的问题。本文认为,视觉Transformer的一个主要问题是像素块的序列长度比NLP中的文本token更长,因此在计算MHSA时带来了更高的计算/空间复杂度。为了解决这个问题,人们做出了很多努力。

ToMe通过使用一种通用的、轻量化的匹配算法,系统地合并相似的token,以此提高现有视觉Transformer模型的吞吐量。金字塔视觉Transformer(PVT)和多尺度视觉Transformer(MViT)通过特征下采样的方式来减少注意力计算时的token的数量,但却丢失了细粒度的详细信息。SwinTransformer在小窗口中计算注意力以对局部关系进行建模,并通过移动窗口和堆叠更多网络层的方法来逐渐扩大感受野。从这点来看,SwinTransformer的表现可能依旧欠佳,因为它和CNNs的工作方式相似,需要堆叠很多网络层来对长距依赖关系进行建模。

在对基于下采样的Transformer和基于窗口的Transformer进行讨论后可发现,每一种方法都有其独特的优点,本文研究者旨在充分利用和整合这些优点。基于下采样的Transformer优于直接对全局依赖关系进行建模,只不过可能会丢失细粒度信息;相比之下,基于窗口的Transformer可以有效捕捉局部依赖关系,但也可能会在全局依赖建模中落于下风。大家广为接受的是,全局和局部的信息对于视觉场景理解都是必要的。受此观点启发,本研究试图集成这两种范式的优点,从而能直接对全局和局部依赖关系进行建模。

为了实现这一点,本文构建了多层级多头自注意力框架(H-MHSA),这是一种可以在Transformer中提高自注意力计算灵活性与效率的新机制。本文的研究方法首先把图像划分成像素块,并把每个像素块作为一个token。与以往计算所有像素块的注意力不同的是,本文研究者进一步把这些像素块组成小的网格,在每个网格中进行注意力计算。这一步有助于捕获局部关系、并生成更有判别力的局部表征。

而后,研究人员把这些小的像素块合并成更大的像素块,再把合并后的像素块作为新的token,这样可以大大减少token的数量。这使得可以通过计算新token的自注意力来对全局依赖关系进行直接建模。最后,局部和全局的多层级的注意力特征被聚合到一起,产生具有丰富粒度的强大特征。值得注意的是,由于每一步注意力计算都限制在少量token当中,因此本文所提出的多层级策略降低了普通Transformer中的计算/空间复杂度。通过经验判断可以看到多层级自注意力机制的有效性,同时在实验中也验证了该机制的优良性能。

通过简单地应用H-MHSA,本文研究者们建立了一系列基于分层注意力的Transformer网络(HAT-Net)。为了评估HAT-Net在场景理解方面的性能,研究人员在多个基础视觉任务上对HAT-Net进行了实验,包括图像分类、语义分割、物体检测和实物分割。实验结果表明,相较于此前的主流网络,HAT-Net的表现更优。由于H-MHSA源于一个非常简单易懂的想法,因此H-MHSA有望为未来设计视觉Transformer提供一个新的角度。

图1 本文所提出的HAT-Net的示意图

· 本文作者 ·

全文下载:

Vision Transformers with Hierarchical Attention

Yun Liu, Yu-Huan Wu, Guolei Sun, Le Zhang, Ajad Chhatkuli & Luc Van Gool

https://link.springer.com/article/10.1007/s11633-024-1393-8

https://www.mi-research.net/article/doi/10.1007/s11633-024-1393-8

BibTex:

@Article{MIR-2023-09-178,

author={Yun Liu, Yu-Huan Wu, Guolei Sun, Le Zhang, Ajad Chhatkuli, Luc Van Gool},

journal={Machine Intelligence Research},

title={Vision Transformers with Hierarchical Attention},

year={2024},

volume={21},

issue={4},

pages={670-683},

doi={10.1007/s11633-024-1393-8}}

特别感谢本文第一作者、新加坡科技研究局刘云博士对以上内容的审阅和修改!
纸刊免费寄送
Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接填写收件地址,编辑部将尽快为您免费寄送纸版全文!

说明:如遇特殊原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737

收件信息登记:

https://www.wjx.cn‍/vm/eIyI‍AAI.aspx#  

关于Machine Intelligence Research

Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录,入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区,最佳排名挺进Top 4%,2023年CiteScore分值继续跻身Q1区。2024年获得首个影响因子(IF) 6.4,位列人工智能及自动化&控制系统两个领域JCR Q1区。

往期目录
2024年第4期 | 特约专题: 多模态表征学习
2024年第3期 | 分布式深度强化学习,知识图谱,推荐系统,3D视觉,联邦学习...
2024年第2期 | 大语言模型、零信任架构、常识知识推理、肿瘤自动检测和定位...
2024年第1期 | 特约专题: AI for Art
2023年第6期 | 影像组学、机器学习、图像盲去噪、深度估计...
2023年第5期 | 生成式人工智能系统、智能网联汽车、毫秒级人脸检测器、个性化联邦学习框架... (机器智能研究MIR)
2023年第4期 | 大规模多模态预训练模型、机器翻译、联邦学习......
2023年第3期 | 人机对抗智能、边缘智能、掩码图像重建、强化学习... 
2023年第2期 · 特约专题 | 大规模预训练: 数据、模型和微调
2023年第1期 | 类脑智能机器人、联邦学习、视觉-语言预训练、伪装目标检测... 
2022年第6期 | 因果推理、视觉表征学习、视频息肉分割...
2022年第5期 | 重磅专题:类脑机器学习
2022年第4期 | 来自苏黎世联邦理工学院Luc Van Gool教授团队、清华大学戴琼海院士团队等
2022年第3期 | 聚焦自然语言处理、机器学习等领域;来自复旦大学、中科院自动化所等团队
2022年第2期 | 聚焦知识挖掘、5G、强化学习等领域;来自联想研究院、中科院自动化所等团队
主编谭铁牛院士寄语, MIR第一期正式出版!
好文推荐
浙江大学孔祥维团队 | 综述: 迈向真正以人为本的XAI
澳大利亚国立大学Nick Barnes团队 | 对息肉分割的再思考: 从分布外视角展开
前沿观点 | Segment Anything并非一直完美: SAM模型在不同真实场景中的应用调查
精选好文 | 推荐系统的波纹知识图谱卷积网络
复旦邱锡鹏团队 | MOSS: 一个开源的对话式大语言模型
自动化所黄凯奇团队 | 分布式深度强化学习:综述与多玩家多智能体学习工具箱
约翰霍普金斯大学Alan Yuille团队 | 从时序和高维数据中定位肿瘤的弱标注方法
专题综述 | 大语言模型中的知识生命周期
精选综述 | 零信任架构的自动化和编排: 潜在解决方案与挑战
欧洲科学院院士蒋田仔团队 | 脑成像数据的多模态融合: 方法与应用
金耀初团队&郑锋团队 | 综述: 深度工业图像异常检测
专题好文 | 创新视听内容的联合创作: 计算机艺术面临的新挑战
下载量TOP好文 | 人工智能领域高下载文章集锦 (2022-2023年)
引用量TOP好文 | 人工智能领域高引用文章集锦 (2022-2023年)
综述 | 清华张学工教授: 肺癌影像组学中的机器学习
哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计
Luc Van Gool团队 | 通过Swin-Conv-UNet和数据合成实现实用图像盲去噪
贺威团队&王耀南院士团队 | 基于动态运动基元的机器人技能学习
乔红院士团队 | 类脑智能机器人:理论分析与系统应用 (机器智能研究MIR)
南科大于仕琪团队 | YuNet:一个速度为毫秒级的人脸检测器
上海交大严骏驰团队 | 综述: 求解布尔可满足性问题(SAT)的机器学习方法
西电公茂果团队 | 综述: 多模态数据的联邦学习
高文院士团队 | 综述: 大规模多模态预训练模型
前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究
港中文黄锦辉团队 | 综述: 任务型对话对话策略学习的强化学习方法
南航张道强教授团队 | 综述:用于脑影像基因组学的机器学习方法
ETHZ团队 | 一种基于深度梯度学习的高效伪装目标检测方法 (机器智能研究MIR)
Luc Van Gool团队 | 深度学习视角下的视频息肉分割
专题综述 | 高效的视觉识别: 最新进展及类脑方法综述
北大黄铁军团队 | 专题综述:视觉信息的神经解码
专题综述 | 迈向脑启发计算机视觉的新范式
专题好文 | 新型类脑去噪内源生成模型: 解决复杂噪音下的手写数字识别问题
戴琼海院士团队 | 用以图像去遮挡的基于事件增强的多模态融合混合网络
ETH Zurich重磅综述 | 人脸-素描合成:一个新的挑战
华南理工詹志辉团队 | 综述: 面向昂贵优化的进化计算
东南大学张敏灵团队 | 基于选择性特征增广的多维分类方法
联想CTO芮勇团队 | 知识挖掘:跨领域的综述
复旦邱锡鹏团队 | 综述:自然语言处理中的范式转换
MIR资讯
挺进Q1区前10名!MIR首个影响因子发布
专题征稿 | Special Issue on Embodied Intelligence
专题征稿 | Special Issue on Transformers for Medical Image Analysis
特别提醒!请认准MIR官方渠道,谨防受骗
2024年 AI 领域国际学术会议参考列表
MIR 优秀编委 & 优秀审稿人 & 高被引论文 (2023年度)
年终喜报!MIR科技期刊世界影响力指数跻身Q1区 (含100份龙年礼包)
最新 | 2023研究前沿及热点解读 (附完整PDF)
前进20名!MIR再度跻身国际影响力TOP期刊榜单
喜报 | MIR入选图像图形领域 T2级 “知名期刊”!
双喜!MIR入选”2022中国科技核心期刊”,并被DBLP收录 | 机器智能研究MIR
报喜!MIR入选2022年国际影响力TOP期刊榜单
喜报 | MIR被 ESCI 收录!
喜报 | MIR 被 EI 与 Scopus 数据库收录