HybridTM：鱼与熊掌亦可兼得，Transformer与Mamba混合模型登顶3D语义分割

CV君 2025-07-25 15:45 江苏

作者来自华科、港大，代码将开源

在3D语义分割领域，Transformer以其强大的全局注意力机制（Attention）著称，能够有效捕捉长距离依赖关系，但其二次方计算复杂度在处理大规模点云时显得力不从心。而新兴的Mamba架构，凭借其线性复杂度的状态空间模型（SSM），在处理长序列数据时展现出极高的效率，但在3D特征提取的表示能力上有所欠缺。如何将二者的优势结合起来，一直是学界和业界探索的难题。

近日，来自华中科技大学和香港大学的研究者们提出了一种名为HybridTM的全新混合架构，首次将Transformer和Mamba的优势成功融合，应用于3D语义分割任务。该方法不仅在ScanNet、ScanNet200和nuScenes等多个权威基准测试中取得了SOTA（State-of-the-Art）的性能，还通过一种新的层内混合策略（Inner Layer Hybrid Strategy），实现了对长距离依赖和细粒度局部特征的同步捕获。

论文标题： HybridTM: Combining Transformer and Mamba for 3D Semantic Segmentation

作者团队： Xinyu Wang, Jinghua Hou, Zhe Liu, Yingying Zhu

所属机构： 华中科技大学、香港大学

论文地址： https://arxiv.org/pdf/2507.18575v1

项目地址： https://github.com/deepinact/HybridTM

录用信息： IROS 2025

研究背景与意义

3D语义分割是理解3D场景的关键技术，在自动驾驶、机器人、增强现实等领域有着广泛的应用。其目标是为点云中的每一个点分配一个语义标签（如“建筑”、“车辆”、“行人”等）。

近年来，Transformer凭借其强大的全局建模能力，在3D语义分割任务中取得了显著的成功。然而，其核心的自注意力机制需要计算每个点与其他所有点之间的关系，导致计算量和内存消耗随着点云规模的增大而呈二次方增长，这极大地限制了其在动辄包含数百万个点的大规模场景中的应用。

为了解决这一问题，研究者们开始探索更高效的架构。Mamba作为一种新兴的序列建模方法，其线性复杂度使其在处理长序列时具有天然的优势。然而，直接将Mamba应用于3D点云时，其在捕捉局部几何结构和细粒度特征方面的能力又不如Transformer。

因此，如何设计一个能够兼具Transformer的强大表示能力和Mamba的高效计算能力的混合模型，成为了一个极具价值的研究方向。

核心方法：HybridTM

HybridTM的整体架构采用了经典的UNet结构，包含编码器、解码器以及跳跃连接，能够有效处理多尺度的特征。其核心创新在于编码器和解码器中使用的混合层（Hybrid Layer）。

HybridTM 整体架构图

层内混合策略（Inner Layer Hybrid Strategy）

与之前工作尝试在不同层级（inter-layer）或不同分支（parallel）上结合不同模型不同，HybridTM提出了一种更细粒度的层内混合（Inner Layer Hybrid）策略。在一个混合层内部，数据会依次经过注意力模块和Mamba模块，从而实现优势互补。

混合层（Hybrid Layer）结构图

一个混合层的具体流程如下：

条件位置编码（xCPE）： 首先，通过一个条件位置编码层来增强体素（Voxel）的位置信息。

注意力模块（Attention Layer）： 接着，将体素划分为多个小的分组（group），在每个分组内应用注意力机制。这样做的好处是，既可以利用注意力机制强大的局部特征提取能力，又可以通过分组操作将计算复杂度控制在可接受的范围内。

Mamba模块（Mamba Layer）： 在注意力模块处理完后，将体素恢复到原始尺寸，并重新划分为几个更大的分组。然后，在这些更大的分组上应用Mamba，利用其线性复杂度的优势来高效地捕捉长距离的全局上下文信息。

前馈网络（FFN）： 最后，通过一个前馈网络来进一步融合和增强特征。

通过这种“先局部精雕（Attention），后全局总览（Mamba）”的策略，HybridTM成功地在一个统一的层内，以一种高效的方式同时捕获了细粒度的局部特征和长距离的全局依赖。

不同混合策略的对比，证明了层内混合（Inner Layer Hybrid）的优越性

实验结果与分析

研究者在多个大规模室内和室外3D点云数据集上对HybridTM进行了全面的评估。

HybridTM在室内外数据集上均超越现有基于Transformer、3D稀疏卷积和Mamba的方法

实验结果表明，HybridTM在所有测试的数据集上都取得了SOTA的性能，显著优于之前基于Transformer或Mamba的单一模型。

SCANNET验证集结果

HybridTM在ScanNet验证集上以77.8% mIoU刷新SOTA记录，较Point Transformer v3[14]提升0.3%，较Swin3D[11]和Serialized Point Mamba[26]分别提升2.3%和1.0%，展现了其在3D语义分割领域的突破性性能。

ScanNet200验证集结果

HybridTM在更复杂的ScanNet200验证集上以36.5% mIoU再创SOTA，较Point Transformer V3和OctFormer分别领先1.3%和3.9%。

nuScenes验证集结果

HybridTM在室外大规模数据集上以80.9% mIoU取得最优结果，较Point Transformer v3和SphereFormer分别提升0.7%和1.4%。

S3DIS验证集结果

HybridTM在小规模数据集上获得72.1% mIoU，较Serialized Point Mamba[26]提升1.5%，验证了其泛化能力。

消融实验也充分验证了混合层中每个组件的有效性。去掉注意力模块或Mamba模块都会导致性能下降，证明了二者结合的必要性和互补性。

混合层中各组件的有效性分析

定性可视化结果也直观地展示了HybridTM的优势。相比于基线模型，HybridTM能够生成更完整、更精确的语义分割结果，尤其是在处理一些细小的或者远距离的物体时，表现得更加出色。

与Point Transformer V3的可视化对比，HybridTM在细节和完整性上表现更优

论文贡献与价值

HybridTM的提出，为3D语义分割乃至更广泛的3D视觉领域带来了重要的贡献：

开创性的混合架构：首次成功地将Transformer和Mamba在层内级别进行融合，为如何结合不同架构的优势提供了一个全新的、有效的范例。

SOTA性能： 在多个具有挑战性的基准上刷新了记录，为3D语义分割任务树立了新的性能标杆。

高效与强大的平衡： 通过巧妙的设计，实现了计算效率和模型性能的完美平衡，使得处理大规模点云成为可能。

开源贡献：研究团队承诺将开源代码，这将极大地促进社区对混合架构的研究，并为相关应用提供强大的工具。

总而言之，HybridTM不仅是一个性能卓越的3D语义分割模型，更重要的是，它展示了一条如何博采众长、融合不同AI模型优势的创新之路。

了解最新 AI 进展，欢迎关注公众号
投稿寻求报道请发邮件：amos@52cv.net

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签