CV君 2025-07-31 18:11 江苏
在视频中准确地找出最吸引人眼球的物体(即显著目标),是计算机视觉的一项核心任务。近年来,随着带有深度信息的RGB-D摄像头的普及,利用额外的深度(D)和运动(光流)信息来辅助传统的RGB图像,已成为提升视频显著目标检测(VSOD)性能的利器。然而,一个新的问题也随之而来:在不同的场景下,运动和深度信息的重要性并非一成不变,我们该如何智能地利用它们?
来自四川大学的研究团队在论文《Unleashing the Power of Motion and Depth: A Selective Fusion Strategy for RGB-D Video Salient Object Detection》中,对这个问题给出了一个漂亮的答案。他们指出,以往的方法大多“一视同仁”地对待运动和深度,限制了二者的潜力。为此,他们提出了一个新颖的选择性跨模态融合框架(SMFNet)。该框架能够根据运动和深度信息在每个像素点的实际贡献,进行智能的、选择性的融合,从而充分释放二者的力量。在与多达19个SOTA模型的超大规模对比中,SMFNet展现了全面的优越性。
论文标题: Unleashing the Power of Motion and Depth: A Selective Fusion Strategy for RGB-D Video Salient Object Detection
作者团队: Jiahao He, Daerji Suolang, Keren Fu, Qijun Zhao
所属机构: 四川大学
背景:从“平等对待”到“按需择优”
RGB-D视频显著目标检测(RGB-D VSOD)是一项新兴任务。相比仅使用RGB信息,额外引入的深度信息可以帮助区分前景和背景,而运动信息(通常从光流中提取)则能有效捕捉动态的显著物体。
然而,现有方法在如何融合这三者信息上,存在一个普遍的局限。如下图所示,以往的模型(如b)往往采用一种对称的、平等的方式来处理RGB、深度和光流三种模态的特征,没有考虑到在不同场景下,深度和运动的贡献度是动态变化的。
场景一:当一个物体快速移动,但场景深度变化不大时,运动信息是关键,深度信息则相对次要。
场景二:当一个物体静止,但与背景有明显深度差异时,深度信息是关键,运动信息则几乎无用。
“一刀切”的融合方式,显然无法在所有场景下都达到最优。本文的核心思想正是要打破这种“平等主义”,实现一种更智能的选择性融合。
方法:SMFNet的选择性融合之道
为了实现“按需择优”的智能融合,研究者设计了SMFNet框架,其整体架构如下图所示。该框架的核心是两个创新模块:像素级选择性融合策略(PSF)和多维度选择性注意力模块(MSAM)。
1. 像素级选择性融合策略 (Pixel-level Selective Fusion, PSF)
这是实现选择性融合的第一步,也是最关键的一步。PSF模块的目标是在融合的初始阶段,就判断出在每个像素点上,是光流信息更可靠,还是深度信息更可靠。
如上图所示,PSF会生成一个空间权重图(Spatial Weight map, SW)。这张图的每一个像素值,都代表了该位置上光流特征应占的权重。例如,如果某像素值为0.8,则意味着在该点,最终融合的特征将由80%的光流特征和20%的深度特征构成。通过这种方式,PSF能够逐像素地构建出一个最优的“运动-深度”融合特征,为后续处理打下坚实基础。
上图直观地展示了PSF生成权重图的效果,模型能够准确地为运动区域(如跳跃的人)分配更高的光流权重,为有深度差异的区域分配更高的深度权重。
2. 多维度选择性注意力模块 (Multi-dimensional Selective Attention Module, MSAM)
在通过PSF得到最优的“运动-深度”融合特征后,如何将其与主要的RGB特征进行有效整合,是第二步的关键。MSAM模块为此而生。
它没有采用简单的特征拼接,而是设计了一种多维度选择性注意力机制。如上图所示,MSAM会分别沿着特征图的高度、宽度、通道和空间四个维度计算注意力权重,从而全方位地捕捉和增强特征中最具信息量的部分,抑制无关噪声,最终生成信息更纯、表达能力更强的精炼特征。
实验结果:迄今最全面的RGB-D VSOD基准测试
为了全面验证SMFNet的性能,研究者们进行了一场堪称迄今为止最全面的RGB-D VSOD基准测试,在RDVS和DVisal两大公开数据集上,将SMFNet与横跨RGB-D VSOD、VSOD和RGB-D SOD三个相关领域的19个SOTA模型进行了正面交锋。
定量的实验结果(如上表)和定性的视觉对比(如下图)都雄辩地证明,SMFNet在各种具有挑战性的场景下,其性能均全面优于其他所有模型。
此外,详尽的消融实验也充分验证了PSF和MSAM两个核心模块的有效性和不可或缺性。
论文贡献
本文的核心贡献可以概括为:
提出选择性融合新范式:首次明确指出并解决了现有RGB-D VSOD方法中“平等对待”运动和深度信息的局限性,提出了“按需择优”的选择性融合新思路。
设计SMFNet框架:提供了一个完整且高效的实现方案,其核心模块PSF和MSAM为如何实现智能的跨模态特征融合提供了具体、可行的技术路径。
建立最全面基准:通过与19个SOTA模型的广泛比较,为RGB-D VSOD领域建立了一个全新的、更高水平的性能标杆,并为后续研究提供了宝贵的参考。
代码与结果开源:研究团队开源了全部代码和基准测试结果,极大地便利了社区的复现和跟进研究。
了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net