我爱计算机视觉 7小时前
别再“一视同仁”!川大提出SMFNet,选择性融合运动与深度,解锁视频显著性检测新高度
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

四川大学研究团队提出了一种新颖的选择性跨模态融合框架SMFNet,旨在解决RGB-D视频显著目标检测(VSOD)中运动和深度信息融合的局限性。SMFNet能够根据每个像素点的实际贡献,智能地、选择性地融合运动和深度信息,打破了以往方法“一视同仁”的模式。其核心在于像素级选择性融合策略(PSF)和多维度选择性注意力模块(MSAM),前者逐像素判断信息可靠性,后者则多维度捕捉和增强特征。在与19个SOTA模型的对比中,SMFNet展现了全面的优越性,为RGB-D VSOD领域树立了新的性能标杆。

💡 **选择性融合新范式**:文章指出,以往的RGB-D视频显著目标检测方法普遍存在“平等对待”运动和深度信息的问题,未能充分发挥其潜力。研究团队提出了一种“按需择优”的选择性融合新思路,认为在不同场景下,运动和深度信息的重要性是动态变化的,应根据其在每个像素点的实际贡献进行智能融合。

🚀 **SMFNet框架设计**:为实现选择性融合,论文设计了SMFNet框架,包含两个核心创新模块:像素级选择性融合策略(PSF)和多维度选择性注意力模块(MSAM)。PSF模块通过生成空间权重图,逐像素判断光流信息或深度信息的可靠性,构建最优的“运动-深度”融合特征;MSAM模块则在融合RGB特征时,通过多维度(高度、宽度、通道、空间)选择性注意力机制,全方位捕捉关键信息,抑制噪声,生成更精炼的特征。

📊 **实验验证与贡献**:SMFNet在RDVS和DVisal两大公开数据集上,与19个SOTA模型进行了大规模对比测试。实验结果表明,SMFNet在各种具有挑战性的场景下均表现出全面优越的性能。此外,详尽的消融实验也证实了PSF和MSAM模块的有效性和重要性。该研究为RGB-D VSOD领域建立了一个新的、更高的性能标杆,并开源了代码和结果,便利了后续研究。

✨ **应用场景与价值**:在视频中准确找出最吸引人眼球的物体是计算机视觉的核心任务之一。通过引入和智能融合RGB-D视频的深度和运动信息,SMFNet显著提升了视频显著目标检测的性能,这对于视频分析、目标跟踪、内容理解等众多应用场景具有重要价值,能够更精准地捕捉视频中的关键信息。

CV君 2025-07-31 18:11 江苏

在视频中准确地找出最吸引人眼球的物体(即显著目标),是计算机视觉的一项核心任务。近年来,随着带有深度信息的RGB-D摄像头的普及,利用额外的深度(D)和运动(光流)信息来辅助传统的RGB图像,已成为提升视频显著目标检测(VSOD)性能的利器。然而,一个新的问题也随之而来:在不同的场景下,运动和深度信息的重要性并非一成不变,我们该如何智能地利用它们?

来自四川大学的研究团队在论文《Unleashing the Power of Motion and Depth: A Selective Fusion Strategy for RGB-D Video Salient Object Detection》中,对这个问题给出了一个漂亮的答案。他们指出,以往的方法大多“一视同仁”地对待运动和深度,限制了二者的潜力。为此,他们提出了一个新颖的选择性跨模态融合框架(SMFNet)。该框架能够根据运动和深度信息在每个像素点的实际贡献,进行智能的、选择性的融合,从而充分释放二者的力量。在与多达19个SOTA模型的超大规模对比中,SMFNet展现了全面的优越性。

背景:从“平等对待”到“按需择优”

RGB-D视频显著目标检测(RGB-D VSOD)是一项新兴任务。相比仅使用RGB信息,额外引入的深度信息可以帮助区分前景和背景,而运动信息(通常从光流中提取)则能有效捕捉动态的显著物体。

然而,现有方法在如何融合这三者信息上,存在一个普遍的局限。如下图所示,以往的模型(如b)往往采用一种对称的、平等的方式来处理RGB、深度和光流三种模态的特征,没有考虑到在不同场景下,深度和运动的贡献度是动态变化的。

    场景一:当一个物体快速移动,但场景深度变化不大时,运动信息是关键,深度信息则相对次要。

    场景二:当一个物体静止,但与背景有明显深度差异时,深度信息是关键,运动信息则几乎无用。

“一刀切”的融合方式,显然无法在所有场景下都达到最优。本文的核心思想正是要打破这种“平等主义”,实现一种更智能的选择性融合

方法:SMFNet的选择性融合之道

为了实现“按需择优”的智能融合,研究者设计了SMFNet框架,其整体架构如下图所示。该框架的核心是两个创新模块:像素级选择性融合策略(PSF)多维度选择性注意力模块(MSAM)

SMFNet网络概述
SMFNet编码器

1. 像素级选择性融合策略 (Pixel-level Selective Fusion, PSF)

这是实现选择性融合的第一步,也是最关键的一步。PSF模块的目标是在融合的初始阶段,就判断出在每个像素点上,是光流信息更可靠,还是深度信息更可靠。

如上图所示,PSF会生成一个空间权重图(Spatial Weight map, SW)。这张图的每一个像素值,都代表了该位置上光流特征应占的权重。例如,如果某像素值为0.8,则意味着在该点,最终融合的特征将由80%的光流特征和20%的深度特征构成。通过这种方式,PSF能够逐像素地构建出一个最优的“运动-深度”融合特征,为后续处理打下坚实基础。

上图直观地展示了PSF生成权重图的效果,模型能够准确地为运动区域(如跳跃的人)分配更高的光流权重,为有深度差异的区域分配更高的深度权重。

2. 多维度选择性注意力模块 (Multi-dimensional Selective Attention Module, MSAM)

在通过PSF得到最优的“运动-深度”融合特征后,如何将其与主要的RGB特征进行有效整合,是第二步的关键。MSAM模块为此而生。

它没有采用简单的特征拼接,而是设计了一种多维度选择性注意力机制。如上图所示,MSAM会分别沿着特征图的高度、宽度、通道和空间四个维度计算注意力权重,从而全方位地捕捉和增强特征中最具信息量的部分,抑制无关噪声,最终生成信息更纯、表达能力更强的精炼特征。

实验结果:迄今最全面的RGB-D VSOD基准测试

为了全面验证SMFNet的性能,研究者们进行了一场堪称迄今为止最全面的RGB-D VSOD基准测试,在RDVS和DVisal两大公开数据集上,将SMFNet与横跨RGB-D VSOD、VSOD和RGB-D SOD三个相关领域的19个SOTA模型进行了正面交锋。

定量的实验结果(如上表)和定性的视觉对比(如下图)都雄辩地证明,SMFNet在各种具有挑战性的场景下,其性能均全面优于其他所有模型。

此外,详尽的消融实验也充分验证了PSF和MSAM两个核心模块的有效性和不可或缺性。

论文贡献

本文的核心贡献可以概括为:

    提出选择性融合新范式:首次明确指出并解决了现有RGB-D VSOD方法中“平等对待”运动和深度信息的局限性,提出了“按需择优”的选择性融合新思路。

    设计SMFNet框架:提供了一个完整且高效的实现方案,其核心模块PSF和MSAM为如何实现智能的跨模态特征融合提供了具体、可行的技术路径。

    建立最全面基准:通过与19个SOTA模型的广泛比较,为RGB-D VSOD领域建立了一个全新的、更高水平的性能标杆,并为后续研究提供了宝贵的参考。

    代码与结果开源:研究团队开源了全部代码和基准测试结果,极大地便利了社区的复现和跟进研究。

了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RGB-D视频显著目标检测 计算机视觉 深度学习 多模态融合 SMFNet
相关文章