我爱计算机视觉 前天 22:07
CVPR 2025 Oral | 中科院、中山大学等提出真实世界去雨模型VDMamba,效果好、速度快、兼顾增强下游视觉任务
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中科院、中山大学等机构联合提出了VDMamba模型,用于解决真实世界视频去雨难题。该模型基于时空状态空间模型,通过双分支时空建模、动态堆叠滤波器和半监督中值堆叠损失等创新技术,实现了在保证去雨效果的同时,兼顾速度和下游视觉任务性能的提升。实验结果表明,VDMamba在合成和真实数据集上均表现出色,尤其是在目标检测和跟踪等任务中,性能提升显著。该模型为自动驾驶、监控等领域在恶劣天气下的应用提供了有力支持。

☔️VDMamba模型采用双分支空间-时间状态空间结构,通过空间分支提取每帧的空间特征,时间分支融合多帧间的时序依赖,从而同时强化帧内细节和帧间信息,使去雨过程更加准确稳定。

🎛️动态堆叠滤波器(DSF)通过可学习的机制,在像素层面自适应地从邻帧对齐特征中选择合适的“统计滤波器”输出,动态模拟最小、中值、均值、最大等滤波效果,对每个像素进行最佳的时序聚合。

👁️‍🗨️考虑到真实场景中缺乏干净标注,VDMamba引入了半监督学习机制,利用雨在图像上呈现空间稀疏的先验,通过中值堆叠损失约束网络输出与“伪净”目标接近,从而在无真实干净帧时也能获得学习信号。

CV君 2025-05-23 15:45 江苏

效果好、速度快、兼顾增强下游视觉任务

关注公众号,发现CV技术之美

本篇分享 CVPR 2025 Oral 论文

Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video Deraining

,中科院、中山大学等提出真实世界去雨模型VDMamba,效果好、速度快、兼顾增强下游视觉任务。

雨天视频恢复任务背景与挑战

在户外视觉系统中,雨条纹和雨滴会显著降低图像/视频的质量,并损害后续视觉任务的性能。

例如,在恶劣天气下拍摄的视频中,雨水干扰往往导致目标检测和跟踪精度下降。因此,有效去除雨条纹对于提高自动驾驶、监控等场景中算法的鲁棒性至关重要。

然而,现有基于深度学习的方法大多依赖合成雨-清数据对进行训练,难以有效泛化到真实世界的雨水效应。此外,如何在去雨的同时兼顾实时性和其他下游任务性能,也是一个重要挑战。

VDMamba模型核心技术

图四:VDMamba架构图

本文提出的VDMamba模型通过时空状态空间(State-Space Model,SSM)框架来处理视频去雨任务,主要创新包括双分支时空建模、动态堆叠滤波器(DSF)和半监督中值堆叠损失。

VDMamba采用双分支空间-时间状态空间结构:一方面通过空间分支(Spatial SSM Layer,S3ML)提取每帧的空间特征,另一方面通过时间分支(Temporal SSM Layer,TSML)融合多帧间的时序依赖,从而同时强化帧内细节和帧间信息。

具体来说,模型首先利用无雨光流估计对邻帧进行对齐,然后在空间分支上逐像素地抽取和细化图像特征,在时间分支上使用状态空间模块将多帧信息递归融合,进一步去除动态雨纹。该双分支结构充分利用了视频数据的空间冗余和时序相关性,使去雨过程更加准确稳定。

    空间状态空间模型层 (S3ML):针对单帧图像,使用基于SSM的卷积结构提取空间特征,强化对细节与纹理的恢复。

    时间状态空间模型层 (TSML):针对帧序列,引入线性复杂度的状态空间模型,有效建模长时程依赖,将前后帧信息递归融合,提升雨滴去除的连贯性。

动态堆叠滤波器(DSF)

VDMamba提出了一种动态堆叠滤波器用于多帧特征融合。传统的固定卷积难以区分不同像素的时序特征,而基于统计的多帧融合方法(如对齐像素的最大值、最小值、中值等滤波)可有效去除雨条纹。DSF通过可学习的机制,在像素层面自适应地从邻帧对齐特征中选择合适的“统计滤波器”输出。

换言之,DSF能够动态模拟最小、中值、均值、最大等滤波效果,对每个像素进行最佳的时序聚合,从而同时去除降雨、抑制噪声并填补遗漏像素。该设计增强了帧间信息的融合能力,使模型可以在像素级别上灵活地融合多帧信息。

半监督中值堆叠损失

考虑到真实场景中往往缺乏干净标注,VDMamba引入了半监督学习机制。利用雨在图像上呈现空间稀疏的先验,中值滤波能有效去除绝大多数雨点。

具体做法是:对齐多帧后,对每个像素计算其所在像素堆的中值作为“伪净”目标。然后通过中值堆叠损失约束网络输出与该伪净值接近,从而在无真实干净帧时也能获得学习信号。

这种设计相当于使用视频中其他帧信息生成伪标签,使网络在真实雨景下也能获得监督信号,提高了模型对真实雨滴的泛化能力。

实验评估

作者在多个合成和真实雨天视频数据集上评估了VDMamba的性能。

表一:RainSynLight25上各种视频降噪方法的定量结果
图五:RainSynLight25合成数据集上现有降噪方法的定性比较

合成数据集(如RainSynLight25、RainSynComplex25)上的定量结果表明,VDMamba取得了最高的PSNR/SSIM值,例如在RainSynLight25达到37.53dB/0.9812,优于先前的方法。这表明该模型在去雨质量上具有明显优势。

表二:RVDT上的目标检测和跟踪结果

真实数据集(如NTURain,以及本文新收集的含标注的雨天检测跟踪集RVDT)上的结果也显示,VDMamba在视觉效果上能有效去除多尺度雨滴,且比现有方法更鲁棒。

图六:NTURain[7]和RVDT对现实世界降雨视频现有降噪方法的定性比较

此外,VDMamba在效率方面表现优秀:模型规模紧凑、推理速度可达实时级别,综合了性能与速度的平衡。在下游任务评估中,发现去雨预处理显著提升了检测与跟踪性能。

图七:RVDT数据集上在视频去雨后进行雨天场景目标检测与跟踪的结果

例如,在新构建的雨天视频检测追踪基准(RVDT)上,VDMamba输出的视频相比原始雨视频,目标检测的平均精度(mAP)提高了数个百分点,跟踪指标(如MOTA、IDF1)也提升明显(大约数个百分点)。这证明了VDMamba的去雨结果能有效增强下游视觉算法的鲁棒性和精度。

总结

VDMamba通过双分支时空SSM框架、动态堆叠滤波器和半监督中值损失等技术创新,高效解决了真实雨天视频去雨难题。大量实验表明,本方法在定量指标、视觉质量和下游任务支持能力等方面均优于现有方案。

参考文献

Sun 等. Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video Deraining. CVPR 2025.Wu 等. RainMamba: Enhanced Locality Learning with State Space Models for Video Deraining. ACM MM 2024. (雨水对检测/分割等任务性能影响的讨论)

最新 AI 进展报道请联系:amos@52cv.net

END

欢迎加入「视频去雨交流群👇备注:去雨

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VDMamba 视频去雨 状态空间模型 半监督学习
相关文章