前言 本篇分享 CVPR 2025 Oral 论文
Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video Deraining
,中科院、中山大学等提出真实世界去雨模型VDMamba,效果好、速度快、兼顾增强下游视觉任务。
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。
本文转载自我爱计算机视觉
仅用于学术分享,若侵权请联系删除
招聘高光谱图像、语义分割、diffusion等方向论文指导老师
雨天视频恢复任务背景与挑战
在户外视觉系统中,雨条纹和雨滴会显著降低图像/视频的质量,并损害后续视觉任务的性能。
例如,在恶劣天气下拍摄的视频中,雨水干扰往往导致目标检测和跟踪精度下降。因此,有效去除雨条纹对于提高自动驾驶、监控等场景中算法的鲁棒性至关重要。
然而,现有基于深度学习的方法大多依赖合成雨-清数据对进行训练,难以有效泛化到真实世界的雨水效应。此外,如何在去雨的同时兼顾实时性和其他下游任务性能,也是一个重要挑战。
VDMamba模型核心技术
图四:VDMamba架构图
本文提出的VDMamba模型通过时空状态空间(State-Space Model,SSM)框架来处理视频去雨任务,主要创新包括双分支时空建模、动态堆叠滤波器(DSF)和半监督中值堆叠损失。
VDMamba采用双分支空间-时间状态空间结构:一方面通过空间分支(Spatial SSM Layer,S3ML)提取每帧的空间特征,另一方面通过时间分支(Temporal SSM Layer,TSML)融合多帧间的时序依赖,从而同时强化帧内细节和帧间信息。
具体来说,模型首先利用无雨光流估计对邻帧进行对齐,然后在空间分支上逐像素地抽取和细化图像特征,在时间分支上使用状态空间模块将多帧信息递归融合,进一步去除动态雨纹。该双分支结构充分利用了视频数据的空间冗余和时序相关性,使去雨过程更加准确稳定。
- 空间状态空间模型层 (S3ML):针对单帧图像,使用基于SSM的卷积结构提取空间特征,强化对细节与纹理的恢复。时间状态空间模型层 (TSML):针对帧序列,引入线性复杂度的状态空间模型,有效建模长时程依赖,将前后帧信息递归融合,提升雨滴去除的连贯性。
动态堆叠滤波器(DSF)
VDMamba提出了一种动态堆叠滤波器用于多帧特征融合。传统的固定卷积难以区分不同像素的时序特征,而基于统计的多帧融合方法(如对齐像素的最大值、最小值、中值等滤波)可有效去除雨条纹。DSF通过可学习的机制,在像素层面自适应地从邻帧对齐特征中选择合适的“统计滤波器”输出。
换言之,DSF能够动态模拟最小、中值、均值、最大等滤波效果,对每个像素进行最佳的时序聚合,从而同时去除降雨、抑制噪声并填补遗漏像素。该设计增强了帧间信息的融合能力,使模型可以在像素级别上灵活地融合多帧信息。
半监督中值堆叠损失
考虑到真实场景中往往缺乏干净标注,VDMamba引入了半监督学习机制。利用雨在图像上呈现空间稀疏的先验,中值滤波能有效去除绝大多数雨点。
具体做法是:对齐多帧后,对每个像素计算其所在像素堆的中值作为“伪净”目标。然后通过中值堆叠损失约束网络输出与该伪净值接近,从而在无真实干净帧时也能获得学习信号。
这种设计相当于使用视频中其他帧信息生成伪标签,使网络在真实雨景下也能获得监督信号,提高了模型对真实雨滴的泛化能力。
实验评估
作者在多个合成和真实雨天视频数据集上评估了VDMamba的性能。
表一:RainSynLight25上各种视频降噪方法的定量结果
图五:RainSynLight25合成数据集上现有降噪方法的定性比较
合成数据集(如RainSynLight25、RainSynComplex25)上的定量结果表明,VDMamba取得了最高的PSNR/SSIM值,例如在RainSynLight25达到37.53dB/0.9812,优于先前的方法。这表明该模型在去雨质量上具有明显优势。
表二:RVDT上的目标检测和跟踪结果
真实数据集(如NTURain,以及本文新收集的含标注的雨天检测跟踪集RVDT)上的结果也显示,VDMamba在视觉效果上能有效去除多尺度雨滴,且比现有方法更鲁棒。
图六:NTURain[7]和RVDT对现实世界降雨视频现有降噪方法的定性比较
此外,VDMamba在效率方面表现优秀:模型规模紧凑、推理速度可达实时级别,综合了性能与速度的平衡。在下游任务评估中,发现去雨预处理显著提升了检测与跟踪性能。
图七:RVDT数据集上在视频去雨后进行雨天场景目标检测与跟踪的结果
例如,在新构建的雨天视频检测追踪基准(RVDT)上,VDMamba输出的视频相比原始雨视频,目标检测的平均精度(mAP)提高了数个百分点,跟踪指标(如MOTA、IDF1)也提升明显(大约数个百分点)。这证明了VDMamba的去雨结果能有效增强下游视觉算法的鲁棒性和精度。
总结
VDMamba通过双分支时空SSM框架、动态堆叠滤波器和半监督中值损失等技术创新,高效解决了真实雨天视频去雨难题。大量实验表明,本方法在定量指标、视觉质量和下游任务支持能力等方面均优于现有方案。
参考文献
Sun 等. Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video Deraining. CVPR 2025.
Wu 等. RainMamba: Enhanced Locality Learning with State Space Models for Video Deraining. ACM MM 2024. (雨水对检测/分割等任务性能影响的讨论)
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。
【技术文档】《从零搭建pytorch模型教程》122页PDF下载
QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。
其它文章
LSKA注意力 | 重新思考和设计大卷积核注意力,性能优于ConvNeXt、SWin、RepLKNet以及VAN
CVPR 2023 | TinyMIM:微软亚洲研究院用知识蒸馏改进小型ViT
ICCV2023|涨点神器!目标检测蒸馏学习新方法,浙大、海康威视等提出
ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习
HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法
南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题,即插即用真的很香
1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4
SAM-Med2D:打破自然图像与医学图像的领域鸿沟,医疗版 SAM 开源了!
GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR
Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星
CSUNet | 完美缝合Transformer和CNN,性能达到UNet家族的巅峰!