CVPR 2025 Oral | 中科院、中山大学等提出真实世界去雨模型VDMamba，效果好、速度快、兼顾增强下游视觉任务

前言本篇分享 CVPR 2025 Oral 论文Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video Deraining，中科院、中山大学等提出真实世界去雨模型VDMamba，效果好、速度快、兼顾增强下游视觉任务。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

本文转载自我爱计算机视觉

仅用于学术分享，若侵权请联系删除

CV方向的准研究生们，未来三年如何度过？

招聘高光谱图像、语义分割、diffusion等方向论文指导老师

arxiv.org/pdf/2505.16…

雨天视频恢复任务背景与挑战

在户外视觉系统中，雨条纹和雨滴会显著降低图像/视频的质量，并损害后续视觉任务的性能。

例如，在恶劣天气下拍摄的视频中，雨水干扰往往导致目标检测和跟踪精度下降。因此，有效去除雨条纹对于提高自动驾驶、监控等场景中算法的鲁棒性至关重要。

然而，现有基于深度学习的方法大多依赖合成雨-清数据对进行训练，难以有效泛化到真实世界的雨水效应。此外，如何在去雨的同时兼顾实时性和其他下游任务性能，也是一个重要挑战。

VDMamba模型核心技术

图四：VDMamba架构图

本文提出的VDMamba模型通过时空状态空间（State-Space Model，SSM）框架来处理视频去雨任务，主要创新包括双分支时空建模、动态堆叠滤波器（DSF）和半监督中值堆叠损失。

VDMamba采用双分支空间-时间状态空间结构：一方面通过空间分支（Spatial SSM Layer，S3ML）提取每帧的空间特征，另一方面通过时间分支（Temporal SSM Layer，TSML）融合多帧间的时序依赖，从而同时强化帧内细节和帧间信息。

具体来说，模型首先利用无雨光流估计对邻帧进行对齐，然后在空间分支上逐像素地抽取和细化图像特征，在时间分支上使用状态空间模块将多帧信息递归融合，进一步去除动态雨纹。该双分支结构充分利用了视频数据的空间冗余和时序相关性，使去雨过程更加准确稳定。

空间状态空间模型层 (S3ML)

时间状态空间模型层 (TSML)

动态堆叠滤波器（DSF）

VDMamba提出了一种动态堆叠滤波器用于多帧特征融合。传统的固定卷积难以区分不同像素的时序特征，而基于统计的多帧融合方法（如对齐像素的最大值、最小值、中值等滤波）可有效去除雨条纹。DSF通过可学习的机制，在像素层面自适应地从邻帧对齐特征中选择合适的“统计滤波器”输出。

换言之，DSF能够动态模拟最小、中值、均值、最大等滤波效果，对每个像素进行最佳的时序聚合，从而同时去除降雨、抑制噪声并填补遗漏像素。该设计增强了帧间信息的融合能力，使模型可以在像素级别上灵活地融合多帧信息。

半监督中值堆叠损失

考虑到真实场景中往往缺乏干净标注，VDMamba引入了半监督学习机制。利用雨在图像上呈现空间稀疏的先验，中值滤波能有效去除绝大多数雨点。

具体做法是：对齐多帧后，对每个像素计算其所在像素堆的中值作为“伪净”目标。然后通过中值堆叠损失约束网络输出与该伪净值接近，从而在无真实干净帧时也能获得学习信号。

这种设计相当于使用视频中其他帧信息生成伪标签，使网络在真实雨景下也能获得监督信号，提高了模型对真实雨滴的泛化能力。

实验评估

作者在多个合成和真实雨天视频数据集上评估了VDMamba的性能。

表一：RainSynLight25上各种视频降噪方法的定量结果

图五：RainSynLight25合成数据集上现有降噪方法的定性比较

合成数据集（如RainSynLight25、RainSynComplex25）上的定量结果表明，VDMamba取得了最高的PSNR/SSIM值，例如在RainSynLight25达到37.53dB/0.9812，优于先前的方法。这表明该模型在去雨质量上具有明显优势。

表二：RVDT上的目标检测和跟踪结果

真实数据集（如NTURain，以及本文新收集的含标注的雨天检测跟踪集RVDT）上的结果也显示，VDMamba在视觉效果上能有效去除多尺度雨滴，且比现有方法更鲁棒。

图六：NTURain[7]和RVDT对现实世界降雨视频现有降噪方法的定性比较

此外，VDMamba在效率方面表现优秀：模型规模紧凑、推理速度可达实时级别，综合了性能与速度的平衡。在下游任务评估中，发现去雨预处理显著提升了检测与跟踪性能。

图七：RVDT数据集上在视频去雨后进行雨天场景目标检测与跟踪的结果

例如，在新构建的雨天视频检测追踪基准（RVDT）上，VDMamba输出的视频相比原始雨视频，目标检测的平均精度(mAP)提高了数个百分点，跟踪指标（如MOTA、IDF1）也提升明显（大约数个百分点）。这证明了VDMamba的去雨结果能有效增强下游视觉算法的鲁棒性和精度。

总结

VDMamba通过双分支时空SSM框架、动态堆叠滤波器和半监督中值损失等技术创新，高效解决了真实雨天视频去雨难题。大量实验表明，本方法在定量指标、视觉质量和下游任务支持能力等方面均优于现有方案。

参考文献

Sun 等. Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video Deraining. CVPR 2025.
Wu 等. RainMamba: Enhanced Locality Learning with State Space Models for Video Deraining. ACM MM 2024. (雨水对检测/分割等任务性能影响的讨论)

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群：470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库，上千篇文章、专栏，CV所有资料都在这了

明年毕业，还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力，性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM：微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器！目标检测蒸馏学习新方法，浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究：全时多模态基准与多交互特征学习

听我说，Transformer它就是个支持向量机