掘金 人工智能 05月30日 18:03
CVPR 2025 Oral | 中科院、中山大学等提出真实世界去雨模型VDMamba,效果好、速度快、兼顾增强下游视觉任务
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了中科院、中山大学等机构提出的CVPR 2025 Oral论文VDMamba,该模型针对真实世界视频去雨问题,通过时空状态空间模型和动态堆叠滤波器等技术,在去雨效果、速度以及下游视觉任务性能方面均表现出色。VDMamba采用双分支结构,分别提取空间和时间特征,并利用动态堆叠滤波器自适应地融合多帧信息。此外,模型还引入半监督学习机制,利用中值滤波生成伪标签,提高泛化能力。实验结果表明,VDMamba在合成和真实数据集上均取得了优异的性能,并在目标检测和跟踪等下游任务中表现出显著的提升。

☔️VDMamba模型采用双分支时空状态空间结构,通过空间分支(S3ML)提取每帧的空间特征,时间分支(TSML)融合多帧间的时序依赖,同时强化帧内细节和帧间信息,从而更准确稳定地去除雨水。

🔄动态堆叠滤波器(DSF)是VDMamba的关键创新之一,它通过可学习的机制,在像素层面自适应地从邻帧对齐特征中选择合适的“统计滤波器”输出,动态模拟最小、中值、均值、最大等滤波效果,从而同时去除降雨、抑制噪声并填补遗漏像素。

🎯VDMamba引入了半监督学习机制,利用雨在图像上呈现空间稀疏的先验知识,通过中值滤波对齐多帧后,为每个像素计算其中值作为“伪净”目标,再通过中值堆叠损失约束网络输出与该伪净值接近,从而在无真实干净帧时也能获得学习信号,提高模型对真实雨滴的泛化能力。

🚀实验结果表明,VDMamba在合成数据集RainSynLight25上达到了37.53dB/0.9812的PSNR/SSIM值,优于先前方法,且在真实数据集NTURain和RVDT上也表现出鲁棒性,同时模型规模紧凑、推理速度快,可达实时级别,并且能有效增强下游视觉算法的鲁棒性和精度,例如在RVDT数据集上,目标检测的平均精度(mAP)提高了数个百分点,跟踪指标也提升明显。

前言 本篇分享 CVPR 2025 Oral 论文Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video Deraining,中科院、中山大学等提出真实世界去雨模型VDMamba,效果好、速度快、兼顾增强下游视觉任务。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

本文转载自我爱计算机视觉

仅用于学术分享,若侵权请联系删除

CV方向的准研究生们,未来三年如何度过?

招聘高光谱图像、语义分割、diffusion等方向论文指导老师

雨天视频恢复任务背景与挑战

在户外视觉系统中,雨条纹和雨滴会显著降低图像/视频的质量,并损害后续视觉任务的性能。

例如,在恶劣天气下拍摄的视频中,雨水干扰往往导致目标检测和跟踪精度下降。因此,有效去除雨条纹对于提高自动驾驶、监控等场景中算法的鲁棒性至关重要。

然而,现有基于深度学习的方法大多依赖合成雨-清数据对进行训练,难以有效泛化到真实世界的雨水效应。此外,如何在去雨的同时兼顾实时性和其他下游任务性能,也是一个重要挑战。

VDMamba模型核心技术

图四:VDMamba架构图

本文提出的VDMamba模型通过时空状态空间(State-Space Model,SSM)框架来处理视频去雨任务,主要创新包括双分支时空建模、动态堆叠滤波器(DSF)和半监督中值堆叠损失。

VDMamba采用双分支空间-时间状态空间结构:一方面通过空间分支(Spatial SSM Layer,S3ML)提取每帧的空间特征,另一方面通过时间分支(Temporal SSM Layer,TSML)融合多帧间的时序依赖,从而同时强化帧内细节和帧间信息。

具体来说,模型首先利用无雨光流估计对邻帧进行对齐,然后在空间分支上逐像素地抽取和细化图像特征,在时间分支上使用状态空间模块将多帧信息递归融合,进一步去除动态雨纹。该双分支结构充分利用了视频数据的空间冗余和时序相关性,使去雨过程更加准确稳定。

动态堆叠滤波器(DSF)

VDMamba提出了一种动态堆叠滤波器用于多帧特征融合。传统的固定卷积难以区分不同像素的时序特征,而基于统计的多帧融合方法(如对齐像素的最大值、最小值、中值等滤波)可有效去除雨条纹。DSF通过可学习的机制,在像素层面自适应地从邻帧对齐特征中选择合适的“统计滤波器”输出。

换言之,DSF能够动态模拟最小、中值、均值、最大等滤波效果,对每个像素进行最佳的时序聚合,从而同时去除降雨、抑制噪声并填补遗漏像素。该设计增强了帧间信息的融合能力,使模型可以在像素级别上灵活地融合多帧信息。

半监督中值堆叠损失

考虑到真实场景中往往缺乏干净标注,VDMamba引入了半监督学习机制。利用雨在图像上呈现空间稀疏的先验,中值滤波能有效去除绝大多数雨点。

具体做法是:对齐多帧后,对每个像素计算其所在像素堆的中值作为“伪净”目标。然后通过中值堆叠损失约束网络输出与该伪净值接近,从而在无真实干净帧时也能获得学习信号。

这种设计相当于使用视频中其他帧信息生成伪标签,使网络在真实雨景下也能获得监督信号,提高了模型对真实雨滴的泛化能力。

实验评估

作者在多个合成和真实雨天视频数据集上评估了VDMamba的性能。

表一:RainSynLight25上各种视频降噪方法的定量结果

图五:RainSynLight25合成数据集上现有降噪方法的定性比较

合成数据集(如RainSynLight25、RainSynComplex25)上的定量结果表明,VDMamba取得了最高的PSNR/SSIM值,例如在RainSynLight25达到37.53dB/0.9812,优于先前的方法。这表明该模型在去雨质量上具有明显优势。

表二:RVDT上的目标检测和跟踪结果

真实数据集(如NTURain,以及本文新收集的含标注的雨天检测跟踪集RVDT)上的结果也显示,VDMamba在视觉效果上能有效去除多尺度雨滴,且比现有方法更鲁棒。

图六:NTURain[7]和RVDT对现实世界降雨视频现有降噪方法的定性比较

此外,VDMamba在效率方面表现优秀:模型规模紧凑、推理速度可达实时级别,综合了性能与速度的平衡。在下游任务评估中,发现去雨预处理显著提升了检测与跟踪性能。

图七:RVDT数据集上在视频去雨后进行雨天场景目标检测与跟踪的结果

例如,在新构建的雨天视频检测追踪基准(RVDT)上,VDMamba输出的视频相比原始雨视频,目标检测的平均精度(mAP)提高了数个百分点,跟踪指标(如MOTA、IDF1)也提升明显(大约数个百分点)。这证明了VDMamba的去雨结果能有效增强下游视觉算法的鲁棒性和精度。

总结

VDMamba通过双分支时空SSM框架、动态堆叠滤波器和半监督中值损失等技术创新,高效解决了真实雨天视频去雨难题。大量实验表明,本方法在定量指标、视觉质量和下游任务支持能力等方面均优于现有方案。

参考文献

Sun 等. Semi-Supervised State-Space Model with Dynamic Stacking Filter for Real-World Video Deraining. CVPR 2025.
Wu 等. RainMamba: Enhanced Locality Learning with State Space Models for Video Deraining. ACM MM 2024. (雨水对检测/分割等任务性能影响的讨论)

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库,上千篇文章、专栏,CV所有资料都在这了

明年毕业,还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力,性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM:微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器!目标检测蒸馏学习新方法,浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习

听我说,Transformer它就是个支持向量机

HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题,即插即用真的很香

1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4

SAM-Med2D:打破自然图像与医学图像的领域鸿沟,医疗版 SAM 开源了!

GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR

Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星

CSUNet | 完美缝合Transformer和CNN,性能达到UNet家族的巅峰!

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VDMamba 视频去雨 状态空间模型 半监督学习
相关文章