PW-FNet：告别复杂自注意力，小波与傅里叶变换打造轻快强效的图像恢复新基线

CV君 2025-07-23 17:35 江苏

在图像处理领域，如何让饱受风霜雨雪摧残的图片“重焕新生”，一直是学界和业界关注的焦点。近年来，基于Transformer的方法在图像恢复任务上大放异彩，但其庞大复杂的模型结构和高昂的计算成本，使其在需要实时响应的实际应用中显得“心有余而力不足”。

本文分享一篇来自北京航空航天大学和中国空间技术研究院的最新力作——《Global Modeling Matters: A Fast, Lightweight and Effective Baseline for Efficient Image Restoration》。该研究另辟蹊径，巧妙地融合了经典的小波变换和傅里叶变换，提出了一种名为金字塔小波-傅里叶网络（Pyramid Wavelet-Fourier Network, PW-FNet）的全新图像恢复基线。它不仅在去雨、去模糊、超分辨率等多种任务上超越了当前的SOTA（State-of-the-Art）方法，更以其极低的参数量、计算成本和推理时间，为高效图像恢复技术在真实世界的部署提供了极具吸引力的解决方案。

论文标题：Global Modeling Matters: A Fast, Lightweight and Effective Baseline for Efficient Image Restoration

作者：Xingyu Jiang, Ning Gao, Hongkun Dou, Xiuhui Zhang, Xiaoqing Zhong, Yue Deng, Hongjue Li

机构：北京航空航天大学；中国空间技术研究院

论文地址：https://arxiv.org/pdf/2507.13663v1

项目主页：https://github.com/deng-ai-lab/PW-FNet

研究背景与意义

图像恢复技术旨在修复因恶劣天气（如雨、雪、雾）、运动模糊、低光照等因素导致的图像质量下降问题。随着深度学习的发展，尤其是Transformer架构的引入，图像恢复的性能取得了长足的进步。Transformer强大的全局建模能力使其能够捕捉图像中的长距离依赖关系，从而实现更精细的修复。

然而，成也萧何，败也萧何。Transformer核心的自注意力（Self-Attention）机制，其计算复杂度与输入图像尺寸的平方成正比，这导致模型变得异常“笨重”。为了实现落地应用，许多研究工作开始探索简化自注意力的方法，例如采用通道自注意力（Channel Self-Attention）或引入状态空间模型（State Space Model, SSM）。但这些方法大多着眼于网络架构的“瘦身”，而忽略了图像恢复任务本身的内在特性。

本文的研究者们反其道而行之，他们认为，与其在现有框架上修修补补，不如回归信号处理的本源，寻找更高效的全局信息建模方式。他们的目光投向了两种经典且强大的数学工具：小波变换和傅里叶变换。

PW-FNet的核心方法

PW-FNet的设计哲学是“大道至简”，它通过两个关键设计，实现了高效与性能的完美平衡。

上图直观地展示了PW-FNet的整体架构。其核心创新可以概括为“外练小波，内修傅里叶”：

1. 块间（Inter-Block）层面：金字塔小波分解，实现多尺度多频带处理

PW-FNet没有采用传统的U-Net下采样结构，而是创造性地使用了基于金字塔小波的多输入多输出结构。在网络的不同阶段，输入图像被小波变换分解为不同尺度和不同频带的子图（一个低频分量和多个高频分量）。这种设计的好处是：

信息无损：与卷积下采样不同，小波变换是可逆的，保证了在多尺度处理过程中没有信息损失。

解耦频率：将图像分解到不同频带，使得网络可以针对性地处理不同频率的信息。例如，噪声和雨丝通常表现为高频信号，而图像的整体结构则由低频信号决定。

2. 块内（Intra-Block）层面：傅里叶变换替代自注意力，高效捕获全局信息

在每个处理模块（Block）内部，PW-FNet用傅里叶变换作为自注意力的有效替代品。根据卷积定理，空间域的卷积等价于频率域的乘积。傅里叶变换能够将整张图像的信息压缩到频域，通过简单的逐点相乘，即可实现全局信息的交互，其计算效率远高于自注意力机制。这使得PW-FNet在保持全局建模能力的同时，极大地降低了计算复杂度。

实验与结果分析

为了验证PW-FNet的“战斗力”，研究者们进行了一场“全能大比武”，涵盖了图像去雨、雨滴移除、图像超分辨率、运动去模糊、图像去雾、图像去雪以及水下/低光增强等多达8项主流图像恢复任务。

定量结果

实验结果令人印象深刻。在几乎所有的任务上，PW-FNet不仅在PSNR和SSIM等关键指标上超越了现有的SOTA方法，而且在模型效率上展现出碾压性的优势。

上表展示了四个综合降维数据集的定量结果：Rain200H[41]、Rain200L[41]、DDN数据[14]和DID数据[42]。与最先进的方法相比，PW-FNet-L在PSNR和SSIM方面在所有四个数据集上都达到了最佳性能。值得注意的是，与NeRD Rain[39]相比，该模型将参数大小减少到仅1/16，计算成本减少到1/5，但在Rain200H和Rain200L上的PSNR仍然比它高出0.5dB。同时，中型（PW-FNet-M）和小型（PW-FNet-S）变体仍然具有很强的竞争力，能够以更少的参数和更低的计算成本提供强大的性能。

定性结果

从恢复的视觉效果来看，PW-FNet能够生成更清晰、伪影更少的图像。无论是在去除密集的雨丝，还是在恢复模糊的细节方面，都表现出色。

消融研究

研究者通过消融实验证明了小波和傅里叶两个核心设计的有效性。移除任何一个模块都会导致性能的显著下降，这充分说明了“小波+傅里叶”这对组合的强大威力。

结论与展望

《Global Modeling Matters》这篇论文为高效图像恢复领域注入了一股清流。它证明了，在追求性能的道路上，不必一味地堆砌复杂的Transformer模块。通过回归经典，巧妙地运用小波变换和傅里叶变换，同样可以构建出一个快速、轻量且有效的全新基线PW-FNet。

这项研究的价值不仅在于提出了一个性能卓越的新模型，更在于它启发人们重新审视那些被“遗忘”的经典信号处理工具在深度学习时代所蕴含的巨大潜力。PW-FNet的出色表现，无疑为图像恢复技术在移动端、嵌入式设备等计算资源受限平台上的大规模部署铺平了道路。

了解最新 AI 进展，欢迎关注公众号
投稿寻求报道请发邮件：amos@52cv.net

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签