北京理工大学与东京大学等机构发表重磅研究《Spatial Frequency Modulation for Semantic Segmentation》,提出创新的空间频率调制(SFM)方法。该方法通过在下采样前对高频特征进行“调制”,并在上采样时进行“解调”,有效解决了深度学习模型在处理纹理细节和边缘信息时因下采样导致的混叠和失真问题。SFM能够显著保留图像细节,并已成功应用于语义分割、图像分类、对抗鲁棒性、实例分割和全景分割等多个视觉任务,展现了其在提升视觉任务性能方面的通用性和巨大潜力。该研究的代码已开源。
✨ **核心问题与创新视角:** 深度学习模型在下采样过程中常因混叠效应导致高频空间信息(如纹理、边缘)丢失,影响语义分割等任务的精度。本研究提出空间频率调制(SFM)框架,从信号处理的频率域角度出发,通过“调制-解调”机制,从根本上解决高频信息在下采样过程中的损失问题,这一视角具有开创性。
💡 **“调制-解调”机制详解:** SFM的核心在于其两个模块:自适应重采样(ARS)和多尺度自适应上采样(MSAU)。ARS模块通过密集采样高频区域并放大信号,将高频特征“调制”到较低频率,使其能安全通过下采样层。MSAU模块则通过非均匀上采样和多尺度信息交互,将调制后的低频特征“解调”回高频信息,从而恢复图像细节。
🚀 **通用性与性能提升:** SFM方法具有极强的通用性,其模块可无缝集成到CNN和Transformer等主流深度学习架构中。实验证明,SFM不仅在语义分割任务上取得了显著性能提升,还成功扩展到图像分类、对抗鲁棒性、实例分割和全景分割等多个任务,有效保留了图像细节,缓解了混叠效应,展示了其广泛的适用性和潜力。
📂 **研究成果与代码开源:** 该研究已被TPAMI 2025接收,论文地址和项目地址(代码已开源)均已公布。研究人员通过特征可视化和多任务扩展实验,全面验证了SFM的有效性,证明了其在提升各类视觉任务性能方面的巨大价值,为后续研究和应用提供了坚实基础。
CV君 2025-07-20 18:04 江苏
代码将开源

本篇将探讨一篇来自北京理工大学、东京大学等机构的重磅研究——《Spatial Frequency Modulation for Semantic Segmentation》。这篇论文已被TPAMI 2025接收,它提出了一种新颖的空间频率调制(SFM)方法,旨在解决深度学习模型在语义分割等任务中,因下采样操作导致高频空间信息(如纹理细节)丢失的问题。SFM通过在下采样前对高频特征进行“调制”,并在上采样时进行“解调”,有效缓解了混叠效应,成功保留了图像细节,为提升各类视觉任务的性能提供了通用且有效的解决方案。
论文标题:Spatial Frequency Modulation for Semantic Segmentation作者:Linwei Chen, Ying Fu, Lin Gu, Dezhi Zheng, Jifeng Dai机构:北京理工大学;日本东京大学;北京航空航天大学;清华大学论文地址:https://arxiv.org/pdf/2507.11893v1项目地址:https://github.com/Linwei-Chen/SFM录用期刊:TPAMI 2025研究背景与意义在计算机视觉领域,语义分割、图像分类、实例分割等任务的准确性,在很大程度上依赖于对图像中高频空间信息的有效处理,例如精细的纹理细节、物体边缘等。然而,当前的深度学习模型,无论是卷积神经网络(CNN)还是Transformer,在处理这些高频信息时都面临一个普遍的挑战:下采样操作(如步幅卷积)会导致高频分量受到混叠(aliasing)或失真(distortion)的影响。
根据奈奎斯特-香农采样定理,当信号的采样频率低于其最高频率的两倍时,就会发生混叠,导致高频信息被错误地解释为低频信息,从而造成细节丢失和图像质量下降。这对于需要像素级精度的语义分割任务来说,是一个致命的问题。现有方法通常通过增加网络深度、使用空洞卷积或多尺度特征融合等方式来缓解,但都未能从根本上解决高频信息在下采样过程中的固有损失问题。
本研究的意义在于:
提出了全新的视角:从信号处理的频率域角度出发,通过“调制-解调”的创新机制,从根本上解决了高频信息在下采样中的损失问题。通用性强:SFM的两个模块可以无缝集成到各种主流的深度学习架构中,包括CNN和Transformer,展现了广泛的适用性。性能提升显著:不仅在语义分割任务上取得了突破,还成功扩展到图像分类、对抗鲁棒性、实例分割和全景分割等多个任务,证明了其在提升视觉任务性能方面的巨大潜力。主要研究内容与方法该论文的核心贡献在于其提出的空间频率调制(SFM)方法,它包含两个关键模块:自适应重采样(ARS)用于调制,以及多尺度自适应上采样(MSAU)用于解调。
1. 空间频率调制(SFM)的核心思想SFM的核心理念是:在下采样之前,将图像中的高频特征“调制”到较低的频率,使其能够安全地通过下采样层而不发生混叠或失真。当需要恢复原始分辨率时,再通过“解调”操作将这些低频特征恢复为高频信息。这就像给高频信号穿上了一层“保护衣”,使其能够顺利通过“狭窄”的下采样通道。
2. 自适应重采样(Adaptive Resampling, ARS)——调制模块
ARS是SFM的调制模块,它通过以下方式实现高频特征的频率降低:
密集采样高频区域:ARS设计了一个轻量级的附加模块,能够密集采样图像中的高频区域。放大信号:通过密集采样,可以有效地“放大”高频信号,根据信号处理中的频率缩放特性(Frequency Scaling Property),信号的放大(在空间域)会导致其频率的降低(在频率域)。这样,原本容易混叠的高频信息就被转换成了较低的频率,从而能够安全地通过后续的下采样层。3. 多尺度自适应上采样(Multi-Scale Adaptive Upsampling, MSAU)——解调模块
MSAU是SFM的解调模块,它负责将经过调制(现在处于较低频率)的特征恢复为原始的高频信息:
非均匀上采样:MSAU通过非均匀上采样的方式来恢复高频信息。这意味着它不会简单地进行均匀插值,而是根据特征的特性进行自适应的恢复。信息交互:该模块通过显式利用多尺度密集和稀疏重采样区域之间的信息交互,进一步提升了分割效果。这种交互有助于更精确地重建细节,避免了传统上采样可能带来的模糊。实验设计与结果分析研究人员通过特征可视化和多任务扩展实验,全面验证了SFM的有效性。
特征可视化与分析:实验结果证实,SFM方法有效地缓解了混叠效应。在经过下采样和解调后,图像的细节信息得到了成功保留,这在视觉上表现为更清晰的边缘和更丰富的纹理。


广泛适用性验证:SFM的有效性不仅限于语义分割任务。研究人员将其扩展到:图像分类:提升了分类模型的性能。对抗鲁棒性:增强了模型对抗对抗性攻击的能力。实例分割:在实例级分割任务中取得了更好的效果。全景分割:在同时进行语义分割和实例分割的全景分割任务中也表现出色。

这表明SFM在处理高频信息方面具有通用性和有效性,对于提升各种视觉任务的性能具有重要意义。
结论与未来工作该研究成功地提出了一种开创性的空间频率调制框架SFM,从根本上解决了深度学习模型在下采样过程中高频信息丢失的难题。通过“调制-解调”的巧妙设计,SFM不仅有效缓解了混叠效应,还成功保留了图像细节,并在多个视觉任务中展现出卓越的性能和广泛的适用性。
这项工作为未来深度学习模型的设计提供了一个全新的思路,尤其是在需要高精度细节处理的场景中。未来工作可以进一步探索更复杂的调制和解调策略,或者将SFM应用于其他信号处理领域,以期在更广泛的范围内发挥其潜力。
了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net