【导读】
在高空无人机拍摄、海事搜救、自动驾驶等场景中,识别那些小到只有十几个像素的目标(如车辆、船只、路牌),一直是目标检测的难点。FPN虽然在多尺度特征融合方面大放异彩,但面对“微小目标”,它并没有真正下功夫。 今天这篇文章,带你认识一个全新结构——HS-FPN,它专为小目标而生,通过频率域感知与空间依赖学习,大幅提升微小目标的检测能力。
在视觉任务中,微小目标天然处于劣势:它们信息量少、容易被背景淹没、还难以获得网络的关注。尤其是在多尺度特征融合中,小目标的特征很容易被“冲淡”。这正是许多经典检测结构难以胜任这类任务的根源。
作为最广泛使用的多尺度特征融合结构之一,FPN在面对微小目标时,存在以下三个核心问题:
传统FPN“看不清”的三个问题
- 信息缺失: 小目标在特征图中占比极低,多次下采样导致信息丢失严重;关注不足: FPN没有专门为小目标设计注意机制,容易被背景干扰;空间感知差: 简单地将上下层特征相加,会出现像素错位,导致特征对齐失败。
技术核心:从频率和空间两端同时“打磨”小目标特征
在 HS-FPN 中,两个模块起到了至关重要的作用,分别对应两个关键设计目标:增强小目标的特征表达力,提升小目标的空间感知能力。
- 高频感知模块(HFP):从频率域聚焦“有用特征”
小目标的信息本就有限,而FPN中的卷积、下采样操作往往让这些细节进一步被“稀释”。为此,作者设计了高频感知模块(HFP),直接从频率域提取信息:
- 高通滤波器设计: 采用 DCT(离散余弦变换)+ 高通滤波器方式,屏蔽掉低频背景区域,强化边缘和细节区域,从而使小目标的响应更加突出。
- 双分支注意力机制:
通道路径(Channel Path): 通过GAP与GMP双池化提取高频特征通道的响应强度,生成通道加权因子,用于放大包含小目标的特征通道。
空间路径(Spatial Path): 使用1×1卷积生成空间注意力mask,引导网络关注图像中可能存在小目标的空间区域。
结果是:相比于原始特征图,HFP输出的特征图更具辨识度。
- 空间依赖感知模块(SDP):解决上采样对齐问题
为了解决FPN中“上下特征图简单相加”带来的像素错位问题,作者引入像素级跨层注意力机——SDP(Spatial Dependency Perception):
- 将上层特征(Pi+1)上采样后,与当前层特征(Ci)进行逐像素的交叉注意力计算;不同于ViT的块级注意力,SDP以“像素”为单位构建依赖矩阵,计算方式如 Figure 6 所示;得到的空间关系权重用于调整下层特征,强化语义一致性和空间对齐效果。
最终形成的特征图在细节上更加完整,也抑制了一部分高频噪声。
- 整体结构设计
HS-FPN结构基本沿用了FPN的 top-down 架构,但在每个横向连接中(即 lateral connection),加入了 HFP 和 SDP 两个模块:
- HFP用于所有层(P2–P5),增强小目标特征;SDP仅用于P2–P4三个层级,避免在高层低分辨率特征中引入冗余开销。
通过这种方式,HS-FPN做到了兼容性强,可直接替换现有模型中的FPN模块,无需大规模改动。
在实际使用中,开发者可以借助 Coovally 平台, 通过 SSH 协议使用熟悉的工具(如 VS Code、Cursor、WindTerm 等)远程连接 Coovally 云端算力资源,进行实时代码开发与调试,享受本地级操作体验的同时,充分利用平台提供的高性能 GPU 加速训练过程。
实验详情:能提升多少?哪些模型收益最大?
论文通过AI-TOD与自建的DOTAmini10两个小目标检测数据集,验证了HS-FPN在不同模型下的性能提升情况。
- 消融实验:模块有效性验证
作者在 Cascade R-CNN + ResNet50 的基础上,逐步添加模块进行对比:
图像可视化(Figure 7)也印证了:加入HFP后特征更清晰;加入SDP后,细节对齐更好,误检和漏检显著减少。
- 高频滤波器参数 α 的影响
α 控制滤波器保留的频率范围。实验表明:当 α = 0.25 时,性能最佳。
- α=0(不滤波) → 保留大量背景,目标淹没;α=0.25 → 低频干扰去除,小目标特征清晰;α=1.0 → 高频过多,目标反而消失。
这验证了论文提出的核心动机:适度地去除低频背景,能显著提升目标对比度和可检测性。
- 主结果汇总:HS-FPN几乎“通杀”各类检测模型
在 AI-TOD 数据集上:
在 DOTAmini10 上:
- Cascade R-CNN:小目标检测 APt 从 18.1 → 22.2RetinaNet、Faster R-CNN 等轻量模型也有 1–2 点提升
- 计算量评估:开销可控
虽然 HS-FPN 带来了一定的计算提升,但仍在可接受范围,且相比精度提升,性价比非常高。
同时,Coovally平台内置400+精选开源数据集,涵盖分类、检测、分割等任务,支持即调即用、无缝对接训练流程, 让你从繁琐的数据准备与环境配置中解放出来,专注算法与效果本身。
在平台上,你可以一键调用YOLO、Transformer等热门模型,快速对模型进行训练与验证。平台支持零代码配置:
- 免环境配置:直接调用预置框架(PyTorch、TensorFlow等);免复杂参数调整:内置自动化训练流程,小白也能轻松上手;高性能算力支持:分布式训练加速,快速产出可用模型;无缝部署:训练完成的模型可直接导出,或通过API接入业务系统。
!!点击下方链接,立即体验Coovally!!
平台链接: www.coovally.com
为了帮助用户更高效地掌握模型训练全过程,Coovally平台还可以直接查看“实验日志” 。在每一个实验详情页中,用户都可以实时查看训练日志、输出信息或报错内容,无需额外配置、无缝集成于工作流中!
不论是模型调参、错误排查,还是过程复现,这项新功能都将大幅提升你的实验效率。
总结:真正为“小目标”设计的FPN升级版
HS-FPN并没有抛弃FPN的多尺度设计,而是在此基础上,从频率域和空间关系两个关键点上对其进行增强,是一项具有可嵌入性强、提升效果显著的设计。
- 引入高频感知(HFP)→ 提升特征表达力引入空间依赖感知(SDP)→ 增强上下层语义对齐不更换主干网络 → 只改进FPN部分,适配性强