2025-03-25 19:51 日本
关注公众号,发现CV技术之美
本文将为大家介绍DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding
(DynamicVis:用于遥感图像理解的高效通用视觉基础模型),代码已开源。
1.导读
该论文提出了一种名为DynamicVis的动态视觉感知基础模型,旨在解决现有遥感影像处理方法在跨任务泛化性、高分辨率数据处理效率及大场景语义理解方面的局限性。
针对遥感图像中关键目标占比小、分布稀疏且传统模型难以高效处理长序列二维标记(约10万)的挑战,该模型借鉴人类视觉选择性注意力机制,设计了基于动态区域感知的主干网络,通过选择性状态空间模型平衡局部细节与全局上下文,实现大规模数据的高效编码(处理2048×2048像素图像仅需97毫秒,消耗GPU内存为ViT的3%)。
结合多实例元嵌入学习范式,利用百万级区域标注数据集提升跨任务知识迁移能力,在场景分类、目标检测、道路分割等九类遥感任务中表现优于Transformer基线,尤其在多粒度视觉分析任务中达到最优性能。代码已开源。
2.引言
遥感技术的快速发展显著提升了卫星影像的时空分辨率,推动了高分辨率地球观测能力的进步,并为土地利用分类、城市规划及社会经济分析等应用提供了关键支持。
然而,现有基础模型在遥感领域仍面临显著挑战:
首先,当前跨任务基础模型稀缺,且大多基于低分辨率、小尺寸图像训练,导致高分辨率数据中的细节信息未被充分利用,引发知识退化及细粒度任务(如小目标检测)性能下降。例如,RSPrompter、Grounding DINO等模型虽在特定任务中表现优异,但通用性受限;RingMo和SpectralGPT虽通过自监督优化模型,却受限于分辨率扩展能力。
其次,高分辨率影像处理面临巨大计算负担,Transformer架构的自注意力机制因其二次计算复杂度,对硬件资源要求极高。现有稀疏令牌压缩方法(如视觉令牌聚合与重采样)虽可缓解计算压力,但存在信息过度压缩、并行性不足等问题。此外,基于ViT的模型将图像块压缩至通道维度(如16×16像素),导致小目标细节丢失,难以满足遥感任务对多层次特征(场景级语义、目标级判别、像素级精度)的联合需求。
为解决上述问题,研究者提出DynamicVis动态视觉感知基础模型,其核心创新包括:
实验表明,DynamicVis在九项下游任务中均展现出卓越性能,计算开销显著降低。该研究贡献在于提出首个兼顾高分辨率细节与计算效率的遥感基础模型架构,探索了弱监督预训练范式,并为分层特征编码提供了新思路。
3.方法
该研究提出了一种面向遥感图像解译的动态视觉感知基础模型DynamicVis,其核心架构遵循预训练-微调范式,包含动态区域感知SSM主干网络、元嵌入预训练框架及模块化任务解码器三部分。
动态区域感知SSM主干网络
模型采用多尺度特征金字塔结构,由四阶段SSM特征提取器与FPN构成。特征提取器通过渐进式小步长下采样保留细粒度信息,每个阶段包含三个核心模块:
元嵌入多实例预训练
基于fMoW数据集区域级标注,设计多实例对比学习框架:
下游任务迁移机制
设计层次化任务解码器适配多粒度需求:
4.实验
该研究实验部分系统评估了DynamicVis基础模型在多粒度遥感视觉任务中的性能,涵盖区域级、实例级和像素级任务。
预训练配置
场景分类
小目标检测
实例分割
语义分割
变化检测
区域分类
图像检索
5.结论
该论文提出了名为DynamicVis的动态遥感图像视觉感知基础模型。该框架受人类视觉系统选择性注意力机制启发,通过自适应聚焦显著区域来捕获通用视觉语义表征。
其核心架构整合了基于状态空间模型(SSMs)的动态区域感知主干网络,在局部细节提取与全局上下文建模之间实现最优平衡,从而以高效计算和可扩展方式编码高分辨率地理空间数据。模型采用元嵌入多实例学习(MIL)范式进行训练,数据集包含数百万区域级标注。
经过九项关键遥感任务的系统性评估,DynamicVis展现出卓越的泛化能力:在稀疏目标解译任务(如小目标检测和变化分析)中,其性能与基于ViT的大型模型相当,但计算需求显著降低——处理2048×2048像素图像时仅需97毫秒延迟(相当于ViT的6%)和833MB显存(相当于ViT的3%)。
严格的基准测试表明,该框架在不同粒度需求的任务中均优于基于Transformer的方法,尤其在需要分层视觉线索整合的任务中创造了新的最先进水平(SOTA),验证了其高效处理多层级视觉特征的综合能力。
最新 AI 进展报道
请联系:amos@52cv.net
END
欢迎加入「遥感检测」交流群👇备注: