2025-03-25 19:51 日本

关注公众号，发现CV技术之美

本文将为大家介绍DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding（DynamicVis：用于遥感图像理解的高效通用视觉基础模型），代码已开源。

论文标题：DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding

论文链接：https://arxiv.org/abs/2503.16426

代码链接：https://github.com/KyanChen/DynamicVis

1.导读

该论文提出了一种名为DynamicVis的动态视觉感知基础模型，旨在解决现有遥感影像处理方法在跨任务泛化性、高分辨率数据处理效率及大场景语义理解方面的局限性。

针对遥感图像中关键目标占比小、分布稀疏且传统模型难以高效处理长序列二维标记（约10万）的挑战，该模型借鉴人类视觉选择性注意力机制，设计了基于动态区域感知的主干网络，通过选择性状态空间模型平衡局部细节与全局上下文，实现大规模数据的高效编码（处理2048×2048像素图像仅需97毫秒，消耗GPU内存为ViT的3%）。

结合多实例元嵌入学习范式，利用百万级区域标注数据集提升跨任务知识迁移能力，在场景分类、目标检测、道路分割等九类遥感任务中表现优于Transformer基线，尤其在多粒度视觉分析任务中达到最优性能。代码已开源。

2.引言

遥感技术的快速发展显著提升了卫星影像的时空分辨率，推动了高分辨率地球观测能力的进步，并为土地利用分类、城市规划及社会经济分析等应用提供了关键支持。

然而，现有基础模型在遥感领域仍面临显著挑战：

首先，当前跨任务基础模型稀缺，且大多基于低分辨率、小尺寸图像训练，导致高分辨率数据中的细节信息未被充分利用，引发知识退化及细粒度任务（如小目标检测）性能下降。例如，RSPrompter、Grounding DINO等模型虽在特定任务中表现优异，但通用性受限；RingMo和SpectralGPT虽通过自监督优化模型，却受限于分辨率扩展能力。

其次，高分辨率影像处理面临巨大计算负担，Transformer架构的自注意力机制因其二次计算复杂度，对硬件资源要求极高。现有稀疏令牌压缩方法（如视觉令牌聚合与重采样）虽可缓解计算压力，但存在信息过度压缩、并行性不足等问题。此外，基于ViT的模型将图像块压缩至通道维度（如16×16像素），导致小目标细节丢失，难以满足遥感任务对多层次特征（场景级语义、目标级判别、像素级精度）的联合需求。

为解决上述问题，研究者提出DynamicVis动态视觉感知基础模型，其核心创新包括：

受生物选择性注意力机制启发，通过动态令牌路由选择性地增强任务相关区域的特征，同时保留空间语义完整性，避免全局计算；

将下采样核尺寸缩小至4×4以减少细节损失，并引入选择性状态空间模型（SSMs）对动态筛选的令牌进行高效长序列建模，平衡全局场景理解与局部特征提取；

设计基于元嵌入的多实例学习框架，利用弱区域标注的百万级fMoW数据集进行预训练，实现跨任务地理知识迁移。

实验表明，DynamicVis在九项下游任务中均展现出卓越性能，计算开销显著降低。该研究贡献在于提出首个兼顾高分辨率细节与计算效率的遥感基础模型架构，探索了弱监督预训练范式，并为分层特征编码提供了新思路。