我爱计算机视觉 03月25日
告别计算瓶颈!DynamicVis革新遥感图像理解,2Kx2K图像处理仅需800MB显存
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DynamicVis 是一种新型的动态视觉感知基础模型,专为遥感图像理解设计。它通过模拟人类视觉的注意力机制,高效处理高分辨率遥感图像,解决了现有模型在跨任务泛化、高分辨率数据处理效率及大场景语义理解方面的局限性。该模型采用动态区域感知主干网络,结合多实例元嵌入学习范式,在场景分类、目标检测等多种遥感任务中表现优异,尤其擅长多粒度视觉分析。DynamicVis 在保证性能的同时,显著降低了计算开销,为遥感图像处理提供了新的解决方案。

👁️ DynamicVis 借鉴人类视觉的注意力机制,通过动态令牌路由选择性地增强任务相关区域的特征,同时保留空间语义完整性,从而提高效率。

🚀 该模型采用基于状态空间模型(SSMs)的动态区域感知主干网络,实现了局部细节提取与全局上下文建模的平衡,能够高效编码高分辨率地理空间数据。

💡 DynamicVis 结合元嵌入多实例学习框架,利用百万级区域标注数据集进行预训练,提升了跨任务地理知识迁移能力。

✅ 实验结果表明,DynamicVis 在场景分类、目标检测、道路分割等九类遥感任务中表现优于Transformer基线,尤其在多粒度视觉分析任务中达到最优性能。

2025-03-25 19:51 日本




关注公众号,发现CV技术之美




本文将为大家介绍DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding(DynamicVis:用于遥感图像理解的高效通用视觉基础模型),代码已开源。


1.导读

该论文提出了一种名为DynamicVis的动态视觉感知基础模型,旨在解决现有遥感影像处理方法在跨任务泛化性、高分辨率数据处理效率及大场景语义理解方面的局限性。

针对遥感图像中关键目标占比小、分布稀疏且传统模型难以高效处理长序列二维标记(约10万)的挑战,该模型借鉴人类视觉选择性注意力机制,设计了基于动态区域感知的主干网络,通过选择性状态空间模型平衡局部细节与全局上下文,实现大规模数据的高效编码(处理2048×2048像素图像仅需97毫秒,消耗GPU内存为ViT的3%)。

结合多实例元嵌入学习范式,利用百万级区域标注数据集提升跨任务知识迁移能力,在场景分类、目标检测、道路分割等九类遥感任务中表现优于Transformer基线,尤其在多粒度视觉分析任务中达到最优性能。代码已开源。


2.引言

遥感技术的快速发展显著提升了卫星影像的时空分辨率,推动了高分辨率地球观测能力的进步,并为土地利用分类、城市规划及社会经济分析等应用提供了关键支持。

然而,现有基础模型在遥感领域仍面临显著挑战:

首先,当前跨任务基础模型稀缺,且大多基于低分辨率、小尺寸图像训练,导致高分辨率数据中的细节信息未被充分利用,引发知识退化及细粒度任务(如小目标检测)性能下降。例如,RSPrompter、Grounding DINO等模型虽在特定任务中表现优异,但通用性受限;RingMo和SpectralGPT虽通过自监督优化模型,却受限于分辨率扩展能力。

其次,高分辨率影像处理面临巨大计算负担,Transformer架构的自注意力机制因其二次计算复杂度,对硬件资源要求极高。现有稀疏令牌压缩方法(如视觉令牌聚合与重采样)虽可缓解计算压力,但存在信息过度压缩、并行性不足等问题。此外,基于ViT的模型将图像块压缩至通道维度(如16×16像素),导致小目标细节丢失,难以满足遥感任务对多层次特征(场景级语义、目标级判别、像素级精度)的联合需求。

为解决上述问题,研究者提出DynamicVis动态视觉感知基础模型,其核心创新包括:

    受生物选择性注意力机制启发,通过动态令牌路由选择性地增强任务相关区域的特征,同时保留空间语义完整性,避免全局计算;
    将下采样核尺寸缩小至4×4以减少细节损失,并引入选择性状态空间模型(SSMs)对动态筛选的令牌进行高效长序列建模,平衡全局场景理解与局部特征提取;
    设计基于元嵌入的多实例学习框架,利用弱区域标注的百万级fMoW数据集进行预训练,实现跨任务地理知识迁移。

实验表明,DynamicVis在九项下游任务中均展现出卓越性能,计算开销显著降低。该研究贡献在于提出首个兼顾高分辨率细节与计算效率的遥感基础模型架构,探索了弱监督预训练范式,并为分层特征编码提供了新思路。


3.方法

该研究提出了一种面向遥感图像解译的动态视觉感知基础模型DynamicVis,其核心架构遵循预训练-微调范式,包含动态区域感知SSM主干网络、元嵌入预训练框架及模块化任务解码器三部分。

动态区域感知SSM主干网络

模型采用多尺度特征金字塔结构,由四阶段SSM特征提取器与FPN构成。特征提取器通过渐进式小步长下采样保留细粒度信息,每个阶段包含三个核心模块:

    Patch Merger:采用卷积压缩空间维度,仅在第一阶段嵌入可学习位置编码,采用小步长避免ViT式激进下采样导致的信息丢失。
    Sparse Mixer:通过扁平化-选择性标记建模单元(STIM)-恢复维度的流程处理长序列。其核心组件STIM单元包含:
      动态标记选择:结合全局语义(自适应池化压缩)与区域语义(Gumbel噪声辅助的Top-K选择),保留关键区域特征;
      双路径SSM扫描:对选中的全局/区域标记进行双向状态空间建模,仅需两路径即可覆盖全局依赖并建模非因果数据,降低计算复杂度;
      增量连接:通过重要性加权残差连接,将增强后的关键特征与原始序列融合,保留完整信息流。
    特征金字塔网络:聚合多尺度特征,输出五级分辨率特征图,支撑跨分辨率语义表达。

元嵌入多实例预训练

基于fMoW数据集区域级标注,设计多实例对比学习框架:

    区域视觉表征:采用通用RoI提取器(GRoIE)跨多尺度特征图进行区域特征池化,生成维度统一的视觉嵌入向量;
    类别元嵌入:利用CLIP文本编码器初始化可学习的类别语义向量,构建特征空间对齐目标;
    MIL-NCE损失函数:通过最大化正样本对(区域特征-对应元嵌入)相似度、抑制负样本对,实现跨实例的对比学习,增强特征判别性。

下游任务迁移机制

设计层次化任务解码器适配多粒度需求:

    区域级任务:图像分类采用全局平均池化+线性层;检索任务直接利用高层特征向量;
    实例级任务:继承Faster R-CNN框架,RPN生成候选框后接检测/分割头;
    像素级任务:语义分割采用UperNet融合多尺度特征,变化检测通过双时相特征差分+MLP解码差异图。

4.实验

该研究实验部分系统评估了DynamicVis基础模型在多粒度遥感视觉任务中的性能,涵盖区域级、实例级和像素级任务。

预训练配置

    采用fMoW-rgb数据集进行预训练,包含102万训练样本和2万测试样本
    构建基于Mamba架构的base/large双版本模型
    使用双目标损失函数,结合Gumbel噪声退火策略

场景分类

小目标检测

实例分割

语义分割

变化检测

区域分类

图像检索


5.结论

该论文提出了名为DynamicVis的动态遥感图像视觉感知基础模型。该框架受人类视觉系统选择性注意力机制启发,通过自适应聚焦显著区域来捕获通用视觉语义表征。

其核心架构整合了基于状态空间模型(SSMs)的动态区域感知主干网络,在局部细节提取与全局上下文建模之间实现最优平衡,从而以高效计算和可扩展方式编码高分辨率地理空间数据。模型采用元嵌入多实例学习(MIL)范式进行训练,数据集包含数百万区域级标注。

经过九项关键遥感任务的系统性评估,DynamicVis展现出卓越的泛化能力:在稀疏目标解译任务(如小目标检测和变化分析)中,其性能与基于ViT的大型模型相当,但计算需求显著降低——处理2048×2048像素图像时仅需97毫秒延迟(相当于ViT的6%)和833MB显存(相当于ViT的3%)。

严格的基准测试表明,该框架在不同粒度需求的任务中均优于基于Transformer的方法,尤其在需要分层视觉线索整合的任务中创造了新的最先进水平(SOTA),验证了其高效处理多层级视觉特征的综合能力。

最新 AI 进展报道
请联系:amos@52cv.net


END




欢迎加入「遥感检测交流群👇备注:RS




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DynamicVis 遥感图像 视觉基础模型 人工智能
相关文章