新智元报道
新智元报道
研究人员将图像视为无时间依赖的视频特例,提出统一建模图像与视频的视觉感知领域自适应语义分割新范式。QuadMix:首创四向混合机制,跨域特征更稳定研究人员在显式特征空间中同时引入以下四种混合路径:(a) S → S:源域内部混合;
(b) T → T:目标域内部混合;(c) T → (S → S):目标域融合到源内部混合中;(d) S → (T → T):源域融合到目标内部混合中。这种设计不仅打破了传统一阶/双向Mixup的限制,更是首次在特征空间中引入交叉式路径结构,最大限度地提升了域内连续性与语义对齐能力。实验表明,四向混合路径在t-SNE可视化中呈现更紧致、更均衡的分布,显著提升了迁移稳定性与泛化鲁棒性。图2 不同领域混合范式的对比。与现有方法相比(存在如域内不连续性,特征泛化性差,以及特征分布不一致问题),研究人员提出的QuadMix方法在空间(时间)维度的像素级与特征级上,同时对域内混合和跨域混合进行了泛化与增强。其中符号「*」表示样本模板图3 所提出的QuadMix用于UDA-SS的整体框架概览。图像领域自适应语义分割(Image UDA-SS)遵循一条并行流程,唯一的区别在于不包含时间线索,如图中虚线所示。图(a):QuadMix包含四条全面的域内/跨域混合路径,在时空像素层与特征层上桥接域间差异。像素级混合作用于相邻帧、光流和标签/伪标签,旨在迭代生成两个增强的跨域中间域:T→(S→S)和S→(T→T)。这些中间域克服了源域S与目标域T内部的非连续性,并展现出更具泛化性的特征,从而有效弥合域间差异。此外,在quad-mixed域之间进行的特征级混合,有助于缓解因不同视频上下文导致的特征不一致问题。图(b):光流引导的时空特征聚合模块将跨域视频特征压缩至一个紧凑的类别感知空间中,有效最小化类内差异,并提升类间判别能力,从而增强目标域的语义表征能力。整个训练过程是端到端的。在图(c)中,目标域测试阶段需要输入相邻帧堆叠的序列和光流
QuadMix的混合质量高度依赖于Patch模板的生成机制。为此,研究人员创新性地引入「在线类别感知Patch模板」机制:针对图像和视频,分别提取语义一致的类别区域作为模板;在每个训练迭代中自适应更新,避免固定模板带来的标签漂移问题;Patch模板不仅包含像素,还包括伪标签和光流信息,覆盖图像+视频两个维度;这些模板为每个iteration中QuadMix路径构建提供高质量输入,确保跨域混合具备一致的语义表征。图4 展示了在视频UDA-SS中,QuadMix的多种混合策略示例:(a)为源域S和目标域T的原始样本(QuadMix之前);(b)显示了源模板S*(如人物、骑手)与目标模板T*(如交通标志、天空);(c)展示了域内混合路径S→S与T→T的结果;(d)展示了进一步的跨域混合路径S→(T→T)与T→(S→S),即QuadMix后的结果。这些混合策略分别作用于视频帧、光流与标签/伪标签。需要特别说明的是,每一轮训练中所需的Patch模板均通过在线机制根据前一轮(n−1)自适应生成
输入级混合解决图像构成层次的差异,特征级混合则进一步对语义表征层进行融合与对齐。输入级QuadMix:通过Hadamard运算叠加帧、标签与光流模板;特征级QuadMix:构建共享类别掩码区域,在特征图中动态拼接并共享表示;研究人员还使用轻量化的1x1卷积模块实现特征融合,从而减少语义漂移区域,提高模型鲁棒性,并有效降低了计算成本。
与图像不同,视频数据包含时序信息,如何充分利用时间结构进行语义对齐,是提升视频UDA性能的关键。研究人员提出的「光流引导的时空聚合模块」,围绕三个维度展开:
使用ACCEL网络结构获取光流;将光流用于伪标签warp操作,获得跨帧伪标签;保证语义一致性与时序鲁棒性;该模块显著提高了伪标签在视频中的质量,为后续聚合与对齐奠定基础。
按类别构建特征子空间;对每类特征进行平均聚合,获得「类别代表向量」;使用该向量进行空间重构,提升类别判别力;
多帧空间聚合结果通过信息熵加权方式融合;构建时序一致的语义表示;最终,整个模块实现类别–空间–时间三重维度的精细化特征对齐,为目标域提供了坚实的泛化支持。
研究人员在四个经典的UDA-SS benchmark上进行了严格验证,涵盖图像与视频两大类任务:
在各种任务上,该方法均显著超过现有SOTA方法,如DACS、ProDA、DAFormer、SAC、CMOM等。其中最引人注目的是:在SYNTHIA-Seq→Cityscapes-Seq视频迁移任务上,研究人员使用Vision Transformer架构(QuadMix ViT)实现了67.2的mIoU,刷新历史最好结果,领先前SOTA(PAT、TPL-SFC)近12个百分点。此外,在GTAV→Cityscapes图像迁移任务中,QuadMix实现66.8的mIoU,超过DAFormer、SePiCo等先进方法,展现统一方法在图像上的强大适应能力。
图6 来自Cityscapes-Seq验证集的三个连续帧的定性结果。结果展示顺序如下:目标图像、真实标签、仅源域模型的语义分割结果、DA-VSN[16]、TPS[17]、CMOM[2]以及提出的方法该方法在分割精度上表现最佳,边缘更平滑、细节更精细。
图7 展示了不同混合范式在t-SNE空间中的可视化效果,分别以sign(第一行)和pole(第二行)两个类别为例。子图(a)到(e)的实验设置对应表VI中的消融实验编号:Exp.ID 0*、ID 6、ID 1、ID 3和ID 12。请注意,子图(b)、(d)和(e)中的点数相同。子图(b)展示的是域内混合(intra-mixed)后的特征嵌入,呈现出较为连续的分布;而子图(e)展示的 四向混合(quad-mixed) 域则表现出更具泛化性的特征分布,而非聚集式的形式。这种分布更有效地缓解了域内不连续性问题,并更好地实现知识迁移中的细粒度特征分布拉近。
QuadMix的有效性不仅体现在性能指标上,还获得了充分的理论与可视化支撑:
- 使用t-SNE对比QuadMix与传统Mixup的特征分布,发现QuadMix特征分布更均匀、类别边界更清晰;通过类别交叉可视化,展示quad-mixed域具备更强的语义一致性与边界准确性;
所有实验代码已开源支持主流框架(PyTorch)和多种分割backbone(CNN/ViT)训练脚本、预处理流程、模型参数均一键调用
由于QuadMix可以不依赖offline warm-up模型和固定伪标签生成器,具备如下优势:易于部署到边缘设备或实时视频处理系统;可无缝集成至现有工业语义分割pipeline;支持城市感知、AR导航、智能制造等多种场景;
研究人员认为,统一研究视频和图像UDASS不是融合的终点,而是跨模态泛化的起点。QuadMix所提出的「四向混合」不仅服务于图像与视频的统一语义分割,更提供了未来跨模态建模的结构性范式:可推广至图文融合(Image-Text UDA)、点云+图像联合建模(Multi-Sensor Fusion);可用于大模型预训练中的中间域设计,如Diffusion模型数据生成优化;甚至可拓展到Reinforcement Learning场景中的策略迁移与经验对齐;整体而言,QuadMix代表的是从数据空间结构建模出发,构建统一泛化表示的全新路径。
文章原文