新智元报道
新智元报道
方法突破口
动机分析:不是模型不够强,而是「匹配得不够准」。目前主流UAD方法大致分为两类:重建式方法:将输入图像还原成「正常版本」,异常区域将表现为高残差;嵌入式方法:将输入图像投影到特征空间,与正常样本进行相似性匹配。两类方法虽然形式不同,但在最后生成anomaly heat map时,本质都要完成一种「输入vs正常样本」的匹配。问题在于:现实中的匹配从不完美。重建式方法中,Diffusion等模型可能会错误保留异常结构(e.g. short cut issue),形成「伪正常」图像;嵌入式方法中,基于预训练特征(如ViT、DINO)提取的嵌入往往存在尺度、视角、纹理的偏差,使得相似性计算被高维噪声干扰。然而,这些「匹配噪声」长期被忽视,异常检测系统只能被动接受「残差」或「相似性」分数,而非从源头优化其可靠性。CostFilter-AD:首提「匹配代价体滤波」范式
为解决这一核心难题,研究人员提出一种全新视角:异常检测=匹配代价体构建+滤波优化+anomaly map生成,具体步骤为:构建完整的匹配代价体(Cost Volume),显式表征「输入图vs正常样本」之间的多维匹配关系;引入一个基于双流注意力(Dual Stream Attention)的3D U-Net网络,对代价体进行细粒度滤波;输出结构清晰的anomaly heat map,作为最终异常检测分割图。图2 CostFilter-AD方法概览。将无监督异常检测(UAD)重新表述为一个「匹配代价滤波」过程。(i)首先,利用预训练编码器从输入图像和模板图像中提取特征,模板可以是重建得到的正常图像,或随机选择的正常样本;(ii)接着,基于全局相似性计算构建异常代价体(anomaly cost volume);(iii)然后,设计一个代价体滤波网络,结合从输入特征和初始异常图中提取的注意力查询信息,对代价体进行细化,生成最终检测结果;(iv)最后,引入类别感知适配器,以应对类别不平衡问题,并提升模型对多类异常的同时检测能力。方法亮点包括:机制创新:首次引入「匹配代价体+滤波」到UAD领域;即插即用:不需改动原模型架构,适配所有主流检测器;性能显著提升:Image-AUROC & Pixel-AUROC等七种异常检测指标全面增长;泛化增强:处理模糊边界、小尺寸异常亦很有效。不是再造大模型,而是细化匹配过程
CostFilter-AD包括以下三个关键阶段:构建匹配代价体(Matching Cost Volume)研究人员不再仅仅计算一对图像之间的单一匹配值,而是:对输入图像与多个正常模板图像进行全局像素级匹配;在每个特征层上计算余弦相似度,得到三维代价体(空间维度 × 匹配维度 × 通道);转换为 anomaly cost(1−similarity),形成全局异常热图。与常见的最近邻匹配KNN不同,CostFilter-AD捕获了多模板、多尺度、多位置之间的结构性匹配模式。匹配代价体滤波(Cost Volume Filtering)匹配代价体矩阵虽然得到,但其中依然混有大量「误判」:正常边缘误认为异常(或相反)、异常细节被模糊覆盖等。为此,研究人员引入一个具备Dual-Stream Attention机制的3D U-Net网络,对代价体进行去噪与增强:通道引导(MG):使用初始 anomaly 热图引导模型关注更可能为异常的通道区域;空间引导(SG):使用输入图特征作为空间注意力,引导模型保留边界结构;残差引导机制(RCSA):融合上述注意力流,逐层优化代价体表示。经过滤波后,输出anomaly map的分布更集中、边界更清晰。类别自适应损失与泛化机制为适配多类工业检测任务,研究人员设计了Class-Aware Adapter:利用 soft logit 调整 focal loss 的聚焦因子,自适应平衡易错类别;优化结构损失(SSIM + soft IoU),增强检测的结构一致性。这让CostFilter-AD在单模型处理多类anomaly时保持高效与准确。
实验结果
四大数据集、五个最新baseline、七种异常检测指标全面刷新CostFilter-AD被集成至五大主流UAD框架中:GLAD(Reconstruction-based Diffusion, ECCV’24);HVQ-Trans(Reconstruction-based Transformer, NeurIPS’23);AnomalDino(Embedding-based Dinov2, WACV’25);UniAD(Embedding-based Transformer, NeurIPS’22);Dinomaly(Reconstruction-based Transformer, CVPR’25).研究人员在MVTec-AD、VisA、MPDD、BTAD四个工业数据集上进行像素级和图像级别异常检测。· 定量结果:
即插即用,轻量部署,工业友好
CostFilter-AD是一款即插即用(plug-and-play)的异常检测增强模块:支持多种输入模板:重建图、特征模板、混合中间表示;兼容主流模型:ViT-B/8、EfficientNet-B4、DINO、Diffusion全部适配;部署无压力:可部署于工业边缘设备、服务器或API服务端。
方法总结:从匹配修正出发,重塑异常检测核心范式
CostFilter-AD的核心理念在于重塑anomaly map/score的生成方式:异常检测的难点,不仅在于是否能还原/嵌入得好,更在于是否「比」得准确。通过构建代价体并对其进行滤波优化,研究人员重新定义了异常分数的构成逻辑:不是谁更像,而是「匹配结果如何更可信」。这一思路不仅适用于图像异常检测,或许还可迁移至:时序异常检测(e.g. 预测轨迹vs实际轨迹的匹配代价);视觉异常追踪(匹配掩码vs模板结构);RL状态匹配估计(当前状态vs高奖励状态的策略匹配)等场景。
文章原文