我爱计算机视觉 4小时前
SAM/SAM2赋能视频万物分割与追踪:一篇“过去、现在、未来”的全面综述
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

这篇综述全面回顾了基于SAM/SAM2的视频目标分割与跟踪(VOST)方法,采用“过去、现在、未来”三维视角,梳理了该领域的演进脉络。文章重点介绍了SAM/SAM2的核心架构,以及如何利用历史信息、微调预训练模型和预测物体运动轨迹来解决VOST任务。此外,综述还指出了当前方法存在的挑战,并展望了未来的研究方向,如更智能的内存更新策略、多模态融合、先验知识引导的运动预测和端到端的联合学习等。

📜 过去:如何记忆和更新历史特征?现有方法主要分为提示级别、特征级别和融合级别三种层次。提示级别方法通过传播和更新提示(如掩码、边界框)来编码时间记忆;特征级别方法在更深层次上维护和更新中间特征表示;融合级别方法旨在融合提示级和特征级的线索。

🔄 现在:如何为当前帧学习判别性特征?参数高效迁移学习(PETL)技术至关重要,主要包括Adapter和低秩适应(LoRA)两种方法。Adapter在预训练模型的Transformer块内部插入小型‘瓶颈’网络,通过只训练这些新增的、参数量很小的Adapter模块,就可以在不改动原始模型主体参数的情况下,将领域知识注入模型;低秩适应(LoRA)的思路是在Transformer块的权重矩阵旁边,并联一个低秩的‘旁路’矩阵,微调时,只更新这个低秩矩阵。

🚀 未来:如何估计下一帧的轨迹?SAM-PT通过一个外部的点跟踪器来传播初始标注点,生成物体的运动轨迹,然后将这些轨迹作为动态提示输入SAM,从而实现视频分割;Segment Any Motion in Videos利用预训练模型生成2D轨迹和深度图,然后通过专门的运动编码器和轨迹解码器来提纯运动信息,最后再将精炼后的点提示送入SAM2进行分割;SAMURAI通过引入基于卡尔曼滤波的运动模型和运动感知的内存选择机制,在不依赖外部跟踪器的情况下,实现了鲁棒的零样本跟踪性能,显著提升了效率和准确性。

🤔 挑战:尽管基于SAM/SAM2的VOST方法取得了显著进展,但仍然存在内存冗余、误差累积和提示低效等挑战。

🌟 未来研究方向:更智能的内存更新策略、多模态融合、先验知识引导的运动预测、端到端的联合学习和面向实践的基准测试等。

CV君 2025-07-31 18:11 江苏

视频目标分割与跟踪(Video Object Segmentation and Tracking, VOST)是计算机视觉领域一项复杂且至关重要的挑战,它要求在动态变化的视频帧中,将目标分割与目标跟踪两个任务进行鲁棒地集成。传统方法长期以来在领域泛化、时间一致性和计算效率方面面临着诸多困难。

然而,随着Segment Anything Model (SAM)及其继任者SAM2等基础模型的出现,VOST领域迎来了一次范式革命。这些模型凭借其强大的泛化能力,实现了由提示驱动(prompt-driven)的分割,极大地推动了技术的发展。

近期,一篇来自德克萨斯大学西南医学中心等机构的综述论文,对基于SAM/SAM2的VOST方法进行了全面且系统的回顾。这篇综述独创性地采用了“过去、现在、未来”三个时间维度来构建其内容,清晰地梳理了该领域的演进脉络。

上图展示了VOST的基本架构流程。编码器从当前帧提取特征,同时融合来自前序帧的特征以提供时空线索,从而更新当前特征。这有助于识别目标对象并区分其他区域。最终,解码器生成当前帧的预测掩码。

论文详细信息

    论文标题:Segment Anything for Video: A Comprehensive Review of Video Object Segmentation and Tracking from Past to Future

    作者:Guoping Xu, Jayaram K. Udupa, Yajun Yu, Hua-Chieh Shao, Songlin Zhao, Wei Liu, You Zhang

    机构:德克萨斯大学西南医学中心;宾夕法尼亚大学;梅奥诊所(Mayo Clinic)

    论文地址https://arxiv.org/pdf/2507.22792v1

研究背景和意义

VOST作为计算机视觉的一项核心技术,在视频监控、自动驾驶、机器人辅助手术和医学影像分析等领域有着广泛的应用前景。然而,传统VOST方法存在三大核心痛点:

    泛化能力有限:在特定数据集上训练的模型,往往难以适应新的、未见过的场景和领域。

    时间一致性差:在处理快速运动、遮挡、物体形变等复杂情况时,容易丢失目标或产生分割抖动。

    计算效率低:为了追求高精度,许多模型计算量巨大,难以满足实时应用的需求。

SAM和SAM2的出现,为解决这些痛点提供了全新的思路。 SAM通过在超大规模数据集(SA-1B,包含超过10亿个掩码)上进行预训练,获得了前所未有的零样本泛化能力,能够响应点、框、文本等多种形式的提示,分割出任意物体。而SAM2则在此基础上,引入了流式内存机制,专门针对视频数据进行了优化,实现了实时视频分割,并将图像分割的速度提升了6倍。

这篇综述正是在这一技术背景下,首次以SAM/SAM2为核心视角,系统性地梳理了VOST领域的发展,不仅总结了现有方法的得失,还为未来的研究指明了方向,具有重要的指导意义。

上图是HQTrack的示意图。该框架由两个主要部分组成:一个视频多目标分割器(VMOS)和一个基于SAM的掩码精炼器(MR)。它首先使用VMOS生成粗略的预测,然后用这些预测自动为SAM提取提示,从而实现对每帧分割的精细化。

核心前提:SAM与SAM2模型

为了更好地理解这篇综述,首先需要了解SAM和SAM2的核心架构。

Segment Anything Model (SAM)

SAM是一个开创性的、用于2D图像分割的提示式基础模型。其架构主要由三部分组成:

    图像编码器(Image Encoder):一个重量级的基于Transformer的模型(通常是ViT),用于从高分辨率图像中提取丰富的视觉特征。

    提示编码器(Prompt Encoder):用于编码各种形式的提示(如点、框、文本、掩码)的空间上下文信息。

    掩码解码器(Mask Decoder):一个轻量级的解码器,它融合图像特征和提示特征,通过自注意力和交叉注意力机制,最终生成高质量的分割掩码。

SAM2

SAM2继承了SAM的核心思想,并针对视频处理和实时性进行了重大升级。其架构包含六个关键组件:

    图像编码器:采用更高效的多尺度分层视觉Transformer(Hiera)作为骨干网络。

    提示编码器和掩码解码器:与SAM类似。

    内存注意力(Memory Attention)内存编码器(Memory Encoder) 和 内存库(Memory Bank):这三个组件共同构成了流式内存机制。内存库通过先进先出(FIFO)队列存储来自过去帧的特征和掩码,内存注意力模块则利用这些历史信息来更新当前帧的特征,从而实现高效且时间一致的视频分割。

“过去、现在、未来”:VOST方法的三维解析

本综述的核心亮点在于其独特的“过去、现在、未来”分析框架,它将复杂的VOST方法归纳为三个核心问题。

上图概述了本综述中讨论的可提示VOST方法。将现有方法根据其解决VOST任务的重点分为三组:(1)从过去的帧中提取和存储内存;(2)微调基于SAM/SAM2的方法以学习当前帧的代表性特征;(3)为未来帧建模物体运动或轨迹。

1. 过去:如何记忆和更新历史特征?

有效利用历史信息是实现精确VOST的关键。论文将现有方法分为三个层次来探讨如何保留和检索“过去”的信息:

    提示级别(Prompt-level):这类方法主要通过传播和更新提示(如掩码、边界框)来编码时间记忆。例如,早期的MaskTrack ConvNet使用前一帧的预测掩码作为当前帧的额外输入通道。而更新的方法如AOT,则引入了ID机制和长短期Transformer(LSTT)模块来编码和传播多目标掩码嵌入,从而更好地处理动态视频场景。

    特征级别(Feature-level):这类方法在更深层次上维护和更新中间特征表示。XMem是其中的代表作,它模仿人类记忆模型,将历史特征分为感觉记忆、工作记忆和长期记忆,并通过精巧的内存管理策略实现了当时最先进的性能。后续的MemSAM等工作则将XMem与SAM相结合,利用SAM强大的特征提取能力和XMem的内存管理能力来提升VOST性能。

    融合级别(Fusion-level):这类方法旨在融合提示级和特征级的线索。例如,SAM-I2V和MaskTrack等模型探索了如何将SAM提取的图像特征与时间上下文信息或掩码特征进行有效融合,以生成更鲁棒的实例表示。

2. 现在:如何为当前帧学习判别性特征?

为了让预训练的基础模型适应特定的下游任务和领域,参数高效迁移学习(Parameter-Efficient Transfer Learning, PETL)技术至关重要。论文重点回顾了两种在SAM/SAM2微调中被广泛采用的PETL技术:

    Adapter:这是一种在预训练模型的Transformer块内部插入小型“瓶颈”网络(即Adapter模块)的方法。通过只训练这些新增的、参数量很小的Adapter模块,就可以在不改动原始模型主体参数的情况下,将领域知识注入模型。Med-SA、SAM-Adapter等工作都成功地将该技术应用于医学图像等领域。

    低秩适应(Low-Rank Adaptation, LoRA):LoRA的思路则是在Transformer块的权重矩阵旁边,并联一个低秩的“旁路”矩阵。微调时,只更新这个低秩矩阵。这种方法同样以极小的计算开销实现了模型的有效适配。SAMed、SonarSAM等工作都采用了LoRA技术。

3. 未来:如何估计下一帧的轨迹?

预测物体的运动轨迹是实现流畅跟踪的核心。传统方法如光流和卡尔曼滤波已被广泛使用。而随着SAM/SAM2的出现,研究者们开始探索如何将运动(轨迹)估计与分割模型更紧密地结合起来。

    SAM-PT:该方法通过一个外部的点跟踪器(如PIPS++)来传播初始标注点,生成物体的运动轨迹,然后将这些轨迹作为动态提示输入SAM,从而实现视频分割。

    Segment Any Motion in Videos:此方法更进一步,它利用预训练模型生成2D轨迹和深度图,然后通过专门的运动编码器和轨迹解码器来提纯运动信息,最后再将精炼后的点提示送入SAM2进行分割。

    SAMURAI:该方法通过引入基于卡尔曼滤波的运动模型和运动感知的内存选择机制,在不依赖外部跟踪器的情况下,实现了鲁棒的零样本跟踪性能,显著提升了效率和准确性。

挑战与未来展望

尽管基于SAM/SAM2的VOST方法取得了显著进展,但论文也清醒地指出了当前仍然存在的挑战,并对未来研究方向进行了展望:

尚存的挑战

    内存冗余:现有的内存机制(尤其是FIFO)会存储大量冗余或不相关的信息,增加了计算开销并可能降低性能。

    误差累积:分割或跟踪中的小错误会随着时间在视频序列中不断累积和放大,导致最终的性能下降。

    提示低效:如何自动、高效地生成高质量的提示,以及如何减少对初始手动提示的依赖,仍然是一个开放性问题。

未来研究方向

    更智能的内存更新策略:发展基于相似性或运动分数的帧剪枝策略,或者构建分层的记忆系统(感觉、短期、长期记忆),以实现更高效的内存管理。

    多模态融合:将语言、音频等更多模态的信息与视觉信息融合,利用大型语言模型(LLM)增强模型的上下文理解和交互能力。

    先验知识引导的运动预测:利用从大规模视频数据中学习到的运动先验,或结合物理约束,来改进运动估计的准确性和鲁棒性。

    端到端的联合学习:设计统一的训练框架,联合优化分割和跟踪任务,而不是将它们解耦为独立的模块。

    面向实践的基准测试:构建更多样化、更贴近真实医疗场景(如手术视频、动态MRI)的VOST基准数据集,以推动技术在关键领域的落地应用。

总结

本篇综述以其新颖的“过去、现在、未来”三维视角,系统、深入地剖析了在SAM/SAM2基础模型浪潮下,视频目标分割与跟踪(VOST)领域的演进与变革。它不仅全面回顾了从早期内存网络到SAM2流式架构的技术发展,还敏锐地指出了当前方法的核心挑战,并为未来的研究提供了富有洞察力的方向。对于希望了解或投身于这一快速发展领域的研究人员和从业者来说,这无疑是一份及时且极具价值的指南。

了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

视频目标分割与跟踪 SAM SAM2 提示式分割 计算机视觉
相关文章