CV君 2025-08-09 16:10 江苏
面向真实复杂场景构建
今天,深入解读一篇在视频理解领域具有里程碑意义的工作——《MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes》。这项研究推出了一个全新的、极具挑战性的视频对象分割(Video Object Segmentation, VOS)数据集MOSEv2,旨在推动算法在真实、复杂场景下的鲁棒性和泛化能力。
现有VOS基准(如DAVIS、YouTube-VOS)虽然催生了许多高性能算法,但它们大多包含显著、孤立的目标,与真实世界的复杂多变相去甚远。为了弥合这一差距,研究者们在MOSEv1的基础上,构建了规模更大、难度更高、场景更复杂的MOSEv2。结果显示,即便是最先进的模型(如SAM2),在MOSEv2上的性能也出现了从76.4%(MOSEv1)急剧下降到50.9%的惊人现象,这无疑为整个领域敲响了警钟,并指明了未来的研究方向。
论文基本信息
论文标题: MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes
作者团队: Henghui Ding, Kaining Ying, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang, Philip H. S. Torr, Song Bai
作者机构: 本文由来自复旦大学、字节跳动、上海财经大学、南洋理工大学、牛津大学的顶尖研究者共同完成。
论文地址:https://arxiv.org/pdf/2508.05630v1
项目主页:https://mose.video/
研究背景与意义
视频对象分割(VOS)是计算机视觉中的一项基本任务,要求在视频序列中持续分割出指定的目标对象。它在自动驾驶、增强现实、视频编辑等领域有着广泛的应用。
然而,尽管现有算法在DAVIS等数据集上取得了超过90%的J&F分数,看似已经解决了VOS问题,但现实世界的视频远比这些基准复杂。真实场景中充满了物体的频繁消失与重现、严重遮挡、密集拥挤、目标微小等挑战。
为了更真实地评估和推动VOS技术,MOSEv1应运而生,它首次将研究重点转向复杂场景。而MOSEv2作为其“进阶版”,不仅继承了MOSEv1的挑战,还在多个维度上显著提升了复杂性,旨在建立一个能够全面、真实地反映算法在现实世界中表现的“试金石”。
MOSEv2:一个更严苛、更真实的VOS新基准
MOSEv2的构建严格遵循了模拟真实世界复杂性的原则。它不仅在规模上远超前代,更在于其引入了前所未有的挑战维度。
数据集规模与多样性
MOSEv2包含5,024个视频,标注了10,074个对象的超过701,976个高质量掩码,涵盖了200个类别。与MOSEv1相比,视频数量翻了一倍多,类别数从36个扩展到200个,极大地增加了场景和物体的多样性。
上图直观展示了MOSEv2在类别数量上的巨大扩展。
前所未有的复杂挑战
MOSEv2不仅强化了MOSEv1已有的挑战,如物体消失重现、严重遮挡、小目标和拥挤场景,还引入了一系列全新的、在以往数据集中罕见的复杂情况。
上图展示了MOSEv2中的典型挑战案例:
恶劣天气: 如雨、雪、雾等(案例⑥)。
低光照环境: 如夜间、水下场景(案例⑤、⑦)。
多镜头切换(Multi-shots): 视频中存在镜头切换,导致目标外观和位置突变(案例⑧)。
伪装/非物理目标: 目标与背景融为一体(案例⑤),或目标是影子、反射等非实体(案例④)。
知识依赖: 需要外部知识才能理解和分割目标,如识别文字或理解物理因果关系(案例⑨、⑩)。
更精细的统计与评估
为了量化这些挑战,论文进行了详尽的数据统计。例如,MOSEv2的物体消失率(Disappearance Rate)高达61.8%,重现率(Reappearance Rate)高达50.3%,远超现有所有数据集。其干扰物(Distractors)平均数量达到13.6个,是MOSEv1的两倍多,这意味着场景更加拥挤。
同时,论文还提出了更完善的遮挡评估协议,并引入了新的评估指标,以更公平地衡量模型在小目标、物体消失重现等特定场景下的性能。
实验与结果分析:顶尖模型遭遇“滑铁卢”
论文在MOSEv2上对20个主流VOS模型和9个视频对象跟踪(VOT)模型进行了全面的基准测试。结果令人震惊:所有模型性能均出现一致且显著的下降。
半监督VOS基准测试
在最受关注的掩码初始化半监督VOS任务中,即便是强大的SAM2-L,其J&F分数也从DAVIS17的90.7%和MOSEv1的76.4%,暴跌至MOSEv2的50.9%。专为长视频和复杂场景设计的SAM2Long-L也仅达到51.5%,这表明现有方法难以应对MOSEv2带来的复合型挑战。
从上表的详细数据可以看出,所有模型在重现(J&F_r)指标上得分极低,这凸显了在物体消失后重新识别并跟踪的巨大困难。
定性结果分析
定性分析结果更直观地暴露了现有模型的短板。
上图展示了Cutie、SAM2和SAM2Long在8个挑战性案例上的表现。我们可以看到:
在复杂的重现场景(a, b)和多镜头切换(g)中,模型难以维持对目标的持续跟踪。
在拥挤和小目标场景(c),所有模型几乎都失败了。
在恶劣天气(f)和伪装目标(d)下,模型同样表现不佳。
对于需要知识推理的场景(h),模型也无法正确识别目标。
这些失败案例清晰地指出了未来VOS算法需要攻克的方向。
更精细的评估协议与新指标
论文指出,传统的 F 轮廓精度分数 在评估小目标时会出现偏高的现象,因为其边界阈值是基于固定图像分辨率设定的,与目标大小无关。MOSEv2 引入了自适应边界阈值 Ḟ(F-dot)。 这样在评估小目标时边界判定更严格,大目标的评估与原方法保持一致。
此外,MOSEv2 针对其高频的 物体消失(Disappearance)与重现(Reappearance) 场景,提出了分场景指标:
J&Ḟ_d:消失片段的准确率(考察模型在目标不在画面时抑制误检的能力)
J&Ḟ_r:重现片段的准确率(考察模型重新识别目标的能力)
这样可以更精准地分析模型在关键挑战场景下的表现,而不是被整段视频平均分数掩盖。
跨任务基准:VOT 模型同样受挫
除了视频对象分割(VOS),论文还在 MOSEv2 上测试了 9 个主流视频目标跟踪(VOT)模型。
结果表明,这些在 LaSOT、GOT-10k 等标准 VOT 数据集表现优异的模型,在 MOSEv2 上性能也显著下降,且下降幅度与 VOS 模型类似。这说明 MOSEv2 不仅对分割任务具有挑战性,也揭示了现有视频跟踪算法在真实复杂场景中的脆弱性。
更细的复杂性统计
长视频分布
MOSEv1 中仅有 11 条视频长度超过 300 帧(约 1 分钟),而 MOSEv2 增加到 183 条,最长视频达 7,825 帧(约 26 分钟)。
这些长视频并非单纯增加时长,而是刻意包含长时间遮挡、场景切换、多镜头序列等复杂动态。
复杂环境覆盖
与 MOSEv1 相比,MOSEv2 在恶劣场景的覆盖更广:
多云:443(+显著增加)
雨天:159(从 20 增长)
大雨:142(新增)
雪天:73(新增)
雾天:60(新增)
水下:280(从 29 增长)
夜间:255(从 75 增长)
灾害场景(地震、洪水等):50(新增)
多属性交织
MOSEv2 定义了 15 个挑战属性(如背景杂乱 BC、快速运动 FM、遮挡 OCC、出画 OV、尺度变化 SV、形状复杂 SC、外观变化 AC、消失重现 DR、伪装 DV、拥挤 CRO、复杂环境 CE、新类别 NC、多镜头 MS、长时长 LD、知识依赖 KD)。
论文提供了属性共现分析(Chord Diagram),显示真实场景中这些挑战往往同时出现,比如:
消失重现(DR)常与拥挤(CRO)和遮挡(OCC)共现
多镜头(MS)常伴随知识依赖(KD)和外观变化(AC)
论文贡献与未来展望
MOSEv2的发布对视频理解领域具有重大价值:
树立了新标杆: 提供了一个迄今为止最具挑战性的VOS数据集,更真实地反映了现实世界的复杂性,将推动社区开发更鲁棒、更通用的算法。
揭示了现有方法的局限性: 全面的基准测试揭示了即便是最先进的模型,在面对真实复杂场景时也存在严重不足,尤其是在物体消失重现、长期跟踪和高层语义理解方面。
指明了未来研究方向: 论文总结了几个关键的未来研究方向,包括:
鲁棒的重识别能力,以应对物体的消失与重现。
更强的遮挡处理能力。
针对小目标和拥挤场景的优化。
对罕见类别和恶劣环境的泛化能力。
处理多镜头视频和知识依赖场景的能力。
CV君认为,MOSEv2的出现恰逢其时。在当前大模型驱动的AI浪潮下,我们需要的不仅是“刷榜”的性能,更是能在真实世界中可靠工作的技术。MOSEv2正是这样一个“照妖镜”和“磨刀石”,它将激励研究者们跳出舒适区,正视并解决真实世界中的核心难题。
了解最新 AI 进展,欢迎关注公众号:aicvml
投稿寻求报道请发邮件至:amos@52cv.net
欢迎点赞、转发、评论。
欢迎加入「视频理解」交流群👇备注: