我爱计算机视觉 4小时前
MOSEv2震撼发布:专为真实复杂场景打造的视频对象分割新基准,顶尖模型性能骤降!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MOSEv2是视频对象分割领域的新数据集,比MOSEv1更具挑战性,包含更多复杂场景和物体,测试了SAM2等模型的性能,结果显示先进模型也难以应对,为视频理解领域指明了未来研究方向。

📈MOSEv2数据集规模更大,包含5024个视频,200个类别,远超MOSEv1的36个类别,极大增加了场景和物体的多样性。

🌧️MOSEv2引入了更多真实场景挑战,如恶劣天气、低光照、多镜头切换、伪装/非物理目标、知识依赖等,这些在以往数据集中罕见。

🔍MOSEv2提出了更精细的统计与评估方法,如物体消失率61.8%、重现率50.3%、干扰物平均13.6个,并引入了新的评估指标,更公平地衡量模型性能。

📉实验结果显示,即便是先进的SAM2-L模型,在MOSEv2上的性能也大幅下降,J&F分数从MOSEv1的76.4%降至50.9%,揭示了现有方法的局限性。

🎯MOSEv2不仅对分割任务具有挑战性,也对视频目标跟踪(VOT)模型具有挑战性,说明现有跟踪算法在真实复杂场景中的脆弱性。

📊MOSEv2在长视频分布、复杂环境覆盖、多属性交织等方面也进行了更细致的统计,例如长视频数量增加,恶劣场景覆盖更广,且多种挑战属性常同时出现。

🧭MOSEv2的发布对视频理解领域具有重大价值,树立了新标杆,揭示了现有方法的局限性,指明了未来研究方向,如鲁棒的重识别能力、更强的遮挡处理能力等。

CV君 2025-08-09 16:10 江苏

面向真实复杂场景构建

今天,深入解读一篇在视频理解领域具有里程碑意义的工作——《MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes》。这项研究推出了一个全新的、极具挑战性的视频对象分割(Video Object Segmentation, VOS)数据集MOSEv2,旨在推动算法在真实、复杂场景下的鲁棒性和泛化能力。

现有VOS基准(如DAVIS、YouTube-VOS)虽然催生了许多高性能算法,但它们大多包含显著、孤立的目标,与真实世界的复杂多变相去甚远。为了弥合这一差距,研究者们在MOSEv1的基础上,构建了规模更大、难度更高、场景更复杂的MOSEv2。结果显示,即便是最先进的模型(如SAM2),在MOSEv2上的性能也出现了从76.4%(MOSEv1)急剧下降到50.9%的惊人现象,这无疑为整个领域敲响了警钟,并指明了未来的研究方向。

论文基本信息

    论文标题: MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes

    作者团队: Henghui Ding, Kaining Ying, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang, Philip H. S. Torr, Song Bai

    作者机构: 本文由来自复旦大学、字节跳动、上海财经大学、南洋理工大学、牛津大学的顶尖研究者共同完成。

    论文地址:https://arxiv.org/pdf/2508.05630v1

    项目主页:https://mose.video/

研究背景与意义

视频对象分割(VOS)是计算机视觉中的一项基本任务,要求在视频序列中持续分割出指定的目标对象。它在自动驾驶、增强现实、视频编辑等领域有着广泛的应用。

然而,尽管现有算法在DAVIS等数据集上取得了超过90%的J&F分数,看似已经解决了VOS问题,但现实世界的视频远比这些基准复杂。真实场景中充满了物体的频繁消失与重现、严重遮挡、密集拥挤、目标微小等挑战。

为了更真实地评估和推动VOS技术,MOSEv1应运而生,它首次将研究重点转向复杂场景。而MOSEv2作为其“进阶版”,不仅继承了MOSEv1的挑战,还在多个维度上显著提升了复杂性,旨在建立一个能够全面、真实地反映算法在现实世界中表现的“试金石”。

MOSEv2:一个更严苛、更真实的VOS新基准

MOSEv2的构建严格遵循了模拟真实世界复杂性的原则。它不仅在规模上远超前代,更在于其引入了前所未有的挑战维度。

数据集规模与多样性

MOSEv2包含5,024个视频,标注了10,074个对象的超过701,976个高质量掩码,涵盖了200个类别。与MOSEv1相比,视频数量翻了一倍多,类别数从36个扩展到200个,极大地增加了场景和物体的多样性。

上图直观展示了MOSEv2在类别数量上的巨大扩展。

前所未有的复杂挑战

MOSEv2不仅强化了MOSEv1已有的挑战,如物体消失重现严重遮挡小目标拥挤场景,还引入了一系列全新的、在以往数据集中罕见的复杂情况。

上图展示了MOSEv2中的典型挑战案例:

    恶劣天气: 如雨、雪、雾等(案例⑥)。

    低光照环境: 如夜间、水下场景(案例⑤、⑦)。

    多镜头切换(Multi-shots): 视频中存在镜头切换,导致目标外观和位置突变(案例⑧)。

    伪装/非物理目标: 目标与背景融为一体(案例⑤),或目标是影子、反射等非实体(案例④)。

    知识依赖: 需要外部知识才能理解和分割目标,如识别文字或理解物理因果关系(案例⑨、⑩)。

更精细的统计与评估

为了量化这些挑战,论文进行了详尽的数据统计。例如,MOSEv2的物体消失率(Disappearance Rate)高达61.8%重现率(Reappearance Rate)高达50.3%,远超现有所有数据集。其干扰物(Distractors)平均数量达到13.6个,是MOSEv1的两倍多,这意味着场景更加拥挤。

同时,论文还提出了更完善的遮挡评估协议,并引入了新的评估指标,以更公平地衡量模型在小目标、物体消失重现等特定场景下的性能。

实验与结果分析:顶尖模型遭遇“滑铁卢”

论文在MOSEv2上对20个主流VOS模型和9个视频对象跟踪(VOT)模型进行了全面的基准测试。结果令人震惊:所有模型性能均出现一致且显著的下降。

半监督VOS基准测试

在最受关注的掩码初始化半监督VOS任务中,即便是强大的SAM2-L,其J&F分数也从DAVIS17的90.7%和MOSEv1的76.4%,暴跌至MOSEv2的50.9%。专为长视频和复杂场景设计的SAM2Long-L也仅达到51.5%,这表明现有方法难以应对MOSEv2带来的复合型挑战。

从上表的详细数据可以看出,所有模型在重现(J&F_r)指标上得分极低,这凸显了在物体消失后重新识别并跟踪的巨大困难。

定性结果分析

定性分析结果更直观地暴露了现有模型的短板。

上图展示了Cutie、SAM2和SAM2Long在8个挑战性案例上的表现。我们可以看到:

    在复杂的重现场景(a, b)和多镜头切换(g)中,模型难以维持对目标的持续跟踪。

    在拥挤和小目标场景(c),所有模型几乎都失败了。

    在恶劣天气(f)和伪装目标(d)下,模型同样表现不佳。

    对于需要知识推理的场景(h),模型也无法正确识别目标。

这些失败案例清晰地指出了未来VOS算法需要攻克的方向。


更精细的评估协议与新指标

论文指出,传统的 F 轮廓精度分数 在评估小目标时会出现偏高的现象,因为其边界阈值是基于固定图像分辨率设定的,与目标大小无关。MOSEv2 引入了自适应边界阈值 Ḟ(F-dot)。 这样在评估小目标时边界判定更严格,大目标的评估与原方法保持一致。

此外,MOSEv2 针对其高频的 物体消失(Disappearance)与重现(Reappearance) 场景,提出了分场景指标:

    J&Ḟ_d:消失片段的准确率(考察模型在目标不在画面时抑制误检的能力)

    J&Ḟ_r:重现片段的准确率(考察模型重新识别目标的能力)

这样可以更精准地分析模型在关键挑战场景下的表现,而不是被整段视频平均分数掩盖。


跨任务基准:VOT 模型同样受挫

除了视频对象分割(VOS),论文还在 MOSEv2 上测试了 9 个主流视频目标跟踪(VOT)模型

结果表明,这些在 LaSOT、GOT-10k 等标准 VOT 数据集表现优异的模型,在 MOSEv2 上性能也显著下降,且下降幅度与 VOS 模型类似。这说明 MOSEv2 不仅对分割任务具有挑战性,也揭示了现有视频跟踪算法在真实复杂场景中的脆弱性。


更细的复杂性统计

长视频分布

    MOSEv1 中仅有 11 条视频长度超过 300 帧(约 1 分钟),而 MOSEv2 增加到 183 条,最长视频达 7,825 帧(约 26 分钟)。

    这些长视频并非单纯增加时长,而是刻意包含长时间遮挡、场景切换、多镜头序列等复杂动态。

复杂环境覆盖

与 MOSEv1 相比,MOSEv2 在恶劣场景的覆盖更广:

    多云:443(+显著增加)

    雨天:159(从 20 增长)

    大雨:142(新增)

    雪天:73(新增)

    雾天:60(新增)

    水下:280(从 29 增长)

    夜间:255(从 75 增长)

    灾害场景(地震、洪水等):50(新增)

多属性交织

MOSEv2 定义了 15 个挑战属性(如背景杂乱 BC、快速运动 FM、遮挡 OCC、出画 OV、尺度变化 SV、形状复杂 SC、外观变化 AC、消失重现 DR、伪装 DV、拥挤 CRO、复杂环境 CE、新类别 NC、多镜头 MS、长时长 LD、知识依赖 KD)。

论文提供了属性共现分析(Chord Diagram),显示真实场景中这些挑战往往同时出现,比如:

    消失重现(DR)常与拥挤(CRO)和遮挡(OCC)共现

    多镜头(MS)常伴随知识依赖(KD)和外观变化(AC)


论文贡献与未来展望

MOSEv2的发布对视频理解领域具有重大价值:

    树立了新标杆: 提供了一个迄今为止最具挑战性的VOS数据集,更真实地反映了现实世界的复杂性,将推动社区开发更鲁棒、更通用的算法。

    揭示了现有方法的局限性: 全面的基准测试揭示了即便是最先进的模型,在面对真实复杂场景时也存在严重不足,尤其是在物体消失重现、长期跟踪和高层语义理解方面。

    指明了未来研究方向: 论文总结了几个关键的未来研究方向,包括:

    鲁棒的重识别能力,以应对物体的消失与重现。

    更强的遮挡处理能力

    针对小目标和拥挤场景的优化

    对罕见类别和恶劣环境的泛化能力

    处理多镜头视频和知识依赖场景的能力

CV君认为,MOSEv2的出现恰逢其时。在当前大模型驱动的AI浪潮下,我们需要的不仅是“刷榜”的性能,更是能在真实世界中可靠工作的技术。MOSEv2正是这样一个“照妖镜”和“磨刀石”,它将激励研究者们跳出舒适区,正视并解决真实世界中的核心难题。

了解最新 AI 进展,欢迎关注公众号:aicvml
投稿寻求报道请发邮件至:amos@52cv.net
欢迎点赞、转发、评论。

欢迎加入「视频理解交流群👇备注:vid


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MOSEv2 视频对象分割 复杂场景 视频理解
相关文章