我爱计算机视觉 07月09日 09:41
视频中开放世界目标计数:牛津大学VGG提出并开源CountVid模型及VideoCounT数据集
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了牛津大学VGG组在视频开放世界目标计数领域的新研究,提出了CountVid模型并开源了VideoCount数据集。该研究解决了视频目标计数中实例识别、复杂场景和开放词汇适应性等挑战。CountVid模型结合了开放词汇图像计数模型与类别无关的视频分割和跟踪模型,实现了视频帧间的自动化、开放世界目标计数。实验结果表明,CountVid在VideoCount数据集上表现优异,为后续研究提供了重要基准和工具。

🧐 首次提出“视频中的开放世界目标计数”新任务,弥补了现有研究的空白,为视频分析领域开启了新的研究方向。

💡 CountVid模型结合了开放词汇图像计数模型与类别无关的视频分割和跟踪模型,实现了视频帧间的自动化开放世界目标计数。该模型分为帧级别处理、短期处理和长期处理三个阶段。

📦 扩展了CountGD模型以生成边界框输出(CountGD-Box),并引入自动方法移除虚假轨迹,CountVid实现中利用CountGD-Box进行计数和检测产生 box 提示,并交由SAM 2.1算法进行目标跟踪。

📊 论文在VideoCount数据集上对CountVid模型及其组件进行了详细的实验评估,实验结果表明在多个数据集上,CountVid表现出卓越的性能,尤其是在处理复杂场景时。

💾 开源了CountVid模型、VideoCount数据集以及所有代码,为研究者提供了重要的基准和评估工具,促进了该领域的发展。

CV君 2025-06-25 13:17 江苏

应用广泛,代码开源,方便后继研究




关注公众号,发现CV技术之美




本文分享最近的论文

《Open-World Object Counting in Videos》

,牛津大学VGG组引入了视频中开放世界目标计数这一新任务,并开源了一个名为CountVid的模型以及相应的数据集VideoCount。
论文地址:https://arxiv.org/pdf/2506.15368

代码地址:https://github.com/niki-amini-naieni/CountVid/

作者与机构

该研究的作者为享誉CV学术圈的牛津大学视觉几何组(Visual Geometry Group, VGG)的Niki Amini-Naieni和Andrew Zisserman,在CVPR 2025上获得最佳论文奖的作者也来自VGG。


研究动机与难点

现有的目标计数研究主要集中在图像领域,而在视频中进行开放词汇(open-vocabulary)目标计数仍是一个相对未被充分探索的领域。在视频中进行目标计数面临以下主要挑战:

实例识别与去重:在视频中,同一个目标可能在不同帧中出现、暂时被遮挡或移出画面后再次出现。因此,关键在于识别这些目标的唯一实例,避免重复计数,并正确处理目标的再现。

复杂场景: 拥挤的场景、遮挡以及相似的目标使得区分和计数每个独立实例变得尤为困难。

开放词汇的适应性: 需要根据文本描述或图像示例来指定目标类别,这意味着模型需要具备泛化到未见过类别(开放世界)的能力,而非局限于预定义类别。

实际应用需求: 视频目标计数在多个科学领域具有广泛应用,例如动物保护人士需要计数无人机拍摄视频中的动物以监测种群,材料科学家需要计数金属合金结晶过程中的晶体,流行病学家需要计数城市街道视频中的行人和车辆以研究空气污染。这些应用迫切需要一种“开箱即用”的开放世界方法,以减少大量手动标注时间。


主要贡献点

该研究提出了四项主要贡献:

引入新任务: 首次提出了“视频中的开放世界目标计数”这一新任务。

提出CountVid模型: 提出了一个名为CountVid的模型来解决此任务。CountVid模型结合了开放词汇图像计数模型与类别无关的视频分割和跟踪模型,实现了视频帧间的自动化、开放世界目标计数。该模型分为三个阶段进行推理:

阶段1(帧级别处理): 利用计数和检测模型,根据文本或视觉示例提示,为每个视频帧独立生成目标对象的边界框和分割掩码。

阶段2(短期处理): 应用时间滤波器来移除可能由运动模糊等引起的虚假阳性检测。该滤波器通过在时间窗内向前和向后跟踪对象来验证检测的持久性。

阶段3(长期处理): 将第2阶段输出的对象掩码在整个视频中进行传播,并持续检查新出现的目标。最终,通过枚举所有识别出的独特对象来计算总数。

扩展CountGD模型与去伪轨迹方法: 扩展了CountGD模型(原算法只能输出点)以生成边界框输出(命名为CountGD-Box),并引入了一种自动方法来移除虚假轨迹。CountVid实现中利用CountGD-Box进行计数和检测产生 box 提示,并交由SAM 2.1算法进行目标跟踪,SAM 2.1产生视频目标的掩码片段。

发布VideoCount数据集: 为了评估该新任务的性能,引入了一个新的视频数据集VideoCount。该数据集包含370个视频,覆盖了广泛的对象类别和计数范围(1-1203个对象/视频)。VideoCount包含两类基准: 重新利用了标准跟踪数据集TAO和MOT20并补充了更全面的标注;以及引入了两个科学应用场景的新视频,包括企鹅监测和金属合金结晶过程的X射线视频。


实验结果

论文在所提出的VideoCount数据集以及相关图像数据集上对CountVid模型及其组件进行了详细的实验评估。

帧级别处理评估(基于FSCD-147图像数据集的结果)

此部分评估了CountVid在帧级别处理阶段所使用的图像计数和检测方法的准确性,尤其是在拥挤场景中的表现。

SOTA检测器表现不佳: 实验结果(表2)显示,Grounding DINO 和 OWLv2 等先进检测器在计数任务中表现不佳,特别是在存在许多相似和重叠对象的计数设置下。论文指出,这些检测器虽然在更大数据集上进行过端到端训练,但并未在FSC-147数据集上进行训练。

CountGD-Box的改进: 将 CountGD 扩展为CountGD-Box后,其检测准确性显著提高,同时保持了计数准确性。

最佳模型取决于提示类型: 实验结果表明(表2),最佳的SoTA模型取决于使用的提示类型(文本、示例或两者)。

纯文本设置下,CountGD-Box和 PSeCo 表现出竞争力。

纯示例设置下,GeCo 是表现更优的模型,尽管 CountGD-Box和 DAVE 也是强有力的竞争者。

当同时提供文本和示例时,CountGD-Box在检测方面优于CountGD。论文指出,在这种情况下,CountGD-Box是“全面表现良好”的模型。

短期处理评估(基于TAO-Count数据集上的时间滤波器消融研究)

此部分评估了CountVid的第二阶段——时间滤波器(Temporal Filter)的有效性。

显著减少假阳性: 实验结果(表3)显示,在TAO-Count数据集上,应用时间滤波器后,MAE和RMSE均降低了超过50%,显著提高了计数准确性。这表明时间滤波器能够有效移除由显著运动和模糊引起的瞬时假阳性预测。

长期处理评估(基于VideoCount视频数据集的结果)

此部分评估了CountVid的整体视频计数性能,并与多个基线方法进行了比较。

CountVid的卓越性能:

TAO-Count和MOT20-Count(表4): CountVid(使用CountGD-Box作为计数器,SAM 2.1作为跟踪器)在纯文本提示下,其计数准确性显著优于基于Grounding DINO 和MASA 的基线以及CountGD-Box与ByteTrack 的组合。

Science-Count(表5): 在Science-Count(包括企鹅和晶体视频)上,CountVid在纯文本和文本与示例结合的提示下,同样展现出显著优势。

提示信息的影响: 实验结果表明,提供更多信息(如同时使用示例和文本提示)可以提高CountVid的性能。纯示例的性能通常优于纯文本,而同时提供两种提示是最佳的。

以下是在企鹅、晶体、人群计数任务上的结果示例。


对学界的启发与相关资源

该研究为视频中的开放世界目标计数领域开辟了新的方向,填补了现有研究的空白。它展示了结合图像计数模型和视频跟踪分割模型在处理复杂动态场景下的潜力。

模型可插拔性: CountVid的设计使得未来更先进的跟踪器和类别无关的检测计数模型可以方便地集成进来,从而持续提升性能。

数据集的推动作用: 发布了首个用于开放世界视频目标计数的大规模数据集VideoCount,为后续研究提供了重要的基准和评估工具。

开源资源: CountVid模型、VideoCount数据集以及所有代码均已开源(https://github.com/niki-amini-naieni/CountVid/),更详细的信息请参与论文(https://arxiv.org/pdf/2506.15368)。

对于数据集下载有困难的同学可在我爱计算机视觉后台回复“CountVid”获取百度网盘下载链接。

最新 AI 进展报道
请联系:amos@52cv.net

END




欢迎加入「目标计数交流群👇备注:计数




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CountVid 视频目标计数 开放世界 VGG VideoCount
相关文章