我爱计算机视觉 01月20日
视觉定位任务新入门必读!跟进最新进展,视觉定位审稿人必读论文!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文是对视觉定位(Visual Grounding)任务近十年发展的系统性回顾,涵盖了354篇参考文献。综述详细介绍了视觉定位的基本概念、评估指标,并系统总结了当前视觉定位的研究进展,包括全监督、弱监督、半监督、无监督、零样本和广义视觉定位等多种设置。文章还深入探讨了视觉定位的应用,并对现有数据集进行了梳理和分析,为未来的研究提供了有价值的方向。该综述旨在帮助新手入门,同时也为资深研究人员跟踪最新进展提供了全面的参考。

📜 综述回顾了视觉定位近十年的发展历程,并概述了基本概念和评估指标,为理解该领域奠定了基础。

🔍 系统性地总结了当前视觉定位的多种研究设置,包括全监督、弱监督、半监督、无监督、零样本及广义视觉定位,并比较了不同设置下的基准测试结果。

📊 对经典数据集进行了整理,并在RefCOCO/+/g系列数据集上进行了详细的比较分析,为未来提出新的标准测试基准提供了参考。

💡 深入探讨了视觉定位领域面临的挑战,并为未来的研究方向提供了有价值的建议,有助于启发后续研究者的思考。

52CV 2025-01-20 17:44 江苏

27页综述,354 篇参考文献!




关注公众号,发现CV技术之美




导读:27页综述,354 篇参考文献!史上最详尽的视觉定位综述,内容覆盖过去十年的视觉定位发展总结,尤其对最近5年的视觉定位论文系统性回顾,内容既涵盖传统基于检测器的视觉定位,基于VLP的视觉定位,基于MLLM的视觉定位,也涵盖从全监督、无监督、弱监督、半监督、零样本、广义定位等新型设置下的视觉定位。视觉定位任务新入门必读!跟进最新进展,视觉定位审稿人必读论文!

强烈推荐大家阅读学习!


摘要

视觉定位(Visual Grounding)也被称为指代表达文本理解(Referring Expression Comprehension)和短语定位(Phrase Grounding)。它涉及根据给定的文本描述在图像中定位自然数量的特定区域。该任务的目标是模拟社会对话中普遍存在的指代关系,使机器具有类似人类的多模态理解能力。因此,视觉定位在各个领域有着广泛的应用。

然而,自2021年以来,视觉定位取得了重大进展,比如,基于定位的预训练、定位多模态大语言模型、广义视觉定位、多图片定位、千兆像素定位等新概念不断涌现,带来了许多新的挑战。

在本综述中,我们首先回顾了视觉定位的发展历史,并概述了基本的背景知识,包括视觉定位的基本概念和评估指标。我们系统地跟踪和总结了当前视觉定位的发展,并精心整理了各种已有的设置,并建立了这些设置的精确定义,以规范未来的研究并确保不同方法之间公平的比较。此外,我们深入讨论了几个高级话题,并强调了视觉定位的许多应用。

在数据集部分,我们编制了当前相关数据集的列表,同时在RefCOCO/+/g系列数据集上进行了公平的比较分析,并提供了最终的性能预测,以启发未来新的标准测试基准的提出。

最后,我们总结了视觉定位当前所面临的挑战,并为未来的研究提出有价值的方向,这可能为后续的研究人员提供启发。本综述通过提取常见的技术细节的方式进行叙述,进而以涵盖过去十年中每个子主题的代表性工作。

据我们所知,本文是目前视觉定位领域最全面的综述。本文不仅使适用视觉定位的入门研究者,也适用于资深的研究人员用于跟踪最新的研究进展。


综述流程

在本综述中,本文在第1章简要地回顾了视觉定位的发展历史和当前存在的问题。

在第2章中,我们将介绍背景知识,包括任务定义、评价标准和强相关的研究领域。

然后,在第3章中,我们将从任务设置的视角出发,分别从全监督、弱监督、半监督、无监督、零样本、广义视觉定位新型设置等6个方面对当前的研究进行系统性回顾,并比较了不同任务设置下基准测试的结果。特别是全监督设置,其作为主流的设置将会在第3章中进行重点介绍。

随后,我们在第4章介绍了经典的数据集和新型数据集。

最后,我们在第5章指出当前的挑战和未来的发展方向,并在第6章中进行了总结。


贡献

    本文是近五年来第一个系统跟踪和总结近十年视觉定位发展的综述。通过提取常见的技术细节,本综述涵盖了每个子主题中最具代表性的工作。

    本文根据视觉定位中出现的各种各样的设置做了系统的梳理,并对各种设置做了严格的定义,用以规范后续视觉定位的研究,以便获得公平公正的比较。

    本文对近些年的数据集进行了整理,并对视觉定位中五个经典的数据集进行了极限预测,以启发新的标准基准的出现。

    本文对当前的研究难点进行了总结,并对后续的视觉定位的研究提供了有价值的研究方向,用以启发后续研究者的思考。

    据我们所知,这篇综述是目前在视觉定位领域最全面的综述。作者希望本文不仅可以助力于新手入门Grounding,也希望可以帮助有一定研究基础的人对当前的研究进行梳理,使他们能够跟踪并对最新的进展保持了解。

最后,由于视觉定位领域正在迅速发展,本文可能不可能跟上所有最新的发展。作者欢迎研究人员与他们联系,与他们分享在这一领域的新发现,以便本文可跟踪最新进展。这些新的工作将被纳入修订版本并进行讨论。同时作者也会更新和维护论文的项目仓库:https://github.com/linhuixiao/Awesome-Grounding。

图1. 视觉定位任务简要示意图
图2. 视觉定位任务近十年发展趋势
图3. 视觉定位综述论文结构
图4. 当前主流视觉定位设置差异对比示意图
图5. 广义视觉定位示意图
图6. 全监督视觉定位的五种技术路线及近十年发展中的两个主要阶段
图7. 全监督视觉定位的五种代表性模型框架
图8. 全监督视觉定位按三种实验设置进行划分的SoTA结果对比
图9. 传统视觉定位中一阶段和二阶段处理流程对比
图10. 全监督视觉定位、传统零样本视觉定位和开发词汇零样本视觉定位对比
图11. NLP自然语言解析在视觉定位中的应用
图12. RefCOCO/+/g数据集差异对比及统计信息

最新 AI 进展报道
请联系:amos@52cv.net

END




欢迎加入「目标检测交流群?备注:OD




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

视觉定位 Visual Grounding 多模态理解 深度学习 计算机视觉
相关文章