视频理解“隐秘的角落”：多任务视频文本理解评测新基准VidText发布

PaperWeekly 前天 17:22

视频理解“隐秘的角落”：多任务视频文本理解评测新基准VidText发布

VidText 是一项针对视频文本理解的综合性基准，旨在评估多模态大模型在视频中识别和理解文本的能力。该基准涵盖了多场景、多语言，并设计了从视觉文本感知到跨模态推理的多种任务，包括全局OCR、局部推理、文本定位和空间推理等。研究者们通过在 VidText 上对 18 个主流多模态大模型进行评测，揭示了当前模型在视频文本理解方面仍面临的挑战，并指出了影响性能的关键因素，为推动多模态大模型在视频分析领域的应用奠定了基础。

🎬 VidText 覆盖了媒体、娱乐、体育等 27 个真实视频场景，并支持英语、中文等多语言评测，确保了广泛的适用性。

🔍 VidText 设计了多粒度任务，包括视频级、片段级和实例级，以全面评估模型在不同层面的文本理解能力。

🧠 VidText 包含从视觉文本感知到跨模态推理的全链路评估，通过思维链（CoT）标注捕捉视频描述与嵌入文本之间的推理过程。

📊 研究表明，当前模型在视频文本理解任务上仍有很大提升空间，高分辨率输入、OCR感知能力以及链式推理策略对提升性能至关重要。

让你更懂AI的 2025-06-12 12:34 北京

告别「字幕无视」时代！

视频理解是通往 AGI 的必要路径。当前视频理解的探索主要集中于视频事件内容，人物动作，关系等。然而，嵌入视频中的可视文字却往往被忽略。从视频字幕到场景文字（街头招牌，道路指示牌），这些视频文本对于推理视频的内容，人物行为等提供了重要线索。

针对于此，来自哈工大，特伦托大学，北大，中科院，北航，南理工和南开大学的研究者们联合提出了 VidText，旨在提供视频文本理解的系统性基准：

论文标题：

VidText: Towards Comprehensive Evaluation for Video Text Understanding

论文链接：

https://arxiv.org/pdf/2505.22810

项目链接：

https://github.com/shuyansy/VidText

VidText 的三大核心亮点

1. 全场景、多语言覆盖

VidText 涵盖媒体、娱乐、体育、知识、生活记录等 27 个真实视频场景，涵盖了丰富的视觉文本场景，例如场景文本和字幕。此外，它还支持多语言评测，包括英语、中文、韩语、日语和德语。

2. 多粒度任务设计

视频级（Holistic Level）：视频级任务涉及对全局视频内容进行整体 OCR 理解和推理。

片段级（Clip Level）：片段级任务需要基于特定时间片段的局部理解。

实例级（Instance Level）：实例级任务需要对单个文本实例进行细粒度的时间和空间定位，以支持精确的问答。

3. 感知-推理任务全链路评估

VidText 涵盖了从视觉文本感知到基于视觉语境的跨模态推理。基于精心标注的视频文本数据，我们生成了以视频文本为中心的思维链（CoT）标注，清晰地捕捉视频描述与嵌入文本之间的推理过程，包括与周围物体的空间关系以及与动作或事件相关的时间依赖关系。

通过这种方式，我们将视频文本感知任务扩展至相应的推理任务，形成一个涵盖八个任务、涵盖多个理解层面的全面配对感知推理框架。

根据以上设计原则，VidText 提出了以下 8 个子任务

1. Holistic OCR（全局文字识别）

模型需要识别视频中完整出现过的所有视觉文本，涵盖整个视频的时空范围。目标是考察模型的全局视频文字感知能力，包括跨时间整合不同帧中出现的文字实例，去重、排序后输出完整的文字列表。

2. Holistic Reasoning（全局推理）

基于 Holistic OCR 识别到的文本，结合视频全局语义信息，模型需要理解视频整体主题或事件。该任务评估模型整合跨时间文本线索与多模态背景信息进行高层语义推理的能力。

3. Local OCR（局部文字识别）

模型在指定的局部视频片段（如用户定义的片段或标注片段）中识别出现的视觉文本。考察模型在局部时间窗口内进行有效文本检测与识别的能力。

4. Local Reasoning（局部推理）

基于局部片段内识别出的文字及上下文场景，模型需回答与该局部语义相关的推理问题。主要考察模型利用局部视觉文本与场景信息完成细粒度语义理解的能力。

5. Text Localization（文本时间定位）

给定指定文本，模型需要预测该文本在视频中出现的时间段（起止时间）。该任务考察模型对视觉文本跨时间动态出现规律的检测与定位能力。

6. Temporal Causal Reasoning（时序因果推理）

在 Text Localization 的基础上，模型需推理该文本与视频事件或动作之间的时序因果关系。重点评估模型理解“文本出现”与“事件发生”之间因果逻辑的能力。

7. Text Tracking（文本空间跟踪）

针对指定的文字实例，模型需预测其在首次出现与消失时的空间位置（即空间 bounding box）。考察模型对动态视频场景中视觉文本在空间维度的持续追踪与识别能力。

8. Spatial Reasoning（空间推理）

在 Text Tracking 的基础上，模型需推理指定文本与其周围视觉对象的空间关系（如上下、左右、包含、邻近等）。评估模型对视觉文本与场景中其他元素之间空间结构关系的理解与推理能力。

详细分析 MLLMs 在 VidText 上的表现

我们在 VidText 上对 18 个主流多模态大模型（MLLM）进行了系统性评测，包括 GPT-4o、Gemini 1.5 Pro、VideoLLaMA3、Qwen2.5-VL、InternVL2.5 等，实验结果如下：

实验结果发现：

（1）视频文字理解任务极具挑战性，当前模型仍远低于人类水平。

（2）在多粒度任务中，视频级别任务和实例级别任务难度高于片段级别任务。因为前者需要视频全局理解，而后者需要细粒度的文字实例理解。

（3）扩大语言模型的规模有助于提升推理任务的效果，但对于感知任务的增益不大。

在进一步的实证研究中，我们揭示了影响视频文本理解性能的若干关键因素：

1. 输入分辨率：高分辨率输入可显著提升文本细节保留与检测能力；

2. OCR 感知能力：图像 OCR 能力是视频文本理解能力的基础。

3. 语言模型的选择：如 Qwen 系列在多语言场景下优势明显，LLaMA 系列表现稍弱；

4. 辅助信息引入：字幕、OCR 结果等外部信息可提升整体语义推理效果；

5. 链式推理（Chain-of-Thought）策略：通过逐步推理引导，有效提升模型跨模态复杂推理能力，在各类推理任务中均带来性能增益。

总结

VidText 系统性填补了视频理解领域长期缺乏“视频内文本建模与推理”能力评测的空白，它有望推动大模型在跨模态时序推理、多粒度感知、多语言理解等方面迈向新的研究方向，为多模态大模型走向实际视频分析与理解应用场景奠定基础。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VidText 视频理解多模态大模型文本理解人工智能

相关文章