我爱计算机视觉 04月05日 20:51
从「表面真实性」到「内在真实性」,南洋理工S-Lab与上海AI Lab联合推出VBench-2.0:面向视频生成新世代的评测框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了VBench-2.0,这是一个新的视频生成评测体系,旨在推动AI视频生成技术从“表面逼真”迈向“内在真实”。它在VBench-1.0的基础上,更侧重于评估视频的物理规律、常识推理、人体动作、场景组合等内在真实性。VBench-2.0通过精细化的测评场景和自动评估策略,帮助研究者更全面地了解模型的潜力,并推动视频生成技术的发展。该体系已全面开源,鼓励社区共同参与,共同探索视频生成的未来。

🤔 VBench-2.0 旨在评估视频生成的“内在真实性”,超越了VBench-1.0对“表面真实性”的关注,更侧重于模型对物理规律、常识推理、人体动作和场景组合的理解。

🔬 VBench-2.0 包含 Human Fidelity(人体动作与结构)、Controllability(可控性)、Creativity(创造性)、Physics(物理规律)和 Commonsense(常识推理)等多个评测维度,并提供了精细化的测评场景和自动评估策略。

💡 VBench-2.0 的评测结果与人工评测结果高度一致,为评估模型的真实能力提供了可靠依据。它不仅能评测现有模型,还能帮助发现模型中存在的问题,为下一代视频生成模型的发展提供有价值的洞见。

🤝 VBench-2.0 已全面开源,鼓励研究者和开发者参与评测,共同推动视频生成技术从“看起来很真”到“本质上真”的跨越,促进AI视频生成生态的成长和进化。

2025-04-04 18:38 湖北

引领视频生成技术从表面逼真迈向内在逼真。




关注公众号,发现CV技术之美




近一年以来,AI 视频生成技术发展迅猛。自 2024 年初 Sora 问世后,大家惊喜地发现:原来 AI 可以生成如此逼真的视频,一时间各大高校实验室、互联网巨头 AI Lab 以及创业公司纷纷入局视频生成领域。

闭源模型(如 Kling、Gen、Pika)在视觉效果方面令人惊叹,近期也有 HunyuanVideo、Wanx 等完全开源的模型在 VBench 榜单上表现出色,让我们看到了社区在推动技术革新上的无限潜力。

然而,当大家都在惊呼「视觉效果太牛了」的同时,难免会产生新的思考:视频生成的下一步究竟该往哪里走?表面逼真度真的就代表一切吗?还能有哪些更深层次的能力值得我们深挖?


从「表面真实性」到「内在真实性」

初代 VBench 作为业内权威的视频生成评测体系,主要关注视频的视觉观感,例如每一帧的清晰度、帧与帧之间的平滑衔接,以及视频和文本描述间的基本一致性。这些要素也被称为表面真实性(Superficial Faithfulness),它解决了视频「看起来是否逼真」和「好不好看」的问题,并为现阶段模型提供了统一衡量标尺。

然而,要让视频生成真正迈向更高层次的应用——例如 AI 辅助电影制作、复杂场景模拟等,就不仅需要视频「看起来逼真」,更需要它具备对物理规律、常识推理、人体解剖、场景组合等世界模型(World Model)层面的深度理解,也就是内在真实性(Intrinsic Faithfulness)。只有能够遵循现实世界规则的模型,才有可能在长剧情、复杂动作和内容创作中更具潜力。


VBench-2.0:向「内在真实性」进发

为引领视频生成技术从表面逼真迈向内在逼真,南洋理工大学 S-Lab 和上海人工智能实验室联合推出 VBench-2.0。

在继承 VBench-1.0 对「表面真实性」关注的同时,VBench-2.0 更强调以下关键评测维度:

    Human Fidelity(人体动作与结构)
    关注做体操时动作是否连贯、角色动作是否合乎人体解剖常识等。
    Controllability(可控性)
    考察模型能否精确地执行用户给出的指令,例如相机运动、人物位置等微调效果。
    Creativity(创造性)
    观察模型在场景组合和故事情节拓展等方面的想象力。
    Physics(物理规律)
    浮力、重力、碰撞效果是否合理?模型能否生成符合物理定律的动作或场景变化?
    Commonsense(常识推理)
    在日常情景或逻辑推断中是否展现出合理性,例如「吃东西」时,食物是否真的进入了口中,角色行为是否合乎常理等。

VBench-2.0 针对以上维度提出了大量的精细化测评场景与自动化评估策略,其中包含通用的多模态模型(VLMs、LLMs)及在特定领域表现优异的「专家」方法(如针对人体异常动作的检测)等。为了确保评测结果的可靠性,我们与真实人类打分结果进行了大规模对照,力求让自动评测与人的直觉判断保持一致。

    分层与解耦的 18 个评测维度
    开源 Prompt List 体系
    与人类观感对齐的自动评测
    多视角观察助力下一代视频生成

在下面这些常被网友吐槽的场景中,模型往往暴露了缺乏「内在真实度」的短板。VBench-2.0 能系统地评判这些一直被网友诟病的视频生成模型的缺陷,而且很准哦!




VBench 评测体系:双剑合璧,覆盖更全面

    VBench-1.0:适用于评估视频生成的「表面真实性」,如视觉质量、文本匹配与整体流畅度等。在现阶段为各家模型的进步提供了强力支持。
    VBench-2.0:在保留 VBench-1.0 优势的同时,进一步聚焦视频的「内在真实性」。当我们想真正判断一个模型有没有「世界模型」,能否用在更深层次的创作和应用场景时,VBench-2.0 的评测就尤为关键。

我们建议研究者同时使用 VBench-1.0 与 VBench-2.0 对模型进行评估:前者能直观地衡量视频的视觉效果和基础一致性,后者则深入探讨模型在物理、常识、复杂行为等领域的表现,帮助你更好地理解模型的实际潜力。


现有模型表现:开源与闭源,皆有亮点

各家 AI 视频生成模型在 VBench-2.0 上的表现。在雷达图中,为了更清晰地可视化比较,我们将每个维度的评测结果归一化到了 0.3 与 0.8 之间。
各家AI 视频生成模型在 VBench-2.0 上的表现。

在 VBench-2.0 的「内在真实性」评测中,并未出现明显的「开源或闭源即占绝对优势」的现象。很多社区开源项目在复杂场景中表现得并不比商用闭源模型差,说明技术进步依赖社区共建是完全可行的。


全面开源,欢迎加入社区,共同推动视频生成新未来

VBench-2.0 已全面开源,让你可以轻松测试并对比感兴趣的模型。我们也非常期待你在实际使用中的反馈与建议,共同助力 AI 视频生成生态的成长和进化。

我们也开源了一系列 Prompt List:https://github.com/Vchitect/VBench/tree/master/VBench-2.0/prompts

左边词云展示了我们 Prompt Suites 的高频词分布,右图展示了不同维度的 prompt 数量统计。无论你是模型研发者、应用开发者,或对前沿技术感兴趣的爱好者,都欢迎加入我们的行列,携手探索视频生成从「看起来很真」到「本质上真」的精彩进化。让我们一起,让下一代视频生成模型更具想象力,也更贴近真实世界!


VBench-2.0 准不准?

针对每个维度,我们计算了 VBench-2.0 评测结果与人工评测结果之间的相关度,进而验证我们方法与人类观感的一致性。

下图中,横轴代表不同维度的人工评测结果,纵轴则展示了 VBench-2.0 方法自动评测的结果,可以看到我们方法在各个维度都与人类感知高度对齐。


带给视频生成的更多思考

VBench-2.0 不仅可以对现有模型进行评测,更重要的是,还可以发现不同模型中可能存在的各种问题,为下一代视频生成模型的发展提供有价值的洞见。

不同需求,选用不同模型

    比较天马行空的创意性的生成:Sora
    想要生成人相关的运动镜头:HunyuanVideo 或者 Kling 1.6
    想要实现精确的相机控制:Kling 1.6
    想要生成严格遵从文本指示的视频:CogVideoX-1.5
    想要模拟基础的物理定律:CogVideoX-1.5

会有全能模型出现吗?蹲守一波 2025 与 2026 年的发展。

基础动作和属性变化仍是短板

我们发现在非常简单的位置移动或者属性变化上,所有模型的效果都不好,这说明现在的模型的训练数据中并没有显式包括位置、属性变化这一类的文本。这可能是 video caption 模型能力上的缺陷。

可能的解决办法包括:

    用提示词或者 In-context 学习的范式来提示 video caption 模型
    人工添加部分该类型文本数据

故事级长文本引导生成有待突破

现在主流视频生成时长普遍只有几秒,但未来在电影、动画等更长场景中,如何保持剧情连贯仍是重大挑战。

现在的模型都还不支撑故事级别(5 个连续的小情节)的视频生成,其中最主要的原因是现在的视频生成模型的时长都还在 5-10 秒这个级别,还远远没有到考虑分钟级别的故事叙述。

这将是未来内容、电影创作中非常重要的一个能力。

平衡文本优化器(Prompt Refiner)与创造力

文本优化器有助于提高视频与描述的精确对齐,但也可能抑制模型的多样性输出。如何兼顾高质量与高创造力值得研究者深入探讨。

现在先进的模型都会使用文本优化器来规范或者细粒度化用户的文本输入。但是我们发现使用文本优化器会在一定程度上提高生成的视频的视觉质量,更贴近于文本的描述。但是会在一定程度上影响生成的多样性以及创造力。

因此,如果你想要针对一个文本生成风格差异比较大的视频,在能关闭文本优化器的情况下请关闭它;而如果你想要更高质量、与文本输入更吻合的视频,那么使用文本优化器是更好的选择。

而对于研究者来说,如何构建一个既能提高视频质量,又不会影响其创造力的优化器是一个挑战。

从表面到内核,全面评估

有些模型的 Demo 虽然炫酷,但在物理、逻辑推断或叙事性上仍有不足。正如 VBench-2.0 所强调的「内在真实度」,我们不能只凭第一观感就匆忙下定论。

表面真实性(例如,电影摄影能力)是观看视频时的第一印象,这也是为什么许多人会将高美学评分、高流畅度等特点与优秀模型联系在一起。

然而,情况并非总是如此。内在真实性(例如,叙事能力、世界模拟能力)也是决定一个视频生成模型是否能够在未来应用于真实场景的关键因素。比如 CogVideoX 在 VBench 中的视频质量得分不算最高,视觉体验可能也不如最近一两个月新出的最强模型,但在 VBench-2.0 的许多关注内在真实性(Intrinsic Faithfulness)的维度上表现良好。

由此可见,想要真正评估一个视频生成模型的全方位能力和潜力,单看 Demo 远远不够。VBench-2.0 引导我们从更全面的角度来认识与衡量模型。


进一步了解

我们诚挚邀请所有对视频生成领域感兴趣的研究者与开发者共同参与 VBench 体系的评测(VBench-1.0 和 VBench-2.0),一起探索视频生成从「看起来很真」到「本质上真」的跨越。让我们携手推动下一代视频生成模型在表面与内核上同时进化。

最新 AI 进展报道
请联系:amos@52cv.net

END




欢迎加入「视频生成交流群👇备注:生成




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VBench-2.0 视频生成 内在真实性 AI评测
相关文章