李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

2025-04-10 10:03 北京

世界模型领域最新进展，要比拼“世界生成”了。

文章转载于量子位（QbitAI）

作者：克雷西

世界模型领域最新进展，要比拼“世界生成”了。

李飞飞吴佳俊团队提出了全面评测基准WorldScore，涵盖了三大类评估指标，动态静态都有涉及，其数据集中包含了3000个测试样例。

并且，WorldScore将3D场景生成、4D场景生成和视频生成三类模型的评估，统一到了一起。

利用WorldScore基准，团队对一共19款模型进行了全面评估。

评估的结果揭示了当前世界生成技术面临的相机控制能力不足、长序列世界生成困难等主要挑战，为模型研究人员提供了重要参考。

正如网友所评价，从单一场景到整体世界构建的转变，需要这样的基准来对研究做出指导。

3D/4D/视频生成统一评测

研究团队认为，之前的基准测试（例如 VBench）仅能评估单个场景的生成能力，远未达到“世界”生成的层次。

并且以前的基准测试仅考虑视频模型，但世界生成模型还包括3D和4D方法，而WorldScore可以对所有这些模型进行统一评估。

WorldScore将世界生成任务分解成一系列连续的下一场景生成任务，每个任务由三个关键组成部分定义：

当前场景：包含一张场景图像和对应的文本描述；

下一场景；

布局：一系列相机矩阵定义的相机轨迹，以及描述相机如何移动的文本说明。

数据集方面，WorldScore包含了3000个测试样例，其中2000个用于评估静态世界生成能力，1000个用于评估动态世界生成能力。

静态世界生成数据涵盖了10个场景类别，包括5类室内场景（餐饮空间、居住空间、通道、公共空间、工作空间）和5类室外场景（城市、郊区、水域景观、陆地景观、绿色景观）。

动态世界数据则包含了5种不同类型的运动：关节运动、可变形运动、流体运动、刚体运动和多物体运动。

每个测试样例都有两个版本——真实风格和艺术风格，以评估模型在不同视觉域的表现。

所涉及的指标则包括了可控性、质量和动态评估（静态场景不涉及此项）三个大类。

其中可控性评估，具体又包括了三项指标：

相机控制能力：通过计算生成视频中相机运动与指定轨迹的偏差来评估，具体计算尺度不变的旋转误差和平移误差，然后取其几何平均值；

物体控制能力：使用开放集物体检测模型检查指定物体是否出现在生成场景中，从文本提示中提取1-2个关键物体描述，计算检测到这些物体的成功率；

内容一致性：使用CLIPScore评估生成场景与完整文本描述的语义匹配程度。

质量评估，涵盖了四项内容：

3D一致性：使用DROID-SLAM估计每帧的密集深度图，计算连续帧之间可见像素的重投影误差，评估场景几何结构的稳定性；

光度一致性：通过计算连续帧之间的光流来评估外观和纹理的稳定性，使用平均端点误差（AEPE）来量化不稳定的视觉表现；

风格一致性：计算第一帧和最后一帧Gram矩阵之间的F范数差异，评估风格保持程度；

主观质量：结合CLIP-IQA+和CLIP Aesthetic两个自动评估指标（该组合经过200人的人类研究验证最接近人类感知）。

动态评估则包含三个方面：

运动准确性：比较指定运动区域内外的光流，评估运动是否出现在正确位置；

运动幅度：通过估计连续帧之间的光流大小来评估生成大幅度运动的能力；

运动平滑性：使用视频帧插值模型生成平滑过渡作为参考，评估生成视频的时间连续性。

最终，所有评估指标都经过线性归一化处理到0-100区间，并通过计算控制和质量维度各指标的算术平均值得到WorldScore-Static得分。

在此基础上，再加入动态维度的三项指标成绩，就得到了WorldScore-Dynamic评分。

3D模型更擅长静态，视频模型动态效果更好

利用WorldScore，研究团队对19款不同类型模型的世界生成能力进行了评测，包括2款闭源模型和17款开源模型。

评测结果显示，在静态世界生成方面，3D场景生成模型展现出明显优势。其中WonderWorld和LucidDreamer分别以72.69分和70.40分位居榜首，远超表现最好的视频模型CogVideoX-I2V的62.15分。

但在动态世界生成方面，则是视频模型展现出了较强的实力，开源模型CogVideoX-I2V以59.12分的成绩领先。

在不同场景类型的测试中，视频模型在室内场景表现相对较好，但在室外场景生成时与3D模型的差距明显扩大。

同时，序列长度对模型性能有显著影响——所有模型在短序列任务上表现尚可，但视频模型在处理长序列时性能显著下降，而3D模型则相对稳定。

此外，研究者还对比了T2V和I2V两类视频模型的特点。结果表明，T2V模型在控制性和动态生成能力方面较强，更容易实现大幅度的相机运动。

相比之下，I2V模型倾向于保持输入图像的视角，虽然生成质量较高，但相机运动相对保守。

作者简介

本文的两名共同一作均来自吴佳俊团队，分别是硕士生段皞一（Haoyi Duan）和博士生俞洪兴（Hong-Xing Koven Yu）。

段皞一是浙江大学2023届优秀毕业生，还获得了竺院荣誉学位，本科期间在周钊教授的指导下研究多模态学习。

俞洪兴本科和和硕士均就读于中山大学，硕士期间导师是郑伟诗教授（现任中山大学计算机学院副院长）。

俞洪兴的主要研究方向是物理场景理解、动力学模型与仿真，以及3D/4D视觉生成。

目前，两人正在进行密切合作。

今年入选CVPR HighLight的单图生成交互式3D场景模型WonderWorld，也是两人共同一作。

除了两名共同一作和吴佳俊以及李飞飞之外，斯坦福硕士生Sirui (Ariel) Chen也参与了WorldScore的工作。

论文地址：
https://arxiv.org/abs/2504.00983

点个“爱心”，再走吧

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签