原创 Z Potentials 2025-04-17 17:58 上海
深度解析其团队颠覆性工作WorldScore,揭示3D/4D与视频生成模型结合的“世界生成”能力评估新标准的核心奥秘。
近期,Stanford大学李飞飞与吴佳俊团队提出全新世界模型基准WorldScore,不仅统一了3D、4D和视频生成模型的评估标准,还揭示了当前“世界生成”技术的核心挑战,包括相机控制能力不足和长序列生成困难等问题。WorldScore为全球AI生成技术树立了全新的里程碑,标志着从单一场景生成向复杂世界构建的关键转变。
4月21日北京时间早上10点(美西时间4月20日晚上7点),Z Potentials特邀斯坦福大学段皞一(Haoyi Duan)直播Talk,深度解析其团队颠覆性工作WorldScore,揭示3D/4D与视频生成模型结合的“世界生成”能力评估新标准的核心奥秘。段皞一(Haoyi Duan)和俞洪兴(Koven Yu)为WorldScore的共同一作。
段皞一是斯坦福大学电气工程系的硕士研究生,目前在斯坦福视觉与学习实验室(Stanford Vision and Learning Lab)担任研究助理,师从吴佳俊教授,本科毕业于浙江大学竺可桢荣誉学院。他的研究重点是3D/4D视觉生成领域,并与俞洪兴密切合作。本科期间,他在赵洲教授的指导下专注于多模态学习的研究。
段皞一在人工智能和计算机视觉领域已有多项重要研究成果发表。他是CVPR 2025 Highlight paper WonderWorld: Interactive 3D Scene Generation from a Single Image的共同一作,该工作提出了一种从单张图像生成交互式3D场景的创新方法。此外,他还参与了WonderJourney(CVPR2024),以及Cross-modal Prompts(NeurIPS 2023),这些研究在跨模态学习和视觉生成领域均产生了广泛影响。
俞洪兴是斯坦福大学计算机科学系的博士研究生,目前在斯坦福 Stanford Vision and Learning Lab,师从吴佳俊教授。他的研究聚焦于人工智能如何理解、生成并与物理世界交互,具体研究方向包括物理场景理解、动力学模型与仿真以及3D/4D视觉生成。他曾两次在Google Research实习,与Noah Snavely和Bill Freeman合作,并在加入斯坦福之前访问加州大学圣地亚哥分校,与Manmohan Chandraker合作。
俞洪兴拥有众多荣誉与奖项,包括SIGGRAPH Asia 2023 Best Paper、ECCV 2024 Oral Paper、Jane Street Graduate Fellowship决赛入围、Meta Research PhD Fellowship决赛入围,以及Nvidia Graduate Fellowship连续两年的提名。他的研究不仅推动了学术界对物理世界的建模与理解,也为实际应用提供了新的可能性。
我们非常荣幸地邀请到斯坦福大学的段皞一,他们将为我们深入解析其团队近期提出的WorldScore基准。作为世界生成领域的开创性工作,WorldScore不仅为3D、4D场景生成以及视频生成模型提供了一个统一的评估框架,还揭示了当前“世界生成”技术的核心挑战与未来发展方向。
该研究通过对19种不同的模型进行广泛的实验评估,其中包括5个图像到视频(I2V)模型(包含2个领先的闭源模型)、7个文本到视频(T2V)模型、6个3D场景生成模型以及1个4D生成模型。总体而言,这项科研工作的贡献体现在以下四个方面:
提出了首个世界生成基准——WorldScore,该基准能够对包括3D、4D、I2V和T2V模型在内的各种方法进行统一评估。
整理了一个高质量且多样化的数据集,用于基准测试。该数据集涵盖了多种类别的静态和动态场景,并包含多种视觉风格。
引入了WorldScore指标,这些指标综合了世界生成模型性能中的关键方面,包括可控性、质量以及动态特性。
通过对17个开源模型和2个闭源模型的全面评估,揭示了当前世界生成方法中的关键洞察与挑战,为未来的研究提供了宝贵的指导。