Z Potentials 前天 14:47
Z Tech | 世界模型能力如何评估?对话斯坦福大学李飞飞与吴佳俊团队,直播解析世界模型模型新基准WorldScore
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

斯坦福大学李飞飞与吴佳俊团队提出的WorldScore基准,为3D、4D和视频生成模型提供统一评估标准,并揭示了“世界生成”技术的核心挑战。4月21日,Z Potentials特邀斯坦福大学段皞一,深度解读WorldScore,探讨其对AI生成技术的影响。WorldScore通过对19种模型的评估,涵盖图像到视频、文本到视频、3D场景生成和4D生成模型,为未来研究提供指导。

💡WorldScore是一个创新的世界模型基准,旨在统一评估3D、4D和视频生成模型。该基准的提出,为不同生成模型提供了统一的比较标准,促进了不同技术之间的交流和进步。

📊WorldScore使用高质量且多样化的数据集进行测试,涵盖多种静态和动态场景,并包含多种视觉风格。这种多样化的数据集能够更全面地评估模型的性能,确保评估结果的可靠性。

🔑WorldScore指标综合考虑了世界生成模型的可控性、质量和动态特性。这些指标能够全面衡量模型的性能,确保评估结果的客观性。

🔍通过对19种模型的全面评估,WorldScore揭示了当前世界生成方法中的关键洞察与挑战。评估结果为研究人员提供了宝贵的指导,帮助他们更好地理解和改进现有模型。

原创 Z Potentials 2025-04-17 17:58 上海

深度解析其团队颠覆性工作WorldScore,揭示3D/4D与视频生成模型结合的“世界生成”能力评估新标准的核心奥秘。

近期,Stanford大学李飞飞与吴佳俊团队提出全新世界模型基准WorldScore,不仅统一了3D、4D和视频生成模型的评估标准,还揭示了当前“世界生成”技术的核心挑战,包括相机控制能力不足和长序列生成困难等问题。WorldScore为全球AI生成技术树立了全新的里程碑,标志着从单一场景生成向复杂世界构建的关键转变。



4月21日北京时间早上10点(美西时间4月20日晚上7点),Z Potentials特邀斯坦福大学段皞一(Haoyi Duan)直播Talk,深度解析其团队颠覆性工作WorldScore,揭示3D/4D与视频生成模型结合的“世界生成”能力评估新标准的核心奥秘。段皞一(Haoyi Duan)和俞洪兴(Koven Yu)为WorldScore的共同一作。



段皞一斯坦福大学电气工程系的硕士研究生,目前在斯坦福视觉与学习实验室(Stanford Vision and Learning Lab)担任研究助理,师从吴佳俊教授,本科毕业于浙江大学竺可桢荣誉学院。他的研究重点是3D/4D视觉生成领域,并与俞洪兴密切合作。本科期间,他在赵洲教授的指导下专注于多模态学习的研究。


段皞一在人工智能和计算机视觉领域已有多项重要研究成果发表。他是CVPR 2025 Highlight paper WonderWorld: Interactive 3D Scene Generation from a Single Image的共同一作,该工作提出了一种从单张图像生成交互式3D场景的创新方法。此外,他还参与了WonderJourney(CVPR2024),以及Cross-modal Prompts(NeurIPS 2023),这些研究在跨模态学习和视觉生成领域均产生了广泛影响。



俞洪兴斯坦福大学计算机科学系博士研究生,目前在斯坦福 Stanford Vision and Learning Lab,师从吴佳俊教授。他的研究聚焦于人工智能如何理解、生成并与物理世界交互,具体研究方向包括物理场景理解、动力学模型与仿真以及3D/4D视觉生成。他曾两次在Google Research实习,与Noah Snavely和Bill Freeman合作,并在加入斯坦福之前访问加州大学圣地亚哥分校,与Manmohan Chandraker合作。


俞洪兴拥有众多荣誉与奖项,包括SIGGRAPH Asia 2023 Best PaperECCV 2024 Oral Paper、Jane Street Graduate Fellowship决赛入围、Meta Research PhD Fellowship决赛入围,以及Nvidia Graduate Fellowship连续两年的提名他的研究不仅推动了学术界对物理世界的建模与理解,也为实际应用提供了新的可能性。


我们非常荣幸地邀请到斯坦福大学的段皞一,他们将为我们深入解析其团队近期提出的WorldScore基准。作为世界生成领域的开创性工作,WorldScore不仅为3D、4D场景生成以及视频生成模型提供了一个统一的评估框架,还揭示了当前“世界生成”技术的核心挑战与未来发展方向。



该研究通过对19种不同的模型进行广泛的实验评估,其中包括5个图像到视频(I2V)模型(包含2个领先的闭源模型)、7个文本到视频(T2V)模型、6个3D场景生成模型以及1个4D生成模型。总体而言,这项科研工作的贡献体现在以下四个方面:



分享会末尾设置QA环节,扫二维码进群交流或直接预约直播:

Z Tech诚邀海内外学术工作者投稿或加入我们的Phd/Reseachers的实名社群!


https://arxiv.org/pdf/2504.00983
https://haoyi-duan.github.io/
https://kovenyu.com/

-----------END-----------
🚀 我们正在招募新一期的实习生
🚀 我们正在寻找有创造力的00后创业
关于Z Potentials

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

WorldScore 3D 4D 视频生成 AI评估
相关文章