报告主题:从可控视频生成到3D和4D场景生成
报告日期:12月04日(周三)10:30-11:30
报告要点:
在本文中,我们介绍了DimensionX,一个新颖的框架,旨在仅通过单张图像和视频扩散生成逼真的3D和4D场景。我们的方法始于这样一个认知:3D场景的空间结构和4D场景的时间演变都可以通过视频帧序列有效表示。尽管最近的视频扩散模型在生成生动视觉效果方面取得了显著成功,但在生成过程中由于空间和时间可控性的限制,它们在直接恢复3D/4D场景方面仍面临挑战。为了解决这一问题,我们提出了ST-Director,该方法通过从维度变化的数据中学习维度感知的LoRAs,将视频扩散中的空间和时间因素解耦。这种可控的视频扩散方法能够精确操纵空间结构和时间动态,使我们能够通过结合空间和时间维度,从连续帧中重建3D和4D表示。此外,为了弥合生成视频与现实世界场景之间的差距,我们引入了一种轨迹感知机制用于3D生成,以及一种保持身份的去噪策略用于4D生成。在各种真实和合成数据集上的大量实验表明,与先前的方法相比,DimensionX在可控视频生成、3D和4D场景生成方面取得了更优的结果。
报告嘉宾:
孙文强,香港科技大学博士生,师从张军老师,他于南京大学取得学士学位,他的主要研究方向是图像和视频生成模型,3D重建和生成等。
扫码报名
更多热门报告