活动报名｜DimensionX，港科大&清华：从单图像创建一切3D和4D场景，现已开源

智源社区 2024年12月03日

活动报名｜DimensionX，港科大&清华：从单图像创建一切3D和4D场景，现已开源

DimensionX是一个新颖的框架，旨在通过单张图像和视频扩散生成逼真的3D和4D场景。该框架利用视频帧序列有效表示3D场景的空间结构和4D场景的时间演变，并通过ST-Director方法解耦视频扩散中的空间和时间因素，实现对空间结构和时间动态的精确操控。此外，DimensionX还引入了轨迹感知机制和保持身份的去噪策略，以提升生成视频的真实性和4D生成的稳定性。实验结果表明，DimensionX在可控视频生成、3D和4D场景生成方面取得了优于现有方法的结果。

🤔 **DimensionX框架：** 旨在通过单张图像和视频扩散生成逼真的3D和4D场景，利用视频帧序列有效表示场景的空间和时间信息。

🚀 **ST-Director方法：** 通过学习维度感知的LoRAs，将视频扩散中的空间和时间因素解耦，实现对空间结构和时间动态的精确控制，从而生成可控的视频。

🔄 **轨迹感知机制：** 用于3D生成，弥合生成视频与现实世界场景之间的差距，提升生成效果的真实性。

🛡️ **保持身份的去噪策略：** 用于4D生成，确保生成的4D场景能够稳定地保持身份信息，避免出现不一致的情况。

📊 **实验结果：** DimensionX在可控视频生成、3D和4D场景生成方面取得了优于现有方法的结果，展现了其在该领域的技术优势。

报告主题：从可控视频生成到3D和4D场景生成

报告日期：12月04日（周三）10:30-11:30

报告要点:

在本文中，我们介绍了DimensionX，一个新颖的框架，旨在仅通过单张图像和视频扩散生成逼真的3D和4D场景。我们的方法始于这样一个认知：3D场景的空间结构和4D场景的时间演变都可以通过视频帧序列有效表示。尽管最近的视频扩散模型在生成生动视觉效果方面取得了显著成功，但在生成过程中由于空间和时间可控性的限制，它们在直接恢复3D/4D场景方面仍面临挑战。为了解决这一问题，我们提出了ST-Director，该方法通过从维度变化的数据中学习维度感知的LoRAs，将视频扩散中的空间和时间因素解耦。这种可控的视频扩散方法能够精确操纵空间结构和时间动态，使我们能够通过结合空间和时间维度，从连续帧中重建3D和4D表示。此外，为了弥合生成视频与现实世界场景之间的差距，我们引入了一种轨迹感知机制用于3D生成，以及一种保持身份的去噪策略用于4D生成。在各种真实和合成数据集上的大量实验表明，与先前的方法相比，DimensionX在可控视频生成、3D和4D场景生成方面取得了更优的结果。

报告嘉宾：

孙文强，香港科技大学博士生，师从张军老师，他于南京大学取得学士学位，他的主要研究方向是图像和视频生成模型，3D重建和生成等。

扫码报名

更多热门报告

点赞收藏评论分享到Link

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DimensionX 视频扩散 3D场景生成 4D场景生成可控视频生成

相关文章

ECCV 2024 | 新梦幻场景生成方法，高质量、视角一致、可编辑3D场景

高效可商用二次元图像生成模型；PixVerse 一键变身超级英雄；开源高级运镜 3D 场景重建技术；SG-I2V精准控制运动轨迹

World Labs’ AI can generate interactive 3D scenes from a single photo

速递｜李飞飞 World Labs 推出首个 AI 系统—— 生成从图片到可交互的 3D 场景

接力李飞飞谷歌虚拟世界生成器上线将和马斯克联手做AI游戏？

单张图生成可玩3D世界！谷歌虚拟世界生成器上线：还要和马斯克联手做AI游戏

接力李飛飛，谷歌虛擬世界生成器上線，將和馬斯克聯手做AI遊戲？

大规模3D场景2分钟生成，效率提升30倍！中科院发布空间智能新框架 | AAAI 2025

大规模3D场景2分钟生成，效率提升30倍！中科院发布空间智能新框架 | AAAI 2025

单张图像探索3D奇境：Wonderland让高质量3D场景生成更高效