关注前沿科技 2025-06-13 13:07 北京
从一张图像出发,基于自定义的相机轨迹探索三维场景
Scene Splatter团队 投稿量子位 | 公众号 QbitAI
三维场景是构建世界模型、具身智能等前沿科技的关键环节之一。
尽管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等生成模型已在三维生成领域取得显著进展,但其往往聚焦在物体级别内容生成,难以实现复杂三维场景的构建。
清华大学联合腾讯提出Scene Splatter——从一张图像出发,基于自定义的相机轨迹探索三维场景。
基于视频扩散模型,创新性地从动量的视角出发,引导视频扩散模型生成满足三维一致性的视频片段,大幅提升三维场景生成效果。
视频生成模型的困境
基于单张图片恢复三维场景是一个病态(ill-posed)问题。
传统三维重建方法依赖多视角图像的匹配与计算,而在单张图片的条件下,缺少几何约束,使得重建的场景存在结构扭曲、缺失和飘浮等问题。
为了解决这一问题,引入视频扩散模型强大的生成先验为场景补充多视角的信息,再利用成熟的多视角重建技术恢复三维场景,成为一条前景可观的道路。
然而,受到视频生成模型能力的制约,其生成内容难以保持充分的三维一致性。
Flash3D为重建方法,未引入生成信息,存在失真和遮挡的问题。
而CogVideo和ViewCrafter虽然具备生成能力,但会改变场景的颜色风格和内容。
动量引导的视频生成
由于现有方法普遍存在视频长度受限和场景一致性差的问题,后续重建的过程中容易出现伪影与失真。
Scene Splatter受到动量算法的启发,构建了级联式的动量引导视频生成:
第一级是从原始特征中构建噪声样本,作为动量添加到去噪得到的特征中,通过自适应的参数来控制动量强度,以增强视频细节并保持场景的一致性。
然而,再感知范围覆盖已知与未知区域的潜在特征中,这种基于潜空间的动量会限制扩散模型再未知区域的生成能力。
因此,第二级进一步引入上述一致性强的视频作为像素级动量,将其与不含动量直接生成的视频融合,以更好地恢复未知区域信息。
通过这种级联式动量机制,Scene Splatter能够引导视频扩散模型生成具有高保真度和一致性的多视角新视频。
△Scene Splatter流程图。
Scene Splatter首先利用高斯预测模型进行场景初始化,随后根据自定义的相机轨迹进行渲染,并使用动量引导的视频模型生成高质量视频,基于视频的多视角信息进行重建。
得到多视角新视频后,对全局高斯表示进行微调,利用增强的视频帧来优化高斯表示,并在新视角进行渲染,以支持后续的动量更新。
通过逐步迭代,Scene Splatter可以实现对三维场景的逐步恢复,突破视频生成模型再长度上的限制。
性能展示
△Scene Splatter在补全场景的同时保持三维一致性。
通过在不同图像风格和相机轨迹上的实验,可以发现。Flash3D从单输入中无法获得明确的几何线索,导致第1行第2列中的桌子和椅子出现变形。此外,它也无法恢复未见区域,这在第4行第2列的缩放设置中很明显。
ViewCrafte和CogVideoX可以增强输入帧,但存在场景不一致的问题,这导致进一步重建时出现冲突。例如,第1行中CogVideoX生成的椅子与输入图像不同,第3行中ViewCrafter改变了场景的颜色风格。
而Scene Splatter可以在保持场景一致性的同时提供高质量的观察结果。从卡通到真实图像,从室内到室外场景的各种输入风格,均可以很好地平衡模型的生成能力与一致性。
△Scene Splatter支持任意相机轨迹的场景探索。
此外,模型能够很好地泛化到不同的相机轨迹中,支持任意视角轨迹的三维探索。
△Scene Splatter消融研究的可视化结果。
通过消融实验,可以看出,在没有任何生成先验知识的情况下,Scene Splatter会退化为Flash3D,其中第5列的渲染结果在几何形状上存在扭曲,因为在单目设置下深度估计并非完全监督。这个问题导致PSNR降低了3.67dB,SSIM降低了0.126。
第3列显示,缺乏潜在层动量会导致现有组件发生变化,表明潜在层动量能够保持场景一致性。
移除Scene Splatter的像素级动量,发现缺乏像素级动量限制了扩散模型的生成能力,导致PSNR降低了3.5dB,SSIM降低了0.111。
论文:https://arxiv.org/abs/2504.02764代码:https://github.com/shengjun-zhang/Scene-Splatter