把Waymo玩成GTA游戏！全生成式的车辆行驶轨迹视频合成器来了

机器之心 2024年11月08日

把Waymo玩成GTA游戏！全生成式的车辆行驶轨迹视频合成器来了

FreeVS 是一种由中科院自动化所团队提出的全生成式新视角合成方法，它能够基于生成模型渲染真实场景中任意车辆行驶轨迹下的视频，无需进行耗时的场景重建。与传统基于场景重建的方法相比，FreeVS 能够克服重建方法在渲染新视角图像时的瓶颈，例如无法合理渲染缺少对应观测的新视角图像以及场景重建耗时长等问题。FreeVS 利用稀疏点云投影恢复相机成像的生成管线，并通过学习邻近帧的相机成像来生成任意视角的相机观测。在测试阶段，可以将图像信息染色的场景三维点云投影到任意所需视角，从而控制图像生成结果。FreeVS 还能够模拟车辆变线、撞击行人等场景，甚至可以进行场景编辑，替换车辆或定制车辆运动，生成高质量的合成视频。

🤔FreeVS 是一种全生成式新视角合成方法，能够在真实场景中渲染任意车辆行驶轨迹下的视频，无需进行耗时的场景重建。

🚗FreeVS 利用稀疏点云投影恢复相机成像的生成管线，通过学习邻近帧的相机成像来生成任意视角的相机观测，克服了传统方法在渲染新视角图像时的瓶颈。

🔄FreeVS 可以模拟车辆变线、撞击行人等场景，甚至可以进行场景编辑，替换车辆或定制车辆运动，生成高质量的合成视频。

📊FreeVS 在新车辆运动轨迹下几乎不受图像模糊、伪影等现象困扰，并且能够合成虚拟相机位置上的成像，而传统方法难以应对虚拟相机位置上全部观测的缺失。

2024-11-08 12:54 北京

能改路线，能换视角。

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

来自中科院自动化所的团队提出 FreeVS，一个全生成式的新视角合成方法。相较于仅能在记录的车辆行驶原轨迹上渲染高质量相机视角的基于场景重建的方法，FreeVS 能够作为生成引擎渲染真实场景中任意车辆行驶轨迹下的视频。FreeVS 可被直接部署于任何测试场景，而无需负担通常耗时 2-3 小时的场景重建过程。

真实视频

新轨迹下相机视频

论文链接：https://arxiv.org/abs/2410.18079

项目主页：https://freevs24.github.io/

以生成模型合成真实场景中的相机成像

现有驾驶场景中的新视角合成方法多遵循「场景重建 - 新视角渲染」的管线，依靠重建得到的 NeRF 或 3D-GS 等场景表示来渲染新视角下的成像。

然而基于重建的方法具有两大瓶颈，1）无法合理渲染缺少对应观测的新视角上的图像，2）场景重建耗时长；这使得重建方法无法高效高质地在实际数据采集轨迹之外渲染大量新相机视图。

如简单的视角左右平移即会引起前有方法图像渲染质量的严重下降：

与前有重建方法在原训练视角、训练视角右一米、训练视角上一米的视角合成效果对比。

对此，作者提出一种新颖的完全基于生成模型的新视角合成方法 FreeVS。作者采用一简洁有效的生成管线，可严格基于已观测到的三维场景生成任意视角的相机观测，且无需进行场景重建。

FreeVS 方法管线。生成模型基于染色点云投影恢复相机成像。

作者采用从稀疏点云投影中恢复相机成像的生成管线，这使得生成模型的行为类似于 Inpainting 模型，基于稀疏但可靠的点云投影点补全目标图像。

在训练过程中，生成模型学习基于给定帧的三维先验生成邻近帧的相机成像。尽管训练数据中驾驶车辆在绝大多情况下走直线前行，但生成模型可沿车辆轨迹在侧向相机视角学习相机视角的横向移动。

在测试阶段，以图像信息染色的场景三维点云被投影至任意所需视角，以控制图像生成结果。

FreeVS 方法训练数据与推理效果示例。即使训练数据中无车辆横向移动到逆行车道的例子，生成模型仍然可依靠侧向相机的训练对（（c）->（a））学习相机的侧向移动，从而生成合理的高质量成像 (f)。

车辆行驶模拟与场景编辑

以 Waymo 数据集中的真实场景为例，FreeVS 能够在驾驶车辆原本并未移动的场景模拟车辆移动：

真实视频

‍

新轨迹下相机视频

能模拟车辆变线行驶，甚至能秒变 GTA，使车辆撞向行人：

真‍实视频‍‍

新轨迹下相机视频‍

能在原本直行的场景令车辆走大 Z 型前进：

真实视频‍

‍

新轨迹下相机视频

也能对场景内容进行编辑。任意替换场景车辆，或定制车辆运动。

真实视频

场景编辑后相机视频

真实视频

场景编辑后相机视频

与前有基于重建的方法比较，FreeVS 在新车辆运动轨迹下几乎不受图像模糊、伪影等现象困扰。

FreeVS 与前有方法在新轨迹模拟的表现对比。

新相机模拟

除新行驶轨迹下视角合成，FreeVS 还能合成虚拟相机位置上的成像。而前有基于重建的方法难以应对虚拟相机位置上全部观测的缺失。

新相机模拟示意图

FreeVS 与前有方法在新相机模拟的表现对比。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

FreeVS 新视角合成生成模型计算机视觉 AI

相关文章

【iThome 2024 CIO大調查系列 1｜CIO年度目標】CIO更重視開創型IT戰略，AI創新優先度今年驟增

How popular is ChatGPT? Part 1: more popular than Taylor Swift

Weka Makes Life Simpler for Developers, Engineers, and Architects

Exploring EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies: A Brief Overview

Top Important Computer Vision Papers for the Week from 29/04 to 05/05

✨ 人人都能用好AI，这款GPTs 助你定制高效工作流：Prompt for me 作为一个AI布道者，Hans 在即刻写下数百篇新产品介绍、模型研究和心得，却仍感受到不同领域和...

Redundancy in AI: A Hybrid Convolutional Neural Networks CNN Approach to Minimize Computational Overhead in Reliable Execution

OpenAI计划下周宣布ChatGPT和GPT-4更新，但不会推出GPT-5和搜索引擎

Intersect360 Research Takes a Deep Dive into the HPC-AI Market in New Report

Is the Future of Retail AI in the Hands of CTOs?