World Labs推出了首个「空间智能」模型,只需一张图片即可生成逼真的3D世界。该模型能够估算3D几何图形、填充缺失部分、创建新内容,并生成不同相机效果、3D效果和艺术风格的3D内容。与2D内容相比,3D内容具有更好的控制性和一致性,可以应用于电影、游戏等领域,改变我们制作数字内容的方式。此外,该模型还可以与其他AI工具结合,例如文本到图像模型,实现基于文本创建3D世界的功能,展现了3D原生生成式AI的无限可能性。
🎨只需一张图片,World Labs的空间智能模型就能生成逼真的3D世界,包括估算3D几何图形、填充场景缺失部分和创建新内容等功能。
📸该模型支持生成各种相机效果,例如浅景深和多轴变焦,以及3D效果,使生成的3D世界更加生动和真实。
🖼️模型可以适应不同的艺术风格,例如生成经典绘画风格的3D内容,并与其他AI工具结合,例如文本到图像模型,实现基于文本创建3D世界。
🎮生成的3D世界具有持久现实、实时控制和正确的几何形状等特点,与传统2D内容相比,具有更好的控制性和一致性,可应用于电影、游戏等领域。
🚀World Labs团队正在努力改进模型的3D世界大小和逼真度,并探索新的用户互动方式,展现了3D原生生成式AI的无限可能性。
今日凌晨,由「AI 教母」李飞飞联合创办的 World Labs 发布了他们的第一个「空间智能」模型,只需一张图,就可以生成一个逼真的 3D 世界。据介绍,对于输入的图像,这一「空间智能」系统可以估算出 3D 几何图形,填充场景中未见的部分,创建新的内容,实现各个方位的 3D 世界构建。与生成式 AI 工具生成的图片或视频等 2D 内容不同,以 3D 形式生成的内容具有更好的控制性和一致性。而且,该模型还可以适应各种场景类型和艺术风格,比如生成不同的相机效果、3D 效果以及经典绘画风格的 3D 内容。这将改变我们制作电影、游戏、模拟器和其他物理世界数字表现形式的方式。World Labs 团队在官方博客中写道,输出的 3D 场景可以在浏览器中实时呈现,且能够实现完全的相机控制。这意味着你可以像在电子游戏中一样使用自由移动的相机来探索它们,甚至可以模拟 3D 相机效果,如浅景深(即只有距离摄像机一定距离的物体才能对焦)或多轴变焦(同时调整相机的位置和视野)。大多数生成模型预测像素,而预测 3D 场景则有很多好处:持久现实:世界一旦生成,就会一直存在。即使你把视线移开,再回来时,场景也不会改变。实时控制:生成场景后,你可以在场景中实时移动。你可以留心观察一朵花的细节,也可以窥探某个角落,看看会有什么发现。正确的几何形状:生成的世界符合 3D 几何的基本物理规则。它们具有一种实体感和深度感。这与某些人工智能生成视频的不真实感形成了鲜明的对比。
可视化 3D 场景的最简单方法是绘制深度图,其中每个像素的颜色取决于其与相机的距离:你可以使用 3D 场景结构来构建互动效果——只需点击一下,就能与场景互动:World Labs 团队还尝试窥探了一些创意杰作背后的世界,从梵高、霍珀、修拉和康丁斯基的作品中生成了他们最喜欢的世界。重要的一点是,这一「空间模型」可以生成原画中没有的内容。一起来欣赏 3D 版世界名画:研究团队认为,3D 世界生成可与其他人工智能工具自然地结合。例如,你可以首先使用文本到图像模型生成图像,从而从基于文本创建世界。他们还与一些创作者合作探索了 3D 原生生成式 AI 工作流带来的各种可能性。例如,Brittani Natali 在生成的世界中精心设计了相机路径,通过三部短片唤起不同的情绪,其工作流程结合了 World Labs 的技术和 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具:研究团队表示,这些成果是他们生成 3D 世界的首个早期预览。他们正在努力改进生成的 3D 世界的大小和逼真度,且在尝试与用户互动的新方法。