36kr-科技 2024年12月03日
「AI 教母」李飞飞空间智能首个产品亮相,一张图生成一个 3D 游戏世界,这次真不是 PPT
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

李飞飞创办的AI初创公司World Labs推出首个产品,能够基于一张图片生成可交互、可编辑的3D游戏场景。该产品利用AI生成所有内容,并遵循真实物理规则,创造出一个稳定、真实的3D世界。World Labs的核心突破在于,他们将3D场景生成的优势发挥到极致,例如恒久的现实、实时控制和真实的物理规则。此外,World Labs还能够将名画还原成可探索的3D世界,并与其他AI工具联动,为创作者提供新的创作体验。目前,World Labs还在招募人才,并开放申请候补名单,体验其生成的3D世界。

🤔World Labs基于一张图片生成可交互、可编辑的3D游戏场景,所有内容均由AI生成,突破了传统2D生成式AI的局限。

🌍World Labs生成的3D世界稳定、真实且符合物理规则,拥有恒久的现实、实时控制和真实的物理规则等优势,创造出更具沉浸感的体验。

🎨World Labs能够将名画还原成可探索的3D世界,并能『脑补』出原画中不存在的细节,展现出强大的AI生成能力。

🤝World Labs可以与Midjourney等AI工具联动,创作者可以利用熟悉的工具创造全新的3D体验,例如设计人物动作、控制镜头、创作短片等。

🚀World Labs强调空间智能是AI发展的重要方向,认为空间智能是理解和创造三维世界的基础,未来将推动AI向更高级别的发展。

今天凌晨,李飞飞空间智能首个产品惊艳亮相。

开局一张图,它就能生成一个 3D 视频游戏场景。虽说现在有不少 AI 都能把照片转化为 3D 模型,但 World Labs 带来的不只是建模,而是一个真正可交互、可编辑的活体世界。

除了原始输入的图片,所有内容都是通过 AI 生成。

World Labs 在博客中说道:

大多数生成式 AI 工具都制作图像或视频等 2D 内容。相反,以 3D 形式生成可以提高控制和一致性。这将改变我们制作电影、游戏、模拟器和物理世界的其他数字表现形式的方式。

实际上,当前市场不乏 3D 生成模型,但通常会出现许多问题。比如初创公司 Decart 的 Minecraft 模拟器 Oasis,要么画面不够清晰,要么场景布局经常混乱。

相比之下,World Labs 却创造出了一个稳定、真实且符合物理规则的 3D 世界。

一个活的世界,比一千张死的图片更有价值。

一张图生成一个 3D 游戏世界?李飞飞空间智能首秀

开局一张图,结局竟是一个世界?一起来看看 World Labs 产品生成的 3D 游戏世界。

使用鼠标或键盘 W/A/S/D 自由穿行,然后用鼠标单击并拖动来环顾四周:

体验地址:https://www.worldlabs.ai/blog

场景生成好后,你就成了一个虚拟摄影师,在浏览器里实时操控相机,想拍什么角度就拍什么角度,如同专业摄影。

还能模拟浅景深,不过,只有距离相机一定距离的物体才能清晰对焦:

推拉镜头也没问题。

World Labs 的核心突破在于,他们没有止步于像素级的表面呈现,而是直指 3D 场景生成的本质优势:

World Labs 还表示,通过深度贴图技术,他们成功让每个像素都有了真实的空间距离感。而图片中每个像素的颜色,都是由它和摄像头的距离来决定的。

不仅如此,World Labs 还给场景注入了灵魂——添加各种互动特效,打造动画效果,让整个世界活起来。

来都来了,脑洞大开的 World Labs 还能把梵高、霍珀这些大师的名画还原成可以探索的 3D 世界。不得不说,绝美。

而且原画里没有的东西,它都能「脑补」出来,而且出奇地合理。

联动 Midjourney,让创作者玩转 3D 新世界

说到创作过程,3D 生成的世界还能和其他 AI 工具完美配合,这意味着创作者可以用自己熟悉的工具,创造出全新的体验。

比如说,World Labs 可以先使用文本到图像模型生成图像,从而从文本创建世界。不同的模型有自己的风格,而这些独特的风格都能被保留下来。

来看个具体的例子。

World Labs 团队基于同一提示词,让不同的 AI 画了四个版本的青少年卧室。

A vibrant cartoon-style teenager's bedroom with a bed covered in colorful blankets, a cluttered desk with a computer, posters on the walls, and scattered sports gear. A guitar leans against the wall, and a cozy, patterned rug is in the center. Light from a window adds a warm, youthful vibe to the room.

一间充满活力的卡通风格青少年卧室,床上铺着五颜六色的毯子,杂乱的书桌上放着一台电脑,墙上贴着海报,运动装备散落。一把吉他靠在墙上,中间是一块舒适的图案地毯。窗外的光线为房间增添了温暖、年轻的氛围。

已经有一些创作者通过与 World Labs 达成合作,提前用上了。比如,Eric Solorio 就展示了怎么用它来设计人物动作和控制镜头。

而 Brittani Natali 则把 World Labs 的技术和 Midjourney、Runway、Suno、ElevenLabs 等工具组合起来,设计丰富的镜头运动,并创作出富有情感张力的短片。

不过,World Labs 也坦言:

这些结果是我们生成 3D 世界的第一次早期预览。我们正在努力提高生成世界的大小和保真度,并尝试让用户与它们交互的新方式。

另外,想试试吗?现在可以去申请候补名单了。

附上地址:https://forms.gle/tkfW7yMqMsCXWw4F7

并且,World Labs 现在也在招人,总共开放应用 AI 研究工程师、业务运营、数据工程师、模型优化工程师、产品设计师等 8 类岗位。

感兴趣可以去看看:https://jobs.ashbyhq.com/worldlabs

值得注意的是,博客里提到页面上所有的图片均使用 FLUX 1.1 [pro]、Ideogram 或 Midjourney 生成,堪称巧妙联动。

李飞飞本人也第一时间在 X 平台站台宣传:

非常兴奋地向你展示我们团队 @theworldlabs 的最新成果!无论你如何构思这个概念,用语言来形容通过照片或句子生成的 3D 场景的互动感受都是相当有挑战性的。希望你能喜欢这篇博客!?❤️‍?

硬刚 Sora!李飞飞为什么说 2D 已死,3D 当立?

深入探讨 World Labs 的技术,就不得不回到这家公司的起点。

被誉为「AI 教母」的李飞飞曾任 Google Cloud AI 负责人。今年 9 月份,在成功融资 2.3 亿美元后,她正式官宣创办 AI 初创公司 ——World Labs。

当时,李飞飞发文称,将与其他三位联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall,以及一支世界级图像技术团队共同创办实验室,致力于解决这个大自然花费五亿年才解决的超级难题。

World Labs 也宣称明年将推出首款构建能够理解 3D 世界并与之交互的 AI 模型产品,公司称其为「大世界模型」。

据称目标用户是艺术家、设计师、开发人员和工程师,以及游戏公司和电影公司。

关于空间智能,World Labs 的官网是这样描述的:

「人类智能有许多方面,其中之一是语言智能,它使我们能够通过语言进行交流和与他人联系。但更为基础的或许是空间智能,它让我们能够理解和与周围世界互动。

空间智能还能帮助我们创造,将脑海中的画面带入现实世界...... 要超越当今模型的能力,我们需要具备空间智能的 AI,它能够在三维空间和时间中对世界进行建模,并对物体、场所和交互进行推理。」

在 World Labs 正式成立后,李飞飞在接受 a16z 采访时强调,空间智能是视觉智能的核心。相比仅限于一维的语言模型,空间智能作为理解和创造三维世界的基础,对 AI 的发展至关重要。

未来,空间智能将帮助我们将这些体验提升到 3D 级别。不仅仅是图像或剪辑,而是一个完全模拟但又充满活力和互动的 3D 世界。

这种技术可能用于游戏,但用途远不止于此,比如虚拟摄影等各种应用场景,甚至有数百万种可能的应用。

现在发布的项目也印证了她的说法。

今天凌晨,英伟达 AI 智能体项目负责人 Jim Fan (同时也是李飞飞的前学生)发文表示祝贺:

GenAI 正在创建越来越高维的人类体验快照。Stable Diffusion 是一个 2D 快照。 Sora 是一个带有时间维度的 2D 快照。

现在,World Labs 带来了一个 3D 且完全沉浸式的快照。 空间智能得以优雅地呈现,非常出色。

插个冷知识,在 Sora 迟迟未能落地之际,李飞飞曾在斯坦福大学的一场闭门论坛上公开 diss Sora。

她指出,尽管 OpenAI 的 Sora 模型能够生成视频,但其核心仍是二维,缺乏对三维空间的深入理解。

在她看来,二维是表象,三维是本质,空间智能才是 AI 通向 AGI 的钥匙。

当时,她以 Sora 模型生成的「日本女性走过霓虹闪烁东京街头视频」举例称:

如果你希望算法换个角度,来展现这个女子走过街头的视频,比如把摄像机放在女子背后,Sora 无法做到。

因为这个模型对于三维世界并没有真正的深刻理解。而人类可以在脑海中想象女子背后的情景。

人类可以理解在复杂的环境下如何活动。我们知道如何抓取,如何控制,如何打造工具,如何建造城市。根本而言,空间智能是几何形状,是物体间的关系,是三维空间。

可以说,从 Stable Diffusion 的二维图像,到 Sora 的时间维度视频,再到 World Labs 开创的交互式 3D 世界,AI 不仅要理解世界,更要创造世界。

一张照片是起点,一个真正立体、可交互、富有生命力的虚拟世界是终点,而 World Labs 正在弥合这道鸿沟。

本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

World Labs 空间智能 3D生成 AI 李飞飞
相关文章