一句话爆改三维场景，斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解

36氪 - 科技频道 2024年11月13日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

斯坦福研究团队提出了一种名为“场景语言”的新方法，旨在让AI理解和生成三维场景。通过融合程序语言、自然语言和神经网络表征，AI能够理解人类的描述，并将其转化为精细的三维场景。这种方法不仅能生成静态场景，还能生成动态场景，并支持编辑功能，例如调整物体的位置和风格。与传统方法相比，场景语言在用户偏好和物体数量控制方面表现出显著优势，展现了AI理解和创造3D世界的全新可能性，有望在游戏开发、建筑设计等领域带来创新。

🤔 **场景语言：AI理解3D世界的桥梁**：斯坦福团队提出“场景语言”，将自然语言与程序语言、神经网络表征相结合，使AI能够理解人类对3D场景的描述，并将其转化为具体的3D模型。

🎮 **精准构建3D场景：从国际象棋到复杂场景**：例如，输入“初始状态的国际象棋盘”，AI可以识别并生成64个格子、32个棋子等细节，最终生成符合规则的3D场景。

🎨 **支持多种渲染和编辑：满足不同需求**：该方法支持多种渲染方式，适应不同应用场景，并具备编辑功能，用户可以通过简单指令修改场景元素，例如调整物体的位置和风格。

📈 **显著优势：用户偏好和物体控制**：与传统方法相比，场景语言在用户偏好测试中获得85.65%的偏好，物体数量控制准确率达到100%，展现出强大的性能。

🚀 **应用前景：游戏、建筑等领域**：这项研究展示了AI理解和创造3D世界的潜力，有望在游戏开发、建筑设计等领域推动创新。

从文字生成三维世界的场景有多难？

试想一下，如果我们要 “生成复活节岛的摩艾石像”，AI 怎么才能理解我们的需求，然后生成一个精美的三维场景？

斯坦福的研究团队提出了一个创新性解决方案：就像人类使用自然语言（natural language）进行交流，三维场景的构建需要场景语言（Scene Language）。