(本文阅读时间:11分钟)
编者按:在计算机图形学发展数十年之后,渲染技术正迎来一次由人工智能驱动的革新。传统的渲染方法依赖复杂的几何建模和物理光学公式,而神经网络渲染(neural rendering)则尝试以学习的方式建模光线传播过程。近期,微软亚洲研究院提出的 RenderFormer 模型首次展示了全新的图形渲染能力,可在不依赖传统光线追踪或光栅化的前提下,仅通过神经网络就能实现支持任意场景输入且具备全局光照效果的3D渲染。RenderFormer 为构建渲染领域的基础模型迈出了关键一步,也为神经渲染与生成模型等方向的融合提供了新的可能。
3D渲染(3D rendering)是将三维模型转换为二维图像的过程,是计算机图形学中的核心环节之一,广泛应用于游戏、影视、虚拟现实、建筑可视化等场景。过去几十年,这一过程通常采用基于物理的建模方法,包括光线追踪和光栅化技术,其本质是利用数学公式和人工经验建模真实世界的物理过程。随着人工智能技术的进步,尤其是神经网络模型的发展,科研人员逐渐开始将神经网络用于渲染过程,并衍生出神经网络渲染(neural rendering)这一全新的研究领域。
神经网络渲染融合了机器学习与计算机图形学,利用深度神经网络对场景进行建模与渲染,能够高效拟合复杂的光线传输过程,无需理解和处理底层的物理光学逻辑,并可以很好地与其他人工智能模块结合进行端到端训练,协同优化特定任务表现。然而,当前大多数方法仍依赖图像输入,缺乏对原始几何和物理材质信息的支持,且往往需要为每个新场景重新训练模型,难以实现跨场景泛用化,限制了其在更广泛应用中的发展。
RenderFormer:一体化神经渲染架构
若要构建一个渲染领域的基础模型(foundation model for rendering),需要模型具备以下特性:
支持最标准的传统图形学的场景描述,以三角形网格和定义在三角形网格上的材质信息来表达场景;支持完整的渲染效果,即支持全局光照(global illumination);不依赖任何传统的图形学渲染计算,也就是说,不需要光线追踪(ray-tracing)也不需要光栅化(rasterization),完全通过神经网络进行端到端的图像合成。
基于此,微软亚洲研究院的研究员们提出了一个通用的神经网络渲染模型 RenderFormer。该模型第一次证明了机器学习可以学习并实现一个泛用性的计算机图形学渲染管线,无需显式的光线追踪或光栅化过程,就能实现支持任意场景输且具备全局光照效果的 3D 渲染。该成果已被 SIGGRAPH 2025 接收,并在 GitHub 上开源。
论文链接:https://arxiv.org/abs/2505.21925
图1:RenderFormer 基本架构
RenderFormer 的基本架构如图1所示。整个场景输入都是由在三维空间中的三角形网格(triangle token)进行表达,其中每个三角形都包含其三维空间位置、法线方向以及物理光学材质属性(如漫反射颜色、高光颜色和粗糙度等)。场景中的光照也通过三角形来表达,每个三角形都有一个自发光属性,对应光源的自发光属性代表了这个光源的发光强度。
对视角输入信息(ray bundle token)的描述通过视线映射图(ray map)实现。具体而言,当用一张2D图像存储渲染输出时,每个像素都对应了一束从相机出发的视线,该视线信息对应于三维空间中的一条射线,可以表征输出像素。为了提高表达的效率,研究员们将图片划分为不同的矩形块,并将一个矩形块中的所有光线用一个视线束(ray bundle)来表达。
在此基础上,RenderFormer 最终会输出一组和视角输入一一对应的 token 输出,该输出 token 可被解码成对应的图像像素,并完成渲染。
双分支架构:视角无关与视角相关的协同建模
RenderFormer 的网络架构分为视角无关和视角相关两个部分,研究员们针对性地设计了 view independent Transformer 和 view dependent Transformer。其中,view independent Transformer 仅处理三角形之间的视角无关的信息,比如渲染中三角形之间的可见性(体现为阴影等效果)以及漫反射的光线传输。根据这些性质相关的计算,view independent Transformer 在设计中利用了三角形之间的注意力机制。
对于视角相关的信息,比如哪些三角形应该出现在绘制的像素上,或者视角相关的材质效果,如高光反射等,需要同时考虑视角信息以及场景信息。因此,view independent Transformer 利用 triangle token 和 ray bundle token 之间的交叉注意力机制,实现了这种视角相关的渲染计算。
与此同时,很多渲染算法也需要进行图像域的计算。例如反走样(anti-aliasing)算法和图像域的反射(screen space reflection)等效果,都是在图像的像素之间进行的,为了有效进行相关计算,研究员们在 view independent Transformer 中也引入了 ray bundle token 之间的自注意力机制。
为了验证该架构的设计,研究员们进行了深入的消融实验和可视化分析。比较不同配置的消融实验,证明了不同组件以及不同注意力机制对最终训练的网络性能的影响。
表1:消融实验,分析不同组件以及不同注意力机制对最终训练的网络性能的影响。
不仅如此,为了更好地可视化分析两个阶段的网络设计是否达到了预期目标,研究员们还进行了如下尝试:
针对已经训练好的 view independent Transformer 另外训练了一个解码器,尝试直接解码出编码在每个三角形上的漫反射渲染结果。下图展示了几个直接解码过的结果,可以看到,RenderFormer 能够成功地从 view independent Transformer 的输出解码出带有粗略阴影的漫反射渲染结果,说明 view independent Transformer 可以独立完成大部分的视角无关的渲染计算。
图2:直接从 view independent Transformer 解码出的视角无关的渲染效果,如漫反射光影以及粗略的阴影等效果。
针对 view dependent Transformer,研究员们可视化了 triangle token 和 ray bundle token 之间的注意力输出。如下图所示,标注在茶壶上的一个像素与其直接对应的茶壶形体上的三角形,具有最强的注意力输出。同时,由于高光反射,该像素还反射了侧面一个墙面上的颜色,因此,该像素和它所反射的墙面区域的三角形也有较强的注意力输出。此外,随着茶壶材质的变化,反射的强度逐渐变弱,并涉及到了更广泛的三角形区域,这一效果在不同材质所对应的注意力输出中也有所反映。
图3:对注意力输出的可视化结果
RenderFormer的训练方法与数据构建
为了训练 RenderFormer,研究员们基于 Objaverse 数据集构建了训练数据。具体而言,研究员们设计了4种不同的场景模板,在每个模板中随机放置1-3个三维物体,同时赋予其随机材质属性。然后,借助 Blender 的 Cycles 渲染器,研究员们渲染了大量不同视角和光照条件下的 HDR 图像,作为模型的训练样本。其基础模型的规模为205M参数,并使用 AdamW 优化器进行训练。
研究员们通过分阶段训练,来提升模型的训练效率:首先在最多包含1536个三角形的256×256渲染分辨率下训练50万步;而后提升至最多包含4096个三角形的512×512渲染分辨率下继续训练10万步。
由于 RenderFormer 支持任意三角形描述的场景输入,所以研究员们在多个真实且复杂的三维场景中对其进行了测试。下图展示了部分 RenderFormer 的渲染结果,可以看到 RenderFormer 能够准确绘制出复杂的阴影、漫反射和镜面反射效果。
图4:RenderFormer 输出的不同 3D 场景的渲染结果
得益于对视角变化和动态场景的精准建模,RenderFormer 也具备生成连续视频的能力。只需将动画形式的场景信息逐帧输入并渲染,再将渲染的结果帧以视频形式播放,就可以得到一个自然连贯的动画视频。
RenderFormer 渲染的 3D 动画序列
展望未来:神经渲染的潜能与挑战
RenderFormer 为神经网络渲染领域带来了全新的视角。它首次证明了,无需依赖显式的光线追踪或光栅化过程,机器学习模型也可以学习并实现一个泛用性的计算机图形学渲染管线,而且还能支持任意场景的输入,逼真实现全局光照效果。
当然,面向真正泛化的神经网络渲染,目前仍有很多亟待探索的方向。例如:如何进一步扩展场景的泛用性,支持更大规模的场景、更多的三角形输入、更复杂的材质属性,以及环境光照效果等。此外,由于 Transformer 架构本身具备良好的可拓展性和兼容性,如何将 RenderFormer 和其他机器学习模型相结合也是非常值得研究的方向,比如与视频生成模型、图像生成模型,乃至具身智能、世界模型等结合。
研究员们将持续在该领域深耕,期待 RenderFormer 及其相关技术可以在更多领域展现出广阔的应用前景与研究价值。
当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。
包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。
本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。
现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!
立即点击下方链接,开启你的专属阅读之旅!
你也许还想看:
文章原文