ICCV 2025 | 三维重建和仿真，一步到位！浙大MaGS开辟Mesh+3DGS新范式

让你更懂AI的 2025-07-29 14:11 北京

统一3D视觉与物理

▲ 图0：项目主页

如何仅通过单目视频实现对动态三维物体的高质量重建与物理仿真，一直是计算机视觉与图形学领域一个极具挑战性的问题。近期，来自浙江大学等机构的研究者们提出了名为 MaGS（Mesh-adsorbed Gaussian Splatting）的全新统一框架，为解决这一难题提供了新的思路。MaGS 框架的核心是创建一种创新的“网格吸附高斯（Mesh-adsorbed Gaussian）”混合表示，它巧妙地结合了三维高斯泼溅（3DGS）的渲染灵活性与三角网格（Mesh）的结构化特性。通过这种方式，MaGS 在动态场景重建和动态场景仿真两个任务上均取得了当前最优的性能。

▲ 图1：MaGS 示意图

该研究目前已被 ICCV 2025 接收为 Highlight Paper。

论文地址：

https://arxiv.org/abs/2406.01593

项目主页：

https://wcwac.github.io/MaGS-page/

代码地址：

https://github.com/wcwac/MaGS

在计算机图形学和计算机视觉领域，从视频中重建三维世界（Reconstruction）并对其进行物理交互和动画模拟（Simulation），是构建数字孪生、虚拟现实（VR）、游戏和电影特效等应用的关键。近年来，以三维高斯泼溅（3DGS）为代表的神经渲染技术，因其卓越的渲染质量和速度，在三维重建领域取得了革命性突破。

然而，三维重建和物理仿真这两个目标之间存在着根本性的矛盾：重建任务追求极致的视觉真实感，需要一种非常灵活、能够捕捉复杂外观和几何细节的表示方法（如 3DGS）；而仿真任务则需要一个结构化的、符合物理规律的表示方法（如三角网格），以便进行姿态编辑、碰撞检测和软体变形等操作。

隐式方法（如 NeRF）：渲染效果好，但缺乏物理上有意义的结构，难以进行编辑和仿真。

显式方法（如 Mesh）：天然适合仿真，但在重建复杂动态场景时，渲染质量和效率往往不尽人意。

混合方法：一些工作尝试将 3DGS 与网格结合，但通常采用“锚定”策略，即将每个高斯点死死地绑定在某个网格面上。这种设计导致在联合优化时，渲染质量和变形合理性相互掣肘，一方面，网格会限制高斯的灵活性，进而限制了渲染质量；另一方面，优化渲染过程破坏了网格的物理结构。

正是由于这种内在矛盾，之前尚未有框架可以在不牺牲任何一方性能的前提下将两者完美结合。

研究者们也尝试过结合 3DGS 和 Mesh 形成混合表示来完成这两个工作。然而，混合方法由于采用“刚性锚定”，使得高斯点和网格之间缺乏相对运动的自由度。这导致在优化过程中，渲染损失函数产生的梯度（为了更好的视觉效果）和变形约束产生的梯度（为了更合理的物理运动）会相互冲突，最终得到一个“折衷”但两方面都不完美的结果。

对此，研究人员提出了 MaGS 框架。该方法的核心思想是“网格吸附（Mesh-adsorbed）”而非“网格锚定”。它允许三维高斯点在网格表面附近“漫游（roam）”，从而拥有一定的相对位移自由。为了实现这种可控的“漫游”，MaGS 设计了两个关键网络：

RMD-Net（Relative Mesh Deformation Network）：从视频中学习运动先验，用于优化和修正网格本身的变形。

RGD-Net（Relative Gaussian Deformation Network）：专门学习高斯点相对于其所在网格面的位移，从而在保持网格结构合理性的同时，最大化渲染保真度。

通过这种解耦设计，MaGS 有效地解决了渲染精度和变形合理性之间的内在冲突。

▲ 图2：MaGS 框架结构

为了更直观地理解 MaGS 的工作方式，我们可以将其核心组件与人体的“骨、肉、皮”进行类比：

Mesh（三角网格）≈ 骨骼（Bones）：定义了其基本形状和拓扑。所有动作都基于这个“骨架”。

形变网络（Deformation Networks）≈ 肌肉（Muscles）：像肌肉一样连接皮肤和骨骼。它们学习并执行物体的动态变化。

3DGS（三维高斯）≈ 皮肤（Skin）：这是我们最终看到的、带有丰富颜色和纹理的视觉表层。它覆盖在“骨骼”和“肌肉”之上，决定了外观的真实感。

MaGS 的创新之处就在于，它不像传统方法那样用胶水把“皮肤”粘死在“骨骼”上，而是让“皮肤”能够像真实生物一样，在“肌肉”和“骨骼”运动时，进行合理且自然的微小滑动和调整。这便是“网格吸附”思想的精髓，它使得运动既符合物理规律，外观又极其逼真。

▲ 图3：网格锚定（左）与网格吸附（右）的对比示意图

MaGS 的工作流程分为重建和仿真两个阶段：

预处理：首先，从输入的单目视频中提取一个时序上连续的、比较粗糙的初始动态网格序列（称为引导网格）。

网格吸附高斯初始化：在这个粗糙网格的表面随机初始化大量的“网格吸附高斯”，每个高斯点记录了它吸附在哪个网格面片上。

联合优化：

MPE-Net 从引导网格中提取姿态信息。

RMD-Net 根据姿态信息，预测对引导网格的修正，得到一个更精细的变形网格。

RGD-Net 预测高斯点在精细网格表面上的相对“漫游”位移。

通过渲染结果与真实视频帧的差异（损失），反向传播同时优化高斯点参数以及 RMD-Net、RGD-Net 等网络。

仿真阶段：重建完成后，我们得到了一个高质量的网格和一套学会了变形规律的网络。用户可以使用任何基于网格的仿真工具（如 ARAP、SMPL、软体物理引擎）来编辑这个网格，产生新的动作或交互。然后，将这个新的被编辑过的网格作为引导网格，再次输入到学会了变形规律的网络中，即可渲染出具有同样高保真度纹理和外观的仿真结果。

为了全面验证方法的有效性，研究人员在 D-NeRF、DG-Mesh 和 PeopleSnapshot 等多个主流动态场景和数字人数据集上进行了实验，并与 D-NeRF、4D-GS、SC-GS、SplattingAvatar 等一系列顶尖方法进行了定量和定性比较。

定量分析：实验数据显示，MaGS 在所有测试场景的各项关键指标（PSNR、SSIM、LPIPS）上几乎全面领先。

▲ 表1：D-NeRF 数据集定量结果

▲ 表2：PeopleSnapshot 数据集定量结果

▲ 表3：DG-Mesh 数据集定量结果

定性分析：从渲染的视频和图像对比来看，MaGS 生成的动态人物和物体细节更清晰、边缘更锐利，动作也更自然。特别是在进行大幅度动作的仿真时，其他方法可能会出现表面破裂或伪影，而 MaGS 由于其连续的网格结构，能够保持完整和真实的外观。

▲ 图4：D-NeRF 数据集定性对比图

▲ 图5：DG-Mesh 数据集网格重建定性对比图

▲ 图6：PeopleSnapshot 数据集网格重建定性对比图

▲ 图7：与 SC-GS 等方法的仿真效果对比图

▲ 图8：MaGS 的多种仿真效果展示

消融研究：通过移除 RMD-Net 或 RGD-Net 等关键模块，模型性能出现显著下降，这有力地证明了“网格吸附”和“高斯漫游”这一核心设计的必要性和有效性。

▲ 表4：消融实验结果

总结

MaGS 通过引入创新的“网格吸附高斯”表示和一套协同工作的变形网络，成功地在一个统一框架内解决了高质量动态三维重建与物理仿真的双重挑战。

这项研究为从单目视频创建可交互、可编辑的动态数字资产提供了一个全新的、性能强大的范式。它极大地降低了高质量动态 3D 内容的制作门槛，在元宇宙、数字人、游戏开发、影视预览、机器人仿真等领域拥有广阔的应用前景。

该研究相关代码和数据已在 GitHub 上开源，地址为：

https://github.com/wcwac/MaGS

更多阅读

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签