智源社区 16小时前
AIR-SUN 少年科学家论坛 | Ultra3D:兼顾效率与质量的3D生成大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

南洋理工大学陈奕文博士介绍了Ultra3D,一个旨在解决当前三维生成模型计算成本高、训练难度大问题的创新框架。Ultra3D通过VecSet结构压缩表示和Part Attention机制提取细节,实现了3.3倍的速度提升,同时在生成质量上达到业界领先水平。该模型分为结构生成、细节精炼和部件标注三个阶段,尤其在细节精炼阶段,Part Attention通过在语义一致的“部件”内部进行注意力计算,有效避免了全局注意力的资源浪费,显著提高了效率。实验结果表明,Ultra3D在视觉质量和用户偏好上均表现出色,为虚拟现实、增强现实和游戏开发等领域的高质量三维内容生成提供了高效解决方案。

💡 Ultra3D通过VecSet结构实现表示压缩,将数万个token压缩至数千个,大幅降低了结构生成阶段的计算开销,为高效建模奠定基础。

🎯 引入Part Attention机制,将三维对象划分为语义一致的“零件”,仅在每个零件内计算注意力,有效保留结构连续性并实现6.7倍加速,解决了全局注意力计算成本高的问题。

⚙️ 构建高效部件标注管线,利用轻量化模型快速分割3D网格,平均仅需2-5秒即可完成体素注释,为Part Attention机制提供了有力支持,提升了训练效率。

🚀 实验结果显示,Ultra3D在视觉质量、用户偏好和生成效率方面均有显著提升,推理效率提高约3.3倍,为高分辨率3D模型的高效生成提供了可行方案。

7月31日上午,第二十期 AIR-SUN 少年科学家论坛如期举行。本次活动有幸邀请到南洋理工大学博士四年级学生陈奕文,为 AIR-SUN 的老师和同学们做了题为《Ultra3D:兼顾效率与质量的3D生成大模型》的精彩报告。

讲者介绍

陈奕文,南洋理工大学(Nanyang Technological University, NTU)S-Lab 博士四年级学生,研究方向为三维生成式人工智能(3D AIGC)。在CVPR、ICLR、ICCV等顶级人工智能会议发表多篇论文。他提出的3D生成模型 MeshAnything 系列在GitHub开源后广受关注,累计获得超2300星标。

报告内容

在本次报告中,陈奕文详解介绍了Ultra3D。当前主流的三维生成方法在细节与精度方面突破,但普遍存在计算成本高,训练难度大等问题。Ultra3D针对这些问题,从表示压缩和注意力机制两个维度进行革新,实现了 3.3 倍速度提升,同时在生成质量上领先业内方法。团队围绕着解决3D生成的问题,展开了三项核心创新:(1)VecSet 结构生成粗形态:Ultra3D 首先采用一种紧凑表示 VecSet 对物体结构进行粗建模。与传统稀疏体素网格相比,该方法将数万个token压缩至数千个,大幅降低第一阶段的计算开销。(2)Part Attention 机制提取细节:  为避免全局注意力造成的资源浪费,研究团队提出了基于语义部件的局部注意力机制。通过将三维对象划分为语义一致的“零件”,模型仅在每个零件内计算注意力,有效保留了结构连续性,同时实现了 6.7× 的加速效果。(3)高效部件注释管线:为了支持Part Attention机制,研究团队还构建了一套快速的三维部件标注系统,利用轻量化模型对原始3D网格进行特征分割,仅需2秒即可完成一例体素注释。

背景与动机

随着虚拟现实、增强现实、游戏开发等行业对高质量三维内容需求的快速增长,如何高效生成高保真度的3D模型已成为计算机视觉领域的重要课题。近年来,稀疏体素表示(Sparse Voxel Representations) 在三维生成中表现出极强的几何表达能力,这类方法普遍采用双阶段结构:首先生成体素坐标,然后为每个体素位置预测高维特征。

这种结构虽然在视觉质量上表现优异,但存在两个核心瓶颈:

    注意力计算成本高:随着分辨率提升,体素数量激增,注意力机制的复杂度呈二次增长,造成训练与推理速度极慢,难以扩展到高分辨率应用;

    全局建模冗余严重:在已知结构基础上使用全局注意力计算局部细节,效率低下,且引入了大量无效计算

为此,作者提出 Ultra3D,从表示压缩与结构建模两个层面同时入手,构建一个既快又准的三维生成系统,它能高效率的生成高分辨率的3D模型。

模型架构与训练策略


本研究提出的Ultra3D三维生成框架采用三阶段设计:

    结构生成阶段:基于 VecSet 表示生成物体粗略结构,实现高效体素坐标预测

    细节精炼阶段:引入 Part Attention 局部注意力机制,对稀疏体素进行高保真特征生成

    部件标注阶段:通过PartField组成高效部件注释管线,生成语义分组

结构生成阶段

该阶段的核心目标是生成物体的粗略结构布局(Coarse Layout),为后续高精度建模提供基础。考虑到该阶段无需关注表面细节,作者引入了紧凑型 3D 表征 Vector Set(VecSet) 来替代传统稀疏体素建模

VecSet 能够将三维物体表示为一个无序的潜在向量集合(Latent Token Set),通常包含数千个 token,相较于稀疏体素,其抽象程度更高、表示更紧凑,从而显著降低了第一阶段的生成成本。生成得到的 Coarse Mesh 会被进一步体素化,以作为第二阶段的输入。

细节精炼阶段

为在高分辨率下实现精细建模,同时兼顾效率与质量,研究团队提出了Part-aware Diffusion Transformer(Part-DiT)架构。

本阶段的主要创新在于提出了Part Attention机制,一种局部几何感知的注意力机制,通过在语义一致的“部件”内部进行自注意力计算,避免了冗余的全局交互。具体而言:

    每个稀疏体素点(active voxel)会被分配一个 group ID;

    自注意力和跨模态注意力(图像到3D)仅在 ID 相同的 token 间进行;

    相比于固定划分的 3D window attention,Part Attention 在语义与几何结构上一致性更强,效果更佳。

由于局部注意力会导致信息的损失,作者在架构中引入了全局注意力。考虑到计算效率,作者先对稀疏体素进行下采样计算全局注意力(Full Attention),再上采样融合至后续计算流程,从而在保持高效率的前提下提升整体一致性与生成质量。

部件标注阶段

为实现 Part Attention 的有效运行,作者构建了一条高效的部件标注流程,用于在训练与推理阶段为体素点提供语义分组信息。该流程基于 PartField 模型,平均仅需 2–5 秒即可完成一次高质量标注,可扩展至大规模数据集,极大提升了训练效率和实际部署的可行性。

实验结果

本研究围绕 Ultra3D 框架的视觉质量、生成效率和用户偏好三个核心维度,开展了系统的实证评估,验证其在真实应用场景中的表现优势。

视觉质量

研究将 Ultra3D 与现有多种图像生成3D方法(如 Direct3D-S2、商业模型)进行对比,结果显示 Ultra3D 生成的模型在几何细节、纹理还原、轮廓结构等方面更加精确真实,视觉效果更符合输入图像。

用户偏好显著提升

在用户研究中,共有 36 位参与者针对多组图像-3D生成结果进行了主观评分。结果显示:

    在与主流方法的对比中,Ultra3D 获得 68.5% 的首选率,大幅领先于其他方法;

    相比全局注意力模型,用户无法分辨full attention和part attention的效果,说明part attention在更少的计算量获得了与full attention相同的结果;

    用户认为Part Attention的效果优于3D Window attention。

推理与训练速度加快

得益于 Part Attention 的高效设计,Ultra3D 在多个关键步骤中实现加速:

    Part Self Attention:提速 6.7 倍

    Part Cross Attention:提速 4.1 倍

    训练速度整体提升:约 3.1 倍

    推理效率提高:约 3.3 倍

总结

在本期论坛中,陈奕文为大家系统介绍了 Ultra3D。该工作创新性地引入了紧凑表示 VecSet 与语义感知的 Part Attention 机制,不仅显著提升了生成速度,更在保持细节保真度的前提下,实现了对高分辨率 3D 建模的有效支持。

Ultra3D 在结构生成、细节精炼与部件感知三个关键阶段均展现出精巧的工程与建模设计,解决了传统方法在高计算成本与语义一致性方面的难题。其在多个实验中获得了领先性能,并获得用户一致好评,展现出在游戏、AR/VR、数字内容生产等多个实际场景中的强大潜力。

文稿写 / 李泓汉
排版编辑 / 许少聪
校对责编 / 赵昊


内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Ultra3D 三维生成 人工智能 计算机视觉 Part Attention
相关文章