2025-03-22 12:03 北京
在单 GPU 上以秒级速度生成高分辨率的逼真 3D 人体,能实时渲染、直接动画化和编辑。
在虚拟现实、游戏以及 3D 内容创作领域,从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的问题:人体多样性、姿势复杂性、数据稀缺性等等。
终于,近期由来自南京大学、中科院、清华大学、腾讯等机构的联合研究团队,提出一个名为 IDOL 的全新解决方案,高分拿下 2025 CVPR。项目主页目前访问次数已超 2500+ 次,且是可商用的 MIT 开源协议,备受业界瞩目。
图 1 IDOL 速览
为什么 IDOL 这么受欢迎?因为它为单图 3D 人体重建问题提供了一种全新的高效解决方案。该模型不仅能够在单 GPU 上以秒级速度生成高分辨率的逼真 3D 人体,还具备实时渲染、直接动画化与编辑的能力,为 VR/AR、虚拟数字人以及相关领域的应用提供了全新思路。
IDOL demo video
单图重建人体,为什么这么难?
从单幅图像重建高质量且可驱动的人体模型是一项极具挑战性的任务。这一挑战主要源于人体姿态和衣物拓扑外观的多样性,以及缺乏大规模高质量的训练数据。
当前解决这一问题的方案通常面临以下困难:
IDOL 为什么有效?
作者提出了一种高效且可扩展的重建框架,通过训练一个简单的前馈模型(IDOL),实现了即时且可泛化的真实感 3D 人体重建。
大规模数据集 HuGe100K
作者通过微调构建了一个能够生成高视点一致性的多视点图像生成网络(MVChamp),并创建了 HuGe100K 数据集——一个以人为中心的大规模生成数据集。
该数据集包含超过 240 万张高分辨率(896×640)的人体多视图图像,共计 100K 个(10 万组)样本。每组图像通过一个可控姿势的图像到多视角生成模型生成,共包含 24 个视角帧。
数据集涵盖了多样化的个体特征(包括不同年龄、性别、体型、服饰和场景)为模型训练提供了充足的样本,从而显著提升了模型在各种复杂条件下的重建能力。
图 2 构建 HuGe100K 数据集的路线图
前馈式 Transformer 重建模型 IDOL
基于此数据集,我们训练了一个预训练的编码器和一个基于 Transformer 的骨干网络,能够在 1 秒内实现快速重建。
该模型能够直接从单张输入图像中预测出人体在统一空间下的 3D 高斯表示。通过将人体姿势、体型、服装几何结构与纹理进行解耦,模型不仅能生成高保真 3D 人体,还能实现无需后处理的直接动画化,为后续的形状与纹理编辑提供了便利。
图 3 IDOL 的技术路线图
方法流程与技术细节,如图 3:
1. 数据集构建流程
2. 模型架构
3. 训练目标与损失函数
本方法的优势:高效与实时性
IDOL 模型经过优化后,在单个 GPU 上仅需不到 1 秒即可重建 1K 分辨率的逼真 3D 人体,极大地提升了实用性和应用场景的广泛性。该方法具有以下优势:
定量看 IDOL 怎么样?
IDOL 与其他方法的对比
IDOL 相较传统 3D 建模方法实现多重突破:自研 10 万级多视角数据集 HuGe100K(传统方法仅依赖少量扫描数据),显著提升模型泛化能力;
创新性融合 SMPL-X 人体拓扑与 UV 展开的高斯溅射属性(替代传统体素/隐式场),实现解剖学精准建模;
1 秒级实时重建(传统需数小时)且支持线性蒙皮自动驱动动画(无需手动 RIGGING),更具备形变、换装等灵活编辑特性。
表 1 IDOL 与传统方法对比一览
HuGe100K 与其他数据集的对比
通过对模型中各关键组件(如 Sapiens 编码器、HuGe100K 数据集)的逐一剔除测试,验证了各模块对整体性能的重要贡献,证明了数据集规模与高分辨率特征提取对高质量重建不可或缺。
与现有数据集相比,HUGE100K 以 100K 个体数量(远超同类最高 4500 个 ID)和超 2.4M 帧数的规模,成为目前全球最大、多样性最丰富的 3D 人体数据集。
多样性突破:覆盖 10 万级体型与姿态,解决模型泛化瓶颈;
动态建模:百万级多视角帧包含多样化姿态;
准确动作标注:集成准确的 SMPL-X 参数,无缝适配主流 3D 工具链。为单图重建、数字人驱动提供工业化级数据引擎,填补了高多样性、大规模动态人体数据的空白。
表 2 HuGe 100K 数据集与其他数据集对比
重建质量对比
IDOL 在与现有方法(如基于迭代优化的 GTA、SIFU 等)对比中,IDOL 在 MSE、PSNR 和 LPIPS 等指标上均取得显著优势,证明了其在重建精度和细节保留上的优越性。
表 3 对比实验及消融实验指标
实验验证了 IDOL 在不同场景和姿态下均能生成细节丰富、纹理一致的 3D 人体。
无论是复杂服饰、特殊角度拍摄,还是不同体型的人体重建,IDOL 均表现出极好的泛化能力和鲁棒性。
图 4 IDOL 与其他方法效果对比
IDOL 未来能做什么?
IDOL 方法不仅在技术上取得了显著突破,其应用前景也十分广阔。其开源协议 MIT 自由可商用,欢迎大家随意搭建到自己的应用中。
利用 IDOL 生成的 3D 人体,用户可以直接进行形状和纹理编辑,例如调整服装图案或改变体型参数。同时,结合动画技术,该模型还可以实现视频中的身份替换等应用,展现出极高的实用价值。
虚拟现实与增强现实:
即时生成真实感 3D 人体模型为 VR/AR 应用提供了新的交互方式,可以实现实时虚拟形象替换、数字孪生等创新应用场景。
数字娱乐与游戏开发:
通过单图重建,游戏开发者可以快速生成高质量角色模型,大幅降低建模成本,加速内容创作流程,从而推动数字娱乐产业的发展。
虚拟试衣与时尚产业:
在电商和虚拟试衣领域,利用 IDOL 技术可以实现用户上传单张照片后即刻生成 3D 人体模型,为消费者提供个性化试衣、定制服务,提升用户体验。
这篇论文通过创新性的单图重建思路,实现了从单张 2D 图像瞬时生成高质量 3D 人体模型的目标。其核心在于将视频模型先验、人体先验、隐式表示与可微渲染技术紧密结合,构建了一个端到端可微分的优化框架。重构了传统单目人体重建的管线(图片→3D→绑骨→驱动),极大的提高了泛化性与实用性。
实验结果证明,IDOL 在重建精度、纹理细节和实时性方面均表现出色,展现了广泛的应用前景。
未来,随着技术的不断演进和数据规模的进一步扩大,该方法有望在 VR/AR、游戏、时尚等领域引领一场 3D 数字内容创作的革新,为实际应用提供更加高效、真实的解决方案。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com