智源社区 01月16日
单图秒变3D对象,还可交互实时编辑!Stability AI中科大校友新作
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Stability AI发布SPAR3D,一种能在1秒内从单张图像生成3D物体完整结构并实时编辑的新方法。该方法结合点云采样与网格生成,先用扩散模型生成稀疏点云,再用Transformer生成网格,不确定性集中在点采样阶段,提升计算效率。实验证明,该方法主要依赖输入图像重建正面,点云生成背面。SPAR3D在基准测试中表现优异,比它快的没它好,比它好的没它快,且可免费商用。它还能进行交互式编辑,用户可通过操控点云轻松改变网格,快速添加或修复细节。

⏱️SPAR3D可在1秒内从单张图像生成3D物体的完整结构,并支持实时编辑。其速度和效率显著优于其他基准方法。

🧩该方法巧妙地结合了点云采样与网格生成技术,通过两阶段流程:先用扩散模型生成稀疏点云,再用Transformer生成网格。这种设计有效分离了三维重建中的不确定部分(背面建模)和确定部分(可见表面建模)。

🖼️实验结果表明,SPAR3D主要依赖输入图像重建正面,而依赖点云生成背面。即使在图像和点云冲突的情况下,模型也能根据图像重建可见表面,同时根据点云生成背面表面。

✍️SPAR3D支持交互式编辑,用户可以通过操控点云,轻松改变网格的不可见表面,添加或修复细节,所有编辑耗时不到一分钟,使得3D模型的调整更加灵活便捷。

编辑:KingHZ

近日,Stability AI发布消息,公开3D重建新方法SPAR3D的设计原理、代码、模型权重等。

SPAR3D可在一秒内从单张图像生成3D物体的完整结构并且可以实时编辑。
文章亮点
    新方法SPAR3D实现了实时编辑,在不到一秒内可从单图完成3D对象的结构生成。
    SPAR3D将点云采样网格生成技术相结合,可以完全的控制3D对象。
    第一阶段主要依赖扩散模型生成稀疏点云数据,第二阶段主要靠Transformer生成网格。
    不确定性集中在点采样阶段,提高了计算效率。
    用实验证明了,新方法主要依赖输入图像重建正面,依赖点云生成背面。
    基准测试,比SPAR3D快的没它好,比它好的没它快。
    使用Stability AI Community License,可以免费商用。

论文链接:https://arxiv.org/pdf/2501.04689
项目链接:https://spar3d.github.io/

架构设计

定量比较

在GSO和Omniobject3D数据集上定量比较了SPAR3D与其他基准方法。

如表1和表2所示,SPAR3D在这两个数据集的大多数指标上显著优于所有其他回归或生成基准方法。

SPAR3D也是可以做到1秒内完成重建的模型之一,每个物体的推理速度为0.7秒,显著快于基于3D或多视图的扩散方法

简而言之,比SPAR3D快的没它好,比它好的没它快。

定性结果

纯回归方法如SF3D或TripoSR重建的网格与输入图像对齐良好,但背面往往不够精确且过度平滑。

基于多视图扩散的方法,如LGM、CRM和InstantMesh,在背面展示了更多的细节。然而,合成视角中的不一致性导致了明显的伪影,整体效果更差。

纯生成方法如Shap-E和LN3Diff能够生成锐利的表面。然而,许多细节是错误的虚拟幻象,未能准确地遵循输入图像,且可见表面重建得也不正确。

与先前的工作相比,SPAR3D生成的网格不仅忠实地再现了输入图像,还展现了生成得当的遮挡部分,细节合理

作者进一步展示了SPAR3D在自然图像上的定性结果。

这些图像通过文本-图像模型生成,或来自ImageNet验证集。高质量的重建网格展示了SPAR3D的强泛化能力。

编辑效果

使用显式点云作为中间表示,能够实现对生成网格的交互式编辑。

用户可以通过操控点云轻松地改变网格的不可见表面

在图7中,展示了一些使用SPAR3D进行编辑的示例,用户可以通过添加主要物体部件来改进重建,或改善不理想的生成细节。

图7:编辑效果

在左侧的两个例子中,通过复制现有点云,为马克杯添加了把手,为大象添加了尾巴。在右侧的两个例子中,通过移动或删除点云,修复了不完美之处,并改善了网格的局部细节。所有编辑耗时不到一分钟。

实验分析

为了进一步了解SPAR3D的工作原理,作者设计了新的实验。

设计SPAR3D时的核心假设是:两阶段设计有效地将单目三维重建问题中的不确定部分(背面建模)和确定部分(可见表面建模)分开

理想情况下,网格化阶段应主要依赖输入图像重建可见表面,同时依赖点云生成背面表面。

为了验证这一假设,作者设计了一个实验,特意使用与输入图像冲突的点云。

在图8中,将一只松鼠的输入图像和一匹马的点云输入网格模型。

图8:正面看像松鼠,侧面看像马。

如图所示,重建的网格在可见表面上与松鼠图像很好地对齐,而背面表面则主要遵循点云。这一结果验证了假设。

在图像和点云冲突的情况下,模型根据图像重建可见表面,同时根据点云生成背面表面。

作者介绍

另外值得一提的是本文第一作者是中科大校友。

Zixuan Huang,伊利诺伊大学香槟分校在读博士,在Stable AI主导了此次工作。

之前,在威斯康星大学麦迪逊分校获得计算机科学硕士学位,在中国科学技术大学获得学士学位。

参考资料:

https://x.com/StabilityAI/status/1877079954267189664

https://stability.ai/news/stable-point-aware-3d?utm_source=x&utm_medium=social&utm_campaign=SPAR3D

https://arxiv.org/pdf/2501.04689



内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SPAR3D 3D重建 Stability AI 点云 Transformer
相关文章