机器之心 前天 10:57
SIGGRAPH 2025|Large Avatar Model:单图秒级打造超写实3D交互数字人,跨平台超实时驱动渲染
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里巴巴通义实验室的3D团队发布了LAM(Large Avatar Model),该模型通过单张图像即可生成可实时驱动的3D高斯头像,无需依赖视频数据或复杂后处理。LAM实现了跨平台超实时渲染,支持WebGL,可在手机等设备上流畅运行,并已开源。LAM的核心在于规范化空间的三维高斯球生成、多模态特征交互Transformer以及无需神经后处理的驱动与渲染。该技术不仅能用于生成写实数字人,还可结合图像大模型实现跨模态艺术创作和交互对话数字人解决方案。

🔥 LAM的核心在于通过单图输入,一次前向传播即可生成可驱动的3D高斯头像,无需复杂的后处理网络,实现了轻量化和跨平台实时渲染。

💡 LAM利用规范化空间的三维高斯球生成人头模型,结合FLAME头部模板和Blendshapes、LBS驱动机制,统一不同表情与姿态的几何表达,降低生成复杂度。

✨ LAM采用多模态特征交互Transformer,利用预训练的DinoV2提取图像特征,与3D空间中的点特征交互,预测高斯球属性,并引入形变偏移优化细节。

🚀 通过网格细分算法增强细节,LAM提升了头发、胡须等细节的建模能力,并可在模型质量与渲染速度之间进行平衡。同时,LAM直接使用传统动画驱动机制,无需额外神经网络,实现超实时渲染。

🌐 LAM支持跨平台超实时渲染,基于WebGL实现表情、动作驱动和三维高斯溅射的渲染,可在电脑、手机、电视等设备上运行,8W点模型在Macbook上可达120FPS。

2025-06-20 18:39 北京

论文作者来自阿里巴巴通义实验室的 3D 团队。


论文作者来自阿里巴巴通义实验室的 3D 团队。第一作者何益升,本科毕业于武汉大学,博士毕业于香港科技大学;通讯作者原玮浩,本科毕业于浙江大学,博士毕业于香港科技大学;团队 Leader 董子龙,本科博士均毕业于浙江大学。


三维数字头像的建模、驱动和渲染是计算机图形学与计算机视觉的重要课题之一,在虚拟会议、影视制作、游戏开发等领域有广泛应用。传统方法依赖多视角数据或视频序列训练,存在计算成本高、输入条件难、泛化能力弱等问题。


近年来,基于神经辐射场(NeRF)和 3D 高斯溅射(Gaussian Splatting)的技术虽提升了建模质量,但仍面临多视角/视频输入训练的依赖以及神经后处理导致的渲染效率低的问题。


LAM(Large Avatar Model)的提出,旨在通过单张图像实现实时可驱动的 3D 高斯头像生成,突破传统方法对视频数据或复杂后处理的依赖,为轻量化、跨平台的 3D 数字人应用提供新思路。





核心亮点:


🔥 单图秒级生成超写实 3D 数字人

🔥 WebGL 跨平台超实时驱动渲染,手机跑满 120FPS

🔥 低延迟实时交互对话数字人 SDK 已全开源



方法


LAM 的核心目标是:单图输入、一次前向传播生成可驱动的 3D 高斯头像,无需后处理网络,并兼容传统图形渲染管线实现跨平台实时渲染。其技术框架围绕以下核心突破展开:



规范化空间的三维高斯球生成





无需神经后处理的驱动与渲染




跨平台超实时渲染架构





实验


定量结果


论文在 VFHQ(高分辨率视频人脸数据集)与 HDTF(高清对话视频数据集)上验证 LAM 性能,对比对象包括 NeRF 方法及 3D 高斯溅射方法,指标涵盖重建质量、身份一致性、动画精度与渲染效率。



从结果来看,LAM 以超写实的图像质量刷新记录,以无神经网络的超轻量模型击败之前的重网络模型。


更多应用


LAM 不仅限于单图生成,也可以结合图像大模型进行实现跨模态艺术创作:



结合文生图模型,用户输入提示词(如「戴帽子的卡通男性」)生成任意风格的人头图像,LAM 可以直接转换为可驱动三维高斯模型。如图所示,生成的头像可准确保留提示中的服饰元素(帽子)与艺术风格(卡通化):




通过图像编辑模型对输入图像进行年龄、妆容等编辑,LAM 可以同步更新高斯属性。例如将真人头像转化为油画风格时,模型保留几何结构仅调整颜色与纹理等:



交互对话数字人解决方案


以 LAM 为基础,通义实验室构建了完整的智能交互对话数字人解决方案,融合通义千问大语言模型、通义语音算法、通义数字人驱动算法,构建成熟、鲁棒的完整工程方案,实现轻量化、低成本、低延迟、跨平台的端侧渲染,支持智能客服、情感陪伴、教育培训等产品。


目前,完整的解决方案均已开源,包括整个链路中的各个模块。即使用开源的代码库,就可以实现输入一张图片,生成超写实 3D 数字人,进行实时的对话聊天。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LAM 3D数字人 人工智能 实时渲染
相关文章