字节跳动技术团队 05月18日 18:36
CVPR 2025 | EnvPoser:在环境感知下实现更真实的 XR人体动捕
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

PICO与上海交大联合发布EnvPoser,一种环境感知的人体运动估计方法,旨在解决XR设备稀疏追踪信号下全身动作重建难题。EnvPoser通过引入不确定性建模与环境先验,显著提升了动作重建的精度和真实感。该方法采用两阶段架构,先通过Transformer网络预测人体姿态和不确定性,再利用环境点云进行语义和几何约束优化,最终输出高精度、真实感强的全身动作序列。实验结果表明,EnvPoser在多个数据集上超越现有技术,并在真实VR设备上成功部署,为下一代沉浸式交互体验提供技术支撑。

🧩EnvPoser聚焦于XR场景下稀疏追踪信号的人体动作捕捉,通过关节级建模策略,在仅使用头显和手柄追踪的条件下实现高质量、可信赖的全身运动重建。

🟩EnvPoser核心采用“两阶段架构”,第一阶段通过自回归Transformer网络,结合历史动作序列与当前稀疏观测输入,预测人体姿态及其关节级别的不确定性;第二阶段利用VR设备预扫描的环境点云,引入语义约束和几何约束进行动作优化。

🎯EnvPoser通过创新性地引入关节级不确定性建模机制和融合环境语义与几何约束细化动作预测,在两个权威数据集EgoBody和GIMO上均取得全指标最佳,尤其在MPJPE误差方面降低超 18%。

🖼️EnvPoser在复杂场景下的表现尤为出色,面对弯腰、蹲坐、躺倒等姿态,能稳定结合环境信息,预测出合理接触姿态,在手部抓握与下肢接触表现上更自然。

原创 苏卓 2025-05-18 16:01 重庆

在沉浸式 XR 体验中,使用少量追踪点还原全身真实动作,是实现自然交互与高度沉浸感的关键能力之一。

在沉浸式 XR 体验中,使用少量追踪点还原全身真实动作,是实现自然交互与高度沉浸感的关键能力之一。在游戏娱乐、虚拟社交和具身智能等领域,高精度的人体运动估计技术正成为支撑高质量交互体验的核心要素。然而,市面主流的HMD设备(如PICO、Quest)往往只提供头部与双手等稀疏追踪信号(头戴和手柄6DoF的位置和姿态信号),如何从这类稀疏观测中准确还原全身动态动作,一直是一个极具挑战性的技术问题。

在即将召开的CVPR 2025上,来自PICO交互感知团队和上海交通大学裴凌课题组的研究人员联合发布了最新成果EnvPoser。该研究提出了一种环境感知的人体运动估计方法,通过引入不确定性建模与环境先验,在稀疏观测条件下实现了前所未有的全身动作重建精度与真实感。

📄 论文链接:https://arxiv.org/pdf/2412.10235

🔗 项目主页:https://xspc.github.io/EnvPoser/

1. 技术背景

🧩 相关工作

PICO交互感知团队聚焦于 PICO 的 XR 业务(MR/AR),提供人机交互、3D空间感知、3D高精人脸、人体感知与重建、3D环境感知、3D重建与生成等方向的核心技术能力,PICO交互感知团队已围绕XR场景下的稀疏追踪信号的人体动作捕捉进行了系列探索,逐步推进了从稀疏节点重建、到高效动作捕捉和多模态方法的全流程研究:

AvatarJLM(ICCV 2023)

Realistic Full-Body Tracking from Sparse Observations via Joint-Level Modeling  Xiaozheng Zheng*, Zhuo Su*, Chao Wen, Zhou Xue‡, Xiaojie Jin  通过引入关节级建模策略,AvatarJLM 在仅使用3点追踪信号的条件下,实现了高还原度的人体动作估计,是EnvPoser方法结构的重要前身之一。

📄 论文链接:https://arxiv.org/pdf/2308.08855

HMD-Poser(CVPR 2024)

HMD-Poser: On-Device Real-time Human Motion Tracking from Scalable Sparse Observations  Peng Dai, Yang Zhang, Tao Liu, Zhen Fan, Tianyuan Du, Zhuo Su, Xiaozheng Zheng, Zeming Li  HMD-Poser 是首个支持多种稀疏组合输入(如HMD、HMD+2IMU、HMD+3IMU等)的实时全身动作恢复框架,具备良好的硬件适应性与实用性,适配XR设备端实时部署。

📄 论文链接:https://arxiv.org/pdf/2403.03561

EMHI(AAAI 2025)

EMHI: A Multimodal Egocentric Human Motion Dataset with HMD and Body-Worn IMUs  Zhen Fan*, Peng Dai*, Zhuo Su*, Xu Gao, Zheng Lv, Jiarui Zhang, Tianyuan Du, Guidong Wang, Yang Zhang‡  我们构建了EMHI,一个结合头戴设备立体图像与IMU传感器数据的大规模多模态动捕数据集,涵盖 58位被试、28.5小时数据。并提出 MEPoser 方法,验证多模态数据在提升姿态估计准确性上的潜力。  

📄 论文链接:https://arxiv.org/pdf/2408.17168

🧠 新的挑战

上述工作为 XR 全身人体动捕奠定了坚实的数据基础、方法结构与设备实践经验。然而,这类方法缺乏环境理解:忽略人体与周围场景的交互限制(如墙壁、座椅等接触信息),难以推理出合理的人-物动作模式。

为此,PICO交互感知团队联合上海交通大学裴凌课题组提出了EnvPoser,裴凌课题组长期从事具身智能相关研究,着力于针对IMU设备下的人体姿态估计与多模态融合导航相关技术的研究,其中夏宋鹏程博士作为人体姿态方向负责人,长期专注于基于可穿戴设备的人体运动捕捉与人体活动识别相关研究。EnvPoser进一步将“人体-环境”关系建模纳入框架之中,使得动作估计结果不仅合理、准确,也具备物理一致性与沉浸感。

2. 方法

EnvPoser核心采用“两阶段架构”:

🔶第一阶段:不确定性感知人体初始估计

通过自回归Transformer网络,结合历史动作序列与当前稀疏观测输入,预测人体姿态及其关节级别的不确定性。引入不确定性采样机制,生成一组多假设初始动作估计,捕捉输入对应的动作多样性。

🟩 第二阶段:环境感知动作细化优化

利用VR设备/相关传感器预扫描的环境点云,EnvPoser引入两类约束进行动作优化:

最终融合接触概率估计、动作判别模块,输出高精度、真实感强的全身动作序列。

🎯 贡献总结

3. 实验结果

📊 定量结果

我们在两个权威数据集 EgoBody 和 GIMO 上对EnvPoser进行了充分评估,并与多种SOTA方法进行对比:

数据集

方法

MPJRE (°)

MPJPE (mm)

MPJVE (mm/s)

Jitter

EgoBody

AvatarJLM

6.42

91.7

177.4

7.2

S2Fusion*

6.65

89.2

219.4

12.5

EnvPoser

6

74.7

174

6.6

GIMO

AvatarJLM

4.95

70.7

258.1

10.7

S2Fusion

4.65

57.8

235.7

10.1

EnvPoser

4.38

57.6

234.6

8.9

🖼 定性结果

我们在 EgoBody 与 GIMO 数据集的典型交互场景中对比可视化结果。如下图所示,EnvPoser 在下列情况中表现更优:

EgoBody 数据集三个测试序列的人体动作估计对比

交互细节的定性对比

实际VR场景效果示意

总结来说,EnvPoser在复杂场景下的表现尤为出色:面对弯腰、蹲坐、躺倒等姿态,能稳定结合环境信息,预测出合理接触姿态,在手部抓握与下肢接触表现上更自然,在真实VR数据测试中,显示出卓越的泛化能力与鲁棒性。

✔ 在两个数据集上均取得全指标最佳,尤其在MPJPE误差方面降低超 18%  

✔ 渲染出的动作显著减少下肢漂浮、墙体穿透、错误坐姿等现象  

✔ 支持真实VR设备输入,完成高精度动作估计,具备良好落地潜力

4. 总结

EnvPoser展示了在稀疏观测与复杂环境交互下,仍能实现高保真人体动作估计的潜力。通过不确定性建模+环境语义与几何约束的创新架构,EnvPoser在准确率、自然度与泛化能力上均达到新高,为下一代沉浸式交互体验提供坚实技术支撑。未来,我们将进一步扩展至多用户动态场景,结合视觉图像推理多物体接触信息,继续提升系统在真实应用中的可用性与智能性。

欢迎加入字节跳动PICO交互感知团队

交互感知团队聚焦于 PICO 的 XR 业务(MR/AR),提供人机交互、3D空间感知、3D高精人脸、人体感知与重建、3D环境感知、3D重建与生成等方向的核心技术能力,通过搭建在这些核心能力上的工程系统和解决方案,为PICO提供更自然、直观且契合直觉的交互能力,使用户能够感知现实、沉浸于现实、超越现实,助力空间智能计算平台迈入体验的新阶段。

点击下方 阅读原文” 进行简历投递~

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

EnvPoser 人体动作估计 XR 环境感知 PICO
相关文章