2024-11-08 14:48 江苏

关注公众号，发现CV技术之美

本篇分享 CVPR 2024 论文OmniMotionGPT: Animal Motion Generation with Limited Data，该项工作由西湖大学 MAPLE 实验室团队联合 Arizona State University, OPPO Seattle Research Center, University of Washington 团队共同完成。

论文链接：https://openaccess.thecvf.com/content/CVPR2024/html/Yang_OmniMotionGPT_Animal_Motion_Generation_with_Limited_Data_CVPR_2024_paper.html

项目网站：https://zshyang.github.io/omgpt-website/

代码地址：https://github.com/USRC-SEA/OmniMotionGPT

数据地址：https://github.com/USRC-SEA/OmniMotionGPT

在数字内容创作的新纪元，动物角色的仿真运动已经成为影视、游戏和虚拟现实等领域的热点话题。

我们的最新研究成果“OmniMotionGPT 一种突破性的动物动作生成模型”，让我们能够在有限的数据条件下，首次实现了以文字题词为输入，训练AIGC模型，生成多样化超高写实度的虚拟动物动作序列的目标。

此外，我们还推出了AnimalML3D数据集，这是首个针对动物文本的动作数据集，包含 1240 个动画序列，涵盖 36 种不同的动物品种。

我们希望这个数据集能解决文本驱动动物动作生成中的数据稀缺问题，鼓励更多的合作和探索，促进该研究领域的发展和创新。

背景简介

三维运动的计算建模是一个重要且应用广泛的课题，包括机器人、虚拟/混合/增强现实、游戏和视觉媒体等众多应用。获取运动计算模型的传统方法来源于艺术家，他们利用对现实世界的细微观察或借助大量的运动捕捉数据来制作四维动画。这一过程不仅需要艺术家付出极大的努力和技巧，还需要昂贵而耗时的捕捉程序，增加了成本与制作周期。

最近，生成式建模技术取得了突破性进展，利用自然语言文本描述生成逼真的人体动作。文本驱动的动作生成有可能大大提高动作动画的效率和可及性。然而，尽管人类动作生成领域取得了一定成就，但无法应用于生成其他类型的动作。除此之外，文本驱动动物动作生成的数据集非常有限，具体来说，动物运动完全没有类似于Human ML3D这样的人类运动数据集。

为了要在训练动物运动模型时纳入人类运动数据，需要解决以下几个关键问题：

动物的运动表征与人类不同，尤其是关节数量和定义方面。

人类运动生成模型并不太关心关节以外的骨架信息。

现实中动物的运动模式远不如人类多样。

作者提出了一套全新的架构，OmniMotionGPT，可在稀疏的动物运动数据上进行训练，并通过转移所学的人类运动知识，从复杂的文本中生成多样化的动物运动。

方法介绍

我们的目标是生成与文本描述高度一致的高质量动物动作。为此，训练框架设计包含两个部分，并采用同步优化方案：动物和人类的动作自编码器训练，以及用于知识迁移的联合训练，如下图所示。

人类动作和动物动作自编码器

我们的自编码器模型首先通过一个Transformer编码器从每个姿势中提取关节级别的特征。输入为姿势与对应的零填充的静态偏移的拼接。

共享关节Transformer编码器为每个姿势生成特征。同样地，还有另一个关节级别的Transformer编码器用于从静态偏移中提取特征。随后，第二个Transformer编码器从拼接的以上两种提取特种中提取时间特征。接着，1D pooling层用于缩减时间维度。

原始关节pooling层选择性地从不同骨架图中一致的原始关节位置提取特征，形成潜在特征。随后通过一个时间unpooling层以及一个关节unpooling层，在非原始关节位置引入零填充来恢复结构。

对齐人类和动物动作空间的联合训练机制

我们的目标是通过利用人类运动数据来生成新的动物动作，这些数据涵盖了广泛的动作类型和语义信息。

为此，我们联合训练了两个自编码器：一个专注于丰富的人类运动数据的人类模型，另一个则是基于有限的动物数据的动物模型，该数据集通过从人类运动模型中提取的潜在特征进行增强。

为监督该架构的训练过程，我们设计了三种损失函数，如总体图所示：CLIP相似性损失（CLIP Similarity Loss）、潜在一致性损失（Latent Consistency Loss）和末端效应器损失（End-Effectors Loss）。

AnimalML3D 数据集

为了解决数据稀缺问题，我们制作了AnimalML3D数据集，这是首个动物动作文本描述-4D运动数据集，包含922对训练数据和318对测试数据。

该数据集基于DeformingThings4D 扩展而来，原数据集中包含31种不同的动物或类人类别的1972个动画序列。我们从这些运动中精确提取骨架数据，筛选后生成了一个包含1240个动作骨骼序列的完整数据集，进一步划分为922个训练序列（23个身份）和318个测试序列（13个身份）。

此外，我们由专业标注团队为每个运动生成了三个描述性标签，创建了一个包含3720句的文本数据集，提供丰富的文本描述。

实验结果

实验过程中比较的方法包括T2MGPT, MotionGPT, MDM和Motion-Diffuse

图4展示了本文方法与MDM和Motion-Diffuse方法的比较结果。凭借从人类运动数据集中获得的丰富知识，我们的模型能够生成保真度更高、与文本输入更一致以及在复杂运动描述中更具多样性的动物动作。

表1表2结果表明我们的 OMGPT 模型在 ID 和 OOD 的所有指标上都优于基于扩散的模型 MDM 和 Motion-Diffuse 。虽然与基于 GPT 的基线模型相比，这些模型的 R-precision略高，多样性得分略低，这表明它们对小数据集和文本-动作配准具有更好的稳健性，但它们从 OOD 上看生成多样化动作方面存在不足。