index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
夸克技术团队与浙江大学联合开源了OmniAvatar,一个创新的音频驱动全身视频生成模型。该模型仅需一张图片和一段音频,即可生成具有高度唇形同步和流畅全身动作的视频。OmniAvatar基于Wan2.1-T2V-14B模型,通过LoRA微调,有效引入音频特征,并采用像素级多层次音频嵌入策略,实现精准的唇部运动和自然的肢体动作。此外,模型还通过参考图像嵌入和帧重叠技术优化了长视频生成中的身份保留和时间一致性。OmniAvatar在唇形同步、面部及半身视频生成、文本控制等方面表现出色,并能通过提示词精准控制人物姿势、情绪和场景,是多模态视频生成领域的一项重要进展。
✨ **音频驱动全身视频生成:** OmniAvatar能够接收一张图片和一段音频作为输入,生成包含人物全身动作的视频。与以往多集中于面部运动的模型不同,它显著提升了人物唇形同步的细节和全身动作的流畅性,使得生成的视频更加自然逼真。
🧠 **先进的音频处理与嵌入技术:** 该模型摒弃了传统的交叉注意力机制,转而采用基于像素的音频嵌入策略,将音频特征直接融入模型的潜在空间。这种方法不仅实现了唇部运动与音频内容的精准对齐,还确保音频信息在视频像素中的均匀分布,促进了更协调的身体动作生成。同时,多层级音频嵌入策略将音频信息植入DiT模块的不同阶段,确保了特征的有效学习和保留。
⚙️ **LoRA优化策略与长视频生成:** OmniAvatar采用了基于LoRA的平衡微调策略,在不改变底层模型容量的前提下,高效地学习音频特征,解决了全模型训练导致泛化能力下降和仅微调相关层导致对齐效果差的问题。针对长视频生成,模型引入了参考图嵌入和重叠帧策略,有效解决了身份保留和时间一致性的难题,确保了人物在长视频中的连贯性和身份一致性。
🎯 **文本控制与场景适应性:** 除了音频输入,OmniAvatar还支持通过提示词对人物姿势、情绪、场景等要素进行精准控制。这意味着用户可以根据具体需求,定制视频内容的方方面面,例如调整人物的情绪表达或改变背景场景,极大地增强了模型的灵活性和应用范围。模型在动态场景下也表现出强大的适应能力,能够保持面部、动作和背景的自然流畅。
🚀 **开源与未来展望:** OmniAvatar已在Hugging Face和GitHub上开源,包括模型、代码和论文。虽然目前模型在实验数据集上取得了初步验证,但尚未达到产品级应用水平。未来,团队计划进一步提升其在复杂指令处理能力和多角色交互等方面的表现,以期将模型扩展到更广泛的应用场景。

近期,夸克技术团队和浙江大学联合开源了OmniAvatar,这是一个创新的音频驱动全身视频生成模型,只需要输入一张图片和一段音频,OmniAvatar即可生成相应视频,且显著提升了画面中人物的唇形同步细节和全身动作的流畅性。此外,还可通过提示词进一步精准控制人物姿势、情绪、场景等要素。
OmniAvatar已开源:
Model:https://huggingface.co/OmniAvatar/OmniAvatar-14BCode:https://github.com/Omni-Avatar/OmniAvatarArxiv:https://arxiv.org/abs/2506.18866Project Page:https://omni-avatar.github.io/
以下,是OmniAvatar在播客、唱歌、交互、动态背景等场景下的部分案例。
实验表明,OmniAvatar在唇形同步、面部及半身视频生成、文本控制等多个维度上,均取得领先表现,并更好地平衡了视频质量、准确度、审美三要素。
此外,OmniAvatar专门针对长视频生成进行了优化,可以更好地保持人物一致性和时间连贯性。
当前,音频驱动人体运动的技术已取得显著进展,但大多数方法仍集中在面部运动,缺乏全身驱动的能力,且难以进行精确的提示词控制。
OmniAvatar以Wan2.1-T2V-14B为基础模型,利用LoRA方法进行微调,有效地引入了音频特征。这种结合不仅保留了Wan2.1-T2V-14B在视频生成方面的强大能力,还提高了模型对音频输入的适应性和生成质量。
接下来,我们将通过一些具体案例,更详细地展示模型在多种场景下的能力。 OmniAvatar能够根据输入的音频和提示词,生成虚拟人物视频,其中,人物的唇形运动与音频内容吻合,场景则反映了提示词内容:
通过调整提示词,还可实现对人物情绪的精确控制:
在带有镜头运动的场景中,OmniAvatar仍能够保持面部、动作和背景的自然流畅,展现了模型在动态场景下的强大适应能力:
对于长视频生成,OmniAvatar通过参考图像嵌入策略和帧重叠技术,确保了视频的连贯性和人物身份的一致性:
大多数现有方法通常依赖交叉注意力机制来引入音频特征,虽然效果良好,但会引入大量额外的计算开销,并且容易过度关注音频与面部特征之间的关系。针对这一问题,团队提出了一种基于像素的音频嵌入策略,使音频特征可以直接在模型的潜在空间中以像素级的方式融入。通过这一方法,不仅可以自然地将唇部运动与音频内容对齐,还能够确保音频信息在整个视频像素中均匀分布,从而使模型生成更协调、更自然的身体动作来匹配音频。该策略首先使用Wav2Vec2模型提取音频特征,然后对这些特征进行分组打包和压缩,再通过音频打包模块映射到视频的潜在空间中。
接下来,为了确保模型在深层网络中能有效地学习和保留音频特征,OmniAvatar采用了一种多层级音频嵌入策略,将音频信息嵌入到DiT模块的不同阶段中。为防止音频特征对潜在空间产生过度干扰,音频嵌入仅应用于模型的第二层至中间层之间的模块 。此外,这些层的权重不共享,使模型能够在不同层次上保持独立的学习路径。
目前,针对音频条件扩散模型的方法主要遵循两种策略:一种是训练完整的模型,另一种是仅微调特定层。在进行完整训练时,团队发现更新所有层反而会导致模型生成的连贯性和视频质量下降。具体来看,由于模型过度拟合人类语音数据集,导致泛化能力差,容易生成不切实际或静态的内容,难以捕捉细节。但另一方面,仅微调和音频特征相关的层会导致音频和视频之间的对齐效果差,唇形同步性能受损。
效果对比
为了解决这些挑战,团队提出了一种基于LoRA的平衡微调策略。该策略不同于以上两种方法,而是使用LoRA策略高效地适应模型。LoRA通过在注意力和前向传播(FFN)层的权重更新中引入低秩矩阵,使模型能够在不改变底层模型容量的情况下学习音频特征。
长视频连续生成是音频驱动视频生成的难点,也是一项关键挑战。为此,团队提出了参考图嵌入和重叠帧策略,以实现人物的身份保留和时间一致性。
代码示例
身份保留。OmniAvatar引入了一个参考帧,作为人物身份的固定指导。具体来看,首先需提取参考帧的潜在表示;然后将这些表示多次重复,使其长度与视频帧数匹配;接下来,再在每个时间步,将这个重复的参考帧潜在表示与视频潜在表示进行连接。因此,通过参考帧设计,可有效锚定人物身份,确保在整个长视频序列中的人物一致性。时间一致性。为了实现无缝的视频连续性,OmniAvatar采用了一种潜在重叠策略。首先,在训练时使用单帧和多帧前缀潜在变量的组合进行训练;其次,在推理过程中,对于第一批的帧,参考帧既作为前缀潜在变量,又作为身份指导;对于后续批次,则用前一组的最后帧作为潜在变量,参考帧仍保持固定用作身份指导。
OmniAvatar是团队在多模态视频生成上的初步尝试,并在实验数据集上得到了初步验证,但尚未达到产品级应用水平。未来,团队还将在复杂指令处理能力、多角色交互等方面进一步探索,扩大模型在更多场景中的应用。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com
文章原文