机器之心 2024年12月30日
港科大开源VideoVAE+,视频重建质量全面超越最新模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

港科大团队开源的VideoVAE+模型,是一种强大的跨模态视频变分自编码器,它通过创新的时空分离压缩机制和文本指导,实现了对大幅运动视频的高效压缩与精准重建。该模型在时间一致性和运动恢复方面表现出色,显著超越了包括英伟达Cosmos Tokenizer和腾讯Hunyuan Video在内的多个最新模型。VideoVAE+通过时序感知的空间自编码器和时序自编码器,有效分离时空信息,并利用文本信息增强细节保留和时间稳定性。此外,模型还采用图像和视频的联合训练,进一步提升了其性能。

⏱️ 时空分离压缩:VideoVAE+采用时序感知的空间压缩方法,有效分离空间和时间信息处理,避免时空耦合导致的运动伪影。

🚀 轻量级运动压缩:模型专门设计了轻量级的时序压缩模型,高效捕获视频中的运动动态,减少计算负担。

✍️ 文本信息融合:利用文本到视频数据集中的文本信息作为指导,提高视频细节的保留能力和时间稳定性,实现更精准的重建。

🖼️ 图像视频联合训练:通过图像和视频数据的联合训练,增强模型在多任务上的重建性能和适应性,提高整体表现。

2024-12-30 12:29 北京

实现了对大幅运动视频的高效压缩与精准重建。

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


港科大团队重磅开源 VideoVAE+,提出了一种强大的跨模态的视频变分自编码器(Video VAE),通过提出新的时空分离的压缩机制和创新性引入文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持很好的时间一致性和运动恢复。




VideoVAE + 模型大幅超过最新模型包括英伟达在 2024.11 发布的 Cosmos Tokenizer,同时也超越一众方法包括腾讯在 2024.12 发布的 Hunyuan Video,CogvideoX VAE,WF-VAE,CV-VAE,Open Sora,Open Sora Plan, Easy Animate-VAE。



什么是 VideoVAE 模型


VideoVAE 模型(Video Variational Autoencoder)是一种基于深度学习的生成模型,用于对视频数据进行压缩、重建和生成,讲视频从 RGB 像素空间投影到低维度的 latent 空间。常用于结合 Diffusion 生成模型组成两阶段的模型结构:即先通过 VideoVAE 的编码器(Encoder)实现压缩数据维度,去除冗余信息,再在低维 latent 空间用 diffusion 模型进行 latent 生成,最后通过 VideoVAE 的解码器(Decoder)将 latent 解码到 RGB 视频,从而实现降低计算资源,更加高效的生成。


目前方法


一些方法直接采用图像 VAE 进行逐帧压缩,忽略了帧与帧之间的时间关联性,导致视频生成过程中出现严重的时序闪烁问题。此外,时间维度上的冗余信息未被充分压缩,使得后续的扩散模型训练效率低下,成本高昂。


另外,最近很多方法开始使用 VideoVAE,考虑时间维度,但仍存在诸多问题。包括细节模糊和失真(比如面部、手部、边缘和文本),以及重建大幅运动的视频时,出现运动卡顿(缺乏连贯及合理的时序过渡)和伪影等问题。


图 1:该研究将该研究的方法和一众优秀工作包括 Open Sora Plan, Open Sora, CV-VAE, CogVideoX-VAE, Easy Animate-VAE 进行了视觉对比,VideoVAE + 能够准确重建大幅运动的视频,并且有效解决了运动卡顿,重建模糊,细节缺失等问题。


方法


为了解决上述问题,VideoVAE + 提出了一种新的 cross-modal Video VAE 架构,其设计的关键点包括:


1. 时空分离的压缩机制:提出一种时序感知的空间压缩方法,有效分离空间和时间信息处理,避免因时空耦合而导致的运动伪影。


2. 轻量级运动压缩模型:专门设计了一个模型用于时序压缩,高效捕获视频中的运动动态。


3. 文本信息融合:利用文本到视频数据集中的文本信息作为指导,提高视频细节的保留能力和时间稳定性。


4. 图像和视频的联合训练:通过在图像和视频数据上的联合训练,增强了模型在多任务上的重建性能和适应性。



文章对比了三种时空建模方法:同步建模、顺序建模以及该研究提出的最优时空建模方案。



该研究的方案具体包括时序感知的空间自编码器(Temporal-aware Spatial AutoEncoder)和时序自编码器(Temporal Autoencoder):


在第一阶段,该研究将 2D 卷积扩展为核大小为 (1,3,3) 的 3D 卷积,并与同时建模类似,同时添加了额外的 3D 卷积层来建模时序维度,该研究将第一阶段的模型称为时序感知的空间自编码器。但与方式 1 同时建模不同的是,在第一阶段中,该研究仅压缩空间信息,而不压缩时序信息。


在第二阶段中,该研究引入了另一个时序自编码器(Temporal Autoencoder)来进一步编码和压缩时间维度信息,这作为第二阶段的压缩部分。该研究遵循方式 2 的时间编码器和解码器设计。通过这种方式该研究同时实现了更好的细节恢复能力和运动恢复能力。


同时,该研究提出引入跨模态信息,通过文本指导进一步增强视频生成的细节保留和时间一致性。


该技术的主要特点有:


1. 智能特征分块


将视频的视觉特征图分割成小块(patch),并将它们作为 token 进行处理,不同层采用多种尺寸(8×8、4×4、2×2、1×1),确保每层特征的细节追踪到位。


2. 跨模态注意力机制


首次在 Video VAE 任务上引入文本信息作为语义指导,让视觉 token(作为 Query)与文本嵌入(作为 Key 和 Value)计算跨模态注意力,提升细节重建质量。


3. 强大的文本嵌入器


采用先进的 Flan-T5 模型,将文字转化为语义向量,为视频生成提供坚实的语义基础。


其次,该研究采用了图像与视频的联合训练。模型能够同时接受图像和视频作为训练数据,既学习图像压缩能力,又提升视频压缩性能。在训练中该研究观察到,加入更多高质量的图像数据,能进一步增强视频自编码性能。


结果


该研究提供了 latent 在 16 channel 和 4 channel 两个版本的模型,以及在三个不同的数据集上对效果进行了全面评测。


该研究的 VideoVAE + 模型大幅超过最新模型包括英伟达在 2024.11 发布的 Cosmos Tokenizer,同时也超越一众方法包括腾讯在 2024.12 发布的 Hunyuan Video,CogvideoX VAE, WF-VAE,CV-VAE,Open Sora,Open Sora Plan, Easy Animate-VAE。



同时该研究提供了 Demo video 可以更直观地查看模型的视觉效果。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VideoVAE+ 视频压缩 跨模态 AI视频 深度学习
相关文章