AIGC Weekly 2024年10月05日
Meta 发布视频生成和编辑模型,来看看项目负责人的论文导读
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta 最近发布了名为 Movie Gen 的视频音频生成模型系列,其中包含文本到视频生成、文本到图像生成、个性化、编辑和视频到音频转换等功能。该系列模型采用 Transformer 架构,并使用流匹配技术,在数据质量和评估方面进行了大量研究。Movie Gen 在视频生成质量、文本对齐和真实性方面表现出色,超越了其他现有模型,例如 Sora 和 Gen3。

🎉 **流匹配技术:** Meta Movie Gen 模型采用了流匹配技术,在消融实验中,该技术在质量和对齐方面都优于扩散模型,并且表现出很强的稳健性。研究表明,验证损失与人类评估结果相关,这对于评估模型性能非常有价值。

🚀 **Llama 架构:** Movie Gen 使用了 Llama 架构,在质量和文本对齐方面明显优于 DiT。Meta 团队认为,Llama 架构在媒体生成领域具有巨大潜力,期待其他研究者进一步探索。

📊 **数据质量至关重要:** Meta 在论文中详细介绍了数据清理和过滤方法。他们强调,数据质量对于模型性能至关重要。对于预训练阶段,他们使用了一套严格的过滤和清理方法,而对于后训练阶段,则依赖于自动和人工过滤相结合的方法。

🧐 **T2V 评估挑战:** 文本到视频的评估是一个难题,自动评估指标效果不佳,与人类评估的相关性不高。因此,Meta 完全依赖人类评估,并将其分解为多个独立的质量和对齐维度。他们通过广泛的审核和详细的指标分解,使人类评估的方差非常低,确保评估结果的可靠性。

🎥 **模型细节:** Movie Gen 是一个拥有 300 亿参数的 Transformer 模型,能够生成 1080p 分辨率、支持不同宽高比和同步音频的视频,最长可达 16 秒,帧率为每秒 16 帧。模型首先生成 768 像素的分辨率,共 256 帧,然后通过自动编码器进行压缩,最大序列长度达到 73,000 个视频 tokens。

Meta 昨晚发布了Meta Movie Gen视频音频生成模型系列,其中的视频编辑模型和人物ID保持很有意思。Movie Gen Video:30B 模型,单个文本提示生成高质量、高清晰度的图像和视频。Movie Gen Audio:13B transformer模型,可以接受视频输入以及可选的文本提示用于可控性,生成与视频同步的高保真音频。Personalized videos:使用生成或现有视频以及附带的文字说明作为输入,可以执行本地化编辑,如添加、删除或替换元素。早上发现他们团队的视频生成模型负责人做了一个技术报告的论文导读,把重点讲的更清楚。他们写的真的很细,国内几个团队估计抱着论文库库读呢。这里挑几个自己觉得比较核心的点:Meta Movie Gen 是一个纯粹的 Transformer 架构模型,不是DiT,还使用了流匹配 (flow matching) 技术。视频生成模型的自动评估完全不可用,他们全部依赖人类评估,花了大量精力将视频评估分解为多个独立的质量和对齐维度。数据质量至关重要!他们在论文中详细介绍了如何进行过滤和清理,可以仔细看看。消融实验中发现,流匹配(flow matching) 在质量和对齐方面优于扩散模型。它的使用也非常稳健。全部解读Meta Movie Gen 是一系列模型的集合,可以实现文本到视频生成、文本到图像生成、个性化、编辑和视频到音频转换。这里主要讨论视频生成的部分。扩大数据、计算和模型参数的规模非常重要(这似乎是显而易见的)。将这些与流匹配 (flow matching) 技术相结合,并转向一个简单的常用大语言模型 (LLM) 架构(Llama),最终产生了最先进的视频生成质量。文本到视频 (T2V)、个性化和编辑模型都采用相同的训练方法。在预训练阶段,首先进行文本到图像 (T2I) 训练,然后进行 T2V 训练。以此模型为基础,我们进行 T2V 后训练,并且还训练了个性化 T2V 和视频到视频 (V2V) 编辑的功能。在压缩的潜在空间上训练了一个 Transformer 模型,使用流匹配技术,并以文本为条件。使用了 Llama 架构(具体来说是 Llama3,有几处小改动)。首个将 Llama 架构用于媒体生成的团队。事实上,在论文中展示了这个 Llama 模型在 T2V 的质量和文本对齐方面明显优于 DiT。Movie Gen 是一个拥有 300 亿参数的 Transformer 模型。我们的完整技术栈可以生成 1080p 分辨率的视频,支持不同的宽高比和同步音频,最长可达 16 秒,帧率为每秒 16 帧。这涉及到多长的序列?在上采样之前,模型生成 768 像素的分辨率,共 256 帧。通过自动编码器进行 8x8x8(高度 x 宽度 x 时间)的压缩,导致最大序列长度达到 73,000 个视频 tokens。为 T2V 模型设计了一个多阶段的训练方案。首先是 T2I 训练,然后是低分辨率(256 像素)训练,接着是高分辨率(768 像素)训练。最后是后训练阶段。曾尝试过联合训练 T2I 和 T2V,但这导致收敛速度明显变慢,质量也较差。关于评估,文本到视频的评估是一个难题。自动评估指标效果不佳,与人类评估的相关性不高。因此,我们完全依赖人类评估。花了大量精力将视频评估分解为多个独立的质量和对齐维度。结果如何?要么在我们的 1000 个提示评估集上与其他模型进行比较,要么使用它们网站上的视频(如 Sora)。我们计算统计显著性以确保评估的公平性和可靠性。Movie Gen 在整体质量和对齐方面显著优于 Sora,并且非常显著地优于 Gen3。在真实性和美学测试(评估照片真实感)方面,Movie Gen 在各个方面都显著胜出。流匹配技术!消融实验中发现,流匹配在质量和对齐方面优于扩散模型。它的使用也非常稳健。而且我们发现验证损失与人类评估相关——这一发现非常有价值!Llama 架构!在前面已经讨论过这个,但我们发现 Llama 在质量和文本对齐方面优于 DIT。我们期待社区中的其他研究者在媒体生成方面继续探索 Llama 的潜力!数据质量至关重要!这可能不是什么新发现,但清理视频数据确实很困难。对于预训练,在论文中详细介绍了如何进行过滤和清理。对于后训练阶段,依赖自动和人工过滤相结合的方法。T2V 评估是一个巨大的挑战!仅仅使用 UCF 数据集上的 FVD (Fréchet Video Distance) 指标是不够的。此外,人类评估往往带有主观性。然而,我们表明,通过广泛的审核和详细的指标分解,可以使人类评估的方差非常低,得到可靠的信号!项目介绍页面:https://ai.meta.com/research/movie-gen/论文技术报告:https://ai.meta.com/static-resource/movie-gen-research-paper项目负责人解读:https://x.com/Andrew__Brown__/status/1842262328617672725觉得内容不错的话希望可以来个点赞、再看、分享一键三连,谢谢

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Meta Movie Gen 视频生成 Transformer 流匹配 Llama 架构 数据质量 评估
相关文章