阿里通义发布的 Wan2.1 系列模型,采用了先进的 DiT 架构,在技术上实现了多项突破。其中,高效的视频压缩 VAE 模型显著降低了运算成本,让高清视频生成更加高效且经济。同时,模型的Transformer部分基于主流的视频DiT结构,通过Full Attention机制精准捕捉长时程的时空依赖关系,确保了生成视频在时间与空间上的高度一致性。
👉 查看Wan2.1技术资料
通义万相模型结构图
本次发布的首尾帧生视频模型在基础架构模型上,引入了额外的条件控制分支,用户输入的首帧和尾帧作为控制条件,通过这一分支实现了流畅且精准的首尾帧变换。具体而言,首帧与尾帧同若干零填充的中间帧拼接,构成控制视频序列。该序列进一步与噪声及掩码(mask)进行拼接,最终作为扩散变换模型(DiT)的输入。
此外,为实现画面稳定性控制,通义万相首尾帧生视频模型提取了首帧和尾帧的 CLIP 语义特征,并通过交叉注意力机制(Cross-Attention Mechanism)将其注入到 DiT 的生成过程中。
万相首尾帧模型架构图
训练及推理优化
通义万相首尾帧生视频模型采用了基于线性噪声轨迹的流匹配(Flow Matching)方法。在训练阶段,对于文本与视频编码模块,我们采用了数据并行(DP)与完全分片数据并行(FSDP)相结合的分布式策略;对于扩散变换模型(DiT)模块,我们运用了数据并行(DP)、完全分片数据并行(FSDP)、环形注意力机制(RingAttention)以及Ulysses混合的并行策略。这些并行策略使得模型能够支持分辨率为720p、时长为5秒的视频切片训练。
在推理阶段,为了在有限内存资源的条件下支持高清视频推理,通义万相首尾帧生视频模型分别采用了模型切分策略以及序列并行策略。此外,通义万相首尾帧生视频模型采用了效果无损的步骤间缓存和CFG cache方法,以及在部分层(如qkvo投影层和前馈网络FFN)中使用FP8 GEMM运算,同时实现了FlashAttention3 INT8与FP8混合算子以对注意力机制部分进行8比特量化。在确保推理效果无损的前提下,这些优化措施显著缩短了推理时间。
数据驱动训练过程
模型的训练分为三个阶段,逐步对能力进行提升:
第一阶段:使用与基模型相同的数据集,在480p分辨率下进行图生视频、任意位置插帧、视频续写等任务的混合训练,帮助模型掌握有效的掩码(mask)机制。
第二阶段:构建专门用于首尾帧模式的训练数据,筛选出首尾帧差异较大的视频片段,在480p分辨率下专注于优化首尾帧生成能力。
第三阶段:采用高精度数据集,在720p分辨率下完成最终训练,确保生成视频的细节复刻与动作流畅性达到最佳水平。
基于通义万相首尾帧生视频模型的强大能力,它不仅能完美复刻输入图像的细节,还能生成具有生动真实动作的视频。目前,通义万相首尾帧生视频模型已同步在GitHub开源,欢迎广大开发者与创作者试用并提出宝贵意见!
✅ Github
https://github.com/Wan-Video/Wan2.1✅ Hugging Face
https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P✅ Modelscope
https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P