通义 05月14日 00:21
开源!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

通义万相2.1开源了全球首个百亿参数的首尾帧生视频模型Wan2.1-FLF2V-14B。该模型仅需两张首尾帧照片,便能自动生成流畅高清视频。它基于DiT架构和Flow Matching训练策略,通过数据驱动的训练,逐步提升生成视频质量。模型支持720p分辨率,并采用多种分布式并行策略,优化训练和推理效率。用户可在魔搭社区、Hugging Face、GitHub等平台获取,体验用两张照片生成视频的乐趣。

🚀 Wan2.1-FLF2V-14B是全球首个开源的百亿参数首尾帧生视频模型,用户只需提供视频的首尾两帧图像,模型即可自动生成一段流畅的高清视频。

📊 模型训练采用数据驱动策略,数据集从480p逐步升级到720p分辨率,提升生成视频的质量,通过混合训练图生视频、插帧、续写及首尾帧模型,学习有效的掩码机制。

⚛️ 模型基于DiT架构,结合Flow Matching训练策略,设计了一套高效的首尾帧条件控制机制,保证首尾帧完美复刻的同时,生成动作连贯、运动真实的视频。

⚙️ 模型采用了DP、CP、FSDP等多种分布式并行策略,提升训练以及推理效率,并使用了模型切分策略以及序列并行策略,以在有限内存资源的条件下支持高清视频推理。

原创 开源 2025-04-17 22:39 浙江

技术解读+喂饭教程

案例展示



首帧



尾帧


提示词:“黑暗的环境,一群人站成一列,背对镜头,站在一束光前,镜头上移,俯拍出光源全貌。”





首帧



尾帧


提示词:“写实风格,一个身穿粉色运动服的女生在城市街道中跑步,镜头先特写女生的脸部,然后记录下女生转过街角向前跑去的背影。”





首帧



尾帧


提示词:“漫画风格,黑暗中,一个男人正在看向一束光,镜头逐渐拉远,展现出四周都是楼梯的环境全貌。”





首帧



尾帧


提示词:“卡通风格,一个打着红色雨伞的蓝色卡通人物站在雨中。它的眼神充满忧郁




模型架构


阿里通义发布的 Wan2.1 系列模型,采用了先进的 DiT 架构,在技术上实现了多项突破。其中,高效的视频压缩 VAE 模型显著降低了运算成本,让高清视频生成更加高效且经济。同时,模型的Transformer部分基于主流的视频DiT结构,通过Full Attention机制精准捕捉长时程的时空依赖关系,确保了生成视频在时间与空间上的高度一致性。


👉 查看Wan2.1技术资料


通义万相模型结构图


本次发布的首尾帧生视频模型在基础架构模型上,引入了额外的条件控制分支,用户输入的首帧和尾帧作为控制条件,通过这一分支实现了流畅且精准的首尾帧变换。具体而言,首帧与尾帧同若干零填充的中间帧拼接,构成控制视频序列。该序列进一步与噪声及掩码(mask)进行拼接,最终作为扩散变换模型(DiT)的输入。


此外,为实现画面稳定性控制,通义万相首尾帧生视频模型提取了首帧和尾帧的 CLIP 语义特征,并通过交叉注意力机制(Cross-Attention Mechanism)将其注入到 DiT 的生成过程中。


万相首尾帧模型架构图


训练及推理优化


通义万相首尾帧生视频模型采用了基于线性噪声轨迹的流匹配(Flow Matching)方法。在训练阶段,对于文本与视频编码模块,我们采用了数据并行(DP)与完全分片数据并行(FSDP)相结合的分布式策略;对于扩散变换模型(DiT)模块,我们运用了数据并行(DP)、完全分片数据并行(FSDP)、环形注意力机制(RingAttention)以及Ulysses混合的并行策略。这些并行策略使得模型能够支持分辨率为720p、时长为5秒的视频切片训练。


在推理阶段,为了在有限内存资源的条件下支持高清视频推理,通义万相首尾帧生视频模型分别采用了模型切分策略以及序列并行策略。此外,通义万相首尾帧生视频模型采用了效果无损的步骤间缓存和CFG cache方法,以及在部分层(如qkvo投影层和前馈网络FFN)中使用FP8 GEMM运算,同时实现了FlashAttention3 INT8与FP8混合算子以对注意力机制部分进行8比特量化。在确保推理效果无损的前提下,这些优化措施显著缩短了推理时间。


数据驱动训练过程


模型的训练分为三个阶段,逐步对能力进行提升:

    第一阶段:使用与基模型相同的数据集,在480p分辨率下进行图生视频、任意位置插帧、视频续写等任务的混合训练,帮助模型掌握有效的掩码(mask)机制。

    第二阶段:构建专门用于首尾帧模式的训练数据,筛选出首尾帧差异较大的视频片段,在480p分辨率下专注于优化首尾帧生成能力。

    第三阶段:采用高精度数据集,在720p分辨率下完成最终训练,确保生成视频的细节复刻与动作流畅性达到最佳水平。


基于通义万相首尾帧生视频模型的强大能力,它不仅能完美复刻输入图像的细节,还能生成具有生动真实动作的视频。目前,通义万相首尾帧生视频模型已同步在GitHub开源,欢迎广大开发者与创作者试用并提出宝贵意见!


✅ Github

https://github.com/Wan-Video/Wan2.1


✅ Hugging Face

https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P


✅ Modelscope

https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P



推荐阅读


MCP保姆级教程|从部署到Agent搭建


1张照片 2秒钟 一键变身3D数字人

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义万相 首尾帧生成 开源模型 AI视频生成
相关文章