多阶段递进训练:从192P图像预训练到720P视频的多阶段递进训练,结合Flow Matching框架,实现14B参数模型的高效稳定收敛。
分布式训练加速:经过详细的负载分析,结合DP、CP、FSDP多种分布式策略,并在不同模块间采用分布式策略切换,能够高效训练长达百万Tokens的模型。
极致效率优化
视频变分自编码器:提出新型的基于Cache的3D因果Wan-VAE架构,能够编解码无限时长1080P视频,并且重构速度提升2.5倍,重构质量也取得头部的效果。
轻量1.3B模型:仅需8.19GB显存,消费级GPU(如RTX 4090)可在4分钟左右生成5s视频,且性能超越更大规模开源模型。
推理加速技术:融合CP、扩散缓存(Diffusion Cache)与FP8量化,14B模型推理速度提升1.78倍。
规模化数据构建
数据策略:构建O(1)B级图像和视频数据,通过OCR检测、美学评分、运动质量分级等多步清洗流程,筛选高质量数据。
双语视觉文字生成:首创支持中英文视频内嵌文字生成,通过合成数据与多模态语言模型联合优化,生成与自然场景融合的准确字形。
开源生态构建
下游任务全覆盖:支持图生视频、指令视频编辑、人像定制、实时生成等多达8类生成任务,能够满足多种创造场景的需求。
多模型尺寸和多分辨率:同时开源1.3B和14B模型,可以支持480P和720P的视频生成,能够满足不同计算资源条件下推理需求。
开源生态:完整公开模型和代码,支持社区二次开发。在VBench等基准测试中,Wan 14B以86.22总分超越Sora等闭源模型,引领开源视频生成技术革新。
🎉 福利环节 🎉
留言区点赞前3名可获得通义定制渔夫帽
活动截止时间:2025年3月28日 17:00
推荐阅读
万相AI整活,幅度这么大吗?