通义 03月25日 23:10
性能提升+技术创新全拆解|报告公开
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

通义万相2.1版本带来了显著的技术突破与创新,通过多阶段递进训练、分布式训练加速、极致效率优化等手段,实现了模型性能的大幅提升。新版本不仅在视频生成质量上超越了Sora等闭源模型,还在推理速度和效率上取得了显著进展。通义万相2.1还构建了大规模高质量的数据集,支持中英文视频内嵌文字生成,并开源了1.3B和14B两种模型尺寸,覆盖了多种生成任务,满足不同用户的需求。通义万相2.1的开源举措,有望推动视频生成技术的进一步发展。

🚀 **多阶段递进训练与分布式加速:** 通义万相2.1采用从192P图像预训练到720P视频的多阶段递进训练范式,结合Flow Matching框架,实现了14B参数模型的高效稳定收敛。通过DP、CP、FSDP等多种分布式策略的结合,实现了百万Tokens模型的快速训练。

💡 **极致效率优化:** 针对视频变分自编码器,通义万相2.1提出了基于Cache的3D因果Wan-VAE架构,能够编解码无限时长1080P视频,且重构速度提升2.5倍。同时,融合CP、扩散缓存与FP8量化,14B模型推理速度提升1.78倍。

🖼️ **规模化数据与双语支持:** 构建了O(1)B级图像和视频数据,通过多步清洗流程筛选高质量数据。首创支持中英文视频内嵌文字生成,通过合成数据与多模态语言模型联合优化,生成与自然场景融合的准确字形。

🌍 **开源生态与多任务支持:** 开源1.3B和14B模型,支持图生视频、指令视频编辑、人像定制等8类生成任务,覆盖多种创作场景。VBench等基准测试中,Wan 14B以86.22总分超越Sora等闭源模型,引领开源视频生成技术革新。

通义万相Wan 2025-03-25 17:32 浙江

通义万相2.1最新的技术进展与作用

可扩展训练范式


多阶段递进训练:从192P图像预训练到720P视频的多阶段递进训练,结合Flow Matching框架,实现14B参数模型的高效稳定收敛。


分布式训练加速:经过详细的负载分析,结合DP、CP、FSDP多种分布式策略,并在不同模块间采用分布式策略切换,能够高效训练长达百万Tokens的模型。


极致效率优化



视频变分自编码器:提出新型的基于Cache的3D因果Wan-VAE架构,能够编解码无限时长1080P视频,并且重构速度提升2.5倍,重构质量也取得头部的效果。


轻量1.3B模型:仅需8.19GB显存,消费级GPU(如RTX 4090)可在4分钟左右生成5s视频,且性能超越更大规模开源模型。

推理加速技术:融合CP、扩散缓存(Diffusion Cache)与FP8量化,14B模型推理速度提升1.78倍。


规模化数据构建



数据策略:构建O(1)B级图像和视频数据,通过OCR检测、美学评分、运动质量分级等多步清洗流程,筛选高质量数据。

双语视觉文字生成:首创支持中英文视频内嵌文字生成,通过合成数据与多模态语言模型联合优化,生成与自然场景融合的准确字形。



开源生态构建



下游任务全覆盖:支持图生视频、指令视频编辑、人像定制、实时生成等多达8类生成任务,能够满足多种创造场景的需求。


多模型尺寸和多分辨率:同时开源1.3B和14B模型,可以支持480P和720P的视频生成,能够满足不同计算资源条件下推理需求。


开源生态:完整公开模型和代码,支持社区二次开发。在VBench等基准测试中,Wan 14B以86.22总分超越Sora等闭源模型,引领开源视频生成技术革新。


🎉 福利环节 🎉


留言区点赞前3名可获得通义定制渔夫帽

活动截止时间:2025年3月28日 17:00


推荐阅读



通义万相,开源!


万相AI整活,幅度这么大吗?



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义万相 视频生成 开源 AI
相关文章