阿里AI“四连发”再添一子,电影级视频生成模型通义万相Wan2.2正式开源并全面接入通义APP。本次开源的文生视频和图生视频模型是业界首个采用MoE架构的视频生成模型,总参数量27B,激活参数14B,有效降低了算力消耗并提升了生成效率。用户可通过通义APP输入文本或图片,利用Wan2.2首创的美学控制系统生成1080P高清视频,并可实现电影级的光影、色彩和镜头语言控制。模型在人物表情、多人交互、物理规律模拟等方面也得到显著提升,能够创作出更细腻、更真实的视频内容。
🎥 **MoE架构与效率提升**:通义万相Wan2.2是业界首个采用MoE(Mixture of Experts)架构的视频生成模型,总参数量27B,激活参数14B。这种架构由高噪声和低噪专家模型组成,分别负责视频的整体布局和细节完善,在同等参数规模下,计算资源消耗降低约50%,有效缓解了因Token过长带来的算力压力,显著提升了生成效率和用户体验。
🎬 **电影级美学控制**:Wan2.2首创了美学控制系统,将光影、色彩、镜头语言三大电影美学元素集成到模型中。用户可以通过组合60多个直观可控的参数,在构图、微表情、复杂调度等方面实现媲美专业电影的创作效果。同时,模型支持智能美学词响应和智能参数联动,能够解析用户创作意图并自动协调参数,简化创作流程。
🎭 **精细化表情与真实交互**:在人物表现方面,Wan2.2实现了显著提升,不仅能生成“大笑”“惊恐”等经典情绪,还能更细腻地刻画“思考时不经意的挑眉”“强忍泪水时的嘴唇颤抖”等精细微表情。此外,模型在多人交互和复杂运动的表现上也更加出色,提升了视频的真实感和表现力。
⚖️ **物理规律模拟**:Wan2.2深度优化了对力学、光学、流体力学等物理规律的模拟,能够精准还原物体碰撞、光影折射、流体流动等真实动态。这使得生成的视频在视觉效果上更加逼真,符合现实世界的物理逻辑,为创作带来更强的真实感和沉浸感。
🚀 **持续迭代与易用性**:自今年2月以来,通义万相已连续开源了多款模型,包括文生视频、图生视频、首尾帧生视频和全能编辑等,目前相关功能均可在通义APP直接体验。用户只需在通义APP中输入文本或图片,即可化身“AI导演”,实现电影级视频的轻松创作,单次可生成5秒视频,并支持多轮提示词完成短剧制作,未来还将继续提升单次视频生成时长。
快科技7月29日消息,7月28日晚,阿里AI“四连发”再落一子,电影级视频生成模型通义万相Wan2.2正式开源,并全面接入通义APP。
据悉,Wan2.2此次开源的文生视频模型和图生视频模型均为业界首个使用MoE架构的视频生成模型,总参数量为27B,激活参数14B,均由高噪声专家模型和低噪专家模型组成,分别负责视频的整体布局和细节完善。
在同等参数规模下,计算资源消耗降低约50%,有效缓解了视频生成处理Token过长带来的算力压力,可进一步提升生成效率和用户体验。
据介绍,Wan2.2开源后,手机用户只需在通义APP中输入文本或图片,即可化身“AI导演”,借助Wan2.2首创的美学控制系统,生成具备电影级质感的1080P高清视频。
目前,用户单次可生成5秒视频,并可通过多轮提示词进一步完成短剧制作。
未来,通义万相还将继续提升单次视频生成的时长,让视频创作更高效。
据悉,Wan2.2首创的美学控制系统,直接将光影、色彩、镜头语言三大电影美学元素装进模型,可以随意组合60多个直观可控的参数,在构图、微表情、复杂调度等能力上媲美专业电影水平。
同时,Wan2.2还支持智能美学词响应、智能参数联动,用户只需简单描述,模型即可解析创作意图,并自动协调相关参数。
而在人物面部表情、多人交互、复杂运动等维度上,Wan2.2也实现显著提升。
模型不仅能生成“大笑”“惊恐”等经典情绪,还能更细腻地刻画“思考时不经意的挑眉”“强忍泪水时的嘴唇颤抖”等精细微表情。
此外,Wan2.2还深度优化了对力学、光学、流体力学等物理规律的模拟,可精准还原物体碰撞、光影折射、流体流动等真实动态。
官方也展示了一些输入提示词后呈现的案例,例如:生成一段复古且富有文艺感的视频;一段复刻电影《星际穿越》中宇航员在米勒星球的经典画面。


自今年2月以来,通义万相已连续开源文生视频、图生视频、首尾帧生视频和全能编辑等多款模型,目前相关功能均可在通义APP直接体验。