2025-02-26 00:02 广东

就在刚刚，阿里云旗下视觉生成基座模型万相 2.1（Wan）重磅开源。

? 据悉，此次开源采用最宽松的 Apache2.0 协议，14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源，同时支持文生视频和图生视频任务。

14B 万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出。在评测集 VBench 中，万相 2.1 以总分 86.22% 的成绩大幅超越 Sora、Luma、Pika 等国内外模型，稳居榜首位置。

1.3B 版本测试结果不仅超过了更大尺寸的开源模型，甚至还接近部分闭源模型，同时能在消费级显卡运行，仅需 8.2GB 显存就可以生成高质量视频，适用于二次模型开发和学术研究。

值得注意的是，万相 2.1 还是首个具备支持中文文字生成能力，且同时支持中英文文字特效生成的视频生成模型。

技术创新：

1️⃣ 基于 DiT 架构和 Flow Matching 范式

2️⃣ 研发高效因果 3D VAE 和可扩展预训练策略

3️⃣ 实现特征缓存机制，支持无限长 1080P 视频编解码

4️⃣ 通过空间降采样压缩，减少 29% 内存占用

实验结果显示，在运动质量、视觉质量、风格和多目标等 14 个主要维度和 26 个子维度测试中，万相表现出色，并且斩获 5 项第一。

?‍♀️ 尤其在复杂运动和物理规律遵循上的表现上大幅提升，万相能稳定呈现人物的旋转、跳跃等高难度动作，并逼真模拟物体碰撞、反弹和切割等真实物理效果。

开源地址：

GitHub:

https://github.com/Wan-Video

HuggingFace:

https://huggingface.co/Wan-AI

魔搭社区：

https://modelscope.cn/organization/Wan-AI