🧑 博主简介:现任阿里巴巴嵌入式技术专家,15年工作经验,深耕嵌入式+人工智能领域,精通嵌入式领域开发、技术管理、简历招聘面试。CSDN优质创作者,全网11W+粉丝博主,提供产品测评、学习辅导、简历面试辅导、毕设辅导、项目开发、C/C++/Java/Python/Linux/AI等方面的服务,同时还运营着十几个不同主题的技术交流群,如有需要请站内私信或者联系VX(
gylzbk
),互相学习共同进步。
阿里巴巴于2025年2月开源视频生成模型通义万相2.1,提供14B和1.3B参数版本,支持中英文视频生成及特效(如粒子效果、物理模拟),其14B在VBench榜单以86.22%得分登顶。通过DeepSeek优化提示词(prompt),将模糊需求细化为具体场景描述,可以显著提升视频细节与场景丰富度,如生成“金毛犬追逐蝴蝶”场景时,优化后的prompt使视频文件体积增加2倍并增强观赏性。
1. 前言
2月25日晚,阿里巴巴放出一个大招:把自研的通义万相2.1文生视频模型直接开源啦!这次开源相当“大气”,用的是全球开发者都爱的Apache2.0协议,连140亿(14B)和13亿(1.3B)参数的两个版本都被完全开源了。无论是用文字生成视频(T2V),还是用图片生成视频(I2V),开发者都能在GitHub、HuggingFace这些技术社区,甚至魔搭平台上免费下载,想怎么玩就怎么玩!
先说说这俩版本的实力:
140亿参数的“重火力猛将:在权威考试卷VBench上直接飙到86.22分,完胜Sora、Luma这些国际选手,稳坐第一名;小个头也有大能量的1.3B版本:虽然参数少,但表现居然超过了好多大块头开源模型,甚至能跟闭源的“黑箱选手”一较高下。最神奇的是,它能在普通显卡上跑起来,8.2GB显存就能生成480P的流畅视频,学生党和小团队研究简直太香了!
2. 文生视频初体验
2.1 场景构建
接下来,我们想象一个场景:一只可爱的小狗在草坪上奔跑
。然后我们使用通义万相2.1来生成视频,看看跟我们想象中的场景差别大不大。
2.2 视频生成
调用通义万相2.1 1.3B模型,进行文生视频的方法如下所示:
cd ~/Wan2.1-main/python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "一只可爱的小狗在草坪上奔跑"
生成完成之后,如下如所示。可以看到耗时只需要04:04
(4分4秒),生成了一个名为t2v-1.3B_832*480_1_1_一只可爱的小狗在草坪上奔跑_20250311_104528.mp4
的mp4视频。
2.3 效果展示
这是刚才生成的视频:live.csdn.net/v/embed/468…
3. DeepSeek加持下的通义万相2.1
3.1 DeepSeek构建场景
从生成的视频来看,场景还是略显单调。怎么办呢?不要忘了我们还有另外一个国产之光:DeepSeek。
通过自然语言处理技术,DeepSeek可以将模糊的输入需求(如“夏日海滩”)自动扩展为具体细节描述(“夕阳、浪花、沙堡、孩童”),可以显著提升生成视频的场景完整度与细节真实感。
接下来,我们让DeepSeek为我们扩充下脚本,让视频场景更加饱满。
我:我需要使用AI工具生成一个5秒钟的视频,我想象的场景:一只可爱的小狗在草坪上奔跑,但我感觉不够饱满,帮我扩充下场景,使其更加丰满。100字以内。DeepSeek:夏日午后,金毛幼犬在翠绿草坪追逐蓝闪蝶,肉爪扬起细碎草屑。蒲公英随风飘散,樱花树投下斑驳光影。镜头低角度跟拍,捕捉小狗跃起瞬间的粉舌与摇晃耳朵,尾巴扫过雏菊花丛。慢动作特写晶莹口水拉丝,背景虚化处可见彩色气球与野餐篮,空中飘落两片樱花瓣收尾于湛蓝天幕。
3.2 视频生成
接下来,再次调用通义万相模型生成视频:
cd ~/Wan2.1-main/python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "夏日午后,金毛幼犬在翠绿草坪追逐蓝闪蝶,肉爪扬起细碎草屑。蒲公英随风飘散,樱花树投下斑驳光影。镜头低角度跟拍,捕捉小狗跃起瞬间的粉舌与摇晃耳朵,尾巴扫过雏菊花丛。慢动作特写晶莹口水拉丝,背景虚化处可见彩色气球与野餐篮,空中飘落两片樱花瓣收尾于湛蓝天幕。"
生成完成之后,如下如所示。可以看到耗时04:03
(4分3秒),跟之前的时间几乎一样,非常稳定。生成了一个名为t2v-1.3B_832*480_1_1_夏日午后,金毛幼犬在翠绿草坪追逐蓝闪蝶,肉爪扬起细碎草屑。蒲公英随风飘散,樱花树投下斑驳光影。镜头低_20250311_113212.mp4
的mp4视频。
3.3 效果展示
这是刚才生成的视频:live.csdn.net/v/embed/468…
4. 效果对比
4.1 视频质量
虽然不同的prompt生成时间基本一致,但是从生成的视频文件大小可以看到,差了足足2倍多。说明经过DeepSeek优化之后的prompt,生成的视频质量效果是有直线提升的。
4.2 体感体验
对比默认promt生成的视频,可以明显的看到,在DeepSeek的加持下,通义万相2.1生成的视频包含了更多的元素,不再是单调的一只狗在奔跑。更加吸睛,更加精彩。
默认prompt | 经DeepSeek优化后的prompt |
---|---|
5. 总结
通过DeepSeek优化提示词(prompt),将模糊需求细化为具体场景描述,可以显著提升视频细节与场景丰富度,如生成“金毛犬追逐蝴蝶”场景时,优化后的prompt使视频文件体积增加2倍并增强观赏性。