DeepSeek优化短视频脚本配合通义万相2.1文生视频模型生成高质量视频

🧑 博主简介：现任阿里巴巴嵌入式技术专家，15年工作经验，深耕嵌入式+人工智能领域，精通嵌入式领域开发、技术管理、简历招聘面试。CSDN优质创作者，全网11W+粉丝博主，提供产品测评、学习辅导、简历面试辅导、毕设辅导、项目开发、C/C++/Java/Python/Linux/AI等方面的服务，同时还运营着十几个不同主题的技术交流群，如有需要请站内私信或者联系VX（gylzbk），互相学习共同进步。

阿里巴巴于2025年2月开源视频生成模型通义万相2.1，提供14B和1.3B参数版本，支持中英文视频生成及特效（如粒子效果、物理模拟），其14B在VBench榜单以86.22%得分登顶。通过DeepSeek优化提示词（prompt），将模糊需求细化为具体场景描述，可以显著提升视频细节与场景丰富度，如生成“金毛犬追逐蝴蝶”场景时，优化后的prompt使视频文件体积增加2倍并增强观赏性。

1. 前言

2月25日晚，阿里巴巴放出一个大招：把自研的通义万相2.1文生视频模型直接开源啦！这次开源相当“大气”，用的是全球开发者都爱的Apache2.0协议，连140亿（14B）和13亿（1.3B）参数的两个版本都被完全开源了。无论是用文字生成视频（T2V），还是用图片生成视频（I2V），开发者都能在GitHub、HuggingFace这些技术社区，甚至魔搭平台上免费下载，想怎么玩就怎么玩！

先说说这俩版本的实力：

140亿参数的“重火力猛将：在权威考试卷VBench上直接飙到86.22分，完胜Sora、Luma这些国际选手，稳坐第一名；小个头也有大能量的1.3B版本：虽然参数少，但表现居然超过了好多大块头开源模型，甚至能跟闭源的“黑箱选手”一较高下。最神奇的是，它能在普通显卡上跑起来，8.2GB显存就能生成480P的流畅视频，学生党和小团队研究简直太香了！

2. 文生视频初体验

2.1 场景构建

接下来，我们想象一个场景：一只可爱的小狗在草坪上奔跑。然后我们使用通义万相2.1来生成视频，看看跟我们想象中的场景差别大不大。

2.2 视频生成

调用通义万相2.1 1.3B模型，进行文生视频的方法如下所示：

cd ~/Wan2.1-main/python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "一只可爱的小狗在草坪上奔跑"

生成完成之后，如下如所示。可以看到耗时只需要04:04（4分4秒），生成了一个名为t2v-1.3B_832*480_1_1_一只可爱的小狗在草坪上奔跑_20250311_104528.mp4的mp4视频。

2.3 效果展示

这是刚才生成的视频：live.csdn.net/v/embed/468…

3. DeepSeek加持下的通义万相2.1

3.1 DeepSeek构建场景

从生成的视频来看，场景还是略显单调。怎么办呢？不要忘了我们还有另外一个国产之光：DeepSeek。

通过自然语言处理技术，DeepSeek可以将模糊的输入需求（如“夏日海滩”）自动扩展为具体细节描述（“夕阳、浪花、沙堡、孩童”），可以显著提升生成视频的场景完整度与细节真实感。

接下来，我们让DeepSeek为我们扩充下脚本，让视频场景更加饱满。

我：我需要使用AI工具生成一个5秒钟的视频，我想象的场景：一只可爱的小狗在草坪上奔跑，但我感觉不够饱满，帮我扩充下场景，使其更加丰满。100字以内。DeepSeek：夏日午后，金毛幼犬在翠绿草坪追逐蓝闪蝶，肉爪扬起细碎草屑。蒲公英随风飘散，樱花树投下斑驳光影。镜头低角度跟拍，捕捉小狗跃起瞬间的粉舌与摇晃耳朵，尾巴扫过雏菊花丛。慢动作特写晶莹口水拉丝，背景虚化处可见彩色气球与野餐篮，空中飘落两片樱花瓣收尾于湛蓝天幕。

3.2 视频生成

接下来，再次调用通义万相模型生成视频：

cd ~/Wan2.1-main/python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "夏日午后，金毛幼犬在翠绿草坪追逐蓝闪蝶，肉爪扬起细碎草屑。蒲公英随风飘散，樱花树投下斑驳光影。镜头低角度跟拍，捕捉小狗跃起瞬间的粉舌与摇晃耳朵，尾巴扫过雏菊花丛。慢动作特写晶莹口水拉丝，背景虚化处可见彩色气球与野餐篮，空中飘落两片樱花瓣收尾于湛蓝天幕。"

生成完成之后，如下如所示。可以看到耗时04:03（4分3秒），跟之前的时间几乎一样，非常稳定。生成了一个名为t2v-1.3B_832*480_1_1_夏日午后，金毛幼犬在翠绿草坪追逐蓝闪蝶，肉爪扬起细碎草屑。蒲公英随风飘散，樱花树投下斑驳光影。镜头低_20250311_113212.mp4的mp4视频。

3.3 效果展示

这是刚才生成的视频：live.csdn.net/v/embed/468…

4. 效果对比

4.1 视频质量

虽然不同的prompt生成时间基本一致，但是从生成的视频文件大小可以看到，差了足足2倍多。说明经过DeepSeek优化之后的prompt，生成的视频质量效果是有直线提升的。

4.2 体感体验

对比默认promt生成的视频，可以明显的看到，在DeepSeek的加持下，通义万相2.1生成的视频包含了更多的元素，不再是单调的一只狗在奔跑。更加吸睛，更加精彩。

默认prompt	经DeepSeek优化后的prompt

5. 总结

通过DeepSeek优化提示词（prompt），将模糊需求细化为具体场景描述，可以显著提升视频细节与场景丰富度，如生成“金毛犬追逐蝴蝶”场景时，优化后的prompt使视频文件体积增加2倍并增强观赏性。