掘金 人工智能 6小时前
DeepSeek优化短视频脚本配合通义万相2.1文生视频模型生成高质量视频
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了阿里巴巴开源的通义万相2.1文生视频模型,该模型提供14B和1.3B参数版本,支持中英文视频生成及特效。通过DeepSeek优化提示词,能够显著提升视频细节和场景丰富度。文章详细阐述了模型的使用方法和效果,并进行了对比分析,展示了DeepSeek加持下视频生成的优势。

🚀 通义万相2.1模型开源:阿里巴巴开源了通义万相2.1文生视频模型,采用Apache2.0协议,包括14B和1.3B两个版本,均可在GitHub、HuggingFace等平台免费获取。

🏆 模型性能优异:14B版本在VBench榜单上以86.22%的成绩登顶,超越Sora、Luma等模型。1.3B版本虽然参数较少,但性能出色,甚至能与闭源模型媲美,且可在普通显卡上运行。

🐶 DeepSeek优化提升效果:通过DeepSeek优化提示词,可以将模糊的输入需求转化为更具体的场景描述,例如将“金毛犬追逐蝴蝶”的场景细化,从而显著提升视频的细节和场景丰富度,使视频文件体积增加2倍,增强观赏性。

🎬 生成效果对比:文章对比了使用默认提示词和经过DeepSeek优化的提示词生成的视频效果,结果显示,经过DeepSeek优化后,视频包含更多元素,场景更加丰富,更具吸引力。

🧑 博主简介:现任阿里巴巴嵌入式技术专家,15年工作经验,深耕嵌入式+人工智能领域,精通嵌入式领域开发、技术管理、简历招聘面试。CSDN优质创作者,全网11W+粉丝博主,提供产品测评、学习辅导、简历面试辅导、毕设辅导、项目开发、C/C++/Java/Python/Linux/AI等方面的服务,同时还运营着十几个不同主题的技术交流群,如有需要请站内私信或者联系VX(gylzbk),互相学习共同进步。

阿里巴巴于2025年2月开源视频生成模型通义万相2.1,提供14B和1.3B参数版本,支持中英文视频生成及特效(如粒子效果、物理模拟),其14B在VBench榜单以86.22%得分登顶。通过DeepSeek优化提示词(prompt),将模糊需求细化为具体场景描述,可以显著提升视频细节与场景丰富度,如生成“金毛犬追逐蝴蝶”场景时,优化后的prompt使视频文件体积增加2倍并增强观赏性。

1. 前言

2月25日晚,阿里巴巴放出一个大招:把自研的通义万相2.1文生视频模型直接开源啦!这次开源相当“大气”,用的是全球开发者都爱的Apache2.0协议,连140亿(14B)和13亿(1.3B)参数的两个版本都被完全开源了。无论是用文字生成视频(T2V),还是用图片生成视频(I2V),开发者都能在GitHub、HuggingFace这些技术社区,甚至魔搭平台上免费下载,想怎么玩就怎么玩!

先说说这俩版本的实力:

140亿参数的“重火力猛将:在权威考试卷VBench上直接飙到86.22分,完胜Sora、Luma这些国际选手,稳坐第一名;小个头也有大能量的1.3B版本:虽然参数少,但表现居然超过了好多大块头开源模型,甚至能跟闭源的“黑箱选手”一较高下。最神奇的是,它能在普通显卡上跑起来,8.2GB显存就能生成480P的流畅视频,学生党和小团队研究简直太香了!

2. 文生视频初体验

2.1 场景构建

接下来,我们想象一个场景:一只可爱的小狗在草坪上奔跑。然后我们使用通义万相2.1来生成视频,看看跟我们想象中的场景差别大不大。

2.2 视频生成

调用通义万相2.1 1.3B模型,进行文生视频的方法如下所示:

cd ~/Wan2.1-main/python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "一只可爱的小狗在草坪上奔跑"

生成完成之后,如下如所示。可以看到耗时只需要04:04(4分4秒),生成了一个名为t2v-1.3B_832*480_1_1_一只可爱的小狗在草坪上奔跑_20250311_104528.mp4的mp4视频。

2.3 效果展示

这是刚才生成的视频:live.csdn.net/v/embed/468…

3. DeepSeek加持下的通义万相2.1

3.1 DeepSeek构建场景

从生成的视频来看,场景还是略显单调。怎么办呢?不要忘了我们还有另外一个国产之光:DeepSeek。

通过自然语言处理技术,DeepSeek可以将模糊的输入需求(如“夏日海滩”)自动扩展为具体细节描述(“夕阳、浪花、沙堡、孩童”),可以显著提升生成视频的场景完整度与细节真实感。

接下来,我们让DeepSeek为我们扩充下脚本,让视频场景更加饱满。

我:我需要使用AI工具生成一个5秒钟的视频,我想象的场景:一只可爱的小狗在草坪上奔跑,但我感觉不够饱满,帮我扩充下场景,使其更加丰满。100字以内。DeepSeek:夏日午后,金毛幼犬在翠绿草坪追逐蓝闪蝶,肉爪扬起细碎草屑。蒲公英随风飘散,樱花树投下斑驳光影。镜头低角度跟拍,捕捉小狗跃起瞬间的粉舌与摇晃耳朵,尾巴扫过雏菊花丛。慢动作特写晶莹口水拉丝,背景虚化处可见彩色气球与野餐篮,空中飘落两片樱花瓣收尾于湛蓝天幕。

3.2 视频生成

接下来,再次调用通义万相模型生成视频:

cd ~/Wan2.1-main/python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "夏日午后,金毛幼犬在翠绿草坪追逐蓝闪蝶,肉爪扬起细碎草屑。蒲公英随风飘散,樱花树投下斑驳光影。镜头低角度跟拍,捕捉小狗跃起瞬间的粉舌与摇晃耳朵,尾巴扫过雏菊花丛。慢动作特写晶莹口水拉丝,背景虚化处可见彩色气球与野餐篮,空中飘落两片樱花瓣收尾于湛蓝天幕。"

生成完成之后,如下如所示。可以看到耗时04:03(4分3秒),跟之前的时间几乎一样,非常稳定。生成了一个名为t2v-1.3B_832*480_1_1_夏日午后,金毛幼犬在翠绿草坪追逐蓝闪蝶,肉爪扬起细碎草屑。蒲公英随风飘散,樱花树投下斑驳光影。镜头低_20250311_113212.mp4的mp4视频。

3.3 效果展示

这是刚才生成的视频:live.csdn.net/v/embed/468…

4. 效果对比

4.1 视频质量

虽然不同的prompt生成时间基本一致,但是从生成的视频文件大小可以看到,差了足足2倍多。说明经过DeepSeek优化之后的prompt,生成的视频质量效果是有直线提升的。

4.2 体感体验

对比默认promt生成的视频,可以明显的看到,在DeepSeek的加持下,通义万相2.1生成的视频包含了更多的元素,不再是单调的一只狗在奔跑。更加吸睛,更加精彩。

默认prompt经DeepSeek优化后的prompt

5. 总结

通过DeepSeek优化提示词(prompt),将模糊需求细化为具体场景描述,可以显著提升视频细节与场景丰富度,如生成“金毛犬追逐蝴蝶”场景时,优化后的prompt使视频文件体积增加2倍并增强观赏性。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义万相2.1 文生视频 DeepSeek 开源 AI模型
相关文章