2025-06-20 20:23 浙江
季军作品-赛博悟空LoRA模型的全过程
季军作品
模型:
nick3582983335-赛博悟空(AI西游记)
模型链接:
1、自我介绍
大家好,我是Controller1,一名自动化专业的大三本科生。前段时间参加了魔搭平台举办的“同西游,见万相”风格LoRA大赛,很荣幸也很惊讶获得了三等奖。非常感谢魔搭官方给我这个机会,让我与大家分享一下我的创作心路历程和想法。其实,在正式开赛前几天,通过老师的引导,才刚刚接触到了这个比赛,也第一次了解LoRA这项技术。对我来说是一方全新且未知的领域,毕竟短短第一个月需要从零开始,而且和这些专业大佬同台竞技,我很担心也很忐忑能不能打好这次比赛。所以,对于炼丹我也只算是个萌新,理解也只停留在浅层,只能和大家尽可能地分享自己这一个月来所学到的所实践的成果。欢迎大家随时来和我交流指正一下呀!
2、创作思路
一开始我先去B站观看有关LoRA技术的教程,从数据集的收集→处理数据集→打标→训练参数的修改等等,上手门槛没有想象中的那么高,但要想做好做精并非那么容易。大部分炼丹师好像都会从Stable Diffusion开始实践入手,但限于时间和精力,我决定学完理论之后直接从更简单易上手的魔搭平台开始实操。给西游记翻新,选择什么风格呢?第一反应是最近火爆全球的黑神话悟空风格,于是我从小红书上一个专门对黑神话悟空摄影的社区,选取了二十来张的图片,这次数据集的选取我主要考虑要有悟空的正面、背面、侧面,以及半身和全身照。对于图片的分辨率我没有进行处理,杂七杂八的(影响效果!)。所以这时候arb桶一定要打开!它可以帮忙融合一下不同分辨率的图片。打标的话,我首先选择了通义千问模型来帮忙打标。第一次尝试,我没有选择人工介入打标,全权交给了AI,因为没有经验,也不知如何修改。到了参数设置环节,其实基本上默认魔搭社区的参数就很nice了!如果像我这种萌新,为数不多可能要手动添加或修改的就是触发词,提示词,以及保存的轮数,其他如果不是精益求精或者资深大佬的话,建议不动就行。当然第一次的效果差强人意,整个模型色调很黑,人物细节也远远不够,背景还很模糊,生成视频的时候,长得还挺还原,但是人物动作幅度特别特别小,且泛化性很差,不能生成多样化的人物动作和背景。于是我就开始思考,要不我先试试改一下文生视频的提示词,于是借助DeepSeek、GPT帮忙描述我想要的风格和视频效果。但很显然,对于这个稀烂的数据集以及没有人工介入的打标,再详细的视频描述也是徒劳,效果只会越来越差。第二次我选择去尝试一下赛博风格,这次先在数据集的分辨率上进行改进。赛博风格我也同样是通过百度以及小红书搜索了二十来张照片,然后魔搭平台里面的裁剪给它按照64*n进行裁剪(保证裁剪完的图片是64的倍数且不小于512)。从结果来看,模型要更清晰了一些,但生成视频的效果还是一般。紧接着又分阶段改进并尝试了好几个不同的模型,并请教了lip421大佬!!从中积累到了一些经验,所以我决定从头相对完整地跑一个模型试试。接下来我想到了构建Q版职场西游记。这回的数据集全部由豆包生成,蛮打蛮算抽了八十来张(需要保证人物风格和特征的一致性),且豆包生成的图片分辨率均为1024*1024(这点非常友好!分辨率最好的比率1:1),即梦的也可以自由选择想要的分辨率。对了!还要记得去水印(这里推荐idmore,在线去除水印免费但需要自己圈一下)通过与GPT交流,让它帮忙输出我想要的图片风格与人物特征。同时为了保证角色动作的多样性,可以每一个姿势抽个三四张,重点是❗要把人物动作描述清楚!!在借助AI大模型打标的基础上,人工检查,将一些描述不正确的单词和句子删除,然后描述姿势用中文即可!!(经测试,中文描述姿势要比英文的准确且更好出图和视频)轮数的话一般20轮训练也够用了,然后如果要更好地比较哪一轮效果最好的话,建议可以每1轮保存一次LoRA,都试试。一般来说轮次越后面,人物的拟合效果确实会更好,但相应地幅度会小很多,像我提交的这个,最终折中考虑了人物拟合度以及动作幅度,选择了第九轮的模型进行生视频。效果比之前显著提升了!且提示词很简单,只要人物+动作+背景,基本上都能生成的想要的。当然想要更细节,在提示词描述上多花点心思就行。
(tips:关于打标,看了教程视频,里头说“最不想要它融合的特征,就给它做减法”,比如我不想要这个背景,我在打标的时候,就要把这个背景描述出来,让它分割开,不会和主体绑定起来。当然,这个减法也可以在主体的一部分去体现,例如我待会生成的时候想要白雪公主是红头发,那我就在数据集打标时要把黑头发标注出来,这样头发的颜色就可以任意修改了)既然相对成功尝试了Q版的西游记,我还是决心回去再试试我心目中的赛博悟空!于是继续结合GPT+豆包,生成了想要的图片,处理水印+人工介入检查打标,打标长度可以不用太细节,选short一般就够用了,太细节反而生成视频的时候要描述地更细节,比较难出图,泛化性会更好一点。看人物拟合度,是否达到标准,一个可以通过看Loss值,Loss值越低,拟合程度越高,最好的情况是初期比较大,后期保持在低位振荡。还有就是可以拿模型去跑视频看看效果。
这里非常感谢魔搭平台!!提供了非常便捷非常容易上手的炼丹工具及云服务器!!!狠狠点赞👍对了,今天看了一下我的模型,还有一个bro拿我的Q版西游记返了一个很有意思的图哈哈哈哈(成就感涌上来了)提示词很简单,但效果真的很不错!对于想尝试 LoRA 训练的小伙伴,千万不要觉得门槛高。现在线上训练模型已经非常方便了,我们就像搭积木一样,照着步骤来,多实践几次,一定能做出满意的模型。而且以后技术门槛只会越来越低,比技术更重要的是你的创意和审美。就像魔搭举办的这次比赛,平台会给大家提前准备好所需的知识和工具,大家可以更加便捷快速的学习技能,从而把更多精力放在创作本身。技术的进步不是为了让热爱变得廉价,而是让更多人有机会触摸到创造的温度。从 Stable Diffusion 开源,到到魔搭平台众多创作者的贡献,再到社区里大家毫无保留的经验交流,我想,正是这些 “开源的星火”,汇聚成了照亮大家前行的温暖火炬。再次感谢魔搭平台,这份认可将激励我继续前行!!
点击阅读原文,即可跳转品牌馆查看更多~3、最后总结
👇点击关注ModelScope公众号获取
更多技术信息~