同“西游”，见“万相”季军｜赛博悟空西游LoRA创作分享

2025-06-20 20:23 浙江

季军作品-赛博悟空LoRA模型的全过程

季军作品

模型：

nick3582983335-赛博悟空（AI西游记）

模型链接：

https://www.modelscope.cn/models/Controller1/saibowukong

部分作品展示

1、自我介绍

大家好，我是Controller1，一名自动化专业的大三本科生。前段时间参加了魔搭平台举办的“同西游，见万相”风格LoRA大赛，很荣幸也很惊讶获得了三等奖。非常感谢魔搭官方给我这个机会，让我与大家分享一下我的创作心路历程和想法。其实，在正式开赛前几天，通过老师的引导，才刚刚接触到了这个比赛，也第一次了解LoRA这项技术。对我来说是一方全新且未知的领域，毕竟短短第一个月需要从零开始，而且和这些专业大佬同台竞技，我很担心也很忐忑能不能打好这次比赛。

所以，对于炼丹我也只算是个萌新，理解也只停留在浅层，只能和大家尽可能地分享自己这一个月来所学到的所实践的成果。欢迎大家随时来和我交流指正一下呀！

2、创作思路

一开始我先去B站观看有关LoRA技术的教程，从数据集的收集→处理数据集→打标→训练参数的修改等等，上手门槛没有想象中的那么高，但要想做好做精并非那么容易。大部分炼丹师好像都会从Stable Diffusion开始实践入手，但限于时间和精力，我决定学完理论之后直接从更简单易上手的魔搭平台开始实操。

给西游记翻新，选择什么风格呢？第一反应是最近火爆全球的黑神话悟空风格，于是我从小红书上一个专门对黑神话悟空摄影的社区，选取了二十来张的图片，这次数据集的选取我主要考虑要有悟空的正面、背面、侧面，以及半身和全身照。对于图片的分辨率我没有进行处理，杂七杂八的（影响效果！）。所以这时候arb桶一定要打开！它可以帮忙融合一下不同分辨率的图片。打标的话，我首先选择了通义千问模型来帮忙打标。第一次尝试，我没有选择人工介入打标，全权交给了AI，因为没有经验，也不知如何修改。到了参数设置环节，其实基本上默认魔搭社区的参数就很nice了！如果像我这种萌新，为数不多可能要手动添加或修改的就是触发词，提示词，以及保存的轮数，其他如果不是精益求精或者资深大佬的话，建议不动就行。

当然第一次的效果差强人意，整个模型色调很黑，人物细节也远远不够，背景还很模糊，生成视频的时候，长得还挺还原，但是人物动作幅度特别特别小，且泛化性很差，不能生成多样化的人物动作和背景。

于是我就开始思考，要不我先试试改一下文生视频的提示词，于是借助DeepSeek、GPT帮忙描述我想要的风格和视频效果。但很显然，对于这个稀烂的数据集以及没有人工介入的打标，再详细的视频描述也是徒劳，效果只会越来越差。

第二次我选择去尝试一下赛博风格，这次先在数据集的分辨率上进行改进。赛博风格我也同样是通过百度以及小红书搜索了二十来张照片，然后魔搭平台里面的裁剪给它按照64*n进行裁剪（保证裁剪完的图片是64的倍数且不小于512）。从结果来看，模型要更清晰了一些，但生成视频的效果还是一般。紧接着又分阶段改进并尝试了好几个不同的模型，并请教了lip421大佬！！从中积累到了一些经验，所以我决定从头相对完整地跑一个模型试试。

接下来我想到了构建Q版职场西游记。这回的数据集全部由豆包生成，蛮打蛮算抽了八十来张（需要保证人物风格和特征的一致性），且豆包生成的图片分辨率均为1024*1024（这点非常友好！分辨率最好的比率1：1），即梦的也可以自由选择想要的分辨率。对了！还要记得去水印（这里推荐idmore，在线去除水印免费但需要自己圈一下）通过与GPT交流，让它帮忙输出我想要的图片风格与人物特征。同时为了保证角色动作的多样性，可以每一个姿势抽个三四张，重点是❗要把人物动作描述清楚！！在借助AI大模型打标的基础上，人工检查，将一些描述不正确的单词和句子删除，然后描述姿势用中文即可！！（经测试，中文描述姿势要比英文的准确且更好出图和视频）轮数的话一般20轮训练也够用了，然后如果要更好地比较哪一轮效果最好的话，建议可以每1轮保存一次LoRA，都试试。一般来说轮次越后面，人物的拟合效果确实会更好，但相应地幅度会小很多，像我提交的这个，最终折中考虑了人物拟合度以及动作幅度，选择了第九轮的模型进行生视频。效果比之前显著提升了！且提示词很简单，只要人物+动作+背景，基本上都能生成的想要的。当然想要更细节，在提示词描述上多花点心思就行。

(tips:关于打标，看了教程视频，里头说“最不想要它融合的特征，就给它做减法”，比如我不想要这个背景，我在打标的时候，就要把这个背景描述出来，让它分割开，不会和主体绑定起来。当然，这个减法也可以在主体的一部分去体现，例如我待会生成的时候想要白雪公主是红头发，那我就在数据集打标时要把黑头发标注出来，这样头发的颜色就可以任意修改了)

既然相对成功尝试了Q版的西游记，我还是决心回去再试试我心目中的赛博悟空！于是继续结合GPT+豆包，生成了想要的图片，处理水印+人工介入检查打标，打标长度可以不用太细节，选short一般就够用了，太细节反而生成视频的时候要描述地更细节，比较难出图，泛化性会更好一点。看人物拟合度，是否达到标准，一个可以通过看Loss值，Loss值越低，拟合程度越高，最好的情况是初期比较大，后期保持在低位振荡。还有就是可以拿模型去跑视频看看效果。

这里非常感谢魔搭平台！！提供了非常便捷非常容易上手的炼丹工具及云服务器！！！狠狠点赞👍

对了，今天看了一下我的模型，还有一个bro拿我的Q版西游记返了一个很有意思的图哈哈哈哈（成就感涌上来了）提示词很简单，但效果真的很不错！

3、最后总结

对于想尝试 LoRA 训练的小伙伴，千万不要觉得门槛高。现在线上训练模型已经非常方便了，我们就像搭积木一样，照着步骤来，多实践几次，一定能做出满意的模型。而且以后技术门槛只会越来越低，比技术更重要的是你的创意和审美。就像魔搭举办的这次比赛，平台会给大家提前准备好所需的知识和工具，大家可以更加便捷快速的学习技能，从而把更多精力放在创作本身。

技术的进步不是为了让热爱变得廉价，而是让更多人有机会触摸到创造的温度。

从 Stable Diffusion 开源，到到魔搭平台众多创作者的贡献，再到社区里大家毫无保留的经验交流，我想，正是这些 “开源的星火”，汇聚成了照亮大家前行的温暖火炬。

再次感谢魔搭平台，这份认可将激励我继续前行！！

点击阅读原文，即可跳转品牌馆查看更多~

👇点击关注ModelScope公众号获取

更多技术信息~