同“西游”，见“万相”亚军｜悟空传美学增强专用LoRA创作分享

魔搭ModelScope社区 6小时前

本文分享了利用AI技术创作“悟空传”LoRA模型的全过程，作者结合自身经验，详细阐述了创作思路、数据集构建、模型训练及应用拓展。通过对“西游”主题的重新解构，结合国风美学，实现了视觉效果的增强与创新。作者强调了技术与艺术的融合，并探讨了该模型在沉浸式展览、数字文创等领域的应用潜力，旨在传递西游经典故事的独特魅力。

🎨 创作灵感源于对“西游记”的深度理解，作者将“悟空传”作为核心主题，并结合原创歌词，构建了LoRA模型的数据集，以确保作品主题的统一性，并以大圣视角和九九八十一难为主线，编写原创歌词，作为数据集获取的主线依据。

🖼️ 数据集构建注重国风美学与创新叙事，通过“破纸”、“多维空间”等设计，打破平面视觉边界，增强空间层次感和视觉效果。同时，融合传统配色，优化画面清晰度，力求实现传统美学与数字技术的完美结合。

⚙️ 模型训练过程精细，作者详细阐述了学习率的选择、训练轮次的考量，并基于个人对AI绘画的理解，选择了更符合作品美感的模型，并展示了该LoRA模型在实际应用中的优势，特别是其对提示词的响应度和风格强化能力。

💡 模型应用拓展具有前瞻性，作者探讨了该模型在沉浸式展览、数字文创等领域的应用潜力，并结合TouchDesigner软件，实现了立体感知和交互体验，为传统美学与数字技术的融合提供了新的思路。

2025-06-17 20:00 浙江

亚军作品-悟空传LoRA模型的全过程

亚军作品
模型	aliyun9208981777-16875- 万相西游·悟空传 \| 美学增强专用（AI 西游记）
链接	https://modelscope.cn/models/A99Art/wansXIyou1.3/summary?version=ckpt-20

部分作品展示

中文语音输入-实时生图-手势交互互动

语音输入+实时生图+音频可视化+交互UI

平面转3D+3D模型转点云粒子可视化互动

1、自我介绍

首先做个自我介绍，我目前在西安工作，AI圈id 99Art

2020年之前一直是影视相关策划编剧大类，2020年后主要做后期剪辑/平面设计。

2023年开始做AI绘画相关的微调模型以及相关课程制作

这期间，独立制作了最早的

纯后期AI绘画系统课程

去了一些高校/单位做AIGC专题的讲座

和某大学合作了AIGC的微专业课程

个人偏好：

和学生和企业的交流中，我的侧重点开始转为AI辅助各个环节落地应用。所以我目前在一家做数字创意的公司，开始利用AI辅助三维空间交互后期平面等部门完成实际项目交付。

个人简介就到这里，接下来是我的模型万相西游创作过程分享。

2、创作思路

创作一个完整的视频作品，需要合成大量的故事感素材，不能是单一化的素材碎片。

目前大多模型过拟，想要完整作品需要搭配很多模型输出，流程上过于繁琐，因此我希望我的文生视频模型可以在保持审美统一的基础上，能够承担输出完整作品的素材量。

（比赛要求也有作品展示，因此我觉得更需要一个完整作品输出，于是我先从原创歌曲bgm开始，做了完整的连贯的视频作品。

整个创作流程思路如下：

同“西游”，见“万相”——确定主题

重新结构西游，以大圣视角和九九八十一难为主线，编写原创歌词

根据歌词主线，完成lora需求构思

根据主题，同“西游”，见“万相”，测试模型生成的视频素材

完成素材合集混剪

结合自身的工作场景，增加创意应用场景

1、确定素材我希望训练一个国风美学增强清晰度增强的万相文生视频 lora。

相比图生视频更需要特效类动势类的微调特效，文生视频其实更需要风格化微调的模型生态，更好的提示词响应。

看到这次比赛，我首先尝试了无lora生成，和绘画类模型底模一样，没有添加风格化增强lora时，自然无法达到预期的需求，所以本次模型训练的数据集，我更偏重风格化控制清晰度增强美学增强以及更好的提示词响应等方面。

在实际应用中，不管是文生视频抽卡，还是自训练lora生图再图生视频，过程都非常繁琐耗时且难以控制。

所以万相开源支持文生lora训练帮助非常大，同样的训练集，跳过微调绘画模型，直接选择万相视频模型做微调，像这次比赛的主题规定，自主定制化的选择增强方向，相比绘画类模型，直接实现了更可控稳定的风格化文生视频。节省了原本文生图图生视频的繁琐流程。

确定素材+获取所需素材

一、确定数据集获取的主线依据确定主题：

lora灵感/主题来源比赛主题——同“西游”，见“万相”主题一致性

角色主体：七十二变

-七十二法相的角色设定

根据原创歌词，确保lora数据集在意境上保持统一且贴合

场景：保持纸张撕裂空间+多维空间的空间叙事。

风格：西游经典，统一国风

配色+细节：宣纸材质+祥云纹样+国风服饰+国风传统配色贯穿始终

对西游经典，悟空七十二变，创新拆解为七十二法相，以悟空视角看西游取经路八十一难为灵感，首先创作原创歌词，作为数据集获取的主线依据。

二、确定数据集的美学+创新需求（当数据集的主线内容确定后，接下来就是确定美学风格化相关需求）

那么，需要什么样的图片作为数据集就是接下来需要思考的问题，以下则是我对这次的数据集图片设定的相关需求。

1、增强空间叙事：打破平面桎梏

「破纸 / 屏 / 破窗」——跃然纸上

消解平面图的视觉边界：通过角色主体/武器等穿透纸张 / 窗格 / 画框的动态设计，利用视觉遮挡关系，在二维平面上制造「三维穿透错觉」。视觉重心会自然聚焦于「突破点」，角色主体会更加突出，跃然纸上。

动态联想的延伸：纸张撕裂的毛边等细节，暗示「运动轨迹的延续性」（如角色即将跃出画面），引导脑补「后续动作」，增强参与式叙事感。

「多维度空间」

分层递推的视差结构：将场景拆解为「前景纸张撕裂层→中景角色动作层→背景层」，通过各层元素的大小、清晰度差异（如前景纸张纤维清晰可见，背景模糊，主体清晰），模拟人眼「近实远虚」的生理特性，构建可感知的纵深空间。

材质对比的触感隐喻：手书手绘笔触、纸张撕裂的毛边肌理、通过视觉质感差异强化「不同维度的物质属性」，让观众在认知层面区分「可触碰的纸张层」与「虚拟的裂缝空间」，增强空间层次的真实感。

2、增强视觉效果：构建虚实交叠的「立体幻境」2.1采用「裸眼 3D」的平面立体欺骗技巧，通过重叠透视（主体遮挡）手法，强化空间深度。

2.2「纸张撕裂」的材质叙事价值

色彩梯度的空间指引：纸张与背景空间与角色主体配色形成冷暖对比，吸引视线聚焦于「维度交界线」，同时通过色彩明度差异暗示「另一个空间的主体/光线来源」。

2.3「手书 + 三维」的质感混搭美学

纸张撕裂痕迹加强手工质感，增强手书效果。

动态与静态的视觉交错混搭：静态元素，与动态的破屏角色，在平面中形成「动中有静」的节奏。

3、增强中国传统配色，优化国风色彩+国风传统对称构图

4.增强画面清晰度，需要着重调整素材的光影、色彩

5.艺术价值：这是一次传统美学与数字技术的共生实验

该lora主要探讨「二维与三维 | 空间视差」，可以为沉浸式展览、数字文创，手书绘本等场景提供「裸眼 3D 解决方案」，兼具艺术探索与商业落地价值。

创新空间叙事，融合七十二法相的禅意国风进行二创增强，希望可以用更好的审美更有趣的交互感从而更好的传递西游经典的故事衍生。

国风美学

艺术+

live2D 动画

的融合，

弱化 AI 感

，偏 ae 等后期软件调整的 pv 手书，美学提升+

更符合国风经典的动静结合动画

提升了国风的

留白写意仙雅哲思空间以及三维穿透感，具备一定的艺术审美价值。

融合新艺术，

万相视频模型+TouchDesigner

，实现立体感知，在虚实交叠中创造既熟悉又惊奇的交互体验。

三、基于以上，获取素材集

基于第一条：

确定数据集获取的主线依据，提炼内容提示词

基于第二条：

确定数据集的美学+创新需求，提炼风格提示词

提示词主要应该从以下提炼并+内容提示词（如孙悟空等主要角色形象）

书卷内空间，裂缝艺术：撕纸，盗梦空间，许多碎片，破开的纸张：新中式简约插画，国风，透明，发光，荧光白，裂缝，平面风格，许多分身虚影，简单矢量艺术，禅宗，非常简单的平面插画，中国艺术，白色极简的风格，简约宁静，仙气，清冷，淡雅，白色主色，深色背景，彩低饱和高纯度荧光的绝妙搭配，附有哲理感，颜料肌理。颜料堆积

本次我的数据集获取，是使用我的国风F.1 lora生成，但基于以上提示词风格，也推荐直接使用即梦获取数据集。

进行数据集处理

数据集上传至魔搭在线

点击发起训练-选择wan2.1模板

右侧选择已有图片集-选择数据集

1.点击打标（以下都是推荐的打标模型和类型长度

2.选定模型

本次训练万相文生视频lora，使用魔搭社区训练，那么为什么选定学习率5e-5，单张10，第20轮次的模型，有以下几点考虑。

首先是

学习率设置为 0.00005 的原因

避免过大学习率导致模型不收敛或过拟合：如果学习率过大，模型的参数更新步长就会过大，可能会导致模型在训练过程中无法收敛，损失函数值不断波动甚至上升。同时，过大的学习率也可能使模型过于快速地适应训练数据，从而出现过拟合现象，在验证集和测试集上表现不佳。

其次这里主要说

个人需求的取舍

：

——究竟是选择动态幅度更强的，还是选择更符合作品美感的模型，是文生视频模型训练里，一个比较艰难的取舍。

（想要风格更贴近数据集的美感，可以选择第20轮次+召唤词，也可以去掉召唤词获取更好的动态效果。当然如果想要选择大的动态效果，可以去掉召唤词的同时，往前找轮次，总要有妥协和取舍）

我自己是做后期的，比较在意动态的效果是否有ai感，尤其是古风风格，动态过多幅度过于抽象反而加剧了AI化，丧失了古风微动态的美感。毕竟如果希望有更多的特效或主体运动等动态化更强的效果，其实可以选择训练图生视频，至于文生视频，我认为能不能画出来，即对提示词的响应度，对风格强化的程度，与有无lora的差别都是更为重要的。基于个人更偏向的类似live 2d的微动态效果，我选择了第20轮次作为参赛模型。

3.拓展模型价值好的模型应该有一定的艺术价值，基于这个lora，我希望能拓展一些应用方向，因此也做了一些传统美学与数字技术的共生实验。（一些交互式作品终端体验流程，都在最上面的作品展示里）。

这个lora主要探讨「二维与三维 | 空间视差」，其实可以为沉浸式展览、数字文创，手书绘本等场景提供「裸眼 3D 解决方案」，兼具艺术探索与商业落地价值。（万相文生1.3b模型本身很小，占用现存也非常小，而且支持中文输入，用来做实时交互部署非常方便。）

创新空间叙事，融合七十二法相的禅意国风进行二创增强，希望可以用更好的审美更有趣的交互感从而更好的传递西游经典的故事衍生。

国风美学艺术+ live2D 动画的融合，弱化 AI 感，偏 ae 等后期软件调整的 pv 手书，美学提升+更符合国风经典的动静结合动画

提升了国风的留白写意仙雅哲思空间以及三维穿透感，具备一定的艺术审美价值。

多软件联合应用落地，中文文生+融合新艺术，万相视频模型+TouchDesigner

，

可以实现立体感知，在虚实交叠中创造既熟悉又惊奇的交互体验。

点击阅读原文，即可跳转品牌馆查看更多~

👇点击关注ModelScope公众号获取

更多技术信息~