魔搭ModelScope社区 6小时前
同“西游”,见“万相”亚军|悟空传美学增强专用LoRA创作分享
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文分享了利用AI技术创作“悟空传”LoRA模型的全过程,作者结合自身经验,详细阐述了创作思路、数据集构建、模型训练及应用拓展。通过对“西游”主题的重新解构,结合国风美学,实现了视觉效果的增强与创新。作者强调了技术与艺术的融合,并探讨了该模型在沉浸式展览、数字文创等领域的应用潜力,旨在传递西游经典故事的独特魅力。

🎨 创作灵感源于对“西游记”的深度理解,作者将“悟空传”作为核心主题,并结合原创歌词,构建了LoRA模型的数据集,以确保作品主题的统一性,并以大圣视角和九九八十一难为主线,编写原创歌词,作为数据集获取的主线依据。

🖼️ 数据集构建注重国风美学与创新叙事,通过“破纸”、“多维空间”等设计,打破平面视觉边界,增强空间层次感和视觉效果。同时,融合传统配色,优化画面清晰度,力求实现传统美学与数字技术的完美结合。

⚙️ 模型训练过程精细,作者详细阐述了学习率的选择、训练轮次的考量,并基于个人对AI绘画的理解,选择了更符合作品美感的模型,并展示了该LoRA模型在实际应用中的优势,特别是其对提示词的响应度和风格强化能力。

💡 模型应用拓展具有前瞻性,作者探讨了该模型在沉浸式展览、数字文创等领域的应用潜力,并结合TouchDesigner软件,实现了立体感知和交互体验,为传统美学与数字技术的融合提供了新的思路。

2025-06-17 20:00 浙江

亚军作品-悟空传LoRA模型的全过程

亚军作品

模型

aliyun9208981777-16875- 万相西游·悟空传 | 美学增强专用(AI 西游记)

链接

部分作品展示

中文语音输入-实时生图-手势交互互动

语音输入+实时生图+音频可视化+交互UI

平面转3D+3D模型转点云粒子可视化互动

1、自我介绍 

首先做个自我介绍,我目前在西安工作,AI圈id 99Art

2020年之前一直是影视相关 策划编剧大类,2020年后主要做后期剪辑/平面设计。

2023年开始做AI绘画相关的微调模型以及相关课程制作

      这期间,独立制作了最早的纯后期AI绘画系统课程

      去了一些高校/单位做AIGC专题的讲座

      和某大学合作了AIGC的微专业课程

    个人偏好:

    和学生和企业的交流中,我的侧重点开始转为AI辅助各个环节落地应用。所以我目前在一家做数字创意的公司,开始利用AI辅助三维 空间 交互 后期 平面等部门完成实际项目交付。

    个人简介就到这里,接下来是我的模型万相西游创作过程分享。

    2、创作思路 

    创作一个完整的视频作品,需要合成大量的故事感素材,不能是单一化的素材碎片。

    目前大多模型过拟,想要完整作品需要搭配很多模型输出,流程上过于繁琐,因此我希望我的文生视频模型可以在保持审美统一的基础上,能够承担输出完整作品的素材量。

    (比赛要求也有作品展示,因此我觉得更需要一个完整作品输出,于是我先从原创歌曲bgm开始,做了完整的连贯的视频作品。

    整个创作流程思路如下:

        同“西游”,见“万相”——确定主题

        重新结构西游,以大圣视角和九九八十一难为主线,编写原创歌词

        根据歌词主线,完成lora需求构思

        根据主题,同“西游”,见“万相”,测试模型生成的视频素材

        完成素材合集混剪

        结合自身的工作场景,增加创意应用场景

      1、确定素材我希望训练一个国风美学增强 清晰度增强万相文生视频 lora。

      相比图生视频更需要特效类 动势类的微调特效文生视频其实更需要风格化微调的模型生态,更好的提示词响应。

      看到这次比赛,我首先尝试了无lora生成,和绘画类模型底模一样,没有添加风格化增强lora时,自然无法达到预期的需求,所以本次模型训练的数据集,我更偏重风格化控制 清晰度增强 美学增强以及更好的提示词响应等方面。

      在实际应用中,不管是文生视频抽卡,还是自训练lora生图再图生视频,过程都非常繁琐耗时且难以控制。

      所以万相开源支持文生lora训练帮助非常大,同样的训练集,跳过微调绘画模型,直接选择万相视频模型做微调,像这次比赛的主题规定,自主 定制化的选择增强方向,相比绘画类模型,直接实现了更可控稳定的风格化文生视频。节省了原本 文生图 图生视频的繁琐流程。

      确定素材+获取所需素材

      一、确定数据集获取的主线依据确定主题:

      lora灵感/主题 来源比赛主题——同“西游”,见“万相”主题一致性

          角色主体:七十二变-七十二法相的角色设定

          根据原创歌词,确保lora数据集在意境上保持统一且贴合

          场景:保持纸张撕裂空间+多维空间的空间叙事。

          风格:西游经典,统一国风

          配色+细节:宣纸材质+祥云纹样+国风服饰+国风传统配色贯穿始终

      对西游经典,悟空七十二变,创新拆解为七十二法相,以悟空视角看西游取经路八十一难为灵感,首先创作原创歌词,作为数据集获取的主线依据

      二、确定数据集的美学+创新需求(当数据集的主线内容确定后,接下来就是确定美学风格化相关需求)

      那么,需要什么样的图片作为数据集就是接下来需要思考的问题,以下则是我对这次的数据集图片设定的相关需求。

      1、增强空间叙事: 打破平面桎梏
        「破纸 / 屏 / 破窗」——跃然纸上

          消解平面图的视觉边界:通过角色主体/武器等 穿透纸张 / 窗格 / 画框的动态设计,利用视觉遮挡关系,在二维平面上制造「三维穿透错觉」。视觉重心会自然聚焦于「突破点」,角色主体会更加突出,跃然纸上。

          动态联想的延伸:纸张撕裂的毛边等细节,暗示「运动轨迹的延续性」(如角色即将跃出画面),引导脑补「后续动作」,增强参与式叙事感。

        「多维度空间」

          分层递推的视差结构:将场景拆解为「前景纸张撕裂层→中景角色动作层→背景层」,通过各层元素的大小、清晰度差异(如前景纸张纤维清晰可见,背景模糊,主体清晰),模拟人眼「近实远虚」的生理特性,构建可感知的纵深空间。

          材质对比的触感隐喻:手书手绘笔触、纸张撕裂的毛边肌理、通过视觉质感差异强化「不同维度的物质属性」,让观众在认知层面区分「可触碰的纸张层」与「虚拟的裂缝空间」,增强空间层次的真实感。

      2、增强视觉效果:构建虚实交叠的「立体幻境」2.1采用「裸眼 3D」的平面立体欺骗技巧,通过重叠透视(主体遮挡)手法,强化空间深度。

      2.2「纸张撕裂」的材质叙事价值

          色彩梯度的空间指引:纸张与背景空间与角色主体配色形成冷暖对比,吸引视线聚焦于「维度交界线」,同时通过色彩明度差异暗示「另一个空间的主体/光线来源」。

      2.3「手书 + 三维」的质感混搭美学

          纸张撕裂痕迹加强手工质感,增强手书效果。

          动态与静态的视觉交错混搭:静态元素,与动态的破屏角色,在平面中形成「动中有静」的节奏 。

      3、增强中国传统配色,优化国风色彩+国风传统对称构图

      4.增强画面清晰度,需要着重调整素材的光影、色彩

      5.艺术价值:这是一次传统美学与数字技术的共生实验

        该lora主要探讨「二维与三维 | 空间视差」,可以为沉浸式展览、数字文创,手书绘本等场景提供「裸眼 3D 解决方案」,兼具艺术探索与商业落地价值。

        创新空间叙事,融合七十二法相的禅意国风进行二创增强,希望可以用更好的审美 更有趣的交互感 从而更好的传递西游经典的故事衍生。

        国风美学艺术+ live2D 动画的融合,弱化 AI 感,偏 ae 等后期软件调整的 pv 手书,美学提升+更符合国风经典的动静结合动画

        提升了国风的留白 写意 仙 雅 哲思 空间 以及三维穿透感,具备一定的艺术审美价值。

        融合新艺术,万相视频模型+TouchDesigner ,实现立体感知,在虚实交叠中创造既熟悉又惊奇的交互体验。

      三、基于以上,获取素材集
        基于第一条:确定数据集获取的主线依据,提炼内容提示词

        基于第二条:确定数据集的美学+创新需求,提炼风格提示词

        提示词主要应该从以下提炼并+内容提示词(如 孙悟空等主要角色形象)

      书卷内空间,裂缝艺术:撕纸,盗梦空间,许多碎片,破开的纸张:新中式简约插画,国风,透明,发光,荧光白,裂缝,平面风格,许多分身虚影,简单矢量艺术,禅宗,非常简单的平面插画,中国艺术,白色极简的风格,简约宁静 ,仙气,清冷,淡雅,白色主色,深色背景,彩低饱和高纯度荧光的绝妙搭配,附有哲理感,颜料肌理。颜料堆积

        本次我的数据集获取,是使用我的国风F.1 lora生成,但基于以上提示词风格,也推荐直接使用即梦获取数据集。

      进行数据集处理

      1.点击打标 (以下都是推荐的打标模型和类型长度

      2.选定模型

      本次训练万相文生视频lora,使用魔搭社区训练,那么为什么选定学习率5e-5,单张10,第20轮次的模型,有以下几点考虑。

      避免过大学习率导致模型不收敛或过拟合:如果学习率过大,模型的参数更新步长就会过大,可能会导致模型在训练过程中无法收敛,损失函数值不断波动甚至上升。同时,过大的学习率也可能使模型过于快速地适应训练数据,从而出现过拟合现象,在验证集和测试集上表现不佳。

      ——究竟是选择动态幅度更强的,还是选择更符合作品美感的模型,是文生视频模型训练里,一个比较艰难的取舍。

      (想要风格更贴近数据集的美感,可以选择第20轮次+召唤词,也可以去掉召唤词获取更好的动态效果。当然如果想要选择大的动态效果,可以去掉召唤词的同时,往前找轮次,总要有妥协和取舍)

      我自己是做后期的,比较在意动态的效果是否有ai感,尤其是古风风格,动态过多幅度过于抽象反而加剧了AI化,丧失了古风微动态的美感。毕竟如果希望有更多的特效或主体运动等动态化更强的效果,其实可以选择训练图生视频,至于文生视频,我认为能不能画出来,即对提示词的响应度,对风格强化的程度,与有无lora的差别都是更为重要的。基于个人更偏向的类似live 2d的微动态效果,我选择了第20轮次作为参赛模型。

      3.拓展模型价值好的模型应该有一定的艺术价值,基于这个lora,我希望能拓展一些应用方向,因此也做了一些传统美学与数字技术的共生实验。(一些交互式作品终端体验流程,都在最上面的作品展示里)。

      点击阅读原文,即可跳转品牌馆查看更多~


      👇点击关注ModelScope公众号获取

      更多技术信息~

      阅读原文

      跳转微信打开

      Fish AI Reader

      Fish AI Reader

      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

      FishAI

      FishAI

      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

      联系邮箱 441953276@qq.com

      相关标签

      AI绘画 LoRA模型 悟空传 国风美学 数字艺术
      相关文章