魔搭ModelScope社区 前天 23:03
"一丹一世界"一等奖 | 曙光_麦橘超然 创作分享
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文分享了AIGC图像风格领域获奖作品的创作思路,重点介绍了风格化LORA的重要性,以及训练集质量、关键参数调整对风格LORA的影响。作者强调通过高质量训练集、参数调整和多轮测试,最终炼制出优秀的风格化LORA,并分享了在魔搭平台的实践经验,旨在帮助创作者更好地掌握风格化LORA的创作技巧。

🎨 **风格化LORA的意义**: 作者认为风格化LORA能将复杂的风格信息聚合,形成可随时调用的风格滤镜,简化创作流程,并能对抗平台更新带来的影响,积累个人风格资产。

🖼️ **训练集质量至关重要**: 训练集的质量是决定风格LORA好坏的关键,包括风格一致性、构图、画面质量、笔触细节和题材覆盖维度等。作者使用了高质量的素材集,并注重素材的多样性和细节表现。

⚙️ **关键参数调整**: 作者在训练过程中尝试了不同的参数设置,如学习率、DIM/Alpha值等,并通过多轮测试找到最佳参数组合。例如,通过提升DIM/Alpha值,使LORA更好地捕捉细节。

🧪 **多轮测试与优化**: 作者进行了多轮测试,包括使用打标原词和不同提示词进行测试,以评估LORA的拟合度和泛化能力,最终确定了最佳的训练轮次和权重。

2015浮岚 2025-04-22 21:13 广西

重点分享了作者在AIGC图像风格领域获奖作品的创作思路,强调了风格化lora的重要性、训练集质量对风格LORA的影响以及训练过程中的关键参数调整。

创作分享


大家好我是2015浮岚,一位专注AIGC图像风格领域并有所收获的的创作者,以下是一个简单的自我介绍:


主要身份
自媒体作者
LIB2024图片作者年度TOP1


代表作品

极乐殿-中国美术学院-

《时空博物馆》 全场大奖

城市动物园-微博年度金奖


代表模型

曼陀罗华-禅意线体

东方梦-中式梦核

通灵-超现实主义

国潮-概念写意


很荣幸这次我的lora曙光获得了魔搭平台一丹一世界风格lora大赛的一等奖,感谢魔搭平台的邀请让我有机会做这次炼制经验分享,首先声明我并非严格意义上的丹师,而更多的倾向于一位乐于自我表达与在各种风格中探索尝试并创新的图像领域创作者。


以下内容并非绝对正确而来自我这条技术狗的自我表达,欢迎各位指正并讨论


1、关于风格化lora的意义 



我于23年5月接触AIGC技术,并痴迷于静帧图像的各种风格调试与创新试验,使用的主要工具是MJ与SD。无论是MJ还是SD,一套新风格都不是无中生有而是建立在已有风格的各种组合叠加与掺入比例的大量试验上,所完成的图像通常会包含冗长的提示词+多个风格种子/P值/多个lora的叠加,有些甚至还有垫图参考信息等等。


而不论是MJ或者SD,一张图像所容纳的信息都是有限的,提示词有文字长度限制,风格种子或者lora也有堆叠数量限制,在这些都被填满之后,我们很难在调试出的风格上再去做更稳定的延申,风格化lora的意义在实用层面于我来说可以让我将自己日常偶然所得的作品风格转变为更加系统完善的风格滤镜,让冗长复杂的信息聚合浓缩为一,让我在后续的创作中可以随时调用,他就像是阶梯的台阶,或者新开辟出的路口,每多一个我们就有可能去往更高的高度或者更多的方向


于长远而言,这些lora可以让我更好的对抗各类平台更新导致的过往数据积累的无效化,每一次版本的更替,我们都可以获得更好的画质和更稳定的语义理解,可我们之前积累的一些提示词或者别的数据,往往无法直接在新版本上呈现出更好的效果,这可能来自于算法逻辑的改变或者版本的不兼容,每一位AI的深度玩家也许都体验过平台版本变化给我们带来的困扰,我们只有不断学习一些也许会随着后续迭代完全失去意义的提示词逻辑技巧与界面操作方式来追上大部队,而在FLUX大模型问世后,我发现这个大模型具有足够优秀的画面质量与语义理解能力,而基于它炼制的lora的泛化能力更是SD1.5时代与XL时代完全无法想象的。


在单纯的静帧图像领域我们似乎可以不过分依赖平台从焦头烂额的追逐版本更迭转向积累个人lora,逐步自我进化的道路这带给我极大的安全感,而分享到平台的Lora受到大家的喜爱被广泛使用(比如曼陀罗华、东方梦),获得平台认可(比如这次的曙光)也让我极有成就感。


2、关于风格



下面分享一下曙光这枚lora的创作历程,就我个人经验而言,一枚风格LORA的好坏有70%甚至更高的因素,取决于训练集的质量,训练集的风格一致性、构图、画面质量/质感、笔触细节、题材覆盖维度这些维度构成了训练集的整体质量标准。这次的素材集采用了我在NIJI6上利用个人P+种子组合生成的58张图片保证了风格的一致性。


而编号3480960826的种子提供了构图上的想象力与多样性,对lora的整体色彩基调与质感也有一定作用。画面整体质量主要由我的个人P值所提供,对于炼P我个人更倾向于把方向聚焦于画面质量+个人审美基底,因为无论是提示词还是各类种子,都很难做到提升画面整体质量,一些旧版本所传播的类似“8K”,high quality”之类的质量提示词在当下版本几乎是无用的,而种子本身提供的更多是色彩与风格偏向,一些高画面质量的种子往往会改变图片的风格与色彩偏向,所以P值几乎是我在不改变图像风格的情况下提升图像质量的唯一手段


笔触细节上编号3052366917起到了很大作用,让画面更具风格化的笔触细节。对于题材覆盖上,作为一枚表达整体世界观的lora,我尽可能的在人物、动物、植物、建筑、环境、季节天气、载具等各个方面都提供了样本以追求更好更宽的泛化,并尽可能的让一张素材集中可以包含更多样本信息以下是一些素材集原图:


男女老少+单一背景/室外环境+白天黑夜+东方/西方文化底色+植物样本


建筑风格+天气/季节+文化底色


动物样本


超现实与想象力+各类环境与主体+文化底色


载具+各类场景


总之对于一枚风格lora核心思想就是尽可能全而精的准备训练素材。关于打标,我使用了魔搭自带的JoyCaption打标器,打标长度选long。对于FLUX训练,我更倾向与用自然语言长标,之后对打标进行了手打的校对修改,去除了标注中对图片风格的全部描述。附带一提,魔搭的打标集可以在打标后导出到本地,这个功能非常方便后期拟合测试阶段的工作,非常好用


3、关于Lora训练



由于魔搭丹炉是一个新推出的炉子,本次训练我本着边尝试各种参数边了解丹炉脾性的态度总共进行了3轮训练,第一轮我采用5次30轮学习率5e-5的方式(其余默认)进行了首轮尝试,企图用“小火慢炖”式的训练,在被拉长的训练轮数进程中找到拟合度最好的那个节点,炼成后我用打标原词进行了首轮测试,通过测试结果对比测试图与原图差异发现即使在第30轮也未能完全拟合。第二轮训练我采取增加总训练次数的办法将单图学习次数提升至10次,其余相较上一版参数不变。训练好后依然使用打标原词进行首轮测试。


X轴代表轮数 Y轴代表lora权重


在测试结果中从20轮开始,已经具有较好的拟合度,画面整体构图已经非常接近训练原图,但是整体细节学习不够,将原图中的细节质感理解为了模糊感,变相放大了训练素材中的“色彩斑块“特征。在第三轮训练中,我将DIM/Alpha值从16/16提升到32/32


X轴代表轮数 Y轴代表lora权重


首轮测试依旧使用打标原词与一些非常简单的独立单词来测试拟合度与整体质量,这轮成果通过了我的第一轮测试,从我当时的测试记录可以看出第28轮权重0.9时是相对拟合度最好的状态。我对表现较好的轮次以及权重进行了表中显示的第二轮测试,这次测试我从生图网站上随机拽取大家的提示词原词进行混沌测试,目的是测试模型在不同的提示词习惯、书写方式、书写水平有高有底的情况下,哪一轮次更适合广泛用户使用而非我自己使用从测试结果可以看出最终26轮权重0.9取得了最佳的良图次数远超其余轮次。也是我本次在魔搭最终发布的成品lora文件。


再次感谢魔搭与麦乐园对我的认可~本次经验就分享到这里~讲的不对的地方欢迎大伙锐评~


点击阅读原文, 即可跳转赛事品牌馆查看更多完整作品~




👇点击关注ModelScope公众号获取
更多技术信息~



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AIGC 风格化 LORA 训练集 参数调整
相关文章