36kr 2024年08月19日
微调Flux席卷全网,外国小哥一人组一队漫威英雄
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Flux 是一款基于流匹配技术的 AI 生图模型,它以其独特的风格、速度和控制能力迅速成为开源界的宠儿。开发者们纷纷使用 LoRA 微调模型,创造出各种个性化的艺术作品,从像素风格到动画涂鸦,甚至可以生成不同年龄的自己。Flux 的出现意味着 AI 图像生成进入了全新的阶段,用户可以轻松定制模型,实现各种创意想法,将想象力转化为现实。

😄 Flux 采用流匹配技术,与传统的扩散模型不同,它直接学习将噪声转换为真实图像,这种方法带来了独特的视觉风格,并在速度和控制方面具有优势。

🎨 开发者可以通过 LoRA 微调 Flux 模型,创造出各种个性化的艺术作品,例如像素风格、动画涂鸦、不同年龄的自己等等。

🚀 Flux 的出现意味着 AI 图像生成进入了全新的阶段,用户可以轻松定制模型,实现各种创意想法,将想象力转化为现实。

💡 Flux 的优势在于其易用性,开发者可以轻松地使用 LoRA 微调模型,无需额外的算力或全面的再训练。

🧑‍🎨 LoRA 微调可以用于生成特殊的人物,例如马里奥、海绵宝宝等等,为图像生成带来了更多可能性。

🎬 Flux 生成的图像可以用于制作视频,例如将照片中的自己变成演讲者、超人等等,为内容创作带来了更多可能性。

🤖 Flux 的出现为 AI 生图领域带来了新的活力,开发者们可以利用其强大的功能创造出更多有趣的艺术作品。

🖼️ Flux 的出现也为内容创作带来了新的可能性,例如使用 AI 生成的图片作为新闻预览图、配图等等,丰富内容的表现形式。

✨ Flux 的出现意味着 AI 技术正在不断发展,为我们的生活带来更多便利和乐趣。

🤝 Flux 的出现也促进了 AI 社区的合作,开发者们互相学习、分享经验,共同推动 AI 技术的发展。

🤔 Flux 的出现也引发了一些思考,例如 AI 生成的图像是否可以替代现实生活中的照片等等,需要我们进一步思考和探索。

【导读】席卷开源界的AI生图王者诞生了!发布半个月,Flux已经成为替代Midjourney的宠儿。各路开发者们开始用自己的照片微调LoRA,一人拿捏多种风格。

Midjourney之后,从未见人们对某个AI生图应用,如此疯狂着迷。 

Flux的横空出世,意味着AI图像生成迈入了一个全新的阶段。 

马斯克本人表示,真假已经傻傻分不清。 

先是,一张TED演讲者逼真照片席卷了整个互联网。再之后,集成Flux模型的Grok 2破除护栏限制,被网友玩疯。 

最近,Flux开发者们也纷纷入坑,开启微调自己的LoRA模型。 

HuggingFace联创惊叹道,Flux已经完全席卷了开源AI界,从未见过一个模型,同时有如此多的衍生模型/在线平台/demo占据热榜。 

一手微调的开发者表示,「Flux+LoRA将颠覆生成式AI市场。你可以在任何地方,戴着任何东西,穿着任何你喜欢的衣服,生成不同的自己」。 

比如,让自己变身超人。 

拿上伸缩光影剑,变身绝地武士,愿原力与你同在。 

不仅如此,冰雕,拿着switch游戏机,精灵耳,时装走秀等各种形象的照片,都是动动嘴皮子的事。 

微调自己的LoRA,现已经成为许多开发者的新玩物。 

这不,全网都被Flux+LoRA淹没了。 

一个人就能组成「复仇者联盟」

Rundown AI的创始人Rowan Cheung将自己的照片作为数据,用Flux训练了一个LoRA模型,然后联动Runway让其动起来。 

如下,生成了一张类似TED演讲者的图片。 

做成视频后,照片中的自己真的活灵活现了,很有演讲者范儿。唯一不足的是,右手到后面指头就变成了2-3根。 

另一张,生成了以超人身份拯救世界的自己。 

配上动画,终于做了一回漫威中的英雄。 

再生成一张身穿时装,走秀现场的照片。 

两边观众热烈鼓掌,也算是体验了一把T台走秀。 

此外,Rowan Cheung还生成了不同风格的自己,和场景融合自洽,毫无违和感。 

他认为,虽然AI生图依旧不能替代完整的电影/商业广告,但其已经有很多重要的用途,尤其对内容创作者来说。 

比如,这些AI图片制作用于新闻的预览图和配图,以及短片中的补充素材(B-roll)。 

网友Min Choi看后表示,自己可以组建一支「复仇者联盟」了。 

前英特尔CTO在A100上,同样微调了一个自己的LoRA模型,75分钟花费了7美金(约50元)。 

还有开发者硬是把自己拍成了恐怖片。 

分不清AI还是现实

要说最火的,还是「超现实主义」的微调版本——让人 越来越分不清想象和现实的边界了。 

是真实的照片,还是AI画出来的人? 

在Flux-Dev中用LoRA训练后,无论是场景复杂性还是真实感,都取得了不可思议的进展。 

什么风格都能微调

除此之外,各种不同风格的微调也层出不穷。 

像素风格

开发者以传奇的ZX Spectrum中的风格为例,微调出类似像素的图片生成LoRA。 

下面生成图像中,有龙珠孙悟空、漫威钢铁侠、川建国(貌似)等形象。 

动画涂鸦

PS生成式AI产品设计人Davis Brown基于Flux,微调出了一个half_illustration模型。 

它生成的图片,有一部分是真实照片的画风,一部分是动画涂鸦的风格。 

每次生图前,只需要在提示开头加上——In the style of TOK。 

然后,具体描述想要的效果,就能立即出片。 

以后感觉不一定非得用PS,直接AI生图就可以了。 

prompt:In the style of TOK, a photo editorial avant-garde dramatic action pose of a woman short blue hair wearing 70s round wacky sunglasses pulling glasses down looking forward, in Tokyo with large marble structures and bonsai trees at sunset with a vibrant illustrated jacket surrounded by illustrations of flowers, smoke, flames, ice cream, sparkles, rock and roll 

prompt:In the style of TOK, a photo editorial dramatic action pose of a person piercing eyes, tattoos on face, with creative bucket hat, standing in Tokyo with large marble structures and white purple trees in a Basketball court, with a vibrant illustrated street wear puffy vintage jacket, black shirt, volcano in the background, surrounded by illustrations of smoke, flames, and flowers, fog, exclamation marks, lines shooting outwards, minion characters, butterflies 

还有其他涂鸦风格的照片。 

九宫格

开源数据集平台LAION用Flux模型,训出了一个可以生成3x3九宫格照片,还是不同角度的自己。 

以后自拍一张,就够了。 

不同年龄

一个人一生的样貌,透过Flux+LoRA便可看到。 

另一个例子: 

可玩性超强

今天的主角——FLUX.1,采用了一种全新的「流匹配」技术。 

以前的扩散模型是通过逐步去除从随机起点开始的噪声来创建图像,而流匹配则采用更直接的方法,学习将噪声转换为真实图像所需的精确变化。 

这种方法上的差异带来了独特的美学风格,并在速度和控制方面具备极大的优势。 

文本:大部分都能get到

文本到图像生成的挑战之一是准确地将文字转化为视觉表现。FLUX.1在这方面处理得相当好,即使是在像表情包这样复杂的场景中。 

prompt: 

This is fine dog meme underwater. Text: ‘Climate change is fine’ 

这是一个在水下的「fine dog」表情包。文字:「气候变化问题不大」 

prompt: 

A meme of a famous actor making a funny face with the text ‘When you forget your lines’ in a quirky font 

一位著名演员做鬼脸的表情包,上面用古怪的字体写着「当你忘词的时候」 

光线和质感都不错

FLUX.1对光线、阴影和纹理有敏锐的理解,能始终如一地生成高质量的图像。 

prompt: 

A detailed image of a garden where the flowers are made of delicate glass, reflecting the sunlight beautifully 

一个花园的详细图像,其中的花朵由精致的玻璃制成,阳光下反射出美丽的光芒 

在这幅图里,重点不仅在于玻璃的质感,还在于光线如何通过花瓣折射和传递,创造出一种发光的效果。 

prompt: 

Owl feathers merging with autumn leaves in wind 

猫头鹰的羽毛与秋叶在风中融合 

艺术风格:不止是模仿

FLUX.1似乎掌握了各种艺术风格背后的原理,使得创造性的重新诠释成为可能。 

prompt: 

watercolor of famous wave painting 

著名波浪画的水彩画 

这幅《神奈川冲浪里》的「水彩」版本不仅暗示着标志性波浪是模型训练数据的一部分,还突出了「流」技术如何近似颜料在水、纸和墨水中的运动。 

构图:让场景有意义

FLUX.1擅长构建复杂的场景,以一种既真实又有视觉吸引力的方式放置物体和角色。 

prompt: 

A realistic image of an enchanted library where books float in mid-air and the shelves are made of ancient, twisted roots 

一个现实主义的魔法图书馆图像,书籍在空中漂浮,书架由古老扭曲的根制成 

「流」:一种新的视觉语言

FLUX.1所采用的流匹配技术,赋予了图像一种独特的有机运动感和流动性,仿佛像素本身在流动。 

prompt: 

Dog with swirling, Van Gogh-style fur patterns 

狗身上有旋转的梵高风格的毛发图案 

总有一款工具,能帮你搞定

我们可以把图像的生成过程概括为:获取一些输入像素,将它们从噪声中稍微移开,朝着由你的文本输入创建的模式移动,并重复这一过程,直到达到设定的步骤数。 

而微调过程则是从数据集中获取每个图像/标注对,并稍微更新其内部映射。 

只要可以通过图像-标题对表示,你就可以通过这种方式教会模型任何内容:角色、场景、媒介、风格、流派。 

左:使用原始FLUX.1模型生成;右:使用相同提示和种子,在fofr/flux-bad-70s-food模型上生成 

在训练中,模型将会学习如何把这些概念与特定的文本字符串关联起来。而在提示中,则需要加入这个字符串来激活这种关联。 

比如,你想微调一个「漫画风超级英雄」的模型。 

首先,需要收集大量关于角色的图像作为数据集,包括但不限于:不同的场景、服装、灯光,甚至可能是不同的艺术风格 

然后,选择一个简短且不常见的词或短语作为你的触发词:一种不会与其他概念或微调冲突的独特内容。你可能会选择像「糟糕的70年代食物」或「JELLOMOLD」这样的词。 

在训练完成之后,你只需给出一个包含触发词的提示,如「在旧金山的聚会上拍摄糟糕的70年代食物的场景」,模型就会调用你之前微调时加入的特定概念。 

就这么简单。 

在了解了原理之后,我们就可以任选一个工具来微调模型了。 

左:使用原始FLUX.1模型生成;右:使用相同提示和种子,在fofr/flux-bad-70s-food模型上生成 

比如一位叫Matt Wolfe的小哥,在看到上面这些酷炫的生成之后,也好奇地上手试了一把。 

结果,他翻车了…… 

做出的AI图像,堪称买家秀和卖家秀的区别。 

这是他生成的—— 

这是别人的—— 

两张图片高下立判,区别就在于用没用LoRA微调。 

被刺激到的小哥,立刻去研究了一番,他惊喜地发现,LoRA模型很小,只有2到500 MB,可以轻易地和现有的模型结合。 

更令人惊喜的是,并不需要额外的算力,也不需要全面的再训练,就可以让AI模型提高画质,产生独特的风格,或者生成特殊的人物,比如马里奥或者海绵宝宝。 

遗憾的是,在小哥用得顺手的Glif上,Flux中并不能使用LoRA。 

他发现,能使用Flux的其中一种方法,是用ComfyUI。 

这张图,相信很多人都很熟悉了 

或者,也可以使用Replicate、HuggingFace Spaces或Fal AI之类的平台。 

小哥在Fal平台上试用后,发现每百万像素花费0.035美元,所以,只要花1美元,就可以运行模型29次,还是比较划算的。 

在这里FLUX.1 dev、Flux Realism LoRA、FLUX.1 pro等等,都是可以使用的。 

小哥二话不说,选择了Flux Realism LoRA。 

经过精心调试后,小哥将推理步长设置在了28,CFG设置在了2。 

产生的图像,效果非常惊喜! 

如果说有什么瑕疵,就是额头皱纹处的打光仍然不自然。 

接下来,小哥兴奋地将图像导到Gen-3 Alpha中,根据他输入的prompt,Gen-3 Alpha生成了视频。 

除了在某一刻,手中的麦克风突然「飘浮」了起来,视频的其余部分,挑不出太大毛病了。 

小哥又尝试了一遍,生成了第二个视频。 

这一次,麦克风又显得太过静止了,仿佛定在了原地。 

另外,小哥也加入了全网爆改自己的大潮,生成一系列爆笑的照片。 

最后,小哥再用Gen-3 Alpha把它变成视频,就让自己和死侍走在了同一部电影的画面中。 

参考资料: 

https://x.com/dr_cintas/status/1824480995317350401 

https://x.com/Gorden_Sun/status/1824843049421484309 

https://replicate.com/blog/fine-tune-flux 

https://x.com/laion_ai/status/1824814210758459548 

https://www.youtube.com/watch?v=_rjto4ix3rA 

https://www.youtube.com/watch?v=rDu481JFwqM 

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Flux AI 生图 LoRA 流匹配 微调 图像生成 艺术创作 内容创作
相关文章