虎嗅 2024年08月14日
被冠上“最强图像AI”称号的FLUX,好像也就那样
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

FLUX是由Stable Diffusion原班人马创建的图像生成AI,与Midjourney等进行对比测试,在某些方面表现出色,且公司有融资并计划发展视频AI,但其商业化前景有待观察。

🎨FLUX是Stable Diffusion原成员成立的新公司Black Forest Lab推出的文生图模型,月初发布了三个不同体量的模型,包括大杯pro、中杯dev和小杯schnell。

💪在与Midjourney的对比测试中,FLUX在一些方面表现不错,如生成带有Prada商标的包包时,文字准确且细节较好;在处理图片细节和小问题上,如画手,FLUX效果较好。

📽️黑森林公司已完成3100万美元融资,继承了开源传统,中杯、小杯FLUX开源,且官网表明下一步计划做视频AI里的SOTA,但商业化前景不明。

大家还记得 Stable Diffusion嘛,就是那个曾经和 DALL·E 、 Midjourney 齐名的图像生成 AI 。

经历了老板跑路,核心开发成员离职,昔日搅动图像 AI 市场的 Stability AI ,内部已经乱成一锅粥了。

近几个月来,关于它资金链断裂、寻求卖身的消息,是没怎么断过。

而在前东家身陷狼狈处境,正想法子自救时,年初离开的那批成员,就正正好对标 Stable Diffusion 成立了一家新公司Black Forest Lab 。

就在这个月月初,他们宣布成立新公司的时候,也一口气放出了三个不同体量的文生图模型 FLUX.1。

有主打图片质量的大杯 pro ;兼顾速度和图片质量的中杯 dev ;还有人称“速度旋风”的小杯 schnell。

按照他们官网的说法,大中杯的 FLUX ,已经成了所有图片 AI 里最厉害的存在。

拆分出来的各项能力,像是视觉质量、尺寸可变性、输出多样性等等,也都要比其他模型强不少。

不光官方这么说,在不少网友和媒体的嘴里,刚发布的这个 FLUX ,也已经到了拳打 Midjourney ,脚踢 DALL·E 的程度。

看网上的评论,倒是把世超的兴趣给勾起来了。FLUX 是不是真像大伙们说得那么厉害,这次我们拉来了 Midjourney ,把它和大杯的 FLUX 放一块一起测了测。

开局我们先来一个常规的测试题热热身,分别让它们俩画一幅中国的水墨画。

结果表现都还不错,像渔夫、群山、芦苇等提示词里的内容,全都有画出来。不过 Midjourney 这边画的太阳,着实有点太大了,也没啥夕阳的感觉。

提示词:中国水墨画风格,一个孤独的渔夫在传统的木船上,在夕阳下在宁静的湖面上轻轻漂流,中国水墨画风格,温暖的蓝色调映照着平静的水面,柔和的笔触捕捉着傍晚的宁静,远处的群山在渐渐的灯光下剪影,岸边的传统小屋,芦苇在微风中摇曳, 8K 分辨率,电影般的感觉,怀旧而宁静的氛围。

FLUX , Midjourney :

关注图片 AI 这块的朋友应该都知道,“文字生成太差”几乎是所有 AI 都栽过跟头的地方。之前 DALL·E 也曾专门针对这个弱项优化过一次,但偶尔也还是会出错。

而这次,据说 FLUX 在这块的能力已经是炉火纯青了,于是我专门选了几个要生成文字的提示词丢给它和 Midjorney 。

先让它们各自生成一个带有 Prada 商标的包包,最后给出的答案都还算不错,文字都没出现错误。

看图片整体的效果也是各有千秋, FLUX 不仅把文字写对了,甚至连 Prada 那个倒三角 LOGO 都给画了出来,而 Midjourney 的看起来则更时尚点儿。

提示词:一个大的白色“Prada”手提包,小人物用冰块搭建而成,被冰雪包围,风格像时尚广告,灵感来源于 prouce 杂志广告、高分辨率摄影、广告灵感的印刷设计风格。

FLUX , Midjourney :

接下来再上点难度,让它们给短袖设计一个复古的图片,而且还要加上两个英文单词。

这次它俩也都没出啥大错,但要论整体效果的话,世超个人觉得,还是 Midjourney 的更好一些。

提示词:复古风格的 T 恤设计以一辆带有方格旗的老式飙车为特色,并附有文字“Lagertha”和“Semper Fi” ,以单色背景为背景。举着旗帜的拉格萨身上有纹身。这幅艺术作品的风格捕捉到了她的动作姿势,展示了车速和维京力量的力量。这是一个高对比度的插图,突出了他们的运动装和大胆的文字排版。

FLUX , Midjourney :

看一个图像模型能力,经典问题“画手”肯定也绕不过。

Midjourney 这边呢,依旧是有点不太稳定,生成的手时好时坏,像右边这张图,比个耶就莫名多出一个小指。

两张均由 Midjourney 生成:

而 FLUX 的效果,说实话还是挺让人意外的,无论是剪贴画风格,还是写实风格,手部几乎都看不出啥破绽来。

两张均由 FLUX 生成:

到这为止, FLUX 在一些图片细节和小问题上,处理得还不错。

当然了,在一定程度上,图像 AI 也是个帮大伙实现想象力的工具,于是世超又丢了一些脑洞大的提示词。

提示词:一个穿着红色连衣裙的年轻女孩,坐在一条长着巨大牙齿和眼睛的巨龙旁边。她正面对它,好像他们是朋友或好警察。这个场景发生在山里的雪石里。以詹姆斯 · 卡梅隆的风格拍摄的《 狼的秘密生活 》, 70 年代的电影。

FLUX , Midjourney :

emmm......谁好谁坏就不用世超帮大伙下结论了吧, FLUX 基本上就是一眼 AI 的程度,反观 Midjourney ,倒真有点真人特效的味儿。

之后,世超又给 FLUX 为了个简单点的提示词:“现代文明的毁灭” ,看看它自个儿的想象力咋样。

结果这次,它和 Midjourney 都栽跟头了。

单看图片效果, Midjourney 会更胜一筹,确实是把史诗感拿捏了,但这建筑前看后看,跟现代文明也没半毛钱关系啊。

FLUX, Midjourney :

有趣的是, FLUX 在生成夸张漫画版本的名人肖像时,还挺在行。像是马斯克和乔布斯,它在生成时,五官特色抓得都挺精准。

两张均由 FLUX 生成:

整体体验下来,世超觉得 FLUX 的真实水平,还谈不上一骑绝尘,但也差不到哪里去。

毕竟还是 Stable Diffusion 的原班人马搞出来的,差不多就和 Midjourney 一个梯队。

而且新公司黑森林在月初推出 FLUX 的时候,还官宣了自家的融资进度,到现在已经完成了3100 万美元的融资。

更重要的是,虽然黑森林的各位都离开 Stability AI 了,但还是继承了它开源的传统美德,中杯、小杯的 FLUX 都开源。

这还没完,推出图片 AI ,似乎也只是他们赶进度的一环。官网上,他们也挑明了下一步的计划,要做视频 AI 里的 SOTA 。

但话说回来,图片 AI 的商业化都是快被讨论烂的一个话题了。

黑森林的前东家 Stability AI 就是因为商业化的问题,烂摊子一堆。而它自个儿,现在搞得开源,还有付费模型那套,和之前的 Stability AI 基本没啥差别。

后续在商业化上,会不会有啥其他新动作,咱只能再观望观望,毕竟也才刚出来。

可别照搬 Stability AI 的老路,又重走一遍。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

FLUX 图像生成AI 商业化 视频AI
相关文章