虎嗅 03月14日
AI文生图最大问题不存在了,最新Gemini2.0指哪改哪
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Gemini的文生图模型在可控性上实现了重大突破,用户可以通过简单的对话完成精细的图像修改,无需依赖复杂的Stable Diffusion或Photoshop。Imagen 3的提示词跟随功能得到强化,用户体验显著提升。虽然单纯的图像生成仍存在一定不稳定性,但Gemini 2.0 Flash Experimental在修改可控性方面表现出色,能够精准理解用户的局部改色意图,保持图像其他部分的完整性。此外,Gemini还支持整体变化和视角修改,为短片故事板和产品多视角展示提供了便利。总而言之,Gemini在文生图的可控性和用户体验上都达到了前所未有的高度。

🎨Gemini 2.0 Flash Experimental在图像修改可控性上实现突破,用户通过简单指令即可对图像进行局部修改,如改变天空颜色,且能精确理解用户意图,避免对其他区域产生不必要的影响。

🌃Gemini模型能根据用户指令实现图像整体变化,例如将城市街景从白天逐步过渡到夜晚,并且在修改过程中,可以精准控制特定元素,如车辆和行人,从而实现高度可控的图像编辑。

💡在提示词使用上,Gemini更倾向于直接描述最终结果,而非修改过程。例如,要改变视角,应描述为“从左边拍摄的样子”,而非“镜头移动到左边”,以获得更准确的图像生成效果。

最近的热点实在太多了,当Gemini的文生图模型更新出来时,原以为只是平平无奇的小更新——万万没想到,属实是个大招。

在此之前,要么用Stable Diffusion,要么走回Photoshop老路,反正还没有哪个模型,可以用如此简单的对话,就完成如此精细的修改。

Gemini率先突破可控性这件事并不令人意外,二月时,Google就推出了最新一代的图像生成模型Imagen 3,当时就强化了提示词的跟随功能。

当时还只面对付费用户,现在在AI Studio中已经可以看到更完整丰富的呈现。可以说,在目前文生图的可控性程度,以及相对应的用户体验上,Gemini的确做到了无人能出其右。

下面我们会具体解释为什么这样下结论。同时在测试过程中,我们也发现了一些使用技巧,一并奉上。

可控性不好?不存在了

诚实地说,单纯讲生成还是有一点不稳定,但是Gemini 2.0 Flash Experimental展示出了堪称逆天的修改可控性。

下面这组花田图里,使用了Imagen 3的官方实例:Impressionistic landscape painting of a sunset over a field of sunflowers,vibrant colors,thick brushstrokes,inspired by Monet。

中间的修改提示词,是为了把天空换成蓝绿色:turn the clouds at the back of the picture in to blue-greenish color

注意看中间圈出来的地方,花田和天空过渡处的油彩,基本没有变化——模型充分理解这个修改提示词里“局部改色”的意图,只对天空局部改动,其它任何地方都保持了不变。

接下来这组城市街景的例子更明显,生成提示词:generate a Tokyo street crossroad,cars passing the traffic light and people walking around

细部有些地方还是不太能看的,生成这一步的不稳定性还是没有被完全驯服。真正有惊人改变的,是细部的指令跟随。

“我想要变成夜景”“街上应该有灯光”,提示词可以非常直接就完成修改。来感受一下四轮对话之后,形成的整体变化对比。

四张图渐次展示了城市从白天、黄昏、傍晚、再到夜晚的样子。而在四轮对话中,说改车就改车,不说改动行人就保持原样——不可控性不存在了!

Tip:生成+修改最稳定

局部修改的功能,如果是在现有图片上改动,效果没那么好,比较粗暴。下面是两张现图改夜景的例子。

最稳定的组合是从生成到修改,一条龙完成,在后续的修改里可控性就更高。

整体变化,一句话完成

除了局部改动,还可以改动视角,这也是非常实用的功能。对于短片的故事板、产品多视角展示,都相当有帮助。

产品图的修改真正做到了随心所欲。

要描述的是图片最终的样子,而不是修改图片的过程

Gemini理解模糊指令是没问题的,只是需要注意一下模糊的“方式”。

比如想变换镜头视角,要描述的应该是最后形成的结果,如“从左边拍摄的样子”,而不是“镜头移动到左边”。这毕竟还是一个静态文生图,并不能呈现镜头移动。

换句话说,指令越简单直给反而越好。

一进入Stduio还有一个官方示例是做一张生日卡片,可以直接尝试。不过,想要更高的可控性,最好复制粘贴了之后,自己新建一个对话。

接下来我修改了里面的元素,花朵被替换成星球,再简单做个3D效果。

然后,我对Gemini给出了那个最震撼的指令:我要五彩斑斓的黑

等待时间来到了一百多秒在等待的过程中,还有两个必须提醒的地方:

一些基础设置必不可少

进入Studio之后,需要在右侧Model一栏,选择最新的Gemini 2.0 Flash Experimental。

成功进入后,记得左侧的Library一栏,设置一下账号关联生成Library,否则有可能无法保存会话。

最后来看下,Gemini想明白了怎么改黑色了吗?

500s过去了,毫无动静——AI还是理解不了五彩斑斓的黑啊!

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 文生图 可控性 AI图像创作 Imagen 3
相关文章