十字路口Crossing 04月09日 18:06
Google杀回来了!Gemini 2.0图像编辑实测:说人话就能干掉美图秀秀?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌推出的Gemini 2.0 Flash Experimental是多模态AI模型,能听懂自然语言,指令跟随性强,在图像编辑等多领域表现出色,但其也存在一些局限性。

🌐Gemini 2.0 Flash EXP是谷歌多模态AI模型,能听懂自然语言。

🎨在图像编辑方面,如恢复老照片、生成连环画等表现突出。

🛒在电商领域,可进行图像内容删减、主体融合等操作。

📚为漫画、动漫产业带来创新,如线稿上色、风格转换等。

🎬能高度保持各帧图片一致性,可创建本地GIF动画。

原创 镜山 2025-03-21 10:18 美国

当基座模型更新之后,作为创业者的你,是感到焦虑?还是感到兴奋?

当基座模型更新之后,作为创业者的你,是感到焦虑?还是感到兴奋?

在十字路口播客的《2025 开年对谈:AI 关键之年,Agent 开启元年》中,我们请真格基金管理合伙人雨森给 2025 年的 AI 创业者们一个建议,他提出了上面这个「灵魂拷问」。

在 Gemini 2.0 Flash Experimental 上线后,想必有一大批 AI 创业者感到的不只是「焦虑」,甚至是一定程度的「绝望」……


提问:最近,Gemini 2.0 Flash EXP为什么这么火?所有人都去玩?它不只是一个小小的文生图模型更新么?

我的回答是:它真的值得,它听得懂人话,为小白扫除了一切认知障碍。


Gemini 2.0 Flash Experimental 的上线,简直是让最近两周的中文 AI 互联网又活了一次。

它的指令跟随性实在过于强大。

比如:

    通过自然语言输入(简单点说:人话),直接破解水印。

来源:X网友@abdiisan

来源:X网友@tanayj

通过 Gemini 2.0 Flash EXP 的强大图像解析能力,使用简单的 Prompt,就能够在一定程度上恢复老照片。

来源:X网友@literallydenis



先给所有小白迅速补充一个知识点。

Gemini 2.0 Flash Experimental 是什么?

它是谷歌推出的一款多模态(同时处理文本、图片、视频等数据类型)的 AI 模型。

就跟 OpenAI 厂牌的 ChatGPT、Meta 厂牌的 Llama、xAI 厂牌的 Grok 系列一样,它是谷歌厂牌的AI大模型。

Gemini 2.0 Flash Experimental 为何火爆?

最主要的原因:它能听得懂自然语言输入,并有着强大的修改可控制性。

在此之前,如果我想玩编辑图像,基本就是 Photoshop、要不就是 Stable Diffusion 和一堆其他的 AI 编辑图像平台,去年字节出的 SeedEdit 也值得一玩。

说实话,没有哪个平台能够真的听得懂自然语言(简单说就是:人话)。这其实背后反映出来一点:大模型尚未能真正地做到高质量的提示词跟随。所以大概率,我还是要重新回到 PS 软件。但是,Photoshop 这种国民级应用,在业内对小白来说,仍然需要一定时间的积累。

所以,谷歌这回发布的 Gemini 2.0 Flash Experimental 的火爆,可以说是在预料之内的。

去年年底,它就已经开始向部分测试者发布,前几天则正式向开发者开放了。但是,别担心,普通人也能用得上,玩得好。

正是因为聚集了各路网友在各个领域的各种使用创新,Gemini 2.0 已经成了现在最酷的潮玩之一。

试玩链接如下(一定记得开魔法,谷歌的 ip 检测还是有点强的):

https://aistudio.google.com/



当我用Gemini 2.0 Flash Experimental 养了一只钢铁侠猫

进到主页面后,最上方的模型调用栏需要选择 Gemini 2.0 Flash (Image Generation) Experimental。

点开右上角的选择项设置按钮,Output format 记得选择 Image and text

Temperature 暂且不管,这个参数控制生成内容的随机性和创意度。当温度值越高,模型会放飞自我,随机性升高,回答更有创意,但是提示词跟随度降低。

正好我手里有张给猫猫摄影的照片,通过输入栏里的 +,上传图片。

然后,我简单地输入自然语言 Prompt:让这只猫正对着我。


Gemini 2.0 的表现如下图,尽管其在指令跟随方面表现出色,但图像生成效果尚不足以令人叹为观止。

以下面这只猫为例,颈部转动显得僵硬且缺乏自然流畅性,毛发衔接处过渡并不好,头部与身体的比例失调,整体呈现出视觉上的不协调。 Gemini 2.0 文生图模型在细节渲染、结构一致性和仿真真实感方面的局限性依然比较大。

如果与 Kling、Flux、Stable Diffusion、Midjourney 等几个平台比较的话,Gemini 2.0 Flash EXP生成质量方面很难称得上是第一梯队。


作为美漫迷,我时常在幻想:当一只猫猫穿越到复仇者联盟宇宙,能不能代替钢铁侠暴打绿巨人。所以,我设计了 6 个场景,利用 Gemini 2.0 Flash EXP 的图像生成能力和记忆遵循能力,生成了一个简单的连环画。


场景 1 :

Prompt :一只猫猫穿越到复仇者联盟,当上了钢铁侠,暴打绿巨人。


场景 2 :

Prompt :「钢铁侠猫」露出面具。


场景 3 :

Prompt:一只可爱的小「钢铁侠猫猫」摘下了面具,露出可爱且毛茸茸的小脑袋,向萌版绿巨人发射激光。


场景 4 :

Prompt :「钢铁侠猫猫」带着绿巨人回到了猫猫星球。


场景 5 :

Prompt :在这个神秘星球里,绿巨人也变成了一只猫。


场景 6 :

带着钢铁侠盔甲的猫和绿巨人猫和谐地生活在了一起。


针对最后一个场景,简单输入 Prompt :背景改为中国城市,古香古色。

作为图像编辑后的结果,核心叙事得到了保留,又融入了中国特色的古典建筑样式。


除了连续场景的续写与扩展外,Gemini 2.0 Flash EXP 在多样化场景下的表现,都体现了其显著增强的图像能力。这一模型,不仅在图像生成与自然语言的指令跟随方面得到了提升,也在各种行业的应用上体现出了潜力。

我精选了几个 X 上的网所友制作的例子,作为展示。

首当其冲的就是图像编辑领域,以用户输入指令为例:「把我的自拍变成网红的Instagram头像」时,Gemini 2.0 Flash EXP 的生成结果显示出显著的效果,输出图像在整体风格上发生了鲜明转变。在一定程度上,契合了 Ins 平台的审美观。如果谷歌继续对 Gemini 2.0 Flash EXP 进行快速迭代,在图像保真度以及一致性投入更多的技术资源。

在未来的某一天,我相信 AI 文生图模型可能真的会在像素级别上把美图秀秀干没了。

但是,同样需要指出的是,输入的自拍照的一些元素也相应被删减或增加了。

来源:X网友@wongmjane


其次就是电商领域。值得一提的是,Gemini 2.0 Flash EXP 除了图像内容删减操作之外,还有一个比较出圈的功能:图像主体融合。

在传统电商行业中,商家为了吸引顾客并提升大家的购买意愿,不得不在商品橱柜里配置大量的真人实拍图。作为成本,商家往往需要在模特与产品的匹配度上花费较大时间与精力。如果使用传统AI技术,除了操作门槛之外,由于技术原因所带来的主体形变等原因,AI 模特的不真实感很容易降低消费者对商品的可信度。

说白了,面对一个假人戴的商品,光靠传统 AI 技术,并不会让消费者掏空口袋。

这次的 Gemini 2.0 Flash EXP 在一定程度上缓和了这种商家与消费者的对立情况。

我找了几个网友实地体验的作品,一窥这个模型在电商行业的革新潜力已经初露端倪。

比如,上传 2 张图片,一张为站立姿态的男性模特,另一张为你想要让他试穿的羽绒服。

Gemini 2.0 Flash EXP 能够轻松地将 2 者融合,并保持一定的逼真度。不得不提的是,目前的模型仍存在一定的幻觉,即便提示词明确要求「保持相同姿势」,生成图像中的模特站姿仍会出现偏差。

来源:X网友@sardo_adam


除了简单地穿戴物品,Gemini 2.0 Flash EXP 在面对「更改人物手势,让模特手持一瓶香水面对镜头。」的表现,也是可圈可点的。

来源:X网友@KurawaDono


除了单一物品的穿戴之外,即便是多种物体同时进行图像主体融合,Gemini 2.0 Flash EXP 呈现出的效果也是比较良好的。

甚至已经有网友在感叹:「人工智能初创公司墓地中的棺材数量正在呈指数级增长。」

确实,就像本文开头提到的一样。我想,专注于电商图片、文生图、背景移除等多模态编辑垂直领域的 Photoleap、Pixelcut、Photoroom 等一系列AI驱动的科技初创企业,此刻应该从头发慌张到脚趾吧?

Gemini 2.0 Flash EXP 展现出来的能力,轻松「淹没」和「超越」了他们打造的产品价值。

来源:X网友@HalimAlrasihi


Gemini 2.0 Flash EXP 在 AI 编辑图像上的表现,同样也为漫画、动漫产业带来了新的创新。

以「为黑白线绘上色」为例。该模型展现了色彩填充能力,能够精准识别线稿的结构与层次。即便背景中,并没有具有冲击感的云彩图像,Gemini 2.0 也会通过对提示词的理解,较好地展现出来。

来源:X网友@AEAE_94


在不伤及主体的同时,在转换风格上,Gemini 2.0 Flash EXP 的表现也是可圈可点。

比如输入指令「用同样的素材,将此图像转换成浮世绘风格。」即可展现下图效果。

而这一操作应用在 Midjourney 时,如果输入指令「尝试改变附加图像的风格」,最后呈现出的效果可能会与原始素材有很大的不同。

来源:X网友@kaiju_ya


由于 Gemini 2.0 Flash EXP 在图像生成中,能够高度保持各帧图片的一致性,所以用它生成图像创建本地GIF动画也成为一种好的选择项。

来源:X网友@pandeyparul




在写这篇文章时,突然有一个时刻,我内心涌现出了一种似曾相识的感觉:


从我们的大学时代,Google 就是「灯塔式」的存在,不管是它提出「Don’t be evil」这样的理念,还是它不断推出各种用户体验登峰造极的新产品,都让我们觉得:这可能就是世界上最棒的公司了!

但这几年,说实话,Google 在 AI 浪潮中,有一些失语。  

它不可避免地面临着与 OpenAI(ChatGPT、GPT-4o)、xAI(Grok)、Meta(Llama)等强劲对手的竞争。

Gemini 大模型系列,虽然一直未淡出公众视野,但也很难说占据 AI 功利场的最中心。

这或许与谷歌将更多资源投入到核心产品(搜索、云服务业务)或 DeepMind 的基础研究(如 AlphaFold)上有关,而非全面加速 Gemini 的迭代。这也导致了在用户心智方面,GPT-4o、Grok3、Claude 3.7 Sonnet 等模型的产品讨论一直都冲在最高点。  

但从去年的 NotebookLM 到这次 Gemini 2.0 Flash EXP 的自然语言图像编辑功能的出圈,透露出 Google 这家科技巨头在产品迭代上或许略显保守,但依旧保持着一家科技巨擘的技术沉淀和对用户需求的敏锐把握

期待随着 Deep Research、支持智能文档和代码编辑的 Canvas 等功能的上线,Google Gemini 这颗「双子星」露出更灿烂的星辉。 

真是一个激动人心的时代 ——巨头尚未老去、新星争相闪烁,人类群星闪耀时!


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 2.0 Flash EXP AI模型 图像编辑 电商应用 多模态
相关文章