原创 镜山 2025-03-21 10:18 美国
当基座模型更新之后,作为创业者的你,是感到焦虑?还是感到兴奋?
当基座模型更新之后,作为创业者的你,是感到焦虑?还是感到兴奋?
在十字路口播客的《2025 开年对谈:AI 关键之年,Agent 开启元年》中,我们请真格基金管理合伙人雨森给 2025 年的 AI 创业者们一个建议,他提出了上面这个「灵魂拷问」。
在 Gemini 2.0 Flash Experimental 上线后,想必有一大批 AI 创业者感到的不只是「焦虑」,甚至是一定程度的「绝望」……
提问:最近,Gemini 2.0 Flash EXP为什么这么火?所有人都去玩?它不只是一个小小的文生图模型更新么?
我的回答是:它真的值得,它听得懂人话,为小白扫除了一切认知障碍。
Gemini 2.0 Flash Experimental 的上线,简直是让最近两周的中文 AI 互联网又活了一次。
它的指令跟随性实在过于强大。
比如:
通过自然语言输入(简单点说:人话),直接破解水印。
来源:X网友@abdiisan
来源:X网友@tanayj
通过 Gemini 2.0 Flash EXP 的强大图像解析能力,使用简单的 Prompt,就能够在一定程度上恢复老照片。
来源:X网友@literallydenis
先给所有小白迅速补充一个知识点。
Gemini 2.0 Flash Experimental 是什么?
它是谷歌推出的一款多模态(同时处理文本、图片、视频等数据类型)的 AI 模型。
就跟 OpenAI 厂牌的 ChatGPT、Meta 厂牌的 Llama、xAI 厂牌的 Grok 系列一样,它是谷歌厂牌的AI大模型。
Gemini 2.0 Flash Experimental 为何火爆?
最主要的原因:它能听得懂自然语言输入,并有着强大的修改可控制性。
在此之前,如果我想玩编辑图像,基本就是 Photoshop、要不就是 Stable Diffusion 和一堆其他的 AI 编辑图像平台,去年字节出的 SeedEdit 也值得一玩。
说实话,没有哪个平台能够真的听得懂自然语言(简单说就是:人话)。这其实背后反映出来一点:大模型尚未能真正地做到高质量的提示词跟随。所以大概率,我还是要重新回到 PS 软件。但是,Photoshop 这种国民级应用,在业内对小白来说,仍然需要一定时间的积累。
所以,谷歌这回发布的 Gemini 2.0 Flash Experimental 的火爆,可以说是在预料之内的。
去年年底,它就已经开始向部分测试者发布,前几天则正式向开发者开放了。但是,别担心,普通人也能用得上,玩得好。
正是因为聚集了各路网友在各个领域的各种使用创新,Gemini 2.0 已经成了现在最酷的潮玩之一。
试玩链接如下(一定记得开魔法,谷歌的 ip 检测还是有点强的):
当我用Gemini 2.0 Flash Experimental 养了一只钢铁侠猫
进到主页面后,最上方的模型调用栏需要选择 Gemini 2.0 Flash (Image Generation) Experimental。
点开右上角的选择项设置按钮,Output format 记得选择 Image and text。
Temperature 暂且不管,这个参数控制生成内容的随机性和创意度。当温度值越高,模型会放飞自我,随机性升高,回答更有创意,但是提示词跟随度降低。
正好我手里有张给猫猫摄影的照片,通过输入栏里的 +,上传图片。
然后,我简单地输入自然语言 Prompt:让这只猫正对着我。
Gemini 2.0 的表现如下图,尽管其在指令跟随方面表现出色,但图像生成效果尚不足以令人叹为观止。
以下面这只猫为例,颈部转动显得僵硬且缺乏自然流畅性,毛发衔接处过渡并不好,头部与身体的比例失调,整体呈现出视觉上的不协调。 Gemini 2.0 文生图模型在细节渲染、结构一致性和仿真真实感方面的局限性依然比较大。
如果与 Kling、Flux、Stable Diffusion、Midjourney 等几个平台比较的话,Gemini 2.0 Flash EXP生成质量方面很难称得上是第一梯队。
作为美漫迷,我时常在幻想:当一只猫猫穿越到复仇者联盟宇宙,能不能代替钢铁侠暴打绿巨人。所以,我设计了 6 个场景,利用 Gemini 2.0 Flash EXP 的图像生成能力和记忆遵循能力,生成了一个简单的连环画。
场景 1 :
Prompt :一只猫猫穿越到复仇者联盟,当上了钢铁侠,暴打绿巨人。
场景 2 :
Prompt :「钢铁侠猫」露出面具。
场景 3 :
Prompt:一只可爱的小「钢铁侠猫猫」摘下了面具,露出可爱且毛茸茸的小脑袋,向萌版绿巨人发射激光。
场景 4 :
Prompt :「钢铁侠猫猫」带着绿巨人回到了猫猫星球。
场景 5 :
Prompt :在这个神秘星球里,绿巨人也变成了一只猫。
场景 6 :
带着钢铁侠盔甲的猫和绿巨人猫和谐地生活在了一起。
针对最后一个场景,简单输入 Prompt :背景改为中国城市,古香古色。
作为图像编辑后的结果,核心叙事得到了保留,又融入了中国特色的古典建筑样式。
除了连续场景的续写与扩展外,Gemini 2.0 Flash EXP 在多样化场景下的表现,都体现了其显著增强的图像能力。这一模型,不仅在图像生成与自然语言的指令跟随方面得到了提升,也在各种行业的应用上体现出了潜力。
我精选了几个 X 上的网所友制作的例子,作为展示。
首当其冲的就是图像编辑领域,以用户输入指令为例:「把我的自拍变成网红的Instagram头像」时,Gemini 2.0 Flash EXP 的生成结果显示出显著的效果,输出图像在整体风格上发生了鲜明转变。在一定程度上,契合了 Ins 平台的审美观。如果谷歌继续对 Gemini 2.0 Flash EXP 进行快速迭代,在图像保真度以及一致性投入更多的技术资源。
在未来的某一天,我相信 AI 文生图模型可能真的会在像素级别上把美图秀秀干没了。
但是,同样需要指出的是,输入的自拍照的一些元素也相应被删减或增加了。
来源:X网友@wongmjane
其次就是电商领域。值得一提的是,Gemini 2.0 Flash EXP 除了图像内容删减操作之外,还有一个比较出圈的功能:图像主体融合。
在传统电商行业中,商家为了吸引顾客并提升大家的购买意愿,不得不在商品橱柜里配置大量的真人实拍图。作为成本,商家往往需要在模特与产品的匹配度上花费较大时间与精力。如果使用传统AI技术,除了操作门槛之外,由于技术原因所带来的主体形变等原因,AI 模特的不真实感很容易降低消费者对商品的可信度。
说白了,面对一个假人戴的商品,光靠传统 AI 技术,并不会让消费者掏空口袋。
这次的 Gemini 2.0 Flash EXP 在一定程度上缓和了这种商家与消费者的对立情况。
我找了几个网友实地体验的作品,一窥这个模型在电商行业的革新潜力已经初露端倪。
比如,上传 2 张图片,一张为站立姿态的男性模特,另一张为你想要让他试穿的羽绒服。
Gemini 2.0 Flash EXP 能够轻松地将 2 者融合,并保持一定的逼真度。不得不提的是,目前的模型仍存在一定的幻觉,即便提示词明确要求「保持相同姿势」,生成图像中的模特站姿仍会出现偏差。
来源:X网友@sardo_adam
除了简单地穿戴物品,Gemini 2.0 Flash EXP 在面对「更改人物手势,让模特手持一瓶香水面对镜头。」的表现,也是可圈可点的。
来源:X网友@KurawaDono
除了单一物品的穿戴之外,即便是多种物体同时进行图像主体融合,Gemini 2.0 Flash EXP 呈现出的效果也是比较良好的。
甚至已经有网友在感叹:「人工智能初创公司墓地中的棺材数量正在呈指数级增长。」
确实,就像本文开头提到的一样。我想,专注于电商图片、文生图、背景移除等多模态编辑垂直领域的 Photoleap、Pixelcut、Photoroom 等一系列AI驱动的科技初创企业,此刻应该从头发慌张到脚趾吧?
Gemini 2.0 Flash EXP 展现出来的能力,轻松「淹没」和「超越」了他们打造的产品价值。
来源:X网友@HalimAlrasihi
Gemini 2.0 Flash EXP 在 AI 编辑图像上的表现,同样也为漫画、动漫产业带来了新的创新。
以「为黑白线绘上色」为例。该模型展现了色彩填充能力,能够精准识别线稿的结构与层次。即便背景中,并没有具有冲击感的云彩图像,Gemini 2.0 也会通过对提示词的理解,较好地展现出来。
来源:X网友@AEAE_94
在不伤及主体的同时,在转换风格上,Gemini 2.0 Flash EXP 的表现也是可圈可点。
比如输入指令「用同样的素材,将此图像转换成浮世绘风格。」即可展现下图效果。
而这一操作应用在 Midjourney 时,如果输入指令「尝试改变附加图像的风格」,最后呈现出的效果可能会与原始素材有很大的不同。
来源:X网友@kaiju_ya
由于 Gemini 2.0 Flash EXP 在图像生成中,能够高度保持各帧图片的一致性,所以用它生成图像创建本地GIF动画也成为一种好的选择项。
来源:X网友@pandeyparul
在写这篇文章时,突然有一个时刻,我内心涌现出了一种似曾相识的感觉:
从我们的大学时代,Google 就是「灯塔式」的存在,不管是它提出「Don’t be evil」这样的理念,还是它不断推出各种用户体验登峰造极的新产品,都让我们觉得:这可能就是世界上最棒的公司了!
但这几年,说实话,Google 在 AI 浪潮中,有一些失语。
它不可避免地面临着与 OpenAI(ChatGPT、GPT-4o)、xAI(Grok)、Meta(Llama)等强劲对手的竞争。
Gemini 大模型系列,虽然一直未淡出公众视野,但也很难说占据 AI 功利场的最中心。
这或许与谷歌将更多资源投入到核心产品(搜索、云服务业务)或 DeepMind 的基础研究(如 AlphaFold)上有关,而非全面加速 Gemini 的迭代。这也导致了在用户心智方面,GPT-4o、Grok3、Claude 3.7 Sonnet 等模型的产品讨论一直都冲在最高点。
但从去年的 NotebookLM 到这次 Gemini 2.0 Flash EXP 的自然语言图像编辑功能的出圈,透露出 Google 这家科技巨头在产品迭代上或许略显保守,但依旧保持着一家科技巨擘的技术沉淀和对用户需求的敏锐把握。
期待随着 Deep Research、支持智能文档和代码编辑的 Canvas 等功能的上线,Google Gemini 这颗「双子星」露出更灿烂的星辉。
真是一个激动人心的时代 ——巨头尚未老去、新星争相闪烁,人类群星闪耀时!