这个AI生图神器太好玩了，连提示词都不用写

虎嗅 2024年12月21日

这个AI生图神器太好玩了，连提示词都不用写

Google推出的AI生图工具Whisk，以其独特的三图融合玩法脱颖而出。用户只需上传主题、场景和风格三张图片，无需复杂提示词，即可生成融合三者特点的全新图像。Whisk不仅提供预设风格，还支持用户自定义，通过排列组合图片，实现创意完形填空。其背后是强大的Gemini模型识别图片，Imagen 3模型生成图像。Whisk简化了图像生成流程，让用户像玩抽卡游戏一样轻松探索创意，更像一种创意工具，而非精准的图像编辑器。它鼓励用户“少写提示词，多玩耍”，展示了Google在AI领域的创新实力。

🖼️ Whisk的核心玩法是三图融合，用户上传主题、场景和风格三张图片，AI自动生成融合三者特点的新图像，无需编写复杂的提示词。

🎲 Whisk提供丰富的预设风格，如徽章、贴纸、刺绣、黏土等，用户也可以通过上传自定义图片或随机生成来探索更多可能性。

🎨 Whisk背后是强大的Gemini模型和Imagen 3模型，前者负责识别图片并生成详细描述，后者则根据描述生成图像，实现视觉理解与图像生成能力的整合。

🧩 Whisk虽然减少了对提示词的依赖，但同时也支持用户通过添加提示词来进一步控制生成结果，实现更精细的定制。

💡 Whisk的定位更偏向于创意工具，鼓励用户进行创意探索和视觉实验，而不是追求精准的图像复制，具有很强的娱乐性和趣味性。

AI生图工具，已经多得泛滥了，但Google最新推出的Whisk，还是找到了一种很新的玩法，让见过世面的网友也直呼好玩。

只需输入三张图片，subject、scene、style，Whisk就可以生成一张博采众长的图片。

图片来自：Google

举个例子，主题是老人，场景是藤蔓，风格是90年代复古动漫，写上“角色骑着飞行自行车”的提示词，等待一会儿，一张类似吉卜力画风的新图片诞生了。

图片来自：Google

老人还是那个老人，戴帽子，穿西装，拿着书，但他骑上了提示词里的车，场景和风格也都变成了参考图片的样子。

Whisk的长处便在这里——让我们在少写、不写提示词的同时，轻松玩转各种风格，妈妈再也不担心我不会写提示词了。

别写复杂的提示词了，直接把图片端上来就行

别看只需要几张图片，Whisk的玩法简单，却又无穷无尽。

刷刷刷上传三张图片——主题图片，麦当劳薯条；场景图片，莫奈画作《睡莲》；风格图片，像素风游戏《星露谷物语》。

不写提示词，直接生成，Whisk给出的结果，一张更比三张强。

除了上传自己的图片，我们也可以掷骰子，让Whisk随机生成主题、场景、风格。

其实，Whisk为我们提供的预设风格已经很够用，徽章、贴纸、刺绣、黏土、美漫、马赛克拼贴等等，特色鲜明，效果立竿见影。

只要有脑洞和想象力，无需一个字，仅仅通过不同图片的排列组合，我们可以不断地做完形填空的游戏——主题+场景+风格，而且不是每个空都必须填。

1.主题图片，熏鸡；2.场景图片，梵高《星月夜》画作；3.风格图片，日本木版画

1.主题图片，《戴珍珠耳环的少女》；2.场景图片，电影《千与千寻》剧照；3.风格图片，蒙德里安抽象画

1.主题图片，微信“死亡笑脸”表情包；2.场景图片，电影《星际穿越》剧照；3.风格图片，史努比漫画截图

1.主题图片，冲浪默认头像粉色恐龙momo；2.风格图片，Jellycat玩偶

另外，Whisk的每一次生成，场景和风格只能选择一个参考图片，但主题可以选择多个。这意味着什么？我们可以让多个角色同框了！

比如，让马斯克、奥特曼、扎克伯格通通变成珐琅徽章。

三位的服装、装饰、神态都还原得挺好，扎克伯格的话筒和项链都没漏掉，但人脸没法保持一致性，全部变成了大众脸。

虽然Whisk减少了写提示词的需求，但如果你需要写的话，Whisk也鼓励。

在对话框加上一句“角色们都举着一块告示牌，上面写着AGI”，徽章小人们轻轻松松地遵循了提示词。

如果我们需要某个场景或者某种风格，但一时找不到参考图，Whisk的预设也没有提供呢？

解决方式很简单，没有图片，那就写提示词，让Whisk临场发挥一个。

就像我需要一个让角色站上去的、像素风格的底座作为场景，就让Whisk帮我生成了。

然后，再把猫猫表情包作为主题图片，把像素小鸡作为风格图片，就可以得到一个有底座的像素猫猫。

总之，Whisk非常自由，像橡皮泥一样，怎么捏都可以。

既生图又识图，把复杂的工作流包装成有趣的“打蛋器”

Whisk，其实是Google多模态模型秀肌肉的一种方式。

为了让我们少写提示词，Whisk整合了视觉理解和图片生成能力。

Gemini模型负责识别图片，自动生成详细的描述，然后这些描述会被输入到Google的图片生成模型Imagen 3，由Imagen 3生图。

Whisk是这样的，用户只要上传和生成图片就可以了，但它自己要考虑的事情就很多了。

Whisk的每张图片，不管是上传的还是生成的，都写了很长的底层提示词，并且不藏着掩着，我们点开图片就能看，也可以上手修改。

如果把一个人作为主题图片，Whisk会详细地描述他的外貌特征，场景图片也是类似的。

Whisk对奥特曼的描述：“一个肤色较浅的男子，有着短而深棕色的卷发，从胸部以上展示。他有着浅色的眼睛。他穿着一件浅米色的针织圆领毛衣。背景是一面斑驳的灰色混凝土墙。男子的表情严肃而中性。光线有些昏暗，他的右脸有轻微的阴影。”

它对风格图片的处理则略有些不同，如果把一张动画截图作为风格参考，Whisk不会说画面里有三个人，而是描述这幅画的色彩、光线、线条……

Whisk对史努比画风的描述：“这张图片以卡通风格呈现，具有粗犷的轮廓和平面着色。色彩调色板有限，主要使用原色和柔和的次要颜色。光线均匀，缺乏强烈的阴影或高光，给人一种简单、几乎孩童般的质感。线条清晰且一致，带有轻微不均匀的质感，暗示手绘的效果。整体美学让人联想到经典的连环漫画或儿童动画。”

所以，Whisk不是精准地复制图片，而是提取图片的特点和精髓，将主题、场景、风格自然地融合在一起，各司其职，互不干扰。

同时，Whisk也叠了甲——只从图片中提取少量关键特征，结果可能和预期不同。这也解释了为什么Whisk做不到对人脸的精准还原。

所以，哪怕选择不那么抽象的复古胶片风格，三位大佬的脸也是和本尊都不挨着，但其他细节都很准确。

对于物体的图片生成也是一样，特斯拉的赛博皮卡，经过特征提取再生成之后，变得非常普通。

但如果是麦当劳薯条这种素材丰富的超级IP，生成的效果倒还不错，可以拿来当广告图了。试过一些迪士尼的角色，Whisk复刻得也原模原样，但图就不放上来了。

另外，Whisk还存在一个问题——没法做很细致的风格参考，模仿不了某种特定的画风。

当我让Whisk生成蒙娜丽莎的乐高小人，出来的结果让我两眼一黑，但多加一句提示词，“让角色更像乐高人物”，Whisk又能模仿个七八成。

某个漫画家的画风就更难模仿了，上传漫画截图让Whisk参考，它最终给出的是一个非常普通的漫画风格图片，就算通过提示词强调作品、角色、漫画家，也不起什么作用。

其实，Whisk好玩就够了，它更适合做一些不追求精准的创意探索，俗称整活。

Whisk可以翻译为“搅拌”或者“打蛋器”，Google的这个名字取得即视感很强，可不就是把食材都混搭在一起吗？

Whisk的不精准，也让它的定位和传统的图片编辑器不同，更像一种创意工具。有了什么脑洞，由它实现粗略的视觉效果。

Whisk生成，1.主题图片，《火影忍者》截图；2.风格图片，毛绒玩具

以前实现Whisk这种风格化的效果，跑通一整个图像生成的流程，我们可能需要在ComfyUI搭建工作流。

但现在有了Whisk，就像在玩抽卡游戏或者开盲盒，而且只要能登录，目前还免费。

Google领先的模型能力固然是前提和基础，但要想设计出被大家需要的产品，仍然需要创造力和审美。

很喜欢Whisk的slogan：“prompt less，play more.”

Whisk出自Google labs，之前爆火的AI播客NotebookLM也是出自这里，后来慢慢发展为成熟的项目。这个实验室，本身就是这句slogan的最好注解。

强大的模型能力，有新意的产品，开放的心态，曾经似乎被OpenAI威胁的Google，风轻云淡地展现出了王者归来的姿态。

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI生图 Google Whisk 图像生成多模态模型创意工具

相关文章

Top 40+ Generative AI Tools in 2024

AI Trends 2024: Computer Vision with Naila Murray - #665

Unifying Vision and Language Models with Mohit Bansal - #636

Runway Gen-2: Generative AI for Video Creation with Anastasis Germanidis - #622

Generating Ground-Level Images From Overhead Imagery Using GANs with Yi Zhu - TWiML Talk #172

GPT-4o delivers human-like AI interaction with text, audio, and vision integration

AI generates high-quality images 30 times faster in a single step

New generative media models and tools, built with and for creators

谷歌发布文生图工具Imagen 3

华泰证券：GPT-4o响应时延大幅缩短，有望加速AI硬件落地