爱范儿 03月26日 17:48
用ChatGPT新功能修了张图发朋友圈,结果私信全在问怎么做到的?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 在其文生图功能上实现了显著的升级,重点在于提升指令遵循和图像生成的一致性。新模型能够通过简单的自然语言指令,实现对图像细节的精准微调,甚至在会话中完成生图与生文的无缝切换。与 Gemini 类似,此次更新更侧重于用户体验,减少了对复杂操作的需求,使得图像创作过程更为便捷和直观。这种改进不仅提升了生成图片的质量,也优化了用户与模型交互的方式,预示着文生图领域的新发展。

🎨 强大的指令遵循能力:新模型能够准确理解并执行用户的文字指令,即使是针对图像的细节微调,也能精准实现,无需额外的笔刷或按钮操作。

🖼️ 卓越的一致性表现:OpenAI 的更新显著提升了生成图像的一致性,确保在多次修改和调整后,图像整体风格和关键元素保持稳定,减少了视觉上的偏差。

✍️ 生图与生文的无缝切换:模型具备在同一会话中快速切换生图和生文的能力,能够根据用户的模糊指令,主动提供图文并茂的解决方案,提升用户体验。

💡 简化用户操作流程:新功能降低了用户在使用文生图功能时的复杂性,用户无需学习复杂的 Prompt 技巧,只需用自然语言表达需求即可完成创作,提升了创作效率。

在今天凌晨 OpenAI 发布新一代文生图功能的时候,大家还不是很清楚它的实力,还以为是跟在 Gemini 后头,带来一些迟到的升级。

GPT 不语,只是一昧地让用户案例震惊全场。

在最新的迭代中,OpenAI 带来了文生图功能上,突破性的指令遵循和一致性表现。只需最简单的文字 prompt,就可以实现高精度的图片细部微调——一切修改只需要在会话当中进行,无需任何按钮、笔刷等额外操作。

魔法不用笔刷,只用咒语

和 Gemini 类似,这次 OpenAI 的更新,重点不在于能做多写实、多复杂的图片,而在于指令遵循和一致性,并且是在只使用自然语言指令的前提下。

先来看一组比较入门级的食物照片,prompt 也非常简单:generate an image of coffee and bread。

随后,在原图的基础上要求改成冰咖啡、涂果酱。

除了杯柄之外,该加的加,该留的留,指令遵循非常出色。

涉及到人像的图片,也有稳定的表现。

仔细看的话,还是有一些小地方是在变动的,但最关键的人体动作、衣服皱褶、表情,都没有瑕疵。

在这组图的时候,碰到了内容风控,报错称不符合政策要求。不过,它理解到了原指令的意图,提出了修改方案。

这最后一张,也是生成效果最好最自然的一张。

画面内容简单的任务自然是手拿把掐,那么复杂一点的呢?

之前在 Gemini 的生图测试中,我们出过一张城市街头景象,效果非常惊人,再看一遍:

同样的 prompt,给 ChatGPT 执行,在画面效果上稍微差了一点,尤其是到夜晚这张,几乎已经看不到人群细节了。

当然这个问题比较偏向于是审美不同,在对关键元素的识别上是没问题的,甚至能捕捉到「茑屋书店」这样小的细节,字体生成也挺稳的。

除了直接用文字生成,还可以上传图片进行修改——这里,最震撼的一集来了。

在上传了 png 格式的 APPSO 标志之后,第一步简单的变个 3D 立体。

效果还可以,阴影方向不一致,但符合光线本身即可。接下来再做点调整。

震撼!这两次调整的 prompt,不过是二十来个字而已。

(甚至默认数码产品都是 Apple 的,一些没有说的属性真是偷偷藏不住呀。)

随后的小角度微调也很准确。

▲ Prompt:调整角度,使红色logo变成正面,其余保持不动

细节微调是这次更新非常大的亮点,能够准确将指令与相对应的细部关联起来,从而完成精确的局部修改。

▲ Prompt:调整角度,镜头从右前方拍摄,整体光线变暗,一束强光从右侧打亮机器的一部分,旁边搭配咖啡豆

指令中包含了光效、镜头角度、元素增补等关键内容,模型能够准确识别,而且整体性地进行调整。指哪改哪四个字,都已经说倦了。

这次的更新中,最意外的应该是在同一个会话中,生图和生文迅速切换的能力。

比如在下面这张图中,最早的指令是生成一个礼物包装指南。

首先给出来的是一个图文版——不算是错,我没有指明是要做图文版,还是文字版,指令是很模糊的。

在生成文字版之后,ChatGPT 主动询问是不是要做图文版,在收到确认的答复之后,给出了图文并茂的版本。

这意味着模型的准确反应,不仅体现在理解单一指令上,也体现在领悟用户潜在意图上,比用户「多想一步」

实际上,这也是此前 Deep Research 发布时就展现出来的能力。OpenAI 的深度检索,是少数会主动向用户询问、明确任务执行细节的模型。

类似的能力,这次迁移到了生图当中,从使用感受而言,比在 Deep Research 上的更直观可感。

例如可以用来制作日常的告示说明,图文一锅都「端」了。

 

整体来看,这次最惊人的肯定要属一致性和指令遵循的同步到位。

按照惯例,每次测评都应该有一些「使用指南」——这次真的没有发现什么注意事项,一切只要按照自己的想法,敲击键盘,输入文字,就行了。没有什么「技巧」或者「窍门」。

通过 prompt 生图及改图的一致性,是文生图非常关键的问题,它既跟模型能力相关,又和工程能力相关。在指令遵循和一致性有这么大的进步之前,主要是通过 prompting 来解决的,压力是在用户这一边

所以会有各种各样的 prompt 模版、攻略,教大家怎么「跟模型打交道」。但那不是自然语言交互应该有的状态,模型在面对人的时候,接受的就是用户最直接的指令——让人先学一通怎么写 prompt,着实很劝退。

Gemini 和 OpenAI 近期的更新,让热度有所降低的生图赛道又重新热闹了起来。它们也展示出了同一个共同点:一些修图改图产品,通过增加按钮、入口,来增加生图的可操控性,以此来对抗模型幻觉的日子,已经远去了。

一致性的问题解决的并不仅仅只是图片生成的问题,更加是「使用图片生成功能」过程中的小麻烦。某种意义上,也是一种工程层面的优化。

修改、生成都是可以用模型对文字指令的准确理解来实现——在这个层面上,「模型即产品」仍然成立。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 文生图 指令遵循 一致性 图像生成
相关文章