原创 小鹿 2025-04-24 14:03 北京
家人们,OpenAI 又上新了!
家人们,OpenAI 又上新了!
今天凌晨,OpenAI 宣布,已在 API 服务中正式推出 gpt-image-1 模型的调用,gpt-image-1 的开放将让开发者和企业能够直接集成 OpenAI 的高质量图像生成能力到自己的工作流中 ~
根据 OpenAI 自述,上个月上新的基于 ChatGPT 图像功能,上线首周即实现 1.3 亿用户创作,超过 7 亿张图片的斐然成绩,OpenAI 认为这充分印证了图像生成巨大的市场需求和应用潜力。
为此,OpenAI 此次开放了用于驱动图像生成核心模型 gpt-image-1 的 API 接口,旨在为开发者提供 更强大、更灵活 的图像生成能力。通过 API 调用,开发者可以实现:
OpenAI CEO Sam Altman 在谈到 API 版本时特别指出,相较于 ChatGPT 的用户界面版本,API 提供了更高级的控制能力。
比如用户可以利用 moderation 参数对生成内容进行更精细的 审核控制,还能灵活调整图像的质量与生成速度、指定背景,以及控制输出格式等。
模型功能
目前,gpt-image-1 主要通过 Images API 提供,可以将 DALL·E 2 和 DALL·E 3 与新推出的 gpt-image-1 模型的图像 API 一起调用。
目前开放了以下核心功能:
图像生成 (Generations):
图像编辑与修改 (Edits):
(1)基于参考图生成/图像合成:
结合一个或多个现有参考图像和文本提示,生成一张包含参考元素的新图片。
比如,提供几张商品单品图,生成一张包含这些商品的精美礼品篮图片:
(2) 局部修改 (Inpainting):
OpenAI Images API 默认返回 base64 编码的图像数据,也允许调用的用户灵活自定义输出设置。
用户可以选择图像的文件格式,默认是 PNG,但也支持 JPEG 和 WebP。对于 JPEG 和 WebP 格式,可以通过 output_compression 参数指定 0-100% 的压缩级别(例如 output_compression=50)。
此外,如果 gpt-image-1 模型可以将 background 参数设为 transparent 来生成透明背景的图像。
API 定价
gpt-image-1 模型的定价主要基于 Token 使用量,其中包含不同类别的 Token:
最终实际生成图像的成本主要由图像输出 Token 的数量决定,同时包含少量文本输入 Token 的费用。以生成一张方形图像为例,不同质量等级的大致成本和对应 Token 数如下:
这样算下来,总体的 Token 使用量与图像的尺寸和质量呈正相关,因此成本也会相应变化。
应用场景
据 OpenAI 的透露,gpt-image-1 已经被很多企业应用了!
Adobe 用于直接集成在自家工具内,用于生成、编辑图像,调整风格、增删物体、扩展背景等:
Figma 用于生成交互素材:
Gamma 每天生成超 500 万张 AI 图片用于演示和网站:
Wix 将其集成到 AI 设计平台 Wixel:
Photoroom 推出 Product Beautifier、Product Staging 等工具,帮卖家快速生成专业商品图、场景图:
HeyGen 用于增强虚拟人编辑:
结语
将驱动 ChatGPT 现象级图像功能的 gpt-image-1 模型通过 API 开放,无疑为开发者和企业解锁非常广阔的创意和产品开发潜力!
家人们有什么有趣的想法吗!欢迎评论区和我们一起探讨 ~
虽然 Adobe、HeyGen 等行业在紧紧拥抱 gpt-image-1 的强大能力,而且都对 gpt-image-1 提出了很高的评价,氮素,开发者也坦言,目前 gpt-image-1 仍然有一些局限性没有解决,包括处理复杂提示时的潜在延迟(可达两分钟)、文字渲染上的精确性和清晰度挑战、多代生成时保持元素一致性的难度,以及在需要精确定位的场景下,模型的构图控制尚不能完全满足所有指令。
小鹿感觉这些问题从图像生成有了之后就一直存在,还没有看到这些问题有什么解决方法。尽管模型能力不断提升,应用日益广泛,当前生成式 AI 图像技术面临的普遍性技术瓶颈还是在卡脖子哎 ~
希望 Altman 下一步开始着手解决这些问题!(我将记得感谢 OpenAI 的 hhh)
参考文献
https://platform.openai.com/docs/guides/image-generation?image-generation-model=gpt-image-1
https://mp.weixin.qq.com/s/oUGB2YoBL9PNAMB0rrPvuA