OpenAI爆火的图像生成开放API，一张图花掉1.4元

原创小鹿 2025-04-24 14:03 北京

家人们，OpenAI 又上新了！

家人们，OpenAI 又上新了！

今天凌晨，OpenAI 宣布，已在 API 服务中正式推出 gpt-image-1 模型的调用，gpt-image-1 的开放将让开发者和企业能够直接集成 OpenAI 的高质量图像生成能力到自己的工作流中～

根据 OpenAI 自述，上个月上新的基于 ChatGPT 图像功能，上线首周即实现 1.3 亿用户创作，超过 7 亿张图片的斐然成绩，OpenAI 认为这充分印证了图像生成巨大的市场需求和应用潜力。

为此，OpenAI 此次开放了用于驱动图像生成核心模型 gpt-image-1 的 API 接口，旨在为开发者提供 更强大、更灵活 的图像生成能力。通过 API 调用，开发者可以实现：

更高质量、更逼真的图像

更多样的视觉风格

更精确的图像编辑

利用模型丰富的世界知识

确保图像中文字呈现的一致性

OpenAI CEO Sam Altman 在谈到 API 版本时特别指出，相较于 ChatGPT 的用户界面版本，API 提供了更高级的控制能力。

比如用户可以利用 moderation 参数对生成内容进行更精细的审核控制，还能灵活调整图像的质量与生成速度、指定背景，以及控制输出格式等。

模型功能

目前，gpt-image-1 主要通过 Images API 提供，可以将 DALL·E 2 和 DALL·E 3 与新推出的 gpt-image-1 模型的图像 API 一起调用。

目前开放了以下核心功能：

图像生成 (Generations):

基于纯文本提示，从零开始创建全新的图像。

可一次请求生成多张图片。

图像编辑与修改 (Edits):
（1）基于参考图生成/图像合成:
结合一个或多个现有参考图像和文本提示，生成一张包含参考元素的新图片。
比如，提供几张商品单品图，生成一张包含这些商品的精美礼品篮图片：

(2) 局部修改 (Inpainting):

OpenAI Images API 默认返回 base64 编码的图像数据，也允许调用的用户灵活自定义输出设置。

用户可以选择图像的文件格式，默认是 PNG，但也支持 JPEG 和 WebP。对于 JPEG 和 WebP 格式，可以通过 output_compression 参数指定 0-100% 的压缩级别（例如 output_compression=50）。

此外，如果 gpt-image-1 模型可以将 background 参数设为 transparent 来生成透明背景的图像。

API 定价

gpt-image-1 模型的定价主要基于 Token 使用量，其中包含不同类别的 Token：

文本输入 Token (Prompt): 每 100 万 Token 5 美元

图像输入 Token (用于编辑的参考图): 每 100 万 Token 10 美元

图像输出 Token (生成的图像): 每 100 万 Token 40 美元

最终实际生成图像的成本主要由图像输出 Token 的数量决定，同时包含少量文本输入 Token 的费用。以生成一张方形图像为例，不同质量等级的大致成本和对应 Token 数如下：

低质量 (Low Quality): 约 $0.02 (0.144元人民币，对应约 272 Token)

中质量 (Medium Quality): 约 $0.07 (0.504元人民币，对应约 1056 Token)

高质量 (High Quality): 约 $0.19 (1.368元人民币，对应约 4160 Token)

这样算下来，总体的 Token 使用量与图像的尺寸和质量呈正相关，因此成本也会相应变化。

应用场景

据 OpenAI 的透露，gpt-image-1 已经被很多企业应用了！

Adobe 用于直接集成在自家工具内，用于生成、编辑图像，调整风格、增删物体、扩展背景等：

Figma 用于生成交互素材：

Gamma 每天生成超 500 万张 AI 图片用于演示和网站：

Wix 将其集成到 AI 设计平台 Wixel：

Photoroom 推出 Product Beautifier、Product Staging 等工具，帮卖家快速生成专业商品图、场景图：

HeyGen 用于增强虚拟人编辑：

结语

将驱动 ChatGPT 现象级图像功能的 gpt-image-1 模型通过 API 开放，无疑为开发者和企业解锁非常广阔的创意和产品开发潜力！

家人们有什么有趣的想法吗！欢迎评论区和我们一起探讨～

虽然 Adobe、HeyGen 等行业在紧紧拥抱 gpt-image-1 的强大能力，而且都对 gpt-image-1 提出了很高的评价，氮素，开发者也坦言，目前 gpt-image-1 仍然有一些局限性没有解决，包括处理复杂提示时的潜在延迟（可达两分钟）、文字渲染上的精确性和清晰度挑战、多代生成时保持元素一致性的难度，以及在需要精确定位的场景下，模型的构图控制尚不能完全满足所有指令。

小鹿感觉这些问题从图像生成有了之后就一直存在，还没有看到这些问题有什么解决方法。尽管模型能力不断提升，应用日益广泛，当前生成式 AI 图像技术面临的普遍性技术瓶颈还是在卡脖子哎～

希望 Altman 下一步开始着手解决这些问题！（我将记得感谢 OpenAI 的 hhh）

参考文献
https://platform.openai.com/docs/guides/image-generation?image-generation-model=gpt-image-1
https://mp.weixin.qq.com/s/oUGB2YoBL9PNAMB0rrPvuA

阅读原文

跳转微信打开

模型功能

API 定价

应用场景

结语

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签