OpenAI 近期宣布将其最新的图像生成模型 gpt-image-1
正式通过 API 提供给开发者和企业。该模型此前已在 ChatGPT 中应用,并因其强大的图像生成能力受到用户欢迎。据 OpenAI 方面透露,在 ChatGPT 中集成该功能的第一周,全球用户就创建了超过 7 亿张图片。现在,通过 API 的形式开放,意味着第三方可以将这种图像生成能力直接整合到自己的应用和服务中。
gpt-image-1
被描述为一个原生的多模态模型,能够同时接受文本和图像作为输入,并生成图像输出。这种特性使其不仅能根据文字描述创作图像(Text-to-Image),还能基于用户上传的图片和文字提示进行编辑或生成新图像(Image-to-Image),甚至支持局部修改(Inpainting)和文本转换编辑等功能。相比其前身 DALL-E 系列模型,gpt-image-1
在理解并执行更细致、复杂的指令方面有所增强,尤其是在图像中准确渲染文字的能力,这对于需要图文结合的应用场景(如教学材料、故事书插画)颇具价值。
该模型支持多种分辨率,包括 1024x1024、1024x1536 和 1536x1024 像素,最低要求为 1024 像素的宽度和高度。开发者可以通过 v1/images/generations
API 端点调用图像生成功能,v1/images/edits
端点则用于图像编辑。
定价与访问机制
gpt-image-1
的 API 调用采用基于 Token 的计费模式,并且区分了不同类型的 Token:
- 文本输入 Token(提示词): 每百万 Token 收费 5.00 美元。
- 图像输入 Token(输入图片): 每百万 Token 收费 10.00 美元。
- 图像输出 Token(生成图片): 每百万 Token 收费 40.00 美元。
根据图像质量和尺寸的不同,生成单张图像的成本也有差异。例如,生成一张 1024x1024 像素的图像,低、中、高质量的成本分别约为 0.011 美元、0.042 美元和 0.167 美元。更高分辨率的图像成本相应增加。
图片质量 | 分辨率 | 每张图片价格 |
---|---|---|
Low | 1024x1024 | $0.011 |
Low | 1024x1536 | $0.016 |
Low | 1536x1024 | $0.016 |
Medium | 1024x1024 | $0.042 |
Medium | 1024x1536 | $0.063 |
Medium | 1536x1024 | $0.063 |
High | 1024x1024 | $0.167 |
High | 1024x1536 | $0.25 |
High | 1536x1024 | $0.25 |
此外,OpenAI 设置了速率限制(Rate Limits)以保证服务的稳定和公平性,限制分为不同层级(Tier 1 至 Tier 5),不同层级的用户拥有不同的每分钟 Token(TPM)和每分钟图像(IPM)处理上限。随着用户 API 使用量的增加和费用的提升,限制会自动放宽。
Tier | TPM (每分钟 Token 数) | IPM (每分钟图像数) |
---|---|---|
Free | 不支持 | - |
Tier 1 | 40,000 | 5 |
Tier 2 | 100,000 | 20 |
Tier 3 | 400,000 | 50 |
Tier 4 | 2,000,000 | 150 |
Tier 5 | 6,000,000 | 250 |
gpt-image-1
模型目前已通过 Images API 全球可用,未来还将支持 Responses API。部分开发者可能需要先完成组织验证才能使用该模型。
同时,该模型也在微软的 Azure AI Foundry 平台上提供,供 Azure 的客户使用,进一步扩大了其覆盖范围和应用场景。
生态整合与应用前景
将 gpt-image-1
开放给 API 的一个显著信号是其与众多现有工具和平台的快速整合。这显示出将先进 AI 能力嵌入用户日常工作流的趋势正在加速。
多家知名企业已经或正在计划将 gpt-image-1
集成到其产品中:
- Adobe: 将在其 Firefly 和 Express 等创意工具中提供 OpenAI 的图像生成能力,让创作者能在熟悉的工具中尝试不同的生成风格。
- Airtable: 利用该模型增强其工作流管理能力,帮助企业营销和创意团队大规模管理素材,例如生成营销活动概念、本地化媒体内容等。
- Figma: 在其设计平台 Figma Design 中集成了
gpt-image-1
,允许用户通过简单的文本提示生成和编辑图像,调整风格、添加/移除对象、扩展背景等。 - Gamma: 每天使用 AI 生成大量图片来辅助用户制作演示文稿和网站,利用
gpt-image-1
生成图表、编辑图像内容和统一风格。
- HeyGen: 集成该模型以改进其虚拟形象创建和编辑功能,提供更灵活的定制选项。
- OpusClip: 其 AI 缩略图生成工具 OpusClip Thumbnail 利用
gpt-image-1
为 YouTube 创作者生成与视频内容和标题匹配的个性化缩略图。 - Quora: 将
gpt-image-1
设为其默认图像模型,提升其平台上数百万用户的图像生成质量。 - Wix: 在其 AI 设计平台 Wixel 中集成了图像生成功能,帮助用户将想法转化为设计,并提供编辑选项。
- Photoroom: 基于
gpt-image-1
推出了 Product Beautifier、Product Staging 和 Virtual Model 等 AI 工具,帮助在线卖家快速创建高质量的产品视觉效果。 - Playground: 利用该模型为其用户提供更强大的设计编辑能力,如更改风格、颜色和应用模型。
此外,包括 Canva, GoDaddy, HubSpot, Instacart, invideo 在内的更多平台也在探索或测试集成 gpt-image-1
的可能性,应用场景涵盖了设计辅助、Logo 创建、营销材料制作、食谱图像生成、视频编辑等多个领域。这种广泛的合作和探索预示着 AI 图像生成技术将进一步渗透到各行各业的生产力工具中。
安全性考量
OpenAI 强调,gpt-image-1
API 采用了与 ChatGPT 中 4o 模型图像生成相同的安全防护措施,旨在限制生成有害图像。同时,生成的图像会包含 C2PA 元数据,这是一种用于追踪内容来源和真实性的技术标准,有助于提高透明度和打击虚假信息。开发者还可以通过 moderation
参数调整内容过滤的敏感度(默认为 auto
,可选 low
)。
OpenAI 重申其政策,即默认情况下不使用客户 API 数据进行训练,所有通过 API 传输的图像输入和输出都受其使用政策的约束。在 Azure 平台上,还额外应用了 Azure AI 的内容安全和滥用监控措施。
gpt-image-1
API 的发布,标志着高质量 AI 图像生成能力从封闭应用走向更广泛的开发者生态。其多模态特性、改进的性能以及与众多主流平台的集成,可能会显著降低专业级图像内容创作的门槛,并催生新的应用模式。然而,其基于 Token 的复杂定价模型和速率限制,也对开发者在成本控制和应用扩展方面提出了新的考量。未来,观察该技术如何在实际应用中落地、被优化以及应对潜在的滥用风险,将是评估其真正价值的关键。