OpenAIは最近、最新の画像生成モデルを発表した。 gpt-image-1
API経由でデベロッパーや企業に正式に提供。このモデルは以前からChatGPTに採用されており、その強力な画像生成機能でユーザーから好評を得ていた。OpenAIによると、ChatGPTに統合した最初の1週間で、世界中のユーザーが7億枚以上の画像を作成したという。今回、APIの形で公開されたことで、サードパーティはこの画像生成機能を自社のアプリやサービスに直接組み込むことができる。
gpt-image-1
は、テキストと画像の両方を入力として受け付け、画像出力を生成できるネイティブなマルチモーダルモデルとして説明されている。この特徴により、テキスト記述に基づく画像生成(Text-to-Image)だけでなく、ユーザがアップロードした画像やテキストプロンプトに基づく編集や新規画像生成(Image-to-Image)が可能となり、さらには局所的な修正(Inpainting)やテキスト変換編集などの機能にも対応している。前モデルであるDALL-Eシリーズと比較してgpt-image-1
より詳細で複雑なコマンドの理解と実行が強化され、特に、画像内のテキストを正確にレンダリングする能力が向上した。
このモデルは、1024x1024、1024x1536、1536x1024ピクセルを含む複数の解像度をサポートし、最小要件は幅と高さが1024ピクセルです。開発者は v1/images/generations
画像生成機能へのAPIエンドポイントコール。v1/images/edits
エンドポイントは画像編集に使用される。
価格設定とアクセス・メカニズム
gpt-image-1
APIコールはトークン・ベースの課金モデルを使用して課金され、トークンの種類によって区別される:
- テキスト入力 トークン(促音語): 手数料は100万トークンあたり5ドル。
- 画像入力トークン(入力画像): 手数料は100万トークンあたり10ドル。
- 画像出力トークン(画像を生成する): 手数料は100万トークンあたり40ドル。
1枚の画像を生成するコストは、画像の品質とサイズによって異なります。例えば、1024x1024ピクセルの画像を生成するコストは、低画質、中画質、高画質でそれぞれ約0.011ドル、0.042ドル、0.167ドルです。高解像度の画像のコストは、それに応じて増加します。
画質 | 解像 | 画像1枚あたりの価格 |
---|---|---|
低い | 1024x1024 | $0.011 |
低い | 1024x1536 | $0.016 |
低い | 1536x1024 | $0.016 |
ミディアム | 1024x1024 | $0.042 |
ミディアム | 1024x1536 | $0.063 |
ミディアム | 1536x1024 | $0.063 |
高い | 1024x1024 | $0.167 |
高い | 1024x1536 | $0.25 |
高い | 1536x1024 | $0.25 |
さらに、OpenAIはサービスの安定性と公平性を確保するために、レートリミットを設定しています。このレートリミットは、異なるティア(ティア1からティア5)に分かれており、ユーザーのティアごとに、1分あたりのトークン(TPM)と1分あたりのイメージ(IPM)の処理上限が異なります。ユーザーのAPI使用量が増加し、料金が上昇すると、上限は自動的に緩和されます。
ティア | TPM(トークン/分) | IPM(画像/分) |
---|---|---|
無料 | 非対応 | - |
ティア1 | 40,000 | 5 |
ティア2 | 100,000 | 20 |
ティア3 | 400,000 | 50 |
ティア4 | 2,000,000 | 150 |
ティア5 | 6,000,000 | 250 |
gpt-image-1
このモデルは現在、Images APIを通じてグローバルに利用可能であり、将来的にはResponses APIをサポートする予定である。一部の開発者は、このモデルを使用する前に組織的な検証を完了する必要があるかもしれない。
このモデルは、マイクロソフトのAzure AI Foundryプラットフォーム上でもAzure顧客向けに提供され、その適用範囲と適用シナリオをさらに拡大している。
生態学的統合と応用の展望
そうしれいかん gpt-image-1
APIへの開放の顕著な兆候の1つは、幅広い既存のツールやプラットフォームとの迅速な統合である。これは、高度なAI機能をユーザーの日常的なワークフローに組み込む流れが加速していることを示している。
数多くの有名企業が、このようなプロジェクトを立ち上げ、あるいは計画している。 gpt-image-1
を製品に組み込んでいる:
- アドビ は、OpenAIの画像生成機能をFireflyやExpressなどのクリエイティブツールで提供し、クリエイターが使い慣れたツールでさまざまな生成スタイルを試すことができるようにする。
- エアテーブル。 このモデルによってワークフロー管理機能が強化され、企業のマーケティングチームやクリエイティブチームが、キャンペーンコンセプトやローカライズされたメディアコンテンツなどの素材を大規模に管理できるようになります。
- フィグマ デザイン・プラットフォームFigma Designに統合されています。
gpt-image-1
簡単なテキストプロンプトによる画像の生成・編集、スタイルの調整、オブジェクトの追加・削除、背景の拡張などが可能です。 - ガンマ AIは、プレゼンテーションやウェブサイトを作成する際に、ユーザーを支援するために多数の画像を生成するために日々使用されている。
gpt-image-1
グラフの作成、画像コンテンツの編集、スタイルの標準化。
- ヘイゲン モデルを統合してアバターの作成・編集機能を向上させ、より柔軟なカスタマイズオプションを提供。
- OpusClip. そのAIサムネイル生成ツール、OpusClip Thumbnailは、OpusClip Thumbnailを使用しています。
gpt-image-1
YouTubeクリエイター向けに、動画の内容やタイトルに合ったパーソナライズされたサムネイルを生成します。 - クオラ そうしれいかん
gpt-image-1
をデフォルトの画像モデルとして設定し、プラットフォーム上の何百万人ものユーザーの画像生成の質を向上させた。 - ウィックス 同社のAIデザイン・プラットフォームであるWixelに統合された画像生成機能は、ユーザーが編集オプションを使ってアイデアをデザインに変えるのを助ける。
- フォトルーム に基づいている。
gpt-image-1
Product Beautifier、Product Staging、Virtual ModelなどのAIツールを発表し、オンライン販売者が高品質の商品ビジュアルを迅速に作成できるようにした。 - 遊び場。 このモデルを使用して、スタイルや色の変更、モデルの適用など、より強力なデザイン編集機能をユーザーに提供します。
さらに、次のような内容も含まれている。 カンヴァ, ゴーダディ, ハブスポット, インスタカート, インビデオ 統合を検討またはテストしているプラットフォームも増えている。 gpt-image-1
応用シーンは、デザイン支援、ロゴ制作、マーケティング資料制作、レシピ画像生成、動画編集など多岐にわたる。このような広範なコラボレーションと探求は、AI画像生成技術が幅広い業界の生産性向上ツールにさらに浸透していくことを示唆している。
安全への配慮
OpenAIは次のように強調する。gpt-image-1
このAPIは、ChatGPTの4oモデル画像生成と同じセキュリティ・セーフガードを採用しており、有害な画像の生成を制限するように設計されています。同時に、生成された画像には、コンテンツの出所と真正性を追跡するための技術標準であるC2PAメタデータが含まれ、透明性の向上と偽情報との戦いに役立ちます。開発者は moderation
パラメータは、コンテンツフィルタリングの感度を調整します(デフォルトは auto
オプション low
).
OpenAIは、顧客のAPIデータをデフォルトでトレーニングに使用しないという方針を改めて示し、API経由で配信されるすべての画像の入力と出力は、使用ポリシーの対象となることを明らかにした。Azureプラットフォームでは、追加のAzure AIコンテンツセキュリティと不正使用監視対策が適用される。
gpt-image-1
APIのリリースは、高品質なAI画像生成機能がクローズドなアプリケーションから、より広範な開発者エコシステムに移行することを意味する。そのマルチモーダルな性質、改善されたパフォーマンス、多くの主流プラットフォームとの統合は、プロ級の画像コンテンツ作成の敷居を大幅に下げ、新たなアプリケーションモデルを生み出す可能性がある。しかし、その複雑なトークンベースの価格設定モデルと料金の制限は、コスト管理とアプリケーションのスケーリングという点で、開発者に新たな検討事項をもたらす。今後、この技術が実世界のアプリケーションにどのように適用され、最適化され、悪用の潜在的リスクに対処されるかを観察することが、その真価を評価する鍵となるだろう。