OpenAI hat kürzlich angekündigt, dass es sein neuestes Modell zur Bilderzeugung gpt-image-1
Offiziell verfügbar für Entwickler und Unternehmen über API. Das Modell wurde bereits in ChatGPT verwendet und wurde von den Nutzern wegen seiner leistungsstarken Bilderzeugungsfunktionen gut angenommen. Nach Angaben von OpenAI haben Nutzer aus aller Welt in der ersten Woche nach der Integration in ChatGPT mehr als 700 Millionen Bilder erstellt. Die Öffnung in Form einer API bedeutet nun, dass Dritte diese Bilderzeugungsfunktion direkt in ihre eigenen Anwendungen und Dienste integrieren können.
gpt-image-1
wird als natives multimodales Modell beschrieben, das sowohl Text als auch Bilder als Eingabe akzeptiert und eine Bildausgabe erzeugt. Dadurch können nicht nur Bilder auf der Grundlage von Textbeschreibungen (Text-to-Image) erstellt werden, sondern auch Bilder auf der Grundlage von vom Benutzer hochgeladenen Bildern und Texteingaben (Image-to-Image) bearbeitet oder neu generiert werden, und es werden sogar Funktionen wie lokale Änderungen (Inpainting) und die Bearbeitung von Textumwandlungen unterstützt. Im Vergleich zu seinem Vorgänger, der DALL-E-Modellreihe, ist dergpt-image-1
Verbesserungen beim Verstehen und Ausführen detaillierterer und komplexerer Befehle, insbesondere die Fähigkeit, Text in Bildern genau wiederzugeben, was für Anwendungsszenarien, die eine Kombination aus Grafik und Text erfordern (z. B. Lehrmaterial, Bilderbuchillustrationen), von großem Nutzen ist.
Das Modell unterstützt mehrere Auflösungen, darunter 1024x1024, 1024x1536 und 1536x1024 Pixel mit einer Mindestanforderung von 1024 Pixeln in Breite und Höhe. Der Entwickler kann die v1/images/generations
API-Endpunktaufrufe an die Bilderzeugungsfunktion.v1/images/edits
Die Endpunkte werden dann für die Bildbearbeitung verwendet.
Preisgestaltung und Zugangsmechanismen
gpt-image-1
Die API-Aufrufe werden nach einem Token-basierten Abrechnungsmodell abgerechnet, wobei zwischen verschiedenen Token-Typen unterschieden wird:
- Texteingabe Token (Aufforderungswort): Die Gebühr beträgt 5,00 $ pro Million Token.
- Bild-Eingabe-Token (Eingabebild): Die Gebühr beträgt 10,00 $ pro Million Token.
- Bildausgabe-Token (erzeugt ein Bild): Die Gebühr beträgt 40,00 $ pro Million Token.
Die Kosten für die Erstellung eines einzelnen Bildes variieren je nach Qualität und Größe des Bildes. Die Kosten für die Erstellung eines Bildes mit einer Größe von 1024x1024 Pixeln betragen beispielsweise etwa 0,011 $, 0,042 $ und 0,167 $ bei niedriger, mittlerer bzw. hoher Qualität. Die Kosten für Bilder mit höherer Auflösung steigen entsprechend an.
Bildqualität | Auflösung (eines Fotos) | Preis pro Bild |
---|---|---|
Niedrig | 1024x1024 | $0.011 |
Niedrig | 1024x1536 | $0.016 |
Niedrig | 1536x1024 | $0.016 |
Mittel | 1024x1024 | $0.042 |
Mittel | 1024x1536 | $0.063 |
Mittel | 1536x1024 | $0.063 |
Hoch | 1024x1024 | $0.167 |
Hoch | 1024x1536 | $0.25 |
Hoch | 1536x1024 | $0.25 |
Darüber hinaus hat OpenAI Ratenlimits festgelegt, um die Stabilität und Fairness des Dienstes zu gewährleisten. Diese sind in verschiedene Stufen unterteilt (Stufe 1 bis Stufe 5), mit unterschiedlichen Obergrenzen für die Verarbeitung von Token pro Minute (TPM) und Bildern pro Minute (IPM) für die verschiedenen Benutzerstufen. Die Begrenzungen werden automatisch gelockert, wenn die API-Nutzung der Nutzer zunimmt und die Gebühren steigen.
Ebene | TPM (Token pro Minute) | IPM (Bilder pro Minute) |
---|---|---|
Kostenlos | nicht unterstützt | - |
Stufe 1 | 40,000 | 5 |
Stufe 2 | 100,000 | 20 |
Stufe 3 | 400,000 | 50 |
Stufe 4 | 2,000,000 | 150 |
Stufe 5 | 6,000,000 | 250 |
gpt-image-1
Das Modell ist derzeit weltweit über die Bilder-API verfügbar und wird in Zukunft die Antworten-API unterstützen. Einige Entwickler müssen möglicherweise eine organisatorische Validierung durchführen, bevor sie das Modell verwenden können.
Das Modell ist auch auf der Azure AI Foundry-Plattform von Microsoft für Azure-Kunden verfügbar, wodurch die Abdeckung und die Anwendungsszenarien weiter ausgebaut werden.
Ökologische Integration und Anwendungsperspektiven
Oberbefehlshaber (Militär) gpt-image-1
Ein bemerkenswertes Zeichen für die Öffnung von APIs ist ihre rasche Integration in eine Vielzahl von bestehenden Tools und Plattformen. Dies zeigt den sich beschleunigenden Trend, fortschrittliche KI-Funktionen in die täglichen Arbeitsabläufe der Nutzer einzubinden.
Eine Reihe namhafter Unternehmen haben oder planen die Einführung von gpt-image-1
in ihre Produkte integriert:
- Adobe. wird die Bilderzeugungsfunktionen von OpenAI in seinen Kreativwerkzeugen wie Firefly und Express anbieten, so dass Kreative mit verschiedenen Erzeugungsstilen in vertrauten Werkzeugen experimentieren können.
- Airtable. Erweitern Sie Ihre Workflow-Management-Funktionen mit dem Modell, um Marketing- und Kreativteams in Unternehmen bei der Verwaltung von Material in großem Umfang zu unterstützen, z. B. bei der Erstellung von Kampagnenkonzepten, lokalisierten Medieninhalten und mehr.
- Figma. in seine Designplattform Figma Design integriert.
gpt-image-1
Es ermöglicht den Nutzern, Bilder mit einfachen Texteingaben zu erstellen und zu bearbeiten, Stile anzupassen, Objekte hinzuzufügen oder zu entfernen, Hintergründe zu erweitern und vieles mehr. - Gamma. Künstliche Intelligenz wird täglich eingesetzt, um eine große Anzahl von Bildern zu generieren, die den Nutzern bei der Erstellung von Präsentationen und Websites helfen, indem sie die
gpt-image-1
Erstellen Sie Diagramme, bearbeiten Sie Bildinhalte und standardisieren Sie Stile.
- HeyGen. Integration des Modells zur Verbesserung der Funktionen für die Erstellung und Bearbeitung von Avataren, die flexiblere Anpassungsmöglichkeiten bieten.
- OpusClip. Das AI-Tool zur Erstellung von Miniaturansichten, OpusClip Thumbnail, verwendet die
gpt-image-1
Generieren Sie personalisierte Thumbnails für YouTube-Ersteller, die dem Inhalt und dem Titel des Videos entsprechen. - Quora. Oberbefehlshaber (Militär)
gpt-image-1
als Standardbildmodell festgelegt, wodurch die Qualität der Bilderzeugung für Millionen von Nutzern auf der Plattform verbessert wird. - Wix. Die in die KI-Designplattform Wixel integrierte Funktion zur Bilderzeugung hilft den Nutzern, Ideen in Designs mit Bearbeitungsoptionen umzusetzen.
- Fotoraum. auf der Grundlage von
gpt-image-1
Einführung von KI-Tools wie Product Beautifier, Product Staging und Virtual Model, um Online-Verkäufer bei der schnellen Erstellung hochwertiger Produktvisualisierungen zu unterstützen. - Spielplatz. Verwenden Sie das Modell, um seinen Nutzern leistungsfähigere Designbearbeitungsfunktionen zur Verfügung zu stellen, wie z. B. das Ändern von Stilen und Farben und die Anwendung von Modellen.
Darüber hinaus umfasst es Canva, GoDaddy, HubSpot, Instacart, invideo Weitere Plattformen, darunter auch solche, die die Integration erforschen oder testen gpt-image-1
Die Anwendungsszenarien decken ein breites Spektrum von Bereichen ab, z. B. Designunterstützung, Logoerstellung, Produktion von Marketingmaterial, Bilderzeugung für Rezepte, Videobearbeitung und so weiter. Diese umfassende Zusammenarbeit und Erforschung signalisiert das weitere Vordringen der KI-Bilderzeugungstechnologie in Produktivitätswerkzeuge in einer Vielzahl von Branchen.
Sicherheitserwägungen
OpenAI unterstreicht, dassgpt-image-1
Die API verwendet dieselben Sicherheitsvorkehrungen wie die 4o-Modell-Bilderzeugung in ChatGPT, um die Erzeugung schädlicher Bilder zu begrenzen. Gleichzeitig werden die erzeugten Bilder C2PA-Metadaten enthalten, einen technischen Standard für die Verfolgung der Herkunft und Authentizität von Inhalten, der zur Verbesserung der Transparenz und zur Bekämpfung von Desinformation beiträgt. Die Entwickler können auch die moderation
Parameter passt die Empfindlichkeit der Inhaltsfilterung an (Standard ist auto
Optional low
).
OpenAI bekräftigte seine Richtlinie, dass Kunden-API-Daten standardmäßig nicht für Trainingszwecke verwendet werden und dass alle über die API gelieferten Bildeingaben und -ausgaben der Nutzungsrichtlinie unterliegen. Auf der Azure-Plattform werden zusätzliche Maßnahmen zur Sicherheit von Azure-KI-Inhalten und zur Überwachung von Missbrauch angewendet.
gpt-image-1
Die Freigabe der API markiert den Übergang der hochwertigen KI-Bilderzeugungsfunktionen von geschlossenen Anwendungen zu einem breiteren Entwickler-Ökosystem. Die multimodale Natur, die verbesserte Leistung und die Integration in viele Mainstream-Plattformen können die Schwelle für die Erstellung professioneller Bildinhalte deutlich senken und neue Anwendungsmodelle hervorbringen. Das komplexe Token-basierte Preismodell und die Tarifbeschränkung stellen Entwickler jedoch auch vor neue Überlegungen in Bezug auf Kostenkontrolle und Anwendungsskalierung. In Zukunft wird es entscheidend sein, zu beobachten, wie sich die Technologie in realen Anwendungen bewährt, wie sie optimiert wird und wie sie mit potenziellen Missbrauchsrisiken umgeht, um ihren wahren Wert zu ermitteln.