A OpenAI anunciou recentemente que criou seu mais recente modelo de geração de imagens gpt-image-1
Oficialmente disponível para desenvolvedores e empresas via API. O modelo foi usado anteriormente no ChatGPT e foi bem recebido pelos usuários por seus poderosos recursos de geração de imagens. De acordo com a OpenAI, na primeira semana de integração ao ChatGPT, usuários de todo o mundo criaram mais de 700 milhões de imagens. Agora, a abertura do recurso na forma de uma API significa que terceiros podem integrar esse recurso de geração de imagens diretamente em seus próprios aplicativos e serviços.
gpt-image-1
é descrito como um modelo multimodal nativo capaz de aceitar texto e imagens como entrada e gerar saída de imagem. Esse recurso permite não apenas criar imagens com base em descrições textuais (Text-to-Image), mas também editar ou gerar novas imagens com base em imagens carregadas pelo usuário e avisos textuais (Image-to-Image), além de oferecer suporte a recursos como modificação local (Inpainting) e edição de conversão de texto. Em comparação com seu antecessor, a série de modelos DALL-E, ogpt-image-1
Aprimoramentos na compreensão e execução de comandos mais detalhados e complexos, especialmente a capacidade de renderizar com precisão o texto em imagens, o que é valioso para cenários de aplicativos que exigem uma combinação de gráficos e texto (por exemplo, materiais de instrução, ilustrações de livros de histórias).
O modelo suporta várias resoluções, incluindo 1024x1024, 1024x1536 e 1536x1024 pixels, com um requisito mínimo de 1024 pixels de largura e altura. O desenvolvedor pode usar o v1/images/generations
Chamadas de endpoint da API para a função de geração de imagem.v1/images/edits
Os pontos de extremidade são então usados para edição de imagens.
Mecanismos de preços e acesso
gpt-image-1
As chamadas de API são cobradas usando um modelo de cobrança baseado em token e diferenciam entre diferentes tipos de token:
- Entrada de texto Token (palavra pronta): A taxa é de US$ 5,00 por milhão de tokens.
- Token de entrada de imagem (imagem de entrada): A taxa é de US$ 10,00 por milhão de tokens.
- Token de saída de imagem (gera uma imagem): A taxa é de US$ 40,00 por milhão de tokens.
O custo de geração de uma única imagem varia de acordo com a qualidade e o tamanho da imagem. Por exemplo, o custo de geração de uma imagem de 1024x1024 pixels é de aproximadamente US$ 0,011, US$ 0,042 e US$ 0,167 para baixa, média e alta qualidade, respectivamente. O custo de imagens com resolução mais alta aumenta proporcionalmente.
Qualidade da imagem | resolução (de uma foto) | Preço por imagem |
---|---|---|
Baixa | 1024x1024 | $0.011 |
Baixa | 1024x1536 | $0.016 |
Baixa | 1536x1024 | $0.016 |
Médio | 1024x1024 | $0.042 |
Médio | 1024x1536 | $0.063 |
Médio | 1536x1024 | $0.063 |
Alta | 1024x1024 | $0.167 |
Alta | 1024x1536 | $0.25 |
Alta | 1536x1024 | $0.25 |
Além disso, a OpenAI definiu limites de taxa para garantir a estabilidade e a equidade do serviço, que são divididos em diferentes níveis (Nível 1 a Nível 5), com diferentes limites de processamento de Token por minuto (TPM) e Imagem por minuto (IPM) para diferentes níveis de usuários. Os limites são automaticamente relaxados à medida que o uso da API do usuário aumenta e as taxas sobem.
Nível | TPM (Token por minuto) | IPM (imagens por minuto) |
---|---|---|
Grátis | sem suporte | - |
Nível 1 | 40,000 | 5 |
Nível 2 | 100,000 | 20 |
Nível 3 | 400,000 | 50 |
Nível 4 | 2,000,000 | 150 |
Nível 5 | 6,000,000 | 250 |
gpt-image-1
No momento, o modelo está disponível globalmente por meio da API de imagens e será compatível com a API de respostas no futuro. Alguns desenvolvedores talvez precisem concluir a validação organizacional antes de poderem usar o modelo.
O modelo também está disponível na plataforma Azure AI Foundry da Microsoft para clientes do Azure, expandindo ainda mais sua cobertura e cenários de aplicativos.
Integração ecológica e perspectivas de aplicação
comandante-em-chefe (militar) gpt-image-1
Um sinal notável da abertura para APIs é sua rápida integração com uma ampla gama de ferramentas e plataformas existentes. Isso mostra a tendência de aceleração da incorporação de recursos avançados de IA nos fluxos de trabalho diários dos usuários.
Várias empresas conhecidas têm ou estão planejando trazer gpt-image-1
integrados em seus produtos:
- Adobe. oferecerá os recursos de geração de imagens da OpenAI em suas ferramentas criativas, como Firefly e Express, permitindo que os criadores experimentem diferentes estilos de geração em ferramentas conhecidas.
- Mesa aérea. Aprimore seus recursos de gerenciamento de fluxo de trabalho com o modelo para ajudar as equipes criativas e de marketing corporativo a gerenciar materiais em escala, como a geração de conceitos de campanha, conteúdo de mídia localizado e muito mais.
- Figma. integrado em sua plataforma de design Figma Design.
gpt-image-1
Ele permite que os usuários gerem e editem imagens com prompts de texto simples, ajustem estilos, adicionem/removam objetos, ampliem planos de fundo e muito mais. - Gama. A IA é usada diariamente para gerar um grande número de imagens para auxiliar os usuários na criação de apresentações e sites, utilizando o
gpt-image-1
Gere gráficos, edite o conteúdo de imagens e padronize estilos.
- HeyGen. Integrar o modelo para aprimorar os recursos de criação e edição de avatares, oferecendo opções de personalização mais flexíveis.
- OpusClip. Sua ferramenta de geração de miniaturas de IA, o OpusClip Thumbnail, usa o
gpt-image-1
Gerar miniaturas personalizadas para criadores do YouTube que correspondam ao conteúdo e ao título do vídeo. - Quora. comandante-em-chefe (militar)
gpt-image-1
definido como modelo de imagem padrão, melhorando a qualidade da geração de imagens para milhões de usuários em sua plataforma. - Wix. Integrado à sua plataforma de design de IA, Wixel, está um recurso de geração de imagens que ajuda os usuários a transformar ideias em designs com opções de edição.
- Photoroom. com base em
gpt-image-1
Lançou ferramentas de IA, como Product Beautifier, Product Staging e Virtual Model, para ajudar os vendedores on-line a criar rapidamente imagens de produtos de alta qualidade. - Playground. Use o modelo para fornecer aos seus usuários recursos mais avançados de edição de design, como alteração de estilos, cores e aplicação de modelos.
Além disso, inclui Canva, GoDaddy, HubSpot, Instacart, invídeo Mais plataformas, inclusive, também estão explorando ou testando a integração gpt-image-1
Os cenários de aplicação abrangem uma ampla gama de campos, como assistência de design, criação de logotipo, produção de material de marketing, geração de imagens de receitas, edição de vídeo e assim por diante. Essa ampla colaboração e exploração sinaliza a penetração da tecnologia de geração de imagens com IA em ferramentas de produtividade em uma ampla gama de setores.
Considerações sobre segurança
A OpenAI enfatiza quegpt-image-1
A API emprega as mesmas proteções de segurança que a geração de imagens do modelo 4o no ChatGPT, projetadas para limitar a geração de imagens prejudiciais. Ao mesmo tempo, as imagens geradas conterão metadados C2PA, um padrão técnico para rastrear a origem e a autenticidade do conteúdo, ajudando a aumentar a transparência e a combater a desinformação. Os desenvolvedores também podem usar o moderation
ajusta a sensibilidade da filtragem de conteúdo (o padrão é auto
Opcional low
).
A OpenAI reiterou sua política de não usar os dados da API do cliente para treinamento por padrão, e que todas as entradas e saídas de imagens fornecidas por meio da API estão sujeitas à sua política de uso. Na plataforma Azure, são aplicadas medidas adicionais de segurança de conteúdo de IA do Azure e de monitoramento de abuso.
gpt-image-1
O lançamento da API marca a mudança dos recursos de geração de imagens de IA de alta qualidade de aplicativos fechados para um ecossistema de desenvolvedores mais amplo. Sua natureza multimodal, o desempenho aprimorado e a integração com muitas plataformas convencionais podem reduzir significativamente o limite para a criação de conteúdo de imagem de nível profissional e dar origem a novos modelos de aplicativos. No entanto, seu complexo modelo de preços baseado em tokens e a limitação de taxas também apresentam novas considerações para os desenvolvedores em termos de controle de custos e dimensionamento de aplicativos. No futuro, observar como a tecnologia se encaixa em aplicativos do mundo real, como é otimizada e como aborda os possíveis riscos de abuso será fundamental para avaliar seu verdadeiro valor.