Aprendizagem pessoal com IA
e orientação prática
TRAE

OpenAI abre a mais recente API de geração de imagens, modelo gpt-image-1 totalmente aberto

A OpenAI anunciou recentemente que criou seu mais recente modelo de geração de imagens gpt-image-1 Oficialmente disponível para desenvolvedores e empresas via API. O modelo foi usado anteriormente no ChatGPT e foi bem recebido pelos usuários por seus poderosos recursos de geração de imagens. De acordo com a OpenAI, na primeira semana de integração ao ChatGPT, usuários de todo o mundo criaram mais de 700 milhões de imagens. Agora, a abertura do recurso na forma de uma API significa que terceiros podem integrar esse recurso de geração de imagens diretamente em seus próprios aplicativos e serviços.

gpt-image-1 é descrito como um modelo multimodal nativo capaz de aceitar texto e imagens como entrada e gerar saída de imagem. Esse recurso permite não apenas criar imagens com base em descrições textuais (Text-to-Image), mas também editar ou gerar novas imagens com base em imagens carregadas pelo usuário e avisos textuais (Image-to-Image), além de oferecer suporte a recursos como modificação local (Inpainting) e edição de conversão de texto. Em comparação com seu antecessor, a série de modelos DALL-E, ogpt-image-1 Aprimoramentos na compreensão e execução de comandos mais detalhados e complexos, especialmente a capacidade de renderizar com precisão o texto em imagens, o que é valioso para cenários de aplicativos que exigem uma combinação de gráficos e texto (por exemplo, materiais de instrução, ilustrações de livros de histórias).


O modelo suporta várias resoluções, incluindo 1024x1024, 1024x1536 e 1536x1024 pixels, com um requisito mínimo de 1024 pixels de largura e altura. O desenvolvedor pode usar o v1/images/generations Chamadas de endpoint da API para a função de geração de imagem.v1/images/edits Os pontos de extremidade são então usados para edição de imagens.

Mecanismos de preços e acesso

gpt-image-1 As chamadas de API são cobradas usando um modelo de cobrança baseado em token e diferenciam entre diferentes tipos de token:

  • Entrada de texto Token (palavra pronta): A taxa é de US$ 5,00 por milhão de tokens.
  • Token de entrada de imagem (imagem de entrada): A taxa é de US$ 10,00 por milhão de tokens.
  • Token de saída de imagem (gera uma imagem): A taxa é de US$ 40,00 por milhão de tokens.

O custo de geração de uma única imagem varia de acordo com a qualidade e o tamanho da imagem. Por exemplo, o custo de geração de uma imagem de 1024x1024 pixels é de aproximadamente US$ 0,011, US$ 0,042 e US$ 0,167 para baixa, média e alta qualidade, respectivamente. O custo de imagens com resolução mais alta aumenta proporcionalmente.

Qualidade da imagem resolução (de uma foto) Preço por imagem
Baixa 1024x1024 $0.011
Baixa 1024x1536 $0.016
Baixa 1536x1024 $0.016
Médio 1024x1024 $0.042
Médio 1024x1536 $0.063
Médio 1536x1024 $0.063
Alta 1024x1024 $0.167
Alta 1024x1536 $0.25
Alta 1536x1024 $0.25

Além disso, a OpenAI definiu limites de taxa para garantir a estabilidade e a equidade do serviço, que são divididos em diferentes níveis (Nível 1 a Nível 5), com diferentes limites de processamento de Token por minuto (TPM) e Imagem por minuto (IPM) para diferentes níveis de usuários. Os limites são automaticamente relaxados à medida que o uso da API do usuário aumenta e as taxas sobem.

Nível TPM (Token por minuto) IPM (imagens por minuto)
Grátis sem suporte -
Nível 1 40,000 5
Nível 2 100,000 20
Nível 3 400,000 50
Nível 4 2,000,000 150
Nível 5 6,000,000 250

gpt-image-1 No momento, o modelo está disponível globalmente por meio da API de imagens e será compatível com a API de respostas no futuro. Alguns desenvolvedores talvez precisem concluir a validação organizacional antes de poderem usar o modelo.

O modelo também está disponível na plataforma Azure AI Foundry da Microsoft para clientes do Azure, expandindo ainda mais sua cobertura e cenários de aplicativos.

Integração ecológica e perspectivas de aplicação

comandante-em-chefe (militar) gpt-image-1 Um sinal notável da abertura para APIs é sua rápida integração com uma ampla gama de ferramentas e plataformas existentes. Isso mostra a tendência de aceleração da incorporação de recursos avançados de IA nos fluxos de trabalho diários dos usuários.

Várias empresas conhecidas têm ou estão planejando trazer gpt-image-1 integrados em seus produtos:

  • Adobe. oferecerá os recursos de geração de imagens da OpenAI em suas ferramentas criativas, como Firefly e Express, permitindo que os criadores experimentem diferentes estilos de geração em ferramentas conhecidas.
  • Mesa aérea. Aprimore seus recursos de gerenciamento de fluxo de trabalho com o modelo para ajudar as equipes criativas e de marketing corporativo a gerenciar materiais em escala, como a geração de conceitos de campanha, conteúdo de mídia localizado e muito mais.
  • Figma. integrado em sua plataforma de design Figma Design. gpt-image-1Ele permite que os usuários gerem e editem imagens com prompts de texto simples, ajustem estilos, adicionem/removam objetos, ampliem planos de fundo e muito mais.
  • Gama. A IA é usada diariamente para gerar um grande número de imagens para auxiliar os usuários na criação de apresentações e sites, utilizando o gpt-image-1 Gere gráficos, edite o conteúdo de imagens e padronize estilos.
    OpenAI abre a mais recente API de geração de imagens, o modelo gpt-image-1 é totalmente aberto-1
  • HeyGen. Integrar o modelo para aprimorar os recursos de criação e edição de avatares, oferecendo opções de personalização mais flexíveis.
    OpenAI abre a mais recente API de geração de imagens, o modelo gpt-image-1 é totalmente aberto-2
  • OpusClip. Sua ferramenta de geração de miniaturas de IA, o OpusClip Thumbnail, usa o gpt-image-1 Gerar miniaturas personalizadas para criadores do YouTube que correspondam ao conteúdo e ao título do vídeo.
  • Quora. comandante-em-chefe (militar) gpt-image-1 definido como modelo de imagem padrão, melhorando a qualidade da geração de imagens para milhões de usuários em sua plataforma.
  • Wix. Integrado à sua plataforma de design de IA, Wixel, está um recurso de geração de imagens que ajuda os usuários a transformar ideias em designs com opções de edição.
  • Photoroom. com base em gpt-image-1 Lançou ferramentas de IA, como Product Beautifier, Product Staging e Virtual Model, para ajudar os vendedores on-line a criar rapidamente imagens de produtos de alta qualidade.
  • Playground. Use o modelo para fornecer aos seus usuários recursos mais avançados de edição de design, como alteração de estilos, cores e aplicação de modelos.

Além disso, inclui CanvaGoDaddyHubSpotInstacartinvídeo Mais plataformas, inclusive, também estão explorando ou testando a integração gpt-image-1 Os cenários de aplicação abrangem uma ampla gama de campos, como assistência de design, criação de logotipo, produção de material de marketing, geração de imagens de receitas, edição de vídeo e assim por diante. Essa ampla colaboração e exploração sinaliza a penetração da tecnologia de geração de imagens com IA em ferramentas de produtividade em uma ampla gama de setores.

Considerações sobre segurança

A OpenAI enfatiza quegpt-image-1 A API emprega as mesmas proteções de segurança que a geração de imagens do modelo 4o no ChatGPT, projetadas para limitar a geração de imagens prejudiciais. Ao mesmo tempo, as imagens geradas conterão metadados C2PA, um padrão técnico para rastrear a origem e a autenticidade do conteúdo, ajudando a aumentar a transparência e a combater a desinformação. Os desenvolvedores também podem usar o moderation ajusta a sensibilidade da filtragem de conteúdo (o padrão é autoOpcional low).

A OpenAI reiterou sua política de não usar os dados da API do cliente para treinamento por padrão, e que todas as entradas e saídas de imagens fornecidas por meio da API estão sujeitas à sua política de uso. Na plataforma Azure, são aplicadas medidas adicionais de segurança de conteúdo de IA do Azure e de monitoramento de abuso.

gpt-image-1 O lançamento da API marca a mudança dos recursos de geração de imagens de IA de alta qualidade de aplicativos fechados para um ecossistema de desenvolvedores mais amplo. Sua natureza multimodal, o desempenho aprimorado e a integração com muitas plataformas convencionais podem reduzir significativamente o limite para a criação de conteúdo de imagem de nível profissional e dar origem a novos modelos de aplicativos. No entanto, seu complexo modelo de preços baseado em tokens e a limitação de taxas também apresentam novas considerações para os desenvolvedores em termos de controle de custos e dimensionamento de aplicativos. No futuro, observar como a tecnologia se encaixa em aplicativos do mundo real, como é otimizada e como aborda os possíveis riscos de abuso será fundamental para avaliar seu verdadeiro valor.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " OpenAI abre a mais recente API de geração de imagens, modelo gpt-image-1 totalmente aberto
pt_BRPortuguês do Brasil