OpenAI abre a mais recente API de geração de imagens, modelo gpt-image-1 totalmente aberto

Notícias sobre IAAtualizado há 3 meses Círculo de compartilhamento de IA

A OpenAI anunciou recentemente que criou seu mais recente modelo de geração de imagens gpt-image-1 formalmente disponível para desenvolvedores e empresas por meio de uma API. O modelo foi disponibilizado anteriormente no ChatGPT Ele foi usado no ChatGPT e foi bem recebido pelos usuários por seus poderosos recursos de geração de imagens. De acordo com a OpenAI, na primeira semana de integração do recurso no ChatGPT, usuários de todo o mundo criaram mais de 700 milhões de imagens. Agora, a abertura do recurso na forma de uma API significa que terceiros podem integrar esse recurso de geração de imagens diretamente em seus próprios aplicativos e serviços.

gpt-image-1 é descrito como um modelo multimodal nativo capaz de aceitar texto e imagens como entrada e gerar saída de imagem. Esse recurso permite não apenas criar imagens com base em descrições textuais (Text-to-Image), mas também editar ou gerar novas imagens com base em imagens carregadas pelo usuário e avisos textuais (Image-to-Image), além de oferecer suporte a recursos como modificação local (Inpainting) e edição de conversão de texto. Em comparação com seu antecessor, a série de modelos DALL-E, ogpt-image-1 Aprimoramentos na compreensão e execução de comandos mais detalhados e complexos, especialmente a capacidade de renderizar com precisão o texto em imagens, o que é valioso para cenários de aplicativos que exigem uma combinação de gráficos e texto (por exemplo, materiais de instrução, ilustrações de livros de histórias).

O modelo suporta várias resoluções, incluindo 1024x1024, 1024x1536 e 1536x1024 pixels, com um requisito mínimo de 1024 pixels de largura e altura. O desenvolvedor pode usar o v1/images/generations Chamadas de endpoint da API para a função de geração de imagem.v1/images/edits Os pontos de extremidade são então usados para edição de imagens.

Mecanismos de preços e acesso

gpt-image-1 As chamadas de API são baseadas no Token modelo de faturamento e faz distinção entre diferentes tipos de token:

Entrada de texto Token (palavra pronta): A taxa é de US$ 5,00 por milhão de tokens.
Token de entrada de imagem (imagem de entrada): A taxa é de US$ 10,00 por milhão de tokens.
Token de saída de imagem (gera uma imagem): A taxa é de US$ 40,00 por milhão de tokens.

O custo de geração de uma única imagem varia de acordo com a qualidade e o tamanho da imagem. Por exemplo, o custo de geração de uma imagem de 1024x1024 pixels é de aproximadamente US$ 0,011, US$ 0,042 e US$ 0,167 para baixa, média e alta qualidade, respectivamente. O custo de imagens com resolução mais alta aumenta proporcionalmente.

Qualidade da imagem	resolução (de uma foto)	Preço por imagem
Baixa	1024x1024	$0.011
Baixa	1024x1536	$0.016
Baixa	1536x1024	$0.016
Médio	1024x1024	$0.042
Médio	1024x1536	$0.063
Médio	1536x1024	$0.063
Alta	1024x1024	$0.167
Alta	1024x1536	$0.25
Alta	1536x1024	$0.25

Além disso, a OpenAI definiu limites de taxa para garantir a estabilidade e a equidade do serviço, que são divididos em diferentes níveis (Nível 1 a Nível 5), com diferentes limites de processamento de Token por minuto (TPM) e Imagem por minuto (IPM) para diferentes níveis de usuários. Os limites são automaticamente relaxados à medida que o uso da API do usuário aumenta e as taxas sobem.

Nível	TPM (Token por minuto)	IPM (imagens por minuto)
Grátis	sem suporte	-
Nível 1	40,000	5
Nível 2	100,000	20
Nível 3	400,000	50
Nível 4	2,000,000	150
Nível 5	6,000,000	250

gpt-image-1 No momento, o modelo está disponível globalmente por meio da API de imagens e será compatível com a API de respostas no futuro. Alguns desenvolvedores talvez precisem concluir a validação organizacional antes de poderem usar o modelo.

O modelo também está disponível na plataforma Azure AI Foundry da Microsoft para clientes do Azure, expandindo ainda mais sua cobertura e cenários de aplicativos.

Integração ecológica e perspectivas de aplicação

comandante-em-chefe (militar) gpt-image-1 Um sinal notável da abertura para APIs é sua rápida integração com uma ampla gama de ferramentas e plataformas existentes. Isso mostra a tendência de aceleração da incorporação de recursos avançados de IA nos fluxos de trabalho diários dos usuários.

Várias empresas conhecidas têm ou estão planejando trazer gpt-image-1 integrados em seus produtos:

Adobe. terá as seguintes informações em seu Vagalume Os recursos de geração de imagens da OpenAI estão disponíveis em ferramentas criativas como a OpenAI e a Express, permitindo que os criadores experimentem diferentes estilos de geração em ferramentas conhecidas.
Mesa aérea. Aprimore seus recursos de gerenciamento de fluxo de trabalho com o modelo para ajudar as equipes criativas e de marketing corporativo a gerenciar materiais em escala, como a geração de conceitos de campanha, conteúdo de mídia localizado e muito mais.
Figma. integrado em sua plataforma de design Figma Design. gpt-image-1Ele permite que os usuários gerem e editem imagens com prompts de texto simples, ajustem estilos, adicionem/removam objetos, ampliem planos de fundo e muito mais.
Gama. A IA é usada diariamente para gerar um grande número de imagens para auxiliar os usuários na criação de apresentações e sites, utilizando o gpt-image-1 Gere gráficos, edite o conteúdo de imagens e padronize estilos.
HeyGen. Integrar o modelo para aprimorar os recursos de criação e edição de avatares, oferecendo opções de personalização mais flexíveis.
OpusClip. Sua ferramenta de geração de miniaturas de IA, o OpusClip Thumbnail, usa o gpt-image-1 Gerar miniaturas personalizadas para criadores do YouTube que correspondam ao conteúdo e ao título do vídeo.
Quora. comandante-em-chefe (militar) gpt-image-1 definido como modelo de imagem padrão, melhorando a qualidade da geração de imagens para milhões de usuários em sua plataforma.
Wix. Integrado à sua plataforma de design de IA, Wixel, está um recurso de geração de imagens que ajuda os usuários a transformar ideias em designs com opções de edição.
Photoroom. com base em gpt-image-1 Lançou ferramentas de IA, como Product Beautifier, Product Staging e Virtual Model, para ajudar os vendedores on-line a criar rapidamente imagens de produtos de alta qualidade.
Playground. Use o modelo para fornecer aos seus usuários recursos mais avançados de edição de design, como alteração de estilos, cores e aplicação de modelos.

Além disso, inclui Canva, GoDaddy, HubSpot, Instacart, invídeo Mais plataformas, inclusive, também estão explorando ou testando a integração gpt-image-1 Os cenários de aplicação abrangem uma ampla gama de campos, como assistência de design, criação de logotipo, produção de material de marketing, geração de imagens de receitas, edição de vídeo e assim por diante. Essa ampla colaboração e exploração sinaliza a penetração da tecnologia de geração de imagens com IA em ferramentas de produtividade em uma ampla gama de setores.

Considerações sobre segurança

A OpenAI enfatiza quegpt-image-1 A API emprega as mesmas proteções de segurança que a geração de imagens do modelo 4o no ChatGPT, projetadas para limitar a geração de imagens prejudiciais. Ao mesmo tempo, as imagens geradas conterão metadados C2PA, um padrão técnico para rastrear a origem e a autenticidade do conteúdo, ajudando a aumentar a transparência e a combater a desinformação. Os desenvolvedores também podem usar o moderation ajusta a sensibilidade da filtragem de conteúdo (o padrão é autoOpcional low).

A OpenAI reiterou sua política de não usar os dados da API do cliente para treinamento por padrão, e que todas as entradas e saídas de imagens fornecidas por meio da API estão sujeitas à sua política de uso. Na plataforma Azure, são aplicadas medidas adicionais de segurança de conteúdo de IA do Azure e de monitoramento de abuso.

gpt-image-1 O lançamento da API marca a mudança dos recursos de geração de imagens de IA de alta qualidade de aplicativos fechados para um ecossistema de desenvolvedores mais amplo. Sua natureza multimodal, o desempenho aprimorado e a integração com muitas plataformas convencionais podem reduzir significativamente o limite para a criação de conteúdo de imagem de nível profissional e dar origem a novos modelos de aplicativos. No entanto, seu complexo modelo de preços baseado em tokens e a limitação de taxas também apresentam novas considerações para os desenvolvedores em termos de controle de custos e dimensionamento de aplicativos. No futuro, observar como a tecnologia se encaixa em aplicativos do mundo real, como é otimizada e como aborda os possíveis riscos de abuso será fundamental para avaliar seu verdadeiro valor.

Notícias sobre IA

O artigo é protegido por direitos autorais e não deve ser reproduzido sem permissão.

Claude 3.7 Relatório de avaliação do sistema Sonnet (versão em chinês)

Notícias sobre IA

6 meses atrás

01.2K

HuggingFace revela os detalhes técnicos por trás do o1 e abre seu código-fonte!

Notícias sobre IA

8 meses atrás

01.8K

FLUX.1 官方发布的图像编辑套件，覆盖：修复、扩展、提取深度图、提取Canny、混合图像风格

FLUX.1 Suíte de edição de imagens oficialmente lançada que abrange: Reparar, Estender, Extrair mapa de profundidade, Extrair Canny, Misturar estilos de imagem

Notícias sobre IA

9 meses atrás

01.4K

A Volcano Ark lança o Big Model Application Lab: modelos de aplicativos do setor de código aberto para acelerar a aterrissagem de IA empresarial

Notícias sobre IA

5 meses atrás

0730

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

OpenAI abre a mais recente API de geração de imagens, modelo gpt-image-1 totalmente aberto

Mecanismos de preços e acesso

Integração ecológica e perspectivas de aplicação

Considerações sobre segurança

$150 Taxa de assinatura para ferramentas de IA Super $1800?O pacote anual do boletim informativo do Lenny está aqui!

Lançamento do Qwen3: uma nova geração de modelos de Big Language para pensar profundamente e responder rapidamente

Artigos relacionados

Claude 3.7 Relatório de avaliação do sistema Sonnet (versão em chinês)

HuggingFace revela os detalhes técnicos por trás do o1 e abre seu código-fonte!

FLUX.1 Suíte de edição de imagens oficialmente lançada que abrange: Reparar, Estender, Extrair mapa de profundidade, Extrair Canny, Misturar estilos de imagem

A Volcano Ark lança o Big Model Application Lab: modelos de aplicativos do setor de código aberto para acelerar a aterrissagem de IA empresarial

Sem comentários

Últimas coleções

Artigos mais recentes

OpenAI abre a mais recente API de geração de imagens, modelo gpt-image-1 totalmente aberto

Mecanismos de preços e acesso

Integração ecológica e perspectivas de aplicação

Considerações sobre segurança

$150 Taxa de assinatura para ferramentas de IA Super $1800?O pacote anual do boletim informativo do Lenny está aqui!

Lançamento do Qwen3: uma nova geração de modelos de Big Language para pensar profundamente e responder rapidamente

Artigos relacionados

Claude 3.7 Relatório de avaliação do sistema Sonnet (versão em chinês)

HuggingFace revela os detalhes técnicos por trás do o1 e abre seu código-fonte!

FLUX.1 Suíte de edição de imagens oficialmente lançada que abrange: Reparar, Estender, Extrair mapa de profundidade, Extrair Canny, Misturar estilos de imagem

A Volcano Ark lança o Big Model Application Lab: modelos de aplicativos do setor de código aberto para acelerar a aterrissagem de IA empresarial

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes