Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

EasyControl: uma ferramenta gratuita para transformar retratos em imagens no estilo Ghibli

Introdução geral

O EasyControl é um projeto de código aberto que oferece controle de geração de imagens eficiente e flexível com base na arquitetura Diffusion Transformer (DiT). Entre elas, o Ghibli Control LoRA é uma de suas funções em destaque, capaz de transformar retratos reais no estilo de animação Ghibli, preservando as características faciais por meio do treinamento com apenas 100 rostos asiáticos e suas imagens no estilo Ghibli geradas pelo GPT-4o. O EasyControl oferece suporte a uma variedade de entradas condicionais, incluindo bordas, profundidades, poses etc., e o modelo Ghibli é o destaque da geração estilizada. O modelo Ghibli é o destaque da geração estilizada. O projeto está licenciado sob a licença Apache 2.0 apenas para fins de pesquisa. As atualizações mais recentes, em 3 de abril de 2025, incluem o modelo de estilo Ghibli e uma demonstração on-line.

EasyControl: uma ferramenta gratuita para transformar retratos em imagens no estilo Ghibli-1

Experiência gratuita: https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli


 

Lista de funções

  • Converter retrato em estilo Ghibli: insira uma imagem de rosto real para gerar uma imagem no estilo de animação Ghibli.
  • Preserve as características faciais: o treinamento baseado em 100 rostos asiáticos garante que não haja distorção de detalhes após a conversão.
  • Oferece suporte a uma ampla variedade de controles condicionais, incluindo Edge (Canny), Depth (Profundidade), Pose (Pose) e muito mais.
  • Saída de resolução flexível: suporta a geração de imagens com diferentes alturas e larguras.
  • Geração eficiente: combinando o mecanismo de atenção causal e a tecnologia KV Cache para acelerar a inferência.
  • Módulos plug-and-play: o Ghibli LoRA pode ser usado com modelos DiT, como FLUXO.1-dev) perfeitamente integrado.

 

Usando a Ajuda

O EasyControl é adequado para usuários com formação técnica, especialmente pesquisadores e profissionais criativos. Abaixo está um guia detalhado para instalar e usar os recursos do Ghibli.

Processo de instalação

  1. Preparação do ambiente
    Requer Python 3.10 e PyTorch com suporte a CUDA. Crie um ambiente Conda:
conda create -n easycontrol python=3.10
conda activate easycontrol
  1. armazém de clones
    Faça o download do projeto EasyControl:
git clone https://github.com/Xiaojiu-z/EasyControl.git
cd EasyControl
  1. Instalação de dependências
    Instale as bibliotecas necessárias:
pip install -r requirements.txt

Os usuários de GPU precisam garantir que o PyTorch seja compatível com CUDA.

  1. Faça o download do modelo Ghibli
    Obtenha o Ghibli LoRA da Hugging Face:
from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="Xiaojiu-Z/EasyControl", filename="models/Ghibli.safetensors", local_dir="./")

Se não estiver acessível, há sites espelho disponíveis:

export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download Xiaojiu-Z/EasyControl --local-dir checkpoints
  1. Verificar a instalação
    Execute o script de teste:
python demo.py

Se uma imagem for gerada, a instalação foi bem-sucedida.

Funções principais

1. geração de imagens no estilo Ghibli

  • procedimento
    Inicialize o modelo e carregue o Ghibli LoRA:
import torch
from PIL import Image
from src.pipeline import FluxPipeline
from src.lora_helper import set_single_lora
device = "cuda"
base_path = "FLUX.1-dev"  # 基础模型路径
pipe = FluxPipeline.from_pretrained(base_path, torch_dtype=torch.bfloat16).to(device)
set_single_lora(pipe.transformer, "models/Ghibli.safetensors", lora_weights=[1], cond_size=512)
prompt = "Ghibli Studio style, Charming hand-drawn anime-style illustration"
subject_image = Image.open("test_imgs/portrait.png").convert("RGB")
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=25,
subject_images=[subject_image],
cond_size=512,
generator=torch.Generator("cpu").manual_seed(1)
).images[0]
image.save("output/ghibli_result.png")
  • no final
    Exportar imagens no estilo Ghibli, salvar em output/ghibli_result.png.

2. uso de demonstrações on-line

  • procedimento
    Visite o espaço Hugging Face em https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli:

    1. Faça upload de uma imagem de retrato.
    2. Digite a palavra de prompt:Ghibli Studio style, Charming hand-drawn anime-style illustration.
    3. Defina a altura e a largura (limitadas pelo hardware, padrão 256x256, alta resolução requer operação local).
    4. Clique em "Generate Image" (Gerar imagem) e aguarde de 20 a 40 segundos.
  • no final
    Gera imagens de baixa resolução no estilo Ghibli.

Operação da função em destaque

Geração de alta resolução

  • procedimento
    Em tempo de execução local, modifique os parâmetros de altura e largura:

    image = pipe(prompt, height=1024, width=1024, ...)
    
  • tomar nota de
    Requer pelo menos 12 GB de memória da GPU ou pode falhar.

Limpando o cache

  • procedimento
    Limpe o cache após cada geração:

    def clear_cache(transformer):
    for name, attn_processor in transformer.attn_processors.items():
    attn_processor.bank_kv.clear()
    clear_cache(pipe.transformer)
    

Dicas e truques

  • O prompt deve conter Ghibli Studio style, Charming hand-drawn anime-style illustration para acionar o estilo.
  • Recomenda-se que a imagem de entrada seja um retrato nítido com uma resolução de 512x512 ou mais.
  • A demonstração on-line é limitada pelo hardware e suporta apenas baixa resolução (256x256).

 

cenário do aplicativo

  1. Design de personagens de animação
    Converta retratos reais em estilo Ghibli para gerar rapidamente protótipos de personagens animados.
  2. arte
    O artista cria ilustrações em estilo de desenho à mão com o modelo Ghibli para aumentar a eficiência.
  3. Pesquisa educacional
    O pesquisador explora a aplicação do controle condicional na geração estilizada.

 

QA

  1. Por que a resolução gerada on-line é baixa?
    A demonstração on-line é limitada por hardware e suporta apenas 256x256, e precisa ser executada localmente para gerar imagens de 1024x1024.
  2. E se a imagem gerada não se parecer com o estilo Ghibli?
    Certifique-se de que o prompt contenha a palavra de acionamento ou verifique se a imagem de entrada está nítida.
  3. Ele é compatível com entradas que não sejam de retrato?
    Sim, mas o modelo Ghibli é otimizado para faces e pode não funcionar bem com outras entradas.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " EasyControl: uma ferramenta gratuita para transformar retratos em imagens no estilo Ghibli
pt_BRPortuguês do Brasil