Introdução geral
O EasyControl é um projeto de código aberto que oferece controle de geração de imagens eficiente e flexível com base na arquitetura Diffusion Transformer (DiT). Entre elas, o Ghibli Control LoRA é uma de suas funções em destaque, capaz de transformar retratos reais no estilo de animação Ghibli, preservando as características faciais por meio do treinamento com apenas 100 rostos asiáticos e suas imagens no estilo Ghibli geradas pelo GPT-4o. O EasyControl oferece suporte a uma variedade de entradas condicionais, incluindo bordas, profundidades, poses etc., e o modelo Ghibli é o destaque da geração estilizada. O modelo Ghibli é o destaque da geração estilizada. O projeto está licenciado sob a licença Apache 2.0 apenas para fins de pesquisa. As atualizações mais recentes, em 3 de abril de 2025, incluem o modelo de estilo Ghibli e uma demonstração on-line.
Experiência gratuita: https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli
Lista de funções
- Converter retrato em estilo Ghibli: insira uma imagem de rosto real para gerar uma imagem no estilo de animação Ghibli.
- Preserve as características faciais: o treinamento baseado em 100 rostos asiáticos garante que não haja distorção de detalhes após a conversão.
- Oferece suporte a uma ampla variedade de controles condicionais, incluindo Edge (Canny), Depth (Profundidade), Pose (Pose) e muito mais.
- Saída de resolução flexível: suporta a geração de imagens com diferentes alturas e larguras.
- Geração eficiente: combinando o mecanismo de atenção causal e a tecnologia KV Cache para acelerar a inferência.
- Módulos plug-and-play: o Ghibli LoRA pode ser usado com modelos DiT, como FLUXO.1-dev) perfeitamente integrado.
Usando a Ajuda
O EasyControl é adequado para usuários com formação técnica, especialmente pesquisadores e profissionais criativos. Abaixo está um guia detalhado para instalar e usar os recursos do Ghibli.
Processo de instalação
- Preparação do ambiente
Requer Python 3.10 e PyTorch com suporte a CUDA. Crie um ambiente Conda:
conda create -n easycontrol python=3.10
conda activate easycontrol
- armazém de clones
Faça o download do projeto EasyControl:
git clone https://github.com/Xiaojiu-z/EasyControl.git
cd EasyControl
- Instalação de dependências
Instale as bibliotecas necessárias:
pip install -r requirements.txt
Os usuários de GPU precisam garantir que o PyTorch seja compatível com CUDA.
- Faça o download do modelo Ghibli
Obtenha o Ghibli LoRA da Hugging Face:
from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="Xiaojiu-Z/EasyControl", filename="models/Ghibli.safetensors", local_dir="./")
Se não estiver acessível, há sites espelho disponíveis:
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download Xiaojiu-Z/EasyControl --local-dir checkpoints
- Verificar a instalação
Execute o script de teste:
python demo.py
Se uma imagem for gerada, a instalação foi bem-sucedida.
Funções principais
1. geração de imagens no estilo Ghibli
- procedimento
Inicialize o modelo e carregue o Ghibli LoRA:
import torch
from PIL import Image
from src.pipeline import FluxPipeline
from src.lora_helper import set_single_lora
device = "cuda"
base_path = "FLUX.1-dev" # 基础模型路径
pipe = FluxPipeline.from_pretrained(base_path, torch_dtype=torch.bfloat16).to(device)
set_single_lora(pipe.transformer, "models/Ghibli.safetensors", lora_weights=[1], cond_size=512)
prompt = "Ghibli Studio style, Charming hand-drawn anime-style illustration"
subject_image = Image.open("test_imgs/portrait.png").convert("RGB")
image = pipe(
prompt,
height=1024,
width=1024,
guidance_scale=3.5,
num_inference_steps=25,
subject_images=[subject_image],
cond_size=512,
generator=torch.Generator("cpu").manual_seed(1)
).images[0]
image.save("output/ghibli_result.png")
- no final
Exportar imagens no estilo Ghibli, salvar emoutput/ghibli_result.png
.
2. uso de demonstrações on-line
- procedimento
Visite o espaço Hugging Face em https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli:- Faça upload de uma imagem de retrato.
- Digite a palavra de prompt:
Ghibli Studio style, Charming hand-drawn anime-style illustration
. - Defina a altura e a largura (limitadas pelo hardware, padrão 256x256, alta resolução requer operação local).
- Clique em "Generate Image" (Gerar imagem) e aguarde de 20 a 40 segundos.
- no final
Gera imagens de baixa resolução no estilo Ghibli.
Operação da função em destaque
Geração de alta resolução
- procedimento
Em tempo de execução local, modifique os parâmetros de altura e largura:image = pipe(prompt, height=1024, width=1024, ...)
- tomar nota de
Requer pelo menos 12 GB de memória da GPU ou pode falhar.
Limpando o cache
- procedimento
Limpe o cache após cada geração:def clear_cache(transformer): for name, attn_processor in transformer.attn_processors.items(): attn_processor.bank_kv.clear() clear_cache(pipe.transformer)
Dicas e truques
- O prompt deve conter
Ghibli Studio style, Charming hand-drawn anime-style illustration
para acionar o estilo. - Recomenda-se que a imagem de entrada seja um retrato nítido com uma resolução de 512x512 ou mais.
- A demonstração on-line é limitada pelo hardware e suporta apenas baixa resolução (256x256).
cenário do aplicativo
- Design de personagens de animação
Converta retratos reais em estilo Ghibli para gerar rapidamente protótipos de personagens animados. - arte
O artista cria ilustrações em estilo de desenho à mão com o modelo Ghibli para aumentar a eficiência. - Pesquisa educacional
O pesquisador explora a aplicação do controle condicional na geração estilizada.
QA
- Por que a resolução gerada on-line é baixa?
A demonstração on-line é limitada por hardware e suporta apenas 256x256, e precisa ser executada localmente para gerar imagens de 1024x1024. - E se a imagem gerada não se parecer com o estilo Ghibli?
Certifique-se de que o prompt contenha a palavra de acionamento ou verifique se a imagem de entrada está nítida. - Ele é compatível com entradas que não sejam de retrato?
Sim, mas o modelo Ghibli é otimizado para faces e pode não funcionar bem com outras entradas.