Introdução geral
O Abogen é uma ferramenta de código aberto projetada para converter rapidamente arquivos ePub, PDF ou de texto simples em áudio de alta qualidade. Ele usa o modelo Kokoro-82M para gerar uma fala natural e suave e oferece suporte à geração simultânea de legendas, o que o torna adequado para audiolivros, dublagem de vídeo ou material didático. Os usuários podem selecionar vários idiomas e vozes masculinas e femininas, ajustar a granularidade das legendas e até mesmo misturar diferentes modelos de fala para criar efeitos sonoros exclusivos. O Abogen é compatível com formatos de áudio como WAV, FLAC, MP3 e M4B, além de ser fácil de usar e compatível com Windows, Linux e macOS.
Lista de funções
- Suporta a entrada de arquivos ePub, PDF e TXT e a extração automática de texto.
- Geração de fala natural de alta qualidade usando o modelo Kokoro-82M.
- Vários idiomas e opções de voz masculina e feminina estão disponíveis, como inglês americano, inglês britânico e muito mais.
- Oferece suporte à geração de legendas com segmentação por frase, palavra ou granularidade personalizada.
- Permite a combinação de diferentes modelos de fala para criar vozes personalizadas.
- Os formatos de áudio de saída incluem WAV, FLAC, MP3 e M4B (capítulos compatíveis).
- Oferece um editor de texto integrado para facilitar a entrada ou modificação direta de texto.
- Oferece suporte à implantação do Docker para simplificar a instalação e a operação.
- Escolha onde salvar o arquivo de saída, como a área de trabalho ou uma pasta personalizada.
Usando a Ajuda
Processo de instalação
A instalação do Abogen requer várias dependências, incluindo o ambiente Python e o espeak-ng. Veja a seguir as etapas detalhadas:
1. instalar o espeak-ng
- Visite a página da versão mais recente do espeak-ng para fazer o download de uma cópia para seu sistema operacional
.msi
(Windows) ou instalar por meio do gerenciador de pacotes (Linux/macOS). - Usuários do Windows: Execute o arquivo baixado
.msi
siga as instruções para concluir a instalação. - Usuários do Linux: executando comandos
sudo apt-get install espeak-ng
(Ubuntu/Debian) ousudo yum install espeak-ng
(CentOS). - Usuários do macOS: executem com o Homebrew
brew install espeak-ng
.
2. instalação do Python e do PyTorch
- Certifique-se de que o Python 3.8 ou posterior esteja instalado em seu sistema.
- Instale o PyTorch (recomenda-se o uso de GPUs NVIDIA para aceleração de GPU):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
- Se você não tiver uma GPU NVIDIA, execute o seguinte comando para instalar a versão da CPU:
pip install torch torchvision torchaudio
3. instalação da Abogen
- Execute o seguinte comando para instalar o Abogen:
pip install abogen
- Após a conclusão da instalação, execute
abogen
inicia a interface gráfica (GUI).
4. usando o Docker (opcional)
- Se desejar executar a Abogen por meio do Docker, você poderá simplificar o gerenciamento de dependências:
- Certifique-se de que o Docker esteja instalado.
- Clonagem do repositório da Abogen:
git clone https://github.com/denizsafak/abogen.git cd abogen
- Crie a imagem do Docker:
docker build --progress plain -t abogen .
- Execute o contêiner do Docker:
- Windows:
docker run --name abogen -v %CD%:/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
- Linux:
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
- macOS:
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 abogen
- Windows:
- Visite a Abogen:
- Acesso via navegador
http://localhost:5800
. - ou conecte-se usando um cliente VNC
localhost:5900
.
- Acesso via navegador
Funções principais
1. conversão de texto em áudio
- Após iniciar o Abogen, a interface gráfica é aberta.
- Clique no botão "Select File" (Selecionar arquivo) para carregar um arquivo ePub, PDF ou TXT ou use o editor de texto integrado para inserir o texto.
- Selecione o idioma e a voz (por exemplo
a_m
Indica uma voz masculina em inglês americano.b_f
(Indica uma voz feminina em inglês britânico). - Configure as opções de legenda: selecione "Sentence" (frase), "Sentence + comma" (frase + vírgula) ou divida por número de palavras (por exemplo, 1 palavra, 2 palavras).
- Clique no botão Generate (Gerar) e aguarde a conclusão do processamento. O tempo de processamento depende do tamanho do arquivo e do desempenho do hardware (por exemplo, 3000 caracteres de texto levam cerca de 11 segundos no RTX 2060).
2. discurso personalizado
- No Voice Mixer, ajuste as proporções de diferentes modelos de voz para criar efeitos sonoros exclusivos.
- Salve a configuração da mixagem como um "perfil de voz" para facilitar a reutilização.
- Teste o efeito de voz: clique no botão "Preview" (Visualizar) para ouvir o clipe de som gerado.
3. configurações de saída
- Selecione o formato de áudio: WAV (sem perdas), FLAC (sem perdas compactado), MP3 (universal) ou M4B (formato de audiolivro com suporte a capítulos).
- Definição do local de salvamento: Selecione "Save to desktop" (Salvar na área de trabalho), "Save next to input file" (Salvar próximo ao arquivo de entrada) ou pasta personalizada.
- Se forem necessárias legendas, marque "Generate subtitles" (Gerar legendas) e selecione o formato de saída (por exemplo, SRT).
4. modo de linha de comando
- Se houver algum problema com a interface gráfica, ela pode ser executada a partir da linha de comando:
abogen --cli
- O modo de linha de comando exibe mensagens de erro detalhadas para facilitar a solução de problemas.
advertência
- Certifique-se de que o arquivo de entrada esteja formatado corretamente; os arquivos PDF podem ter extração de texto incompleta devido ao layout complexo.
- A aceleração da GPU é recomendada para um processamento mais rápido; o processamento da CPU pode ser mais lento.
- Se você tiver problemas, consulte a página de problemas no GitHub ou envie um novo problema para obter ajuda.
cenário do aplicativo
- Produção de audiolivros
Os usuários podem converter romances, livros didáticos ou documentos em audiolivros para facilitar a audição durante o trajeto para o trabalho ou a prática de exercícios. - dublagem de vídeo
Os criadores de conteúdo podem gerar narrações naturais para vídeos do YouTube, TikTok ou Instagram com legendas sincronizadas para aprimorar o profissionalismo de seus vídeos. - Assistência ao aprendizado
Os alunos podem converter livros didáticos ou apostilas em PDF em áudio e combiná-los com legendas para ajudar na audição e no aprendizado, o que é adequado para alunos de idiomas ou deficientes visuais. - Produção de podcast
Os produtores de podcast podem converter roteiros em áudio, gerar rapidamente clipes de audição e ajustar o estilo de voz para combinar com o tema do programa.
QA
- Quais formatos de arquivo são suportados pela Abogen?
O Abogen suporta arquivos ePub, PDF e TXT como entrada e produz formatos de áudio como WAV, FLAC, MP3 e M4B, com legendas no formato SRT. - Como melhorar a precisão da extração de texto?
Para arquivos PDF, é recomendável usar um documento com layout simples. Se a extração não for precisa, você poderá converter o PDF em um arquivo TXT antes de inseri-lo. - Preciso de uma GPU para rodar o Abogen?
Não é necessário, mas o uso de uma GPU NVIDIA pode acelerar significativamente o processamento. Uma CPU também funcionará, mas em uma velocidade mais lenta. - Como faço para contribuir com código ou relatar um problema?
Visite o repositório do GitHub, envie uma Pull Request para contribuir com o código ou relate um problema na página Problemas com informações detalhadas sobre os erros.