Abogen: uma ferramenta para converter vários formatos de texto em audiolivros

🚀 Convite para experimentar: o primeiro software de programação inteligente AI IDE da China Download da versão chinesa do TraeO DeepSeek-R1 e o Doubao-pro estão disponíveis em uma base ilimitada!

Introdução geral

O Abogen é uma ferramenta de código aberto projetada para converter rapidamente arquivos ePub, PDF ou de texto simples em áudio de alta qualidade. Ele usa o modelo Kokoro-82M para gerar uma fala natural e suave e oferece suporte à geração simultânea de legendas, o que o torna adequado para audiolivros, dublagem de vídeo ou material didático. Os usuários podem selecionar vários idiomas e vozes masculinas e femininas, ajustar a granularidade das legendas e até mesmo misturar diferentes modelos de fala para criar efeitos sonoros exclusivos. O Abogen é compatível com formatos de áudio como WAV, FLAC, MP3 e M4B, além de ser fácil de usar e compatível com Windows, Linux e macOS.

Abogen: uma ferramenta para converter vários formatos de texto em audiolivros-1

Lista de funções

Suporta a entrada de arquivos ePub, PDF e TXT e a extração automática de texto.
Geração de fala natural de alta qualidade usando o modelo Kokoro-82M.
Vários idiomas e opções de voz masculina e feminina estão disponíveis, como inglês americano, inglês britânico e muito mais.
Oferece suporte à geração de legendas com segmentação por frase, palavra ou granularidade personalizada.
Permite a combinação de diferentes modelos de fala para criar vozes personalizadas.
Os formatos de áudio de saída incluem WAV, FLAC, MP3 e M4B (capítulos compatíveis).
Oferece um editor de texto integrado para facilitar a entrada ou modificação direta de texto.
Oferece suporte à implantação do Docker para simplificar a instalação e a operação.
Escolha onde salvar o arquivo de saída, como a área de trabalho ou uma pasta personalizada.

Usando a Ajuda

Processo de instalação

A instalação do Abogen requer várias dependências, incluindo o ambiente Python e o espeak-ng. Veja a seguir as etapas detalhadas:

1. instalar o espeak-ng

Visite a página da versão mais recente do espeak-ng para fazer o download de uma cópia para seu sistema operacional .msi (Windows) ou instalar por meio do gerenciador de pacotes (Linux/macOS).
Usuários do Windows: Execute o arquivo baixado .msi siga as instruções para concluir a instalação.
Usuários do Linux: executando comandos sudo apt-get install espeak-ng(Ubuntu/Debian) ou sudo yum install espeak-ng(CentOS).
Usuários do macOS: executem com o Homebrew brew install espeak-ng.

2. instalação do Python e do PyTorch

Certifique-se de que o Python 3.8 ou posterior esteja instalado em seu sistema.

Instale o PyTorch (recomenda-se o uso de GPUs NVIDIA para aceleração de GPU):

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

Se você não tiver uma GPU NVIDIA, execute o seguinte comando para instalar a versão da CPU:
```
pip install torch torchvision torchaudio
```

3. instalação da Abogen

Execute o seguinte comando para instalar o Abogen:
```
pip install abogen
```
Após a conclusão da instalação, execute abogen inicia a interface gráfica (GUI).

4. usando o Docker (opcional)

Se desejar executar a Abogen por meio do Docker, você poderá simplificar o gerenciamento de dependências:
- Certifique-se de que o Docker esteja instalado.
- Clonagem do repositório da Abogen:
```
git clone https://github.com/denizsafak/abogen.git
cd abogen
```
- Crie a imagem do Docker:
```
docker build --progress plain -t abogen .
```
- Execute o contêiner do Docker:
  - Windows:
```
docker run --name abogen -v %CD%:/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
```
  - Linux:
```
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
```
  - macOS:
```
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 abogen
```
- Visite a Abogen:
  - Acesso via navegador http://localhost:5800.
  - ou conecte-se usando um cliente VNC localhost:5900.

Funções principais

1. conversão de texto em áudio

Após iniciar o Abogen, a interface gráfica é aberta.
Clique no botão "Select File" (Selecionar arquivo) para carregar um arquivo ePub, PDF ou TXT ou use o editor de texto integrado para inserir o texto.
Selecione o idioma e a voz (por exemplo a_m Indica uma voz masculina em inglês americano.b_f (Indica uma voz feminina em inglês britânico).
Configure as opções de legenda: selecione "Sentence" (frase), "Sentence + comma" (frase + vírgula) ou divida por número de palavras (por exemplo, 1 palavra, 2 palavras).
Clique no botão Generate (Gerar) e aguarde a conclusão do processamento. O tempo de processamento depende do tamanho do arquivo e do desempenho do hardware (por exemplo, 3000 caracteres de texto levam cerca de 11 segundos no RTX 2060).

2. discurso personalizado

No Voice Mixer, ajuste as proporções de diferentes modelos de voz para criar efeitos sonoros exclusivos.
Salve a configuração da mixagem como um "perfil de voz" para facilitar a reutilização.
Teste o efeito de voz: clique no botão "Preview" (Visualizar) para ouvir o clipe de som gerado.

3. configurações de saída

Selecione o formato de áudio: WAV (sem perdas), FLAC (sem perdas compactado), MP3 (universal) ou M4B (formato de audiolivro com suporte a capítulos).
Definição do local de salvamento: Selecione "Save to desktop" (Salvar na área de trabalho), "Save next to input file" (Salvar próximo ao arquivo de entrada) ou pasta personalizada.
Se forem necessárias legendas, marque "Generate subtitles" (Gerar legendas) e selecione o formato de saída (por exemplo, SRT).

4. modo de linha de comando

Se houver algum problema com a interface gráfica, ela pode ser executada a partir da linha de comando:
```
abogen --cli
```
O modo de linha de comando exibe mensagens de erro detalhadas para facilitar a solução de problemas.

advertência

Certifique-se de que o arquivo de entrada esteja formatado corretamente; os arquivos PDF podem ter extração de texto incompleta devido ao layout complexo.
A aceleração da GPU é recomendada para um processamento mais rápido; o processamento da CPU pode ser mais lento.
Se você tiver problemas, consulte a página de problemas no GitHub ou envie um novo problema para obter ajuda.

cenário do aplicativo

Produção de audiolivros
Os usuários podem converter romances, livros didáticos ou documentos em audiolivros para facilitar a audição durante o trajeto para o trabalho ou a prática de exercícios.
dublagem de vídeo
Os criadores de conteúdo podem gerar narrações naturais para vídeos do YouTube, TikTok ou Instagram com legendas sincronizadas para aprimorar o profissionalismo de seus vídeos.
Assistência ao aprendizado
Os alunos podem converter livros didáticos ou apostilas em PDF em áudio e combiná-los com legendas para ajudar na audição e no aprendizado, o que é adequado para alunos de idiomas ou deficientes visuais.
Produção de podcast
Os produtores de podcast podem converter roteiros em áudio, gerar rapidamente clipes de audição e ajustar o estilo de voz para combinar com o tema do programa.

QA

Quais formatos de arquivo são suportados pela Abogen?
O Abogen suporta arquivos ePub, PDF e TXT como entrada e produz formatos de áudio como WAV, FLAC, MP3 e M4B, com legendas no formato SRT.
Como melhorar a precisão da extração de texto?
Para arquivos PDF, é recomendável usar um documento com layout simples. Se a extração não for precisa, você poderá converter o PDF em um arquivo TXT antes de inseri-lo.
Preciso de uma GPU para rodar o Abogen?
Não é necessário, mas o uso de uma GPU NVIDIA pode acelerar significativamente o processamento. Uma CPU também funcionará, mas em uma velocidade mais lenta.
Como faço para contribuir com código ou relatar um problema?
Visite o repositório do GitHub, envie uma Pull Request para contribuir com o código ou relate um problema na página Problemas com informações detalhadas sobre os erros.

Abogen: uma ferramenta para converter vários formatos de texto em audiolivros

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

1. instalar o espeak-ng

2. instalação do Python e do PyTorch

3. instalação da Abogen

4. usando o Docker (opcional)

Funções principais

1. conversão de texto em áudio

2. discurso personalizado

3. configurações de saída

4. modo de linha de comando

advertência

cenário do aplicativo

QA

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Hotspots de IA recentes

Recomendações de ferramentas de IA

Classificação das ferramentas de IA