Allgemeine Einführung
Abogen ist ein Open-Source-Tool zur schnellen Konvertierung von ePub-, PDF- oder reinen Textdateien in hochwertiges Audio. Es verwendet das Kokoro-82M-Modell, um eine natürliche, flüssige Sprache zu erzeugen, und unterstützt die gleichzeitige Erzeugung von Untertiteln, wodurch es sich für Hörbücher, Videosynchronisationen oder Lernhilfen eignet. Benutzer können mehrere Sprachen sowie männliche und weibliche Stimmen auswählen, die Granularität der Untertitel anpassen und sogar verschiedene Sprachmodelle mischen, um einzigartige Soundeffekte zu erzeugen. abogen unterstützt Audioformate wie WAV, FLAC, MP3 und M4B, ist einfach zu bedienen und kompatibel mit Windows, Linux und macOS.
Funktionsliste
- Unterstützt die Eingabe von ePub-, PDF- und TXT-Dateien und die automatische Textextraktion.
- Erzeugung von natürlicher Sprache in hoher Qualität mit dem Kokoro-82M-Modell.
- Es stehen mehrere Sprachen sowie männliche und weibliche Sprachoptionen zur Verfügung, z. B. amerikanisches Englisch, britisches Englisch und mehr.
- Unterstützt die Erstellung von Untertiteln mit Segmentierung nach Satz, Wort oder benutzerdefinierter Granularität.
- Ermöglicht das Mischen verschiedener Sprachmodelle, um personalisierte Stimmen zu erzeugen.
- Zu den ausgegebenen Audioformaten gehören WAV, FLAC, MP3 und M4B (Kapitel werden unterstützt).
- Bietet einen integrierten Texteditor für die einfache direkte Texteingabe oder -änderung.
- Unterstützt die Docker-Bereitstellung zur Vereinfachung von Installation und Betrieb.
- Wählen Sie, wo die Ausgabedatei gespeichert werden soll, z. B. auf dem Desktop oder in einem benutzerdefinierten Ordner.
Hilfe verwenden
Einbauverfahren
Die Installation von Abogen erfordert eine Reihe von Abhängigkeiten, darunter die Python-Umgebung und espeak-ng. Hier sind die detaillierten Schritte:
1. espeak-ng installieren
- Besuchen Sie die Seite mit der neuesten Version von espeak-ng, um eine Kopie für Ihr Betriebssystem herunterzuladen
.msi
Datei (Windows) oder über den Paketmanager (Linux/macOS) installieren. - Windows-Benutzer: Führen Sie das heruntergeladene
.msi
Datei und folgen Sie den Anweisungen, um die Installation abzuschließen. - Linux-Benutzer: Befehle ausführen
sudo apt-get install espeak-ng
(Ubuntu/Debian) odersudo yum install espeak-ng
(CentOS). - macOS-Benutzer: mit Homebrew ausführen
brew install espeak-ng
.
2. die Installation von Python und PyTorch
- Stellen Sie sicher, dass Python 3.8 oder höher auf Ihrem System installiert ist.
- Installieren Sie PyTorch (NVIDIA-GPUs werden für die GPU-Beschleunigung empfohlen):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
- Wenn Sie keinen NVIDIA-Grafikprozessor haben, führen Sie den folgenden Befehl aus, um die CPU-Version zu installieren:
pip install torch torchvision torchaudio
3. die Installation von Abogen
- Führen Sie den folgenden Befehl aus, um Abogen zu installieren:
pip install abogen
- Nachdem die Installation abgeschlossen ist, führen Sie
abogen
wird die grafische Benutzeroberfläche (GUI) gestartet.
4. die Verwendung von Docker (optional)
- Wenn Sie Abogen über Docker ausführen möchten, können Sie die Verwaltung von Abhängigkeiten vereinfachen:
- Stellen Sie sicher, dass Docker installiert ist.
- Klonen des Abogen-Repositorys:
git clone https://github.com/denizsafak/abogen.git cd abogen
- Erstellen Sie das Docker-Image:
docker build --progress plain -t abogen .
- Starten Sie den Docker-Container:
- Fenster:
docker run --name abogen -v %CD%:/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
- Linux:
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
- macOS:
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 abogen
- Fenster:
- Besuchen Sie Abogen:
- Zugang über Browser
http://localhost:5800
. - oder verbinden Sie sich mit einem VNC-Client
localhost:5900
.
- Zugang über Browser
Hauptfunktionen
1. die Umwandlung von Text in Audio
- Nach dem Start von Abogen öffnet sich die grafische Benutzeroberfläche.
- Klicken Sie auf die Schaltfläche "Datei auswählen", um eine ePub-, PDF- oder TXT-Datei hochzuladen, oder verwenden Sie den integrierten Texteditor, um Text einzugeben.
- Sprache und Stimme auswählen (z. B.
a_m
Zeigt eine amerikanische englische Männerstimme an.b_f
(Zeigt eine britisch-englische Frauenstimme an). - Konfigurieren Sie die Optionen für den Untertitel: Wählen Sie "Satz", "Satz + Komma" oder Aufteilung nach Anzahl der Wörter (z. B. 1 Wort, 2 Wörter).
- Klicken Sie auf die Schaltfläche Generieren und warten Sie, bis die Verarbeitung abgeschlossen ist. Die Verarbeitungszeit hängt von der Dateigröße und der Hardwareleistung ab (z. B. dauert die Verarbeitung von 3000 Zeichen Text auf der RTX 2060 etwa 11 Sekunden).
2. maßgeschneiderte Sprache
- Im Stimmenmixer können Sie die Proportionen der verschiedenen Stimmenmodelle anpassen, um einzigartige Klangeffekte zu erzeugen.
- Speichern Sie die Mischkonfiguration als "Sprachprofil", um sie leicht wiederverwenden zu können.
- Testen Sie den Stimmeffekt: Klicken Sie auf die Schaltfläche "Vorschau", um sich den erzeugten Soundclip anzuhören.
3. die Ausgabeeinstellungen
- Wählen Sie das Audioformat: WAV (verlustfrei), FLAC (komprimiert verlustfrei), MP3 (universell) oder M4B (Hörbuchformat mit Kapitelunterstützung).
- Festlegen des Speicherorts: Wählen Sie "Auf dem Desktop speichern", "Neben der Eingabedatei speichern" oder einen eigenen Ordner.
- Wenn Untertitel erforderlich sind, markieren Sie "Untertitel generieren" und wählen Sie das Ausgabeformat (z. B. SRT).
4. der Kommandozeilenmodus
- Bei Problemen mit der grafischen Oberfläche kann das Programm auch über die Befehlszeile ausgeführt werden:
abogen --cli
- Im Befehlszeilenmodus werden detaillierte Fehlermeldungen zur einfachen Fehlerbehebung angezeigt.
caveat
- Vergewissern Sie sich, dass die Eingabedatei korrekt formatiert ist. Bei PDF-Dateien kann die Textextraktion aufgrund des komplexen Layouts unvollständig sein.
- Die GPU-Beschleunigung wird für eine schnellere Verarbeitung empfohlen, die CPU-Verarbeitung kann langsamer sein.
- Wenn Sie auf Probleme stoßen, schauen Sie auf der Issues-Seite auf GitHub nach oder reichen Sie einen neuen Issue ein, um Hilfe zu erhalten.
Anwendungsszenario
- Produktion von Hörbüchern
Benutzer können Romane, Lehrbücher oder Dokumente in Hörbücher umwandeln, um sie während des Pendelns oder beim Sport zu hören. Die M4B-Ausgabe von Abogen unterstützt die Kapitelunterteilung für längere Inhalte. - Video-Synchronisation
Inhaltsersteller können natürliche Voice-Overs für YouTube-, TikTok- oder Instagram-Videos mit synchronisierten Untertiteln erstellen, um die Professionalität ihrer Videos zu erhöhen. - Lernhilfe
Studierende können PDF-Lehrbücher oder Handouts in Audiodateien umwandeln und sie mit Untertiteln kombinieren, um das Hören und Lernen zu erleichtern, was für Sprachschüler oder Sehbehinderte geeignet ist. - Podcast-Produktion
Podcast-Produzenten können Skripte in Audiodateien umwandeln, schnell Vorsprechclips erstellen und den Sprachstil an das Thema der Sendung anpassen.
QA
- Welche Dateiformate werden von Abogen unterstützt?
Abogen unterstützt ePub-, PDF- und TXT-Dateien als Eingabe und gibt Audioformate wie WAV, FLAC, MP3 und M4B mit Untertiteln im SRT-Format aus. - Wie lässt sich die Genauigkeit der Textextraktion verbessern?
Bei PDF-Dateien empfiehlt es sich, ein Dokument mit einfachem Layout zu verwenden. Wenn die Extraktion nicht genau ist, können Sie die PDF-Datei vor der Eingabe in eine TXT-Datei konvertieren. - Brauche ich einen Grafikprozessor, um Abogen auszuführen?
Nicht erforderlich, aber die Verwendung eines NVIDIA-Grafikprozessors kann die Verarbeitung erheblich beschleunigen. Eine CPU funktioniert auch, aber mit geringerer Geschwindigkeit. - Wie kann ich Code beitragen oder ein Problem melden?
Besuchen Sie das GitHub-Repository, reichen Sie einen Pull Request ein, um Code beizusteuern, oder melden Sie ein Problem auf der Issues-Seite mit detaillierten Fehlerinformationen.