Abogen: ein Tool zur Konvertierung verschiedener Textformate in Hörbücher

🚀 Einladung zum Erleben: Chinas erste KI-IDE Intelligente Programmiersoftware Trae Chinesische Version downloadDer DeepSeek-R1 und Doubao-pro sind unbegrenzt verfügbar!

Allgemeine Einführung

Abogen ist ein Open-Source-Tool zur schnellen Konvertierung von ePub-, PDF- oder reinen Textdateien in hochwertiges Audio. Es verwendet das Kokoro-82M-Modell, um eine natürliche, flüssige Sprache zu erzeugen, und unterstützt die gleichzeitige Erzeugung von Untertiteln, wodurch es sich für Hörbücher, Videosynchronisationen oder Lernhilfen eignet. Benutzer können mehrere Sprachen sowie männliche und weibliche Stimmen auswählen, die Granularität der Untertitel anpassen und sogar verschiedene Sprachmodelle mischen, um einzigartige Soundeffekte zu erzeugen. abogen unterstützt Audioformate wie WAV, FLAC, MP3 und M4B, ist einfach zu bedienen und kompatibel mit Windows, Linux und macOS.

Abogen: ein Werkzeug zur Konvertierung verschiedener Textformate in Hörbücher-1

Funktionsliste

Unterstützt die Eingabe von ePub-, PDF- und TXT-Dateien und die automatische Textextraktion.
Erzeugung von natürlicher Sprache in hoher Qualität mit dem Kokoro-82M-Modell.
Es stehen mehrere Sprachen sowie männliche und weibliche Sprachoptionen zur Verfügung, z. B. amerikanisches Englisch, britisches Englisch und mehr.
Unterstützt die Erstellung von Untertiteln mit Segmentierung nach Satz, Wort oder benutzerdefinierter Granularität.
Ermöglicht das Mischen verschiedener Sprachmodelle, um personalisierte Stimmen zu erzeugen.
Zu den ausgegebenen Audioformaten gehören WAV, FLAC, MP3 und M4B (Kapitel werden unterstützt).
Bietet einen integrierten Texteditor für die einfache direkte Texteingabe oder -änderung.
Unterstützt die Docker-Bereitstellung zur Vereinfachung von Installation und Betrieb.
Wählen Sie, wo die Ausgabedatei gespeichert werden soll, z. B. auf dem Desktop oder in einem benutzerdefinierten Ordner.

Hilfe verwenden

Einbauverfahren

Die Installation von Abogen erfordert eine Reihe von Abhängigkeiten, darunter die Python-Umgebung und espeak-ng. Hier sind die detaillierten Schritte:

1. espeak-ng installieren

Besuchen Sie die Seite mit der neuesten Version von espeak-ng, um eine Kopie für Ihr Betriebssystem herunterzuladen .msi Datei (Windows) oder über den Paketmanager (Linux/macOS) installieren.
Windows-Benutzer: Führen Sie das heruntergeladene .msi Datei und folgen Sie den Anweisungen, um die Installation abzuschließen.
Linux-Benutzer: Befehle ausführen sudo apt-get install espeak-ng(Ubuntu/Debian) oder sudo yum install espeak-ng(CentOS).
macOS-Benutzer: mit Homebrew ausführen brew install espeak-ng.

2. die Installation von Python und PyTorch

Stellen Sie sicher, dass Python 3.8 oder höher auf Ihrem System installiert ist.

Installieren Sie PyTorch (NVIDIA-GPUs werden für die GPU-Beschleunigung empfohlen):

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

Wenn Sie keinen NVIDIA-Grafikprozessor haben, führen Sie den folgenden Befehl aus, um die CPU-Version zu installieren:
```
pip install torch torchvision torchaudio
```

3. die Installation von Abogen

Führen Sie den folgenden Befehl aus, um Abogen zu installieren:
```
pip install abogen
```
Nachdem die Installation abgeschlossen ist, führen Sie abogen wird die grafische Benutzeroberfläche (GUI) gestartet.

4. die Verwendung von Docker (optional)

Wenn Sie Abogen über Docker ausführen möchten, können Sie die Verwaltung von Abhängigkeiten vereinfachen:
- Stellen Sie sicher, dass Docker installiert ist.
- Klonen des Abogen-Repositorys:
```
git clone https://github.com/denizsafak/abogen.git
cd abogen
```
- Erstellen Sie das Docker-Image:
```
docker build --progress plain -t abogen .
```
- Starten Sie den Docker-Container:
  - Fenster:
```
docker run --name abogen -v %CD%:/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
```
  - Linux:
```
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
```
  - macOS:
```
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 abogen
```
- Besuchen Sie Abogen:
  - Zugang über Browser http://localhost:5800.
  - oder verbinden Sie sich mit einem VNC-Client localhost:5900.

Hauptfunktionen

1. die Umwandlung von Text in Audio

Nach dem Start von Abogen öffnet sich die grafische Benutzeroberfläche.
Klicken Sie auf die Schaltfläche "Datei auswählen", um eine ePub-, PDF- oder TXT-Datei hochzuladen, oder verwenden Sie den integrierten Texteditor, um Text einzugeben.
Sprache und Stimme auswählen (z. B. a_m Zeigt eine amerikanische englische Männerstimme an.b_f (Zeigt eine britisch-englische Frauenstimme an).
Konfigurieren Sie die Optionen für den Untertitel: Wählen Sie "Satz", "Satz + Komma" oder Aufteilung nach Anzahl der Wörter (z. B. 1 Wort, 2 Wörter).
Klicken Sie auf die Schaltfläche Generieren und warten Sie, bis die Verarbeitung abgeschlossen ist. Die Verarbeitungszeit hängt von der Dateigröße und der Hardwareleistung ab (z. B. dauert die Verarbeitung von 3000 Zeichen Text auf der RTX 2060 etwa 11 Sekunden).

2. maßgeschneiderte Sprache

Im Stimmenmixer können Sie die Proportionen der verschiedenen Stimmenmodelle anpassen, um einzigartige Klangeffekte zu erzeugen.
Speichern Sie die Mischkonfiguration als "Sprachprofil", um sie leicht wiederverwenden zu können.
Testen Sie den Stimmeffekt: Klicken Sie auf die Schaltfläche "Vorschau", um sich den erzeugten Soundclip anzuhören.

3. die Ausgabeeinstellungen

Wählen Sie das Audioformat: WAV (verlustfrei), FLAC (komprimiert verlustfrei), MP3 (universell) oder M4B (Hörbuchformat mit Kapitelunterstützung).
Festlegen des Speicherorts: Wählen Sie "Auf dem Desktop speichern", "Neben der Eingabedatei speichern" oder einen eigenen Ordner.
Wenn Untertitel erforderlich sind, markieren Sie "Untertitel generieren" und wählen Sie das Ausgabeformat (z. B. SRT).

4. der Kommandozeilenmodus

Bei Problemen mit der grafischen Oberfläche kann das Programm auch über die Befehlszeile ausgeführt werden:
```
abogen --cli
```
Im Befehlszeilenmodus werden detaillierte Fehlermeldungen zur einfachen Fehlerbehebung angezeigt.

caveat

Vergewissern Sie sich, dass die Eingabedatei korrekt formatiert ist. Bei PDF-Dateien kann die Textextraktion aufgrund des komplexen Layouts unvollständig sein.
Die GPU-Beschleunigung wird für eine schnellere Verarbeitung empfohlen, die CPU-Verarbeitung kann langsamer sein.
Wenn Sie auf Probleme stoßen, schauen Sie auf der Issues-Seite auf GitHub nach oder reichen Sie einen neuen Issue ein, um Hilfe zu erhalten.

Anwendungsszenario

Produktion von Hörbüchern
Benutzer können Romane, Lehrbücher oder Dokumente in Hörbücher umwandeln, um sie während des Pendelns oder beim Sport zu hören. Die M4B-Ausgabe von Abogen unterstützt die Kapitelunterteilung für längere Inhalte.
Video-Synchronisation
Inhaltsersteller können natürliche Voice-Overs für YouTube-, TikTok- oder Instagram-Videos mit synchronisierten Untertiteln erstellen, um die Professionalität ihrer Videos zu erhöhen.
Lernhilfe
Studierende können PDF-Lehrbücher oder Handouts in Audiodateien umwandeln und sie mit Untertiteln kombinieren, um das Hören und Lernen zu erleichtern, was für Sprachschüler oder Sehbehinderte geeignet ist.
Podcast-Produktion
Podcast-Produzenten können Skripte in Audiodateien umwandeln, schnell Vorsprechclips erstellen und den Sprachstil an das Thema der Sendung anpassen.

QA

Welche Dateiformate werden von Abogen unterstützt?
Abogen unterstützt ePub-, PDF- und TXT-Dateien als Eingabe und gibt Audioformate wie WAV, FLAC, MP3 und M4B mit Untertiteln im SRT-Format aus.
Wie lässt sich die Genauigkeit der Textextraktion verbessern?
Bei PDF-Dateien empfiehlt es sich, ein Dokument mit einfachem Layout zu verwenden. Wenn die Extraktion nicht genau ist, können Sie die PDF-Datei vor der Eingabe in eine TXT-Datei konvertieren.
Brauche ich einen Grafikprozessor, um Abogen auszuführen?
Nicht erforderlich, aber die Verwendung eines NVIDIA-Grafikprozessors kann die Verarbeitung erheblich beschleunigen. Eine CPU funktioniert auch, aber mit geringerer Geschwindigkeit.
Wie kann ich Code beitragen oder ein Problem melden?
Besuchen Sie das GitHub-Repository, reichen Sie einen Pull Request ein, um Code beizusteuern, oder melden Sie ein Problem auf der Issues-Seite mit detaillierten Fehlerinformationen.

Abogen: ein Tool zur Konvertierung verschiedener Textformate in Hörbücher

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Einbauverfahren

1. espeak-ng installieren

2. die Installation von Python und PyTorch

3. die Installation von Abogen

4. die Verwendung von Docker (optional)

Hauptfunktionen

1. die Umwandlung von Text in Audio

2. maßgeschneiderte Sprache

3. die Ausgabeeinstellungen

4. der Kommandozeilenmodus

caveat

Anwendungsszenario

QA

Ähnliche Artikel

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

FLUX.1 Bildgenerator (unterstützt chinesische Eingaben)

Aktuelle AI-Hotspots

Empfehlungen für AI-Tools

AI Tools Klassifizierung