はじめに
Abogenは、ePub、PDFまたはプレーンテキストファイルを高品質な音声に素早く変換するために設計されたオープンソースツールです。Kokoro-82Mモデルを使用して自然で滑らかな音声を生成し、同時字幕生成をサポートしているため、オーディオブック、ビデオ吹き替え、学習教材に適しています。ユーザーは、複数の言語や男性と女性の声を選択し、字幕の粒度を調整し、さらにユニークなサウンドエフェクトを作成するために、異なる音声モデルを混在させることができます。Abogenは、WAV、FLAC、MP3、M4Bなどのオーディオフォーマットをサポートしており、使いやすく、Windows、Linux、およびmacOSと互換性があります。
機能一覧
- ePub、PDF、TXTファイルの入力と自動テキスト抽出をサポートします。
- Kokoro-82Mモデルによる高品質な自然音声の生成。
- アメリカ英語、イギリス英語など、複数の言語と男女の音声オプションが用意されている。
- センテンス、単語、またはカスタムの粒度によるセグメンテーションで字幕生成をサポート。
- 異なる音声モデルをミックスして、パーソナライズされた音声を作成できる。
- 出力オーディオフォーマットはWAV、FLAC、MP3、M4B(チャプター対応)。
- 簡単に直接テキストを入力または変更するための組み込みのテキストエディタを提供します。
- Dockerデプロイをサポートし、インストールと運用を簡素化。
- デスクトップやカスタムフォルダなど、出力ファイルの保存先を選択します。
ヘルプの使用
設置プロセス
Abogenのインストールには、Python環境とespeak-ngを含む多くの依存関係が必要です。 以下に詳細な手順を示します:
1.espeak-ngをインストールする
- espeak-ngの最新リリースのページから、お使いのオペレーティング・システム用のコピーをダウンロードしてください。
.msi
ファイル(Windows)またはパッケージ・マネージャー(Linux/macOS)経由でインストールする。 - Windowsユーザー:ダウンロードした
.msi
ファイルを開き、プロンプトに従ってインストールを完了します。 - Linuxユーザー:コマンドの実行
sudo apt-get install espeak-ng
(Ubuntu/Debian)またはsudo yum install espeak-ng
(CentOS)。 - macOSユーザー:Homebrewで実行
brew install espeak-ng
.
2.PythonとPyTorchのインストール
- Python 3.8以降がシステムにインストールされていることを確認してください。
- PyTorchをインストールする(GPUアクセラレーションにはNVIDIA GPUを推奨):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
- NVIDIA GPUをお持ちでない場合は、以下のコマンドを実行してCPUバージョンをインストールしてください:
pip install torch torchvision torchaudio
3.アボジェンのインストール
- 以下のコマンドを実行して、Abogenをインストールしてください:
pip install abogen
- インストールが完了したら
abogen
コマンドはグラフィカル・インターフェース(GUI)を起動します。
4.Dockerの使用(オプション)
- Dockerを使用してAbogenを実行したい場合は、依存関係の管理を簡素化することができます:
- Dockerがインストールされていることを確認する。
- Abogenリポジトリのクローニング:
git clone https://github.com/denizsafak/abogen.git cd abogen
- Dockerイメージをビルドする:
docker build --progress plain -t abogen .
- Dockerコンテナを実行する:
- ウィンドウズ
docker run --name abogen -v %CD%:/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
- Linuxだ:
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
- macOS:
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 abogen
- ウィンドウズ
- アボゲンをご覧ください:
- ブラウザからのアクセス
http://localhost:5800
. - またはVNCクライアントを使用して接続する
localhost:5900
.
- ブラウザからのアクセス
主な機能
1.テキストを音声に変換する
- Abogenを起動すると、グラフィカル・インターフェースが開きます。
- ファイルを選択」ボタンをクリックしてePub、PDF、TXTファイルをアップロードするか、内蔵のテキストエディタを使用してテキストを入力します。
- 言語と音声を選択する(例
a_m
アメリカ英語の男性の声を示す。b_f
(イギリス英語の女性の声を示す)。 - 字幕オプションの設定:「センテンス」、「センテンス+カンマ」、または単語数による分割(1単語、2単語など)を選択します。
- Generateボタンをクリックし、処理が完了するまで待ちます。処理時間はファイルサイズとハードウェアの性能に依存します(例えば、3000文字のテキストはRTX 2060で約11秒かかります)。
2.カスタマイズされたスピーチ
- ボイスミキサーでは、異なるボイスモデルの比率を調整し、ユニークなサウンドエフェクトを作成できます。
- ミックス設定を "Voice Profile "として保存し、簡単に再利用できるようにします。
- ボイスエフェクトのテスト: "プレビュー "ボタンをクリックして、生成されたサウンドクリップを聴いてください。
3.出力設定
- オーディオフォーマットを選択:WAV(ロスレス)、FLAC(圧縮ロスレス)、MP3(ユニバーサル)、M4B(チャプターをサポートするオーディオブックフォーマット)。
- 保存場所の設定:「デスクトップに保存」、「入力ファイルの隣に保存」、またはカスタムフォルダを選択します。
- 字幕が必要な場合は、「Generate subtitles(字幕を生成)」にチェックを入れ、出力フォーマット(SRTなど)を選択してください。
4.コマンドラインモード
- グラフィカル・インターフェースに問題がある場合は、コマンドラインから実行することもできる:
abogen --cli
- コマンドラインモードでは、トラブルシューティングを容易にするための詳細なエラーメッセージが表示されます。
ほら
- 入力ファイルが正しくフォーマットされていることを確認してください。PDFファイルは複雑なレイアウトのため、テキスト抽出が不完全な場合があります。
- GPUアクセラレーションによる高速処理をお勧めします。
- 問題が発生した場合は、GitHubのIssuesページをチェックするか、新しいIssueを投稿して助けを求めてください。
アプリケーションシナリオ
- オーディオブックの制作
AbogenのM4B出力は、長いコンテンツのためのチャプタリングをサポートしています。 - ビデオダビング
コンテンツ制作者は、YouTube、TikTok、Instagramの動画に自然なボイスオーバーを作成し、字幕を同期させることで、動画のプロフェッショナリズムを高めることができます。 - 学習支援
PDFの教科書やプリントを音声に変換し、字幕と組み合わせることで、語学学習者や視覚障害者のリスニングや学習をサポートします。 - ポッドキャスト制作
ポッドキャスト制作者は、スクリプトを音声に変換したり、オーディションクリップを素早く生成したり、番組のテーマに合わせてボイススタイルを調整したりすることができます。
品質保証
- Abogenはどのようなファイル形式をサポートしていますか?
Abogenは、入力としてePub、PDF、およびTXTファイルをサポートし、WAV、FLAC、MP3、およびM4B、SRT形式の字幕を含むオーディオフォーマットを出力します。 - テキスト抽出の精度を高めるには?
PDFファイルの場合は、シンプルなレイアウトのドキュメントを使用することをお勧めします。抽出が正確でない場合は、入力前にPDFをTXTファイルに変換することができます。 - Abogenを動かすにはGPUが必要ですか?
必須ではありませんが、NVIDIA GPUを使用すると、処理を大幅に高速化できます。CPUでも動作しますが、速度は遅くなります。 - コードを投稿したり、問題を報告するにはどうすればよいですか?
GitHubリポジトリにアクセスし、Pull Requestを提出してコードを提供するか、詳細なエラー情報を含むIssuesページで問題を報告してください。