はじめに
openai-fmはGitHubでホストされているオープンソースプロジェクトで、OpenAIのText-to-Speech(TTS)APIの機能をデモすることに特化しています。このプロジェクトにより、開発者はOpenAIの音声生成機能をインタラクティブなウェブアプリケーションを通して視覚的に体験することができます。NextJSフレームワークを使用して開発され、TailwindCSSとShadcnUIを組み合わせることで、クリーンでモダンなインターフェースを実現しています。ユーザーは、テキストを入力し、異なる音声と感情的なスタイルを選択して、高品質の音声出力を生成することができます。openai-fmは、開発者がOpenAIの音声APIを素早く理解し、テストするのに適しており、特に音声機能を必要とするアプリケーションの開発シナリオに適しています。

デモアドレス:https://www.openai.fm/
機能一覧
- テキスト音声変換:入力テキストを自然で滑らかな音声に変換します。
- 複数の音声オプション:さまざまなシナリオのニーズを満たすために、複数の音声オプションを提供します。
- エモーショナルスタイルコントロール:フレンドリー、シリアスなど、感情的な声のトーンの調整をサポートします。
- リアルタイム・インタラクティブ・プレゼンテーション:ウェブ・インターフェースを介してリアルタイムでスピーチを生成し、再生する。
- データベース共有機能:PostgreSQLデータベースへの接続をサポートし、生成された音声を保存・共有できます。
- オープンソースのサポート:完全なソースコードが提供されるため、開発者はカスタマイズして機能を拡張することができます。
ヘルプの使用
設置プロセス
openai-fmを使うには、まずプロジェクトをクローンし、環境を設定する必要があります。詳しい手順は以下の通りです:
- APIキーの取得
OpenAIのウェブサイトにアクセスし、アカウントに登録またはログインします。アカウントのダッシュボードで、API Key Management ページに移動し、"Create a new key" をクリックして、キーを生成して保存します。OPENAI_API_KEY
このキーはOpenAIの音声APIを呼び出すために使用されます。このキーは、OpenAIのスピーチAPIを呼び出すために使用されます。 注意:キーは、情報漏洩を避けるために秘密にしておく必要があります。 - クローン倉庫
ターミナルを開き、以下のコマンドを実行して openai-fm リポジトリをクローンする:git clone https://github.com/openai/openai-fm.git
プロジェクト・カタログにアクセスする:
cd openai-fm
- 環境変数の設定
次の2つの方法で設定できます。OPENAI_API_KEY
::- グローバル設定システム環境変数に以下を追加する。
OPENAI_API_KEY
.- Linux/MacOSの例:
export OPENAI_API_KEY=<你的API密钥>
- Windowsユーザーは、システム設定で環境変数を追加できる。
- Linux/MacOSの例:
- プロジェクト内での設定を作成する。
.env
ドキュメント、リファレンス.env.example
以下を追加する:OPENAI_API_KEY=<你的API密钥>
- グローバル設定システム環境変数に以下を追加する。
- 依存関係のインストール
このプロジェクトでは、依存関係を管理するためにNode.jsとnpmを使用しています。Node.jsがインストールされていることを確認してください(推奨バージョン16以上)。プロジェクトのルート・ディレクトリから実行してください:npm install
これにより、NextJS、TailwindCSS、ShadcnUIなど、必要な依存関係がインストールされます。
- (オプション)設定データベース
共有機能を使用する必要がある場合は、PostgreSQLデータベースに接続する必要があります。PostgreSQLデータベースの一覧は.env
ファイルを参照してデータベース接続情報を追加してください。.env.example
::POSTGRES_URL="postgresql://用户名:密码@主机:端口/数据库名"
PostgreSQLサービスが起動しており、適切なデータベースが作成されていることを確認する。共有機能を使用しない場合は、この手順を省略できます。
- ランニング・プロジェクト
インストールが完了したら、以下のコマンドを実行して開発サーバーを起動する:npm run dev
ブラウザを開き、次のサイトにアクセスする。
http://localhost:3000
openai-fmのインタラクティブなインターフェイスをご覧いただけます。
主な機能
openai-fmの核となるのは、インタラクティブな音声合成デモです。以下はそのプロセスである:
- 入力テキスト
ウェブインターフェースのテキストボックスに音声変換したいテキストを入力します。複数行のテキストをサポートしており、長いダイアログやスクリプトに適しています。例你好!这是一个测试,展示如何将文本转为自然语音。
- 声と感情の選択
インターフェイスには、利用可能な音声オプション(例:男性、女性)と感情スタイル(例:フレンドリー、シリアス)をリストアップしたドロップダウンメニューが用意されています。これらのオプションはdata/voices.json
歌で応えるdata/vibes.json
ファイル構成。選択後、"Generate "ボタンをクリックすると、システムはOpenAI Speech APIを呼び出し、音声を生成します。 - 再生とダウンロード
生成されたオーディオはページ上で自動的に再生されます。デフォルトではWAV形式で保存され、プロジェクトディレクトリのoutput/
フォルダで、ファイル名はopenaifm_
開始とタイムスタンプ。 - シェア機能
PostgreSQLデータベースが設定されている場合、生成された音声をデータベースに保存し、共有リンクを生成することができます。共有 "ボタンをクリックすると、他のユーザーがあなたの音声を見たり再生したりできるアクセス可能なURLが返されます。
開発者のカスタマイズ
openai-fmはオープンソースプロジェクトであり、開発者は必要に応じてコードを変更することができます。例えば
- 新しい声の追加:: 編集部
data/voices.json
新しいボイス・コンフィギュレーションを追加する。 - インターフェイスの調整NextJSコンポーネントを修正する。
pages/index.js
)またはTailwindCSSスタイル。 - 拡張機能新しいAPIコールを追加したり、他のサービスを統合することができます。
コードを貢献するには、リポジトリをフォークしてブランチを作成し、プルリクエストを提出してください。あなたのコードが準拠していることを確認するために、コミットする前にプロジェクトの貢献ガイドラインを読んでください。[](https://github.com/openai/openai-fm)[](https://github.com/fairy-root/ComfyUI-OpenAI-FM)
ほら
- API料金OpenAI Speech APIは、使用量に応じて料金が発生します。OpenAIのダッシュボードでAPIクォータをご確認ください。
- 安全性公開サーバーにデプロイする場合は、次のことを確認してください。
.env
ファイルは、APIキーの漏洩を防ぐために公開されない。 - 地域支援もし問題があれば、GitHubにissueを投稿してください。
アプリケーションシナリオ
- 開発者が音声APIをテスト
開発者はopenai-fmを使用して、OpenAI Speech APIの有効性を迅速にテストし、異なるスピーチと感情スタイルのパフォーマンスを検証し、アプリケーション統合ソリューションを最適化することができます。 - 教育・研修コンテンツ制作
教師またはトレーナーは、コーススクリプトを音声に変換し、オンラインコースや指導ビデオで使用するための自然で滑らかな音声を生成することができます。 - アクセシビリティ・エイド
openai-fmは、視覚障害者がテキスト情報にアクセスするのを助けるために、音声読み上げを生成する。 - クリエイティブなコンテンツ制作
ポッドキャスト制作者やコンテンツ制作者は、openai-fmを使ってパーソナライズされた音声を生成し、オーディションサンプルを素早く作成することができます。
品質保証
- openai-fmは有料ですか?
プロジェクト自体は無料ですが、OpenAI Speech APIを使用するには有効なAPIキーと使用量に応じた料金が必要です。価格の詳細については、OpenAIの公式ウェブサイトをチェックすることをお勧めします。 - 新しい音声オプションを追加する方法を教えてください。
プロジェクト・ディレクトリをdata/voices.json
ファイルに新しい音声設定を追加します。サーバーを再起動すると、新しい音声がドロップダウンメニューに表示されます。 - 共有機能にはデータベースを使用する必要がありますか?
はい、共有機能にはPostgreSQLデータベースのサポートが必要です。データベースを設定しない場合でも、音声の生成と再生は正常に行えます。 - openai-fmをモバイルで使うことはできますか?
openai-fmのウェブインターフェイスはレスポンシブデザインに対応しており、安定したインターネット接続があれば、モバイルブラウザからもアクセスできます。