综合介绍
Clone Voice 是一个开源的声音克隆工具,提供了一个基于Web的界面,允许用户利用任何声音或个人声音录制来克隆声音。该工具操作简单,即使没有NVIDIA GPU,也可以通过预编译的应用程序在本地运行。它支持多种语言,包括中文、英文、日文、韩文、法文、德文和意大利文等16种语言。用户可以通过麦克风录制声音或上传音频文件进行转换。
功能列表
- 文字转声音:输入文字或导入字幕文件,生成指定音色的语音。
- 声音转声音:上传音频文件或在线录制声音,转换为指定音色。
- 多语言支持:支持16种语言的语音合成和转换。
- 简单易用:无需NVIDIA GPU,下载预编译版本即可使用。
- 在线录制:通过麦克风录制声音,进行实时转换。
- 模型下载:提供多种模型下载选项,满足不同需求。
使用帮助
安装流程
- 下载window预编译版使用方法(其他系统可源码部署)
- 访问 Releases 页面 下载最新的预编译版本和模型文件。
- 下载后解压到指定目录,例如
E:/clone-voice
。
- 运行应用程序:
- 双击
app.exe
,等待自动打开Web界面。 - 请仔细阅读CMD窗口的提示信息,如有错误会在此显示。
- 双击
- 模型配置:
- 将下载的模型文件解压到软件目录下的
tts
文件夹内。
- 将下载的模型文件解压到软件目录下的
使用流程
- 文字转声音:
- 选择【文字->声音】按钮,在文本框中输入文字或点击导入字幕文件。
- 选择要使用的音色,点击“立即开始”按钮,生成语音文件。
- 声音转声音:
- 选择【声音->声音】按钮,上传要转换的音频文件(支持mp3/wav/flac格式)。
- 从“要使用的声音文件”下拉框中选择要克隆的音色,或点击“本地上传”按钮选择已录制好的声音文件。
- 点击“立即开始”按钮,生成转换后的音频文件。
- 在线录制:
- 点击“开始录制”按钮,通过麦克风录制5-20秒的声音。
- 录制完成后点击“使用”按钮,进行声音转换。
源码部署(适用于Linux、Mac、Windows)
- 环境配置:
- 安装Python 3.9或以上版本,并安装git-cmd工具。
- 创建虚拟环境并激活:
python -m venv venv
,source venv/bin/activate
(Linux/Mac)或venv\Scripts\activate
(Windows)。
- 下载源码:
- 在目标目录下打开CMD窗口,执行
git clone https://github.com/jianchang512/clone-voice.git
。
- 在目标目录下打开CMD窗口,执行
- 安装依赖:
- 执行
pip install -r requirements.txt
安装所需依赖。 - 如果需要CUDA加速,卸载现有的torch并重新安装支持CUDA的版本:
pip uninstall -y torch
,pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu121
。
- 执行
- 运行应用程序:
- 执行
python app.py
启动Web界面。
- 执行