综合介绍
OpenVoice 是一个多功能的即时语音克隆方法,仅需使用参考说话者的短音频片段,即可复制其声音并生成多语言的语音。除了复制音色外,OpenVoice 还允许精细控制语音风格,包括情感、口音、节奏、停顿和语调。
OpenVoice相关的文本转语音项目:https://github.com/myshell-ai/MeloTTS
该项目可使用数据集训练自己的语音,但缺少训练界面。和瞬时克隆语音并不相同,更侧重使用稳定训练的模型进行文本转语音。
功能列表
准确的音色克隆:OpenVoice能够准确地复制参考音色,并在多种语言和口音中生成语音。
灵活的语音风格控制:OpenVoice允许对语音风格进行精细控制,包括情感、口音、节奏、停顿和语调。
零-shot跨语言语音克隆:生成的语音无需与参考语音的语言相同,也无需在大规模多语言训练数据集中呈现。
特色:
1. 准确的音色克隆。 OpenVoice 可以准确克隆参考音色并生成多种语言和口音的语音。
2.灵活的音色控制。 OpenVoice 可以对语音风格(例如情感和口音)以及其他风格参数(包括节奏、停顿和语调)进行精细控制。
3.零样本跨语言语音克隆。 生成语音的语言和参考语音的语言都不需要出现在大规模说话人多语言训练数据集中。
使用帮助
请参阅使用说明以获取详细指导。
常见问题请查看QA,我们将定期更新问题和答案列表。
在 MyShell 中应用:直接使用即时语音复制和语音合成(TTS)服务。
极简示例:快捷体验OpenVoice,无需追求高品质。
Linux 安装:仅供研究者和开发者参考。
google colab中快速试用
%cd /content!git clone -b dev https://github.com/camenduru/OpenVoice%cd /content/OpenVoice!apt -y install -qq aria2!aria2c --console-log-level=error -c -x 16 -s 16 -k 1M https://huggingface.co/camenduru/OpenVoice/resolve/main/checkpoints_1226.zip -d /content -o checkpoints_1226.zip!unzip /content/checkpoints_1226.zip!pip install -q gradio==3.50.2 langid faster-whisper whisper-timestamped unidecode eng-to-ipa pypinyin cn2an!python openvoice_app.py --share
在 MyShell 中应用
对于大多数用户,最便利的方式是直接在 MyShell 中体验免费的 TTS 和实时语音复制服务。
TTS 服务
点击此处并依照下列步骤操作:
语音克隆
点击此处并依照下列步骤操作:
极简示例
对于想要快速体验 OpenVoice,对质量和稳定性没有太高要求的用户,可以点击下面的任一链接:
Lepton AI:https://www.lepton.ai/playground/openvoice
MySHell:https://app.myshell.ai/bot/z6Bvua/1702636181
HuggingFace:https://huggingface.co/spaces/myshell-ai/OpenVoice
Linux 安装
这部分主要为熟练使用 Linux、Python 和 PyTorch 的开发者和研究者准备。克隆这个仓库,然后执行以下操作:
conda create -n openvoice python=3.9
conda activate openvoice
git clone git@github.com:myshell-ai/OpenVoice.git
cd OpenVoice
pip install -e .
从[这里]下载检查点,然后解压到 checkpoints 文件夹
1. 灵活的语音风格控制:请参阅[demo_part1.ipynb]了解OpenVoice如何控制克隆语音的风格。
2. 跨语言语音克隆:请参阅 [demo_part2.ipynb]了解在 MSML 训练集中可见或未见的语种的演示。
3. Gradio 演示:在此处,我们提供了一个最基本的本地 gradio 模拟。如果在 gradio 演示中遇到问题,我们强烈建议您查看 demo_part1.ipynb
、demo_part2.ipynb
以及 [QnA]。使用 python -m openvoice_app --share
启动本地 gradio 演示。
3. 高级用户指南:基础说话模型可被用户偏爱的任何模型(任何语言,任何风格)替代。如演示中所示,使用 se_extractor.get_se
方法为新的基础说话人提取音色嵌入。
4. 生成自然语音的建议:有许多单一或多说话者的 TTS 方法可以生成自然语音,并且随时可用。只要简单地将基础说话人模型替换为您偏好的模型,就可以将语音的自然性提升到您期望的水平。
Windows 安装 (VS Code)
如果你想在 Windows 上安装和使用 OpenVoice,请使用[此指南]。