本文于 2024-12-09 19:18 更新,部分内容具有时效性,如有失效,请留言
综合介绍
MockingBird 是一个开源项目,旨在通过 AI 技术实现快速语音克隆和文本转语音。用户只需提供 5 秒的语音样本,即可生成任意语音内容。该项目支持多种中文数据集,并在 Windows 和 Linux 系统上运行良好。MockingBird 使用 PyTorch 框架,提供了简单易用的工具和详细的安装指南,适合开发者和研究人员使用。
功能列表
- 语音克隆:通过 5 秒语音样本生成任意语音内容
- 文本转语音:输入文本生成对应语音
- 多语言支持:支持普通话和多种中文数据集
- 跨平台运行:兼容 Windows 和 Linux 系统
- 实时处理:提供实时语音生成功能
- 开源代码:代码公开,便于二次开发和研究
使用帮助
安装流程
- 环境准备:
- 安装 Python 3.7 或更高版本。
- 安装 PyTorch(推荐使用 1.9.0 版本)。
- 安装 ffmpeg。
- 下载项目:
- 打开 MockingBird 项目地址,点击绿色的 “Code” 按钮,选择 “Download ZIP” 下载项目文件。
- 或者使用 git 命令下载:
git clone https://github.com/babysor/MockingBird.git
- 安装依赖:
- 进入项目目录,运行
pip install -r requirements.txt
安装必要的 Python 包。 - 如果需要,可以使用 conda 创建虚拟环境并安装依赖:
conda env create -n env_name -f env.yml
,然后激活环境:conda activate env_name
。
- 进入项目目录,运行
- 语音转语音模型
为减小体积,主文件内不含声音转声音模型,如果需要请单独下载,点击去下载模型(3G)
使用流程
- 运行工具箱:
- 运行
demo_toolbox.py
,打开工具箱界面。 - 在工具箱中选择语音样本文件,输入文本内容,点击生成按钮,即可生成对应的语音文件。
- 运行
- 训练模型:
- 如果需要训练自己的模型,可以按照项目中的训练教程进行操作。
- 下载并准备好训练数据集,运行
train.py
开始训练。 - 训练模型中文帮助文档
- 远程调用:
- MockingBird 提供了 Web 服务器功能,可以将生成的语音结果通过远程调用的方式使用。
- 配置并启动 Web 服务器,使用 API 接口进行调用。
常见问题
- 安装失败:确保 Python 版本符合要求,安装 PyTorch 时注意版本兼容性。
- 语音质量:语音样本质量和训练数据集的丰富度会影响生成语音的效果,建议使用高质量的语音样本和多样化的数据集进行训练。