让文字开口说话：眼花缭乱的 TTS 工具，到底该怎么选？

62.5K 00

今天我们来聊聊一个越来越火的技术——文本转语音，也就是 TTS (Text-to-Speech)。简单说，就是让电脑把文字读出来，而且要读得像人话。这几年，从短视频配音、有声书制作到智能客服、虚拟助手，TTS 的身影无处不在。市面上的工具也层出不穷，有免费的，有收费的，有开源的，也有闭源的；有简单易用的在线服务，也有需要一定技术门槛的开发库。面对这么多选择，普通用户或者开发者该如何挑选适合自己的那一款呢？

别急，今天咱们就来梳理一下当前市面上比较热门和有代表性的 TTS 工具，看看它们各自有什么能耐，适合用在什么地方。

简单易用，开箱即用型

对于不想折腾代码，只想快速生成语音的用户来说，一些在线服务和封装好的工具是首选。

TTS Maker: 这是一个免费（可商用）的在线工具。优点是支持的语言非常多，超过 50 种，甚至还包含像东北话、粤语这样的方言，音色选择也比较丰富。对于做短视频、播客或者需要多语言内容的创作者来说，是个不错的起点。不过，它背后的具体技术模型没有明确说明，可能在声音的自然度和可控性上不如更专业的工具。
Edge-TTS: 这其实不是一个独立的服务，而是有人把微软 Edge 浏览器内置的 TTS 功能封装成了 Python 库。好处是调用简单，而且免费，语音质量也相当不错，毕竟背后是微软的技术。支持的语言和音色也挺多（40+语言，300+音色）。缺点是依赖微软的接口，稳定性和长期可用性可能存在变数，定制化能力也有限。适合轻量级应用或者个人项目快速集成。

商业巨头与专业级服务

如果你需要顶级的语音质量、高度的稳定性和丰富的定制选项，那么商业服务通常是更好的选择，当然，这通常也意味着需要付费。

微软 Azure TTS: 这是业界公认的标杆之一。基于神经网络技术，合成的语音非常自然流畅，几乎可以乱真。它提供了丰富的情感控制选项，还能通过 SSML (Speech Synthesis Markup Language) 这种标记语言来精细调整发音、语速、停顿等。支持 140 多种语言和 400 多种音色，是企业级应用、高质量有声书、专业虚拟助手的首选。当然，价格也是企业级的。
Seed-TTS: 这是字节跳动研发的技术，目前看似乎还没有完全开源其核心模型。从技术报告来看，它的特点在于语音内容的编辑能力和对说话速度的精细控制，听起来很适合有声书后期制作或者需要精修语音内容的场景。目前主要面向中文，具体的产品形态和获取方式还需要关注官方后续发布。
Voice Engine (来自 OpenAI?): 原文提到这个名字，但需要注意的是，OpenAI 官方似乎并未正式发布名为 Voice Engine 的公开服务。市面上可能有基于 OpenAI 技术（如 GPT）的第三方实现，或者是指其内部研究项目。OpenAI 在语音技术上实力雄厚，其语音克隆和生成能力备受关注，但目前还没有一个明确叫做 Voice Engine 的公开产品供大家直接使用，使用时需要甄别信息来源。

开源社区的力量：自由与定制

对于开发者和研究人员来说，开源 TTS 工具提供了更大的自由度和定制空间。你可以深入了解模型原理，根据自己的需求进行修改和训练。

PaddleSpeech: 来自百度飞桨的开源项目，对中文支持特别优化。它的一个亮点是支持流式合成，这意味着可以边生成边播放，延迟很低，非常适合需要实时响应的场景，比如实时语音播报、智能客服。它基于 FastSpeech2 和 HiFiGAN 等主流模型。
Coqui TTS: 这是一个非常活跃的开源项目，前身是 Mozilla TTS。它的最大优势是拥有庞大的预训练模型库，支持超过 1100 种语言（基于其 XTTS 模型），这对于需要处理多种语言，尤其是低资源语言的应用来说非常有价值。社区活跃，文档也比较完善。
Bark: 由 Suno AI (以音乐生成闻名) 开发，比较特别的是它不仅能生成语音，还能生成非语音的声音，比如音乐片段、背景噪音、笑声、哭声等，并且支持多种语言混合。这使得它在创意音频项目、游戏音效设计等领域有独特的应用潜力。它基于 Transformer 架构。
TensorFlowTTS: 顾名思义，这是一个基于 TensorFlow 的 TTS 工具集。它支持多种流行的 TTS 模型，如 Tacotron 2、FastSpeech2 等，配合 MelGAN 等声码器使用。对于熟悉 TensorFlow 生态的开发者和进行学术研究的人员来说，这是一个很好的选择，可以方便地进行模型实验和定制开发。
Fish Speech: 这个项目专注于多语言混合生成，比如在一句话里自然地切换中、英、日等语言。它支持 VITS2、Bert-VITS2 等较新的模型架构。对于制作多语言播客、影视配音等场景很有吸引力。
ChatTTS: 专门为对话场景优化的开源模型。它在中英文对话方面表现出色，能够生成带有自然情感特征（如笑声、犹豫、语气停顿）的语音，这让合成的对话听起来更真实、更有交互感。据称用了 4 万小时的数据进行预训练。

声音克隆：拥有专属声音

语音克隆技术允许你用少量（有时甚至只需几秒或一分钟）的某人语音样本，就能合成出用这个人的声音说话的语音。这项技术很有趣，但也存在伦理风险，使用时务必遵守法律法规和道德规范。

GPT-SoVITS: 这是一个结合了 SoVITS (一个流行的歌声合成和语音转换模型) 和 GPT 技术的开源项目。它声称用 1 分钟的语音就能实现不错的克隆效果，并且对中文方言也有一定的支持。是目前社区中非常火热的语音克隆方案之一。
OpenVoice: 由 MyShell.ai 开源，不仅能克隆声音，还能对克隆后的声音进行精细控制，比如调整情感、口音、语调。这使得它在广告配音、多语言虚拟助手等需要个性化和表现力的场景中很有用。
Real-Time-Voice-Cloning: 这个项目提供了一个图形用户界面 (GUI)，让非技术用户也能比较方便地进行语音克隆实验。它基于 SV2TTS 模型，虽然可能效果不如最新的模型，但胜在易用性。
F5-TTS: 这个项目引入了扩散变换器 (DiT) 技术，用于实现零样本声音克隆 (Zero-Shot Voice Cloning)，意味着可能不需要目标说话人的语音数据就能进行一定程度的声音模仿或转换，并支持情感控制。这是一个较新的研究方向。
Mocking Bird: 也是一个较早的开源语音克隆项目，曾引起广泛关注。虽然可能在技术上已被更新的方案超越，但对于了解语音克隆技术的发展仍有参考价值。

其他值得关注的工具

还有一些各有特色的工具：

VoiceVox: 主要面向日语，特别擅长生成二次元、动漫风格的音色。在日本的虚拟主播 (VTuber) 和同人创作圈非常流行。
EmotiVoice: 网易有道开源，主打情感语音合成，可以生成带有喜怒哀乐等多种情绪的语音。
MetaVoice-1B: 一个参数量达到 1B (十亿) 级别的开源模型，通常意味着更强的表达能力和更高的语音质量，但也需要更多的计算资源。
So-VITS-SVC: 主要用于歌声转换 (Singing Voice Conversion)，可以将一首歌用另一个人的音色来演唱，是 SoVITS 技术的一个重要分支。

如何选择？

看了这么多，你可能更晕了。别担心，这里给个简单的选择思路：

普通用户，快速出声: 试试 TTS Maker 或找找基于 Edge-TTS 的在线工具。
开发者，要集成到应用:
- 追求高质量和稳定，预算充足: Microsoft Azure TTS。
- 需要中文优化和低延迟: PaddleSpeech。
- 需要最广泛的语言支持: Coqui TTS。
- 想玩声音+音效创意: Bark。
- 熟悉 TensorFlow 生态: TensorFlowTTS。
- 需要处理多语言混合: Fish Speech。
- 专注对话场景: ChatTTS。
想玩语音克隆:
- 追求效果和社区热度: GPT-SoVITS 或 OpenVoice。
- 需要图形界面，简单尝试: Real-Time-Voice-Cloning。
- 关注前沿技术: F5-TTS。
特定需求:
- 日语二次元声音: VoiceVox。
- 丰富的情感表达: EmotiVoice。