Chatterbox Turbo - 文本转语音
使用 Chatterbox Turbo 从文本生成富有表现力、听起来自然的声音。快速、开源的 AI,内置水印和零样本语音克隆。
使用 Chatterbox Turbo 从文本生成富有表现力、听起来自然的声音。快速、开源的 AI,内置水印和零样本语音克隆。
Save Your Audios
Login to save, manage and share all your generated audios
Community Audios
Chatterbox Turbo 可以做什么?
零样本语音克隆
仅需 5 秒的参考音频即可克隆任何声音。无需训练。非常适合在项目中创建一致的旁白。
副语言情感
使用基于文本的标签(例如 <laugh>、<sigh>、<cough> 和 <gasp>)添加自然的语音反应。使语音听起来真正像人声。
情感夸张控制
使用单个参数调整语音的表现力,从单调到极富表现力。 适用于任何内容语气。
内置水印
每个音频输出都包含 PerTh 水印,以实现负责任的 AI 部署。 在不影响质量的情况下跟踪 AI 生成的内容。
超快速生成
在 GPU 上比实时快 6 倍。非常适合实时应用程序、语音助手和交互式媒体。
开源且 MIT 许可
第一个不影响速度或质量的开源 TTS。 专为生产而构建,专为开发人员而设计。
如何使用 Chatterbox Turbo
输入您的文本
键入或粘贴要转换为语音的文本。 添加情感标签,例如 <laugh> 或 <sigh> 以获得自然的表达。
上传参考音频(可选)
上传 5 秒的音频来克隆任何声音。 跳过此步骤可使用默认声音。
调整设置
控制夸张程度、温度和创造力参数来微调您的语音输出。
生成并下载
点击生成并在几秒钟内收到您的高质量音频。 下载并在任何地方使用它。
Frequently Asked Questions
零样本语音克隆是如何工作的?
▼
Chatterbox Turbo 仅需 5 秒的参考音频即可克隆任何声音。 只需上传您的音频文件,该模型就会匹配风格、音调和特征,而无需任何训练或微调。
支持哪些副语言标签?
▼
Chatterbox Turbo 支持多种自然语音反应标签,包括 <laugh>、<chuckle>、<sigh>、<cough>、<sniffle>、<groan>、<yawn> 和 <gasp>。 这些标签在克隆的声音中生成自然反应,并具有匹配的情感基调。
Chatterbox Turbo 有多快?
▼
Chatterbox Turbo 生成语音的速度比在 GPU 上实时快 6 倍。 这使其非常适合实时应用程序、语音助手和速度至关重要的交互式媒体。
什么是夸张参数?
▼
夸张参数 (0.0-1.0) 控制语音的表现力。 较低的值会产生单调的语音,而较高的值会使语音更加生动和富有表现力。 默认值为 0.25 以实现自然的表达。
支持哪些音频格式的输入和输出?
▼
您可以上传 MP3、WAV 或 MPEG 格式的参考音频。 Chatterbox Turbo 生成高质量的音频输出,适用于任何专业用例。
定价是如何计算的?
▼
Chatterbox Turbo 对每 1000 个文本字符收取 6 个积分。 低于 1000 个字符的文本向上舍入到 1000 个字符。这使其成为最具成本效益的专业 TTS 解决方案之一。
内置水印有什么作用?
▼
Chatterbox Turbo 生成的每个音频文件都包含 PerTh(感知阈值)水印。 这种深度神经网络水印以一种难以察觉的方式嵌入数据,帮助您跟踪 AI 生成的内容,以实现负责任的 AI 部署,而不会影响音频质量。
定价
提供免费套餐
技术规格
| 输出格式 | 高品质音频 |
| 参考音频 | 语音克隆需要 5 秒 |
| 处理时间 | 比实时快 6 倍 |
| 成本 | 每 1000 个字符 6 个积分 |
| 夸张范围 | 0.0 - 1.0 |
| 温度范围 | 0.05 - 5.0 |
| 许可证 | MIT(开源) |
| 水印 | 内置 PerTH |