Story321.com

Chatterbox Turbo - 文本转语音

使用 Chatterbox Turbo 从文本生成富有表现力、听起来自然的声音。快速、开源的 AI,内置水印和零样本语音克隆。

Save Your Audios

Login to save, manage and share all your generated audios

Community Audios

Chatterbox Turbo 可以做什么?

零样本语音克隆

仅需 5 秒的参考音频即可克隆任何声音。无需训练。非常适合在项目中创建一致的旁白。

副语言情感

使用基于文本的标签(例如 <laugh>、<sigh>、<cough> 和 <gasp>)添加自然的语音反应。使语音听起来真正像人声。

情感夸张控制

使用单个参数调整语音的表现力,从单调到极富表现力。 适用于任何内容语气。

内置水印

每个音频输出都包含 PerTh 水印,以实现负责任的 AI 部署。 在不影响质量的情况下跟踪 AI 生成的内容。

超快速生成

在 GPU 上比实时快 6 倍。非常适合实时应用程序、语音助手和交互式媒体。

开源且 MIT 许可

第一个不影响速度或质量的开源 TTS。 专为生产而构建,专为开发人员而设计。

如何使用 Chatterbox Turbo

1

输入您的文本

键入或粘贴要转换为语音的文本。 添加情感标签,例如 <laugh> 或 <sigh> 以获得自然的表达。

2

上传参考音频(可选)

上传 5 秒的音频来克隆任何声音。 跳过此步骤可使用默认声音。

3

调整设置

控制夸张程度、温度和创造力参数来微调您的语音输出。

4

生成并下载

点击生成并在几秒钟内收到您的高质量音频。 下载并在任何地方使用它。

Frequently Asked Questions

零样本语音克隆是如何工作的?

Chatterbox Turbo 仅需 5 秒的参考音频即可克隆任何声音。 只需上传您的音频文件,该模型就会匹配风格、音调和特征,而无需任何训练或微调。

支持哪些副语言标签?

Chatterbox Turbo 支持多种自然语音反应标签,包括 <laugh>、<chuckle>、<sigh>、<cough>、<sniffle>、<groan>、<yawn> 和 <gasp>。 这些标签在克隆的声音中生成自然反应,并具有匹配的情感基调。

Chatterbox Turbo 有多快?

Chatterbox Turbo 生成语音的速度比在 GPU 上实时快 6 倍。 这使其非常适合实时应用程序、语音助手和速度至关重要的交互式媒体。

什么是夸张参数?

夸张参数 (0.0-1.0) 控制语音的表现力。 较低的值会产生单调的语音,而较高的值会使语音更加生动和富有表现力。 默认值为 0.25 以实现自然的表达。

支持哪些音频格式的输入和输出?

您可以上传 MP3、WAV 或 MPEG 格式的参考音频。 Chatterbox Turbo 生成高质量的音频输出,适用于任何专业用例。

定价是如何计算的?

Chatterbox Turbo 对每 1000 个文本字符收取 6 个积分。 低于 1000 个字符的文本向上舍入到 1000 个字符。这使其成为最具成本效益的专业 TTS 解决方案之一。

内置水印有什么作用?

Chatterbox Turbo 生成的每个音频文件都包含 PerTh(感知阈值)水印。 这种深度神经网络水印以一种难以察觉的方式嵌入数据,帮助您跟踪 AI 生成的内容,以实现负责任的 AI 部署,而不会影响音频质量。

定价

提供免费套餐

文本转语音每 1000 个字符 6 个积分

技术规格

输出格式高品质音频
参考音频语音克隆需要 5 秒
处理时间比实时快 6 倍
成本每 1000 个字符 6 个积分
夸张范围0.0 - 1.0
温度范围0.05 - 5.0
许可证MIT(开源)
水印内置 PerTH