Question 1

VibeVoice 有哪些说话人可选？

Accepted Answer

VibeVoice 提供 6 个说话人声音：Frank、Wayne、Carter、Emma、Grace 和 Mike。每个声音都有独特的特征，适合不同的内容类型，从旁白到角色声音。

Question 2

CFG 比例参数是什么？

Accepted Answer

CFG（无分类器指导）比例控制生成的语音与输入文本的密切程度。更高的值（高达 3.0）增加对文本的遵循度，而更低的值（低至 0.5）允许更多创意变化。默认值为 1.3 以获得平衡的结果。

Question 3

种子参数如何工作？

Accepted Answer

种子参数允许您控制生成中的随机性。使用相同的种子值和相同的文本将产生相同的结果，这对于可重现的生成和测试很有用。

Question 4

VibeVoice 输出的音频质量如何？

Accepted Answer

VibeVoice 以 24kHz 采样率生成音频，提供高质量、清晰和自然的语音。输出适合专业的配音工作和内容创作。

Question 5

VibeVoice 生成有多快？

Accepted Answer

VibeVoice 针对快速生成进行了优化，使其适合实时应用程序和交互式媒体。生成速度取决于文本长度和服务器负载，但通常在几秒钟内完成。

Question 6

我可以将 VibeVoice 用于商业项目吗？

Accepted Answer

是的，您可以将 VibeVoice 生成的音频用于商业项目，包括 YouTube 视频、播客、电子学习、有声读物、广告等。请查看您用例的具体许可条款。

Question 7

VibeVoice 的最大文本长度是多少？

Accepted Answer

VibeVoice 支持长文本输入。对于非常长的文本，建议分成多个段落以获得最佳性能。定价按每 1000 个字符计算。

Question 8

VibeVoice 的定价如何计算？

Accepted Answer

VibeVoice 每 1000 个字符文本收取 6 个积分。不足 1000 个字符的文本按 1000 计算。这使其成为最具成本效益的 TTS 解决方案之一。

输出格式	高质量音频 (MP3)
采样率	24kHz
处理时间	快速生成
成本	每 1000 个字符 6 个积分
CFG 比例范围	0.5 - 3.0
可用说话人	6 种声音 (Frank, Wayne, Carter, Emma, Grace, Mike)
可重现生成	是（通过种子参数）

VibeVoice - 文本转语音

Save Your Audios