Story321.com

VibeVoice - 文本转语音

使用 VibeVoice 0.5b 从文本生成富有表现力的语音。快速、开源的 AI 语音合成,提供多种说话人选项。

Save Your Audios

Login to save, manage and share all your generated audios

Community Audios

VibeVoice 可以做什么?

多种说话人声音

从 6 种不同的说话人声音中选择,包括 Frank、Wayne、Carter、Emma、Grace 和 Mike。每个声音都有独特的特征,适合各种内容类型。

快速生成

使用优化的处理快速生成语音。非常适合实时应用程序、语音助手和交互式媒体。

可调节的 CFG 比例

使用 CFG 比例参数控制对文本的 adherence。更高的值增加对文本的遵循度,更低的值允许更多创意变化。

高质量音频输出

生成 24kHz 采样率的音频,提供清晰、自然的语音。适合专业的配音工作。

可重现的生成

使用种子值获得可重现的结果。非常适合在同一文本的多次生成中保持一致性。

开源 AI

基于开源技术构建,提供透明度和社区驱动的改进。让高质量的语音合成触手可及。

如何使用 VibeVoice

1

输入您的文本

输入或粘贴您要转换为语音的脚本。VibeVoice 将从您的文本生成自然的语音。

2

选择说话人

从 6 个可用的说话人声音中选择:Frank、Wayne、Carter、Emma、Grace 或 Mike。每个声音都有独特的特征。

3

调整设置(可选)

微调 CFG 比例以控制对文本的遵循度。如需要,使用种子值获得可重现的结果。

4

生成并下载

点击生成创建您的音频。下载高质量 MP3 文件以在您的项目中使用。

Frequently Asked Questions

VibeVoice 有哪些说话人可选?

VibeVoice 提供 6 个说话人声音:Frank、Wayne、Carter、Emma、Grace 和 Mike。每个声音都有独特的特征,适合不同的内容类型,从旁白到角色声音。

CFG 比例参数是什么?

CFG(无分类器指导)比例控制生成的语音与输入文本的密切程度。更高的值(高达 3.0)增加对文本的遵循度,而更低的值(低至 0.5)允许更多创意变化。默认值为 1.3 以获得平衡的结果。

种子参数如何工作?

种子参数允许您控制生成中的随机性。使用相同的种子值和相同的文本将产生相同的结果,这对于可重现的生成和测试很有用。

VibeVoice 输出的音频质量如何?

VibeVoice 以 24kHz 采样率生成音频,提供高质量、清晰和自然的语音。输出适合专业的配音工作和内容创作。

VibeVoice 生成有多快?

VibeVoice 针对快速生成进行了优化,使其适合实时应用程序和交互式媒体。生成速度取决于文本长度和服务器负载,但通常在几秒钟内完成。

我可以将 VibeVoice 用于商业项目吗?

是的,您可以将 VibeVoice 生成的音频用于商业项目,包括 YouTube 视频、播客、电子学习、有声读物、广告等。请查看您用例的具体许可条款。

VibeVoice 的最大文本长度是多少?

VibeVoice 支持长文本输入。对于非常长的文本,建议分成多个段落以获得最佳性能。定价按每 1000 个字符计算。

VibeVoice 的定价如何计算?

VibeVoice 每 1000 个字符文本收取 6 个积分。不足 1000 个字符的文本按 1000 计算。这使其成为最具成本效益的 TTS 解决方案之一。

定价

提供免费层级

文本转语音每 1000 个字符 6 个积分

技术规格

输出格式高质量音频 (MP3)
采样率24kHz
处理时间快速生成
成本每 1000 个字符 6 个积分
CFG 比例范围0.5 - 3.0
可用说话人6 种声音 (Frank, Wayne, Carter, Emma, Grace, Mike)
可重现生成是(通过种子参数)