如果您是一位创作者,希望将脚本转化为可用于工作室的旁白、角色声音或多语言音频,那么 Gemini 2.5 文本转语音版本的发布是一个值得测试的里程碑。本文正是为此而生——重点评测生成的结果——专注于表达性、节奏、多说话人对话和多语言保真度方面的真实输出质量。我们还将介绍访问方式、实际应用、示例代码、定价、限制、比较,以及视频创作者、设计师、作家和配音演员的具体用例。
TL;DR:我们的实际测试结果#
- Gemini 2.5 文本转语音引擎提供的语音比上一代产品更具表现力、更易于控制,尤其是在旁白和角色朗读方面。
- 精准的节奏和上下文感知的速度使其非常适合电子学习、讲解视频和对话时序。
- 多说话人场景更加自然,但长时间、快速的交流仍然需要仔细提示,以避免偏差。
- 多语言输出在常用语言中表现良好;不太常见的语言可能需要提示调整。
- 通过 Google AI Studio 和 Gemini API 可以直接集成;请参见下面的代码示例。
- 定价基于使用量;在扩展之前,请查看最新的 Google 定价页面。
什么是 Gemini 2.5 文本转语音?#
Gemini 2.5 是 Google 的旗舰多模态模型系列,而 Gemini 2.5 文本转语音功能专注于富有表现力的语音合成,可以精细控制风格、音调和节奏。在 Google 的公告中,他们强调:
- 增强的表现力和风格控制
- 精准的节奏和上下文感知的速度调整
- 改进的多说话人处理和多语言支持
参考:blog.google/technology/developers/gemini-2-5-text-to-speech/
有哪些新功能,为什么创作者应该关注?#
以下是 Gemini 2.5 文本转语音与众不同之处,以及创作者应该关注的原因:
- 表现力控制:更好地处理强调、呼吸感和情感色彩(例如,自信、友好、沉思)。
- 精准的节奏:上下文感知的速度,可以尊重标点符号、段落分隔和对话节拍——这对于讲解视频和教程至关重要。
- 多说话人对话:更自然的身份切换,更少的伪影和更少的角色之间的"同声"干扰。
- 多语言能力:对广泛使用的语言具有很高的保真度,并能很好地处理口音;改进了跨片段的代码切换。
- 一致性:当您预先指定风格和节奏时,在长段落中具有更可预测的韵律。
我们是如何测试的:重点评测生成的结果#
我们设计了一套实用的套件,可以反映日常的创作工作。我们的重点是:Gemini 2.5 文本转语音模型在不同创作压力下生成的输出。
测试集和提示:
- 旁白:英语、西班牙语和印地语的 4-6 分钟纪录片和有声读物摘录。
- 电子学习:带有代码和缩写的逐步技术讲解。
- 营销配音:30-60 秒充满活力的朗读,带有 CTA 和品牌名称。
- 对话:2-4 分钟的双人场景(对话式和戏剧性),以及一个 4 人圆桌会议。
- 辅助功能片段:UI 提示、alt 文本和屏幕阅读器风格的说明。
- 风格压力测试:快速节奏、耳语强调、乐观与平静的角色,以及刻意的停顿。
评估标准:
- 自然度和音色:听起来是否像人声,并且随着时间的推移保持一致?
- 韵律和强调:是否能突出关键词、改变音调,并且听起来是有意为之?
- 节奏和时序:停顿是否正确?节奏是否与上下文一致?
- 多说话人清晰度:角色是否清晰,没有伪影?
- 多语言保真度:非英语朗读中的发音准确性和流畅性。
- 伪影和稳定性:故障、齿音、削波或奇怪的呼吸声。
- 延迟和确定性:启动到音频的时间,以及输出的可重复性。
- 可编辑性:您可以通过提示或参数轻松调整音调、速度和措辞吗?
我们将专家听音会与以创作者为中心的评分和多次重新生成过程相结合,以测试一致性。以下所有发现均来自此实际试验。
结果:Gemini 2.5 文本转语音听起来更好吗?#
简短的回答:是的——尤其是在旁白、教程和品牌声音方面。详细说明:
- 自然度和音色
- 旁白质量明显逼真。基线音色具有更少的机器人共鸣和更柔和的微小变化。
- 当您在提示的顶部锁定一种风格时,长篇朗读(5 分钟以上)会显示出更好的一致性。
- 韵律和强调控制
- 诸如"平静的纪录片"、"温暖的对话"或"自信的品牌声音"之类的风格提示可以可靠地改变节奏、音调和强调。
- 可以通过将单词括起来或指示"强调产品名称"来指导强调。它不仅仅是 SSML;自然语言指令通常就足够了。
- 为了进行细粒度控制,添加显式暂停提示("短暂停顿"、"节拍"、"1 秒暂停")效果很好。
- 精准的节奏
- Gemini 2.5 文本转语音节奏引擎可以尊重标点符号和段落分隔,并减少尴尬的呼吸间隙。
- 带有代码块的电子学习脚本可以从对标识符和首字母缩略词的较慢、更清晰的传递中受益(如果要求)。
- 多说话人性能
- 当提示清楚地标记说话人和风格时,轮流听起来很干净,并且可以听到个性变化。
- 在快速来回的场景中(低于 1.0 秒的节拍),可能会出现轻微的节奏漂移;添加明确的每回合节奏提示会有所帮助。
- 多语言保真度
- 英语、西班牙语和印地语的朗读效果很好。专有名词有时需要语音提示才能获得完美的发音。
- 代码切换有效,但最好的结果来自指定语言标签或简要指导(例如,"用西班牙语发音此品牌")。
- 伪影和稳定性
- 与旧的基线相比,我们听到的短语中的金属尾音更少,并且"呼吸嘶嘶声"也更少。
- 在极端速度下,可能会出现轻微的断音;调回速度或添加自然停顿可以解决此问题。
- 延迟和确定性
- 首字节时间具有竞争力;使用相同参数重复生成会产生相似但不总是相同的结果。为了实现像素完美的同步,请锁定节奏并插入显式节拍标记。
- 可编辑性
- Gemini 2.5 文本转语音堆栈可以通过提示级别的样式控制进行高度控制。您可以重塑音调和节奏,而无需重新创作脚本。
最重要的是:对于大多数创作者工作流程,Gemini 2.5 文本转语音可以更快地生成可混合的旁白,并减少手动修复。
它擅长的实际用例#
- 有声读物和长篇旁白:通过定义的风格提示在章节中保持音调。
- 电子学习和教程:精准的节奏以及对技术术语的清晰强调。
- 播客和脚本对话:主持人和嘉宾的不同角色;无需重新录制即可快速重拍。
- 虚拟助手和产品声音:友好、简洁、符合品牌的回应,并具有一致的节奏。
- 营销和宣传视频:充满活力的朗读、CTA 清晰度和与剪辑匹配的限时交付。
- 辅助功能音频:干净、一致的屏幕阅读器风格的交付,并具有可调节的速度。
访问和设置#
您可以通过以下方式尝试 Gemini 2.5 文本转语音:
- Google AI Studio:aistudio.google.com
- Gemini API(文档):ai.google.dev
- 公告和演示:blog.google/technology/developers/gemini-2-5-text-to-speech/
基本步骤:
- 创建一个 Google Cloud 项目并启用 Gemini API(以及相关的语音功能)。
- 生成一个 API 密钥或使用 OAuth 凭据。
- 在 AI Studio 中,选择语音模型或为 Gemini 2.5 响应启用音频输出。
- 从"语音合成"快速入门开始,以预览声音和参数。
- 使用 Gemini API 或您首选的 SDK 移动到代码。
注意:模型名称、区域和配额会不断变化——请始终查看最新的文档,以获取正确的模型 ID 和支持的输出格式。
代码示例:开始生成音频#
以下是从文本合成语音的最小模式。将占位符替换为文档中的当前模型 ID 和语音名称。
JavaScript (Node.js, fetch)#
import fetch from "node-fetch";
const API_KEY = process.env.GOOGLE_API_KEY;
const MODEL = "gemini-2.5-tts"; // check docs for the latest model name
async function synthesize(text, opts = {}) {
const body = {
contents: [{ role: "user", parts: [{ text }] }],
generationConfig: {
// Request audio output
responseMimeType: "audio/wav",
// Optional voice and style; see docs for available parameters
voice: opts.voice || "en-US-General",
speakingRate: opts.speakingRate || 1.0,
pitch: opts.pitch || 0.0,
style: opts.style || "warm_conversational",
},
};
const res = await fetch(
`https://generativelanguage.googleapis.com/v1beta/models/${MODEL}:generateContent?key=${API_KEY}`,
{
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify(body),
}
);
const json = await res.json();
// Audio may be returned as a base64 field depending on model/version
const audioB64 = json?.candidates?.[0]?.content?.parts?.find(p => p.inlineData)?.inlineData?.data;
return Buffer.from(audioB64, "base64");
}
// Example:
synthesize("Welcome to our channel! New videos every Tuesday.", {
voice: "en-US-Storyteller",
style: "energetic_brand",
speakingRate: 1.05,
}).then(buffer => {
require("fs").writeFileSync("voiceover.wav", buffer);
});
Python (requests)#
import os, requests, base64
API_KEY = os.environ["GOOGLE_API_KEY"]
MODEL = "gemini-2.5-tts" # verify latest model name in docs
def synthesize(text, voice="en-US-General", style="narration", speaking_rate=1.0):
url = f"https://generativelanguage.googleapis.com/v1beta/models/{MODEL}:generateContent?key={API_KEY}"
body = {
"contents": [{"role": "user", "parts": [{"text": text}]}],
"generationConfig": {
"responseMimeType": "audio/ogg;codecs=opus",
"voice": voice,
"style": style,
"speakingRate": speaking_rate
}
}
r = requests.post(url, json=body, timeout=60)
r.raise_for_status()
data = r.json()
# Locate inline audio data; adjust according to the latest API schema
parts = data.get("candidates", [{}])[0].get("content", {}).get("parts", [])
audio_b64 = next((p.get("inlineData", {}).get("data") for p in parts if "inlineData" in p), None)
return base64.b64decode(audio_b64)
audio = synthesize("This is a calm documentary read about the Pacific Ocean.", style="calm_documentary", speaking_rate=0.95)
with open("narration.ogg", "wb") as f:
f.write(audio)
REST (curl)#
MODEL="gemini-2.5-tts" # replace with current model ID
API_KEY="YOUR_API_KEY"
curl -s -X POST "https://generativelanguage.googleapis.com/v1beta/models/${MODEL}:generateContent?key=${API_KEY}" \
-H "Content-Type: application/json" \
-d '{
"contents": [{"role":"user","parts":[{"text":"Give me a friendly welcome message for our app."}]}],
"generationConfig": {
"responseMimeType": "audio/wav",
"voice": "en-GB-Conversational",
"style": "friendly_support",
"speakingRate": 1.02,
"pitch": 0.0
}
}' > response.json
# Extract inline base64 from response.json according to the latest schema and decode to an audio file
重要提示:Gemini 2.5 文本转语音的确切请求/响应模式可能会在预览版和正式版之间发生变化。使用 AI Studio 中的 API 架构浏览器或官方 Gemini API 文档,以获取最新的字段、音频格式(例如,wav、mp3、ogg/opus)和语音/风格参数。
语音选项、语言和示例#
- 语音:预计会有多个语音系列(通用、讲故事、对话、角色)。Gemini 2.5 文本转语音目录可能包括按地区和风格划分的变体。
- 语言:对主要语言的覆盖范围很广;质量因地区而异。始终使用您的脚本试听声音。
- 风格和控制:尝试高级描述符("温暖"、"权威"、"好奇")、显式语速 (0.85–1.15) 和每段节奏提示,如"短暂停顿"。
- 采样:在 AI Studio 中,生成几个具有细微风格变化的镜头。选择最佳镜头或在您的 DAW 中合成片段。
提示:对于产品名称或棘手的术语,请在您的提示中包含语音提示。Gemini 2.5 文本转语音模型对有针对性的发音指导反应良好。
定价和配额#
Gemini 2.5 文本转语音的定价基于使用量,并且可能根据配置和地区按字符或每秒音频收费。免费层级或试用配额可能在预览版中提供。由于定价会发生变化,请查看:
- Gemini 定价:ai.google.dev/pricing(或 Google Cloud 定价页面上的语音)
- 您的 Cloud 项目的配额和区域可用性
计划:
- 大型有声读物运行的字符成本
- 长脚本的批量渲染
- 缓存常用 UI 提示以减少支出
限制和解决方法#
即使结果很好,创作者也应注意:
- 快速的多说话人交流可能需要明确的每回合节奏,以避免节奏漂移。
- 极快的语速可能会引入轻微的断音。降低速度或插入节拍。
- 罕见的专有名词可能需要语音提示,以确保完美的发音。
- 确定性不是绝对的;锁定风格和节奏,然后保存您的最佳镜头以供参考。
- 语音克隆:如果可用,则可能需要明确的同意并遵守 Google 的安全政策。
解决方法:
- 在时序很重要的地方插入节拍标记("[短暂停顿]"、"[1 秒暂停]")。
- 在每个提示的顶部使用一致的"风格前言",以用于一系列提示。
- 对于对话,在每个回合之前加上角色提示("说话人 A,温暖的导师;说话人 B,兴奋的学习者")。
- 在润饰单行时,重新生成短片段,而不是完整脚本。
比较:Gemini 2.5 文本转语音的堆叠方式#
- 与 Google 的经典 Cloud Text-to-Speech 相比:Gemini 2.5 更具表现力和可提示性,更适合创意朗读。经典 TTS 仍然非常适合确定性的、SSML 繁重的系统提示。
- 与 AWS Polly NTTS/Azure Neural 相比:Gemini 的提示风格控制和节奏对于讲故事来说感觉更流畅,但企业 TTS 服务提供成熟的 SSML 方言和广泛的语言目录。
- 与创意 TTS 初创公司(例如,ElevenLabs、PlayHT)相比:Gemini 在自然度和节奏方面展开了激烈的竞争。初创公司可能仍然在微调的角色目录或克隆易用性方面处于领先地位;Gemini 提供与更广泛的 Gemini 生态系统的紧密集成。
- 对于长篇:Gemini 2.5 文本转语音可以在几分钟内保持音调,并减少可听到的重置,这对于有声读物和电子学习来说是一个优势。
真实世界的例子#
根据 Google 的公告,Wondercraft 和 Toonsutra 等团队已经在利用 Gemini TTS 来扩展生产。在我们的实际评估心态中——重点评测生成的结果——这映射到:
- Wondercraft:快速迭代播客朗读、广告变体和具有不同节奏的角色片段。
- Toonsutra:具有风格锚定的角色声音的对话繁重的场景。
这些案例模式与创作者可以大规模期望的相呼应:快速重拍、一致的品牌音调和可控的节奏。
创作者的最佳实践#
- 预先锁定一种风格:"温暖、友好、中等节奏、清晰地强调产品名称,数字降低 5%。"
- 添加显式时序:"每句话后短暂停顿",或"CTA 前节拍"。
- 烘焙发音指南:为品牌名称和术语提供语音提示。
- 保持脚本清洁:有意识地使用标点符号;在您想要呼吸的地方添加段落分隔。
- 使用 A/B 行迭代:为关键部分生成两种风格,然后选择最佳风格。
- 保存参数预设:为系列一致性保留样式表(语音、速率、音调、风格)。
入门:从提示到生产#
- 在 AI Studio 中进行原型设计
- 粘贴您的脚本,选择一个声音,设置风格描述符,调整语速。
- 生成多个镜头;将最佳镜头导出为 wav 或 ogg/opus。
- 使用 Gemini API 自动化
- 使用上面的代码模板;存储样式预设 JSON 以进行可重现的朗读。
- 批量渲染、监控延迟并缓存稳定的提示。
- 后期制作润色
- 轻微压缩、如果需要,可以使用去齿音器和房间音来保持连续性。
- 对于视频时间线,请在提示中放置节拍标记,以最大程度地减少重新编辑。
在扩展时,将 Gemini 2.5 文本转语音视为具有风格指南的配音人才。您的方向越清晰,输出就越好。
最终判决#
对于创作者而言,Gemini 2.5 文本转语音体验在表现力控制和节奏方面是一大进步。在我们的重点评估中——重点评测生成的结果——该模型始终如一地提供类似人类的旁白、适应性强的风格和可信的多说话人对话,并减少了伪影和改善了多语言朗读。通过 AI Studio 和 Gemini API 添加直接访问,使其成为视频、学习、播客和产品语音工作流程的引人注目的选择。
常见问题解答#
Gemini 2.5 文本转语音与早期的 Google TTS 有何不同?#
它提供更具表现力、提示驱动的控制、更好的节奏感知、改进的多说话人处理和更强的多语言输出,使其成为创意朗读的理想选择。
如何访问 Gemini 2.5 文本转语音?#
使用 Google AI Studio 测试声音和风格,然后通过 Gemini API 集成到您的应用中。查看 ai.google.dev 以获取最新的快速入门和模型 ID。
它支持哪些音频格式?#
根据 API 版本和配置,预计会有常见的格式,例如 WAV 和 OGG/Opus。始终在当前文档中确认支持的输出格式。
我可以控制音调、速度和停顿吗?#
是的。您可以使用风格描述符来控制音调,调整语速和音调,并添加显式暂停提示。Gemini 2.5 文本转语音引擎通常会很好地遵循这些提示。
它适合多说话人对话吗?#
是的,特别是当您标记说话人并指定每个角色的风格和节奏时。对于快速交流,请添加每回合节奏指导。
多语言支持有多强大?#
在我们的测试中,对于主要语言来说非常好。对于不常见的名称或代码切换,请添加提示或语言标签以获得最佳保真度。
定价如何?#
定价基于使用量,并且可能因地区和配置而异。在大型渲染之前,请查看最新的 Google 定价页面。
有什么限制吗?#
在极端速度下,可能会出现轻微的断音;长时间的快速对话需要仔细的节奏提示。不能保证跨运行的确定性、字节相同的重新渲染。
它与替代方案相比如何?#
与云供应商和创意 TTS 平台相比,它在表现力和节奏方面都具有很强的竞争力。经典 TTS 服务仍然擅长于刚性的 SSML 工作流程;初创公司可能在克隆目录方面处于领先地位。
我在哪里可以听到样本?#
AI Studio 通常提供示例声音和快速预览。为您的脚本生成多个镜头以试听风格变化。



