Question 1

VibeVoiceで利用可能なスピーカーはどれですか？

Accepted Answer

VibeVoiceは6つのスピーカーボイスを提供します：Frank、Wayne、Carter、Emma、Grace、Mike。各ボイスにはナレーションからキャラクターボイスまで、さまざまなコンテンツタイプに適した独自の特徴があります。

Question 2

CFGスケールパラメータとは何ですか？

Accepted Answer

CFG（分類器なしガイダンス）スケールは、生成された音声が入力テキストにどれだけ密接に従うかを制御します。高い値（最大3.0）はテキストへの従順度を高め、低い値（最低0.5）はより創造的な変化を可能にします。デフォルト値はバランスの取れた結果のために1.3です。

Question 3

シードパラメータはどのように機能しますか？

Accepted Answer

シードパラメータを使用すると、生成におけるランダム性を制御できます。同じシード値と同じテキストを使用すると同一の結果が生成され、再現可能な生成とテストに役立ちます。

Question 4

VibeVoice出力のオーディオ品質はどれくらいですか？

Accepted Answer

VibeVoiceは24kHzサンプリングレートでオーディオを生成し、高品質でクリアかつ自然な音声を提供します。出力はプロフェッショナルなナレーション作業とコンテンツ作成に適しています。

Question 5

VibeVoiceの生成速度はどれくらいですか？

Accepted Answer

VibeVoiceは高速生成のために最適化されており、リアルタイムアプリケーションと対話型メディアに適しています。生成速度はテキストの長さとサーバーの負荷に依存しますが、通常は数秒で完了します。

Question 6

VibeVoiceを商用プロジェクトで使用できますか？

Accepted Answer

はい、VibeVoiceで生成されたオーディオをYouTube動画、ポッドキャスト、eラーニング、オーディオブック、広告などを含む商用プロジェクトで使用できます。使用例の具体的なライセンス条項を確認してください。

Question 7

VibeVoiceの最大テキスト長はどれくらいですか？

Accepted Answer

VibeVoiceは長いテキスト入力をサポートします。非常に長いテキストの場合は、最適なパフォーマンスのために複数のセグメントに分割することを検討してください。価格は1000文字ごとに計算されます。

Question 8

VibeVoiceの価格計算はどのように行われますか？

Accepted Answer

VibeVoiceはテキスト1000文字あたり6クレジットを請求します。1000文字未満のテキストは1000に切り上げられます。これにより、利用可能な最もコスト効率の高いTTSソリューションの1つになります。

VibeVoice - テキスト読み上げ

Save Your Audios

出力形式	高品質オーディオ (MP3)
サンプリングレート	24kHz
処理時間	高速生成
コスト	1000文字あたり6クレジット
CFGスケール範囲	0.5 - 3.0
利用可能なスピーカー	6つのボイス (Frank, Wayne, Carter, Emma, Grace, Mike)
再現可能な生成	はい（シードパラメータ経由）