Story321.com

VibeVoice - テキスト読み上げ

VibeVoice 0.5bを使用してテキストから表現力豊かな音声を生成します。複数のスピーカーオプションを備えた高速なオープンソースAI音声合成。

Save Your Audios

Login to save, manage and share all your generated audios

Community Audios

VibeVoiceで何ができますか?

複数のスピーカーボイス

Frank、Wayne、Carter、Emma、Grace、Mikeを含む6つの異なるスピーカーボイスから選択できます。各ボイスにはさまざまなコンテンツタイプに適した独自の特徴があります。

高速生成

最適化された処理で高速に音声を生成します。リアルタイムアプリケーション、音声アシスタント、対話型メディアに最適です。

調整可能なCFGスケール

CFGスケールパラメータでテキストへの忠実度を制御します。値を高くするとテキストへの忠実度が上がり、値を低くするとより創造的な変化が可能になります。

高品質オーディオ出力

24kHzサンプリングレートのオーディオを生成し、クリアで自然な音声を提供します。プロフェッショナルなナレーション作業に適しています。

再現可能な生成

シード値を使用して再現可能な結果を取得します。同じテキストの複数の生成で一貫性を維持するのに最適です。

オープンソースAI

透明性とコミュニティ主導の改善のためにオープンソース技術に基づいて構築されています。高品質な音声合成を誰でもアクセス可能にします。

VibeVoiceの使い方

1

テキストを入力

音声に変換したいスクリプトを入力または貼り付けます。VibeVoiceはテキストから自然な音声を生成します。

2

スピーカーを選択

利用可能な6つのスピーカーボイスから選択します:Frank、Wayne、Carter、Emma、Grace、またはMike。各ボイスには独自の特徴があります。

3

設定を調整(オプション)

テキストへの忠実度を制御するためにCFGスケールを微調整します。必要に応じてシード値を使用して再現可能な結果を取得します。

4

生成してダウンロード

生成をクリックしてオーディオを作成します。プロジェクトで使用するために高品質MP3ファイルをダウンロードします。

Frequently Asked Questions

VibeVoiceで利用可能なスピーカーはどれですか?

VibeVoiceは6つのスピーカーボイスを提供します:Frank、Wayne、Carter、Emma、Grace、Mike。各ボイスにはナレーションからキャラクターボイスまで、さまざまなコンテンツタイプに適した独自の特徴があります。

CFGスケールパラメータとは何ですか?

CFG(分類器なしガイダンス)スケールは、生成された音声が入力テキストにどれだけ密接に従うかを制御します。高い値(最大3.0)はテキストへの従順度を高め、低い値(最低0.5)はより創造的な変化を可能にします。デフォルト値はバランスの取れた結果のために1.3です。

シードパラメータはどのように機能しますか?

シードパラメータを使用すると、生成におけるランダム性を制御できます。同じシード値と同じテキストを使用すると同一の結果が生成され、再現可能な生成とテストに役立ちます。

VibeVoice出力のオーディオ品質はどれくらいですか?

VibeVoiceは24kHzサンプリングレートでオーディオを生成し、高品質でクリアかつ自然な音声を提供します。出力はプロフェッショナルなナレーション作業とコンテンツ作成に適しています。

VibeVoiceの生成速度はどれくらいですか?

VibeVoiceは高速生成のために最適化されており、リアルタイムアプリケーションと対話型メディアに適しています。生成速度はテキストの長さとサーバーの負荷に依存しますが、通常は数秒で完了します。

VibeVoiceを商用プロジェクトで使用できますか?

はい、VibeVoiceで生成されたオーディオをYouTube動画、ポッドキャスト、eラーニング、オーディオブック、広告などを含む商用プロジェクトで使用できます。使用例の具体的なライセンス条項を確認してください。

VibeVoiceの最大テキスト長はどれくらいですか?

VibeVoiceは長いテキスト入力をサポートします。非常に長いテキストの場合は、最適なパフォーマンスのために複数のセグメントに分割することを検討してください。価格は1000文字ごとに計算されます。

VibeVoiceの価格計算はどのように行われますか?

VibeVoiceはテキスト1000文字あたり6クレジットを請求します。1000文字未満のテキストは1000に切り上げられます。これにより、利用可能な最もコスト効率の高いTTSソリューションの1つになります。

価格

無料ティア利用可能

テキスト読み上げ1000文字あたり6クレジット

技術仕様

出力形式高品質オーディオ (MP3)
サンプリングレート24kHz
処理時間高速生成
コスト1000文字あたり6クレジット
CFGスケール範囲0.5 - 3.0
利用可能なスピーカー6つのボイス (Frank, Wayne, Carter, Emma, Grace, Mike)
再現可能な生成はい(シードパラメータ経由)