Story321.com

VibeVoice - Text-zu-Sprache

Erzeugen Sie ausdrucksvolle Sprache aus Text mit VibeVoice 0.5b. Schnelle, Open-Source-KI-Sprachsynthese mit mehreren Sprechoptionen.

Save Your Audios

Login to save, manage and share all your generated audios

Community Audios

Was kann VibeVoice?

Mehrere Sprecherstimmen

Wählen Sie aus 6 verschiedenen Sprecherstimmen inklusive Frank, Wayne, Carter, Emma, Grace und Mike. Jede Stimme hat einzigartige Eigenschaften für verschiedene Inhaltstypen.

Schnelle Generierung

Erzeugen Sie Sprache schnell mit optimierter Verarbeitung. Perfekt für Echtzeitanwendungen, Sprachassistenten und interaktive Medien.

Einstellbarer CFG-Maßstab

Kontrollieren Sie die Texttreue mit dem CFG-Maßstabparameter. Höhere Werte erhöhen die Texttreue, niedrigere Werte ermöglichen mehr kreative Variation.

Hochwertige Audioausgabe

Erzeugt 24kHz-Abtastrate Audio für klare, natürliche Sprache. Geeignet für professionelle Voice-over-Arbeit.

Reproduzierbare Generierung

Verwenden Sie Seed-Werte für reproduzierbare Ergebnisse. Perfekt zur Aufrechterhaltung der Konsistenz über mehrere Generierungen desselben Textes.

Open-Source-KI

Basierend auf Open-Source-Technologie für Transparenz und Community-getriebene Verbesserungen. Hochwertige Sprachsynthese für jeden zugänglich.

VibeVoice verwenden

1

Geben Sie Ihren Text ein

Tippen oder fügen Sie das Skript ein, das Sie in Sprache umwandeln möchten. VibeVoice wird natürliche Sprache aus Ihrem Text erzeugen.

2

Wählen Sie einen Sprecher

Wählen Sie aus 6 verfügbaren Sprecherstimmen: Frank, Wayne, Carter, Emma, Grace oder Mike. Jede Stimme hat einzigartige Eigenschaften.

3

Einstellungen anpassen (Optional)

Justieren Sie fein den CFG-Maßstab, um die Texttreue zu kontrollieren. Verwenden Sie bei Bedarf einen Seed-Wert für reproduzierbare Ergebnisse.

4

Generieren und Herunterladen

Klicken Sie auf Generieren, um Ihr Audio zu erstellen. Laden Sie die hochwertige MP3-Datei zur Verwendung in Ihren Projekten herunter.

Frequently Asked Questions

Welche Sprecher sind in VibeVoice verfügbar?

VibeVoice bietet 6 Sprecherstimmen: Frank, Wayne, Carter, Emma, Grace und Mike. Jede Stimme hat einzigartige Eigenschaften, die für verschiedene Inhaltstypen geeignet sind, von Erzählung bis Charakterstimmen.

Was ist der CFG-Maßstabparameter?

Der CFG-Maßstab (Classifier-Free Guidance) kontrolliert, wie nah die erzeugte Sprache am Eingabetext bleibt. Höhere Werte (bis zu 3.0) erhöhen die Texttreue, während niedrigere Werte (bis zu 0.5) mehr kreative Variation ermöglichen. Der Standardwert ist 1.3 für ausgewogene Ergebnisse.

Wie funktioniert der Seed-Parameter?

Der Seed-Parameter ermöglicht es Ihnen, die Zufälligkeit bei der Generierung zu kontrollieren. Die Verwendung desselben Seed-Wertes mit demselben Text liefert identische Ergebnisse, was für reproduzierbare Generierung und Tests nützlich ist.

Wie ist die Audioqualität der VibeVoice-Ausgabe?

VibeVoice generiert Audio bei 24kHz-Abtastrate und bietet hochwertige, klare und natürliche Sprache. Die Ausgabe eignet sich für professionelle Voice-over-Arbeit und Inhaltserstellung.

Wie schnell ist die VibeVoice-Generierung?

VibeVoice ist für schnelle Generierung optimiert, was es für Echtzeitanwendungen und interaktive Medien geeignet macht. Die Generierungsgeschwindigkeit hängt von der Textlänge und der Serverlast ab, erfolgt aber typischerweise in Sekunden.

Kann ich VibeVoice für kommerzielle Projekte verwenden?

Ja, Sie können mit VibeVoice erzeugtes Audio für kommerzielle Projekte verwenden, einschließlich YouTube-Videos, Podcasts, E-Learning, Hörbücher, Werbung und mehr. Überprüfen Sie die spezifischen Lizenzbedingungen für Ihren Anwendungsfall.

Wie ist die maximale Textlänge für VibeVoice?

VibeVoice unterstützt die Eingabe von langem Text. Bei sehr langem Text empfiehlt es sich, in mehrere Segmente zu unterteilen, um optimale Leistung zu erzielen. Die Preisberechnung erfolgt pro 1000 Zeichen.

Wie wird die Preisberechnung für VibeVoice durchgeführt?

VibeVoice verlangt 6 Credits pro 1000 Zeichen Text. Text unter 1000 Zeichen wird auf 1000 aufgerundet. Dies macht es zu einer der kostengünstigsten TTS-Lösungen.

Preise

Kostenlose Stufe verfügbar

Text-zu-Sprache6 Credits pro 1000 Zeichen

Technische Spezifikationen

AusgabeformatHochwertiges Audio (MP3)
Abtastrate24kHz
VerarbeitungszeitSchnelle Generierung
Kosten6 Credits pro 1000 Zeichen
CFG-Maßstabbereich0.5 - 3.0
Verfügbare Sprecher6 Stimmen (Frank, Wayne, Carter, Emma, Grace, Mike)
Reproduzierbare GenerierungJa (über Seed-Parameter)