VibeVoice - 텍스트 음성 변환
VibeVoice 0.5b를 사용하여 텍스트에서 표현력 있는 음성을 생성합니다. 여러 스피커 옵션을 갖춘 빠른 오픈 소스 AI 음성 합성.
VibeVoice 0.5b를 사용하여 텍스트에서 표현력 있는 음성을 생성합니다. 여러 스피커 옵션을 갖춘 빠른 오픈 소스 AI 음성 합성.
Save Your Audios
Login to save, manage and share all your generated audios
Community Audios
VibeVoice로 무엇을 할 수 있나요?
다양한 스피커 보이스
Frank, Wayne, Carter, Emma, Grace, Mike를 포함한 6가지 다른 스피커 보이스 중에서 선택하세요. 각 보이스는 다양한 콘텐츠 유형에 맞는 고유한 특징이 있습니다.
빠른 생성
최적화된 처리로 빠르게 음성을 생성합니다. 실시간 애플리케이션, 음성 비서nant 및 대화형 미디어에 완벽합니다.
조정 가능한 CFG 스케일
CFG 스케일 매개변수로 텍스트 준수를 제어하세요. 값이 높을수록 텍스트 준수가 증가하고, 값이 낮을수록 더 창의적인 변화가 허용됩니다.
고품질 오디오 출력
명료하고 자연스러운 음성을 위해 24kHz 샘플 레이트 오디오를 생성합니다. 전문 내레이션 작업에 적합합니다.
재현 가능한 생성
재현 가능한 결과를 위해 시드 값을 사용하세요. 동일한 텍스트의 여러 생성에서 일관성을 유지하는 데 완벽합니다.
오픈 소스 AI
투명성과 커뮤니티 주도 개선을 위해 오픈 소스 기술에 기초하여 구축되었습니다. 모두가 액세스할 수 있는 고품질 음성 합성.
VibeVoice 사용 방법
텍스트 입력
음성으로 변환하려는 스크립트를 입력하거나 붙여넣으세요. VibeVoice는 텍스트에서 자연스러운 음성을 생성합니다.
스피커 선택
사용 가능한 6개 스피커 보이스 중에서 선택하세요: Frank, Wayne, Carter, Emma, Grace 또는 Mike. 각 보이스는 고유한 특징이 있습니다.
설정 조정 (선택 사항)
텍스트 준수를 제어하기 위해 CFG 스케일을 미세 조정하세요. 필요한 경우 시드 값을 사용하여 재현 가능한 결과를 얻으세요.
생성 및 다운로드
생성을 클릭하여 오디오를 만드세요. 프로젝트에서 사용하기 위해 고품질 MP3 파일을 다운로드하세요.
Frequently Asked Questions
VibeVoice에서 어떤 스피커를 사용할 수 있나요?
▼
VibeVoice는 6개 스피커 보이스를 제공합니다: Frank, Wayne, Carter, Emma, Grace, Mike. 각 보이스는 내레이션부터 캐릭터 보이스까지 다양한 콘텐츠 유형에 맞는 고유한 특징이 있습니다.
CFG 스케일 매개변수는 무엇인가요?
▼
CFG(분류기 없는 가이던스) 스케일은 생성된 음성이 입력 텍스트에 얼마나 밀접하게 따르는지를 제어합니다. 높은 값(최대 3.0)은 텍스트 준수를 높이고, 낮은 값(최소 0.5)은 더 창의적인 변화를 허용합니다. 기본값은 균형 잡힌 결과를 위해 1.3입니다.
시드 매개변수는 어떻게 작동하나요?
▼
시드 매개변수는 생성에서 무작위성을 제어할 수 있게 해줍니다. 동일한 시드 값과 동일한 텍스트를 사용하면 동일한 결과가 생성되며, 이는 재현 가능한 생성과 테스트에 유용합니다.
VibeVoice 출력의 오디오 품질은 어떻게 되나요?
▼
VibeVoice는 24kHz 샘플 레이트로 오디오를 생성하여 고품질, 명료하고 자연스러운 음성을 제공합니다. 출력은 전문 내레이션 작업과 콘텐츠 생성에 적합합니다.
VibeVoice 생성은 얼마나 빠른가요?
▼
VibeVoice는 빠른 생성을 위해 최적화되어 있어 실시간 애플리케이션과 대화형 미디어에 적합합니다. 생성 속도는 텍스트 길이와 서버 부하에 따라 달라지지만, 일반적으로 몇 초 안에 완료됩니다.
VibeVoice를 상업용 프로젝트에 사용할 수 있나요?
▼
네, YouTube 비디오, 팟캐스트, e러닝, 오디오북, 광고 등 포함한 상업용 프로젝트에 VibeVoice로 생성된 오디오를 사용할 수 있습니다. 사용 사례에 대한 구체적인 라이선스 조항을 확인하세요.
VibeVoice의 최대 텍스트 길이는 얼마인가요?
▼
VibeVoice는 긴 텍스트 입력을 지원합니다. 매우 긴 텍스트의 경우 최적의 성능을 위해 여러 세그먼트로 나누는 것을 고려하세요. 가격은 1000자마다 계산됩니다.
VibeVoice의 가격은 어떻게 계산되나요?
▼
VibeVoice는 텍스트 1000자마다 6 크레딧을 청구합니다. 1000자 미만의 텍스트는 1000으로 반올림됩니다. 이로 인해 가장 비용 효율적인 TTS 솔루션 중 하나가 됩니다.
가격
무료 등급 사용 가능
기술 사양
| 출력 형식 | 고품질 오디오 (MP3) |
| 샘플 레이트 | 24kHz |
| 처리 시간 | 빠른 생성 |
| 비용 | 1000자당 6 크레딧 |
| CFG 스케일 범위 | 0.5 - 3.0 |
| 사용 가능한 스피커 | 6개 보이스 (Frank, Wayne, Carter, Emma, Grace, Mike) |
| 재현 가능한 생성 | 예 (시드 매개변수 통해) |