Question 1

VibeVoice에서 어떤 스피커를 사용할 수 있나요?

Accepted Answer

VibeVoice는 6개 스피커 보이스를 제공합니다: Frank, Wayne, Carter, Emma, Grace, Mike. 각 보이스는 내레이션부터 캐릭터 보이스까지 다양한 콘텐츠 유형에 맞는 고유한 특징이 있습니다.

Question 2

CFG 스케일 매개변수는 무엇인가요?

Accepted Answer

CFG(분류기 없는 가이던스) 스케일은 생성된 음성이 입력 텍스트에 얼마나 밀접하게 따르는지를 제어합니다. 높은 값(최대 3.0)은 텍스트 준수를 높이고, 낮은 값(최소 0.5)은 더 창의적인 변화를 허용합니다. 기본값은 균형 잡힌 결과를 위해 1.3입니다.

Question 3

시드 매개변수는 어떻게 작동하나요?

Accepted Answer

시드 매개변수는 생성에서 무작위성을 제어할 수 있게 해줍니다. 동일한 시드 값과 동일한 텍스트를 사용하면 동일한 결과가 생성되며, 이는 재현 가능한 생성과 테스트에 유용합니다.

Question 4

VibeVoice 출력의 오디오 품질은 어떻게 되나요?

Accepted Answer

VibeVoice는 24kHz 샘플 레이트로 오디오를 생성하여 고품질, 명료하고 자연스러운 음성을 제공합니다. 출력은 전문 내레이션 작업과 콘텐츠 생성에 적합합니다.

Question 5

VibeVoice 생성은 얼마나 빠른가요?

Accepted Answer

VibeVoice는 빠른 생성을 위해 최적화되어 있어 실시간 애플리케이션과 대화형 미디어에 적합합니다. 생성 속도는 텍스트 길이와 서버 부하에 따라 달라지지만, 일반적으로 몇 초 안에 완료됩니다.

Question 6

VibeVoice를 상업용 프로젝트에 사용할 수 있나요?

Accepted Answer

네, YouTube 비디오, 팟캐스트, e러닝, 오디오북, 광고 등 포함한 상업용 프로젝트에 VibeVoice로 생성된 오디오를 사용할 수 있습니다. 사용 사례에 대한 구체적인 라이선스 조항을 확인하세요.

Question 7

VibeVoice의 최대 텍스트 길이는 얼마인가요?

Accepted Answer

VibeVoice는 긴 텍스트 입력을 지원합니다. 매우 긴 텍스트의 경우 최적의 성능을 위해 여러 세그먼트로 나누는 것을 고려하세요. 가격은 1000자마다 계산됩니다.

Question 8

VibeVoice의 가격은 어떻게 계산되나요?

Accepted Answer

VibeVoice는 텍스트 1000자마다 6 크레딧을 청구합니다. 1000자 미만의 텍스트는 1000으로 반올림됩니다. 이로 인해 가장 비용 효율적인 TTS 솔루션 중 하나가 됩니다.

출력 형식	고품질 오디오 (MP3)
샘플 레이트	24kHz
처리 시간	빠른 생성
비용	1000자당 6 크레딧
CFG 스케일 범위	0.5 - 3.0
사용 가능한 스피커	6개 보이스 (Frank, Wayne, Carter, Emma, Grace, Mike)
재현 가능한 생성	예 (시드 매개변수 통해)

VibeVoice - 텍스트 음성 변환

Save Your Audios