I

IndexTTS

IndexTTS es un sistema de texto a voz de grado industrial de Bilibili que ofrece síntesis de voz de alta calidad con clonación de voz zero-shot, soporte multilingüe y capacidades de control de emociones.

Guía de Entrada de Texto para IndexTTS

Aprende a crear entradas de texto efectivas para obtener resultados óptimos de síntesis de voz

Elementos Esenciales

Estructura de Texto Clara

Utiliza la puntuación adecuada para controlar las pausas y el ritmo en el habla generada

Example: Hola, bienvenido a IndexTTS. Hoy, exploraremos la tecnología de clonación de voz.

Sugerencias de Pronunciación

Para texto en chino, utiliza la notación pinyin para corregir caracteres polifónicos

Example: 重[chóng]要的事情说三[sān]遍

Etiquetas de Emoción

Especifica tonos emocionales para hacer que el habla sea más expresiva y natural

Example: [Feliz] ¡Estoy muy emocionado de compartir esta noticia contigo!

Mezcla de Idiomas

Mezcla sin problemas chino e inglés en tu entrada de texto

Example: 我今天学习了 machine learning 和 deep learning 的基础知识

Consejos Profesionales para Mejores Resultados

Utiliza Puntuación Natural

Añade comas, puntos y signos de exclamación de forma natural para controlar el ritmo del habla y las pausas

Audio de Referencia de Calidad

Para la clonación de voz, utiliza audio de referencia claro con un mínimo de ruido de fondo (5-10 segundos es lo óptimo)

Divide Textos Largos

Divide los textos muy largos en fragmentos más pequeños para una calidad más consistente y un procesamiento más fácil

Prueba la Pronunciación

Para texto en chino con caracteres raros, prueba la pronunciación y añade correcciones de pinyin si es necesario

Entrada Básica vs Mejorada

Entrada Básica

"今天天气很好"

Entrada Mejorada

"今天天气很好,让我们出去走走吧!"

Entrada Básica

"I have great news to share"

Entrada Mejorada con Emoción

"[Excited] I have great news to share with everyone!"

Cómo Usar IndexTTS

Sigue estos sencillos pasos para generar habla de alta calidad a partir de tu texto

1

Prepara Tu Texto

Introduce o pega el texto que quieres convertir a voz. Utiliza la puntuación adecuada y añade sugerencias de pronunciación si es necesario.

2

Sube Audio de Referencia (Opcional)

Para la clonación de voz, sube una muestra de audio clara de 5-10 segundos de la voz objetivo. Omite este paso para utilizar voces predeterminadas.

3

Selecciona Idioma y Emoción

Elige tu idioma principal (chino/inglés) y selecciona una etiqueta de emoción si quieres un habla expresiva.

4

Genera y Descarga

Haz clic en generar para crear tu audio. Previsualiza el resultado y descarga el archivo de audio cuando estés satisfecho.

Consejos Rápidos

  • El audio de referencia debe ser claro con un mínimo de ruido de fondo para obtener los mejores resultados de clonación de voz
  • Los textos más largos pueden tardar más tiempo en procesarse; considera dividirlos en segmentos más pequeños
  • Experimenta con diferentes patrones de puntuación para lograr el ritmo de habla deseado
  • Para texto en chino, las correcciones de pinyin pueden mejorar significativamente la precisión de la pronunciación

La calidad del habla generada depende de la claridad del texto de entrada y la calidad del audio de referencia (para la clonación de voz). Para obtener los mejores resultados, utiliza texto bien formateado con puntuación natural.

FAQ

Preguntas Frecuentes

Encuentra respuestas a preguntas comunes sobre IndexTTS

¿Listo para Crear Habla Natural?

Comienza a usar IndexTTS hoy mismo para transformar tu texto en habla de alta calidad y sonido natural con capacidades avanzadas de clonación de voz

IndexTTS está entrenado con 25,000 horas de audio en chino y 9,000 horas de audio en inglés, lo que garantiza una calidad de grado profesional para tus proyectos