I

IndexTTS

IndexTTS — это система преобразования текста в речь промышленного уровня от Bilibili, которая обеспечивает высококачественный синтез голоса с клонированием голоса с нуля, многоязыковой поддержкой и возможностями управления эмоциями.

Руководство по вводу текста для IndexTTS

Узнайте, как создавать эффективные текстовые запросы для достижения оптимальных результатов синтеза голоса

Основные элементы

Четкая структура текста

Используйте правильную пунктуацию для управления паузами и ритмом в сгенерированной речи

Example: Здравствуйте, добро пожаловать в IndexTTS. Сегодня мы изучим технологию клонирования голоса.

Подсказки по произношению

Для китайского текста используйте нотацию пиньинь для исправления полифонических символов

Example: 重[chóng]要的事情说三[sān]遍

Эмоциональные теги

Укажите эмоциональные тона, чтобы сделать речь более выразительной и естественной

Example: [Радостный] Я так рад поделиться с вами этой новостью!

Смешивание языков

Легко смешивайте китайский и английский в своем текстовом вводе

Example: 我今天学习了 machine learning 和 deep learning 的基础知识

Профессиональные советы для достижения лучших результатов

Используйте естественную пунктуацию

Добавляйте запятые, точки и восклицательные знаки естественным образом, чтобы контролировать ритм речи и паузы

Качественный эталонный звук

Для клонирования голоса используйте чистый эталонный звук с минимальным фоновым шумом (оптимально 5-10 секунд)

Разбивайте длинные тексты

Разделите очень длинные тексты на более мелкие фрагменты для более стабильного качества и упрощения обработки

Проверьте произношение

Для китайского текста с редкими символами проверьте произношение и при необходимости добавьте исправления пиньинь

Базовый и улучшенный ввод

Базовый ввод

"今天天气很好"

Улучшенный ввод

"今天天气很好,让我们出去走走吧!"

Базовый ввод

"I have great news to share"

Улучшенный ввод с эмоциями

"[Excited] I have great news to share with everyone!"

Как использовать IndexTTS

Выполните эти простые шаги, чтобы сгенерировать высококачественную речь из вашего текста

1

Подготовьте свой текст

Введите или вставьте текст, который хотите преобразовать в речь. Используйте правильную пунктуацию и при необходимости добавьте подсказки по произношению.

2

Загрузите эталонный звук (необязательно)

Для клонирования голоса загрузите 5-10-секундный чистый аудиообразец целевого голоса. Пропустите этот шаг, чтобы использовать голоса по умолчанию.

3

Выберите язык и эмоцию

Выберите свой основной язык (китайский/английский) и выберите эмоциональный тег, если хотите выразительную речь.

4

Сгенерируйте и скачайте

Нажмите «Сгенерировать», чтобы создать свой звук. Предварительно просмотрите результат и скачайте аудиофайл, когда будете удовлетворены.

Быстрые советы

  • Эталонный звук должен быть чистым, с минимальным фоновым шумом для достижения наилучших результатов клонирования голоса
  • Обработка более длинных текстов может занять больше времени — рассмотрите возможность разбиения их на более мелкие сегменты
  • Поэкспериментируйте с различными шаблонами пунктуации, чтобы добиться желаемого ритма речи
  • Для китайского текста исправления пиньинь могут значительно повысить точность произношения

Качество сгенерированной речи зависит от четкости входного текста и качества эталонного звука (для клонирования голоса). Для достижения наилучших результатов используйте хорошо отформатированный текст с естественной пунктуацией.

FAQ

Часто задаваемые вопросы

Найдите ответы на часто задаваемые вопросы об IndexTTS

Готовы создавать естественную речь?

Начните использовать IndexTTS сегодня, чтобы преобразовать свой текст в высококачественную, естественно звучащую речь с расширенными возможностями клонирования голоса

IndexTTS обучен на 25 000 часах китайского аудио и 9 000 часах английского аудио, что обеспечивает качество профессионального уровня для ваших проектов