I

IndexTTS

IndexTTS — это система преобразования текста в речь промышленного уровня от Bilibili, которая обеспечивает высококачественный синтез голоса с клонированием голоса с нуля, многоязыковой поддержкой и возможностями управления эмоциями.

Index TTS 2.0 Voice Generation

Generate natural and clear speech using reference audio and text

app.audioapp.click-upload

app.audioapp.audio-file-requirements

0 / 2000 characters

Credits Needed: 0

Pricing based on estimated audio duration, differentiated for CJK and Latin languages

No audio generated yet

Upload reference audio and enter text to generate

Ключевые особенности IndexTTS

IndexTTS — это система преобразования текста в речь промышленного уровня, разработанная Bilibili, предлагающая клонирование голоса с нуля, многоязыковую поддержку и возможности управления эмоциями.

Клонирование голоса с нуля

Воссоздайте характеристики голоса любого говорящего, используя всего лишь короткий эталонный аудиоклип без дополнительного обучения

Коррекция произношения

Продвинутая система коррекции на основе пиньиня, которая идеально обрабатывает полифонические символы, редкие слова и нюансы произношения

Многоязыковая поддержка

Легко синтезируйте речь на нескольких языках, включая китайский и английский, с естественным переключением кода

Управление эмоциями

Управляйте эмоциональными тонами в синтезированной речи, чтобы создать более выразительное и естественное звучание аудио

Высококачественный звук

Интегрированный вокодер BigVGAN2 обеспечивает превосходное качество звука с высокой степенью сходства с говорящим (MOS: 4.01)

Управление паузами

Точно контролируйте ритм речи и паузы с помощью знаков препинания для естественного звучания

Популярные варианты использования

Узнайте, как IndexTTS может преобразовать ваш рабочий процесс создания аудиоконтента

Создание контента

Создавайте естественные закадровые голоса для видео, подкастов и образовательного контента без записывающего оборудования

Производство аудиокниг

Преобразуйте книги и статьи в увлекательные аудиокниги с постоянным качеством голоса и эмоциональным выражением

Изучение языков

Создавайте примеры произношения и материалы для прослушивания для языкового образования с качеством, близким к носителям языка

Доступность

Сделайте письменный контент доступным с помощью высококачественного преобразования текста в речь для пользователей с нарушениями зрения

Клонирование голоса

Сохраняйте и воспроизводите голоса для персонализированных AI-помощников, виртуальных персонажей или в памятных целях

Многоязычные медиа

Создавайте многоязычный контент с естественным звучанием голосов на разных языках для глобальной аудитории

Руководство по вводу текста для IndexTTS

Узнайте, как создавать эффективные текстовые запросы для достижения оптимальных результатов синтеза голоса

Основные элементы

Четкая структура текста

Используйте правильную пунктуацию для управления паузами и ритмом в сгенерированной речи

Example: Здравствуйте, добро пожаловать в IndexTTS. Сегодня мы изучим технологию клонирования голоса.

Подсказки по произношению

Для китайского текста используйте нотацию пиньинь для исправления полифонических символов

Example: 重[chóng]要的事情说三[sān]遍

Эмоциональные теги

Укажите эмоциональные тона, чтобы сделать речь более выразительной и естественной

Example: [Радостный] Я так рад поделиться с вами этой новостью!

Смешивание языков

Легко смешивайте китайский и английский в своем текстовом вводе

Example: 我今天学习了 machine learning 和 deep learning 的基础知识

Профессиональные советы для достижения лучших результатов

Используйте естественную пунктуацию

Добавляйте запятые, точки и восклицательные знаки естественным образом, чтобы контролировать ритм речи и паузы

Качественный эталонный звук

Для клонирования голоса используйте чистый эталонный звук с минимальным фоновым шумом (оптимально 5-10 секунд)

Разбивайте длинные тексты

Разделите очень длинные тексты на более мелкие фрагменты для более стабильного качества и упрощения обработки

Проверьте произношение

Для китайского текста с редкими символами проверьте произношение и при необходимости добавьте исправления пиньинь

Базовый и улучшенный ввод

Базовый ввод

"今天天气很好"

Улучшенный ввод

"今天天气很好,让我们出去走走吧!"

Базовый ввод

"I have great news to share"

Улучшенный ввод с эмоциями

"[Excited] I have great news to share with everyone!"

Как использовать IndexTTS

Выполните эти простые шаги, чтобы сгенерировать высококачественную речь из вашего текста

1

Подготовьте свой текст

Введите или вставьте текст, который хотите преобразовать в речь. Используйте правильную пунктуацию и при необходимости добавьте подсказки по произношению.

2

Загрузите эталонный звук (необязательно)

Для клонирования голоса загрузите 5-10-секундный чистый аудиообразец целевого голоса. Пропустите этот шаг, чтобы использовать голоса по умолчанию.

3

Выберите язык и эмоцию

Выберите свой основной язык (китайский/английский) и выберите эмоциональный тег, если хотите выразительную речь.

4

Сгенерируйте и скачайте

Нажмите «Сгенерировать», чтобы создать свой звук. Предварительно просмотрите результат и скачайте аудиофайл, когда будете удовлетворены.

Быстрые советы

  • Эталонный звук должен быть чистым, с минимальным фоновым шумом для достижения наилучших результатов клонирования голоса
  • Обработка более длинных текстов может занять больше времени — рассмотрите возможность разбиения их на более мелкие сегменты
  • Поэкспериментируйте с различными шаблонами пунктуации, чтобы добиться желаемого ритма речи
  • Для китайского текста исправления пиньинь могут значительно повысить точность произношения

Качество сгенерированной речи зависит от четкости входного текста и качества эталонного звука (для клонирования голоса). Для достижения наилучших результатов используйте хорошо отформатированный текст с естественной пунктуацией.

FAQ

Часто задаваемые вопросы

Найдите ответы на часто задаваемые вопросы об IndexTTS

Готовы создавать естественную речь?

Начните использовать IndexTTS сегодня, чтобы преобразовать свой текст в высококачественную, естественно звучащую речь с расширенными возможностями клонирования голоса

IndexTTS обучен на 25 000 часах китайского аудио и 9 000 часах английского аудио, что обеспечивает качество профессионального уровня для ваших проектов