I

IndexTTS

IndexTTS เป็นระบบแปลงข้อความเป็นเสียงระดับอุตสาหกรรมโดย Bilibili ที่ให้การสังเคราะห์เสียงคุณภาพสูงด้วยการโคลนนิ่งเสียงแบบ Zero-Shot, รองรับหลายภาษา และความสามารถในการควบคุมอารมณ์

Index TTS 2.0 Voice Generation

Generate natural and clear speech using reference audio and text

app.audioapp.click-upload

app.audioapp.audio-file-requirements

0 / 2000 characters

Credits Needed: 0

Pricing based on estimated audio duration, differentiated for CJK and Latin languages

No audio generated yet

Upload reference audio and enter text to generate

คุณสมบัติหลักของ IndexTTS

IndexTTS เป็นระบบแปลงข้อความเป็นเสียงระดับอุตสาหกรรมที่พัฒนาโดย Bilibili มีความสามารถในการโคลนนิ่งเสียงแบบ Zero-Shot, รองรับหลายภาษา และควบคุมอารมณ์ได้

การโคลนนิ่งเสียงแบบ Zero-Shot

จำลองลักษณะเสียงของลำโพงใดก็ได้โดยใช้เพียงคลิปเสียงอ้างอิงสั้นๆ โดยไม่ต้องฝึกเพิ่มเติม

การแก้ไขการออกเสียง

ระบบแก้ไขที่ใช้พินอินขั้นสูงที่จัดการตัวอักษรที่มีหลายเสียง คำที่หายาก และความแตกต่างของการออกเสียงได้อย่างสมบูรณ์แบบ

รองรับหลายภาษา

สังเคราะห์เสียงพูดในหลายภาษาได้อย่างราบรื่น รวมถึงภาษาจีนและภาษาอังกฤษ พร้อมการสลับภาษาที่เป็นธรรมชาติ

การควบคุมอารมณ์

ควบคุมโทนอารมณ์ในการสังเคราะห์เสียงพูดเพื่อสร้างเสียงที่แสดงออกและเป็นธรรมชาติยิ่งขึ้น

เสียงคุณภาพสูง

Vocoder BigVGAN2 ในตัวช่วยให้มั่นใจได้ถึงคุณภาพเสียงที่เหนือกว่าด้วยความคล้ายคลึงของลำโพงสูง (MOS: 4.01)

การควบคุมการหยุด

ควบคุมจังหวะการพูดและการหยุดได้อย่างแม่นยำผ่านเครื่องหมายวรรคตอนเพื่อการนำเสนอที่เป็นธรรมชาติ

กรณีการใช้งานยอดนิยม

ค้นพบว่า IndexTTS สามารถเปลี่ยนขั้นตอนการสร้างเนื้อหาเสียงของคุณได้อย่างไร

การสร้างเนื้อหา

สร้างเสียงพากย์ที่เป็นธรรมชาติสำหรับวิดีโอ พอดแคสต์ และเนื้อหาเพื่อการศึกษาโดยไม่ต้องใช้อุปกรณ์บันทึกเสียง

การผลิตหนังสือเสียง

แปลงหนังสือและบทความเป็นหนังสือเสียงที่น่าสนใจด้วยคุณภาพเสียงที่สม่ำเสมอและการแสดงออกทางอารมณ์

การเรียนรู้ภาษา

สร้างตัวอย่างการออกเสียงและสื่อการฟังสำหรับการศึกษาภาษาด้วยคุณภาพเหมือนเจ้าของภาษา

การเข้าถึง

ทำให้เนื้อหาที่เป็นลายลักษณ์อักษรสามารถเข้าถึงได้ผ่านการแปลงข้อความเป็นเสียงคุณภาพสูงสำหรับผู้พิการทางสายตา

การโคลนนิ่งเสียง

รักษาและจำลองเสียงสำหรับผู้ช่วย AI ส่วนบุคคล ตัวละครเสมือน หรือเพื่อวัตถุประสงค์ในการรำลึก

สื่อหลายภาษา

สร้างเนื้อหาหลายภาษาด้วยเสียงที่เป็นธรรมชาติในภาษาต่างๆ สำหรับผู้ชมทั่วโลก

คู่มือการป้อนข้อความสำหรับ IndexTTS

เรียนรู้วิธีสร้างอินพุตข้อความที่มีประสิทธิภาพเพื่อให้ได้ผลลัพธ์การสังเคราะห์เสียงที่ดีที่สุด

องค์ประกอบสำคัญ

โครงสร้างข้อความที่ชัดเจน

ใช้เครื่องหมายวรรคตอนที่เหมาะสมเพื่อควบคุมการหยุดและจังหวะในการสร้างเสียงพูด

Example: สวัสดี ยินดีต้อนรับสู่ IndexTTS วันนี้เราจะมาสำรวจเทคโนโลยีการโคลนนิ่งเสียงกัน

คำแนะนำในการออกเสียง

สำหรับข้อความภาษาจีน ให้ใช้สัทกรณ์พินอินเพื่อแก้ไขตัวอักษรที่มีหลายเสียง

Example: 重[chóng]要的事情说三[sān]遍

แท็กอารมณ์

ระบุโทนอารมณ์เพื่อให้เสียงพูดแสดงออกและเป็นธรรมชาติมากขึ้น

Example: [Happy] ฉันตื่นเต้นมากที่จะแบ่งปันข่าวนี้ให้คุณฟัง!

การผสมภาษา

ผสมภาษาจีนและภาษาอังกฤษในอินพุตข้อความของคุณได้อย่างราบรื่น

Example: 我今天学习了 machine learning 和 deep learning 的基础知识

เคล็ดลับมือโปรเพื่อผลลัพธ์ที่ดีกว่า

ใช้เครื่องหมายวรรคตอนที่เป็นธรรมชาติ

เพิ่มเครื่องหมายจุลภาค จุด และเครื่องหมายอัศเจรีย์ตามธรรมชาติเพื่อควบคุมจังหวะการพูดและการหยุด

เสียงอ้างอิงคุณภาพ

สำหรับการโคลนนิ่งเสียง ให้ใช้เสียงอ้างอิงที่ชัดเจนโดยมีเสียงรบกวนพื้นหลังน้อยที่สุด (5-10 วินาทีเป็นค่าที่เหมาะสม)

แบ่งข้อความยาวๆ

แบ่งข้อความที่ยาวมากออกเป็นส่วนย่อยๆ เพื่อคุณภาพที่สม่ำเสมอและการประมวลผลที่ง่ายขึ้น

ทดสอบการออกเสียง

สำหรับข้อความภาษาจีนที่มีตัวอักษรหายาก ให้ทดสอบการออกเสียงและเพิ่มการแก้ไขพินอินหากจำเป็น

อินพุตพื้นฐาน vs อินพุตขั้นสูง

อินพุตพื้นฐาน

"วันนี้อากาศดีมาก"

อินพุตขั้นสูง

"วันนี้อากาศดีมาก ออกไปเดินเล่นกันเถอะ!"

อินพุตพื้นฐาน

"ฉันมีข่าวดีจะบอก"

อินพุตขั้นสูงพร้อมอารมณ์

"[Excited] ฉันมีข่าวดีจะบอกทุกคน!"

วิธีใช้ IndexTTS

ทำตามขั้นตอนง่ายๆ เหล่านี้เพื่อสร้างเสียงพูดคุณภาพสูงจากข้อความของคุณ

1

เตรียมข้อความของคุณ

ป้อนหรือวางข้อความที่คุณต้องการแปลงเป็นเสียงพูด ใช้เครื่องหมายวรรคตอนที่เหมาะสมและเพิ่มคำแนะนำในการออกเสียงหากจำเป็น

2

อัปโหลดเสียงอ้างอิง (ไม่บังคับ)

สำหรับการโคลนนิ่งเสียง ให้อัปโหลดตัวอย่างเสียงที่ชัดเจน 5-10 วินาทีของเสียงเป้าหมาย ข้ามขั้นตอนนี้เพื่อใช้เสียงเริ่มต้น

3

เลือกภาษาและอารมณ์

เลือกภาษาหลักของคุณ (จีน/อังกฤษ) และเลือกแท็กอารมณ์หากคุณต้องการเสียงพูดที่แสดงออก

4

สร้างและดาวน์โหลด

คลิกสร้างเพื่อสร้างเสียงของคุณ ดูตัวอย่างผลลัพธ์และดาวน์โหลดไฟล์เสียงเมื่อพอใจ

เคล็ดลับด่วน

  • เสียงอ้างอิงควรชัดเจนโดยมีเสียงรบกวนพื้นหลังน้อยที่สุดเพื่อให้ได้ผลลัพธ์การโคลนนิ่งเสียงที่ดีที่สุด
  • ข้อความที่ยาวขึ้นอาจใช้เวลาในการประมวลผลนานขึ้น - พิจารณาแบ่งออกเป็นส่วนย่อยๆ
  • ทดลองกับรูปแบบเครื่องหมายวรรคตอนต่างๆ เพื่อให้ได้จังหวะการพูดที่คุณต้องการ
  • สำหรับข้อความภาษาจีน การแก้ไขพินอินสามารถปรับปรุงความแม่นยำในการออกเสียงได้อย่างมาก

คุณภาพของเสียงพูดที่สร้างขึ้นขึ้นอยู่กับความชัดเจนของข้อความอินพุตและคุณภาพของเสียงอ้างอิง (สำหรับการโคลนนิ่งเสียง) เพื่อผลลัพธ์ที่ดีที่สุด ให้ใช้ข้อความที่จัดรูปแบบอย่างดีพร้อมเครื่องหมายวรรคตอนที่เป็นธรรมชาติ

FAQ

คำถามที่พบบ่อย

ค้นหาคำตอบสำหรับคำถามทั่วไปเกี่ยวกับ IndexTTS

พร้อมที่จะสร้างเสียงพูดที่เป็นธรรมชาติแล้วหรือยัง

เริ่มใช้ IndexTTS วันนี้เพื่อแปลงข้อความของคุณเป็นเสียงพูดคุณภาพสูงที่เป็นธรรมชาติ พร้อมความสามารถในการโคลนนิ่งเสียงขั้นสูง

IndexTTS ได้รับการฝึกฝนจากเสียงภาษาจีน 25,000 ชั่วโมงและเสียงภาษาอังกฤษ 9,000 ชั่วโมง ทำให้มั่นใจได้ถึงคุณภาพระดับมืออาชีพสำหรับโครงการของคุณ