Spaces:
Sleeping
Sleeping
| title: F5-TTS Thai | |
| emoji: 🎤 | |
| colorFrom: blue | |
| colorTo: purple | |
| sdk: gradio | |
| sdk_version: 4.44.0 | |
| app_file: app.py | |
| pinned: false | |
| license: mit | |
| python_version: 3.10 | |
| hardware: cpu-basic | |
| # F5-TTS ภาษาไทย 🎤 | |
| Zero-shot Text-to-Speech สำหรับภาษาไทย ด้วยโมเดล F5-TTS | |
| ## ✨ Features | |
| - **Multi-Speech Generation**: สร้างเสียงพูดหลายสไตล์ในไฟล์เดียว | |
| - **Voice Cloning**: โคลนเสียงจากไฟล์ตัวอย่างสั้นๆ | |
| - **Thai Language Support**: รองรับภาษาไทยอย่างเต็มรูปแบบ | |
| - **Real-time Processing**: ประมวลผลแบบ real-time | |
| - **Segment Editing**: แก้ไขและปรับแต่งเสียงแต่ละส่วนได้ | |
| ## 🚀 วิธีใช้งาน | |
| ### Multi-Speech Generation | |
| 1. **เพิ่มประเภทคำพูด**: คลิก "เพิ่มประเภทคำพูด" เพื่อเพิ่มสไตล์เสียงใหม่ | |
| 2. **อัปโหลดเสียงตัวอย่าง**: อัปโหลดไฟล์เสียงสำหรับแต่ละสไตล์ | |
| 3. **ใส่ข้อความต้นฉบับ**: พิมพ์ข้อความที่สอดคล้องกับเสียงตัวอย่าง | |
| 4. **เขียนสคริปต์**: ใช้รูปแบบ `{ชื่อสไตล์} ข้อความที่จะพูด` | |
| ### ตัวอย่างการใช้งาน | |
| ``` | |
| {ปกติ} สวัสดีครับ มีอะไรให้ผมช่วยไหมครับ | |
| {เศร้า} ผมเครียดจริงๆ นะตอนนี้... | |
| {โกรธ} รู้ไหม! เธอไม่ควรอยู่ที่นี่! | |
| {กระซิบ} ฉันมีอะไรจะบอกคุณ แต่มันเป็นความลับนะ | |
| ``` | |
| ## ⚙️ Technical Details | |
| ### Models Used | |
| - **F5-TTS**: Zero-shot text-to-speech model | |
| - **Vocoder**: Neural vocoder for high-quality audio synthesis | |
| - **Text Processing**: Thai text normalization and processing | |
| ### System Requirements | |
| - **RAM**: อย่างน้อย 4GB (แนะนำ 8GB+) | |
| - **GPU**: ไม่จำเป็น แต่จะช่วยเพิ่มความเร็ว | |
| - **Storage**: ~2GB สำหรับโมเดลและ dependencies | |
| ## 🔧 Configuration | |
| ### Model Settings | |
| - **NFE Steps**: ควบคุมคุณภาพเสียง (16-64) | |
| - **Cross Fade Duration**: ปรับการต่อเสียงระหว่างส่วน | |
| - **Speed**: ปรับความเร็วการพูด | |
| - **CFG Strength**: ปรับความแข็งแกร่งของ guidance | |
| ### Tips สำหรับผลลัพธ์ที่ดี | |
| 1. **เสียงตัวอย่าง**: ใช้เสียงที่ชัดเจน ไม่มีเสียงรบกวน ความยาว 5-10 วินาที | |
| 2. **ข้อความต้นฉบับ**: ให้ตรงกับเสียงตัวอย่างที่สุด | |
| 3. **ข้อความที่จะสร้าง**: เว้นวรรคและใส่เครื่องหมายวรรคตอนให้ชัดเจน | |
| 4. **การตั้งค่า**: เริ่มด้วยค่า default แล้วค่อยปรับแต่ง | |
| ## 🚨 Limitations | |
| - รองรับเฉพาะภาษาไทยเป็นหลัก | |
| - คุณภาพเสียงขึ้นอยู่กับเสียงตัวอย่าง | |
| - ใช้เวลาในการประมวลผลตามความยาวข้อความ | |
| - ต้องใช้ internet เพื่อดาวน์โหลดโมเดล | |
| ## 📝 License | |
| MIT License - ใช้งานได้อย่างอิสระ | |
| ## 🤝 Contributing | |
| สามารถมีส่วนร่วมพัฒนาได้ที่ [GitHub Repository](https://github.com/yourusername/F5-TTS-THAI) | |
| ## 🐛 Bug Reports | |
| หากพบปัญหาการใช้งาน กรุณาแจ้งได้ที่ Issues ของ GitHub Repository |