F5-TTS-THAI / README_DEPLOYMENT.md
pythonlearnreal's picture
Upload folder using huggingface_hub
106478e verified
---
title: F5-TTS Thai
emoji: 🎤
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: false
license: mit
python_version: 3.10
hardware: cpu-basic
---
# F5-TTS ภาษาไทย 🎤
Zero-shot Text-to-Speech สำหรับภาษาไทย ด้วยโมเดล F5-TTS
## ✨ Features
- **Multi-Speech Generation**: สร้างเสียงพูดหลายสไตล์ในไฟล์เดียว
- **Voice Cloning**: โคลนเสียงจากไฟล์ตัวอย่างสั้นๆ
- **Thai Language Support**: รองรับภาษาไทยอย่างเต็มรูปแบบ
- **Real-time Processing**: ประมวลผลแบบ real-time
- **Segment Editing**: แก้ไขและปรับแต่งเสียงแต่ละส่วนได้
## 🚀 วิธีใช้งาน
### Multi-Speech Generation
1. **เพิ่มประเภทคำพูด**: คลิก "เพิ่มประเภทคำพูด" เพื่อเพิ่มสไตล์เสียงใหม่
2. **อัปโหลดเสียงตัวอย่าง**: อัปโหลดไฟล์เสียงสำหรับแต่ละสไตล์
3. **ใส่ข้อความต้นฉบับ**: พิมพ์ข้อความที่สอดคล้องกับเสียงตัวอย่าง
4. **เขียนสคริปต์**: ใช้รูปแบบ `{ชื่อสไตล์} ข้อความที่จะพูด`
### ตัวอย่างการใช้งาน
```
{ปกติ} สวัสดีครับ มีอะไรให้ผมช่วยไหมครับ
{เศร้า} ผมเครียดจริงๆ นะตอนนี้...
{โกรธ} รู้ไหม! เธอไม่ควรอยู่ที่นี่!
{กระซิบ} ฉันมีอะไรจะบอกคุณ แต่มันเป็นความลับนะ
```
## ⚙️ Technical Details
### Models Used
- **F5-TTS**: Zero-shot text-to-speech model
- **Vocoder**: Neural vocoder for high-quality audio synthesis
- **Text Processing**: Thai text normalization and processing
### System Requirements
- **RAM**: อย่างน้อย 4GB (แนะนำ 8GB+)
- **GPU**: ไม่จำเป็น แต่จะช่วยเพิ่มความเร็ว
- **Storage**: ~2GB สำหรับโมเดลและ dependencies
## 🔧 Configuration
### Model Settings
- **NFE Steps**: ควบคุมคุณภาพเสียง (16-64)
- **Cross Fade Duration**: ปรับการต่อเสียงระหว่างส่วน
- **Speed**: ปรับความเร็วการพูด
- **CFG Strength**: ปรับความแข็งแกร่งของ guidance
### Tips สำหรับผลลัพธ์ที่ดี
1. **เสียงตัวอย่าง**: ใช้เสียงที่ชัดเจน ไม่มีเสียงรบกวน ความยาว 5-10 วินาที
2. **ข้อความต้นฉบับ**: ให้ตรงกับเสียงตัวอย่างที่สุด
3. **ข้อความที่จะสร้าง**: เว้นวรรคและใส่เครื่องหมายวรรคตอนให้ชัดเจน
4. **การตั้งค่า**: เริ่มด้วยค่า default แล้วค่อยปรับแต่ง
## 🚨 Limitations
- รองรับเฉพาะภาษาไทยเป็นหลัก
- คุณภาพเสียงขึ้นอยู่กับเสียงตัวอย่าง
- ใช้เวลาในการประมวลผลตามความยาวข้อความ
- ต้องใช้ internet เพื่อดาวน์โหลดโมเดล
## 📝 License
MIT License - ใช้งานได้อย่างอิสระ
## 🤝 Contributing
สามารถมีส่วนร่วมพัฒนาได้ที่ [GitHub Repository](https://github.com/yourusername/F5-TTS-THAI)
## 🐛 Bug Reports
หากพบปัญหาการใช้งาน กรุณาแจ้งได้ที่ Issues ของ GitHub Repository