File size: 4,562 Bytes
106478e
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
---
title: F5-TTS Thai
emoji: 🎤
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: false
license: mit
python_version: 3.10
hardware: cpu-basic
---

# F5-TTS ภาษาไทย 🎤

Zero-shot Text-to-Speech สำหรับภาษาไทย ด้วยโมเดล F5-TTS

## ✨ Features

- **Multi-Speech Generation**: สร้างเสียงพูดหลายสไตล์ในไฟล์เดียว
- **Voice Cloning**: โคลนเสียงจากไฟล์ตัวอย่างสั้นๆ
- **Thai Language Support**: รองรับภาษาไทยอย่างเต็มรูปแบบ
- **Real-time Processing**: ประมวลผลแบบ real-time
- **Segment Editing**: แก้ไขและปรับแต่งเสียงแต่ละส่วนได้

## 🚀 วิธีใช้งาน

### Multi-Speech Generation

1. **เพิ่มประเภทคำพูด**: คลิก "เพิ่มประเภทคำพูด" เพื่อเพิ่มสไตล์เสียงใหม่
2. **อัปโหลดเสียงตัวอย่าง**: อัปโหลดไฟล์เสียงสำหรับแต่ละสไตล์
3. **ใส่ข้อความต้นฉบับ**: พิมพ์ข้อความที่สอดคล้องกับเสียงตัวอย่าง
4. **เขียนสคริปต์**: ใช้รูปแบบ `{ชื่อสไตล์} ข้อความที่จะพูด`

### ตัวอย่างการใช้งาน

```
{ปกติ} สวัสดีครับ มีอะไรให้ผมช่วยไหมครับ
{เศร้า} ผมเครียดจริงๆ นะตอนนี้...
{โกรธ} รู้ไหม! เธอไม่ควรอยู่ที่นี่!
{กระซิบ} ฉันมีอะไรจะบอกคุณ แต่มันเป็นความลับนะ
```

## ⚙️ Technical Details

### Models Used
- **F5-TTS**: Zero-shot text-to-speech model
- **Vocoder**: Neural vocoder for high-quality audio synthesis
- **Text Processing**: Thai text normalization and processing

### System Requirements
- **RAM**: อย่างน้อย 4GB (แนะนำ 8GB+)
- **GPU**: ไม่จำเป็น แต่จะช่วยเพิ่มความเร็ว
- **Storage**: ~2GB สำหรับโมเดลและ dependencies

## 🔧 Configuration

### Model Settings
- **NFE Steps**: ควบคุมคุณภาพเสียง (16-64)
- **Cross Fade Duration**: ปรับการต่อเสียงระหว่างส่วน
- **Speed**: ปรับความเร็วการพูด
- **CFG Strength**: ปรับความแข็งแกร่งของ guidance

### Tips สำหรับผลลัพธ์ที่ดี
1. **เสียงตัวอย่าง**: ใช้เสียงที่ชัดเจน ไม่มีเสียงรบกวน ความยาว 5-10 วินาที
2. **ข้อความต้นฉบับ**: ให้ตรงกับเสียงตัวอย่างที่สุด
3. **ข้อความที่จะสร้าง**: เว้นวรรคและใส่เครื่องหมายวรรคตอนให้ชัดเจน
4. **การตั้งค่า**: เริ่มด้วยค่า default แล้วค่อยปรับแต่ง

## 🚨 Limitations

- รองรับเฉพาะภาษาไทยเป็นหลัก
- คุณภาพเสียงขึ้นอยู่กับเสียงตัวอย่าง
- ใช้เวลาในการประมวลผลตามความยาวข้อความ
- ต้องใช้ internet เพื่อดาวน์โหลดโมเดล

## 📝 License

MIT License - ใช้งานได้อย่างอิสระ

## 🤝 Contributing

สามารถมีส่วนร่วมพัฒนาได้ที่ [GitHub Repository](https://github.com/yourusername/F5-TTS-THAI)

## 🐛 Bug Reports

หากพบปัญหาการใช้งาน กรุณาแจ้งได้ที่ Issues ของ GitHub Repository