File size: 3,573 Bytes

21debdc

---
datasets:
- Porameht/processed-voice-th-169k
language:
- th
pipeline_tag: text-to-speech
base_model:
- SWivid/F5-TTS
license: cc-by-4.0
---

#### F5-TTS-ไทย

โมเดล Text To Speech ภาษาไทย

โมเดลหลัก : [SWivid/F5-TTS](https://huggingface.co/SWivid/F5-TTS)

Github : https://github.com/SWivid/F5-TTS

| ชุดข้อมูล | ระยะเวลา(ชั่วโมง) 
|--------|--------|
| [Common Voice (Porameht/processed-voice-th-169k)](https://huggingface.co/datasets/Porameht/processed-voice-th-169k)  | ~160
| [Porjai Dataset](CMKL/Porjai-Thai-voice-dataset-central)         | ~300                  
| Common Voice-EN(อังกฤษ) | ~40                              

- ขนาดโมเดลล่าสุด
  - 1,000,000 Steps
- ภาษาที่รองรับ: ไทย และ อังกฤษ.

- การอ่านข้อความยาวๆ หรือบางคำ ยังไม่ถูกต้อง
  - เสียงตัวอย่างควรมีความยาว 2-8 วินาที
  - สามารถลองปรับลดความเร็วเสียงในการสร้าง เช่น 0.8 หรือ กำหนด seed ใหม่, เพื่อให้ได้เสียงที่ถูกต้อง.
  - เสียงและข้อความต้นฉบับควรเป็นภาษาไทย.
  - ถ้าเสียงต้นฉบับเป็นภาษาอื่นควรเปลี่ยนข้อความต้นฉบับเป็นคำอ่านไทย เช่น Good Morning เป็น กูดมอร์นิ่ง.
  - ถ้าเสียงต้นฉบับมีความเร็วในการอ่านมาก ควรลดความเร็ว เหลือ 0.7-0.8
  
### การใช้งาน

[Github](https://github.com/VYNCX/F5-TTS-THAI)

ติดตั้ง

```sh
pip install f5-tts-th

#จำเป็นต้องติดตั้งเพื่อใช้งานได้มีประสิทธิภาพกับ GPU
pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124
```

ใช้งาน

```sh
from f5_tts_th.tts import TTS
import soundfile as sf

tts = TTS(model="v1") 

wav = tts.infer(
    ref_audio="YOUR_AUDIO_PATH",
    ref_text="ได้รับข่าวคราวของเราที่จะหาที่มันเป็นไปที่จะจัดขึ้น.", 
    gen_text="สวัสดีครับ นี่คือเสียงพูดภาษาไทย.", 
    step=32, 
    cfg=2.0, 
    speed=1.0
)

sf.write("test.wav", wav, 24000)
```

### ตัวอย่างเสียง
- เสียงต้นแบบ
<audio controls><source src="https://huggingface.co/VIZINTZOR/F5-TTS-THAI/resolve/main/sample/ref_audio.wav" type="audio/wav"></audio>
  - ข้อความคำพูด : ฉันเดินทางไปเที่ยวที่จังหวัดเชียงใหม่ในช่วงฤดูหนาวเพื่อสัมผัสอากาศเย็นสบาย
- เสียงที่สร้างขึ้น
<audio controls><source src="https://huggingface.co/VIZINTZOR/F5-TTS-THAI/resolve/main/sample/tts_gen.wav" type="audio/wav"></audio>
  - Seed : 4213936761049775187