---
datasets:
- Porameht/processed-voice-th-169k
language:
- th
pipeline_tag: text-to-speech
base_model:
- SWivid/F5-TTS
license: cc-by-4.0
---

#### F5-TTS-ไทย

โมเดลหลัก : [SWivid/F5-TTS](https://huggingface.co/SWivid/F5-TTS)

Github : https://github.com/SWivid/F5-TTS

ชุดข้อมูลที่นำไปเทรน
- [Porameht/processed-voice-th-169k](https://huggingface.co/datasets/Porameht/processed-voice-th-169k)
- [Common Voice](https://commonvoice.mozilla.org/)

- จำนวน 
  - 200,000 เสียง
  - ภาษาไทย ประมาณ 190 ชั่วโมง
  - ภาษาอังกฤษ ประมาณ 40 ชัวโมง
- ขนาดโมเดลล่าสุด
  - 650,000 Steps
- ภาษาที่รองรับ: ไทย และ อังกฤษ.
- การอ่านข้อความยาวๆ หรือบางคำ ยังไม่ถูกต้อง
  - เสียงตัวอย่างควรมีความยาว 5-10 นาที
  - สามารถลองสร้าง หรือ กำหนด seed ใหม่ เพื่อให้ได้เสียงที่ถูกต้อง
  - เสียงและข้อความต้นฉบับควรเป็นภาษาไทย
  - ถ้าเสียงต้นฉบับเป็นภาษาอื่นควรเปลี่ยนข้อความต้นฉบับเป็นคำอ่านไทย เช่น Good Morning เป็น กูดมอร์นิ่ง
  
### การใช้งาน

Github : https://github.com/VYNCX/F5-TTS-THAI

ติดตั้ง

```sh
git clone https://github.com/VYNCX/F5-TTS-THAI.git
cd F5-TTS-THAI
pip install git+https://github.com/VYNCX/F5-TTS-THAI.git

#จำเป็นต้องติดตั้งเพื่อใช้งานได้มีประสิทธิภาพกับ GPU
pip install torch==2.3.0+cu118 torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
```

ใช้งานบน Gradio

```sh
f5-tts_webui
```

### ฝึกอบรม และ Finetune
ใช้งานบน Google Colab [Finetune](https://colab.research.google.com/drive/1jwzw4Jn1qF8-F0o3TND68hLHdIqqgYEe?usp=sharing) หรือ 

- ติดตั้ง

```sh
  cd F5-TTS-THAI
  pip install -e .
```

- เปิด Gradio
```sh
  f5-tts_finetune-gradio
```

### ตัวอย่างเสียง
- เสียงต้นแบบ
<audio controls><source src="https://huggingface.co/VIZINTZOR/F5-TTS-THAI/resolve/main/sample/ref_audio.wav" type="audio/wav"></audio>
  - ข้อความคำพูด : ฉันเดินทางไปเที่ยวที่จังหวัดเชียงใหม่ในช่วงฤดูหนาวเพื่อสัมผัสอากาศเย็นสบาย
- เสียงที่สร้างขึ้น
<audio controls><source src="https://huggingface.co/VIZINTZOR/F5-TTS-THAI/resolve/main/sample/tts_gen.wav" type="audio/wav"></audio>
  - Seed : 4213936761049775187