Spaces:
Sleeping
Sleeping
File size: 5,886 Bytes
106478e a81f7a1 106478e |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 |
---
title: F5-TTS-THAI
app_file: app.py
sdk: gradio
sdk_version: 5.38.0
---
# F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching. Support For Thai language.
[](https://github.com/SWivid/F5-TTS)
[](https://arxiv.org/abs/2410.06885)
[](https://x-lance.sjtu.edu.cn/)
[](https://www.pcl.ac.cn)
<!-- <img src="https://github.com/user-attachments/assets/12d7749c-071a-427c-81bf-b87b91def670" alt="Watermark" style="width: 40px; height: auto"> -->
Text-to-Speech (TTS) ภาษาไทย — เครื่องมือสร้างเสียงพูดจากข้อความด้วยเทคนิค Flow Matching ด้วยโมเดล F5-TTS
โมเดล Finetune : [VIZINTZOR/F5-TTS-THAI](https://huggingface.co/VIZINTZOR/F5-TTS-THAI)
- โมเดล last steps : 1,000,000
- การอ่านข้อความยาวๆ หรือบางคำ ยังไม่ถูกต้อง
# การติดตั้ง
ก่อนเริ่มใช้งาน ต้องติดตั้ง:
- Python (แนะนำเวอร์ชัน 3.10 ขึ้นไป)
- [CUDA](https://developer.nvidia.com/cuda-downloads) แนะนำ CUDA version 11.8
```sh
git clone https://github.com/VYNCX/F5-TTS-THAI.git
cd F5-TTS-THAI
python -m venv venv
call venv/scripts/activate
pip install git+https://github.com/VYNCX/F5-TTS-THAI.git
#จำเป็นต้องติดตั้งเพื่อใช้งานได้มีประสิทธิภาพกับ GPU
pip install torch==2.3.0+cu118 torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
```
หรือ รันไฟล์ `install.bat` เพื่อติดตั้ง
# การใช้งาน
สามารถรันไฟล์ `app-webui.bat` เพื่อใช้งานได้
```sh
python src/f5_tts/f5_tts_webui.py
```
หรือ
```sh
f5-tts_webui
```
ใช้งานบน [Google Colab](https://colab.research.google.com/drive/10yb4-mGbSoyyfMyDX1xVF6uLqfeoCNxV?usp=sharing)
คำแนะนำ :
- สามารถตั้งค่า "ตัวอักษรสูงสุดต่อส่วน" หรือ max_chars เพื่อลดความผิดพลาดการอ่าน แต่ความเร็วในการสร้างจะช้าลง สามารถปรับลด NFE Step เพื่อเพิ่มความเร็วได้.
- อย่าลืมเว้นวรรคประโยคเพื่อให้สามารถแบ่งส่วนในการสร้างได้.
- สำหรับ ref_text หรือ ข้อความตันฉบับ แนะนำให้ใช้เป็นภาษาไทยหรือคำอ่านภาษาไทยสำหรับเสียงภาษาอื่น เพื่อให้การอ่านภาษาไทยดีขึ้น เช่น Good Morning > กู้ดมอร์นิ่ง.
- สำหรับเสียงต้นแบบ ควรใช้ความยาวไม่เกิน 10 วินาที ถ้าเป็นไปได้ห้ามมีเสียงรบกวน.
- สามารถปรับลดความเร็ว เพื่อให้การอ่านคำดีขึ้นได้ เช่น ความเร็ว 0.8-0.9 เพื่อลดการอ่านผิดหรือคำขาดหาย แต่ลดมากไปอาจมีเสียงต้นฉบับแทรกเข้ามา.
<details><summary>ตัวอย่าง WebUI</summary>
- Text To Speech

- Multi Speech

# ฝึกอบรม และ Finetune
ใช้งานบน Google Colab [Finetune](https://colab.research.google.com/drive/1jwzw4Jn1qF8-F0o3TND68hLHdIqqgYEe?usp=sharing) หรือ
ติดตั้ง
```sh
cd F5-TTS-THAI
pip install -e .
```
เปิด Gradio
```sh
f5-tts_finetune-gradio
```
# ตัวอย่างเสียง
- เสียงต้นฉบับ
- ข้อความ : ได้รับข่าวคราวของเราที่จะหาที่มันเป็นไปที่จะจัดขึ้น.
https://github.com/user-attachments/assets/003c8a54-6f75-4456-907d-d28897e4c393
- เสียงที่สร้าง 1(ข้อความเดียวกัน)
- ข้อความ : ได้รับข่าวคราวของเราที่จะหาที่มันเป็นไปที่จะจัดขึ้น.
https://github.com/user-attachments/assets/926829f2-8d56-4f0f-8e2e-d73cfcecc511
- เสียงที่สร้าง 2(ข้อความใหม่)
- ข้อความ : ฉันชอบฟังเพลงขณะขับรถ เพราะช่วยให้รู้สึกผ่อนคลาย
https://github.com/user-attachments/assets/06d6e94b-5f83-4d69-99d1-ad19caa9792b
# อ้างอิง
- [F5-TTS](https://github.com/SWivid/F5-TTS)
|