metadata
datasets:
- Porameht/processed-voice-th-169k
language:
- th
pipeline_tag: text-to-speech
base_model:
- SWivid/F5-TTS
license: cc-by-4.0
F5-TTS-ไทย
โมเดลหลัก : SWivid/F5-TTS
Github : https://github.com/SWivid/F5-TTS
ชุดข้อมูลที่นำไปเทรน
จำนวน
- 200,000 เสียง
- ภาษาไทย ประมาณ 190 ชั่วโมง
- ภาษาอังกฤษ ประมาณ 40 ชัวโมง
ขนาดโมเดลล่าสุด
- 650,000 Steps
ภาษาที่รองรับ: ไทย และ อังกฤษ.
การอ่านข้อความยาวๆ หรือบางคำ ยังไม่ถูกต้อง
- เสียงตัวอย่างควรมีความยาว 5-10 นาที
- สามารถลองสร้าง หรือ กำหนด seed ใหม่ เพื่อให้ได้เสียงที่ถูกต้อง
- เสียงและข้อความต้นฉบับควรเป็นภาษาไทย
- ถ้าเสียงต้นฉบับเป็นภาษาอื่นควรเปลี่ยนข้อความต้นฉบับเป็นคำอ่านไทย เช่น Good Morning เป็น กูดมอร์นิ่ง
การใช้งาน
Github : https://github.com/VYNCX/F5-TTS-THAI
ติดตั้ง
git clone https://github.com/VYNCX/F5-TTS-THAI.git
cd F5-TTS-THAI
pip install git+https://github.com/VYNCX/F5-TTS-THAI.git
#จำเป็นต้องติดตั้งเพื่อใช้งานได้มีประสิทธิภาพกับ GPU
pip install torch==2.3.0+cu118 torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118
ใช้งานบน Gradio
f5-tts_webui
ฝึกอบรม และ Finetune
ใช้งานบน Google Colab Finetune หรือ
- ติดตั้ง
cd F5-TTS-THAI
pip install -e .
- เปิด Gradio
f5-tts_finetune-gradio
ตัวอย่างเสียง
- เสียงต้นแบบ
- ข้อความคำพูด : ฉันเดินทางไปเที่ยวที่จังหวัดเชียงใหม่ในช่วงฤดูหนาวเพื่อสัมผัสอากาศเย็นสบาย
- เสียงที่สร้างขึ้น
- Seed : 4213936761049775187