F5-TTS-THAI / README.md
VIZINTZOR's picture
Update README.md
350a59b verified
|
raw
history blame
3.22 kB
metadata
datasets:
  - Porameht/processed-voice-th-169k
language:
  - th
pipeline_tag: text-to-speech
base_model:
  - SWivid/F5-TTS
license: cc-by-4.0

F5-TTS-ไทย

โมเดลหลัก : SWivid/F5-TTS

Github : https://github.com/SWivid/F5-TTS

ชุดข้อมูลที่นำไปเทรน

  • Porameht/processed-voice-th-169k

  • Common Voice

  • จำนวน

    • 200,000 เสียง
    • ภาษาไทย ประมาณ 190 ชั่วโมง
    • ภาษาอังกฤษ ประมาณ 40 ชัวโมง
  • ขนาดโมเดลล่าสุด

    • 650,000 Steps
  • ภาษาที่รองรับ: ไทย และ อังกฤษ.

  • การอ่านข้อความยาวๆ หรือบางคำ ยังไม่ถูกต้อง

    • เสียงตัวอย่างควรมีความยาว 5-10 นาที
    • สามารถลองสร้าง หรือ กำหนด seed ใหม่ เพื่อให้ได้เสียงที่ถูกต้อง
    • เสียงและข้อความต้นฉบับควรเป็นภาษาไทย
    • ถ้าเสียงต้นฉบับเป็นภาษาอื่นควรเปลี่ยนข้อความต้นฉบับเป็นคำอ่านไทย เช่น Good Morning เป็น กูดมอร์นิ่ง

การใช้งาน

Github : https://github.com/VYNCX/F5-TTS-THAI

ติดตั้ง

git clone https://github.com/VYNCX/F5-TTS-THAI.git
cd F5-TTS-THAI
pip install git+https://github.com/VYNCX/F5-TTS-THAI.git

#จำเป็นต้องติดตั้งเพื่อใช้งานได้มีประสิทธิภาพกับ GPU
pip install torch==2.3.0+cu118 torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118

ใช้งานบน Gradio

f5-tts_webui

ฝึกอบรม และ Finetune

ใช้งานบน Google Colab Finetune หรือ

  • ติดตั้ง
  cd F5-TTS-THAI
  pip install -e .
  • เปิด Gradio
  f5-tts_finetune-gradio

ตัวอย่างเสียง

  • เสียงต้นแบบ
    • ข้อความคำพูด : ฉันเดินทางไปเที่ยวที่จังหวัดเชียงใหม่ในช่วงฤดูหนาวเพื่อสัมผัสอากาศเย็นสบาย
  • เสียงที่สร้างขึ้น
    • Seed : 4213936761049775187