--- datasets: - Porameht/processed-voice-th-169k language: - th pipeline_tag: text-to-speech base_model: - SWivid/F5-TTS license: cc-by-4.0 --- #### F5-TTS-ไทย โมเดลหลัก : [SWivid/F5-TTS](https://huggingface.co/SWivid/F5-TTS) Github : https://github.com/SWivid/F5-TTS ชุดข้อมูลที่นำไปเทรน - [Porameht/processed-voice-th-169k](https://huggingface.co/datasets/Porameht/processed-voice-th-169k) - [Common Voice](https://commonvoice.mozilla.org/) - จำนวน - 200,000 เสียง - ภาษาไทย ประมาณ 190 ชั่วโมง - ภาษาอังกฤษ ประมาณ 40 ชัวโมง - ขนาดโมเดลล่าสุด - 650,000 Steps - ภาษาที่รองรับ: ไทย และ อังกฤษ. - การอ่านข้อความยาวๆ หรือบางคำ ยังไม่ถูกต้อง - เสียงตัวอย่างควรมีความยาว 5-10 นาที - สามารถลองสร้าง หรือ กำหนด seed ใหม่ เพื่อให้ได้เสียงที่ถูกต้อง - เสียงและข้อความต้นฉบับควรเป็นภาษาไทย - ถ้าเสียงต้นฉบับเป็นภาษาอื่นควรเปลี่ยนข้อความต้นฉบับเป็นคำอ่านไทย เช่น Good Morning เป็น กูดมอร์นิ่ง ### การใช้งาน Github : https://github.com/VYNCX/F5-TTS-THAI ติดตั้ง ```sh git clone https://github.com/VYNCX/F5-TTS-THAI.git cd F5-TTS-THAI pip install git+https://github.com/VYNCX/F5-TTS-THAI.git #จำเป็นต้องติดตั้งเพื่อใช้งานได้มีประสิทธิภาพกับ GPU pip install torch==2.3.0+cu118 torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118 ``` ใช้งานบน Gradio ```sh f5-tts_webui ``` ### ฝึกอบรม และ Finetune ใช้งานบน Google Colab [Finetune](https://colab.research.google.com/drive/1jwzw4Jn1qF8-F0o3TND68hLHdIqqgYEe?usp=sharing) หรือ - ติดตั้ง ```sh cd F5-TTS-THAI pip install -e . ``` - เปิด Gradio ```sh f5-tts_finetune-gradio ``` ### ตัวอย่างเสียง - เสียงต้นแบบ - ข้อความคำพูด : ฉันเดินทางไปเที่ยวที่จังหวัดเชียงใหม่ในช่วงฤดูหนาวเพื่อสัมผัสอากาศเย็นสบาย - เสียงที่สร้างขึ้น - Seed : 4213936761049775187