--- datasets: - Porameht/processed-voice-th-169k language: - th pipeline_tag: text-to-speech base_model: - SWivid/F5-TTS license: cc-by-4.0 --- #### F5-TTS-ไทย โมเดล Text To Speech ภาษาไทย โมเดลหลัก : [SWivid/F5-TTS](https://huggingface.co/SWivid/F5-TTS) Github : https://github.com/SWivid/F5-TTS | ชุดข้อมูล | ระยะเวลา(ชั่วโมง) |--------|--------| | [Common Voice (Porameht/processed-voice-th-169k)](https://huggingface.co/datasets/Porameht/processed-voice-th-169k) | ~160 | [Porjai Dataset](CMKL/Porjai-Thai-voice-dataset-central) | ~300 | Common Voice-EN(อังกฤษ) | ~40 - ขนาดโมเดลล่าสุด - 1,000,000 Steps - ภาษาที่รองรับ: ไทย และ อังกฤษ. - การอ่านข้อความยาวๆ หรือบางคำ ยังไม่ถูกต้อง - เสียงตัวอย่างควรมีความยาว 2-8 วินาที - สามารถลองปรับลดความเร็วเสียงในการสร้าง เช่น 0.8 หรือ กำหนด seed ใหม่, เพื่อให้ได้เสียงที่ถูกต้อง. - เสียงและข้อความต้นฉบับควรเป็นภาษาไทย. - ถ้าเสียงต้นฉบับเป็นภาษาอื่นควรเปลี่ยนข้อความต้นฉบับเป็นคำอ่านไทย เช่น Good Morning เป็น กูดมอร์นิ่ง. - ถ้าเสียงต้นฉบับมีความเร็วในการอ่านมาก ควรลดความเร็ว เหลือ 0.7-0.8 ### การใช้งาน [Github](https://github.com/VYNCX/F5-TTS-THAI) ติดตั้ง ```sh pip install f5-tts-th #จำเป็นต้องติดตั้งเพื่อใช้งานได้มีประสิทธิภาพกับ GPU pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124 ``` ใช้งาน ```sh from f5_tts_th.tts import TTS import soundfile as sf tts = TTS(model="v1") wav = tts.infer( ref_audio="YOUR_AUDIO_PATH", ref_text="ได้รับข่าวคราวของเราที่จะหาที่มันเป็นไปที่จะจัดขึ้น.", gen_text="สวัสดีครับ นี่คือเสียงพูดภาษาไทย.", step=32, cfg=2.0, speed=1.0 ) sf.write("test.wav", wav, 24000) ``` ### ตัวอย่างเสียง - เสียงต้นแบบ - ข้อความคำพูด : ฉันเดินทางไปเที่ยวที่จังหวัดเชียงใหม่ในช่วงฤดูหนาวเพื่อสัมผัสอากาศเย็นสบาย - เสียงที่สร้างขึ้น - Seed : 4213936761049775187