Duplicated from VIZINTZOR/F5-TTS-THAI

Bird
/

F5-TTS-THAI

Model card Files Files and versions

F5-TTS-THAI / README.md

Bird's picture

Duplicate from VIZINTZOR/F5-TTS-THAI

21debdc 28 days ago

|

history blame contribute delete

3.57 kB

	---
	datasets:
	- Porameht/processed-voice-th-169k
	language:
	- th
	pipeline_tag: text-to-speech
	base_model:
	- SWivid/F5-TTS
	license: cc-by-4.0
	---

	#### F5-TTS-ไทย

	โมเดล Text To Speech ภาษาไทย

	โมเดลหลัก : [SWivid/F5-TTS](https://huggingface.co/SWivid/F5-TTS)

	Github : https://github.com/SWivid/F5-TTS

	\| ชุดข้อมูล \| ระยะเวลา(ชั่วโมง)
	\|--------\|--------\|
	\| [Common Voice (Porameht/processed-voice-th-169k)](https://huggingface.co/datasets/Porameht/processed-voice-th-169k) \| ~160
	\| [Porjai Dataset](CMKL/Porjai-Thai-voice-dataset-central) \| ~300
	\| Common Voice-EN(อังกฤษ) \| ~40

	- ขนาดโมเดลล่าสุด
	- 1,000,000 Steps
	- ภาษาที่รองรับ: ไทย และ อังกฤษ.

	- การอ่านข้อความยาวๆ หรือบางคำ ยังไม่ถูกต้อง
	- เสียงตัวอย่างควรมีความยาว 2-8 วินาที
	- สามารถลองปรับลดความเร็วเสียงในการสร้าง เช่น 0.8 หรือ กำหนด seed ใหม่, เพื่อให้ได้เสียงที่ถูกต้อง.
	- เสียงและข้อความต้นฉบับควรเป็นภาษาไทย.
	- ถ้าเสียงต้นฉบับเป็นภาษาอื่นควรเปลี่ยนข้อความต้นฉบับเป็นคำอ่านไทย เช่น Good Morning เป็น กูดมอร์นิ่ง.
	- ถ้าเสียงต้นฉบับมีความเร็วในการอ่านมาก ควรลดความเร็ว เหลือ 0.7-0.8

	### การใช้งาน

	[Github](https://github.com/VYNCX/F5-TTS-THAI)

	ติดตั้ง

	```sh
	pip install f5-tts-th

	#จำเป็นต้องติดตั้งเพื่อใช้งานได้มีประสิทธิภาพกับ GPU
	pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124
	```

	ใช้งาน

	```sh
	from f5_tts_th.tts import TTS
	import soundfile as sf

	tts = TTS(model="v1")

	wav = tts.infer(
	ref_audio="YOUR_AUDIO_PATH",
	ref_text="ได้รับข่าวคราวของเราที่จะหาที่มันเป็นไปที่จะจัดขึ้น.",
	gen_text="สวัสดีครับ นี่คือเสียงพูดภาษาไทย.",
	step=32,
	cfg=2.0,
	speed=1.0
	)

	sf.write("test.wav", wav, 24000)
	```

	### ตัวอย่างเสียง
	- เสียงต้นแบบ
	<audio controls><source src="https://huggingface.co/VIZINTZOR/F5-TTS-THAI/resolve/main/sample/ref_audio.wav" type="audio/wav"></audio>
	- ข้อความคำพูด : ฉันเดินทางไปเที่ยวที่จังหวัดเชียงใหม่ในช่วงฤดูหนาวเพื่อสัมผัสอากาศเย็นสบาย
	- เสียงที่สร้างขึ้น
	<audio controls><source src="https://huggingface.co/VIZINTZOR/F5-TTS-THAI/resolve/main/sample/tts_gen.wav" type="audio/wav"></audio>
	- Seed : 4213936761049775187