Spaces:

pythonlearnreal
/

F5-TTS-THAI

Sleeping

App Files Files Community

F5-TTS-THAI / src /f5_tts /config.py

pythonlearnreal

Upload folder using huggingface_hub

106478e verified 5 months ago

raw

history blame contribute delete

6.43 kB

	"""
	Configuration settings for F5-TTS Thai WebUI
	"""

	# Model configurations
	DEFAULT_MODEL_BASE = "hf://VIZINTZOR/F5-TTS-THAI/model_1000000.pt"
	FP16_MODEL_BASE = "hf://VIZINTZOR/F5-TTS-THAI/model_650000_FP16.pt"
	VOCAB_BASE = "./vocab/vocab.txt"
	VOCAB_HF = "hf://VIZINTZOR/F5-TTS-THAI/vocab.txt"

	MODEL_CHOICES = ["Default", "FP16", "Custom"]

	# F5TTS model configuration
	F5TTS_MODEL_CFG = {
	"dim": 1024,
	"depth": 22,
	"heads": 16,
	"ff_mult": 2,
	"text_dim": 512,
	"conv_layers": 4
	}

	# Audio settings
	TARGET_SAMPLE_RATE = 24000
	HOP_LENGTH = 256

	# UI settings
	MAX_SPEECH_TYPES = 100
	MAX_SEGMENTS = 20

	# Default TTS settings
	DEFAULT_TTS_SETTINGS = {
	"remove_silence": True,
	"cross_fade_duration": 0.15,
	"nfe_step": 32,
	"speed": 1.0,
	"cfg_strength": 2.0,
	"max_chars": 250,
	"seed": -1,
	"no_ref_audio": False
	}

	# Whisper model settings
	WHISPER_MODELS = ['base', 'small', 'medium', 'large-v2', 'large-v3', 'large-v3-turbo']
	WHISPER_COMPUTE_TYPES = ["float32", "float16", "int8_float16", "int8"]
	WHISPER_LANGUAGES = {
	"source": ["Auto", 'th', "en"],
	"target": ['th', "en"]
	}

	# Example configurations
	EXAMPLES = [
	[
	"./src/f5_tts/infer/examples/thai_examples/ref_gen_1.wav",
	"ได้รับข่าวคราวของเราที่จะหาที่มันเป็นไปที่จะจัดขึ้น.",
	"พรุ่งนี้มีประชุมสำคัญ อย่าลืมเตรียมเอกสารให้เรียบร้อย"
	],
	[
	"./src/f5_tts/infer/examples/thai_examples/ref_gen_2.wav",
	"ฉันเดินทางไปเที่ยวที่จังหวัดเชียงใหม่ในช่วงฤดูหนาวเพื่อสัมผัสอากาศเย็นสบาย.",
	"ฉันชอบฟังเพลงขณะขับรถ เพราะช่วยให้รู้สึกผ่อนคลาย"
	],
	[
	"./src/f5_tts/infer/examples/thai_examples/ref_gen_3.wav",
	"กู้ดอาฟเต้อนูนไนท์ทูมีทยู.",
	"วันนี้อากาศดีมาก เหมาะกับการไปเดินเล่นที่สวนสาธารณะ"
	],
	[
	"./src/f5_tts/infer/examples/thai_examples/ref_gen_4.wav",
	"เราอยากจะตื่นขึ้นมามั้ยคะ.",
	"เมื่อวานฉันไปเดินเล่นที่ชายหาด เสียงคลื่นซัดฝั่งเป็นจังหวะที่ชวนให้ใจสงบ."
	]
	]

	TIPS_TEXT = """
	- สามารถตั้งค่า "ตัวอักษรสูงสุดต่อส่วน" หรือ max_chars เพื่อลดความผิดพลาดการอ่าน แต่ความเร็วในการสร้างจะช้าลง สามารถปรับลด NFE Step เพื่อเพิ่มความเร็วได้
	ปรับ NFE Step เหลือ 7 สามารถเพิ่มความเร็วการในการสร้างได้มาก แต่เสียงที่ได้พอฟังได้.
	- อย่าลืมเว้นวรรคประโยคเพื่อให้สามารถแบ่งส่วนในการสร้างได้.
	- สำหรับ ref_text หรือ ข้อความตันฉบับ แนะนำให้ใช้เป็นภาษาไทยหรือคำอ่านภาษาไทยสำหรับเสียงภาษาอื่น เพื่อให้การอ่านภาษาไทยดีขึ้น เช่น Good Morning > กู้ดมอร์นิ่ง.
	- สำหรับเสียงต้นแบบ ควรใช้ความยาวไม่เกิน 10 วินาที ถ้าเป็นไปได้ห้ามมีเสียงรบกวน.
	- สามารถปรับลดความเร็วให้ช้าลง ถ้าเสียงต้นฉบับมีความยาวไม่มาก เช่น 2-5 วินาที
	- การอ่านข้อความยาวๆ หรือบางคำ ยังไม่ถูกต้อง สามารถปรับลดความเร็วเพื่อให้การอ่านถูกต้องได้ เช่น ถ้าเสียงต้นฉบับมีความยาว 1-3 วินาที อาจจะต้องประความเร็วเหลือ 0.8-0.9.
	- โมเดลตอนนี้ยังเน้นการอ่านภาษาไทยเป็นหลัก การอ่านภาษาไทยผสมกับภาษาอังกฤษยังต้องปรับปรุง.
	"""

	MULTISPEECH_EXAMPLE_TEXT = """
	ตัวอย่าง:
	{ปกติ} สวัสดีครับ มีอะไรให้ผมช่วยไหมครับ
	{เศร้า} ผมเครียดจริงๆ นะตอนนี้...
	{โกรธ} รู้ไหม! เธอไม่ควรอยู่ที่นี่!
	{กระซิบ} ฉันมีอะไรจะบอกคุณ แต่มันเป็นความลับนะ.
	"""

	MULTISPEECH_PLACEHOLDER = """ป้อนสคริปต์โดยใส่ชื่อผู้พูด (หรือลักษณะอารมณ์) ไว้ที่ต้นแต่ละบล็อก ตัวอย่างเช่น:
	{ปกติ} สวัสดีครับ มีอะไรให้ผมช่วยไหมครับ
	{เศร้า} ผมเครียดจริงๆ นะตอนนี้...
	{โกรธ} รู้ไหม! เธอไม่ควรอยู่ที่นี่!
	{กระซิบ} ฉันมีอะไรจะบอกคุณ แต่มันเป็นความลับนะ."""