F5-TTS-THAI / src /f5_tts /config.py
pythonlearnreal's picture
Upload folder using huggingface_hub
106478e verified
"""
Configuration settings for F5-TTS Thai WebUI
"""
# Model configurations
DEFAULT_MODEL_BASE = "hf://VIZINTZOR/F5-TTS-THAI/model_1000000.pt"
FP16_MODEL_BASE = "hf://VIZINTZOR/F5-TTS-THAI/model_650000_FP16.pt"
VOCAB_BASE = "./vocab/vocab.txt"
VOCAB_HF = "hf://VIZINTZOR/F5-TTS-THAI/vocab.txt"
MODEL_CHOICES = ["Default", "FP16", "Custom"]
# F5TTS model configuration
F5TTS_MODEL_CFG = {
"dim": 1024,
"depth": 22,
"heads": 16,
"ff_mult": 2,
"text_dim": 512,
"conv_layers": 4
}
# Audio settings
TARGET_SAMPLE_RATE = 24000
HOP_LENGTH = 256
# UI settings
MAX_SPEECH_TYPES = 100
MAX_SEGMENTS = 20
# Default TTS settings
DEFAULT_TTS_SETTINGS = {
"remove_silence": True,
"cross_fade_duration": 0.15,
"nfe_step": 32,
"speed": 1.0,
"cfg_strength": 2.0,
"max_chars": 250,
"seed": -1,
"no_ref_audio": False
}
# Whisper model settings
WHISPER_MODELS = ['base', 'small', 'medium', 'large-v2', 'large-v3', 'large-v3-turbo']
WHISPER_COMPUTE_TYPES = ["float32", "float16", "int8_float16", "int8"]
WHISPER_LANGUAGES = {
"source": ["Auto", 'th', "en"],
"target": ['th', "en"]
}
# Example configurations
EXAMPLES = [
[
"./src/f5_tts/infer/examples/thai_examples/ref_gen_1.wav",
"ได้รับข่าวคราวของเราที่จะหาที่มันเป็นไปที่จะจัดขึ้น.",
"พรุ่งนี้มีประชุมสำคัญ อย่าลืมเตรียมเอกสารให้เรียบร้อย"
],
[
"./src/f5_tts/infer/examples/thai_examples/ref_gen_2.wav",
"ฉันเดินทางไปเที่ยวที่จังหวัดเชียงใหม่ในช่วงฤดูหนาวเพื่อสัมผัสอากาศเย็นสบาย.",
"ฉันชอบฟังเพลงขณะขับรถ เพราะช่วยให้รู้สึกผ่อนคลาย"
],
[
"./src/f5_tts/infer/examples/thai_examples/ref_gen_3.wav",
"กู้ดอาฟเต้อนูนไนท์ทูมีทยู.",
"วันนี้อากาศดีมาก เหมาะกับการไปเดินเล่นที่สวนสาธารณะ"
],
[
"./src/f5_tts/infer/examples/thai_examples/ref_gen_4.wav",
"เราอยากจะตื่นขึ้นมามั้ยคะ.",
"เมื่อวานฉันไปเดินเล่นที่ชายหาด เสียงคลื่นซัดฝั่งเป็นจังหวะที่ชวนให้ใจสงบ."
]
]
TIPS_TEXT = """
- สามารถตั้งค่า "ตัวอักษรสูงสุดต่อส่วน" หรือ max_chars เพื่อลดความผิดพลาดการอ่าน แต่ความเร็วในการสร้างจะช้าลง สามารถปรับลด NFE Step เพื่อเพิ่มความเร็วได้
ปรับ NFE Step เหลือ 7 สามารถเพิ่มความเร็วการในการสร้างได้มาก แต่เสียงที่ได้พอฟังได้.
- อย่าลืมเว้นวรรคประโยคเพื่อให้สามารถแบ่งส่วนในการสร้างได้.
- สำหรับ ref_text หรือ ข้อความตันฉบับ แนะนำให้ใช้เป็นภาษาไทยหรือคำอ่านภาษาไทยสำหรับเสียงภาษาอื่น เพื่อให้การอ่านภาษาไทยดีขึ้น เช่น Good Morning > กู้ดมอร์นิ่ง.
- สำหรับเสียงต้นแบบ ควรใช้ความยาวไม่เกิน 10 วินาที ถ้าเป็นไปได้ห้ามมีเสียงรบกวน.
- สามารถปรับลดความเร็วให้ช้าลง ถ้าเสียงต้นฉบับมีความยาวไม่มาก เช่น 2-5 วินาที
- การอ่านข้อความยาวๆ หรือบางคำ ยังไม่ถูกต้อง สามารถปรับลดความเร็วเพื่อให้การอ่านถูกต้องได้ เช่น ถ้าเสียงต้นฉบับมีความยาว 1-3 วินาที อาจจะต้องประความเร็วเหลือ 0.8-0.9.
- โมเดลตอนนี้ยังเน้นการอ่านภาษาไทยเป็นหลัก การอ่านภาษาไทยผสมกับภาษาอังกฤษยังต้องปรับปรุง.
"""
MULTISPEECH_EXAMPLE_TEXT = """
**ตัวอย่าง:**
{ปกติ} สวัสดีครับ มีอะไรให้ผมช่วยไหมครับ
{เศร้า} ผมเครียดจริงๆ นะตอนนี้...
{โกรธ} รู้ไหม! เธอไม่ควรอยู่ที่นี่!
{กระซิบ} ฉันมีอะไรจะบอกคุณ แต่มันเป็นความลับนะ.
"""
MULTISPEECH_PLACEHOLDER = """ป้อนสคริปต์โดยใส่ชื่อผู้พูด (หรือลักษณะอารมณ์) ไว้ที่ต้นแต่ละบล็อก ตัวอย่างเช่น:
{ปกติ} สวัสดีครับ มีอะไรให้ผมช่วยไหมครับ
{เศร้า} ผมเครียดจริงๆ นะตอนนี้...
{โกรธ} รู้ไหม! เธอไม่ควรอยู่ที่นี่!
{กระซิบ} ฉันมีอะไรจะบอกคุณ แต่มันเป็นความลับนะ."""