Model sometimes skips the token during generation
Hi! I’ve been testing f5-tts-th, both v1 and v2, and I’ve noticed a recurring issue:
the model frequently skips the very first word (or syllable) of the generated output.
🧩 Description
This issue happens quite consistently, and seems related to the language of the reference audio (ref_audio):
When the ref_audio is in Chinese or English, the model always skips the first Thai word.
When the ref_audio is in Thai, the model tends to skip the first token if there are too many repeated words (for example, when the same phrase is repeated several times).
🔍 Examples
Case 1 — ref_audio in Chinese or English
Prompt:
สวัสดีครับ นี่คือเสียงพูดภาษาไทย.
Actual output:
นี่คือเสียงพูดภาษาไทย.
→ The first word “สวัสดีครับ” is missing.
Case 2 — ref_audio in Thai
Prompt:
สวัสดีครับ สวัสดีครับ สวัสดีครับ สวัสดีครับ สวัสดีครับ นี่คือเสียงพูดภาษาไทย.
Actual output:
สวัสดีครับ สวัสดีครับ สวัสดีครับ สวัสดีครับ นี่คือเสียงพูดภาษาไทย.
→ It skips one repetition, usually the first of a long sequence.
Would appreciate any advice or confirmation if this is a known issue.