Model sometimes skips the token during generation

#4
by kellyhsu - opened

Hi! I’ve been testing f5-tts-th, both v1 and v2, and I’ve noticed a recurring issue:
the model frequently skips the very first word (or syllable) of the generated output.

🧩 Description

This issue happens quite consistently, and seems related to the language of the reference audio (ref_audio):

When the ref_audio is in Chinese or English, the model always skips the first Thai word.

When the ref_audio is in Thai, the model tends to skip the first token if there are too many repeated words (for example, when the same phrase is repeated several times).

🔍 Examples

Case 1 — ref_audio in Chinese or English

Prompt:
สวัสดีครับ นี่คือเสียงพูดภาษาไทย.

Actual output:
นี่คือเสียงพูดภาษาไทย.
→ The first word “สวัสดีครับ” is missing.

Case 2 — ref_audio in Thai

Prompt:
สวัสดีครับ สวัสดีครับ สวัสดีครับ สวัสดีครับ สวัสดีครับ นี่คือเสียงพูดภาษาไทย.

Actual output:
สวัสดีครับ สวัสดีครับ สวัสดีครับ สวัสดีครับ นี่คือเสียงพูดภาษาไทย.
→ It skips one repetition, usually the first of a long sequence.

Would appreciate any advice or confirmation if this is a known issue.

Sign up or log in to comment