| F5-TTS的多语言版本,基于F5TTS_v1_Base的配置 | |
| - v4: fp16训练,全局时间concat注入,scale到约500M,rmsnorm,swiglu | |
| - v5: bf16训练,全局时间concat注入 | |
| - tkcat: bf16训练,文本维度使用concat注入,没有加入drop的逻辑 | |
| - langipa: bf16训练,ipa加后缀的形式注入 | |
| - catada: bf16训练,在原版F5基础上微调,时间维度使用concat注入,文本维度使用ada注入,两者的LID共享embedding,并以一定概率drop LID | |
| - catada_stress_nomask(优先使用): 在catada基础上,对ipa加入了重音符号,解决了希腊语wer过高的问题 |