F5-TTS的多语言版本,基于F5TTS_v1_Base的配置
- v4: fp16训练,全局时间concat注入,scale到约500M,rmsnorm,swiglu
- v5: bf16训练,全局时间concat注入
- tkcat: bf16训练,文本维度使用concat注入,没有加入drop的逻辑
- langipa: bf16训练,ipa加后缀的形式注入
- catada: bf16训练,在原版F5基础上微调,时间维度使用concat注入,文本维度使用ada注入,两者的LID共享embedding,并以一定概率drop LID
- catada_stress_nomask(优先使用): 在catada基础上,对ipa加入了重音符号,解决了希腊语wer过高的问题