File size: 627 Bytes
b5c882d
 
 
233494e
b5c882d
233494e
 
1
2
3
4
5
6
7
F5-TTS的多语言版本,基于F5TTS_v1_Base的配置
  - v4: fp16训练,全局时间concat注入,scale到约500M,rmsnorm,swiglu
  - v5: bf16训练,全局时间concat注入
  - tkcat: bf16训练,文本维度使用concat注入,没有加入drop的逻辑
  - langipa: bf16训练,ipa加后缀的形式注入
  - catada: bf16训练,在原版F5基础上微调,时间维度使用concat注入,文本维度使用ada注入,两者的LID共享embedding,并以一定概率drop LID
  - catada_stress_nomask(优先使用): 在catada基础上,对ipa加入了重音符号,解决了希腊语wer过高的问题