Multilingual-F5-TTS / README.md
XRXRX's picture
Update README.md
233494e verified

F5-TTS的多语言版本,基于F5TTS_v1_Base的配置

  • v4: fp16训练,全局时间concat注入,scale到约500M,rmsnorm,swiglu
  • v5: bf16训练,全局时间concat注入
  • tkcat: bf16训练,文本维度使用concat注入,没有加入drop的逻辑
  • langipa: bf16训练,ipa加后缀的形式注入
  • catada: bf16训练,在原版F5基础上微调,时间维度使用concat注入,文本维度使用ada注入,两者的LID共享embedding,并以一定概率drop LID
  • catada_stress_nomask(优先使用): 在catada基础上,对ipa加入了重音符号,解决了希腊语wer过高的问题