speechbrain
/

tts-fastspeech2-ljspeech

speech-synthesis

Model card Files Files and versions

update with spn_predictor

#1

by pradnya-hf-dev - opened Jun 16, 2023

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

Files changed (1) hide show

hyperparams.yaml +23 -4

hyperparams.yaml CHANGED Viewed

@@ -2,6 +2,7 @@
 # Model: Fastspeech2 for TTS
 # Authors: Sathvik Udupa, Yingzhi Wang, Pradnya Kandarkar
 # ################################
 # Input parameters
 lexicon:
     - AA
@@ -45,7 +46,7 @@ lexicon:
     - ZH
     - spn
-n_symbols: 41 #fixed deppending on symbols in the lexicon +1 for a dummy symbol used for padding
 padding_idx: 0
 n_mel_channels: 80
@@ -73,18 +74,34 @@ postnet_kernel_size: 5
 postnet_n_convolutions: 5
 postnet_dropout: 0.5
-# Common
 normalize_before: True
 ffn_type: 1dcnn #1dcnn or ffn
 ffn_cnn_kernel_size_list: [9, 1]
-# Variance predictor
 dur_pred_kernel_size: 3
 pitch_pred_kernel_size: 3
 energy_pred_kernel_size: 3
 variance_predictor_dropout: 0.5
-# Model
 model: !new:speechbrain.lobes.models.FastSpeech2.FastSpeech2
     enc_num_layers: !ref <enc_num_layers>
     enc_num_head: !ref <enc_num_head>
@@ -119,8 +136,10 @@ model: !new:speechbrain.lobes.models.FastSpeech2.FastSpeech2
 input_encoder: !new:speechbrain.dataio.encoder.TextEncoder
 modules:
     model: !ref <model>
 pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
     loadables:
         model: !ref <model>

 # Model: Fastspeech2 for TTS
 # Authors: Sathvik Udupa, Yingzhi Wang, Pradnya Kandarkar
 # ################################
 # Input parameters
 lexicon:
     - AA
     - ZH
     - spn
+n_symbols: 41 #fixed depending on symbols in the lexicon +1 for a dummy symbol used for padding
 padding_idx: 0
 n_mel_channels: 80
 postnet_n_convolutions: 5
 postnet_dropout: 0.5
+# common
 normalize_before: True
 ffn_type: 1dcnn #1dcnn or ffn
 ffn_cnn_kernel_size_list: [9, 1]
+# variance predictor
 dur_pred_kernel_size: 3
 pitch_pred_kernel_size: 3
 energy_pred_kernel_size: 3
 variance_predictor_dropout: 0.5
+# SPN predictor
+spn_predictor: !new:speechbrain.lobes.models.FastSpeech2.SPNPredictor
+    enc_num_layers: !ref <enc_num_layers>
+    enc_num_head: !ref <enc_num_head>
+    enc_d_model: !ref <enc_d_model>
+    enc_ffn_dim: !ref <enc_ffn_dim>
+    enc_k_dim: !ref <enc_k_dim>
+    enc_v_dim: !ref <enc_v_dim>
+    enc_dropout: !ref <enc_dropout>
+    normalize_before: !ref <normalize_before>
+    ffn_type: !ref <ffn_type>
+    ffn_cnn_kernel_size_list: !ref <ffn_cnn_kernel_size_list>
+    n_char: !ref <n_symbols>
+    padding_idx: !ref <padding_idx>
+#model
 model: !new:speechbrain.lobes.models.FastSpeech2.FastSpeech2
     enc_num_layers: !ref <enc_num_layers>
     enc_num_head: !ref <enc_num_head>
 input_encoder: !new:speechbrain.dataio.encoder.TextEncoder
 modules:
+    spn_predictor: !ref <spn_predictor>
     model: !ref <model>
 pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
     loadables:
+        spn_predictor: !ref <spn_predictor>
         model: !ref <model>