Duplicated from facebook/mms-tts-mon

Vijish
/

mms

@@ -6,6 +6,29 @@
   "attention_dropout": 0.1,
   "depth_separable_channels": 2,
   "depth_separable_num_layers": 3,
   "duration_predictor_dropout": 0.5,
   "duration_predictor_filter_channels": 256,
   "duration_predictor_flow_bins": 10,
@@ -18,6 +41,7 @@
   "hidden_act": "relu",
   "hidden_dropout": 0.1,
   "hidden_size": 192,
   "initializer_range": 0.02,
   "layer_norm_eps": 1e-05,
   "layerdrop": 0.1,
@@ -54,11 +78,12 @@
     11
   ],
   "sampling_rate": 16000,
   "speaker_embedding_size": 0,
   "speaking_rate": 1.0,
   "spectrogram_bins": 513,
   "torch_dtype": "float32",
-  "transformers_version": "4.33.0.dev0",
   "upsample_initial_channel": 512,
   "upsample_kernel_sizes": [
     16,
@@ -74,7 +99,7 @@
   ],
   "use_bias": true,
   "use_stochastic_duration_prediction": true,
-  "vocab_size": 64,
   "wavenet_dilation_rate": 1,
   "wavenet_dropout": 0.0,
   "wavenet_kernel_size": 5,

   "attention_dropout": 0.1,
   "depth_separable_channels": 2,
   "depth_separable_num_layers": 3,
+  "discriminator_kernel_size": 5,
+  "discriminator_period_channels": [
+    1,
+    32,
+    128,
+    512,
+    1024
+  ],
+  "discriminator_periods": [
+    2,
+    3,
+    5,
+    7,
+    11
+  ],
+  "discriminator_scale_channels": [
+    1,
+    16,
+    64,
+    256,
+    1024
+  ],
+  "discriminator_stride": 3,
   "duration_predictor_dropout": 0.5,
   "duration_predictor_filter_channels": 256,
   "duration_predictor_flow_bins": 10,
   "hidden_act": "relu",
   "hidden_dropout": 0.1,
   "hidden_size": 192,
+  "hop_length": 256,
   "initializer_range": 0.02,
   "layer_norm_eps": 1e-05,
   "layerdrop": 0.1,
     11
   ],
   "sampling_rate": 16000,
+  "segment_size": 8192,
   "speaker_embedding_size": 0,
   "speaking_rate": 1.0,
   "spectrogram_bins": 513,
   "torch_dtype": "float32",
+  "transformers_version": "4.36.0",
   "upsample_initial_channel": 512,
   "upsample_kernel_sizes": [
     16,
   ],
   "use_bias": true,
   "use_stochastic_duration_prediction": true,
+  "vocab_size": 25,
   "wavenet_dilation_rate": 1,
   "wavenet_dropout": 0.0,
   "wavenet_kernel_size": 5,