Duplicated from facebook/mms-tts-mon

Vijish
/

mms

@@ -1,11 +1,34 @@
 {
   "activation_dropout": 0.1,
   "architectures": [
-    "VitsModel"
   ],
   "attention_dropout": 0.1,
   "depth_separable_channels": 2,
   "depth_separable_num_layers": 3,
   "duration_predictor_dropout": 0.5,
   "duration_predictor_filter_channels": 256,
   "duration_predictor_flow_bins": 10,
@@ -18,6 +41,7 @@
   "hidden_act": "relu",
   "hidden_dropout": 0.1,
   "hidden_size": 192,
   "initializer_range": 0.02,
   "layer_norm_eps": 1e-05,
   "layerdrop": 0.1,
@@ -54,11 +78,12 @@
     11
   ],
   "sampling_rate": 16000,
   "speaker_embedding_size": 0,
   "speaking_rate": 1.0,
   "spectrogram_bins": 513,
   "torch_dtype": "float32",
-  "transformers_version": "4.33.0.dev0",
   "upsample_initial_channel": 512,
   "upsample_kernel_sizes": [
     16,

 {
   "activation_dropout": 0.1,
   "architectures": [
+    "VitsModelForPreTraining"
   ],
   "attention_dropout": 0.1,
   "depth_separable_channels": 2,
   "depth_separable_num_layers": 3,
+  "discriminator_kernel_size": 5,
+  "discriminator_period_channels": [
+    1,
+    32,
+    128,
+    512,
+    1024
+  ],
+  "discriminator_periods": [
+    2,
+    3,
+    5,
+    7,
+    11
+  ],
+  "discriminator_scale_channels": [
+    1,
+    16,
+    64,
+    256,
+    1024
+  ],
+  "discriminator_stride": 3,
   "duration_predictor_dropout": 0.5,
   "duration_predictor_filter_channels": 256,
   "duration_predictor_flow_bins": 10,
   "hidden_act": "relu",
   "hidden_dropout": 0.1,
   "hidden_size": 192,
+  "hop_length": 256,
   "initializer_range": 0.02,
   "layer_norm_eps": 1e-05,
   "layerdrop": 0.1,
     11
   ],
   "sampling_rate": 16000,
+  "segment_size": 8192,
   "speaker_embedding_size": 0,
   "speaking_rate": 1.0,
   "spectrogram_bins": 513,
   "torch_dtype": "float32",
+  "transformers_version": "4.36.2",
   "upsample_initial_channel": 512,
   "upsample_kernel_sizes": [
     16,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e93d285d4a143e0bfa95115f934b6aa35afb51bb3f986c76a8951ac26ed167f1
-size 145247480

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4bc48166a4c00cf746c4654650e012104a12ba00888e9add6edef2fc218b07f
+size 332180680