Upload 4 files

Browse files

Files changed (4) hide show

hyperparams.yaml +68 -0
input_norm.ckpt +3 -0
label_encoder.txt +6 -0
model.ckpt +3 -0

hyperparams.yaml ADDED Viewed

	@@ -0,0 +1,68 @@

+# ############################################################################
+# Model: WavLM for Emotion Diarization
+# ############################################################################
+# Hparams NEEDED
+HPARAMS_NEEDED: ["window_length", "stride", "encoder_dim", "out_n_neurons", "avg_pool", "label_encoder", "softmax"]
+# Modules Needed
+MODULES_NEEDED: ["wav2vec2", "output_mlp"]
+# Feature parameters
+wav2vec2_hub: "microsoft/wavlm-large"
+# Pretrain folder (HuggingFace)
+pretrained_path: speechbrain/emotion-diarization-wavlm-large
+# parameters
+window_length: 1 # win_len = 0.02 * 1 = 0.02s
+stride: 1 # stride = 0.02 * 1 = 0.02s
+encoder_dim: 1024
+out_n_neurons: 4
+input_norm: !new:speechbrain.processing.features.InputNormalization
+    norm_type: sentence
+    std_norm: False
+wav2vec2: !new:speechbrain.lobes.models.huggingface_transformers.wav2vec2.Wav2Vec2
+    source: !ref <wav2vec2_hub>
+    output_norm: True
+    freeze: False
+    freeze_feature_extractor: True
+    save_path: wav2vec2_checkpoint
+avg_pool: !new:speechbrain.nnet.pooling.Pooling1d
+    pool_type: "avg"
+    kernel_size: !ref <window_length>
+    stride: !ref <stride>
+    ceil_mode: True
+output_mlp: !new:speechbrain.nnet.linear.Linear
+    input_size: !ref <encoder_dim>
+    n_neurons: !ref <out_n_neurons>
+    bias: False
+model: !new:torch.nn.ModuleList
+    - [!ref <output_mlp>]
+modules:
+    input_norm: !ref <input_norm>
+    wav2vec2: !ref <wav2vec2>
+    output_mlp: !ref <output_mlp>
+log_softmax: !new:speechbrain.nnet.activations.Softmax
+    apply_log: True
+label_encoder: !new:speechbrain.dataio.encoder.CategoricalEncoder
+pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
+    loadables:
+        input_norm: !ref <input_norm>
+        wav2vec2: !ref <wav2vec2>
+        model: !ref <model>
+        label_encoder: !ref <label_encoder>
+    paths:
+        input_norm: !ref <pretrained_path>/input_norm.ckpt
+        wav2vec2: !ref <pretrained_path>/wav2vec2.ckpt
+        model: !ref <pretrained_path>/model.ckpt
+        label_encoder: !ref <pretrained_path>/label_encoder.txt

input_norm.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eddbd59b97a6456c5a81880065b785f731ca3b959abfa2c965658a591e53d31f
+size 1075

label_encoder.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+'a' => 0
+'n' => 1
+'h' => 2
+'s' => 3
+================
+'starting_index' => 0

model.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23c5832103c64cb628e8e56ce5fc7061be323e435a294d34060172c10015208d
+size 17189