Upload folder using huggingface_hub

Files changed (4) hide show

.gitattributes CHANGED Viewed

@@ -2332,3 +2332,4 @@ data/wavs/wavs/021_-_NonVerbal_Skills_For_Great_Leaders_3d5ba0fc_part034_02.wav
 data/wavs/wavs/021_-_NonVerbal_Skills_For_Great_Leaders_3d5ba0fc_part032_02.wav filter=lfs diff=lfs merge=lfs -text
 data/wavs/wavs/021_-_NonVerbal_Skills_For_Great_Leaders_3d5ba0fc_part032_01.wav filter=lfs diff=lfs merge=lfs -text
 Utils/JDC/bst.t7 filter=lfs diff=lfs merge=lfs -text

 data/wavs/wavs/021_-_NonVerbal_Skills_For_Great_Leaders_3d5ba0fc_part032_02.wav filter=lfs diff=lfs merge=lfs -text
 data/wavs/wavs/021_-_NonVerbal_Skills_For_Great_Leaders_3d5ba0fc_part032_01.wav filter=lfs diff=lfs merge=lfs -text
 Utils/JDC/bst.t7 filter=lfs diff=lfs merge=lfs -text
+Utils/PLBERT/step_1000000.t7 filter=lfs diff=lfs merge=lfs -text

Utils/PLBERT/config.yml ADDED Viewed

+log_dir: "Checkpoint"
+mixed_precision: "fp16"
+data_folder: "wikipedia_20220301.en.processed"
+batch_size: 192
+save_interval: 5000
+log_interval: 10
+num_process: 1 # number of GPUs
+num_steps: 1000000
+dataset_params:
+    tokenizer: "transfo-xl-wt103"
+    token_separator: " " # token used for phoneme separator (space)
+    token_mask: "M" # token used for phoneme mask (M)
+    word_separator: 3039 # token used for word separator (<formula>)
+    token_maps: "token_maps.pkl" # token map path
+    max_mel_length: 512 # max phoneme length
+    word_mask_prob: 0.15 # probability to mask the entire word
+    phoneme_mask_prob: 0.1 # probability to mask each phoneme
+    replace_prob: 0.2 # probablity to replace phonemes
+model_params:
+    vocab_size: 178
+    hidden_size: 768
+    num_attention_heads: 12
+    intermediate_size: 2048
+    max_position_embeddings: 512
+    num_hidden_layers: 12
+    dropout: 0.1

Utils/PLBERT/step_1000000.t7 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:0714ff85804db43e06b3b0ac5749bf90cf206257c6c5916e8a98c5933b4c21e0
+size 25185187

Utils/PLBERT/util.py ADDED Viewed

+import os
+import yaml
+import torch
+from transformers import AlbertConfig, AlbertModel
+class CustomAlbert(AlbertModel):
+    def forward(self, *args, **kwargs):
+        # Call the original forward method
+        outputs = super().forward(*args, **kwargs)
+        # Only return the last_hidden_state
+        return outputs.last_hidden_state
+def load_plbert(log_dir):
+    config_path = os.path.join(log_dir, "config.yml")
+    plbert_config = yaml.safe_load(open(config_path))
+    albert_base_configuration = AlbertConfig(**plbert_config['model_params'])
+    bert = CustomAlbert(albert_base_configuration)
+    files = os.listdir(log_dir)
+    ckpts = []
+    for f in os.listdir(log_dir):
+        if f.startswith("step_"): ckpts.append(f)
+    iters = [int(f.split('_')[-1].split('.')[0]) for f in ckpts if os.path.isfile(os.path.join(log_dir, f))]
+    iters = sorted(iters)[-1]
+    checkpoint = torch.load(log_dir + "/step_" + str(iters) + ".t7", map_location='cpu')
+    state_dict = checkpoint['net']
+    from collections import OrderedDict
+    new_state_dict = OrderedDict()
+    for k, v in state_dict.items():
+        name = k[7:] # remove `module.`
+        if name.startswith('encoder.'):
+            name = name[8:] # remove `encoder.`
+            new_state_dict[name] = v
+    del new_state_dict["embeddings.position_ids"]
+    bert.load_state_dict(new_state_dict, strict=False)
+    return bert