Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

added_tokens.json +4 -0
config.json +82 -0
model.safetensors +3 -0
optimizer.pt +3 -0
preprocessor_config.json +11 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +6 -0
tokenizer_config.json +49 -0
trainer_state.json +217 -0
training_args.bin +3 -0
vocab.json +75 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "</s>": 74,
+  "<s>": 73
+}

config.json ADDED Viewed

	@@ -0,0 +1,82 @@

+{
+  "_name_or_path": "facebook/w2v-bert-2.0",
+  "activation_dropout": 0.0,
+  "adapter_act": "relu",
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": true,
+  "apply_spec_augment": false,
+  "architectures": [
+    "Wav2Vec2BertForCTC"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "classifier_proj_size": 768,
+  "codevector_dim": 768,
+  "conformer_conv_dropout": 0.1,
+  "contrastive_logits_temperature": 0.1,
+  "conv_depthwise_kernel_size": 31,
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "eos_token_id": 2,
+  "feat_proj_dropout": 0.0,
+  "feat_quantizer_dropout": 0.0,
+  "feature_projection_input_dim": 160,
+  "final_dropout": 0.1,
+  "hidden_act": "swish",
+  "hidden_dropout": 0.0,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "left_max_position_embeddings": 64,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.0,
+  "max_source_positions": 5000,
+  "model_type": "wav2vec2-bert",
+  "num_adapter_layers": 1,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 72,
+  "position_embeddings_type": "relative_key",
+  "proj_codevector_dim": 768,
+  "right_max_position_embeddings": 8,
+  "rotary_embedding_base": 10000,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "use_intermediate_ffn_before_adapter": false,
+  "use_weighted_layer_sum": false,
+  "vocab_size": 75,
+  "xvector_output_dim": 512
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bba47b902c490ecea192f4de9bac474e61f4444b40dba229ed076dd360d194e1
+size 2423122060

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa0ea9be1ff85c95bd65ad8207aff88b5bed0bdec9ef2883149703aa9a903553
+size 4846704874

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
+  "feature_size": 80,
+  "num_mel_bins": 80,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "processor_class": "Wav2Vec2BertProcessor",
+  "return_attention_mask": true,
+  "sampling_rate": 16000,
+  "stride": 2
+}

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aba132af3ea6dbc34b93312228f433796d2df55f6dafda6becc04dd290c05d59
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c2388174ab4b674f5fb1397139663389caf82ede0c5cf18d7ea0722066e622a
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "[PAD]",
+  "unk_token": "[UNK]"
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,49 @@

+{
+  "added_tokens_decoder": {
+    "71": {
+      "content": "[UNK]",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "72": {
+      "content": "[PAD]",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "73": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "74": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "do_lower_case": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "processor_class": "Wav2Vec2BertProcessor",
+  "replace_word_delimiter_char": " ",
+  "target_lang": null,
+  "tokenizer_class": "Wav2Vec2CTCTokenizer",
+  "unk_token": "[UNK]",
+  "word_delimiter_token": "|"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,217 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9379360998898276,
+  "eval_steps": 1000,
+  "global_step": 8000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1836210062431142,
+      "grad_norm": 10.457475662231445,
+      "learning_rate": 4.970000000000001e-06,
+      "loss": 3.3985,
+      "step": 500
+    },
+    {
+      "epoch": 0.3672420124862284,
+      "grad_norm": 11.14360237121582,
+      "learning_rate": 9.950000000000001e-06,
+      "loss": 0.4592,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3672420124862284,
+      "eval_loss": 0.3498600423336029,
+      "eval_runtime": 562.4062,
+      "eval_samples_per_second": 16.584,
+      "eval_steps_per_second": 2.073,
+      "eval_wer": 0.3556134972927898,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5508630187293426,
+      "grad_norm": 5.7916131019592285,
+      "learning_rate": 9.312316920072535e-06,
+      "loss": 0.3134,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7344840249724568,
+      "grad_norm": 9.311443328857422,
+      "learning_rate": 8.616264472032362e-06,
+      "loss": 0.2559,
+      "step": 2000
+    },
+    {
+      "epoch": 0.7344840249724568,
+      "eval_loss": 0.2333422601222992,
+      "eval_runtime": 480.3112,
+      "eval_samples_per_second": 19.419,
+      "eval_steps_per_second": 2.428,
+      "eval_wer": 0.2637562688653207,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9181050312155711,
+      "grad_norm": 6.38863468170166,
+      "learning_rate": 7.918817129306738e-06,
+      "loss": 0.2296,
+      "step": 2500
+    },
+    {
+      "epoch": 1.1017260374586852,
+      "grad_norm": 2.376054525375366,
+      "learning_rate": 7.222764681266565e-06,
+      "loss": 0.2012,
+      "step": 3000
+    },
+    {
+      "epoch": 1.1017260374586852,
+      "eval_loss": 0.18642069399356842,
+      "eval_runtime": 502.0224,
+      "eval_samples_per_second": 18.579,
+      "eval_steps_per_second": 2.323,
+      "eval_wer": 0.21953654440177114,
+      "step": 3000
+    },
+    {
+      "epoch": 1.2853470437017995,
+      "grad_norm": 1.8745460510253906,
+      "learning_rate": 6.526712233226392e-06,
+      "loss": 0.1756,
+      "step": 3500
+    },
+    {
+      "epoch": 1.4689680499449138,
+      "grad_norm": 2.770623207092285,
+      "learning_rate": 5.829264890500767e-06,
+      "loss": 0.1749,
+      "step": 4000
+    },
+    {
+      "epoch": 1.4689680499449138,
+      "eval_loss": 0.16301214694976807,
+      "eval_runtime": 476.0811,
+      "eval_samples_per_second": 19.591,
+      "eval_steps_per_second": 2.449,
+      "eval_wer": 0.20193086924350798,
+      "step": 4000
+    },
+    {
+      "epoch": 1.6525890561880279,
+      "grad_norm": 1.6120364665985107,
+      "learning_rate": 5.131817547775143e-06,
+      "loss": 0.1632,
+      "step": 4500
+    },
+    {
+      "epoch": 1.8362100624311422,
+      "grad_norm": 2.6673367023468018,
+      "learning_rate": 4.438554889105873e-06,
+      "loss": 0.1507,
+      "step": 5000
+    },
+    {
+      "epoch": 1.8362100624311422,
+      "eval_loss": 0.1462232917547226,
+      "eval_runtime": 485.091,
+      "eval_samples_per_second": 19.227,
+      "eval_steps_per_second": 2.404,
+      "eval_wer": 0.18161211138907485,
+      "step": 5000
+    },
+    {
+      "epoch": 2.0198310686742564,
+      "grad_norm": 1.5170563459396362,
+      "learning_rate": 3.741107546380249e-06,
+      "loss": 0.1458,
+      "step": 5500
+    },
+    {
+      "epoch": 2.2034520749173705,
+      "grad_norm": 1.745611310005188,
+      "learning_rate": 3.0450550983400755e-06,
+      "loss": 0.1287,
+      "step": 6000
+    },
+    {
+      "epoch": 2.2034520749173705,
+      "eval_loss": 0.13860595226287842,
+      "eval_runtime": 499.1348,
+      "eval_samples_per_second": 18.686,
+      "eval_steps_per_second": 2.336,
+      "eval_wer": 0.17375474202224492,
+      "step": 6000
+    },
+    {
+      "epoch": 2.3870730811604846,
+      "grad_norm": 2.008338212966919,
+      "learning_rate": 2.3490026502999026e-06,
+      "loss": 0.1335,
+      "step": 6500
+    },
+    {
+      "epoch": 2.570694087403599,
+      "grad_norm": 1.838847041130066,
+      "learning_rate": 1.6543450969451807e-06,
+      "loss": 0.1255,
+      "step": 7000
+    },
+    {
+      "epoch": 2.570694087403599,
+      "eval_loss": 0.13410328328609467,
+      "eval_runtime": 496.0496,
+      "eval_samples_per_second": 18.803,
+      "eval_steps_per_second": 2.351,
+      "eval_wer": 0.17149971224880495,
+      "step": 7000
+    },
+    {
+      "epoch": 2.754315093646713,
+      "grad_norm": 3.0811703205108643,
+      "learning_rate": 9.582926489050077e-07,
+      "loss": 0.1327,
+      "step": 7500
+    },
+    {
+      "epoch": 2.9379360998898276,
+      "grad_norm": 2.067793369293213,
+      "learning_rate": 2.6084530617938345e-07,
+      "loss": 0.1351,
+      "step": 8000
+    },
+    {
+      "epoch": 2.9379360998898276,
+      "eval_loss": 0.13526670634746552,
+      "eval_runtime": 494.2618,
+      "eval_samples_per_second": 18.871,
+      "eval_steps_per_second": 2.359,
+      "eval_wer": 0.16994937927956497,
+      "step": 8000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 8169,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.3447222506063737e+19,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c34a341db8e94b17a583fd2b512ac1025a7e8b114b56a19bb4330009a519aacd
+size 5304

vocab.json ADDED Viewed

	@@ -0,0 +1,75 @@

+{
+  "/": 1,
+  "[PAD]": 72,
+  "[UNK]": 71,
+  "|": 0,
+  "।": 2,
+  "॥": 3,
+  "ঁ": 4,
+  "ং": 5,
+  "ঃ": 6,
+  "অ": 7,
+  "আ": 8,
+  "ই": 9,
+  "ঈ": 10,
+  "উ": 11,
+  "ঊ": 12,
+  "ঋ": 13,
+  "এ": 14,
+  "ঐ": 15,
+  "ও": 16,
+  "ঔ": 17,
+  "ক": 18,
+  "খ": 19,
+  "গ": 20,
+  "ঘ": 21,
+  "ঙ": 22,
+  "চ": 23,
+  "ছ": 24,
+  "জ": 25,
+  "ঝ": 26,
+  "ঞ": 27,
+  "ট": 28,
+  "ঠ": 29,
+  "ড": 30,
+  "ঢ": 31,
+  "ণ": 32,
+  "ত": 33,
+  "থ": 34,
+  "দ": 35,
+  "ধ": 36,
+  "ন": 37,
+  "প": 38,
+  "ফ": 39,
+  "ব": 40,
+  "ভ": 41,
+  "ম": 42,
+  "য": 43,
+  "র": 44,
+  "ল": 45,
+  "শ": 46,
+  "ষ": 47,
+  "স": 48,
+  "হ": 49,
+  "়": 50,
+  "া": 51,
+  "ি": 52,
+  "ী": 53,
+  "ু": 54,
+  "ূ": 55,
+  "ৃ": 56,
+  "ে": 57,
+  "ৈ": 58,
+  "ো": 59,
+  "ৌ": 60,
+  "্": 61,
+  "ৎ": 62,
+  "ড়": 63,
+  "ঢ়": 64,
+  "য়": 65,
+  "ৰ": 66,
+  "–": 67,
+  "—": 68,
+  "’": 69,
+  "‚": 70
+}