checkpoint 84 model and tokenizer

Files changed (7) hide show

config.json +76 -0
optimizer.pt +3 -0
preprocessor_config.json +9 -0
pytorch_model.bin +3 -0
scheduler.pt +3 -0
trainer_state.json +310 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,76 @@

+{
+  "_name_or_path": "facebook/wav2vec2-large-xlsr-53",
+  "activation_dropout": 0.0,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.0,
+  "final_dropout": 0.0,
+  "gradient_checkpointing": true,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_attention_heads": 16,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "pad_token_id": 259,
+  "transformers_version": "4.6.0.dev0",
+  "vocab_size": 260
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5bfc6508f4174c9f6359349b9687c28ddab0e09aa92126ab0fa9bcf89e6bb4fb
+size 2492208775

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81a8acfe830487f7ddb00a2c4c6db079bdc50bf9d4ba7f6fd18f42934341b452
+size 1262999831

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:057999ec38e996dec146de5e28f3aaf30dfbc86f0c54eee12d611f5e3b7423e8
+size 623

trainer_state.json ADDED Viewed

	@@ -0,0 +1,310 @@

+{
+  "best_metric": 4.255084991455078,
+  "best_model_checkpoint": "./xlsr-demo/checkpoint-80",
+  "epoch": 28.0,
+  "global_step": 84,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.33,
+      "learning_rate": 5.9999999999999995e-05,
+      "loss": 45.1762,
+      "step": 4
+    },
+    {
+      "epoch": 1.33,
+      "eval_loss": 32.95661544799805,
+      "eval_runtime": 0.6944,
+      "eval_samples_per_second": 14.402,
+      "eval_wer": 1.0,
+      "step": 4
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.00023999999999999998,
+      "loss": 48.4094,
+      "step": 8
+    },
+    {
+      "epoch": 2.67,
+      "eval_loss": 32.567665100097656,
+      "eval_runtime": 0.5168,
+      "eval_samples_per_second": 19.351,
+      "eval_wer": 1.0,
+      "step": 8
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 0.00028941176470588233,
+      "loss": 41.452,
+      "step": 12
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 31.335033416748047,
+      "eval_runtime": 0.5187,
+      "eval_samples_per_second": 19.279,
+      "eval_wer": 1.0,
+      "step": 12
+    },
+    {
+      "epoch": 5.33,
+      "learning_rate": 0.0002788235294117647,
+      "loss": 43.7158,
+      "step": 16
+    },
+    {
+      "epoch": 5.33,
+      "eval_loss": 29.559152603149414,
+      "eval_runtime": 0.5095,
+      "eval_samples_per_second": 19.627,
+      "eval_wer": 1.0,
+      "step": 16
+    },
+    {
+      "epoch": 6.67,
+      "learning_rate": 0.00026470588235294115,
+      "loss": 30.5266,
+      "step": 20
+    },
+    {
+      "epoch": 6.67,
+      "eval_loss": 18.15114974975586,
+      "eval_runtime": 0.5292,
+      "eval_samples_per_second": 18.896,
+      "eval_wer": 1.0,
+      "step": 20
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 0.0002505882352941176,
+      "loss": 27.451,
+      "step": 24
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 13.7584810256958,
+      "eval_runtime": 0.5073,
+      "eval_samples_per_second": 19.713,
+      "eval_wer": 1.0,
+      "step": 24
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 0.0002364705882352941,
+      "loss": 19.4205,
+      "step": 28
+    },
+    {
+      "epoch": 9.33,
+      "eval_loss": 10.164986610412598,
+      "eval_runtime": 0.5127,
+      "eval_samples_per_second": 19.503,
+      "eval_wer": 1.0,
+      "step": 28
+    },
+    {
+      "epoch": 10.67,
+      "learning_rate": 0.00022235294117647057,
+      "loss": 13.2132,
+      "step": 32
+    },
+    {
+      "epoch": 10.67,
+      "eval_loss": 7.898101806640625,
+      "eval_runtime": 0.5031,
+      "eval_samples_per_second": 19.877,
+      "eval_wer": 1.0,
+      "step": 32
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 0.00020823529411764704,
+      "loss": 9.3548,
+      "step": 36
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 6.538975715637207,
+      "eval_runtime": 0.5312,
+      "eval_samples_per_second": 18.825,
+      "eval_wer": 1.0,
+      "step": 36
+    },
+    {
+      "epoch": 13.33,
+      "learning_rate": 0.0001941176470588235,
+      "loss": 8.7253,
+      "step": 40
+    },
+    {
+      "epoch": 13.33,
+      "eval_loss": 5.714229583740234,
+      "eval_runtime": 0.4983,
+      "eval_samples_per_second": 20.07,
+      "eval_wer": 1.0,
+      "step": 40
+    },
+    {
+      "epoch": 14.67,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 6.8295,
+      "step": 44
+    },
+    {
+      "epoch": 14.67,
+      "eval_loss": 5.214608192443848,
+      "eval_runtime": 0.5112,
+      "eval_samples_per_second": 19.561,
+      "eval_wer": 1.0,
+      "step": 44
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 0.00016588235294117646,
+      "loss": 5.9458,
+      "step": 48
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 4.887683868408203,
+      "eval_runtime": 0.5156,
+      "eval_samples_per_second": 19.394,
+      "eval_wer": 1.0,
+      "step": 48
+    },
+    {
+      "epoch": 17.33,
+      "learning_rate": 0.00015176470588235293,
+      "loss": 5.4214,
+      "step": 52
+    },
+    {
+      "epoch": 17.33,
+      "eval_loss": 4.679065704345703,
+      "eval_runtime": 1.0634,
+      "eval_samples_per_second": 9.403,
+      "eval_wer": 1.0,
+      "step": 52
+    },
+    {
+      "epoch": 18.67,
+      "learning_rate": 0.0001376470588235294,
+      "loss": 5.8716,
+      "step": 56
+    },
+    {
+      "epoch": 18.67,
+      "eval_loss": 4.548101425170898,
+      "eval_runtime": 0.4987,
+      "eval_samples_per_second": 20.051,
+      "eval_wer": 1.0,
+      "step": 56
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 0.00012352941176470587,
+      "loss": 4.69,
+      "step": 60
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 4.435084342956543,
+      "eval_runtime": 0.6371,
+      "eval_samples_per_second": 15.695,
+      "eval_wer": 1.0,
+      "step": 60
+    },
+    {
+      "epoch": 21.33,
+      "learning_rate": 0.00010941176470588234,
+      "loss": 4.6092,
+      "step": 64
+    },
+    {
+      "epoch": 21.33,
+      "eval_loss": 4.350079536437988,
+      "eval_runtime": 0.5165,
+      "eval_samples_per_second": 19.361,
+      "eval_wer": 1.0,
+      "step": 64
+    },
+    {
+      "epoch": 22.67,
+      "learning_rate": 9.529411764705882e-05,
+      "loss": 4.9462,
+      "step": 68
+    },
+    {
+      "epoch": 22.67,
+      "eval_loss": 4.301529884338379,
+      "eval_runtime": 0.4931,
+      "eval_samples_per_second": 20.278,
+      "eval_wer": 1.0,
+      "step": 68
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 8.117647058823529e-05,
+      "loss": 4.7406,
+      "step": 72
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 4.267996311187744,
+      "eval_runtime": 0.5187,
+      "eval_samples_per_second": 19.279,
+      "eval_wer": 1.0,
+      "step": 72
+    },
+    {
+      "epoch": 25.33,
+      "learning_rate": 6.705882352941176e-05,
+      "loss": 4.5484,
+      "step": 76
+    },
+    {
+      "epoch": 25.33,
+      "eval_loss": 4.258701801300049,
+      "eval_runtime": 0.5059,
+      "eval_samples_per_second": 19.768,
+      "eval_wer": 1.0,
+      "step": 76
+    },
+    {
+      "epoch": 26.67,
+      "learning_rate": 5.294117647058824e-05,
+      "loss": 4.2841,
+      "step": 80
+    },
+    {
+      "epoch": 26.67,
+      "eval_loss": 4.255084991455078,
+      "eval_runtime": 0.493,
+      "eval_samples_per_second": 20.286,
+      "eval_wer": 1.0,
+      "step": 80
+    },
+    {
+      "epoch": 28.0,
+      "learning_rate": 3.882352941176471e-05,
+      "loss": 4.4733,
+      "step": 84
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 4.255660533905029,
+      "eval_runtime": 0.5041,
+      "eval_samples_per_second": 19.839,
+      "eval_wer": 1.0,
+      "step": 84
+    }
+  ],
+  "max_steps": 90,
+  "num_train_epochs": 30,
+  "total_flos": 3.564185651712e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c2220a89d8cda2c9e9ddfe7fd922e39268d2ceebcd96397807b4516c8d2e156
+size 2351