Training in progress, epoch 1

Browse files

Files changed (14) hide show

model.safetensors +1 -1
run-3/checkpoint-170/config.json +36 -0
run-3/checkpoint-170/model.safetensors +3 -0
run-3/checkpoint-170/optimizer.pt +3 -0
run-3/checkpoint-170/rng_state.pth +3 -0
run-3/checkpoint-170/scaler.pt +3 -0
run-3/checkpoint-170/scheduler.pt +3 -0
run-3/checkpoint-170/special_tokens_map.json +37 -0
run-3/checkpoint-170/tokenizer.json +0 -0
run-3/checkpoint-170/tokenizer_config.json +63 -0
run-3/checkpoint-170/trainer_state.json +187 -0
run-3/checkpoint-170/training_args.bin +3 -0
run-3/checkpoint-170/vocab.txt +0 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f543fad37a1db44ca7128f2a3669aa0e717543f56e81541f7e8c7ed02c4d1ad
 size 437961724

 version https://git-lfs.github.com/spec/v1
+oid sha256:514669f1d201d3331dec7b9f42145b8aa58e5868947089892f8054168f384ccd
 size 437961724

run-3/checkpoint-170/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "transformers_version": "4.57.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-3/checkpoint-170/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:514669f1d201d3331dec7b9f42145b8aa58e5868947089892f8054168f384ccd
+size 437961724

run-3/checkpoint-170/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93d425c9aaa8091053ee410f5c59301d7f492ef944ab54fcafa18bbed095ab7a
+size 876047755

run-3/checkpoint-170/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1dde82d18c0aa93fd44dece1f6dec72c4e8ede27b0602416a28593b8eacb537a
+size 14645

run-3/checkpoint-170/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b001d2a49ff97a9d9cfe88681209a2b63675ae3d55da04534be44366e55d887
+size 1383

run-3/checkpoint-170/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81dd6c36f216a29ed263a0dbbe99b46ea3cbeb8c44a33faef0a824456e2e1925
+size 1465

run-3/checkpoint-170/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

run-3/checkpoint-170/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-3/checkpoint-170/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_length": 256,
+  "model_max_length": 512,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-170/trainer_state.json ADDED Viewed

	@@ -0,0 +1,187 @@

+{
+  "best_global_step": 170,
+  "best_metric": 0.7996688741721855,
+  "best_model_checkpoint": "bert-finetuned-sentiment/run-3/checkpoint-170",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 170,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.058823529411764705,
+      "grad_norm": 4.433600425720215,
+      "learning_rate": 1.0756431582470091e-07,
+      "loss": 0.1139,
+      "step": 10
+    },
+    {
+      "epoch": 0.11764705882352941,
+      "grad_norm": 3.791752576828003,
+      "learning_rate": 2.2708022229659081e-07,
+      "loss": 0.0966,
+      "step": 20
+    },
+    {
+      "epoch": 0.17647058823529413,
+      "grad_norm": 3.7565841674804688,
+      "learning_rate": 3.465961287684807e-07,
+      "loss": 0.1344,
+      "step": 30
+    },
+    {
+      "epoch": 0.23529411764705882,
+      "grad_norm": 2.9085683822631836,
+      "learning_rate": 4.6611203524037065e-07,
+      "loss": 0.0817,
+      "step": 40
+    },
+    {
+      "epoch": 0.29411764705882354,
+      "grad_norm": 2.3981058597564697,
+      "learning_rate": 5.856279417122606e-07,
+      "loss": 0.1346,
+      "step": 50
+    },
+    {
+      "epoch": 0.35294117647058826,
+      "grad_norm": 5.368945121765137,
+      "learning_rate": 7.051438481841504e-07,
+      "loss": 0.1026,
+      "step": 60
+    },
+    {
+      "epoch": 0.4117647058823529,
+      "grad_norm": 6.675357341766357,
+      "learning_rate": 8.246597546560403e-07,
+      "loss": 0.112,
+      "step": 70
+    },
+    {
+      "epoch": 0.47058823529411764,
+      "grad_norm": 8.190033912658691,
+      "learning_rate": 9.441756611279303e-07,
+      "loss": 0.1191,
+      "step": 80
+    },
+    {
+      "epoch": 0.5294117647058824,
+      "grad_norm": 5.81487512588501,
+      "learning_rate": 1.0636915675998201e-06,
+      "loss": 0.1181,
+      "step": 90
+    },
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 5.289318084716797,
+      "learning_rate": 1.18320747407171e-06,
+      "loss": 0.0889,
+      "step": 100
+    },
+    {
+      "epoch": 0.6470588235294118,
+      "grad_norm": 5.081118583679199,
+      "learning_rate": 1.1689238657372647e-06,
+      "loss": 0.0949,
+      "step": 110
+    },
+    {
+      "epoch": 0.7058823529411765,
+      "grad_norm": 3.857740640640259,
+      "learning_rate": 1.1397736446465597e-06,
+      "loss": 0.1292,
+      "step": 120
+    },
+    {
+      "epoch": 0.7647058823529411,
+      "grad_norm": 5.441177845001221,
+      "learning_rate": 1.110623423555855e-06,
+      "loss": 0.1151,
+      "step": 130
+    },
+    {
+      "epoch": 0.8235294117647058,
+      "grad_norm": 4.236395835876465,
+      "learning_rate": 1.0814732024651502e-06,
+      "loss": 0.1196,
+      "step": 140
+    },
+    {
+      "epoch": 0.8823529411764706,
+      "grad_norm": 6.3592729568481445,
+      "learning_rate": 1.0523229813744452e-06,
+      "loss": 0.1136,
+      "step": 150
+    },
+    {
+      "epoch": 0.9411764705882353,
+      "grad_norm": 4.362306118011475,
+      "learning_rate": 1.0231727602837404e-06,
+      "loss": 0.1486,
+      "step": 160
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 10.23830795288086,
+      "learning_rate": 9.940225391930355e-07,
+      "loss": 0.1244,
+      "step": 170
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7996688741721855,
+      "eval_confusion_matrix": [
+        [
+          682,
+          6,
+          74
+        ],
+        [
+          5,
+          75,
+          31
+        ],
+        [
+          107,
+          19,
+          209
+        ]
+      ],
+      "eval_f1": 0.796893176763384,
+      "eval_loss": 0.7061957716941833,
+      "eval_precision": 0.7953158616810029,
+      "eval_recall": 0.7996688741721855,
+      "eval_runtime": 10.592,
+      "eval_samples_per_second": 114.048,
+      "eval_steps_per_second": 3.588,
+      "step": 170
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 510,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1428212520604800.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.195159064718899e-06,
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 32,
+    "seed": 40
+  }
+}

run-3/checkpoint-170/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9211cc35e41fa4cf70f9499d5ecb125d62f0dc5ca36a2dbfdea87efec12d3310
+size 5777

run-3/checkpoint-170/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1ed213c84afc0c72cb8266b9163d38ffb171814d89789d606f80a887cc280d4
 size 5777

 version https://git-lfs.github.com/spec/v1
+oid sha256:9211cc35e41fa4cf70f9499d5ecb125d62f0dc5ca36a2dbfdea87efec12d3310
 size 5777