Training in progress, epoch 3

Browse files

Files changed (13) hide show

model.safetensors +1 -1
run-3/checkpoint-510/config.json +36 -0
run-3/checkpoint-510/model.safetensors +3 -0
run-3/checkpoint-510/optimizer.pt +3 -0
run-3/checkpoint-510/rng_state.pth +3 -0
run-3/checkpoint-510/scaler.pt +3 -0
run-3/checkpoint-510/scheduler.pt +3 -0
run-3/checkpoint-510/special_tokens_map.json +37 -0
run-3/checkpoint-510/tokenizer.json +0 -0
run-3/checkpoint-510/tokenizer_config.json +63 -0
run-3/checkpoint-510/trainer_state.json +483 -0
run-3/checkpoint-510/training_args.bin +3 -0
run-3/checkpoint-510/vocab.txt +0 -0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13a9979709ed9d6d4798dbbdfb2beadb7b39809ecadc5d3a7ac861c61695a901
 size 437961724

 version https://git-lfs.github.com/spec/v1
+oid sha256:f53a63efbdd6ca66a1ee25a7c76ca6941465f9a8e5b644db5ab618f468eff8af
 size 437961724

run-3/checkpoint-510/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "transformers_version": "4.57.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-3/checkpoint-510/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f53a63efbdd6ca66a1ee25a7c76ca6941465f9a8e5b644db5ab618f468eff8af
+size 437961724

run-3/checkpoint-510/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac4b28e2a09c921b5e5f4988b8442ad671701662affbf9a51490263f31d17cbf
+size 876047755

run-3/checkpoint-510/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3841d065fe6df412acbbf0ba32ce67d6c01b19b50abe53f6fd289346c927327
+size 14645

run-3/checkpoint-510/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3503cdb7ab28084974d0d2c6290591df2d409984572ad42a387e20c8dec1a75d
+size 1383

run-3/checkpoint-510/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3699c43790c88d72e97ca57f4d810f5b82d47526a4aeb77f10ad6bcc9ab2cbe7
+size 1465

run-3/checkpoint-510/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

run-3/checkpoint-510/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-3/checkpoint-510/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_length": 256,
+  "model_max_length": 512,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-510/trainer_state.json ADDED Viewed

	@@ -0,0 +1,483 @@

+{
+  "best_global_step": 340,
+  "best_metric": 0.804635761589404,
+  "best_model_checkpoint": "bert-finetuned-sentiment/run-3/checkpoint-340",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 510,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.058823529411764705,
+      "grad_norm": 4.433600425720215,
+      "learning_rate": 1.0756431582470091e-07,
+      "loss": 0.1139,
+      "step": 10
+    },
+    {
+      "epoch": 0.11764705882352941,
+      "grad_norm": 3.791752576828003,
+      "learning_rate": 2.2708022229659081e-07,
+      "loss": 0.0966,
+      "step": 20
+    },
+    {
+      "epoch": 0.17647058823529413,
+      "grad_norm": 3.7565841674804688,
+      "learning_rate": 3.465961287684807e-07,
+      "loss": 0.1344,
+      "step": 30
+    },
+    {
+      "epoch": 0.23529411764705882,
+      "grad_norm": 2.9085683822631836,
+      "learning_rate": 4.6611203524037065e-07,
+      "loss": 0.0817,
+      "step": 40
+    },
+    {
+      "epoch": 0.29411764705882354,
+      "grad_norm": 2.3981058597564697,
+      "learning_rate": 5.856279417122606e-07,
+      "loss": 0.1346,
+      "step": 50
+    },
+    {
+      "epoch": 0.35294117647058826,
+      "grad_norm": 5.368945121765137,
+      "learning_rate": 7.051438481841504e-07,
+      "loss": 0.1026,
+      "step": 60
+    },
+    {
+      "epoch": 0.4117647058823529,
+      "grad_norm": 6.675357341766357,
+      "learning_rate": 8.246597546560403e-07,
+      "loss": 0.112,
+      "step": 70
+    },
+    {
+      "epoch": 0.47058823529411764,
+      "grad_norm": 8.190033912658691,
+      "learning_rate": 9.441756611279303e-07,
+      "loss": 0.1191,
+      "step": 80
+    },
+    {
+      "epoch": 0.5294117647058824,
+      "grad_norm": 5.81487512588501,
+      "learning_rate": 1.0636915675998201e-06,
+      "loss": 0.1181,
+      "step": 90
+    },
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 5.289318084716797,
+      "learning_rate": 1.18320747407171e-06,
+      "loss": 0.0889,
+      "step": 100
+    },
+    {
+      "epoch": 0.6470588235294118,
+      "grad_norm": 5.081118583679199,
+      "learning_rate": 1.1689238657372647e-06,
+      "loss": 0.0949,
+      "step": 110
+    },
+    {
+      "epoch": 0.7058823529411765,
+      "grad_norm": 3.857740640640259,
+      "learning_rate": 1.1397736446465597e-06,
+      "loss": 0.1292,
+      "step": 120
+    },
+    {
+      "epoch": 0.7647058823529411,
+      "grad_norm": 5.441177845001221,
+      "learning_rate": 1.110623423555855e-06,
+      "loss": 0.1151,
+      "step": 130
+    },
+    {
+      "epoch": 0.8235294117647058,
+      "grad_norm": 4.236395835876465,
+      "learning_rate": 1.0814732024651502e-06,
+      "loss": 0.1196,
+      "step": 140
+    },
+    {
+      "epoch": 0.8823529411764706,
+      "grad_norm": 6.3592729568481445,
+      "learning_rate": 1.0523229813744452e-06,
+      "loss": 0.1136,
+      "step": 150
+    },
+    {
+      "epoch": 0.9411764705882353,
+      "grad_norm": 4.362306118011475,
+      "learning_rate": 1.0231727602837404e-06,
+      "loss": 0.1486,
+      "step": 160
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 10.23830795288086,
+      "learning_rate": 9.940225391930355e-07,
+      "loss": 0.1244,
+      "step": 170
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7996688741721855,
+      "eval_confusion_matrix": [
+        [
+          682,
+          6,
+          74
+        ],
+        [
+          5,
+          75,
+          31
+        ],
+        [
+          107,
+          19,
+          209
+        ]
+      ],
+      "eval_f1": 0.796893176763384,
+      "eval_loss": 0.7061957716941833,
+      "eval_precision": 0.7953158616810029,
+      "eval_recall": 0.7996688741721855,
+      "eval_runtime": 10.592,
+      "eval_samples_per_second": 114.048,
+      "eval_steps_per_second": 3.588,
+      "step": 170
+    },
+    {
+      "epoch": 1.0588235294117647,
+      "grad_norm": 7.019299507141113,
+      "learning_rate": 9.648723181023307e-07,
+      "loss": 0.0962,
+      "step": 180
+    },
+    {
+      "epoch": 1.1176470588235294,
+      "grad_norm": 5.791254997253418,
+      "learning_rate": 9.357220970116258e-07,
+      "loss": 0.0804,
+      "step": 190
+    },
+    {
+      "epoch": 1.1764705882352942,
+      "grad_norm": 3.9136204719543457,
+      "learning_rate": 9.06571875920921e-07,
+      "loss": 0.1183,
+      "step": 200
+    },
+    {
+      "epoch": 1.2352941176470589,
+      "grad_norm": 1.8393582105636597,
+      "learning_rate": 8.774216548302161e-07,
+      "loss": 0.1149,
+      "step": 210
+    },
+    {
+      "epoch": 1.2941176470588236,
+      "grad_norm": 4.407609462738037,
+      "learning_rate": 8.482714337395112e-07,
+      "loss": 0.1203,
+      "step": 220
+    },
+    {
+      "epoch": 1.3529411764705883,
+      "grad_norm": 1.3248332738876343,
+      "learning_rate": 8.191212126488065e-07,
+      "loss": 0.1043,
+      "step": 230
+    },
+    {
+      "epoch": 1.4117647058823528,
+      "grad_norm": 6.83195161819458,
+      "learning_rate": 7.899709915581016e-07,
+      "loss": 0.1299,
+      "step": 240
+    },
+    {
+      "epoch": 1.4705882352941178,
+      "grad_norm": 5.985887050628662,
+      "learning_rate": 7.608207704673967e-07,
+      "loss": 0.09,
+      "step": 250
+    },
+    {
+      "epoch": 1.5294117647058822,
+      "grad_norm": 3.8381385803222656,
+      "learning_rate": 7.316705493766919e-07,
+      "loss": 0.0994,
+      "step": 260
+    },
+    {
+      "epoch": 1.5882352941176472,
+      "grad_norm": 6.180254936218262,
+      "learning_rate": 7.02520328285987e-07,
+      "loss": 0.1326,
+      "step": 270
+    },
+    {
+      "epoch": 1.6470588235294117,
+      "grad_norm": 5.355794906616211,
+      "learning_rate": 6.73370107195282e-07,
+      "loss": 0.0931,
+      "step": 280
+    },
+    {
+      "epoch": 1.7058823529411766,
+      "grad_norm": 5.214751720428467,
+      "learning_rate": 6.442198861045774e-07,
+      "loss": 0.1495,
+      "step": 290
+    },
+    {
+      "epoch": 1.7647058823529411,
+      "grad_norm": 8.591619491577148,
+      "learning_rate": 6.150696650138724e-07,
+      "loss": 0.121,
+      "step": 300
+    },
+    {
+      "epoch": 1.8235294117647058,
+      "grad_norm": 3.209428548812866,
+      "learning_rate": 5.859194439231675e-07,
+      "loss": 0.0832,
+      "step": 310
+    },
+    {
+      "epoch": 1.8823529411764706,
+      "grad_norm": 3.9625730514526367,
+      "learning_rate": 5.567692228324628e-07,
+      "loss": 0.1224,
+      "step": 320
+    },
+    {
+      "epoch": 1.9411764705882353,
+      "grad_norm": 3.482093572616577,
+      "learning_rate": 5.276190017417579e-07,
+      "loss": 0.0999,
+      "step": 330
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 5.103127479553223,
+      "learning_rate": 4.98468780651053e-07,
+      "loss": 0.0826,
+      "step": 340
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.804635761589404,
+      "eval_confusion_matrix": [
+        [
+          691,
+          6,
+          65
+        ],
+        [
+          6,
+          76,
+          29
+        ],
+        [
+          111,
+          19,
+          205
+        ]
+      ],
+      "eval_f1": 0.8004796559078327,
+      "eval_loss": 0.7179281115531921,
+      "eval_precision": 0.7987317200429205,
+      "eval_recall": 0.804635761589404,
+      "eval_runtime": 10.5918,
+      "eval_samples_per_second": 114.051,
+      "eval_steps_per_second": 3.588,
+      "step": 340
+    },
+    {
+      "epoch": 2.0588235294117645,
+      "grad_norm": 6.487239837646484,
+      "learning_rate": 4.6931855956034817e-07,
+      "loss": 0.1785,
+      "step": 350
+    },
+    {
+      "epoch": 2.1176470588235294,
+      "grad_norm": 3.6718146800994873,
+      "learning_rate": 4.401683384696433e-07,
+      "loss": 0.1496,
+      "step": 360
+    },
+    {
+      "epoch": 2.176470588235294,
+      "grad_norm": 3.7639331817626953,
+      "learning_rate": 4.1101811737893844e-07,
+      "loss": 0.1248,
+      "step": 370
+    },
+    {
+      "epoch": 2.235294117647059,
+      "grad_norm": 5.1705217361450195,
+      "learning_rate": 3.818678962882336e-07,
+      "loss": 0.1347,
+      "step": 380
+    },
+    {
+      "epoch": 2.2941176470588234,
+      "grad_norm": 1.4627410173416138,
+      "learning_rate": 3.5271767519752875e-07,
+      "loss": 0.1011,
+      "step": 390
+    },
+    {
+      "epoch": 2.3529411764705883,
+      "grad_norm": 4.662343502044678,
+      "learning_rate": 3.2356745410682394e-07,
+      "loss": 0.1314,
+      "step": 400
+    },
+    {
+      "epoch": 2.411764705882353,
+      "grad_norm": 3.911287784576416,
+      "learning_rate": 2.94417233016119e-07,
+      "loss": 0.1149,
+      "step": 410
+    },
+    {
+      "epoch": 2.4705882352941178,
+      "grad_norm": 2.6072278022766113,
+      "learning_rate": 2.652670119254142e-07,
+      "loss": 0.0759,
+      "step": 420
+    },
+    {
+      "epoch": 2.5294117647058822,
+      "grad_norm": 7.946378231048584,
+      "learning_rate": 2.3611679083470933e-07,
+      "loss": 0.1099,
+      "step": 430
+    },
+    {
+      "epoch": 2.588235294117647,
+      "grad_norm": 4.913047790527344,
+      "learning_rate": 2.0696656974400447e-07,
+      "loss": 0.1047,
+      "step": 440
+    },
+    {
+      "epoch": 2.6470588235294117,
+      "grad_norm": 11.774352073669434,
+      "learning_rate": 1.778163486532996e-07,
+      "loss": 0.0795,
+      "step": 450
+    },
+    {
+      "epoch": 2.7058823529411766,
+      "grad_norm": 3.7040343284606934,
+      "learning_rate": 1.4866612756259476e-07,
+      "loss": 0.0698,
+      "step": 460
+    },
+    {
+      "epoch": 2.764705882352941,
+      "grad_norm": 2.600022554397583,
+      "learning_rate": 1.1951590647188992e-07,
+      "loss": 0.0982,
+      "step": 470
+    },
+    {
+      "epoch": 2.8235294117647056,
+      "grad_norm": 6.07197380065918,
+      "learning_rate": 9.036568538118505e-08,
+      "loss": 0.1167,
+      "step": 480
+    },
+    {
+      "epoch": 2.8823529411764706,
+      "grad_norm": 1.9482654333114624,
+      "learning_rate": 6.12154642904802e-08,
+      "loss": 0.0814,
+      "step": 490
+    },
+    {
+      "epoch": 2.9411764705882355,
+      "grad_norm": 5.402755260467529,
+      "learning_rate": 3.206524319977534e-08,
+      "loss": 0.0627,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 4.032410621643066,
+      "learning_rate": 2.9150221090704854e-09,
+      "loss": 0.0851,
+      "step": 510
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8029801324503312,
+      "eval_confusion_matrix": [
+        [
+          690,
+          6,
+          66
+        ],
+        [
+          6,
+          76,
+          29
+        ],
+        [
+          112,
+          19,
+          204
+        ]
+      ],
+      "eval_f1": 0.7988012759646806,
+      "eval_loss": 0.7215932607650757,
+      "eval_precision": 0.7970235489794079,
+      "eval_recall": 0.8029801324503312,
+      "eval_runtime": 10.6536,
+      "eval_samples_per_second": 113.389,
+      "eval_steps_per_second": 3.567,
+      "step": 510
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 510,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4285130899472640.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.195159064718899e-06,
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 32,
+    "seed": 40
+  }
+}

run-3/checkpoint-510/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9211cc35e41fa4cf70f9499d5ecb125d62f0dc5ca36a2dbfdea87efec12d3310
+size 5777

run-3/checkpoint-510/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff