Training in progress, epoch 2

Browse files

Files changed (10) hide show

model.safetensors +1 -1
run-0/checkpoint-716/config.json +60 -14
run-0/checkpoint-716/model.safetensors +2 -2
run-0/checkpoint-716/optimizer.pt +2 -2
run-0/checkpoint-716/rng_state.pth +1 -1
run-0/checkpoint-716/scheduler.pt +1 -1
run-0/checkpoint-716/tokenizer_config.json +1 -1
run-0/checkpoint-716/trainer_state.json +21 -21
run-0/checkpoint-716/training_args.bin +1 -1
runs/Mar09_22-55-18_c8a641adf9a5/events.out.tfevents.1710025487.c8a641adf9a5.2885.3 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72271a98ada970df47cd57bfbd4c33eb65e05fb14cb2ea7bf120b4542b53b217
 size 438014016

 version https://git-lfs.github.com/spec/v1
+oid sha256:f47067ac901969774100d78a0a54299a73ae4642b1348ad514ca9ba59a14a426
 size 438014016

run-0/checkpoint-716/config.json CHANGED Viewed

@@ -1,25 +1,71 @@
 {
-  "_name_or_path": "distilbert-base-uncased",
-  "activation": "gelu",
   "architectures": [
-    "DistilBertForSequenceClassification"
   ],
-  "attention_dropout": 0.1,
-  "dim": 768,
-  "dropout": 0.1,
-  "hidden_dim": 3072,
   "initializer_range": 0.02,
   "max_position_embeddings": 512,
-  "model_type": "distilbert",
-  "n_heads": 12,
-  "n_layers": 6,
   "pad_token_id": 0,
   "problem_type": "single_label_classification",
-  "qa_dropout": 0.1,
-  "seq_classif_dropout": 0.2,
-  "sinusoidal_pos_embds": false,
-  "tie_weights_": true,
   "torch_dtype": "float32",
   "transformers_version": "4.38.2",
   "vocab_size": 30522
 }

 {
+  "_name_or_path": "google-bert/bert-base-uncased",
   "architectures": [
+    "BertForSequenceClassification"
   ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11",
+    "12": "LABEL_12",
+    "13": "LABEL_13",
+    "14": "LABEL_14",
+    "15": "LABEL_15",
+    "16": "LABEL_16",
+    "17": "LABEL_17",
+    "18": "LABEL_18",
+    "19": "LABEL_19"
+  },
   "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_12": 12,
+    "LABEL_13": 13,
+    "LABEL_14": 14,
+    "LABEL_15": 15,
+    "LABEL_16": 16,
+    "LABEL_17": 17,
+    "LABEL_18": 18,
+    "LABEL_19": 19,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
   "pad_token_id": 0,
+  "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
   "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
   "vocab_size": 30522
 }

run-0/checkpoint-716/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f1653fe18ddcac289f7e57a18461e7deffd5befb44685ee397f45d7a6ebc77c
-size 267832560

 version https://git-lfs.github.com/spec/v1
+oid sha256:f47067ac901969774100d78a0a54299a73ae4642b1348ad514ca9ba59a14a426
+size 438014016

run-0/checkpoint-716/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:716a387eef1ebd0c65de8baed18dd0d7a67502b118c4e14dbbc893dec22f92ab
-size 535727290

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f6a5ab7cb54869b7221000da5222027eff73b78cb665229fac9cf7ce62839ad
+size 876149114

run-0/checkpoint-716/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8103c551332314f7d2856e2ffd500b0e2ed7cfd34359fe80e353bd1a70196c61
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c43d7365410d526d0532b6e2b2c68c0481daa243937c9c500196b2b3b0ea3fe
 size 14308

run-0/checkpoint-716/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da6c7cc1465652020bc3b8e0af7cd84f29ca0ea8b56590e2bebdfe4033a1116d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:865fc7b223eb8eb5157e358aa7f7a1c6fe46575ab236233eb6e0814e0c0cc7f0
 size 1064

run-0/checkpoint-716/tokenizer_config.json CHANGED Viewed

@@ -52,6 +52,6 @@
   "sep_token": "[SEP]",
   "strip_accents": null,
   "tokenize_chinese_chars": true,
-  "tokenizer_class": "DistilBertTokenizer",
   "unk_token": "[UNK]"
 }

   "sep_token": "[SEP]",
   "strip_accents": null,
   "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
   "unk_token": "[UNK]"
 }

run-0/checkpoint-716/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.6083901524543762,
-  "best_model_checkpoint": "./results/run-0/checkpoint-358",
   "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 716,
@@ -10,42 +10,42 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6722222222222222,
-      "eval_loss": 0.6083901524543762,
-      "eval_runtime": 5.7737,
-      "eval_samples_per_second": 165.406,
-      "eval_steps_per_second": 20.784,
       "step": 358
     },
     {
       "epoch": 1.4,
-      "grad_norm": 8.0650634765625,
-      "learning_rate": 1.0536381136099229e-05,
-      "loss": 0.6149,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.6920138888888888,
-      "eval_loss": 0.6155831813812256,
-      "eval_runtime": 6.4389,
-      "eval_samples_per_second": 148.317,
-      "eval_steps_per_second": 18.637,
       "step": 716
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1432,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
-  "total_flos": 529604659826688.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.6188946123276927e-05,
-    "num_train_epochs": 4,
     "per_device_train_batch_size": 8,
-    "seed": 20
   }
 }

 {
+  "best_metric": 0.6109534502029419,
+  "best_model_checkpoint": "./results/run-0/checkpoint-716",
   "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 716,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6795138888888889,
+      "eval_loss": 0.6224137544631958,
+      "eval_runtime": 10.0132,
+      "eval_samples_per_second": 95.375,
+      "eval_steps_per_second": 11.984,
       "step": 358
     },
     {
       "epoch": 1.4,
+      "grad_norm": 4.7652764320373535,
+      "learning_rate": 3.870766963151035e-06,
+      "loss": 0.8365,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6899305555555555,
+      "eval_loss": 0.6109534502029419,
+      "eval_runtime": 10.063,
+      "eval_samples_per_second": 94.902,
+      "eval_steps_per_second": 11.925,
       "step": 716
     }
   ],
   "logging_steps": 500,
+  "max_steps": 716,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
+  "total_flos": 1052088004780032.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 1.2830875674148802e-05,
+    "num_train_epochs": 2,
     "per_device_train_batch_size": 8,
+    "seed": 14
   }
 }

run-0/checkpoint-716/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:756e0c6b01f2dc28da5639bc1c7bcb62246c7526b8bef0298780aea65e098381
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed7492942e77c037e56d91ad59372c979d1f8ff2bc44d6c8e69149791748c37a
 size 4920

runs/Mar09_22-55-18_c8a641adf9a5/events.out.tfevents.1710025487.c8a641adf9a5.2885.3 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45d0388660bc1986bb67af9a45308da3661bee7283480eda834a542a5105c898
-size 5726

 version https://git-lfs.github.com/spec/v1
+oid sha256:29e296354d8b86c6f6500dfec3998e4a57d68864a8ae4c57fad49f2906043dd7
+size 6614