Upload best checkpoint (F1=0.8245)

Browse files

Files changed (4) hide show

model.safetensors +1 -1
tokenizer.json +1 -1
trainer_state.json +130 -56
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d63150d81d41cc50619fbf414eb368c0478f21176c8aacc1ca5daa571277c9c5
 size 598449012

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d19cdbd7d9e728b2c39a3515ff9740b1bf05da6dd5290c962ee98f8e1a61234
 size 598449012

tokenizer.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "version": "1.0",
   "truncation": {
     "direction": "Right",
-    "max_length": 512,
     "strategy": "LongestFirst",
     "stride": 0
   },

   "version": "1.0",
   "truncation": {
     "direction": "Right",
+    "max_length": 8192,
     "strategy": "LongestFirst",
     "stride": 0
   },

trainer_state.json CHANGED Viewed

@@ -1,90 +1,164 @@
 {
-  "best_global_step": 2646,
-  "best_metric": 0.7086840484500103,
-  "best_model_checkpoint": "./data/coarser_labels/checkpoint-2646",
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 2646,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.5672149744753261,
-      "grad_norm": 0.3870491087436676,
-      "learning_rate": 1.6228269085411943e-05,
-      "loss": 0.10851879119873047,
       "step": 500
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.9402714932126697,
-      "eval_f1": 0.49097052312711176,
-      "eval_loss": 0.01582016609609127,
-      "eval_precision": 0.5857659160411454,
-      "eval_recall": 0.42258323305254714,
-      "eval_runtime": 43.5666,
-      "eval_samples_per_second": 64.269,
-      "eval_steps_per_second": 16.067,
       "step": 882
     },
     {
-      "epoch": 1.1338627339761769,
-      "grad_norm": 0.2627342939376831,
-      "learning_rate": 1.2448979591836736e-05,
-      "loss": 0.03889805603027344,
       "step": 1000
     },
     {
-      "epoch": 1.701077708451503,
-      "grad_norm": 0.1561833620071411,
-      "learning_rate": 8.669690098261528e-06,
-      "loss": 0.026378578186035156,
       "step": 1500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.9582323748357904,
-      "eval_f1": 0.6174682734350007,
-      "eval_loss": 0.014365866780281067,
-      "eval_precision": 0.6593031200182191,
-      "eval_recall": 0.5806257521058965,
-      "eval_runtime": 23.0661,
-      "eval_samples_per_second": 121.39,
-      "eval_steps_per_second": 30.348,
       "step": 1764
     },
     {
-      "epoch": 2.2677254679523537,
-      "grad_norm": 0.4613684117794037,
-      "learning_rate": 4.890400604686319e-06,
-      "loss": 0.020320886611938475,
       "step": 2000
     },
     {
-      "epoch": 2.83494044242768,
-      "grad_norm": 0.21372494101524353,
-      "learning_rate": 1.111111111111111e-06,
-      "loss": 0.01625680351257324,
       "step": 2500
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.97002627353671,
-      "eval_f1": 0.7086840484500103,
-      "eval_loss": 0.01741624064743519,
-      "eval_precision": 0.7258200168208578,
-      "eval_recall": 0.6923385479342158,
-      "eval_runtime": 23.0668,
-      "eval_samples_per_second": 121.386,
-      "eval_steps_per_second": 30.347,
       "step": 2646
     }
   ],
   "logging_steps": 500,
-  "max_steps": 2646,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -93,12 +167,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 4644546171644400.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 3528,
+  "best_metric": 0.8244905994684517,
+  "best_model_checkpoint": "/projects/gyorilab/variants_ner_coarser/checkpoint-3528",
+  "epoch": 8.0,
   "eval_steps": 500,
+  "global_step": 3528,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9403182734357377,
+      "eval_f1": 0.47378233512001866,
+      "eval_loss": 0.01702982187271118,
+      "eval_precision": 0.5675600223338917,
+      "eval_recall": 0.4066,
+      "eval_runtime": 8.8591,
+      "eval_samples_per_second": 316.058,
+      "eval_steps_per_second": 39.507,
+      "step": 441
+    },
+    {
+      "epoch": 1.1338627339761769,
+      "grad_norm": 0.19258293509483337,
+      "learning_rate": 1.7736961451247167e-05,
+      "loss": 0.1472896270751953,
       "step": 500
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9491082668141367,
+      "eval_f1": 0.5545414069456812,
+      "eval_loss": 0.014995112083852291,
+      "eval_precision": 0.6252510040160643,
+      "eval_recall": 0.4982,
+      "eval_runtime": 8.4202,
+      "eval_samples_per_second": 332.534,
+      "eval_steps_per_second": 41.567,
       "step": 882
     },
     {
+      "epoch": 2.2677254679523537,
+      "grad_norm": 0.7697210907936096,
+      "learning_rate": 1.546938775510204e-05,
+      "loss": 0.052211280822753905,
       "step": 1000
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9703556018016576,
+      "eval_f1": 0.7212371134020619,
+      "eval_loss": 0.017216848209500313,
+      "eval_precision": 0.7442553191489362,
+      "eval_recall": 0.6996,
+      "eval_runtime": 8.3974,
+      "eval_samples_per_second": 333.438,
+      "eval_steps_per_second": 41.68,
+      "step": 1323
+    },
+    {
+      "epoch": 3.401588201928531,
+      "grad_norm": 0.342649906873703,
+      "learning_rate": 1.3201814058956916e-05,
+      "loss": 0.03277603530883789,
       "step": 1500
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9722474877936971,
+      "eval_f1": 0.7500510516642842,
+      "eval_loss": 0.01973508670926094,
+      "eval_precision": 0.7661660408844388,
+      "eval_recall": 0.7346,
+      "eval_runtime": 8.5095,
+      "eval_samples_per_second": 329.042,
+      "eval_steps_per_second": 41.13,
       "step": 1764
     },
     {
+      "epoch": 4.5354509359047075,
+      "grad_norm": 0.06497496366500854,
+      "learning_rate": 1.0934240362811793e-05,
+      "loss": 0.019792444229125978,
       "step": 2000
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9771954973113389,
+      "eval_f1": 0.7891332470892627,
+      "eval_loss": 0.03587024286389351,
+      "eval_precision": 0.7853040205981382,
+      "eval_recall": 0.793,
+      "eval_runtime": 8.4468,
+      "eval_samples_per_second": 331.488,
+      "eval_steps_per_second": 41.436,
+      "step": 2205
+    },
+    {
+      "epoch": 5.669313669880885,
+      "grad_norm": 0.02606065385043621,
+      "learning_rate": 8.666666666666668e-06,
+      "loss": 0.013434083938598632,
       "step": 2500
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9781268873381892,
+      "eval_f1": 0.8013205282112845,
+      "eval_loss": 0.03571802005171776,
+      "eval_precision": 0.8016413130504404,
+      "eval_recall": 0.801,
+      "eval_runtime": 8.4407,
+      "eval_samples_per_second": 331.725,
+      "eval_steps_per_second": 41.466,
       "step": 2646
+    },
+    {
+      "epoch": 6.803176403857062,
+      "grad_norm": 0.06468810141086578,
+      "learning_rate": 6.399092970521542e-06,
+      "loss": 0.009369298934936524,
+      "step": 3000
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9796622255855751,
+      "eval_f1": 0.8202601497832086,
+      "eval_loss": 0.06079654023051262,
+      "eval_precision": 0.8084693084693084,
+      "eval_recall": 0.8324,
+      "eval_runtime": 8.4309,
+      "eval_samples_per_second": 332.113,
+      "eval_steps_per_second": 41.514,
+      "step": 3087
+    },
+    {
+      "epoch": 7.9370391378332386,
+      "grad_norm": 0.018788253888487816,
+      "learning_rate": 4.131519274376418e-06,
+      "loss": 0.005781527042388916,
+      "step": 3500
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9798732436385333,
+      "eval_f1": 0.8244905994684517,
+      "eval_loss": 0.06755472719669342,
+      "eval_precision": 0.8117852296956775,
+      "eval_recall": 0.8376,
+      "eval_runtime": 8.4796,
+      "eval_samples_per_second": 330.204,
+      "eval_steps_per_second": 41.276,
+      "step": 3528
     }
   ],
   "logging_steps": 500,
+  "max_steps": 4410,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.254969894362148e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c276bd9da05a8ab8c9d402db0a83e16f25adaa446bf1b0d1ec82e117b00d6f3
 size 5201

 version https://git-lfs.github.com/spec/v1
+oid sha256:2801ea6fc0f1d1a5848157d1ae39e7e2bfc9a91f89e678b21ce55c99c950f598
 size 5201