Update multitask classifier

Browse files

Files changed (9) hide show

all_results.json +18 -18
config.json +1 -1
eval_results.json +18 -18
indra_label2id.json +4 -3
model.safetensors +2 -2
test_results.json +18 -18
tokenizer.json +6 -1
trainer_state.json +290 -230
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
-    "epoch": 8.0,
-    "eval_gate1_accuracy": 0.9220945083014048,
-    "eval_gate1_f1": 0.919356123085072,
-    "eval_gate1_precision": 0.9211300524044808,
-    "eval_gate1_recall": 0.9178012732710831,
     "eval_gate1_support": 5481,
-    "eval_gate2_accuracy": 0.8653530377668309,
-    "eval_gate2_f1": 0.8227349734289433,
-    "eval_gate2_precision": 0.8166667786830075,
-    "eval_gate2_recall": 0.8314456431755725,
     "eval_gate2_support": 5481,
-    "eval_gate3_accuracy": 0.883,
-    "eval_gate3_f1": 0.8791234969124853,
-    "eval_gate3_precision": 0.8792372698068011,
-    "eval_gate3_recall": 0.8793823268410769,
-    "eval_gate3_support": 2000,
-    "eval_loss": 1.0637871026992798,
-    "eval_runtime": 6.0652,
-    "eval_samples_per_second": 1233.427,
-    "eval_steps_per_second": 77.161
 }

 {
+    "epoch": 10.0,
+    "eval_gate1_accuracy": 0.9248312351760628,
+    "eval_gate1_f1": 0.9223014364537471,
+    "eval_gate1_precision": 0.9233799376462881,
+    "eval_gate1_recall": 0.9213102653636653,
     "eval_gate1_support": 5481,
+    "eval_gate2_accuracy": 0.8673599708082467,
+    "eval_gate2_f1": 0.8048074187473976,
+    "eval_gate2_precision": 0.7981399002237517,
+    "eval_gate2_recall": 0.818477325235324,
     "eval_gate2_support": 5481,
+    "eval_gate3_accuracy": 0.8764174514703056,
+    "eval_gate3_f1": 0.8057131317523325,
+    "eval_gate3_precision": 0.8091461396544178,
+    "eval_gate3_recall": 0.8052237388041866,
+    "eval_gate3_support": 5203,
+    "eval_loss": 0.9472318887710571,
+    "eval_runtime": 8.2407,
+    "eval_samples_per_second": 1296.485,
+    "eval_steps_per_second": 40.53
 }

config.json CHANGED Viewed

@@ -9,7 +9,7 @@
   "gate2_loss_weight": 0.5,
   "gate2_num_labels": 20,
   "gate3_loss_weight": 0.25,
-  "gate3_num_labels": 10,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,

   "gate2_loss_weight": 0.5,
   "gate2_num_labels": 20,
   "gate3_loss_weight": 0.25,
+  "gate3_num_labels": 11,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,

eval_results.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
-    "epoch": 8.0,
-    "eval_gate1_accuracy": 0.9233576642335767,
-    "eval_gate1_f1": 0.9191083189375944,
-    "eval_gate1_precision": 0.920725462960807,
-    "eval_gate1_recall": 0.9176166745877765,
     "eval_gate1_support": 5480,
-    "eval_gate2_accuracy": 0.8698905109489051,
-    "eval_gate2_f1": 0.7999578692379914,
-    "eval_gate2_precision": 0.8037010297932022,
-    "eval_gate2_recall": 0.8002719527281237,
     "eval_gate2_support": 5480,
-    "eval_gate3_accuracy": 0.8835,
-    "eval_gate3_f1": 0.8832953298062545,
-    "eval_gate3_precision": 0.8825345057863107,
-    "eval_gate3_recall": 0.8856642883280476,
-    "eval_gate3_support": 2000,
-    "eval_loss": 1.065122365951538,
-    "eval_runtime": 6.0337,
-    "eval_samples_per_second": 1239.703,
-    "eval_steps_per_second": 77.564
 }

 {
+    "epoch": 10.0,
+    "eval_gate1_accuracy": 0.9240875912408759,
+    "eval_gate1_f1": 0.9198787159000936,
+    "eval_gate1_precision": 0.9214987753300372,
+    "eval_gate1_recall": 0.9183842728638181,
     "eval_gate1_support": 5480,
+    "eval_gate2_accuracy": 0.8687956204379562,
+    "eval_gate2_f1": 0.7862569245385519,
+    "eval_gate2_precision": 0.7958171660250828,
+    "eval_gate2_recall": 0.7833180915653772,
     "eval_gate2_support": 5480,
+    "eval_gate3_accuracy": 0.8846597462514417,
+    "eval_gate3_f1": 0.8122850869616633,
+    "eval_gate3_precision": 0.8109060527302346,
+    "eval_gate3_recall": 0.8171325515426088,
+    "eval_gate3_support": 5202,
+    "eval_loss": 0.9491556882858276,
+    "eval_runtime": 8.3758,
+    "eval_samples_per_second": 1275.348,
+    "eval_steps_per_second": 39.877
 }

indra_label2id.json CHANGED Viewed

@@ -6,7 +6,8 @@
   "Dephosphorylation": 4,
   "IncreaseAmount": 5,
   "Inhibition": 6,
-  "Phosphorylation": 7,
-  "Translocation": 8,
-  "Ubiquitination": 9
 }

   "Dephosphorylation": 4,
   "IncreaseAmount": 5,
   "Inhibition": 6,
+  "No_Relation": 7,
+  "Phosphorylation": 8,
+  "Translocation": 9,
+  "Ubiquitination": 10
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a740c5dd9c4ca6f8c1c9242e95de9c518601b2a823c1b32825c70156686f97f9
-size 433059296

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a021a34f88584036cbf7749736dcb36ea13b6be1c495e55cd5bc1fb991affbf
+size 433062372

test_results.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
-    "epoch": 8.0,
-    "eval_gate1_accuracy": 0.9220945083014048,
-    "eval_gate1_f1": 0.919356123085072,
-    "eval_gate1_precision": 0.9211300524044808,
-    "eval_gate1_recall": 0.9178012732710831,
     "eval_gate1_support": 5481,
-    "eval_gate2_accuracy": 0.8653530377668309,
-    "eval_gate2_f1": 0.8227349734289433,
-    "eval_gate2_precision": 0.8166667786830075,
-    "eval_gate2_recall": 0.8314456431755725,
     "eval_gate2_support": 5481,
-    "eval_gate3_accuracy": 0.883,
-    "eval_gate3_f1": 0.8791234969124853,
-    "eval_gate3_precision": 0.8792372698068011,
-    "eval_gate3_recall": 0.8793823268410769,
-    "eval_gate3_support": 2000,
-    "eval_loss": 1.0637871026992798,
-    "eval_runtime": 6.0652,
-    "eval_samples_per_second": 1233.427,
-    "eval_steps_per_second": 77.161
 }

 {
+    "epoch": 10.0,
+    "eval_gate1_accuracy": 0.9248312351760628,
+    "eval_gate1_f1": 0.9223014364537471,
+    "eval_gate1_precision": 0.9233799376462881,
+    "eval_gate1_recall": 0.9213102653636653,
     "eval_gate1_support": 5481,
+    "eval_gate2_accuracy": 0.8673599708082467,
+    "eval_gate2_f1": 0.8048074187473976,
+    "eval_gate2_precision": 0.7981399002237517,
+    "eval_gate2_recall": 0.818477325235324,
     "eval_gate2_support": 5481,
+    "eval_gate3_accuracy": 0.8764174514703056,
+    "eval_gate3_f1": 0.8057131317523325,
+    "eval_gate3_precision": 0.8091461396544178,
+    "eval_gate3_recall": 0.8052237388041866,
+    "eval_gate3_support": 5203,
+    "eval_loss": 0.9472318887710571,
+    "eval_runtime": 8.2407,
+    "eval_samples_per_second": 1296.485,
+    "eval_steps_per_second": 40.53
 }

tokenizer.json CHANGED Viewed

@@ -1,6 +1,11 @@
 {
   "version": "1.0",
-  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 512,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
   "padding": null,
   "added_tokens": [
     {

trainer_state.json CHANGED Viewed

@@ -1,314 +1,374 @@
 {
-  "best_global_step": 29928,
-  "best_metric": 0.9191083189375944,
-  "best_model_checkpoint": "output/indra_stmt_classifier/checkpoint-29928",
-  "epoch": 8.0,
   "eval_steps": 500,
-  "global_step": 29928,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 16.97392463684082,
-      "learning_rate": 2.6251002405773856e-05,
-      "loss": 1.0692,
-      "step": 3741
     },
     {
       "epoch": 1.0,
-      "eval_gate1_accuracy": 0.8755474452554745,
-      "eval_gate1_f1": 0.8654095247314355,
-      "eval_gate1_precision": 0.8800125197840785,
-      "eval_gate1_recall": 0.8567959971710921,
       "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.7616788321167883,
-      "eval_gate2_f1": 0.5730668489703115,
-      "eval_gate2_precision": 0.585690519971265,
-      "eval_gate2_recall": 0.5919504605297503,
       "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.845,
-      "eval_gate3_f1": 0.8434294877401559,
-      "eval_gate3_precision": 0.8488642780070184,
-      "eval_gate3_recall": 0.8479987988371172,
-      "eval_gate3_support": 2000,
-      "eval_loss": 0.8157998919487,
-      "eval_runtime": 6.0618,
-      "eval_samples_per_second": 1233.952,
-      "eval_steps_per_second": 77.204,
-      "step": 3741
     },
     {
       "epoch": 2.0,
-      "grad_norm": 21.352304458618164,
-      "learning_rate": 2.2501002405773856e-05,
-      "loss": 0.6238,
-      "step": 7482
     },
     {
       "epoch": 2.0,
-      "eval_gate1_accuracy": 0.8994525547445256,
-      "eval_gate1_f1": 0.8937742054903497,
-      "eval_gate1_precision": 0.8957324660633483,
-      "eval_gate1_recall": 0.8920101984115478,
       "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8262773722627738,
-      "eval_gate2_f1": 0.67163980481707,
-      "eval_gate2_precision": 0.7055723370473652,
-      "eval_gate2_recall": 0.6854239382083407,
       "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.867,
-      "eval_gate3_f1": 0.8657600964850826,
-      "eval_gate3_precision": 0.8667421436959091,
-      "eval_gate3_recall": 0.868961680789557,
-      "eval_gate3_support": 2000,
-      "eval_loss": 0.6808650493621826,
-      "eval_runtime": 6.0211,
-      "eval_samples_per_second": 1242.303,
-      "eval_steps_per_second": 77.727,
-      "step": 7482
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.8973956108093262,
-      "learning_rate": 1.8751002405773857e-05,
-      "loss": 0.4303,
-      "step": 11223
     },
     {
       "epoch": 3.0,
-      "eval_gate1_accuracy": 0.9125912408759124,
-      "eval_gate1_f1": 0.906952702422235,
-      "eval_gate1_precision": 0.9128730971062964,
-      "eval_gate1_recall": 0.9023409786401773,
       "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8355839416058394,
-      "eval_gate2_f1": 0.7385434409038295,
-      "eval_gate2_precision": 0.7641663569860029,
-      "eval_gate2_recall": 0.7437080088930448,
       "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.868,
-      "eval_gate3_f1": 0.8669699202616756,
-      "eval_gate3_precision": 0.8664953934966549,
-      "eval_gate3_recall": 0.8706049600203378,
-      "eval_gate3_support": 2000,
-      "eval_loss": 0.663345456123352,
-      "eval_runtime": 6.0222,
-      "eval_samples_per_second": 1242.065,
-      "eval_steps_per_second": 77.712,
-      "step": 11223
     },
     {
       "epoch": 4.0,
-      "grad_norm": 196.55935668945312,
-      "learning_rate": 1.5001002405773857e-05,
-      "loss": 0.3081,
-      "step": 14964
     },
     {
       "epoch": 4.0,
-      "eval_gate1_accuracy": 0.916058394160584,
-      "eval_gate1_f1": 0.9110853512904616,
-      "eval_gate1_precision": 0.9144090208291653,
-      "eval_gate1_recall": 0.908240209515109,
       "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8503649635036497,
-      "eval_gate2_f1": 0.7682133647085259,
-      "eval_gate2_precision": 0.7687610850655819,
-      "eval_gate2_recall": 0.7767052940971838,
       "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.8775,
-      "eval_gate3_f1": 0.8772840721869313,
-      "eval_gate3_precision": 0.8771370696261505,
-      "eval_gate3_recall": 0.8785732112937543,
-      "eval_gate3_support": 2000,
-      "eval_loss": 0.7711000442504883,
-      "eval_runtime": 6.0221,
-      "eval_samples_per_second": 1242.101,
-      "eval_steps_per_second": 77.714,
-      "step": 14964
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.24990972876548767,
-      "learning_rate": 1.1251002405773857e-05,
-      "loss": 0.2235,
-      "step": 18705
     },
     {
       "epoch": 5.0,
-      "eval_gate1_accuracy": 0.9158759124087591,
-      "eval_gate1_f1": 0.9108019726326577,
-      "eval_gate1_precision": 0.9146403328773369,
-      "eval_gate1_recall": 0.9075806773102292,
       "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8593065693430657,
-      "eval_gate2_f1": 0.7910569403666379,
-      "eval_gate2_precision": 0.7914698187281621,
-      "eval_gate2_recall": 0.798122578484841,
       "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.881,
-      "eval_gate3_f1": 0.8812302979126443,
-      "eval_gate3_precision": 0.8815059990634607,
-      "eval_gate3_recall": 0.8828217206391402,
-      "eval_gate3_support": 2000,
-      "eval_loss": 0.8742159008979797,
-      "eval_runtime": 6.0234,
-      "eval_samples_per_second": 1241.821,
-      "eval_steps_per_second": 77.697,
-      "step": 18705
     },
     {
       "epoch": 6.0,
-      "grad_norm": 129.35702514648438,
-      "learning_rate": 7.501002405773857e-06,
-      "loss": 0.1674,
-      "step": 22446
     },
     {
       "epoch": 6.0,
-      "eval_gate1_accuracy": 0.9228102189781022,
-      "eval_gate1_f1": 0.9183041704578387,
-      "eval_gate1_precision": 0.9212669619031397,
-      "eval_gate1_recall": 0.9157231020887497,
       "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8662408759124087,
-      "eval_gate2_f1": 0.7975168219706065,
-      "eval_gate2_precision": 0.8095979142230767,
-      "eval_gate2_recall": 0.792474508171382,
       "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.8805,
-      "eval_gate3_f1": 0.8805329830111359,
-      "eval_gate3_precision": 0.8801409395898465,
-      "eval_gate3_recall": 0.8819644631677412,
-      "eval_gate3_support": 2000,
-      "eval_loss": 0.9500155448913574,
-      "eval_runtime": 6.0411,
-      "eval_samples_per_second": 1238.191,
-      "eval_steps_per_second": 77.47,
-      "step": 22446
     },
     {
       "epoch": 7.0,
-      "grad_norm": 0.03192654997110367,
-      "learning_rate": 3.7510024057738577e-06,
-      "loss": 0.1206,
-      "step": 26187
     },
     {
       "epoch": 7.0,
-      "eval_gate1_accuracy": 0.9224452554744526,
-      "eval_gate1_f1": 0.9181525458722649,
-      "eval_gate1_precision": 0.9197248301845904,
-      "eval_gate1_recall": 0.916699688800531,
       "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8706204379562044,
-      "eval_gate2_f1": 0.8048656968019223,
-      "eval_gate2_precision": 0.8097514363479691,
-      "eval_gate2_recall": 0.8025954434803986,
       "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.8855,
-      "eval_gate3_f1": 0.8853058174051892,
-      "eval_gate3_precision": 0.8848995702586079,
-      "eval_gate3_recall": 0.8873178312045165,
-      "eval_gate3_support": 2000,
-      "eval_loss": 1.0293151140213013,
-      "eval_runtime": 6.0568,
-      "eval_samples_per_second": 1234.975,
-      "eval_steps_per_second": 77.269,
-      "step": 26187
     },
     {
       "epoch": 8.0,
-      "grad_norm": 0.27694010734558105,
-      "learning_rate": 1.0024057738572574e-09,
-      "loss": 0.0883,
-      "step": 29928
     },
     {
       "epoch": 8.0,
-      "eval_gate1_accuracy": 0.9233576642335767,
-      "eval_gate1_f1": 0.9191083189375944,
-      "eval_gate1_precision": 0.920725462960807,
-      "eval_gate1_recall": 0.9176166745877765,
       "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8698905109489051,
-      "eval_gate2_f1": 0.7999578692379914,
-      "eval_gate2_precision": 0.8037010297932022,
-      "eval_gate2_recall": 0.8002719527281237,
       "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.8835,
-      "eval_gate3_f1": 0.8832953298062545,
-      "eval_gate3_precision": 0.8825345057863107,
-      "eval_gate3_recall": 0.8856642883280476,
-      "eval_gate3_support": 2000,
-      "eval_loss": 1.065122365951538,
-      "eval_runtime": 6.0232,
-      "eval_samples_per_second": 1241.869,
-      "eval_steps_per_second": 77.7,
-      "step": 29928
     },
     {
-      "epoch": 8.0,
-      "step": 29928,
-      "total_flos": 2.74988910152304e+16,
-      "train_loss": 0.3788984635716866,
-      "train_runtime": 1176.1157,
-      "train_samples_per_second": 407.055,
-      "train_steps_per_second": 25.446
     },
     {
-      "epoch": 8.0,
-      "eval_gate1_accuracy": 0.9233576642335767,
-      "eval_gate1_f1": 0.9191083189375944,
-      "eval_gate1_precision": 0.920725462960807,
-      "eval_gate1_recall": 0.9176166745877765,
       "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8698905109489051,
-      "eval_gate2_f1": 0.7999578692379914,
-      "eval_gate2_precision": 0.8037010297932022,
-      "eval_gate2_recall": 0.8002719527281237,
       "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.8835,
-      "eval_gate3_f1": 0.8832953298062545,
-      "eval_gate3_precision": 0.8825345057863107,
-      "eval_gate3_recall": 0.8856642883280476,
-      "eval_gate3_support": 2000,
-      "eval_loss": 1.065122365951538,
-      "eval_runtime": 6.0337,
-      "eval_samples_per_second": 1239.703,
-      "eval_steps_per_second": 77.564,
-      "step": 29928
     },
     {
-      "epoch": 8.0,
-      "eval_gate1_accuracy": 0.9220945083014048,
-      "eval_gate1_f1": 0.919356123085072,
-      "eval_gate1_precision": 0.9211300524044808,
-      "eval_gate1_recall": 0.9178012732710831,
       "eval_gate1_support": 5481,
-      "eval_gate2_accuracy": 0.8653530377668309,
-      "eval_gate2_f1": 0.8227349734289433,
-      "eval_gate2_precision": 0.8166667786830075,
-      "eval_gate2_recall": 0.8314456431755725,
       "eval_gate2_support": 5481,
-      "eval_gate3_accuracy": 0.883,
-      "eval_gate3_f1": 0.8791234969124853,
-      "eval_gate3_precision": 0.8792372698068011,
-      "eval_gate3_recall": 0.8793823268410769,
-      "eval_gate3_support": 2000,
-      "eval_loss": 1.0637871026992798,
-      "eval_runtime": 6.0652,
-      "eval_samples_per_second": 1233.427,
-      "eval_steps_per_second": 77.161,
-      "step": 29928
     }
   ],
   "logging_steps": 500,
-  "max_steps": 29928,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 8,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -322,8 +382,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.74988910152304e+16,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_global_step": 24039,
+  "best_metric": 0.9198787159000936,
+  "best_model_checkpoint": "output/indra_stmt_classifier/checkpoint-24039",
+  "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 26710,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 47.85763931274414,
+      "learning_rate": 2.7001123174840886e-05,
+      "loss": 1.096,
+      "step": 2671
     },
     {
       "epoch": 1.0,
+      "eval_gate1_accuracy": 0.8760948905109489,
+      "eval_gate1_f1": 0.8689092717452258,
+      "eval_gate1_precision": 0.8713719523264891,
+      "eval_gate1_recall": 0.8667668606533185,
       "eval_gate1_support": 5480,
+      "eval_gate2_accuracy": 0.7824817518248175,
+      "eval_gate2_f1": 0.5621839936527114,
+      "eval_gate2_precision": 0.5645465119560173,
+      "eval_gate2_recall": 0.5736060548580606,
       "eval_gate2_support": 5480,
+      "eval_gate3_accuracy": 0.8492887351018839,
+      "eval_gate3_f1": 0.7602413926113012,
+      "eval_gate3_precision": 0.7693172953195895,
+      "eval_gate3_recall": 0.7578355849403795,
+      "eval_gate3_support": 5202,
+      "eval_loss": 0.7759597301483154,
+      "eval_runtime": 8.4166,
+      "eval_samples_per_second": 1269.164,
+      "eval_steps_per_second": 39.684,
+      "step": 2671
     },
     {
       "epoch": 2.0,
+      "grad_norm": 23.181921005249023,
+      "learning_rate": 2.4001123174840884e-05,
+      "loss": 0.6261,
+      "step": 5342
     },
     {
       "epoch": 2.0,
+      "eval_gate1_accuracy": 0.8967153284671533,
+      "eval_gate1_f1": 0.8892135436021471,
+      "eval_gate1_precision": 0.8992800620286656,
+      "eval_gate1_recall": 0.8823722876851883,
       "eval_gate1_support": 5480,
+      "eval_gate2_accuracy": 0.8087591240875912,
+      "eval_gate2_f1": 0.6336830760464771,
+      "eval_gate2_precision": 0.648374818296507,
+      "eval_gate2_recall": 0.6429898577936985,
       "eval_gate2_support": 5480,
+      "eval_gate3_accuracy": 0.856401384083045,
+      "eval_gate3_f1": 0.7796712690058606,
+      "eval_gate3_precision": 0.7733791231232439,
+      "eval_gate3_recall": 0.7949296041903785,
+      "eval_gate3_support": 5202,
+      "eval_loss": 0.7020143270492554,
+      "eval_runtime": 8.2978,
+      "eval_samples_per_second": 1287.322,
+      "eval_steps_per_second": 40.251,
+      "step": 5342
     },
     {
       "epoch": 3.0,
+      "grad_norm": 27.699832916259766,
+      "learning_rate": 2.1001123174840883e-05,
+      "loss": 0.4319,
+      "step": 8013
     },
     {
       "epoch": 3.0,
+      "eval_gate1_accuracy": 0.9136861313868613,
+      "eval_gate1_f1": 0.9090361599898706,
+      "eval_gate1_precision": 0.9099473620236753,
+      "eval_gate1_recall": 0.9081687024129339,
       "eval_gate1_support": 5480,
+      "eval_gate2_accuracy": 0.8375912408759124,
+      "eval_gate2_f1": 0.716570976615394,
+      "eval_gate2_precision": 0.7672632620550218,
+      "eval_gate2_recall": 0.7053523131003135,
       "eval_gate2_support": 5480,
+      "eval_gate3_accuracy": 0.8612072279892349,
+      "eval_gate3_f1": 0.7652294432661969,
+      "eval_gate3_precision": 0.81933757284518,
+      "eval_gate3_recall": 0.7376765450537605,
+      "eval_gate3_support": 5202,
+      "eval_loss": 0.6838930249214172,
+      "eval_runtime": 8.3142,
+      "eval_samples_per_second": 1284.784,
+      "eval_steps_per_second": 40.172,
+      "step": 8013
     },
     {
       "epoch": 4.0,
+      "grad_norm": 8.99526309967041,
+      "learning_rate": 1.8001123174840884e-05,
+      "loss": 0.319,
+      "step": 10684
     },
     {
       "epoch": 4.0,
+      "eval_gate1_accuracy": 0.9113138686131387,
+      "eval_gate1_f1": 0.9066571186319019,
+      "eval_gate1_precision": 0.9070095024338034,
+      "eval_gate1_recall": 0.9063116888828937,
       "eval_gate1_support": 5480,
+      "eval_gate2_accuracy": 0.8434306569343065,
+      "eval_gate2_f1": 0.7453256510027118,
+      "eval_gate2_precision": 0.783574110030759,
+      "eval_gate2_recall": 0.7407995323997061,
       "eval_gate2_support": 5480,
+      "eval_gate3_accuracy": 0.87120338331411,
+      "eval_gate3_f1": 0.7836320711248788,
+      "eval_gate3_precision": 0.823566591748077,
+      "eval_gate3_recall": 0.7547062062356837,
+      "eval_gate3_support": 5202,
+      "eval_loss": 0.7108728885650635,
+      "eval_runtime": 8.3006,
+      "eval_samples_per_second": 1286.889,
+      "eval_steps_per_second": 40.238,
+      "step": 10684
     },
     {
       "epoch": 5.0,
+      "grad_norm": 5.843006610870361,
+      "learning_rate": 1.5001123174840884e-05,
+      "loss": 0.2375,
+      "step": 13355
     },
     {
       "epoch": 5.0,
+      "eval_gate1_accuracy": 0.9191605839416058,
+      "eval_gate1_f1": 0.9147161084936839,
+      "eval_gate1_precision": 0.9161134345731146,
+      "eval_gate1_recall": 0.9134155447895695,
       "eval_gate1_support": 5480,
+      "eval_gate2_accuracy": 0.8563868613138687,
+      "eval_gate2_f1": 0.7598792736508855,
+      "eval_gate2_precision": 0.7518271395861019,
+      "eval_gate2_recall": 0.772553107812257,
       "eval_gate2_support": 5480,
+      "eval_gate3_accuracy": 0.8796616685890042,
+      "eval_gate3_f1": 0.8103507915834345,
+      "eval_gate3_precision": 0.795275163060746,
+      "eval_gate3_recall": 0.8286988441198276,
+      "eval_gate3_support": 5202,
+      "eval_loss": 0.7357046604156494,
+      "eval_runtime": 8.2987,
+      "eval_samples_per_second": 1287.188,
+      "eval_steps_per_second": 40.247,
+      "step": 13355
     },
     {
       "epoch": 6.0,
+      "grad_norm": 0.8739603757858276,
+      "learning_rate": 1.2001123174840884e-05,
+      "loss": 0.1823,
+      "step": 16026
     },
     {
       "epoch": 6.0,
+      "eval_gate1_accuracy": 0.9202554744525547,
+      "eval_gate1_f1": 0.9158266975335383,
+      "eval_gate1_precision": 0.9174725833086337,
+      "eval_gate1_recall": 0.9143118698567939,
       "eval_gate1_support": 5480,
+      "eval_gate2_accuracy": 0.8625912408759124,
+      "eval_gate2_f1": 0.7834573094835664,
+      "eval_gate2_precision": 0.7833879179077755,
+      "eval_gate2_recall": 0.7941424379945043,
       "eval_gate2_support": 5480,
+      "eval_gate3_accuracy": 0.8788927335640139,
+      "eval_gate3_f1": 0.8107447964013891,
+      "eval_gate3_precision": 0.7977529473487692,
+      "eval_gate3_recall": 0.8263627573376545,
+      "eval_gate3_support": 5202,
+      "eval_loss": 0.7493559718132019,
+      "eval_runtime": 8.2869,
+      "eval_samples_per_second": 1289.017,
+      "eval_steps_per_second": 40.304,
+      "step": 16026
     },
     {
       "epoch": 7.0,
+      "grad_norm": 6.645991802215576,
+      "learning_rate": 9.001123174840884e-06,
+      "loss": 0.1393,
+      "step": 18697
     },
     {
       "epoch": 7.0,
+      "eval_gate1_accuracy": 0.9208029197080292,
+      "eval_gate1_f1": 0.916658712113726,
+      "eval_gate1_precision": 0.9169464363987025,
+      "eval_gate1_recall": 0.916375490587046,
       "eval_gate1_support": 5480,
+      "eval_gate2_accuracy": 0.8624087591240875,
+      "eval_gate2_f1": 0.7853563687427353,
+      "eval_gate2_precision": 0.8070903645887496,
+      "eval_gate2_recall": 0.7701247313578428,
       "eval_gate2_support": 5480,
+      "eval_gate3_accuracy": 0.8819684736639753,
+      "eval_gate3_f1": 0.8023548675258322,
+      "eval_gate3_precision": 0.8218130097693663,
+      "eval_gate3_recall": 0.7905833163517992,
+      "eval_gate3_support": 5202,
+      "eval_loss": 0.8566591739654541,
+      "eval_runtime": 8.3576,
+      "eval_samples_per_second": 1278.113,
+      "eval_steps_per_second": 39.963,
+      "step": 18697
     },
     {
       "epoch": 8.0,
+      "grad_norm": 23.729028701782227,
+      "learning_rate": 6.001123174840884e-06,
+      "loss": 0.1053,
+      "step": 21368
     },
     {
       "epoch": 8.0,
+      "eval_gate1_accuracy": 0.9204379562043795,
+      "eval_gate1_f1": 0.9158315272170139,
+      "eval_gate1_precision": 0.9185518950364968,
+      "eval_gate1_recall": 0.9134409679806464,
       "eval_gate1_support": 5480,
+      "eval_gate2_accuracy": 0.8647810218978103,
+      "eval_gate2_f1": 0.7930689269607176,
+      "eval_gate2_precision": 0.7965862889095636,
+      "eval_gate2_recall": 0.793312720903019,
       "eval_gate2_support": 5480,
+      "eval_gate3_accuracy": 0.8813917723952326,
+      "eval_gate3_f1": 0.8117269824014105,
+      "eval_gate3_precision": 0.8009879534677691,
+      "eval_gate3_recall": 0.826162604748559,
+      "eval_gate3_support": 5202,
+      "eval_loss": 0.9113713502883911,
+      "eval_runtime": 8.2775,
+      "eval_samples_per_second": 1290.488,
+      "eval_steps_per_second": 40.35,
+      "step": 21368
     },
     {
+      "epoch": 9.0,
+      "grad_norm": 5.157261371612549,
+      "learning_rate": 3.001123174840884e-06,
+      "loss": 0.0846,
+      "step": 24039
     },
     {
+      "epoch": 9.0,
+      "eval_gate1_accuracy": 0.9240875912408759,
+      "eval_gate1_f1": 0.9198787159000936,
+      "eval_gate1_precision": 0.9214987753300372,
+      "eval_gate1_recall": 0.9183842728638181,
       "eval_gate1_support": 5480,
+      "eval_gate2_accuracy": 0.8687956204379562,
+      "eval_gate2_f1": 0.7862569245385519,
+      "eval_gate2_precision": 0.7958171660250828,
+      "eval_gate2_recall": 0.7833180915653772,
       "eval_gate2_support": 5480,
+      "eval_gate3_accuracy": 0.8846597462514417,
+      "eval_gate3_f1": 0.8122850869616633,
+      "eval_gate3_precision": 0.8109060527302346,
+      "eval_gate3_recall": 0.8171325515426088,
+      "eval_gate3_support": 5202,
+      "eval_loss": 0.9491556882858276,
+      "eval_runtime": 8.2789,
+      "eval_samples_per_second": 1290.275,
+      "eval_steps_per_second": 40.344,
+      "step": 24039
     },
     {
+      "epoch": 10.0,
+      "grad_norm": 16.858612060546875,
+      "learning_rate": 1.1231748408835642e-09,
+      "loss": 0.0657,
+      "step": 26710
+    },
+    {
+      "epoch": 10.0,
+      "eval_gate1_accuracy": 0.9235401459854015,
+      "eval_gate1_f1": 0.9193364547603917,
+      "eval_gate1_precision": 0.920749079638352,
+      "eval_gate1_recall": 0.9180211344458186,
+      "eval_gate1_support": 5480,
+      "eval_gate2_accuracy": 0.8656934306569343,
+      "eval_gate2_f1": 0.7883336539086067,
+      "eval_gate2_precision": 0.7971566464425738,
+      "eval_gate2_recall": 0.7826535186693984,
+      "eval_gate2_support": 5480,
+      "eval_gate3_accuracy": 0.8869665513264129,
+      "eval_gate3_f1": 0.8169346166824163,
+      "eval_gate3_precision": 0.8125578804865948,
+      "eval_gate3_recall": 0.8232165240906076,
+      "eval_gate3_support": 5202,
+      "eval_loss": 1.0004887580871582,
+      "eval_runtime": 8.2766,
+      "eval_samples_per_second": 1290.62,
+      "eval_steps_per_second": 40.355,
+      "step": 26710
+    },
+    {
+      "epoch": 10.0,
+      "step": 26710,
+      "total_flos": 5.5743437807290584e+16,
+      "train_loss": 0.32878632540115477,
+      "train_runtime": 1939.8816,
+      "train_samples_per_second": 440.547,
+      "train_steps_per_second": 13.769
+    },
+    {
+      "epoch": 10.0,
+      "eval_gate1_accuracy": 0.9240875912408759,
+      "eval_gate1_f1": 0.9198787159000936,
+      "eval_gate1_precision": 0.9214987753300372,
+      "eval_gate1_recall": 0.9183842728638181,
+      "eval_gate1_support": 5480,
+      "eval_gate2_accuracy": 0.8687956204379562,
+      "eval_gate2_f1": 0.7862569245385519,
+      "eval_gate2_precision": 0.7958171660250828,
+      "eval_gate2_recall": 0.7833180915653772,
+      "eval_gate2_support": 5480,
+      "eval_gate3_accuracy": 0.8846597462514417,
+      "eval_gate3_f1": 0.8122850869616633,
+      "eval_gate3_precision": 0.8109060527302346,
+      "eval_gate3_recall": 0.8171325515426088,
+      "eval_gate3_support": 5202,
+      "eval_loss": 0.9491556882858276,
+      "eval_runtime": 8.3758,
+      "eval_samples_per_second": 1275.348,
+      "eval_steps_per_second": 39.877,
+      "step": 26710
+    },
+    {
+      "epoch": 10.0,
+      "eval_gate1_accuracy": 0.9248312351760628,
+      "eval_gate1_f1": 0.9223014364537471,
+      "eval_gate1_precision": 0.9233799376462881,
+      "eval_gate1_recall": 0.9213102653636653,
       "eval_gate1_support": 5481,
+      "eval_gate2_accuracy": 0.8673599708082467,
+      "eval_gate2_f1": 0.8048074187473976,
+      "eval_gate2_precision": 0.7981399002237517,
+      "eval_gate2_recall": 0.818477325235324,
       "eval_gate2_support": 5481,
+      "eval_gate3_accuracy": 0.8764174514703056,
+      "eval_gate3_f1": 0.8057131317523325,
+      "eval_gate3_precision": 0.8091461396544178,
+      "eval_gate3_recall": 0.8052237388041866,
+      "eval_gate3_support": 5203,
+      "eval_loss": 0.9472318887710571,
+      "eval_runtime": 8.2407,
+      "eval_samples_per_second": 1296.485,
+      "eval_steps_per_second": 40.53,
+      "step": 26710
     }
   ],
   "logging_steps": 500,
+  "max_steps": 26710,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 5.5743437807290584e+16,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26cb0cc813bc7a4e94c6e8e984556818b46bfdc63e817a89fb3c96204396a299
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:19f9a33b1fbad43324e38078c41a59a870c901b0e80b2e1191720bcab0f09c79
 size 5841