Update multitask INDRA statement classifier

Browse files

Files changed (6) hide show

all_results.json +23 -23
eval_results.json +23 -23
model.safetensors +1 -1
test_results.json +23 -23
trainer_state.json +340 -340
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,28 +1,28 @@
 {
     "epoch": 10.0,
-    "eval_gate1_accuracy": 0.9213647144681627,
-    "eval_gate1_f1": 0.9186345562318086,
-    "eval_gate1_precision": 0.9201991431515453,
-    "eval_gate1_recall": 0.917244999785811,
-    "eval_gate1_support": 5481,
-    "eval_gate2_accuracy": 0.8666301769750046,
-    "eval_gate2_f1": 0.8084870586267471,
-    "eval_gate2_precision": 0.8025086025493519,
-    "eval_gate2_recall": 0.8192604428212116,
-    "eval_gate2_support": 5481,
-    "eval_gate3_accuracy": 0.896040316774658,
-    "eval_gate3_f1": 0.7248294888969216,
-    "eval_gate3_precision": 0.7283732815204376,
-    "eval_gate3_recall": 0.7292579147184429,
     "eval_gate3_support": 6945,
-    "eval_gate4_span_FN": 191,
-    "eval_gate4_span_FP": 216,
-    "eval_gate4_span_TP": 820,
-    "eval_gate4_span_f1": 0.8011724424770412,
-    "eval_gate4_span_precision": 0.7915057914981516,
-    "eval_gate4_span_recall": 0.8110781404469725,
     "eval_loss": NaN,
-    "eval_runtime": 11.7731,
-    "eval_samples_per_second": 1141.924,
-    "eval_steps_per_second": 35.759
 }

 {
     "epoch": 10.0,
+    "eval_gate1_accuracy": 0.9251295336787565,
+    "eval_gate1_f1": 0.9199371922438249,
+    "eval_gate1_precision": 0.920966070966071,
+    "eval_gate1_recall": 0.9189513092953367,
+    "eval_gate1_support": 3860,
+    "eval_gate2_accuracy": 0.8709844559585492,
+    "eval_gate2_f1": 0.8487797208181732,
+    "eval_gate2_precision": 0.8500529357712848,
+    "eval_gate2_recall": 0.8532136788618205,
+    "eval_gate2_support": 3860,
+    "eval_gate3_accuracy": 0.8920086393088553,
+    "eval_gate3_f1": 0.6992827001481418,
+    "eval_gate3_precision": 0.715591871957983,
+    "eval_gate3_recall": 0.7063340262769819,
     "eval_gate3_support": 6945,
+    "eval_gate4_span_FN": 196,
+    "eval_gate4_span_FP": 204,
+    "eval_gate4_span_TP": 815,
+    "eval_gate4_span_f1": 0.8029556600167974,
+    "eval_gate4_span_precision": 0.7998037291383728,
+    "eval_gate4_span_recall": 0.8061325420296129,
     "eval_loss": NaN,
+    "eval_runtime": 10.4274,
+    "eval_samples_per_second": 1133.841,
+    "eval_steps_per_second": 35.483
 }

eval_results.json CHANGED Viewed

@@ -1,28 +1,28 @@
 {
     "epoch": 10.0,
-    "eval_gate1_accuracy": 0.9246350364963504,
-    "eval_gate1_f1": 0.9205333497188853,
-    "eval_gate1_precision": 0.9217073986882154,
-    "eval_gate1_recall": 0.9194276042067187,
-    "eval_gate1_support": 5480,
-    "eval_gate2_accuracy": 0.8678832116788321,
-    "eval_gate2_f1": 0.8058316251370092,
-    "eval_gate2_precision": 0.8166158136605832,
-    "eval_gate2_recall": 0.7978233842024146,
-    "eval_gate2_support": 5480,
-    "eval_gate3_accuracy": 0.8917206623470122,
-    "eval_gate3_f1": 0.8222395535726833,
-    "eval_gate3_precision": 0.8221736195559818,
-    "eval_gate3_recall": 0.8242704639947701,
     "eval_gate3_support": 6945,
-    "eval_gate4_span_FN": 203,
-    "eval_gate4_span_FP": 229,
-    "eval_gate4_span_TP": 804,
-    "eval_gate4_span_f1": 0.7882352891107315,
-    "eval_gate4_span_precision": 0.7783155856652633,
-    "eval_gate4_span_recall": 0.7984111221370565,
     "eval_loss": NaN,
-    "eval_runtime": 11.7348,
-    "eval_samples_per_second": 1145.568,
-    "eval_steps_per_second": 35.876
 }

 {
     "epoch": 10.0,
+    "eval_gate1_accuracy": 0.9217413837781808,
+    "eval_gate1_f1": 0.9163582001286115,
+    "eval_gate1_precision": 0.9168310136033854,
+    "eval_gate1_recall": 0.915894857280501,
+    "eval_gate1_support": 3859,
+    "eval_gate2_accuracy": 0.8717284270536408,
+    "eval_gate2_f1": 0.8542694094275488,
+    "eval_gate2_precision": 0.8495135391288109,
+    "eval_gate2_recall": 0.8711254994444528,
+    "eval_gate2_support": 3859,
+    "eval_gate3_accuracy": 0.8866810655147588,
+    "eval_gate3_f1": 0.8118642371342876,
+    "eval_gate3_precision": 0.8115033608543574,
+    "eval_gate3_recall": 0.8169535217733972,
     "eval_gate3_support": 6945,
+    "eval_gate4_span_FN": 216,
+    "eval_gate4_span_FP": 233,
+    "eval_gate4_span_TP": 791,
+    "eval_gate4_span_f1": 0.7789266321172492,
+    "eval_gate4_span_precision": 0.7724609374924565,
+    "eval_gate4_span_recall": 0.7855014895651886,
     "eval_loss": NaN,
+    "eval_runtime": 10.4531,
+    "eval_samples_per_second": 1130.954,
+    "eval_steps_per_second": 35.396
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b94cf322393ef80a1b785e7df572a818dbac55f2398d890d3892bc064ab2d1d3
 size 433117924

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b35d7f66fff3ea1f61adafef612dc54cbec880bc1382a940ef331aa3566de4e
 size 433117924

test_results.json CHANGED Viewed

@@ -1,28 +1,28 @@
 {
     "epoch": 10.0,
-    "eval_gate1_accuracy": 0.9213647144681627,
-    "eval_gate1_f1": 0.9186345562318086,
-    "eval_gate1_precision": 0.9201991431515453,
-    "eval_gate1_recall": 0.917244999785811,
-    "eval_gate1_support": 5481,
-    "eval_gate2_accuracy": 0.8666301769750046,
-    "eval_gate2_f1": 0.8084870586267471,
-    "eval_gate2_precision": 0.8025086025493519,
-    "eval_gate2_recall": 0.8192604428212116,
-    "eval_gate2_support": 5481,
-    "eval_gate3_accuracy": 0.896040316774658,
-    "eval_gate3_f1": 0.7248294888969216,
-    "eval_gate3_precision": 0.7283732815204376,
-    "eval_gate3_recall": 0.7292579147184429,
     "eval_gate3_support": 6945,
-    "eval_gate4_span_FN": 191,
-    "eval_gate4_span_FP": 216,
-    "eval_gate4_span_TP": 820,
-    "eval_gate4_span_f1": 0.8011724424770412,
-    "eval_gate4_span_precision": 0.7915057914981516,
-    "eval_gate4_span_recall": 0.8110781404469725,
     "eval_loss": NaN,
-    "eval_runtime": 11.7731,
-    "eval_samples_per_second": 1141.924,
-    "eval_steps_per_second": 35.759
 }

 {
     "epoch": 10.0,
+    "eval_gate1_accuracy": 0.9251295336787565,
+    "eval_gate1_f1": 0.9199371922438249,
+    "eval_gate1_precision": 0.920966070966071,
+    "eval_gate1_recall": 0.9189513092953367,
+    "eval_gate1_support": 3860,
+    "eval_gate2_accuracy": 0.8709844559585492,
+    "eval_gate2_f1": 0.8487797208181732,
+    "eval_gate2_precision": 0.8500529357712848,
+    "eval_gate2_recall": 0.8532136788618205,
+    "eval_gate2_support": 3860,
+    "eval_gate3_accuracy": 0.8920086393088553,
+    "eval_gate3_f1": 0.6992827001481418,
+    "eval_gate3_precision": 0.715591871957983,
+    "eval_gate3_recall": 0.7063340262769819,
     "eval_gate3_support": 6945,
+    "eval_gate4_span_FN": 196,
+    "eval_gate4_span_FP": 204,
+    "eval_gate4_span_TP": 815,
+    "eval_gate4_span_f1": 0.8029556600167974,
+    "eval_gate4_span_precision": 0.7998037291383728,
+    "eval_gate4_span_recall": 0.8061325420296129,
     "eval_loss": NaN,
+    "eval_runtime": 10.4274,
+    "eval_samples_per_second": 1133.841,
+    "eval_steps_per_second": 35.483
 }

trainer_state.json CHANGED Viewed

@@ -1,444 +1,444 @@
 {
-  "best_global_step": 33610,
-  "best_metric": 0.9205333497188853,
-  "best_model_checkpoint": "output/indra_stmt_classifier/checkpoint-33610",
   "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 33610,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 83.16195678710938,
-      "learning_rate": 2.7000892591490628e-05,
-      "loss": 2.1713,
-      "step": 3361
     },
     {
       "epoch": 1.0,
-      "eval_gate1_accuracy": 0.8631386861313869,
-      "eval_gate1_f1": 0.8496391119181088,
-      "eval_gate1_precision": 0.8747726787205531,
-      "eval_gate1_recall": 0.8378801625011154,
-      "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.7735401459854014,
-      "eval_gate2_f1": 0.5551258278523046,
-      "eval_gate2_precision": 0.5319036721194055,
-      "eval_gate2_recall": 0.5990167093747056,
-      "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.8374370050395968,
-      "eval_gate3_f1": 0.7282978571600487,
-      "eval_gate3_precision": 0.6996136908126558,
-      "eval_gate3_recall": 0.7783567551416212,
       "eval_gate3_support": 6945,
-      "eval_gate4_span_FN": 253,
-      "eval_gate4_span_FP": 367,
-      "eval_gate4_span_TP": 754,
-      "eval_gate4_span_f1": 0.7086466115490427,
-      "eval_gate4_span_precision": 0.6726137377281659,
-      "eval_gate4_span_recall": 0.7487586891683341,
       "eval_loss": NaN,
-      "eval_runtime": 11.786,
-      "eval_samples_per_second": 1140.592,
-      "eval_steps_per_second": 35.72,
-      "step": 3361
     },
     {
       "epoch": 2.0,
-      "grad_norm": 69.370361328125,
-      "learning_rate": 2.400089259149063e-05,
-      "loss": 1.1877,
-      "step": 6722
     },
     {
       "epoch": 2.0,
-      "eval_gate1_accuracy": 0.9047445255474452,
-      "eval_gate1_f1": 0.8993560611817873,
-      "eval_gate1_precision": 0.901382455631206,
-      "eval_gate1_recall": 0.8975327738550425,
-      "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8321167883211679,
-      "eval_gate2_f1": 0.6987395582230196,
-      "eval_gate2_precision": 0.7745717741282553,
-      "eval_gate2_recall": 0.6797882368167423,
-      "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.874154067674586,
-      "eval_gate3_f1": 0.7533275258899098,
-      "eval_gate3_precision": 0.7684785876654326,
-      "eval_gate3_recall": 0.7543369804146175,
       "eval_gate3_support": 6945,
-      "eval_gate4_span_FN": 249,
-      "eval_gate4_span_FP": 225,
-      "eval_gate4_span_TP": 758,
-      "eval_gate4_span_f1": 0.7618090402192016,
-      "eval_gate4_span_precision": 0.7711088504499378,
-      "eval_gate4_span_recall": 0.7527308838058319,
       "eval_loss": NaN,
-      "eval_runtime": 11.7456,
-      "eval_samples_per_second": 1144.515,
-      "eval_steps_per_second": 35.843,
-      "step": 6722
     },
     {
       "epoch": 3.0,
-      "grad_norm": 45.90858840942383,
-      "learning_rate": 2.1000892591490628e-05,
-      "loss": 0.826,
-      "step": 10083
     },
     {
       "epoch": 3.0,
-      "eval_gate1_accuracy": 0.9078467153284672,
-      "eval_gate1_f1": 0.9015973942404003,
-      "eval_gate1_precision": 0.9092105636457223,
-      "eval_gate1_recall": 0.8959912039961053,
-      "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8341240875912409,
-      "eval_gate2_f1": 0.7503015413052768,
-      "eval_gate2_precision": 0.7476103243098973,
-      "eval_gate2_recall": 0.7641146716016405,
-      "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.8768898488120951,
-      "eval_gate3_f1": 0.7962252395628027,
-      "eval_gate3_precision": 0.7770154690688454,
-      "eval_gate3_recall": 0.8213925119331326,
       "eval_gate3_support": 6945,
-      "eval_gate4_span_FN": 246,
-      "eval_gate4_span_FP": 169,
-      "eval_gate4_span_TP": 761,
-      "eval_gate4_span_f1": 0.7857511565898759,
-      "eval_gate4_span_precision": 0.8182795698836745,
-      "eval_gate4_span_recall": 0.7557100297839552,
       "eval_loss": NaN,
-      "eval_runtime": 11.7657,
-      "eval_samples_per_second": 1142.558,
-      "eval_steps_per_second": 35.782,
-      "step": 10083
     },
     {
       "epoch": 4.0,
-      "grad_norm": 71.82106018066406,
-      "learning_rate": 1.800089259149063e-05,
-      "loss": 0.6078,
-      "step": 13444
     },
     {
       "epoch": 4.0,
-      "eval_gate1_accuracy": 0.9158759124087591,
-      "eval_gate1_f1": 0.9110773857438494,
-      "eval_gate1_precision": 0.9133749733155683,
-      "eval_gate1_recall": 0.9090260872756438,
-      "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8534671532846715,
-      "eval_gate2_f1": 0.779756506272741,
-      "eval_gate2_precision": 0.7797552394455943,
-      "eval_gate2_recall": 0.7841918455268236,
-      "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.8781857451403887,
-      "eval_gate3_f1": 0.7971838058377029,
-      "eval_gate3_precision": 0.7985875511812209,
-      "eval_gate3_recall": 0.7998701853370004,
       "eval_gate3_support": 6945,
-      "eval_gate4_span_FN": 235,
-      "eval_gate4_span_FP": 174,
-      "eval_gate4_span_TP": 772,
-      "eval_gate4_span_f1": 0.7905785920269918,
-      "eval_gate4_span_precision": 0.8160676532683291,
-      "eval_gate4_span_recall": 0.7666335650370741,
       "eval_loss": NaN,
-      "eval_runtime": 11.7533,
-      "eval_samples_per_second": 1143.759,
-      "eval_steps_per_second": 35.82,
-      "step": 13444
     },
     {
       "epoch": 5.0,
-      "grad_norm": 24.64365577697754,
-      "learning_rate": 1.5000892591490627e-05,
-      "loss": 0.4578,
-      "step": 16805
     },
     {
       "epoch": 5.0,
-      "eval_gate1_accuracy": 0.9211678832116789,
-      "eval_gate1_f1": 0.9164362394274561,
-      "eval_gate1_precision": 0.920180620585261,
-      "eval_gate1_recall": 0.9132733009849491,
-      "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8596715328467154,
-      "eval_gate2_f1": 0.7821118981569934,
-      "eval_gate2_precision": 0.7823810326487586,
-      "eval_gate2_recall": 0.7874741213438188,
-      "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.8879769618430525,
-      "eval_gate3_f1": 0.8188009781259479,
-      "eval_gate3_precision": 0.81704667818362,
-      "eval_gate3_recall": 0.8239144912824204,
       "eval_gate3_support": 6945,
-      "eval_gate4_span_FN": 192,
-      "eval_gate4_span_FP": 238,
-      "eval_gate4_span_TP": 815,
-      "eval_gate4_span_f1": 0.7912621309171413,
-      "eval_gate4_span_precision": 0.7739791073050905,
-      "eval_gate4_span_recall": 0.8093346573901754,
       "eval_loss": NaN,
-      "eval_runtime": 11.7427,
-      "eval_samples_per_second": 1144.794,
-      "eval_steps_per_second": 35.852,
-      "step": 16805
     },
     {
       "epoch": 6.0,
-      "grad_norm": 69.29522705078125,
-      "learning_rate": 1.2000892591490627e-05,
-      "loss": 0.3524,
-      "step": 20166
     },
     {
       "epoch": 6.0,
-      "eval_gate1_accuracy": 0.9231751824817518,
-      "eval_gate1_f1": 0.9190504806785601,
-      "eval_gate1_precision": 0.9199059164357939,
-      "eval_gate1_recall": 0.9182325041170862,
-      "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8636861313868613,
-      "eval_gate2_f1": 0.7930432865271577,
-      "eval_gate2_precision": 0.8121456104731711,
-      "eval_gate2_recall": 0.7841299101269683,
-      "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.8920086393088553,
-      "eval_gate3_f1": 0.8088394881064588,
-      "eval_gate3_precision": 0.8180765356300564,
-      "eval_gate3_recall": 0.8033490259257916,
       "eval_gate3_support": 6945,
-      "eval_gate4_span_FN": 225,
-      "eval_gate4_span_FP": 200,
-      "eval_gate4_span_TP": 782,
-      "eval_gate4_span_f1": 0.7863247813176696,
-      "eval_gate4_span_precision": 0.79633401221185,
-      "eval_gate4_span_recall": 0.7765640516308187,
       "eval_loss": NaN,
-      "eval_runtime": 11.7509,
-      "eval_samples_per_second": 1143.999,
-      "eval_steps_per_second": 35.827,
-      "step": 20166
     },
     {
       "epoch": 7.0,
-      "grad_norm": 0.35947471857070923,
-      "learning_rate": 9.000892591490627e-06,
-      "loss": 0.2689,
-      "step": 23527
     },
     {
       "epoch": 7.0,
-      "eval_gate1_accuracy": 0.9231751824817518,
-      "eval_gate1_f1": 0.9187638476516155,
-      "eval_gate1_precision": 0.9212794140564127,
-      "eval_gate1_recall": 0.9165320218048336,
-      "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8671532846715329,
-      "eval_gate2_f1": 0.8079309552254988,
-      "eval_gate2_precision": 0.8227266066129817,
-      "eval_gate2_recall": 0.797751133090433,
-      "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.8852411807055436,
-      "eval_gate3_f1": 0.8088813524226606,
-      "eval_gate3_precision": 0.8162963874584487,
-      "eval_gate3_recall": 0.8038531980971689,
       "eval_gate3_support": 6945,
-      "eval_gate4_span_FN": 231,
-      "eval_gate4_span_FP": 181,
-      "eval_gate4_span_TP": 776,
-      "eval_gate4_span_f1": 0.7902240275817516,
-      "eval_gate4_span_precision": 0.8108672936174413,
-      "eval_gate4_span_recall": 0.7706057596745719,
       "eval_loss": NaN,
-      "eval_runtime": 11.7438,
-      "eval_samples_per_second": 1144.692,
-      "eval_steps_per_second": 35.849,
-      "step": 23527
     },
     {
       "epoch": 8.0,
-      "grad_norm": 4.188035488128662,
-      "learning_rate": 6.000892591490628e-06,
-      "loss": 0.2153,
-      "step": 26888
     },
     {
       "epoch": 8.0,
-      "eval_gate1_accuracy": 0.9224452554744526,
-      "eval_gate1_f1": 0.9186003567254611,
-      "eval_gate1_precision": 0.9178172910122369,
-      "eval_gate1_recall": 0.919420460500135,
-      "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8651459854014598,
-      "eval_gate2_f1": 0.8062227658402653,
-      "eval_gate2_precision": 0.8149058818473103,
-      "eval_gate2_recall": 0.7994866424525817,
-      "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.8921526277897768,
-      "eval_gate3_f1": 0.8158220516262978,
-      "eval_gate3_precision": 0.8162103501289484,
-      "eval_gate3_recall": 0.8193325492657668,
       "eval_gate3_support": 6945,
-      "eval_gate4_span_FN": 201,
-      "eval_gate4_span_FP": 265,
-      "eval_gate4_span_TP": 806,
-      "eval_gate4_span_f1": 0.7757459045256693,
-      "eval_gate4_span_precision": 0.7525676937371376,
-      "eval_gate4_span_recall": 0.8003972194558053,
       "eval_loss": NaN,
-      "eval_runtime": 11.7492,
-      "eval_samples_per_second": 1144.16,
-      "eval_steps_per_second": 35.832,
-      "step": 26888
     },
     {
       "epoch": 9.0,
-      "grad_norm": 1.35725998878479,
-      "learning_rate": 3.0008925914906276e-06,
-      "loss": 0.1666,
-      "step": 30249
     },
     {
       "epoch": 9.0,
-      "eval_gate1_accuracy": 0.9222627737226278,
-      "eval_gate1_f1": 0.9181949570517217,
-      "eval_gate1_precision": 0.9184837380555799,
-      "eval_gate1_recall": 0.9179106871391289,
-      "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8658759124087592,
-      "eval_gate2_f1": 0.8041530479374372,
-      "eval_gate2_precision": 0.8198064758030179,
-      "eval_gate2_recall": 0.7941505361829777,
-      "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.8907127429805616,
-      "eval_gate3_f1": 0.8217501511359249,
-      "eval_gate3_precision": 0.8178736666290892,
-      "eval_gate3_recall": 0.8276942456083646,
       "eval_gate3_support": 6945,
-      "eval_gate4_span_FN": 201,
-      "eval_gate4_span_FP": 245,
-      "eval_gate4_span_TP": 806,
-      "eval_gate4_span_f1": 0.7832847374630894,
-      "eval_gate4_span_precision": 0.7668886774427509,
-      "eval_gate4_span_recall": 0.8003972194558053,
       "eval_loss": NaN,
-      "eval_runtime": 11.7734,
-      "eval_samples_per_second": 1141.814,
-      "eval_steps_per_second": 35.759,
-      "step": 30249
     },
     {
       "epoch": 10.0,
-      "grad_norm": 0.6299116015434265,
-      "learning_rate": 8.925914906277894e-10,
-      "loss": 0.1296,
-      "step": 33610
     },
     {
       "epoch": 10.0,
-      "eval_gate1_accuracy": 0.9246350364963504,
-      "eval_gate1_f1": 0.9205333497188853,
-      "eval_gate1_precision": 0.9217073986882154,
-      "eval_gate1_recall": 0.9194276042067187,
-      "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8678832116788321,
-      "eval_gate2_f1": 0.8058316251370092,
-      "eval_gate2_precision": 0.8166158136605832,
-      "eval_gate2_recall": 0.7978233842024146,
-      "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.8917206623470122,
-      "eval_gate3_f1": 0.8222395535726833,
-      "eval_gate3_precision": 0.8221736195559818,
-      "eval_gate3_recall": 0.8242704639947701,
       "eval_gate3_support": 6945,
-      "eval_gate4_span_FN": 203,
-      "eval_gate4_span_FP": 229,
-      "eval_gate4_span_TP": 804,
-      "eval_gate4_span_f1": 0.7882352891107315,
-      "eval_gate4_span_precision": 0.7783155856652633,
-      "eval_gate4_span_recall": 0.7984111221370565,
       "eval_loss": NaN,
-      "eval_runtime": 11.7399,
-      "eval_samples_per_second": 1145.067,
-      "eval_steps_per_second": 35.861,
-      "step": 33610
     },
     {
       "epoch": 10.0,
-      "step": 33610,
-      "total_flos": 6.757178668346477e+16,
-      "train_loss": 0.6383435935713073,
-      "train_runtime": 2441.5872,
-      "train_samples_per_second": 440.451,
-      "train_steps_per_second": 13.766
     },
     {
       "epoch": 10.0,
-      "eval_gate1_accuracy": 0.9246350364963504,
-      "eval_gate1_f1": 0.9205333497188853,
-      "eval_gate1_precision": 0.9217073986882154,
-      "eval_gate1_recall": 0.9194276042067187,
-      "eval_gate1_support": 5480,
-      "eval_gate2_accuracy": 0.8678832116788321,
-      "eval_gate2_f1": 0.8058316251370092,
-      "eval_gate2_precision": 0.8166158136605832,
-      "eval_gate2_recall": 0.7978233842024146,
-      "eval_gate2_support": 5480,
-      "eval_gate3_accuracy": 0.8917206623470122,
-      "eval_gate3_f1": 0.8222395535726833,
-      "eval_gate3_precision": 0.8221736195559818,
-      "eval_gate3_recall": 0.8242704639947701,
       "eval_gate3_support": 6945,
-      "eval_gate4_span_FN": 203,
-      "eval_gate4_span_FP": 229,
-      "eval_gate4_span_TP": 804,
-      "eval_gate4_span_f1": 0.7882352891107315,
-      "eval_gate4_span_precision": 0.7783155856652633,
-      "eval_gate4_span_recall": 0.7984111221370565,
       "eval_loss": NaN,
-      "eval_runtime": 11.7348,
-      "eval_samples_per_second": 1145.568,
-      "eval_steps_per_second": 35.876,
-      "step": 33610
     },
     {
       "epoch": 10.0,
-      "eval_gate1_accuracy": 0.9213647144681627,
-      "eval_gate1_f1": 0.9186345562318086,
-      "eval_gate1_precision": 0.9201991431515453,
-      "eval_gate1_recall": 0.917244999785811,
-      "eval_gate1_support": 5481,
-      "eval_gate2_accuracy": 0.8666301769750046,
-      "eval_gate2_f1": 0.8084870586267471,
-      "eval_gate2_precision": 0.8025086025493519,
-      "eval_gate2_recall": 0.8192604428212116,
-      "eval_gate2_support": 5481,
-      "eval_gate3_accuracy": 0.896040316774658,
-      "eval_gate3_f1": 0.7248294888969216,
-      "eval_gate3_precision": 0.7283732815204376,
-      "eval_gate3_recall": 0.7292579147184429,
       "eval_gate3_support": 6945,
-      "eval_gate4_span_FN": 191,
-      "eval_gate4_span_FP": 216,
-      "eval_gate4_span_TP": 820,
-      "eval_gate4_span_f1": 0.8011724424770412,
-      "eval_gate4_span_precision": 0.7915057914981516,
-      "eval_gate4_span_recall": 0.8110781404469725,
       "eval_loss": NaN,
-      "eval_runtime": 11.7731,
-      "eval_samples_per_second": 1141.924,
-      "eval_steps_per_second": 35.759,
-      "step": 33610
     }
   ],
   "logging_steps": 500,
-  "max_steps": 33610,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
@@ -454,7 +454,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.757178668346477e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 26604,
+  "best_metric": 0.9163582001286115,
+  "best_model_checkpoint": "output/indra_stmt_classifier/checkpoint-26604",
   "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 29560,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 84.59678649902344,
+      "learning_rate": 2.7001014884979704e-05,
+      "loss": 2.2672,
+      "step": 2956
     },
     {
       "epoch": 1.0,
+      "eval_gate1_accuracy": 0.8585125680228038,
+      "eval_gate1_f1": 0.8505829142307659,
+      "eval_gate1_precision": 0.8473952560532426,
+      "eval_gate1_recall": 0.854657238060827,
+      "eval_gate1_support": 3859,
+      "eval_gate2_accuracy": 0.7587457890645245,
+      "eval_gate2_f1": 0.5592993246296689,
+      "eval_gate2_precision": 0.6163758861756914,
+      "eval_gate2_recall": 0.5543459088227541,
+      "eval_gate2_support": 3859,
+      "eval_gate3_accuracy": 0.8548596112311015,
+      "eval_gate3_f1": 0.6971239789155547,
+      "eval_gate3_precision": 0.700932514781479,
+      "eval_gate3_recall": 0.7071816387030568,
       "eval_gate3_support": 6945,
+      "eval_gate4_span_FN": 230,
+      "eval_gate4_span_FP": 347,
+      "eval_gate4_span_TP": 777,
+      "eval_gate4_span_f1": 0.7292350958998283,
+      "eval_gate4_span_precision": 0.6912811387838854,
+      "eval_gate4_span_recall": 0.7715988083339463,
       "eval_loss": NaN,
+      "eval_runtime": 10.4486,
+      "eval_samples_per_second": 1131.439,
+      "eval_steps_per_second": 35.411,
+      "step": 2956
     },
     {
       "epoch": 2.0,
+      "grad_norm": 88.20085144042969,
+      "learning_rate": 2.4001014884979702e-05,
+      "loss": 1.2241,
+      "step": 5912
     },
     {
       "epoch": 2.0,
+      "eval_gate1_accuracy": 0.8929774552993003,
+      "eval_gate1_f1": 0.8820620404399862,
+      "eval_gate1_precision": 0.8988718775181306,
+      "eval_gate1_recall": 0.871612670119234,
+      "eval_gate1_support": 3859,
+      "eval_gate2_accuracy": 0.808240476807463,
+      "eval_gate2_f1": 0.6881412582252169,
+      "eval_gate2_precision": 0.6832538631102347,
+      "eval_gate2_recall": 0.6996653263704344,
+      "eval_gate2_support": 3859,
+      "eval_gate3_accuracy": 0.8666666666666667,
+      "eval_gate3_f1": 0.744109590199225,
+      "eval_gate3_precision": 0.7653765174358127,
+      "eval_gate3_recall": 0.7614317320508905,
       "eval_gate3_support": 6945,
+      "eval_gate4_span_FN": 221,
+      "eval_gate4_span_FP": 295,
+      "eval_gate4_span_TP": 786,
+      "eval_gate4_span_f1": 0.7528735582174595,
+      "eval_gate4_span_precision": 0.7271045328332368,
+      "eval_gate4_span_recall": 0.7805362462683164,
       "eval_loss": NaN,
+      "eval_runtime": 10.4006,
+      "eval_samples_per_second": 1136.67,
+      "eval_steps_per_second": 35.575,
+      "step": 5912
     },
     {
       "epoch": 3.0,
+      "grad_norm": 67.10189056396484,
+      "learning_rate": 2.10010148849797e-05,
+      "loss": 0.8652,
+      "step": 8868
     },
     {
       "epoch": 3.0,
+      "eval_gate1_accuracy": 0.9059341798393367,
+      "eval_gate1_f1": 0.8997563137620789,
+      "eval_gate1_precision": 0.899055894281647,
+      "eval_gate1_recall": 0.9004810366878294,
+      "eval_gate1_support": 3859,
+      "eval_gate2_accuracy": 0.8333765224151335,
+      "eval_gate2_f1": 0.7799911701221585,
+      "eval_gate2_precision": 0.8104194561625689,
+      "eval_gate2_recall": 0.7600982965627961,
+      "eval_gate2_support": 3859,
+      "eval_gate3_accuracy": 0.8732901367890569,
+      "eval_gate3_f1": 0.7904223821154268,
+      "eval_gate3_precision": 0.8444284314763446,
+      "eval_gate3_recall": 0.7593577482285429,
       "eval_gate3_support": 6945,
+      "eval_gate4_span_FN": 236,
+      "eval_gate4_span_FP": 228,
+      "eval_gate4_span_TP": 771,
+      "eval_gate4_span_f1": 0.7686939132376799,
+      "eval_gate4_span_precision": 0.7717717717640463,
+      "eval_gate4_span_recall": 0.7656405163776997,
       "eval_loss": NaN,
+      "eval_runtime": 10.3684,
+      "eval_samples_per_second": 1140.196,
+      "eval_steps_per_second": 35.685,
+      "step": 8868
     },
     {
       "epoch": 4.0,
+      "grad_norm": 173.31228637695312,
+      "learning_rate": 1.8001014884979702e-05,
+      "loss": 0.6376,
+      "step": 11824
     },
     {
       "epoch": 4.0,
+      "eval_gate1_accuracy": 0.9077481212749416,
+      "eval_gate1_f1": 0.9007457126723182,
+      "eval_gate1_precision": 0.9041686699243279,
+      "eval_gate1_recall": 0.8977536805400228,
+      "eval_gate1_support": 3859,
+      "eval_gate2_accuracy": 0.8419279606115574,
+      "eval_gate2_f1": 0.7689803309009853,
+      "eval_gate2_precision": 0.7719738299874924,
+      "eval_gate2_recall": 0.7762247755795892,
+      "eval_gate2_support": 3859,
+      "eval_gate3_accuracy": 0.8780417566594673,
+      "eval_gate3_f1": 0.8038529609303686,
+      "eval_gate3_precision": 0.8238117797554888,
+      "eval_gate3_recall": 0.7978850610103051,
       "eval_gate3_support": 6945,
+      "eval_gate4_span_FN": 218,
+      "eval_gate4_span_FP": 226,
+      "eval_gate4_span_TP": 789,
+      "eval_gate4_span_f1": 0.7804154252594212,
+      "eval_gate4_span_precision": 0.777339901470174,
+      "eval_gate4_span_recall": 0.7835153922464397,
       "eval_loss": NaN,
+      "eval_runtime": 10.3445,
+      "eval_samples_per_second": 1142.825,
+      "eval_steps_per_second": 35.768,
+      "step": 11824
     },
     {
       "epoch": 5.0,
+      "grad_norm": 22.405181884765625,
+      "learning_rate": 1.5001014884979702e-05,
+      "loss": 0.4713,
+      "step": 14780
     },
     {
       "epoch": 5.0,
+      "eval_gate1_accuracy": 0.9124125421093547,
+      "eval_gate1_f1": 0.905395262879988,
+      "eval_gate1_precision": 0.9108288424356044,
+      "eval_gate1_recall": 0.9009235044132069,
+      "eval_gate1_support": 3859,
+      "eval_gate2_accuracy": 0.8608447784400104,
+      "eval_gate2_f1": 0.7846052784615595,
+      "eval_gate2_precision": 0.7779462341191327,
+      "eval_gate2_recall": 0.8035688815922226,
+      "eval_gate2_support": 3859,
+      "eval_gate3_accuracy": 0.8822174226061915,
+      "eval_gate3_f1": 0.799720850034007,
+      "eval_gate3_precision": 0.7922933108551248,
+      "eval_gate3_recall": 0.8164975006789633,
       "eval_gate3_support": 6945,
+      "eval_gate4_span_FN": 217,
+      "eval_gate4_span_FP": 204,
+      "eval_gate4_span_TP": 790,
+      "eval_gate4_span_f1": 0.7896051923936183,
+      "eval_gate4_span_precision": 0.7947686116620245,
+      "eval_gate4_span_recall": 0.7845084409058142,
       "eval_loss": NaN,
+      "eval_runtime": 10.3367,
+      "eval_samples_per_second": 1143.691,
+      "eval_steps_per_second": 35.795,
+      "step": 14780
     },
     {
       "epoch": 6.0,
+      "grad_norm": 150.47354125976562,
+      "learning_rate": 1.2001014884979702e-05,
+      "loss": 0.3573,
+      "step": 17736
     },
     {
       "epoch": 6.0,
+      "eval_gate1_accuracy": 0.9168178284529671,
+      "eval_gate1_f1": 0.91133041633164,
+      "eval_gate1_precision": 0.9107173896884344,
+      "eval_gate1_recall": 0.9119611098684928,
+      "eval_gate1_support": 3859,
+      "eval_gate2_accuracy": 0.8647317958020212,
+      "eval_gate2_f1": 0.7980336380648058,
+      "eval_gate2_precision": 0.8117843067907142,
+      "eval_gate2_recall": 0.7909589217708924,
+      "eval_gate2_support": 3859,
+      "eval_gate3_accuracy": 0.8846652267818574,
+      "eval_gate3_f1": 0.7968635418767978,
+      "eval_gate3_precision": 0.8025916830061807,
+      "eval_gate3_recall": 0.7966439892081336,
       "eval_gate3_support": 6945,
+      "eval_gate4_span_FN": 198,
+      "eval_gate4_span_FP": 242,
+      "eval_gate4_span_TP": 809,
+      "eval_gate4_span_f1": 0.786200189358105,
+      "eval_gate4_span_precision": 0.7697431018004782,
+      "eval_gate4_span_recall": 0.8033763654339288,
       "eval_loss": NaN,
+      "eval_runtime": 10.3401,
+      "eval_samples_per_second": 1143.318,
+      "eval_steps_per_second": 35.783,
+      "step": 17736
     },
     {
       "epoch": 7.0,
+      "grad_norm": 270.212646484375,
+      "learning_rate": 9.001014884979702e-06,
+      "loss": 0.2711,
+      "step": 20692
     },
     {
       "epoch": 7.0,
+      "eval_gate1_accuracy": 0.9191500388701737,
+      "eval_gate1_f1": 0.9137570612727655,
+      "eval_gate1_precision": 0.9134164984755443,
+      "eval_gate1_recall": 0.9141029060064348,
+      "eval_gate1_support": 3859,
+      "eval_gate2_accuracy": 0.8693962166364343,
+      "eval_gate2_f1": 0.8124767328435765,
+      "eval_gate2_precision": 0.8061838445118481,
+      "eval_gate2_recall": 0.8279748920673979,
+      "eval_gate2_support": 3859,
+      "eval_gate3_accuracy": 0.8862491000719942,
+      "eval_gate3_f1": 0.8027532601826777,
+      "eval_gate3_precision": 0.7866745156811082,
+      "eval_gate3_recall": 0.8226565082669126,
       "eval_gate3_support": 6945,
+      "eval_gate4_span_FN": 251,
+      "eval_gate4_span_FP": 213,
+      "eval_gate4_span_TP": 756,
+      "eval_gate4_span_f1": 0.7651821812289223,
+      "eval_gate4_span_precision": 0.7801857585058805,
+      "eval_gate4_span_recall": 0.750744786487083,
       "eval_loss": NaN,
+      "eval_runtime": 10.4102,
+      "eval_samples_per_second": 1135.613,
+      "eval_steps_per_second": 35.542,
+      "step": 20692
     },
     {
       "epoch": 8.0,
+      "grad_norm": 30.083831787109375,
+      "learning_rate": 6.001014884979703e-06,
+      "loss": 0.2072,
+      "step": 23648
     },
     {
       "epoch": 8.0,
+      "eval_gate1_accuracy": 0.9194091733609744,
+      "eval_gate1_f1": 0.9136575067455691,
+      "eval_gate1_precision": 0.9151861735925785,
+      "eval_gate1_recall": 0.9122216295888463,
+      "eval_gate1_support": 3859,
+      "eval_gate2_accuracy": 0.8683596786732314,
+      "eval_gate2_f1": 0.7953213528224212,
+      "eval_gate2_precision": 0.7941072643208182,
+      "eval_gate2_recall": 0.8039876906998746,
+      "eval_gate2_support": 3859,
+      "eval_gate3_accuracy": 0.8859611231101512,
+      "eval_gate3_f1": 0.8067851499228712,
+      "eval_gate3_precision": 0.8044692044507203,
+      "eval_gate3_recall": 0.8120360484679332,
       "eval_gate3_support": 6945,
+      "eval_gate4_span_FN": 211,
+      "eval_gate4_span_FP": 223,
+      "eval_gate4_span_TP": 796,
+      "eval_gate4_span_f1": 0.7857847926232181,
+      "eval_gate4_span_precision": 0.7811579980296255,
+      "eval_gate4_span_recall": 0.7904667328620609,
       "eval_loss": NaN,
+      "eval_runtime": 10.415,
+      "eval_samples_per_second": 1135.098,
+      "eval_steps_per_second": 35.526,
+      "step": 23648
     },
     {
       "epoch": 9.0,
+      "grad_norm": 303.0519104003906,
+      "learning_rate": 3.0010148849797024e-06,
+      "loss": 0.1509,
+      "step": 26604
     },
     {
       "epoch": 9.0,
+      "eval_gate1_accuracy": 0.9217413837781808,
+      "eval_gate1_f1": 0.9163582001286115,
+      "eval_gate1_precision": 0.9168310136033854,
+      "eval_gate1_recall": 0.915894857280501,
+      "eval_gate1_support": 3859,
+      "eval_gate2_accuracy": 0.8717284270536408,
+      "eval_gate2_f1": 0.8542694094275488,
+      "eval_gate2_precision": 0.8495135391288109,
+      "eval_gate2_recall": 0.8711254994444528,
+      "eval_gate2_support": 3859,
+      "eval_gate3_accuracy": 0.8866810655147588,
+      "eval_gate3_f1": 0.8118642371342876,
+      "eval_gate3_precision": 0.8115033608543574,
+      "eval_gate3_recall": 0.8169535217733972,
       "eval_gate3_support": 6945,
+      "eval_gate4_span_FN": 216,
+      "eval_gate4_span_FP": 233,
+      "eval_gate4_span_TP": 791,
+      "eval_gate4_span_f1": 0.7789266321172492,
+      "eval_gate4_span_precision": 0.7724609374924565,
+      "eval_gate4_span_recall": 0.7855014895651886,
       "eval_loss": NaN,
+      "eval_runtime": 10.45,
+      "eval_samples_per_second": 1131.292,
+      "eval_steps_per_second": 35.407,
+      "step": 26604
     },
     {
       "epoch": 10.0,
+      "grad_norm": 4.396928310394287,
+      "learning_rate": 1.0148849797023006e-09,
+      "loss": 0.122,
+      "step": 29560
     },
     {
       "epoch": 10.0,
+      "eval_gate1_accuracy": 0.9212231147965795,
+      "eval_gate1_f1": 0.9159218285491496,
+      "eval_gate1_precision": 0.915806583633259,
+      "eval_gate1_recall": 0.9160376628069029,
+      "eval_gate1_support": 3859,
+      "eval_gate2_accuracy": 0.8722466960352423,
+      "eval_gate2_f1": 0.856680976809179,
+      "eval_gate2_precision": 0.8659863944374855,
+      "eval_gate2_recall": 0.8537404898111944,
+      "eval_gate2_support": 3859,
+      "eval_gate3_accuracy": 0.8875449964002879,
+      "eval_gate3_f1": 0.8118433314020443,
+      "eval_gate3_precision": 0.8153146247248837,
+      "eval_gate3_recall": 0.8127560834123785,
       "eval_gate3_support": 6945,
+      "eval_gate4_span_FN": 213,
+      "eval_gate4_span_FP": 233,
+      "eval_gate4_span_TP": 794,
+      "eval_gate4_span_f1": 0.7807276252779591,
+      "eval_gate4_span_precision": 0.7731256085611187,
+      "eval_gate4_span_recall": 0.788480635543312,
       "eval_loss": NaN,
+      "eval_runtime": 10.3467,
+      "eval_samples_per_second": 1142.581,
+      "eval_steps_per_second": 35.76,
+      "step": 29560
     },
     {
       "epoch": 10.0,
+      "step": 29560,
+      "total_flos": 5.801469413818084e+16,
+      "train_loss": 0.6573912851542678,
+      "train_runtime": 2140.4043,
+      "train_samples_per_second": 441.828,
+      "train_steps_per_second": 13.81
     },
     {
       "epoch": 10.0,
+      "eval_gate1_accuracy": 0.9217413837781808,
+      "eval_gate1_f1": 0.9163582001286115,
+      "eval_gate1_precision": 0.9168310136033854,
+      "eval_gate1_recall": 0.915894857280501,
+      "eval_gate1_support": 3859,
+      "eval_gate2_accuracy": 0.8717284270536408,
+      "eval_gate2_f1": 0.8542694094275488,
+      "eval_gate2_precision": 0.8495135391288109,
+      "eval_gate2_recall": 0.8711254994444528,
+      "eval_gate2_support": 3859,
+      "eval_gate3_accuracy": 0.8866810655147588,
+      "eval_gate3_f1": 0.8118642371342876,
+      "eval_gate3_precision": 0.8115033608543574,
+      "eval_gate3_recall": 0.8169535217733972,
       "eval_gate3_support": 6945,
+      "eval_gate4_span_FN": 216,
+      "eval_gate4_span_FP": 233,
+      "eval_gate4_span_TP": 791,
+      "eval_gate4_span_f1": 0.7789266321172492,
+      "eval_gate4_span_precision": 0.7724609374924565,
+      "eval_gate4_span_recall": 0.7855014895651886,
       "eval_loss": NaN,
+      "eval_runtime": 10.4531,
+      "eval_samples_per_second": 1130.954,
+      "eval_steps_per_second": 35.396,
+      "step": 29560
     },
     {
       "epoch": 10.0,
+      "eval_gate1_accuracy": 0.9251295336787565,
+      "eval_gate1_f1": 0.9199371922438249,
+      "eval_gate1_precision": 0.920966070966071,
+      "eval_gate1_recall": 0.9189513092953367,
+      "eval_gate1_support": 3860,
+      "eval_gate2_accuracy": 0.8709844559585492,
+      "eval_gate2_f1": 0.8487797208181732,
+      "eval_gate2_precision": 0.8500529357712848,
+      "eval_gate2_recall": 0.8532136788618205,
+      "eval_gate2_support": 3860,
+      "eval_gate3_accuracy": 0.8920086393088553,
+      "eval_gate3_f1": 0.6992827001481418,
+      "eval_gate3_precision": 0.715591871957983,
+      "eval_gate3_recall": 0.7063340262769819,
       "eval_gate3_support": 6945,
+      "eval_gate4_span_FN": 196,
+      "eval_gate4_span_FP": 204,
+      "eval_gate4_span_TP": 815,
+      "eval_gate4_span_f1": 0.8029556600167974,
+      "eval_gate4_span_precision": 0.7998037291383728,
+      "eval_gate4_span_recall": 0.8061325420296129,
       "eval_loss": NaN,
+      "eval_runtime": 10.4274,
+      "eval_samples_per_second": 1133.841,
+      "eval_steps_per_second": 35.483,
+      "step": 29560
     }
   ],
   "logging_steps": 500,
+  "max_steps": 29560,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 5.801469413818084e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc2cd185761d66131bcc0f43bbd2ae2a01a355c15e6af12eb5fb05584d22f893
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcf99fea5e0d29ea31021a60b825b759ebcc369e52c3076e24dd45d270cb7764
 size 5841