MHGanainy
/

roberta-base-downstream-build_rr

@@ -1,5 +1,5 @@
 {
-    "epoch": 10.0,
     "eval_accuracy": 0.9177083333333333,
     "eval_f1": 0.2816188870151771,
     "eval_loss": 0.2582942843437195,
@@ -20,10 +20,10 @@
     "predict_samples": 50,
     "predict_samples_per_second": 17.575,
     "predict_steps_per_second": 4.57,
-    "total_flos": 4.819469484490752e+16,
-    "train_loss": 0.3849165085823305,
-    "train_runtime": 337.1781,
     "train_samples": 247,
-    "train_samples_per_second": 14.651,
-    "train_steps_per_second": 3.678
 }

 {
+    "epoch": 9.0,
     "eval_accuracy": 0.9177083333333333,
     "eval_f1": 0.2816188870151771,
     "eval_loss": 0.2582942843437195,
     "predict_samples": 50,
     "predict_samples_per_second": 17.575,
     "predict_steps_per_second": 4.57,
+    "total_flos": 4.337522536041677e+16,
+    "train_loss": 0.8344365670262271,
+    "train_runtime": 303.7919,
     "train_samples": 247,
+    "train_samples_per_second": 16.261,
+    "train_steps_per_second": 4.082
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 10.0,
-    "total_flos": 4.819469484490752e+16,
-    "train_loss": 0.3849165085823305,
-    "train_runtime": 337.1781,
     "train_samples": 247,
-    "train_samples_per_second": 14.651,
-    "train_steps_per_second": 3.678
 }

 {
+    "epoch": 9.0,
+    "total_flos": 4.337522536041677e+16,
+    "train_loss": 0.8344365670262271,
+    "train_runtime": 303.7919,
     "train_samples": 247,
+    "train_samples_per_second": 16.261,
+    "train_steps_per_second": 4.082
 }

trainer_state.json CHANGED Viewed

@@ -1,158 +1,145 @@
 {
-  "best_metric": 0.2816188870151771,
-  "best_model_checkpoint": "logs/indian_build_rr/roberta-base/seed_1/checkpoint-434",
-  "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 620,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.8779947916666667,
-      "eval_f1": 0.09680365296803654,
-      "eval_loss": 0.4225575029850006,
-      "eval_micro-f1": 0.09680365296803654,
-      "eval_precision": 0.08346456692913386,
-      "eval_recall": 0.11521739130434783,
-      "eval_runtime": 1.5383,
-      "eval_samples_per_second": 19.503,
-      "eval_steps_per_second": 5.201,
       "step": 62
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8930989583333333,
-      "eval_f1": 0.19573796369376484,
-      "eval_loss": 0.34750670194625854,
-      "eval_micro-f1": 0.19573796369376484,
-      "eval_precision": 0.1536555142503098,
-      "eval_recall": 0.26956521739130435,
-      "eval_runtime": 1.537,
-      "eval_samples_per_second": 19.519,
-      "eval_steps_per_second": 5.205,
       "step": 124
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9052083333333333,
-      "eval_f1": 0.24148606811145507,
-      "eval_loss": 0.2912306487560272,
-      "eval_micro-f1": 0.24148606811145507,
-      "eval_precision": 0.1875,
-      "eval_recall": 0.3391304347826087,
-      "eval_runtime": 1.5375,
-      "eval_samples_per_second": 19.512,
-      "eval_steps_per_second": 5.203,
       "step": 186
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9002604166666667,
-      "eval_f1": 0.24856909239574815,
-      "eval_loss": 0.29914453625679016,
-      "eval_micro-f1": 0.24856909239574815,
-      "eval_precision": 0.19921363040629095,
-      "eval_recall": 0.33043478260869563,
-      "eval_runtime": 1.5402,
-      "eval_samples_per_second": 19.478,
-      "eval_steps_per_second": 5.194,
       "step": 248
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.906640625,
-      "eval_f1": 0.24417009602194786,
-      "eval_loss": 0.2833251357078552,
-      "eval_micro-f1": 0.24417009602194786,
-      "eval_precision": 0.17835671342685372,
-      "eval_recall": 0.3869565217391304,
-      "eval_runtime": 1.5382,
-      "eval_samples_per_second": 19.504,
-      "eval_steps_per_second": 5.201,
       "step": 310
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.91484375,
-      "eval_f1": 0.2718932443703086,
-      "eval_loss": 0.26417481899261475,
-      "eval_micro-f1": 0.2718932443703086,
-      "eval_precision": 0.22056833558863329,
-      "eval_recall": 0.35434782608695653,
-      "eval_runtime": 1.5353,
-      "eval_samples_per_second": 19.54,
-      "eval_steps_per_second": 5.211,
       "step": 372
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9177083333333333,
-      "eval_f1": 0.2816188870151771,
-      "eval_loss": 0.2584071457386017,
-      "eval_micro-f1": 0.2816188870151771,
-      "eval_precision": 0.23002754820936638,
-      "eval_recall": 0.3630434782608696,
-      "eval_runtime": 1.5473,
-      "eval_samples_per_second": 19.388,
-      "eval_steps_per_second": 5.17,
       "step": 434
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9177083333333333,
-      "eval_f1": 0.27419354838709675,
-      "eval_loss": 0.25232046842575073,
-      "eval_micro-f1": 0.27419354838709675,
-      "eval_precision": 0.21794871794871795,
-      "eval_recall": 0.3695652173913043,
-      "eval_runtime": 1.5341,
-      "eval_samples_per_second": 19.556,
-      "eval_steps_per_second": 5.215,
       "step": 496
     },
     {
       "epoch": 8.064516129032258,
-      "grad_norm": 2.654693603515625,
-      "learning_rate": 1.7975806451612903e-05,
-      "loss": 0.4245,
       "step": 500
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.9166666666666666,
-      "eval_f1": 0.25278810408921937,
-      "eval_loss": 0.26304513216018677,
-      "eval_micro-f1": 0.25278810408921937,
-      "eval_precision": 0.192090395480226,
-      "eval_recall": 0.3695652173913043,
-      "eval_runtime": 2.1137,
-      "eval_samples_per_second": 14.193,
-      "eval_steps_per_second": 3.785,
       "step": 558
     },
     {
-      "epoch": 10.0,
-      "eval_accuracy": 0.919140625,
-      "eval_f1": 0.25541795665634676,
-      "eval_loss": 0.2640175521373749,
-      "eval_micro-f1": 0.25541795665634676,
-      "eval_precision": 0.19831730769230768,
-      "eval_recall": 0.358695652173913,
-      "eval_runtime": 1.5363,
-      "eval_samples_per_second": 19.527,
-      "eval_steps_per_second": 5.207,
-      "step": 620
-    },
-    {
-      "epoch": 10.0,
-      "step": 620,
-      "total_flos": 4.819469484490752e+16,
-      "train_loss": 0.3849165085823305,
-      "train_runtime": 337.1781,
-      "train_samples_per_second": 14.651,
-      "train_steps_per_second": 3.678
     }
   ],
   "logging_steps": 500,
@@ -181,7 +168,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.819469484490752e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.2831275720164609,
+  "best_model_checkpoint": "logs/indian_build_rr/roberta-base/seed_1/checkpoint-372",
+  "epoch": 9.0,
   "eval_steps": 500,
+  "global_step": 558,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6509204584925321,
+      "eval_f1": 0.0690423162583519,
+      "eval_loss": 1.1796680688858032,
+      "eval_micro-f1": 0.0690423162583519,
+      "eval_precision": 0.06981981981981981,
+      "eval_recall": 0.06828193832599119,
+      "eval_runtime": 1.4676,
+      "eval_samples_per_second": 20.442,
+      "eval_steps_per_second": 5.451,
       "step": 62
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7349774227162209,
+      "eval_f1": 0.21954674220963172,
+      "eval_loss": 0.8353763222694397,
+      "eval_micro-f1": 0.21954674220963172,
+      "eval_precision": 0.1617954070981211,
+      "eval_recall": 0.34140969162995594,
+      "eval_runtime": 1.4604,
+      "eval_samples_per_second": 20.543,
+      "eval_steps_per_second": 5.478,
       "step": 124
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7342827370614797,
+      "eval_f1": 0.2308802308802309,
+      "eval_loss": 0.8058456182479858,
+      "eval_micro-f1": 0.2308802308802309,
+      "eval_precision": 0.17167381974248927,
+      "eval_recall": 0.3524229074889868,
+      "eval_runtime": 1.461,
+      "eval_samples_per_second": 20.534,
+      "eval_steps_per_second": 5.476,
       "step": 186
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7502605071205279,
+      "eval_f1": 0.2672,
+      "eval_loss": 0.7717716097831726,
+      "eval_micro-f1": 0.2672,
+      "eval_precision": 0.20979899497487436,
+      "eval_recall": 0.36784140969163,
+      "eval_runtime": 1.5174,
+      "eval_samples_per_second": 19.771,
+      "eval_steps_per_second": 5.272,
       "step": 248
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7641542202153525,
+      "eval_f1": 0.250566037735849,
+      "eval_loss": 0.7306948900222778,
+      "eval_micro-f1": 0.250566037735849,
+      "eval_precision": 0.19058553386911595,
+      "eval_recall": 0.3656387665198238,
+      "eval_runtime": 1.4687,
+      "eval_samples_per_second": 20.426,
+      "eval_steps_per_second": 5.447,
       "step": 310
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.774574505036471,
+      "eval_f1": 0.2831275720164609,
+      "eval_loss": 0.7098783254623413,
+      "eval_micro-f1": 0.2831275720164609,
+      "eval_precision": 0.22601839684625494,
+      "eval_recall": 0.3788546255506608,
+      "eval_runtime": 1.4681,
+      "eval_samples_per_second": 20.435,
+      "eval_steps_per_second": 5.449,
       "step": 372
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.7811740187565127,
+      "eval_f1": 0.272,
+      "eval_loss": 0.7071970701217651,
+      "eval_micro-f1": 0.272,
+      "eval_precision": 0.22801788375558868,
+      "eval_recall": 0.3370044052863436,
+      "eval_runtime": 1.4714,
+      "eval_samples_per_second": 20.389,
+      "eval_steps_per_second": 5.437,
       "step": 434
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.7825633900659952,
+      "eval_f1": 0.27009113504556753,
+      "eval_loss": 0.6919089555740356,
+      "eval_micro-f1": 0.27009113504556753,
+      "eval_precision": 0.21646746347941567,
+      "eval_recall": 0.3590308370044053,
+      "eval_runtime": 1.471,
+      "eval_samples_per_second": 20.395,
+      "eval_steps_per_second": 5.439,
       "step": 496
     },
     {
       "epoch": 8.064516129032258,
+      "grad_norm": 7.422909736633301,
+      "learning_rate": 1.7951612903225806e-05,
+      "loss": 0.8758,
       "step": 500
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.7735324765543592,
+      "eval_f1": 0.26181818181818184,
+      "eval_loss": 0.7503196597099304,
+      "eval_micro-f1": 0.26181818181818184,
+      "eval_precision": 0.19543973941368079,
+      "eval_recall": 0.3964757709251101,
+      "eval_runtime": 1.4717,
+      "eval_samples_per_second": 20.385,
+      "eval_steps_per_second": 5.436,
       "step": 558
     },
     {
+      "epoch": 9.0,
+      "step": 558,
+      "total_flos": 4.337522536041677e+16,
+      "train_loss": 0.8344365670262271,
+      "train_runtime": 303.7919,
+      "train_samples_per_second": 16.261,
+      "train_steps_per_second": 4.082
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 4.337522536041677e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null