GlycerinLOL
/

LLM_Teached_Bart_From_Scratch

@@ -1,7 +1,7 @@
 {
-    "epoch": 24.0,
-    "train_loss": 0.22391605226564926,
-    "train_runtime": 17118.5241,
-    "train_samples_per_second": 70.1,
-    "train_steps_per_second": 0.73
 }

 {
+    "epoch": 30.0,
+    "train_loss": 0.1497309269236969,
+    "train_runtime": 15515.0349,
+    "train_samples_per_second": 96.68,
+    "train_steps_per_second": 1.007
 }

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 24.0,
-    "train_loss": 0.22391605226564926,
-    "train_runtime": 17118.5241,
-    "train_samples_per_second": 70.1,
-    "train_steps_per_second": 0.73
 }

 {
+    "epoch": 30.0,
+    "train_loss": 0.1497309269236969,
+    "train_runtime": 15515.0349,
+    "train_samples_per_second": 96.68,
+    "train_steps_per_second": 1.007
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 24.0,
   "eval_steps": 500,
-  "global_step": 12504,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -528,36 +528,168 @@
     },
     {
       "epoch": 24.0,
-      "eval_f1": 0.9034,
-      "eval_gen_len": 19.90290909090909,
-      "eval_loss": 1.6053136587142944,
-      "eval_precision": 0.9159,
-      "eval_recall": 0.8916,
-      "eval_rouge1": 0.4481,
-      "eval_rouge2": 0.2283,
-      "eval_rougeL": 0.3861,
-      "eval_rougeLsum": 0.3863,
-      "eval_runtime": 314.5795,
-      "eval_samples_per_second": 8.742,
-      "eval_steps_per_second": 0.547,
       "step": 12504
     },
     {
-      "epoch": 24.0,
-      "step": 12504,
-      "total_flos": 2.569106349028344e+18,
-      "train_loss": 0.22391605226564926,
-      "train_runtime": 17118.5241,
-      "train_samples_per_second": 70.1,
-      "train_steps_per_second": 0.73
     }
   ],
   "logging_steps": 500,
-  "max_steps": 12504,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 24,
   "save_steps": 500,
-  "total_flos": 2.569106349028344e+18,
   "train_batch_size": 24,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 30.0,
   "eval_steps": 500,
+  "global_step": 15630,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     },
     {
       "epoch": 24.0,
+      "eval_f1": 0.9037,
+      "eval_gen_len": 19.900727272727273,
+      "eval_loss": 1.6096539497375488,
+      "eval_precision": 0.9162,
+      "eval_recall": 0.892,
+      "eval_rouge1": 0.4491,
+      "eval_rouge2": 0.2284,
+      "eval_rougeL": 0.3872,
+      "eval_rougeLsum": 0.387,
+      "eval_runtime": 312.9411,
+      "eval_samples_per_second": 8.788,
+      "eval_steps_per_second": 0.55,
       "step": 12504
     },
     {
+      "epoch": 24.95,
+      "learning_rate": 3.3653230966090854e-06,
+      "loss": 0.7733,
+      "step": 13000
+    },
+    {
+      "epoch": 25.0,
+      "eval_f1": 0.9027,
+      "eval_gen_len": 19.91781818181818,
+      "eval_loss": 1.6059536933898926,
+      "eval_precision": 0.9154,
+      "eval_recall": 0.8906,
+      "eval_rouge1": 0.4442,
+      "eval_rouge2": 0.2257,
+      "eval_rougeL": 0.3827,
+      "eval_rougeLsum": 0.3828,
+      "eval_runtime": 312.8395,
+      "eval_samples_per_second": 8.79,
+      "eval_steps_per_second": 0.55,
+      "step": 13025
+    },
+    {
+      "epoch": 25.91,
+      "learning_rate": 2.72552783109405e-06,
+      "loss": 0.7631,
+      "step": 13500
+    },
+    {
+      "epoch": 26.0,
+      "eval_f1": 0.9031,
+      "eval_gen_len": 19.917454545454547,
+      "eval_loss": 1.618681788444519,
+      "eval_precision": 0.9154,
+      "eval_recall": 0.8915,
+      "eval_rouge1": 0.4472,
+      "eval_rouge2": 0.2276,
+      "eval_rougeL": 0.3861,
+      "eval_rougeLsum": 0.3861,
+      "eval_runtime": 312.5385,
+      "eval_samples_per_second": 8.799,
+      "eval_steps_per_second": 0.55,
+      "step": 13546
+    },
+    {
+      "epoch": 26.87,
+      "learning_rate": 2.085732565579015e-06,
+      "loss": 0.7505,
+      "step": 14000
+    },
+    {
+      "epoch": 27.0,
+      "eval_f1": 0.9031,
+      "eval_gen_len": 19.896727272727272,
+      "eval_loss": 1.620802402496338,
+      "eval_precision": 0.9155,
+      "eval_recall": 0.8914,
+      "eval_rouge1": 0.4463,
+      "eval_rouge2": 0.227,
+      "eval_rougeL": 0.3852,
+      "eval_rougeLsum": 0.3851,
+      "eval_runtime": 310.9302,
+      "eval_samples_per_second": 8.844,
+      "eval_steps_per_second": 0.553,
+      "step": 14067
+    },
+    {
+      "epoch": 27.83,
+      "learning_rate": 1.4459373000639796e-06,
+      "loss": 0.7413,
+      "step": 14500
+    },
+    {
+      "epoch": 28.0,
+      "eval_f1": 0.9032,
+      "eval_gen_len": 19.91527272727273,
+      "eval_loss": 1.623663306236267,
+      "eval_precision": 0.9159,
+      "eval_recall": 0.8912,
+      "eval_rouge1": 0.4468,
+      "eval_rouge2": 0.2273,
+      "eval_rougeL": 0.3854,
+      "eval_rougeLsum": 0.3853,
+      "eval_runtime": 311.7716,
+      "eval_samples_per_second": 8.821,
+      "eval_steps_per_second": 0.552,
+      "step": 14588
+    },
+    {
+      "epoch": 28.79,
+      "learning_rate": 8.061420345489445e-07,
+      "loss": 0.7348,
+      "step": 15000
+    },
+    {
+      "epoch": 29.0,
+      "eval_f1": 0.9035,
+      "eval_gen_len": 19.893818181818183,
+      "eval_loss": 1.6312142610549927,
+      "eval_precision": 0.9158,
+      "eval_recall": 0.8918,
+      "eval_rouge1": 0.4482,
+      "eval_rouge2": 0.2268,
+      "eval_rougeL": 0.3858,
+      "eval_rougeLsum": 0.3858,
+      "eval_runtime": 310.3349,
+      "eval_samples_per_second": 8.861,
+      "eval_steps_per_second": 0.554,
+      "step": 15109
+    },
+    {
+      "epoch": 29.75,
+      "learning_rate": 1.6634676903390917e-07,
+      "loss": 0.7286,
+      "step": 15500
+    },
+    {
+      "epoch": 30.0,
+      "eval_f1": 0.9033,
+      "eval_gen_len": 19.908727272727273,
+      "eval_loss": 1.6350260972976685,
+      "eval_precision": 0.9156,
+      "eval_recall": 0.8915,
+      "eval_rouge1": 0.4471,
+      "eval_rouge2": 0.2259,
+      "eval_rougeL": 0.3846,
+      "eval_rougeLsum": 0.3845,
+      "eval_runtime": 314.8086,
+      "eval_samples_per_second": 8.735,
+      "eval_steps_per_second": 0.546,
+      "step": 15630
+    },
+    {
+      "epoch": 30.0,
+      "step": 15630,
+      "total_flos": 3.2113882736270377e+18,
+      "train_loss": 0.1497309269236969,
+      "train_runtime": 15515.0349,
+      "train_samples_per_second": 96.68,
+      "train_steps_per_second": 1.007
     }
   ],
   "logging_steps": 500,
+  "max_steps": 15630,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
   "save_steps": 500,
+  "total_flos": 3.2113882736270377e+18,
   "train_batch_size": 24,
   "trial_name": null,
   "trial_params": null