GlycerinLOL
/

LLM_Teached_Bart_From_Scratch

@@ -1,7 +1,7 @@
 {
-    "epoch": 16.0,
-    "train_loss": 1.1567621652086957,
-    "train_runtime": 40538.4288,
-    "train_samples_per_second": 19.734,
-    "train_steps_per_second": 0.206
 }

 {
+    "epoch": 24.0,
+    "train_loss": 0.22391605226564926,
+    "train_runtime": 17118.5241,
+    "train_samples_per_second": 70.1,
+    "train_steps_per_second": 0.73
 }

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 16.0,
-    "train_loss": 1.1567621652086957,
-    "train_runtime": 40538.4288,
-    "train_samples_per_second": 19.734,
-    "train_steps_per_second": 0.206
 }

 {
+    "epoch": 24.0,
+    "train_loss": 0.22391605226564926,
+    "train_runtime": 17118.5241,
+    "train_samples_per_second": 70.1,
+    "train_steps_per_second": 0.73
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 16.0,
   "eval_steps": 500,
-  "global_step": 8336,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -346,36 +346,218 @@
     },
     {
       "epoch": 16.0,
       "eval_f1": 0.9034,
-      "eval_gen_len": 19.900727272727273,
-      "eval_loss": 1.5434002876281738,
       "eval_precision": 0.9159,
       "eval_recall": 0.8916,
-      "eval_rouge1": 0.4476,
-      "eval_rouge2": 0.2292,
-      "eval_rougeL": 0.3868,
-      "eval_rougeLsum": 0.3865,
-      "eval_runtime": 313.163,
-      "eval_samples_per_second": 8.781,
-      "eval_steps_per_second": 0.549,
-      "step": 8336
     },
     {
-      "epoch": 16.0,
-      "step": 8336,
-      "total_flos": 1.7130441774590853e+18,
-      "train_loss": 1.1567621652086957,
-      "train_runtime": 40538.4288,
-      "train_samples_per_second": 19.734,
-      "train_steps_per_second": 0.206
     }
   ],
   "logging_steps": 500,
-  "max_steps": 8336,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 16,
   "save_steps": 500,
-  "total_flos": 1.7130441774590853e+18,
   "train_batch_size": 24,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 24.0,
   "eval_steps": 500,
+  "global_step": 12504,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     },
     {
       "epoch": 16.0,
+      "eval_f1": 0.9025,
+      "eval_gen_len": 19.942545454545453,
+      "eval_loss": 1.5439822673797607,
+      "eval_precision": 0.9151,
+      "eval_recall": 0.8905,
+      "eval_rouge1": 0.4427,
+      "eval_rouge2": 0.225,
+      "eval_rougeL": 0.382,
+      "eval_rougeLsum": 0.382,
+      "eval_runtime": 314.8749,
+      "eval_samples_per_second": 8.734,
+      "eval_steps_per_second": 0.546,
+      "step": 8336
+    },
+    {
+      "epoch": 16.31,
+      "learning_rate": 6.404350607805503e-06,
+      "loss": 0.8806,
+      "step": 8500
+    },
+    {
+      "epoch": 17.0,
+      "eval_f1": 0.9036,
+      "eval_gen_len": 19.88509090909091,
+      "eval_loss": 1.5509530305862427,
+      "eval_precision": 0.9159,
+      "eval_recall": 0.8919,
+      "eval_rouge1": 0.4495,
+      "eval_rouge2": 0.2279,
+      "eval_rougeL": 0.3868,
+      "eval_rougeLsum": 0.3869,
+      "eval_runtime": 312.7951,
+      "eval_samples_per_second": 8.792,
+      "eval_steps_per_second": 0.55,
+      "step": 8857
+    },
+    {
+      "epoch": 17.27,
+      "learning_rate": 5.6046065259117085e-06,
+      "loss": 0.8683,
+      "step": 9000
+    },
+    {
+      "epoch": 18.0,
+      "eval_f1": 0.9038,
+      "eval_gen_len": 19.88290909090909,
+      "eval_loss": 1.56792151927948,
+      "eval_precision": 0.9161,
+      "eval_recall": 0.8921,
+      "eval_rouge1": 0.4473,
+      "eval_rouge2": 0.2282,
+      "eval_rougeL": 0.3856,
+      "eval_rougeLsum": 0.3857,
+      "eval_runtime": 314.8371,
+      "eval_samples_per_second": 8.735,
+      "eval_steps_per_second": 0.546,
+      "step": 9378
+    },
+    {
+      "epoch": 18.23,
+      "learning_rate": 4.804862444017915e-06,
+      "loss": 0.8413,
+      "step": 9500
+    },
+    {
+      "epoch": 19.0,
+      "eval_f1": 0.9035,
+      "eval_gen_len": 19.913454545454545,
+      "eval_loss": 1.574545979499817,
+      "eval_precision": 0.9159,
+      "eval_recall": 0.8918,
+      "eval_rouge1": 0.4492,
+      "eval_rouge2": 0.2282,
+      "eval_rougeL": 0.3861,
+      "eval_rougeLsum": 0.3864,
+      "eval_runtime": 311.5846,
+      "eval_samples_per_second": 8.826,
+      "eval_steps_per_second": 0.552,
+      "step": 9899
+    },
+    {
+      "epoch": 19.19,
+      "learning_rate": 4.005118362124121e-06,
+      "loss": 0.8257,
+      "step": 10000
+    },
+    {
+      "epoch": 20.0,
+      "eval_f1": 0.9031,
+      "eval_gen_len": 19.899636363636365,
+      "eval_loss": 1.583512544631958,
+      "eval_precision": 0.9153,
+      "eval_recall": 0.8915,
+      "eval_rouge1": 0.4471,
+      "eval_rouge2": 0.2266,
+      "eval_rougeL": 0.3852,
+      "eval_rougeLsum": 0.3853,
+      "eval_runtime": 311.7771,
+      "eval_samples_per_second": 8.82,
+      "eval_steps_per_second": 0.552,
+      "step": 10420
+    },
+    {
+      "epoch": 20.15,
+      "learning_rate": 3.2053742802303266e-06,
+      "loss": 0.8097,
+      "step": 10500
+    },
+    {
+      "epoch": 21.0,
+      "eval_f1": 0.9034,
+      "eval_gen_len": 19.907272727272726,
+      "eval_loss": 1.59569251537323,
+      "eval_precision": 0.9156,
+      "eval_recall": 0.8919,
+      "eval_rouge1": 0.4472,
+      "eval_rouge2": 0.2271,
+      "eval_rougeL": 0.3856,
+      "eval_rougeLsum": 0.3856,
+      "eval_runtime": 309.5923,
+      "eval_samples_per_second": 8.883,
+      "eval_steps_per_second": 0.556,
+      "step": 10941
+    },
+    {
+      "epoch": 21.11,
+      "learning_rate": 2.4056301983365325e-06,
+      "loss": 0.7926,
+      "step": 11000
+    },
+    {
+      "epoch": 22.0,
       "eval_f1": 0.9034,
+      "eval_gen_len": 19.892,
+      "eval_loss": 1.595582127571106,
       "eval_precision": 0.9159,
       "eval_recall": 0.8916,
+      "eval_rouge1": 0.4479,
+      "eval_rouge2": 0.2282,
+      "eval_rougeL": 0.3855,
+      "eval_rougeLsum": 0.3857,
+      "eval_runtime": 311.5772,
+      "eval_samples_per_second": 8.826,
+      "eval_steps_per_second": 0.552,
+      "step": 11462
     },
     {
+      "epoch": 22.07,
+      "learning_rate": 1.6058861164427384e-06,
+      "loss": 0.7841,
+      "step": 11500
+    },
+    {
+      "epoch": 23.0,
+      "eval_f1": 0.9028,
+      "eval_gen_len": 19.912,
+      "eval_loss": 1.5990447998046875,
+      "eval_precision": 0.9155,
+      "eval_recall": 0.8908,
+      "eval_rouge1": 0.4444,
+      "eval_rouge2": 0.2261,
+      "eval_rougeL": 0.3833,
+      "eval_rougeLsum": 0.3834,
+      "eval_runtime": 311.6057,
+      "eval_samples_per_second": 8.825,
+      "eval_steps_per_second": 0.552,
+      "step": 11983
+    },
+    {
+      "epoch": 23.03,
+      "learning_rate": 8.061420345489445e-07,
+      "loss": 0.7734,
+      "step": 12000
+    },
+    {
+      "epoch": 23.99,
+      "learning_rate": 6.397952655150352e-09,
+      "loss": 0.7669,
+      "step": 12500
+    },
+    {
+      "epoch": 24.0,
+      "eval_f1": 0.9034,
+      "eval_gen_len": 19.90290909090909,
+      "eval_loss": 1.6053136587142944,
+      "eval_precision": 0.9159,
+      "eval_recall": 0.8916,
+      "eval_rouge1": 0.4481,
+      "eval_rouge2": 0.2283,
+      "eval_rougeL": 0.3861,
+      "eval_rougeLsum": 0.3863,
+      "eval_runtime": 314.5795,
+      "eval_samples_per_second": 8.742,
+      "eval_steps_per_second": 0.547,
+      "step": 12504
+    },
+    {
+      "epoch": 24.0,
+      "step": 12504,
+      "total_flos": 2.569106349028344e+18,
+      "train_loss": 0.22391605226564926,
+      "train_runtime": 17118.5241,
+      "train_samples_per_second": 70.1,
+      "train_steps_per_second": 0.73
     }
   ],
   "logging_steps": 500,
+  "max_steps": 12504,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 24,
   "save_steps": 500,
+  "total_flos": 2.569106349028344e+18,
   "train_batch_size": 24,
   "trial_name": null,
   "trial_params": null