peterbeamish
/

trained_model

@@ -1,64 +1,92 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
-  "eval_steps": 8000,
-  "global_step": 6048,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.5,
-      "learning_rate": 0.0,
-      "loss": 0.0,
-      "step": 1000
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 0.0,
       "loss": 0.0,
-      "step": 2000
     },
     {
-      "epoch": 1.49,
-      "learning_rate": 0.0,
-      "loss": 0.0,
-      "step": 3000
     },
     {
-      "epoch": 1.98,
-      "learning_rate": 0.0,
-      "loss": 0.0,
-      "step": 4000
     },
     {
-      "epoch": 2.48,
-      "learning_rate": 0.0,
       "loss": 0.0,
-      "step": 5000
     },
     {
-      "epoch": 2.98,
-      "learning_rate": 0.0,
-      "loss": 0.0,
-      "step": 6000
     },
     {
-      "epoch": 3.0,
-      "step": 6048,
-      "total_flos": 2247973873385472.0,
       "train_loss": 0.0,
-      "train_runtime": 538.1748,
-      "train_samples_per_second": 22.47,
-      "train_steps_per_second": 11.238
     }
   ],
-  "logging_steps": 1000,
-  "max_steps": 6048,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 2247973873385472.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 1008,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_gen_len": 17.1436,
+      "eval_loss": NaN,
+      "eval_rouge1": 0.0259,
+      "eval_rouge2": 0.0047,
+      "eval_rougeL": 0.0256,
+      "eval_rougeLsum": 0.0255,
+      "eval_runtime": 105.9672,
+      "eval_samples_per_second": 38.05,
+      "eval_steps_per_second": 2.378,
+      "step": 252
     },
     {
+      "epoch": 1.98,
+      "learning_rate": 2e-05,
       "loss": 0.0,
+      "step": 500
     },
     {
+      "epoch": 2.0,
+      "eval_gen_len": 17.1436,
+      "eval_loss": NaN,
+      "eval_rouge1": 0.0259,
+      "eval_rouge2": 0.0047,
+      "eval_rougeL": 0.0256,
+      "eval_rougeLsum": 0.0255,
+      "eval_runtime": 106.6812,
+      "eval_samples_per_second": 37.795,
+      "eval_steps_per_second": 2.362,
+      "step": 504
     },
     {
+      "epoch": 3.0,
+      "eval_gen_len": 17.1436,
+      "eval_loss": NaN,
+      "eval_rouge1": 0.0259,
+      "eval_rouge2": 0.0047,
+      "eval_rougeL": 0.0256,
+      "eval_rougeLsum": 0.0255,
+      "eval_runtime": 108.1549,
+      "eval_samples_per_second": 37.28,
+      "eval_steps_per_second": 2.33,
+      "step": 756
     },
     {
+      "epoch": 3.97,
+      "learning_rate": 2e-05,
       "loss": 0.0,
+      "step": 1000
     },
     {
+      "epoch": 4.0,
+      "eval_gen_len": 17.1436,
+      "eval_loss": NaN,
+      "eval_rouge1": 0.0259,
+      "eval_rouge2": 0.0047,
+      "eval_rougeL": 0.0256,
+      "eval_rougeLsum": 0.0255,
+      "eval_runtime": 109.2088,
+      "eval_samples_per_second": 36.92,
+      "eval_steps_per_second": 2.308,
+      "step": 1008
     },
     {
+      "epoch": 4.0,
+      "step": 1008,
+      "total_flos": 2997298497847296.0,
       "train_loss": 0.0,
+      "train_runtime": 577.5801,
+      "train_samples_per_second": 27.916,
+      "train_steps_per_second": 1.745
     }
   ],
+  "logging_steps": 500,
+  "max_steps": 1008,
+  "num_train_epochs": 4,
   "save_steps": 500,
+  "total_flos": 2997298497847296.0,
   "trial_name": null,
   "trial_params": null
 }