End of training

Browse files

Files changed (4) hide show

all_results.json +11 -11
eval_results.json +6 -6
train_results.json +5 -5
trainer_state.json +76 -28

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
     "epoch": 3.0,
-    "eval_loss": 2.030430555343628,
-    "eval_runtime": 15.4256,
-    "eval_samples": 1000,
-    "eval_samples_per_second": 64.827,
-    "eval_steps_per_second": 8.103,
-    "perplexity": 7.617365350191575,
-    "train_loss": 2.1000711460306185,
-    "train_runtime": 3427.7755,
-    "train_samples": 19004,
-    "train_samples_per_second": 16.632,
-    "train_steps_per_second": 0.26
 }

 {
     "epoch": 3.0,
+    "eval_loss": 1.920763373374939,
+    "eval_runtime": 81.4759,
+    "eval_samples": 5193,
+    "eval_samples_per_second": 63.737,
+    "eval_steps_per_second": 7.978,
+    "perplexity": 6.826167395302532,
+    "train_loss": 2.110191111022448,
+    "train_runtime": 17635.5568,
+    "train_samples": 98673,
+    "train_samples_per_second": 16.785,
+    "train_steps_per_second": 0.262
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 3.0,
-    "eval_loss": 2.030430555343628,
-    "eval_runtime": 15.4256,
-    "eval_samples": 1000,
-    "eval_samples_per_second": 64.827,
-    "eval_steps_per_second": 8.103,
-    "perplexity": 7.617365350191575
 }

 {
     "epoch": 3.0,
+    "eval_loss": 1.920763373374939,
+    "eval_runtime": 81.4759,
+    "eval_samples": 5193,
+    "eval_samples_per_second": 63.737,
+    "eval_steps_per_second": 7.978,
+    "perplexity": 6.826167395302532
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 2.1000711460306185,
-    "train_runtime": 3427.7755,
-    "train_samples": 19004,
-    "train_samples_per_second": 16.632,
-    "train_steps_per_second": 0.26
 }

 {
     "epoch": 3.0,
+    "train_loss": 2.110191111022448,
+    "train_runtime": 17635.5568,
+    "train_samples": 98673,
+    "train_samples_per_second": 16.785,
+    "train_steps_per_second": 0.262
 }

trainer_state.json CHANGED Viewed

@@ -2,54 +2,102 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 3.0,
-  "global_step": 891,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_loss": 2.170140027999878,
-      "eval_runtime": 15.6956,
-      "eval_samples_per_second": 63.712,
-      "eval_steps_per_second": 7.964,
-      "step": 297
     },
     {
-      "epoch": 1.68,
-      "learning_rate": 8.77665544332211e-06,
-      "loss": 2.1401,
-      "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_loss": 2.0152316093444824,
-      "eval_runtime": 15.6747,
-      "eval_samples_per_second": 63.797,
-      "eval_steps_per_second": 7.975,
-      "step": 594
     },
     {
       "epoch": 3.0,
-      "eval_loss": 2.1160194873809814,
-      "eval_runtime": 15.6683,
-      "eval_samples_per_second": 63.823,
-      "eval_steps_per_second": 7.978,
-      "step": 891
     },
     {
       "epoch": 3.0,
-      "step": 891,
-      "total_flos": 1.5005754149105664e+16,
-      "train_loss": 2.1000711460306185,
-      "train_runtime": 3427.7755,
-      "train_samples_per_second": 16.632,
-      "train_steps_per_second": 0.26
     }
   ],
-  "max_steps": 891,
   "num_train_epochs": 3,
-  "total_flos": 1.5005754149105664e+16,
   "trial_name": null,
   "trial_params": null
 }

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 3.0,
+  "global_step": 4626,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.32,
+      "learning_rate": 1.7838305231301342e-05,
+      "loss": 2.2294,
+      "step": 500
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.5676610462602683e-05,
+      "loss": 2.1683,
+      "step": 1000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.3514915693904023e-05,
+      "loss": 2.1713,
+      "step": 1500
+    },
     {
       "epoch": 1.0,
+      "eval_loss": 2.009819507598877,
+      "eval_runtime": 82.235,
+      "eval_samples_per_second": 63.148,
+      "eval_steps_per_second": 7.904,
+      "step": 1542
     },
     {
+      "epoch": 1.3,
+      "learning_rate": 1.1353220925205362e-05,
+      "loss": 2.1142,
+      "step": 2000
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 9.191526156506702e-06,
+      "loss": 2.0871,
+      "step": 2500
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 7.029831387808041e-06,
+      "loss": 2.0736,
+      "step": 3000
     },
     {
       "epoch": 2.0,
+      "eval_loss": 1.9852919578552246,
+      "eval_runtime": 82.023,
+      "eval_samples_per_second": 63.312,
+      "eval_steps_per_second": 7.925,
+      "step": 3084
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 4.8681366191093824e-06,
+      "loss": 2.0674,
+      "step": 3500
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 2.706441850410722e-06,
+      "loss": 2.0482,
+      "step": 4000
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 5.447470817120623e-07,
+      "loss": 2.0543,
+      "step": 4500
     },
     {
       "epoch": 3.0,
+      "eval_loss": 2.013369083404541,
+      "eval_runtime": 82.0996,
+      "eval_samples_per_second": 63.252,
+      "eval_steps_per_second": 7.917,
+      "step": 4626
     },
     {
       "epoch": 3.0,
+      "step": 4626,
+      "total_flos": 7.791321717294797e+16,
+      "train_loss": 2.110191111022448,
+      "train_runtime": 17635.5568,
+      "train_samples_per_second": 16.785,
+      "train_steps_per_second": 0.262
     }
   ],
+  "max_steps": 4626,
   "num_train_epochs": 3,
+  "total_flos": 7.791321717294797e+16,
   "trial_name": null,
   "trial_params": null
 }