Training in progress, step 160000, checkpoint

Browse files

Files changed (2) hide show

last-checkpoint/rng_state.pth +1 -1
last-checkpoint/trainer_state.json +159 -3

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4736a53f23b2d9813cdb31f71244daee8a9d4f05d12eb17bb18c233756dd0c26
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3fd70c2ee9103dacc2e8460e11a544a0da08573c15a524763aa473249698e80
 size 14244

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.7246722288438616,
   "eval_steps": 5000,
-  "global_step": 150000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2348,6 +2348,162 @@
       "eval_samples_per_second": 440.711,
       "eval_steps_per_second": 13.772,
       "step": 150000
     }
   ],
   "logging_steps": 500,
@@ -2367,7 +2523,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.185652398278902e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.972983710766786,
   "eval_steps": 5000,
+  "global_step": 160000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 440.711,
       "eval_steps_per_second": 13.772,
       "step": 150000
+    },
+    {
+      "epoch": 3.737087802940008,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 150500
+    },
+    {
+      "epoch": 3.749503377036154,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 151000
+    },
+    {
+      "epoch": 3.7619189511323006,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 151500
+    },
+    {
+      "epoch": 3.7743345252284466,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 152000
+    },
+    {
+      "epoch": 3.7867500993245926,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 152500
+    },
+    {
+      "epoch": 3.799165673420739,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 153000
+    },
+    {
+      "epoch": 3.811581247516885,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 153500
+    },
+    {
+      "epoch": 3.823996821613031,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 154000
+    },
+    {
+      "epoch": 3.8364123957091776,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 154500
+    },
+    {
+      "epoch": 3.848827969805324,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 155000
+    },
+    {
+      "epoch": 3.848827969805324,
+      "eval_loss": NaN,
+      "eval_runtime": 2929.1046,
+      "eval_samples_per_second": 439.961,
+      "eval_steps_per_second": 13.749,
+      "step": 155000
+    },
+    {
+      "epoch": 3.86124354390147,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 155500
+    },
+    {
+      "epoch": 3.873659117997616,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 156000
+    },
+    {
+      "epoch": 3.8860746920937626,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 156500
+    },
+    {
+      "epoch": 3.8984902661899086,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 157000
+    },
+    {
+      "epoch": 3.9109058402860546,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 157500
+    },
+    {
+      "epoch": 3.923321414382201,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 158000
+    },
+    {
+      "epoch": 3.935736988478347,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 158500
+    },
+    {
+      "epoch": 3.9481525625744935,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 159000
+    },
+    {
+      "epoch": 3.9605681366706396,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 159500
+    },
+    {
+      "epoch": 3.972983710766786,
+      "grad_norm": NaN,
+      "learning_rate": 0.0004900742091849483,
+      "loss": 0.0,
+      "step": 160000
+    },
+    {
+      "epoch": 3.972983710766786,
+      "eval_loss": NaN,
+      "eval_runtime": 2925.5422,
+      "eval_samples_per_second": 440.496,
+      "eval_steps_per_second": 13.766,
+      "step": 160000
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 3.3978863868862464e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null