Training in progress, step 40000, checkpoint

Browse files

Files changed (2) hide show

last-checkpoint/rng_state.pth +1 -1
last-checkpoint/trainer_state.json +151 -3

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b50a9d899aacaaec4be5309a80d7951fff8a854e365f4e90411e35451044b07
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:214a1072eb6e2e4cc13be55f0e76f496dbf8421eeae52bb353439962f9793e2b
 size 14645

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.494595044071179,
   "eval_steps": 10000,
-  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -452,6 +452,154 @@
       "eval_samples_per_second": 139.748,
       "eval_steps_per_second": 4.367,
       "step": 30000
     }
   ],
   "logging_steps": 500,
@@ -471,7 +619,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.363141690523392e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.3261267254282387,
   "eval_steps": 10000,
+  "global_step": 40000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 139.748,
       "eval_steps_per_second": 4.367,
       "step": 30000
+    },
+    {
+      "epoch": 2.536171628139032,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 30500
+    },
+    {
+      "epoch": 2.577748212206885,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 31000
+    },
+    {
+      "epoch": 2.619324796274738,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 31500
+    },
+    {
+      "epoch": 2.660901380342591,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 32000
+    },
+    {
+      "epoch": 2.702477964410444,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 32500
+    },
+    {
+      "epoch": 2.7440545484782968,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 33000
+    },
+    {
+      "epoch": 2.78563113254615,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 33500
+    },
+    {
+      "epoch": 2.827207716614003,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 34000
+    },
+    {
+      "epoch": 2.868784300681856,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 34500
+    },
+    {
+      "epoch": 2.910360884749709,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 35000
+    },
+    {
+      "epoch": 2.9519374688175617,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 35500
+    },
+    {
+      "epoch": 2.993514052885415,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 36000
+    },
+    {
+      "epoch": 3.0350906369532678,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 36500
+    },
+    {
+      "epoch": 3.076667221021121,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 37000
+    },
+    {
+      "epoch": 3.118243805088974,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 37500
+    },
+    {
+      "epoch": 3.159820389156827,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 38000
+    },
+    {
+      "epoch": 3.20139697322468,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 38500
+    },
+    {
+      "epoch": 3.2429735572925327,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 39000
+    },
+    {
+      "epoch": 3.284550141360386,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 39500
+    },
+    {
+      "epoch": 3.3261267254282387,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 40000
+    },
+    {
+      "epoch": 3.3261267254282387,
+      "eval_loss": NaN,
+      "eval_runtime": 2753.2662,
+      "eval_samples_per_second": 139.771,
+      "eval_steps_per_second": 4.368,
+      "step": 40000
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 4.483885876471327e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null