Training in progress, step 450, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +117 -4

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:833aeb1a33e1257e28849c45bcf05b4ba579454b6442770dce1a96ff5c172910
 size 448441658

 version https://git-lfs.github.com/spec/v1
+oid sha256:a758cbaa769176a62823e081560880af0149a10672073a4fbc02f12903f7fa1a
 size 448441658

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e12c77a0fb957ce4fbee8df6c6d7afef351532cb1bf3808206fa93176ce7773a
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bb72be44928bd2de75add4445e84b7a589ffc1fcbc7a71e6de69cfca314024b
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1acbada17dd14707c522d6bfe6682855790daf7760c7d8cce7a5b80f4e4bf50
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:10b6a107d5f9c6404fe4457c524bcd67ebd6df39097f11f68fe1ba4b442f88d6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": Infinity,
   "best_model_checkpoint": null,
-  "epoch": 0.02288329519450801,
   "eval_steps": 150,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -233,6 +233,119 @@
       "eval_samples_per_second": 21.364,
       "eval_steps_per_second": 21.364,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -247,12 +360,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5661190067896320.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": Infinity,
   "best_model_checkpoint": null,
+  "epoch": 0.034324942791762014,
   "eval_steps": 150,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.364,
       "eval_steps_per_second": 21.364,
       "step": 300
+    },
+    {
+      "epoch": 0.02364607170099161,
+      "grad_norm": NaN,
+      "learning_rate": 4.977374404419837e-05,
+      "loss": 0.0,
+      "step": 310
+    },
+    {
+      "epoch": 0.02440884820747521,
+      "grad_norm": NaN,
+      "learning_rate": 4.975171939123005e-05,
+      "loss": 0.0,
+      "step": 320
+    },
+    {
+      "epoch": 0.02517162471395881,
+      "grad_norm": NaN,
+      "learning_rate": 4.9728677292023405e-05,
+      "loss": 0.0,
+      "step": 330
+    },
+    {
+      "epoch": 0.02593440122044241,
+      "grad_norm": NaN,
+      "learning_rate": 4.970461869374889e-05,
+      "loss": 0.0,
+      "step": 340
+    },
+    {
+      "epoch": 0.02669717772692601,
+      "grad_norm": NaN,
+      "learning_rate": 4.967954458536126e-05,
+      "loss": 0.0,
+      "step": 350
+    },
+    {
+      "epoch": 0.02745995423340961,
+      "grad_norm": NaN,
+      "learning_rate": 4.965345599755887e-05,
+      "loss": 0.0,
+      "step": 360
+    },
+    {
+      "epoch": 0.02822273073989321,
+      "grad_norm": NaN,
+      "learning_rate": 4.962635400274142e-05,
+      "loss": 0.0,
+      "step": 370
+    },
+    {
+      "epoch": 0.028985507246376812,
+      "grad_norm": NaN,
+      "learning_rate": 4.959823971496574e-05,
+      "loss": 0.0,
+      "step": 380
+    },
+    {
+      "epoch": 0.029748283752860413,
+      "grad_norm": NaN,
+      "learning_rate": 4.95691142899001e-05,
+      "loss": 0.0,
+      "step": 390
+    },
+    {
+      "epoch": 0.03051106025934401,
+      "grad_norm": NaN,
+      "learning_rate": 4.9538978924776634e-05,
+      "loss": 0.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.031273836765827616,
+      "grad_norm": NaN,
+      "learning_rate": 4.9507834858342186e-05,
+      "loss": 0.0,
+      "step": 410
+    },
+    {
+      "epoch": 0.032036613272311214,
+      "grad_norm": NaN,
+      "learning_rate": 4.9475683370807326e-05,
+      "loss": 0.0,
+      "step": 420
+    },
+    {
+      "epoch": 0.03279938977879481,
+      "grad_norm": NaN,
+      "learning_rate": 4.9442525783793794e-05,
+      "loss": 0.0,
+      "step": 430
+    },
+    {
+      "epoch": 0.033562166285278416,
+      "grad_norm": NaN,
+      "learning_rate": 4.940836346028011e-05,
+      "loss": 0.0,
+      "step": 440
+    },
+    {
+      "epoch": 0.034324942791762014,
+      "grad_norm": NaN,
+      "learning_rate": 4.937319780454559e-05,
+      "loss": 0.0,
+      "step": 450
+    },
+    {
+      "epoch": 0.034324942791762014,
+      "eval_loss": NaN,
+      "eval_runtime": 23.4543,
+      "eval_samples_per_second": 21.318,
+      "eval_steps_per_second": 21.318,
+      "step": 450
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 8579805072629760.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null