Training in progress, epoch 10, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +54 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18aa3793eafce3749c6627f617fc9beefd20e5e39a72c4be54bc7466a8da3a58
 size 504109968

 version https://git-lfs.github.com/spec/v1
+oid sha256:400714933e436ed4942f6ac14653ba65257ac6b5a7d4ce477d416ba55e17474e
 size 504109968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:769e2d328832f9e8977633a3bf16aca606696a0874a02a1edd348042a65107cd
 size 1008339066

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a3e3d7e456d6422407d86032db6f5536b675b02f9b9cb0ae22f5ea3f872fd94
 size 1008339066

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e44951d2ae26589c4948133e119adf0d1d7d8c7788a1be4749c0b21311e2d966
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:961c3f8777af59bc7b4c75a96dab229e529cd80db0c10138ac15c22505754430
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd9f3ba97711824f0c4f1f355e670342edfe13d4e26033a3152ec68013cdb3f1
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4fc465b0742a760c8a88fa10c0e66b96b132949734205aaaadb5090b96a9191
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:617e3f89c08ec8ae94159021694f0a7719bab4370769175cb516700c1b355f9f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9906eb8c72456a53a67a4ac3ea98c57e6203ca53bfe5b869a429143d2009f53
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 2484,
   "best_metric": 1.949218511581421,
   "best_model_checkpoint": "./opt_thinker_ckpts/checkpoint-2484",
-  "epoch": 9.0,
   "eval_steps": 500,
-  "global_step": 2484,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -423,6 +423,56 @@
       "eval_samples_per_second": 8.425,
       "eval_steps_per_second": 4.212,
       "step": 2484
     }
   ],
   "logging_steps": 50,
@@ -437,12 +487,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.792025365696e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 2484,
   "best_metric": 1.949218511581421,
   "best_model_checkpoint": "./opt_thinker_ckpts/checkpoint-2484",
+  "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 2760,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.425,
       "eval_steps_per_second": 4.212,
       "step": 2484
+    },
+    {
+      "epoch": 9.058023572076156,
+      "grad_norm": 12.567099571228027,
+      "learning_rate": 2.257449032190323e-06,
+      "loss": 12.8177,
+      "step": 2500
+    },
+    {
+      "epoch": 9.239347234814144,
+      "grad_norm": 12.118515014648438,
+      "learning_rate": 1.4898066712173974e-06,
+      "loss": 12.8555,
+      "step": 2550
+    },
+    {
+      "epoch": 9.42067089755213,
+      "grad_norm": 12.42186164855957,
+      "learning_rate": 8.792502686258752e-07,
+      "loss": 12.9066,
+      "step": 2600
+    },
+    {
+      "epoch": 9.601994560290118,
+      "grad_norm": 12.5271635055542,
+      "learning_rate": 4.277569313094809e-07,
+      "loss": 12.9596,
+      "step": 2650
+    },
+    {
+      "epoch": 9.783318223028106,
+      "grad_norm": 12.402328491210938,
+      "learning_rate": 1.3678868732311946e-07,
+      "loss": 12.8895,
+      "step": 2700
+    },
+    {
+      "epoch": 9.964641885766092,
+      "grad_norm": 12.048426628112793,
+      "learning_rate": 7.287751536050324e-09,
+      "loss": 12.9195,
+      "step": 2750
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 1.9497145414352417,
+      "eval_runtime": 58.2174,
+      "eval_samples_per_second": 8.417,
+      "eval_steps_per_second": 4.208,
+      "step": 2760
     }
   ],
   "logging_steps": 50,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.213723912704e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null