Training in progress, step 60000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +151 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4430b2cd91f8f5fd01fd03553f76ef9f10a36827da138a3e8eaa981ae6a46670
 size 357393656

 version https://git-lfs.github.com/spec/v1
+oid sha256:738e31afb26cb178bc406668bb49ad13f5b128cdd690fb5d4b785da8ca0bb63c
 size 357393656

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e65862f074b26014a8698b6bea02fcb81eff286edfc108c5226df5fd63301594
 size 714965067

 version https://git-lfs.github.com/spec/v1
+oid sha256:06a3f9ac205780c80a9050ff5ee89e3f122c188aaf1cfbe22549b997f3194fa8
 size 714965067

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:406ccc095198a9b51f73271d2ea161ceb1c293768b592772f3eeb691591f2264
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:51d5845e27caf8cfea1d2b1f8892eb08f3013019008d987ba6f3d71ae629c686
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16ef4994c96a5a240fd745bfffb644fd64784bbe7855b0c7aab4eb65aed0aa2d
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:2df85f60e785e2e08c732a0ce809bd89b9448d10319df74b89110aea5ec1d783
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53ce6824ad446863a69db60dfce5a739e9186a8a15f324d6c03901630309b780
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:c022a44c12e767c6893f92275f46ad4b324df28421791b06ec9aa6234af9b0cb
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.157658406785298,
   "eval_steps": 10000,
-  "global_step": 50000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -748,6 +748,154 @@
       "eval_samples_per_second": 137.102,
       "eval_steps_per_second": 4.285,
       "step": 50000
     }
   ],
   "logging_steps": 500,
@@ -767,7 +915,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.6054486632842035e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.989190088142358,
   "eval_steps": 10000,
+  "global_step": 60000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 137.102,
       "eval_steps_per_second": 4.285,
       "step": 50000
+    },
+    {
+      "epoch": 4.199234990853151,
+      "grad_norm": 0.676832377910614,
+      "learning_rate": 8.165060037206157e-05,
+      "loss": 7.9251,
+      "step": 50500
+    },
+    {
+      "epoch": 4.240811574921005,
+      "grad_norm": 0.6083265542984009,
+      "learning_rate": 7.742262810755962e-05,
+      "loss": 7.9429,
+      "step": 51000
+    },
+    {
+      "epoch": 4.282388158988858,
+      "grad_norm": 8.456089973449707,
+      "learning_rate": 7.319465584305767e-05,
+      "loss": 7.9295,
+      "step": 51500
+    },
+    {
+      "epoch": 4.3239647430567105,
+      "grad_norm": 80.9195785522461,
+      "learning_rate": 6.896668357855572e-05,
+      "loss": 7.9159,
+      "step": 52000
+    },
+    {
+      "epoch": 4.365541327124563,
+      "grad_norm": 1.259993314743042,
+      "learning_rate": 6.473871131405378e-05,
+      "loss": 7.9322,
+      "step": 52500
+    },
+    {
+      "epoch": 4.407117911192416,
+      "grad_norm": 1.4960211515426636,
+      "learning_rate": 6.051073904955184e-05,
+      "loss": 7.9287,
+      "step": 53000
+    },
+    {
+      "epoch": 4.44869449526027,
+      "grad_norm": 0.4545043706893921,
+      "learning_rate": 5.6291222729578894e-05,
+      "loss": 7.9237,
+      "step": 53500
+    },
+    {
+      "epoch": 4.490271079328123,
+      "grad_norm": 2.8742592334747314,
+      "learning_rate": 5.207170640960596e-05,
+      "loss": 7.9185,
+      "step": 54000
+    },
+    {
+      "epoch": 4.5318476633959754,
+      "grad_norm": 2.539797306060791,
+      "learning_rate": 4.784373414510401e-05,
+      "loss": 7.9342,
+      "step": 54500
+    },
+    {
+      "epoch": 4.573424247463828,
+      "grad_norm": 1.3232216835021973,
+      "learning_rate": 4.3615761880602066e-05,
+      "loss": 7.9254,
+      "step": 55000
+    },
+    {
+      "epoch": 4.615000831531681,
+      "grad_norm": 3.313217878341675,
+      "learning_rate": 3.938778961610012e-05,
+      "loss": 7.9267,
+      "step": 55500
+    },
+    {
+      "epoch": 4.656577415599534,
+      "grad_norm": 1.0304898023605347,
+      "learning_rate": 3.5159817351598174e-05,
+      "loss": 7.9303,
+      "step": 56000
+    },
+    {
+      "epoch": 4.698153999667388,
+      "grad_norm": 10.963839530944824,
+      "learning_rate": 3.093184508709623e-05,
+      "loss": 7.9318,
+      "step": 56500
+    },
+    {
+      "epoch": 4.73973058373524,
+      "grad_norm": 4.864618301391602,
+      "learning_rate": 2.672078471165229e-05,
+      "loss": 7.9217,
+      "step": 57000
+    },
+    {
+      "epoch": 4.781307167803093,
+      "grad_norm": 0.6966050863265991,
+      "learning_rate": 2.2492812447150345e-05,
+      "loss": 7.9273,
+      "step": 57500
+    },
+    {
+      "epoch": 4.822883751870946,
+      "grad_norm": 1.1059428453445435,
+      "learning_rate": 1.8264840182648402e-05,
+      "loss": 7.9342,
+      "step": 58000
+    },
+    {
+      "epoch": 4.8644603359388,
+      "grad_norm": 1.2508047819137573,
+      "learning_rate": 1.4036867918146456e-05,
+      "loss": 7.9339,
+      "step": 58500
+    },
+    {
+      "epoch": 4.9060369200066525,
+      "grad_norm": 0.4586002826690674,
+      "learning_rate": 9.808895653644512e-06,
+      "loss": 7.9219,
+      "step": 59000
+    },
+    {
+      "epoch": 4.947613504074505,
+      "grad_norm": 1.337792158126831,
+      "learning_rate": 5.580923389142567e-06,
+      "loss": 7.9324,
+      "step": 59500
+    },
+    {
+      "epoch": 4.989190088142358,
+      "grad_norm": 2.416313409805298,
+      "learning_rate": 1.3529511246406224e-06,
+      "loss": 7.9342,
+      "step": 60000
+    },
+    {
+      "epoch": 4.989190088142358,
+      "eval_loss": 8.904105186462402,
+      "eval_runtime": 2799.8597,
+      "eval_samples_per_second": 137.444,
+      "eval_steps_per_second": 4.295,
+      "step": 60000
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 6.726635198108539e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null