Training in progress, epoch 7, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +184 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94b65f9945fefbaf8be853961d82c7339324704274beb41015a71638438df6ca
 size 2695611744

 version https://git-lfs.github.com/spec/v1
+oid sha256:44d6797e54ea1e42bcae33e74458544cb12bc9b0ff95d94ff72611fcb34e0783
 size 2695611744

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eddaae0b197ba351206c079ac22e951ce1b9b3cda33c4dfc2277b9cd13f08127
 size 26261260

 version https://git-lfs.github.com/spec/v1
+oid sha256:5441c765de6e99ecee4cf9c3a075adb77f3d306fb63d2d02f10461c9d056e5c3
 size 26261260

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ed2dc48e727c7083f014c752797fb847062faae5cd71cadcb7aba9e7e6b933c
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d5eb5e2eac86bd2c1cd20be57b68211f8585b0779e48efc32499f94581cd3d8
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ebd3960ec1614497d0e6e97cebd857464e618edc4df8a50eee43da5ac2ba348
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1318a37534b462ff16790cf62c003bcdfdf0493594d4a0b3e928e4d2f7999ab
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.0,
   "eval_steps": 10,
-  "global_step": 774,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1085,6 +1085,188 @@
       "eval_samples_per_second": 22.011,
       "eval_steps_per_second": 5.503,
       "step": 770
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.0,
   "eval_steps": 10,
+  "global_step": 903,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.011,
       "eval_steps_per_second": 5.503,
       "step": 770
+    },
+    {
+      "epoch": 6.046852122986823,
+      "grad_norm": 468637.6875,
+      "learning_rate": 3.90625e-05,
+      "loss": 621.1816,
+      "step": 780
+    },
+    {
+      "epoch": 6.046852122986823,
+      "eval_runtime": 19.6074,
+      "eval_samples_per_second": 22.032,
+      "eval_steps_per_second": 5.508,
+      "step": 780
+    },
+    {
+      "epoch": 6.124938994631528,
+      "grad_norm": 374385.40625,
+      "learning_rate": 3.828125e-05,
+      "loss": 914.6565,
+      "step": 790
+    },
+    {
+      "epoch": 6.124938994631528,
+      "eval_runtime": 19.626,
+      "eval_samples_per_second": 22.012,
+      "eval_steps_per_second": 5.503,
+      "step": 790
+    },
+    {
+      "epoch": 6.203025866276232,
+      "grad_norm": 283100.3125,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 830.0896,
+      "step": 800
+    },
+    {
+      "epoch": 6.203025866276232,
+      "eval_runtime": 19.6195,
+      "eval_samples_per_second": 22.019,
+      "eval_steps_per_second": 5.505,
+      "step": 800
+    },
+    {
+      "epoch": 6.281112737920937,
+      "grad_norm": 186444.921875,
+      "learning_rate": 3.671875e-05,
+      "loss": 822.068,
+      "step": 810
+    },
+    {
+      "epoch": 6.281112737920937,
+      "eval_runtime": 19.6377,
+      "eval_samples_per_second": 21.998,
+      "eval_steps_per_second": 5.5,
+      "step": 810
+    },
+    {
+      "epoch": 6.359199609565642,
+      "grad_norm": 431370.5,
+      "learning_rate": 3.59375e-05,
+      "loss": 690.5968,
+      "step": 820
+    },
+    {
+      "epoch": 6.359199609565642,
+      "eval_runtime": 19.6147,
+      "eval_samples_per_second": 22.024,
+      "eval_steps_per_second": 5.506,
+      "step": 820
+    },
+    {
+      "epoch": 6.4372864812103465,
+      "grad_norm": 435885.03125,
+      "learning_rate": 3.5156250000000004e-05,
+      "loss": 1016.4219,
+      "step": 830
+    },
+    {
+      "epoch": 6.4372864812103465,
+      "eval_runtime": 19.6089,
+      "eval_samples_per_second": 22.031,
+      "eval_steps_per_second": 5.508,
+      "step": 830
+    },
+    {
+      "epoch": 6.515373352855051,
+      "grad_norm": 473700.9375,
+      "learning_rate": 3.4375e-05,
+      "loss": 806.1664,
+      "step": 840
+    },
+    {
+      "epoch": 6.515373352855051,
+      "eval_runtime": 19.6159,
+      "eval_samples_per_second": 22.023,
+      "eval_steps_per_second": 5.506,
+      "step": 840
+    },
+    {
+      "epoch": 6.593460224499756,
+      "grad_norm": 398720.625,
+      "learning_rate": 3.359375e-05,
+      "loss": 668.8824,
+      "step": 850
+    },
+    {
+      "epoch": 6.593460224499756,
+      "eval_runtime": 19.6281,
+      "eval_samples_per_second": 22.009,
+      "eval_steps_per_second": 5.502,
+      "step": 850
+    },
+    {
+      "epoch": 6.671547096144461,
+      "grad_norm": 305606.28125,
+      "learning_rate": 3.2812500000000005e-05,
+      "loss": 522.7901,
+      "step": 860
+    },
+    {
+      "epoch": 6.671547096144461,
+      "eval_runtime": 19.6214,
+      "eval_samples_per_second": 22.017,
+      "eval_steps_per_second": 5.504,
+      "step": 860
+    },
+    {
+      "epoch": 6.7496339677891655,
+      "grad_norm": 263199.21875,
+      "learning_rate": 3.203125e-05,
+      "loss": 559.4416,
+      "step": 870
+    },
+    {
+      "epoch": 6.7496339677891655,
+      "eval_runtime": 19.6359,
+      "eval_samples_per_second": 22.0,
+      "eval_steps_per_second": 5.5,
+      "step": 870
+    },
+    {
+      "epoch": 6.82772083943387,
+      "grad_norm": 203541.921875,
+      "learning_rate": 3.125e-05,
+      "loss": 602.3201,
+      "step": 880
+    },
+    {
+      "epoch": 6.82772083943387,
+      "eval_runtime": 19.6292,
+      "eval_samples_per_second": 22.008,
+      "eval_steps_per_second": 5.502,
+      "step": 880
+    },
+    {
+      "epoch": 6.905807711078575,
+      "grad_norm": 109014.71875,
+      "learning_rate": 3.0468750000000002e-05,
+      "loss": 527.6462,
+      "step": 890
+    },
+    {
+      "epoch": 6.905807711078575,
+      "eval_runtime": 19.615,
+      "eval_samples_per_second": 22.024,
+      "eval_steps_per_second": 5.506,
+      "step": 890
+    },
+    {
+      "epoch": 6.98389458272328,
+      "grad_norm": 173269.515625,
+      "learning_rate": 2.96875e-05,
+      "loss": 509.9485,
+      "step": 900
+    },
+    {
+      "epoch": 6.98389458272328,
+      "eval_runtime": 19.6287,
+      "eval_samples_per_second": 22.009,
+      "eval_steps_per_second": 5.502,
+      "step": 900
     }
   ],
   "logging_steps": 10,