Training in progress, epoch 8, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +184 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44d6797e54ea1e42bcae33e74458544cb12bc9b0ff95d94ff72611fcb34e0783
 size 2695611744

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a2175ec71e87f793ff0f1b56c0e4d67ecb39ba87b782cb059bb94ad285c2f53
 size 2695611744

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5441c765de6e99ecee4cf9c3a075adb77f3d306fb63d2d02f10461c9d056e5c3
 size 26261260

 version https://git-lfs.github.com/spec/v1
+oid sha256:042e4a5ad63d06a910df2e74958ddf6def3d06490a31ec05e030713646e66aae
 size 26261260

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d5eb5e2eac86bd2c1cd20be57b68211f8585b0779e48efc32499f94581cd3d8
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd92451b020a5e32fd17fed687a0bd65992ebcaaa07504fb89486fb3090b6e0b
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1318a37534b462ff16790cf62c003bcdfdf0493594d4a0b3e928e4d2f7999ab
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:98b9a9b66ad7c2c92d26ff031cce36ce8f9c2ebdb6be883784d837b0e0137568
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.0,
   "eval_steps": 10,
-  "global_step": 903,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1267,6 +1267,188 @@
       "eval_samples_per_second": 22.009,
       "eval_steps_per_second": 5.502,
       "step": 900
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.0,
   "eval_steps": 10,
+  "global_step": 1032,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.009,
       "eval_steps_per_second": 5.502,
       "step": 900
+    },
+    {
+      "epoch": 7.054660810151294,
+      "grad_norm": 89940.78125,
+      "learning_rate": 2.890625e-05,
+      "loss": 514.7005,
+      "step": 910
+    },
+    {
+      "epoch": 7.054660810151294,
+      "eval_runtime": 19.6378,
+      "eval_samples_per_second": 21.998,
+      "eval_steps_per_second": 5.5,
+      "step": 910
+    },
+    {
+      "epoch": 7.132747681795998,
+      "grad_norm": 64957.203125,
+      "learning_rate": 2.8125000000000003e-05,
+      "loss": 516.4828,
+      "step": 920
+    },
+    {
+      "epoch": 7.132747681795998,
+      "eval_runtime": 19.6159,
+      "eval_samples_per_second": 22.023,
+      "eval_steps_per_second": 5.506,
+      "step": 920
+    },
+    {
+      "epoch": 7.210834553440703,
+      "grad_norm": 191568.875,
+      "learning_rate": 2.734375e-05,
+      "loss": 469.4625,
+      "step": 930
+    },
+    {
+      "epoch": 7.210834553440703,
+      "eval_runtime": 19.6149,
+      "eval_samples_per_second": 22.024,
+      "eval_steps_per_second": 5.506,
+      "step": 930
+    },
+    {
+      "epoch": 7.288921425085407,
+      "grad_norm": 180467.84375,
+      "learning_rate": 2.6562500000000002e-05,
+      "loss": 627.1263,
+      "step": 940
+    },
+    {
+      "epoch": 7.288921425085407,
+      "eval_runtime": 19.6273,
+      "eval_samples_per_second": 22.01,
+      "eval_steps_per_second": 5.503,
+      "step": 940
+    },
+    {
+      "epoch": 7.367008296730113,
+      "grad_norm": 175262.3125,
+      "learning_rate": 2.578125e-05,
+      "loss": 497.1456,
+      "step": 950
+    },
+    {
+      "epoch": 7.367008296730113,
+      "eval_runtime": 19.6298,
+      "eval_samples_per_second": 22.007,
+      "eval_steps_per_second": 5.502,
+      "step": 950
+    },
+    {
+      "epoch": 7.4450951683748166,
+      "grad_norm": 194304.703125,
+      "learning_rate": 2.5e-05,
+      "loss": 651.0766,
+      "step": 960
+    },
+    {
+      "epoch": 7.4450951683748166,
+      "eval_runtime": 19.6413,
+      "eval_samples_per_second": 21.994,
+      "eval_steps_per_second": 5.499,
+      "step": 960
+    },
+    {
+      "epoch": 7.523182040019522,
+      "grad_norm": 221815.171875,
+      "learning_rate": 2.4218750000000003e-05,
+      "loss": 419.7869,
+      "step": 970
+    },
+    {
+      "epoch": 7.523182040019522,
+      "eval_runtime": 19.6255,
+      "eval_samples_per_second": 22.012,
+      "eval_steps_per_second": 5.503,
+      "step": 970
+    },
+    {
+      "epoch": 7.601268911664226,
+      "grad_norm": 330153.84375,
+      "learning_rate": 2.34375e-05,
+      "loss": 606.2052,
+      "step": 980
+    },
+    {
+      "epoch": 7.601268911664226,
+      "eval_runtime": 19.6246,
+      "eval_samples_per_second": 22.013,
+      "eval_steps_per_second": 5.503,
+      "step": 980
+    },
+    {
+      "epoch": 7.679355783308932,
+      "grad_norm": 134138.4375,
+      "learning_rate": 2.2656250000000002e-05,
+      "loss": 636.721,
+      "step": 990
+    },
+    {
+      "epoch": 7.679355783308932,
+      "eval_runtime": 19.622,
+      "eval_samples_per_second": 22.016,
+      "eval_steps_per_second": 5.504,
+      "step": 990
+    },
+    {
+      "epoch": 7.7574426549536355,
+      "grad_norm": 86497.265625,
+      "learning_rate": 2.1875e-05,
+      "loss": 565.6015,
+      "step": 1000
+    },
+    {
+      "epoch": 7.7574426549536355,
+      "eval_runtime": 19.6167,
+      "eval_samples_per_second": 22.022,
+      "eval_steps_per_second": 5.506,
+      "step": 1000
+    },
+    {
+      "epoch": 7.835529526598341,
+      "grad_norm": 256321.390625,
+      "learning_rate": 2.109375e-05,
+      "loss": 383.8543,
+      "step": 1010
+    },
+    {
+      "epoch": 7.835529526598341,
+      "eval_runtime": 19.6312,
+      "eval_samples_per_second": 22.006,
+      "eval_steps_per_second": 5.501,
+      "step": 1010
+    },
+    {
+      "epoch": 7.913616398243045,
+      "grad_norm": 300360.125,
+      "learning_rate": 2.0312500000000002e-05,
+      "loss": 386.0633,
+      "step": 1020
+    },
+    {
+      "epoch": 7.913616398243045,
+      "eval_runtime": 19.6333,
+      "eval_samples_per_second": 22.003,
+      "eval_steps_per_second": 5.501,
+      "step": 1020
+    },
+    {
+      "epoch": 7.991703269887751,
+      "grad_norm": 65186.7578125,
+      "learning_rate": 1.953125e-05,
+      "loss": 379.998,
+      "step": 1030
+    },
+    {
+      "epoch": 7.991703269887751,
+      "eval_runtime": 19.6079,
+      "eval_samples_per_second": 22.032,
+      "eval_steps_per_second": 5.508,
+      "step": 1030
     }
   ],
   "logging_steps": 10,