Training in progress, epoch 9, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88647830ecd553d3bbcce815c85cc295f4bf39af9e61197684a6bbf2ad0d22cd
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:79ecb58c1fcba639498eb4bb8f9fd11485e8f410da635bffd7990f7d24a9ad84
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6a4f68f91aa0a169d492df4d096b1d4770de24a063b76c7cc1a09f608822ee7
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc51d878f8242e2efc63c0c0a3e6c6b8ebb1c5eedd276b9fd4ca5863d4b4c44c
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21dfc6c263d5ad0f8ba77e03600244b9f2781e61ae66cba4cff3c2ce6c58574f
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:11f1252e969592bce36bc2e2fc4eed6af06892f0a3f45eb582be003ac5046ad5
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86d123b176365e851d79aa73f522c50da61f447efcfc0bcc767ae1a1949443a3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:37acfbdf3414734e537adb979fbdbc4d04a389a43d3107d724270efe19fa191f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.0,
   "eval_steps": 50,
-  "global_step": 2184,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -652,6 +652,96 @@
       "eval_samples_per_second": 41.607,
       "eval_steps_per_second": 20.803,
       "step": 2150
     }
   ],
   "logging_steps": 50,
@@ -671,7 +761,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.614783810576056e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.0,
   "eval_steps": 50,
+  "global_step": 2457,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.607,
       "eval_steps_per_second": 20.803,
       "step": 2150
+    },
+    {
+      "epoch": 8.058816771970132,
+      "grad_norm": 80.5433349609375,
+      "learning_rate": 1.9117647058823528e-05,
+      "loss": 0.8227,
+      "step": 2200
+    },
+    {
+      "epoch": 8.058816771970132,
+      "eval_loss": 1.2389429807662964,
+      "eval_runtime": 117.23,
+      "eval_samples_per_second": 41.167,
+      "eval_steps_per_second": 20.583,
+      "step": 2200
+    },
+    {
+      "epoch": 8.242619184376794,
+      "grad_norm": 45.97893142700195,
+      "learning_rate": 1.7279411764705884e-05,
+      "loss": 0.8316,
+      "step": 2250
+    },
+    {
+      "epoch": 8.242619184376794,
+      "eval_loss": 1.2351105213165283,
+      "eval_runtime": 116.2345,
+      "eval_samples_per_second": 41.52,
+      "eval_steps_per_second": 20.76,
+      "step": 2250
+    },
+    {
+      "epoch": 8.426421596783458,
+      "grad_norm": 68.8030014038086,
+      "learning_rate": 1.5441176470588237e-05,
+      "loss": 0.8299,
+      "step": 2300
+    },
+    {
+      "epoch": 8.426421596783458,
+      "eval_loss": 1.2383313179016113,
+      "eval_runtime": 115.9203,
+      "eval_samples_per_second": 41.632,
+      "eval_steps_per_second": 20.816,
+      "step": 2300
+    },
+    {
+      "epoch": 8.610224009190121,
+      "grad_norm": 48.16875076293945,
+      "learning_rate": 1.3602941176470587e-05,
+      "loss": 0.822,
+      "step": 2350
+    },
+    {
+      "epoch": 8.610224009190121,
+      "eval_loss": 1.2370705604553223,
+      "eval_runtime": 116.2999,
+      "eval_samples_per_second": 41.496,
+      "eval_steps_per_second": 20.748,
+      "step": 2350
+    },
+    {
+      "epoch": 8.794026421596783,
+      "grad_norm": 49.53213119506836,
+      "learning_rate": 1.1764705882352942e-05,
+      "loss": 0.8251,
+      "step": 2400
+    },
+    {
+      "epoch": 8.794026421596783,
+      "eval_loss": 1.2367668151855469,
+      "eval_runtime": 116.3102,
+      "eval_samples_per_second": 41.493,
+      "eval_steps_per_second": 20.746,
+      "step": 2400
+    },
+    {
+      "epoch": 8.977828834003446,
+      "grad_norm": 42.136714935302734,
+      "learning_rate": 9.926470588235293e-06,
+      "loss": 0.8225,
+      "step": 2450
+    },
+    {
+      "epoch": 8.977828834003446,
+      "eval_loss": 1.2319527864456177,
+      "eval_runtime": 116.086,
+      "eval_samples_per_second": 41.573,
+      "eval_steps_per_second": 20.786,
+      "step": 2450
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 6.316931282433475e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null