Training in progress, epoch 27, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ff908266d6d71858dfb9a174963f66db89a006659d5d2805fe404646128e987
 size 990185320

 version https://git-lfs.github.com/spec/v1
+oid sha256:727012ff11d243aa3f50de8258ad959513310b901aef61c0f3c57fba9b72cea7
 size 990185320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27318dd665b2a337fcb4e1b1dc90f1e6f0d153a1e0cb6777337f04cd4fecc0b4
 size 1980541387

 version https://git-lfs.github.com/spec/v1
+oid sha256:1cc975ad13f0fa89a81b5fa79d6bf3b2541171d36c7eb13e67661a24c57543b1
 size 1980541387

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:285ff2ae5a404cbf796cda2dc5c3c268099da23ad4443ee6155b34b1c082a741
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a55fd7ac78bf4b5e6b13f1c5a1f5fb7258744c10b012de8c0c0b5edc12e58da
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5c961e41c178c68f65552114a158b8cd6a4f2860bbc78cf4602c6ea2ecddc79
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:c84c0eceb8506ba57b63c709b65cc1be3871eb480c744855060e8151b4276a67
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 26.0,
   "eval_steps": 500,
-  "global_step": 40014,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3016,6 +3016,119 @@
       "eval_samples_per_second": 22.077,
       "eval_steps_per_second": 2.76,
       "step": 40014
     }
   ],
   "logging_steps": 100,
@@ -3035,7 +3148,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.509646094119731e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 27.0,
   "eval_steps": 500,
+  "global_step": 41553,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.077,
       "eval_steps_per_second": 2.76,
       "step": 40014
+    },
+    {
+      "epoch": 26.055880441845353,
+      "grad_norm": 4.097437858581543,
+      "learning_rate": 6.574615551223738e-06,
+      "loss": 1.3986,
+      "step": 40100
+    },
+    {
+      "epoch": 26.120857699805068,
+      "grad_norm": 6.5821123123168945,
+      "learning_rate": 6.466320121290882e-06,
+      "loss": 1.4878,
+      "step": 40200
+    },
+    {
+      "epoch": 26.185834957764783,
+      "grad_norm": 3.4001429080963135,
+      "learning_rate": 6.3580246913580246e-06,
+      "loss": 1.498,
+      "step": 40300
+    },
+    {
+      "epoch": 26.250812215724498,
+      "grad_norm": 4.594339370727539,
+      "learning_rate": 6.249729261425168e-06,
+      "loss": 1.4616,
+      "step": 40400
+    },
+    {
+      "epoch": 26.31578947368421,
+      "grad_norm": 7.947396755218506,
+      "learning_rate": 6.141433831492311e-06,
+      "loss": 1.4703,
+      "step": 40500
+    },
+    {
+      "epoch": 26.380766731643924,
+      "grad_norm": 4.686864376068115,
+      "learning_rate": 6.033138401559455e-06,
+      "loss": 1.4843,
+      "step": 40600
+    },
+    {
+      "epoch": 26.44574398960364,
+      "grad_norm": 4.843585014343262,
+      "learning_rate": 5.924842971626597e-06,
+      "loss": 1.4536,
+      "step": 40700
+    },
+    {
+      "epoch": 26.510721247563353,
+      "grad_norm": 3.5781548023223877,
+      "learning_rate": 5.816547541693741e-06,
+      "loss": 1.4089,
+      "step": 40800
+    },
+    {
+      "epoch": 26.575698505523068,
+      "grad_norm": 4.236611843109131,
+      "learning_rate": 5.708252111760884e-06,
+      "loss": 1.4653,
+      "step": 40900
+    },
+    {
+      "epoch": 26.640675763482783,
+      "grad_norm": 4.144320011138916,
+      "learning_rate": 5.599956681828028e-06,
+      "loss": 1.4765,
+      "step": 41000
+    },
+    {
+      "epoch": 26.705653021442494,
+      "grad_norm": 3.518115997314453,
+      "learning_rate": 5.49166125189517e-06,
+      "loss": 1.447,
+      "step": 41100
+    },
+    {
+      "epoch": 26.77063027940221,
+      "grad_norm": 4.764077663421631,
+      "learning_rate": 5.383365821962314e-06,
+      "loss": 1.4214,
+      "step": 41200
+    },
+    {
+      "epoch": 26.835607537361923,
+      "grad_norm": 9.616331100463867,
+      "learning_rate": 5.275070392029457e-06,
+      "loss": 1.4519,
+      "step": 41300
+    },
+    {
+      "epoch": 26.900584795321638,
+      "grad_norm": 3.7429463863372803,
+      "learning_rate": 5.1667749620966e-06,
+      "loss": 1.4603,
+      "step": 41400
+    },
+    {
+      "epoch": 26.965562053281353,
+      "grad_norm": 5.070949077606201,
+      "learning_rate": 5.058479532163743e-06,
+      "loss": 1.4638,
+      "step": 41500
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 1.3732537031173706,
+      "eval_runtime": 61.9052,
+      "eval_samples_per_second": 22.098,
+      "eval_steps_per_second": 2.762,
+      "step": 41553
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 5.931144958338662e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null