Training in progress, epoch 8, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +77 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:940ece6053481e3946e69ad55df159ac113b6630529ebef37438d34f4468b28e
 size 2610104820

 version https://git-lfs.github.com/spec/v1
+oid sha256:f818eed3b71ae86bf60325ca842c29db729092a3a00f068d37dc3f8bc0e71f7b
 size 2610104820

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1be54ea9e7155d62de181add57ec85fc6b766b6bb74cf5509aa566a8f10d54df
 size 5210004271

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c7f95b813a9cd3ec4c03febae19edca2984f716b88224e7f0858d8e07ac8181
 size 5210004271

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e2f5546fc83506789b1d0adb53d6b6a28f107b064c7f808a5d419eeca20b8cf
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef182b3769d944b189f876a5cac490559ff2ea07b4cbd3762299fdab1ce127f7
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68f472c819beed817ac9f811e783cb3b4e6768b75b8d75dac6c446449f746786
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c384e9de8d22769c457fde7ec327a8b66d9e5e7803cfc2f5ad081bf4e28105c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.997206530510894,
   "eval_steps": 50,
-  "global_step": 2008,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -607,6 +607,81 @@
       "eval_samples_per_second": 31.365,
       "eval_steps_per_second": 15.683,
       "step": 2000
     }
   ],
   "logging_steps": 50,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.997206530510894,
   "eval_steps": 50,
+  "global_step": 2259,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 31.365,
       "eval_steps_per_second": 15.683,
       "step": 2000
+    },
+    {
+      "epoch": 8.166863244149233,
+      "grad_norm": 0.03973577171564102,
+      "learning_rate": 1.8326693227091633e-05,
+      "loss": 0.0298,
+      "step": 2050
+    },
+    {
+      "epoch": 8.166863244149233,
+      "eval_loss": 0.07551723718643188,
+      "eval_runtime": 27.0162,
+      "eval_samples_per_second": 31.389,
+      "eval_steps_per_second": 15.694,
+      "step": 2050
+    },
+    {
+      "epoch": 8.36550996337451,
+      "grad_norm": 0.042930684983730316,
+      "learning_rate": 1.6334661354581674e-05,
+      "loss": 0.0293,
+      "step": 2100
+    },
+    {
+      "epoch": 8.36550996337451,
+      "eval_loss": 0.0750298798084259,
+      "eval_runtime": 27.0096,
+      "eval_samples_per_second": 31.396,
+      "eval_steps_per_second": 15.698,
+      "step": 2100
+    },
+    {
+      "epoch": 8.564156682599789,
+      "grad_norm": 0.04831754416227341,
+      "learning_rate": 1.4342629482071715e-05,
+      "loss": 0.0293,
+      "step": 2150
+    },
+    {
+      "epoch": 8.564156682599789,
+      "eval_loss": 0.07498627156019211,
+      "eval_runtime": 27.0181,
+      "eval_samples_per_second": 31.386,
+      "eval_steps_per_second": 15.693,
+      "step": 2150
+    },
+    {
+      "epoch": 8.762803401825067,
+      "grad_norm": 0.040915608406066895,
+      "learning_rate": 1.2350597609561753e-05,
+      "loss": 0.0291,
+      "step": 2200
+    },
+    {
+      "epoch": 8.762803401825067,
+      "eval_loss": 0.07433921098709106,
+      "eval_runtime": 27.0115,
+      "eval_samples_per_second": 31.394,
+      "eval_steps_per_second": 15.697,
+      "step": 2200
+    },
+    {
+      "epoch": 8.961450121050344,
+      "grad_norm": 0.049351248890161514,
+      "learning_rate": 1.0358565737051794e-05,
+      "loss": 0.0289,
+      "step": 2250
+    },
+    {
+      "epoch": 8.961450121050344,
+      "eval_loss": 0.07407635450363159,
+      "eval_runtime": 27.0446,
+      "eval_samples_per_second": 31.356,
+      "eval_steps_per_second": 15.678,
+      "step": 2250
     }
   ],
   "logging_steps": 50,