Training in progress, epoch 3, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +184 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18fbd19ed0f067cccc4ceafafda68adefb55ef97f98832eadcfde47b3a2daf58
 size 2708729576

 version https://git-lfs.github.com/spec/v1
+oid sha256:4fcf860fc9c15233fdc3a04320c65f940c567bc7bcf7a9fcbd99bf407b520f99
 size 2708729576

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51187af1a65ecfea4a3ff1628941e84133eca5a8394cb465996a300d69d54302
 size 52499200

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c01749687975865b82527a4cee8b9d8ce1f2bc9bc740d2d45a7e075f6d8fba8
 size 52499200

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d15855cc66c2961c5cc037b181eb659abb2ac26d92d4c28480e27683e47e34e
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:49a66bbd279eb4ab0a90bcfec226c4b910506d73ea2bdc06576ad77b7202ecee
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e8b7bfccb9c07860bceffabef3a52060cc451a19d3abd90d284c09f7120dba6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:541d8b16c337fd96e05a077a2be76d2de8216d931de0afb127b2cab79028732a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 10,
-  "global_step": 258,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -357,6 +357,188 @@
       "eval_samples_per_second": 21.815,
       "eval_steps_per_second": 5.454,
       "step": 250
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 10,
+  "global_step": 387,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.815,
       "eval_steps_per_second": 5.454,
       "step": 250
+    },
+    {
+      "epoch": 2.015617374328941,
+      "grad_norm": 502681.75,
+      "learning_rate": 7.96875e-05,
+      "loss": 3382.1129,
+      "step": 260
+    },
+    {
+      "epoch": 2.015617374328941,
+      "eval_runtime": 19.6846,
+      "eval_samples_per_second": 21.946,
+      "eval_steps_per_second": 5.487,
+      "step": 260
+    },
+    {
+      "epoch": 2.0937042459736457,
+      "grad_norm": 191029.828125,
+      "learning_rate": 7.890625000000001e-05,
+      "loss": 2202.6236,
+      "step": 270
+    },
+    {
+      "epoch": 2.0937042459736457,
+      "eval_runtime": 19.7242,
+      "eval_samples_per_second": 21.902,
+      "eval_steps_per_second": 5.476,
+      "step": 270
+    },
+    {
+      "epoch": 2.1717911176183504,
+      "grad_norm": 262116.109375,
+      "learning_rate": 7.8125e-05,
+      "loss": 1782.3984,
+      "step": 280
+    },
+    {
+      "epoch": 2.1717911176183504,
+      "eval_runtime": 19.7531,
+      "eval_samples_per_second": 21.87,
+      "eval_steps_per_second": 5.467,
+      "step": 280
+    },
+    {
+      "epoch": 2.249877989263055,
+      "grad_norm": 389979.4375,
+      "learning_rate": 7.734375e-05,
+      "loss": 1784.0506,
+      "step": 290
+    },
+    {
+      "epoch": 2.249877989263055,
+      "eval_runtime": 19.7431,
+      "eval_samples_per_second": 21.881,
+      "eval_steps_per_second": 5.47,
+      "step": 290
+    },
+    {
+      "epoch": 2.32796486090776,
+      "grad_norm": 392025.96875,
+      "learning_rate": 7.65625e-05,
+      "loss": 1743.6416,
+      "step": 300
+    },
+    {
+      "epoch": 2.32796486090776,
+      "eval_runtime": 19.7493,
+      "eval_samples_per_second": 21.874,
+      "eval_steps_per_second": 5.469,
+      "step": 300
+    },
+    {
+      "epoch": 2.4060517325524646,
+      "grad_norm": 424892.03125,
+      "learning_rate": 7.578125e-05,
+      "loss": 1824.1576,
+      "step": 310
+    },
+    {
+      "epoch": 2.4060517325524646,
+      "eval_runtime": 19.7454,
+      "eval_samples_per_second": 21.879,
+      "eval_steps_per_second": 5.47,
+      "step": 310
+    },
+    {
+      "epoch": 2.4841386041971694,
+      "grad_norm": 319042.1875,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1743.5293,
+      "step": 320
+    },
+    {
+      "epoch": 2.4841386041971694,
+      "eval_runtime": 19.756,
+      "eval_samples_per_second": 21.867,
+      "eval_steps_per_second": 5.467,
+      "step": 320
+    },
+    {
+      "epoch": 2.562225475841874,
+      "grad_norm": 519256.40625,
+      "learning_rate": 7.421875e-05,
+      "loss": 1764.0594,
+      "step": 330
+    },
+    {
+      "epoch": 2.562225475841874,
+      "eval_runtime": 19.7543,
+      "eval_samples_per_second": 21.869,
+      "eval_steps_per_second": 5.467,
+      "step": 330
+    },
+    {
+      "epoch": 2.640312347486579,
+      "grad_norm": 210543.75,
+      "learning_rate": 7.34375e-05,
+      "loss": 1172.6759,
+      "step": 340
+    },
+    {
+      "epoch": 2.640312347486579,
+      "eval_runtime": 19.7374,
+      "eval_samples_per_second": 21.887,
+      "eval_steps_per_second": 5.472,
+      "step": 340
+    },
+    {
+      "epoch": 2.7183992191312836,
+      "grad_norm": 259726.9375,
+      "learning_rate": 7.265625000000001e-05,
+      "loss": 1670.5373,
+      "step": 350
+    },
+    {
+      "epoch": 2.7183992191312836,
+      "eval_runtime": 19.7387,
+      "eval_samples_per_second": 21.886,
+      "eval_steps_per_second": 5.471,
+      "step": 350
+    },
+    {
+      "epoch": 2.7964860907759883,
+      "grad_norm": 575974.4375,
+      "learning_rate": 7.1875e-05,
+      "loss": 2305.6137,
+      "step": 360
+    },
+    {
+      "epoch": 2.7964860907759883,
+      "eval_runtime": 19.7355,
+      "eval_samples_per_second": 21.889,
+      "eval_steps_per_second": 5.472,
+      "step": 360
+    },
+    {
+      "epoch": 2.874572962420693,
+      "grad_norm": 529809.125,
+      "learning_rate": 7.109375e-05,
+      "loss": 2236.2371,
+      "step": 370
+    },
+    {
+      "epoch": 2.874572962420693,
+      "eval_runtime": 19.7607,
+      "eval_samples_per_second": 21.862,
+      "eval_steps_per_second": 5.465,
+      "step": 370
+    },
+    {
+      "epoch": 2.952659834065398,
+      "grad_norm": 649306.875,
+      "learning_rate": 7.031250000000001e-05,
+      "loss": 1477.9074,
+      "step": 380
+    },
+    {
+      "epoch": 2.952659834065398,
+      "eval_runtime": 19.7461,
+      "eval_samples_per_second": 21.878,
+      "eval_steps_per_second": 5.469,
+      "step": 380
     }
   ],
   "logging_steps": 10,