Training in progress, epoch 4, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +184 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fcf860fc9c15233fdc3a04320c65f940c567bc7bcf7a9fcbd99bf407b520f99
 size 2708729576

 version https://git-lfs.github.com/spec/v1
+oid sha256:45a0f32b96311d18145a36a2b7ac7077d7c147fa2552926df5bcbb94fa477dcc
 size 2708729576

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c01749687975865b82527a4cee8b9d8ce1f2bc9bc740d2d45a7e075f6d8fba8
 size 52499200

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e0cbd5a6d8a5ccf63de302ffe56531268f9153e400c4a49dbb62f54a65e3c0c
 size 52499200

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49a66bbd279eb4ab0a90bcfec226c4b910506d73ea2bdc06576ad77b7202ecee
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:13a87652f696aae07a6616b1088616ece95dadb9b70d2197d96fbef272ac3457
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:541d8b16c337fd96e05a077a2be76d2de8216d931de0afb127b2cab79028732a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0267fbad859e57b7ff33d6dbd4fbd9fdf3cbf25f82f07754a3b6e19cff3ef2f5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 10,
-  "global_step": 387,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -539,6 +539,188 @@
       "eval_samples_per_second": 21.878,
       "eval_steps_per_second": 5.469,
       "step": 380
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 10,
+  "global_step": 516,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.878,
       "eval_steps_per_second": 5.469,
       "step": 380
+    },
+    {
+      "epoch": 3.0234260614934114,
+      "grad_norm": 468387.1875,
+      "learning_rate": 6.953125e-05,
+      "loss": 1111.9008,
+      "step": 390
+    },
+    {
+      "epoch": 3.0234260614934114,
+      "eval_runtime": 19.6555,
+      "eval_samples_per_second": 21.979,
+      "eval_steps_per_second": 5.495,
+      "step": 390
+    },
+    {
+      "epoch": 3.101512933138116,
+      "grad_norm": 396892.71875,
+      "learning_rate": 6.875e-05,
+      "loss": 1161.8062,
+      "step": 400
+    },
+    {
+      "epoch": 3.101512933138116,
+      "eval_runtime": 19.6988,
+      "eval_samples_per_second": 21.93,
+      "eval_steps_per_second": 5.483,
+      "step": 400
+    },
+    {
+      "epoch": 3.179599804782821,
+      "grad_norm": 267550.6875,
+      "learning_rate": 6.796875000000001e-05,
+      "loss": 1332.8658,
+      "step": 410
+    },
+    {
+      "epoch": 3.179599804782821,
+      "eval_runtime": 19.7594,
+      "eval_samples_per_second": 21.863,
+      "eval_steps_per_second": 5.466,
+      "step": 410
+    },
+    {
+      "epoch": 3.2576866764275256,
+      "grad_norm": 383417.75,
+      "learning_rate": 6.71875e-05,
+      "loss": 1149.9299,
+      "step": 420
+    },
+    {
+      "epoch": 3.2576866764275256,
+      "eval_runtime": 19.7802,
+      "eval_samples_per_second": 21.84,
+      "eval_steps_per_second": 5.46,
+      "step": 420
+    },
+    {
+      "epoch": 3.3357735480722304,
+      "grad_norm": 197298.359375,
+      "learning_rate": 6.640625e-05,
+      "loss": 1427.1258,
+      "step": 430
+    },
+    {
+      "epoch": 3.3357735480722304,
+      "eval_runtime": 19.7807,
+      "eval_samples_per_second": 21.84,
+      "eval_steps_per_second": 5.46,
+      "step": 430
+    },
+    {
+      "epoch": 3.413860419716935,
+      "grad_norm": 196738.484375,
+      "learning_rate": 6.562500000000001e-05,
+      "loss": 1029.203,
+      "step": 440
+    },
+    {
+      "epoch": 3.413860419716935,
+      "eval_runtime": 19.7502,
+      "eval_samples_per_second": 21.873,
+      "eval_steps_per_second": 5.468,
+      "step": 440
+    },
+    {
+      "epoch": 3.49194729136164,
+      "grad_norm": 415209.96875,
+      "learning_rate": 6.484375e-05,
+      "loss": 1040.8042,
+      "step": 450
+    },
+    {
+      "epoch": 3.49194729136164,
+      "eval_runtime": 19.7611,
+      "eval_samples_per_second": 21.861,
+      "eval_steps_per_second": 5.465,
+      "step": 450
+    },
+    {
+      "epoch": 3.5700341630063446,
+      "grad_norm": 328070.78125,
+      "learning_rate": 6.40625e-05,
+      "loss": 977.6191,
+      "step": 460
+    },
+    {
+      "epoch": 3.5700341630063446,
+      "eval_runtime": 19.7543,
+      "eval_samples_per_second": 21.869,
+      "eval_steps_per_second": 5.467,
+      "step": 460
+    },
+    {
+      "epoch": 3.6481210346510493,
+      "grad_norm": 327954.34375,
+      "learning_rate": 6.328125e-05,
+      "loss": 893.5069,
+      "step": 470
+    },
+    {
+      "epoch": 3.6481210346510493,
+      "eval_runtime": 19.7609,
+      "eval_samples_per_second": 21.861,
+      "eval_steps_per_second": 5.465,
+      "step": 470
+    },
+    {
+      "epoch": 3.726207906295754,
+      "grad_norm": 429292.5625,
+      "learning_rate": 6.25e-05,
+      "loss": 982.0832,
+      "step": 480
+    },
+    {
+      "epoch": 3.726207906295754,
+      "eval_runtime": 19.7484,
+      "eval_samples_per_second": 21.875,
+      "eval_steps_per_second": 5.469,
+      "step": 480
+    },
+    {
+      "epoch": 3.804294777940459,
+      "grad_norm": 388092.28125,
+      "learning_rate": 6.171875e-05,
+      "loss": 849.4025,
+      "step": 490
+    },
+    {
+      "epoch": 3.804294777940459,
+      "eval_runtime": 19.7469,
+      "eval_samples_per_second": 21.877,
+      "eval_steps_per_second": 5.469,
+      "step": 490
+    },
+    {
+      "epoch": 3.8823816495851635,
+      "grad_norm": 240416.734375,
+      "learning_rate": 6.0937500000000004e-05,
+      "loss": 1007.4567,
+      "step": 500
+    },
+    {
+      "epoch": 3.8823816495851635,
+      "eval_runtime": 19.7422,
+      "eval_samples_per_second": 21.882,
+      "eval_steps_per_second": 5.471,
+      "step": 500
+    },
+    {
+      "epoch": 3.9604685212298683,
+      "grad_norm": 309579.21875,
+      "learning_rate": 6.015625e-05,
+      "loss": 960.0591,
+      "step": 510
+    },
+    {
+      "epoch": 3.9604685212298683,
+      "eval_runtime": 19.7662,
+      "eval_samples_per_second": 21.855,
+      "eval_steps_per_second": 5.464,
+      "step": 510
     }
   ],
   "logging_steps": 10,