Training in progress, epoch 5, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +184 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45a0f32b96311d18145a36a2b7ac7077d7c147fa2552926df5bcbb94fa477dcc
 size 2708729576

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa0822fc409472b4df347ce0c6dbb5bf1d445c794af75086f172bf6c2394a18c
 size 2708729576

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e0cbd5a6d8a5ccf63de302ffe56531268f9153e400c4a49dbb62f54a65e3c0c
 size 52499200

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf8fcb46ff34fb6b3c884e340b62e5087660faddc671c8d46dc2f75938bf059c
 size 52499200

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13a87652f696aae07a6616b1088616ece95dadb9b70d2197d96fbef272ac3457
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:a45b784475c6c47021a6ff08c5d6a553172a50192f5de3c134961024cdbbaf9f
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0267fbad859e57b7ff33d6dbd4fbd9fdf3cbf25f82f07754a3b6e19cff3ef2f5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b514faa73b6e320d8ae19d93f3da594146e59f1072af645ee09b9ce747afd0a1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.0,
   "eval_steps": 10,
-  "global_step": 516,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -721,6 +721,188 @@
       "eval_samples_per_second": 21.855,
       "eval_steps_per_second": 5.464,
       "step": 510
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
   "eval_steps": 10,
+  "global_step": 645,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.855,
       "eval_steps_per_second": 5.464,
       "step": 510
+    },
+    {
+      "epoch": 4.031234748657882,
+      "grad_norm": 484968.46875,
+      "learning_rate": 5.9375e-05,
+      "loss": 1164.3749,
+      "step": 520
+    },
+    {
+      "epoch": 4.031234748657882,
+      "eval_runtime": 19.6732,
+      "eval_samples_per_second": 21.959,
+      "eval_steps_per_second": 5.49,
+      "step": 520
+    },
+    {
+      "epoch": 4.109321620302587,
+      "grad_norm": 329296.75,
+      "learning_rate": 5.8593750000000005e-05,
+      "loss": 1631.9979,
+      "step": 530
+    },
+    {
+      "epoch": 4.109321620302587,
+      "eval_runtime": 19.7244,
+      "eval_samples_per_second": 21.902,
+      "eval_steps_per_second": 5.475,
+      "step": 530
+    },
+    {
+      "epoch": 4.187408491947291,
+      "grad_norm": 554537.125,
+      "learning_rate": 5.78125e-05,
+      "loss": 1570.2684,
+      "step": 540
+    },
+    {
+      "epoch": 4.187408491947291,
+      "eval_runtime": 19.7495,
+      "eval_samples_per_second": 21.874,
+      "eval_steps_per_second": 5.468,
+      "step": 540
+    },
+    {
+      "epoch": 4.265495363591996,
+      "grad_norm": 417775.03125,
+      "learning_rate": 5.703125e-05,
+      "loss": 1599.58,
+      "step": 550
+    },
+    {
+      "epoch": 4.265495363591996,
+      "eval_runtime": 19.7438,
+      "eval_samples_per_second": 21.88,
+      "eval_steps_per_second": 5.47,
+      "step": 550
+    },
+    {
+      "epoch": 4.343582235236701,
+      "grad_norm": 308738.78125,
+      "learning_rate": 5.6250000000000005e-05,
+      "loss": 1184.2381,
+      "step": 560
+    },
+    {
+      "epoch": 4.343582235236701,
+      "eval_runtime": 19.7443,
+      "eval_samples_per_second": 21.88,
+      "eval_steps_per_second": 5.47,
+      "step": 560
+    },
+    {
+      "epoch": 4.421669106881406,
+      "grad_norm": 281127.5625,
+      "learning_rate": 5.546875e-05,
+      "loss": 969.7674,
+      "step": 570
+    },
+    {
+      "epoch": 4.421669106881406,
+      "eval_runtime": 19.7635,
+      "eval_samples_per_second": 21.858,
+      "eval_steps_per_second": 5.465,
+      "step": 570
+    },
+    {
+      "epoch": 4.49975597852611,
+      "grad_norm": 343310.84375,
+      "learning_rate": 5.46875e-05,
+      "loss": 938.8365,
+      "step": 580
+    },
+    {
+      "epoch": 4.49975597852611,
+      "eval_runtime": 19.7819,
+      "eval_samples_per_second": 21.838,
+      "eval_steps_per_second": 5.46,
+      "step": 580
+    },
+    {
+      "epoch": 4.577842850170815,
+      "grad_norm": 274241.34375,
+      "learning_rate": 5.3906250000000006e-05,
+      "loss": 1338.7786,
+      "step": 590
+    },
+    {
+      "epoch": 4.577842850170815,
+      "eval_runtime": 19.7579,
+      "eval_samples_per_second": 21.865,
+      "eval_steps_per_second": 5.466,
+      "step": 590
+    },
+    {
+      "epoch": 4.65592972181552,
+      "grad_norm": 416818.875,
+      "learning_rate": 5.3125000000000004e-05,
+      "loss": 1180.1237,
+      "step": 600
+    },
+    {
+      "epoch": 4.65592972181552,
+      "eval_runtime": 19.7618,
+      "eval_samples_per_second": 21.86,
+      "eval_steps_per_second": 5.465,
+      "step": 600
+    },
+    {
+      "epoch": 4.7340165934602245,
+      "grad_norm": 292501.71875,
+      "learning_rate": 5.234375e-05,
+      "loss": 1117.2909,
+      "step": 610
+    },
+    {
+      "epoch": 4.7340165934602245,
+      "eval_runtime": 19.7565,
+      "eval_samples_per_second": 21.866,
+      "eval_steps_per_second": 5.467,
+      "step": 610
+    },
+    {
+      "epoch": 4.812103465104929,
+      "grad_norm": 415090.75,
+      "learning_rate": 5.15625e-05,
+      "loss": 1297.7303,
+      "step": 620
+    },
+    {
+      "epoch": 4.812103465104929,
+      "eval_runtime": 19.7543,
+      "eval_samples_per_second": 21.869,
+      "eval_steps_per_second": 5.467,
+      "step": 620
+    },
+    {
+      "epoch": 4.890190336749634,
+      "grad_norm": 481957.6875,
+      "learning_rate": 5.0781250000000004e-05,
+      "loss": 1024.6031,
+      "step": 630
+    },
+    {
+      "epoch": 4.890190336749634,
+      "eval_runtime": 19.7456,
+      "eval_samples_per_second": 21.878,
+      "eval_steps_per_second": 5.47,
+      "step": 630
+    },
+    {
+      "epoch": 4.968277208394339,
+      "grad_norm": 760376.8125,
+      "learning_rate": 5e-05,
+      "loss": 1106.1675,
+      "step": 640
+    },
+    {
+      "epoch": 4.968277208394339,
+      "eval_runtime": 19.7415,
+      "eval_samples_per_second": 21.883,
+      "eval_steps_per_second": 5.471,
+      "step": 640
     }
   ],
   "logging_steps": 10,