Training in progress, step 2250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:023bdf4fb37105c005af155a89b3617ec253742740b1c443640c3cfd919b153c
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:95dc31204144af8854a2bd166b700ffe00c60e93c0807719622f465a8d64b4a6
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee34169c145fc9db54236abebff2e7bbd35b77780ea424fc21c3c1a2442d1d2d
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a5eb56f2c77d18a4cabe29b95f8b8d20c91a4f69adfa24c425612b6f1851b59
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0245389a7bc82d29e971a63bfd36a481643b7f85d29704591ececfc67d58955b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d81f454917d58ee0468d722bb9dc06ecc2918f8b10aaeacf5f5f0694536198a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1bce2a8653bdd97c984ac0cb8f8fc01c58c1e2c98ab50a771eb0dc001a601b0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:71e101b8bc114bf6ab419ec6879047895e309c841d9a023f2c8c16366e9111d1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 91.30434782608695,
   "eval_steps": 150,
-  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2037,6 +2037,151 @@
       "EMA_steps_per_second": 25.058,
       "epoch": 91.30434782608695,
       "step": 2100
     }
   ],
   "logging_steps": 10,
@@ -2056,7 +2201,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.411670961736909e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 97.82608695652173,
   "eval_steps": 150,
+  "global_step": 2250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 25.058,
       "epoch": 91.30434782608695,
       "step": 2100
+    },
+    {
+      "epoch": 91.73913043478261,
+      "grad_norm": 2.307114601135254,
+      "learning_rate": 7.487848504295937e-06,
+      "loss": 0.2596,
+      "step": 2110
+    },
+    {
+      "epoch": 92.17391304347827,
+      "grad_norm": 2.0132083892822266,
+      "learning_rate": 7.4878388584705885e-06,
+      "loss": 0.2902,
+      "step": 2120
+    },
+    {
+      "epoch": 92.6086956521739,
+      "grad_norm": 1.9218742847442627,
+      "learning_rate": 7.487827728682402e-06,
+      "loss": 0.2791,
+      "step": 2130
+    },
+    {
+      "epoch": 93.04347826086956,
+      "grad_norm": 1.6972328424453735,
+      "learning_rate": 7.487815114935791e-06,
+      "loss": 0.2376,
+      "step": 2140
+    },
+    {
+      "epoch": 93.47826086956522,
+      "grad_norm": 1.8078455924987793,
+      "learning_rate": 7.487801017235753e-06,
+      "loss": 0.289,
+      "step": 2150
+    },
+    {
+      "epoch": 93.91304347826087,
+      "grad_norm": 2.128847599029541,
+      "learning_rate": 7.4877854355878785e-06,
+      "loss": 0.27,
+      "step": 2160
+    },
+    {
+      "epoch": 94.34782608695652,
+      "grad_norm": 1.9462212324142456,
+      "learning_rate": 7.487768369998342e-06,
+      "loss": 0.2166,
+      "step": 2170
+    },
+    {
+      "epoch": 94.78260869565217,
+      "grad_norm": 2.225867986679077,
+      "learning_rate": 7.4877498204739075e-06,
+      "loss": 0.2959,
+      "step": 2180
+    },
+    {
+      "epoch": 95.21739130434783,
+      "grad_norm": 2.1711599826812744,
+      "learning_rate": 7.487729787021927e-06,
+      "loss": 0.2598,
+      "step": 2190
+    },
+    {
+      "epoch": 95.65217391304348,
+      "grad_norm": 2.3892881870269775,
+      "learning_rate": 7.487708269650342e-06,
+      "loss": 0.2585,
+      "step": 2200
+    },
+    {
+      "epoch": 96.08695652173913,
+      "grad_norm": 2.3716413974761963,
+      "learning_rate": 7.487685268367682e-06,
+      "loss": 0.2593,
+      "step": 2210
+    },
+    {
+      "epoch": 96.52173913043478,
+      "grad_norm": 1.8392366170883179,
+      "learning_rate": 7.487660783183063e-06,
+      "loss": 0.2681,
+      "step": 2220
+    },
+    {
+      "epoch": 96.95652173913044,
+      "grad_norm": 2.1921820640563965,
+      "learning_rate": 7.48763481410619e-06,
+      "loss": 0.2609,
+      "step": 2230
+    },
+    {
+      "epoch": 97.3913043478261,
+      "grad_norm": 1.5945699214935303,
+      "learning_rate": 7.487607361147356e-06,
+      "loss": 0.2883,
+      "step": 2240
+    },
+    {
+      "epoch": 97.82608695652173,
+      "grad_norm": 1.3208949565887451,
+      "learning_rate": 7.487578424317443e-06,
+      "loss": 0.2525,
+      "step": 2250
+    },
+    {
+      "epoch": 97.82608695652173,
+      "eval_loss": 0.9061517715454102,
+      "eval_runtime": 0.4781,
+      "eval_samples_per_second": 20.916,
+      "eval_steps_per_second": 20.916,
+      "step": 2250
+    },
+    {
+      "Start_State_loss": 0.861186683177948,
+      "Start_State_runtime": 0.4046,
+      "Start_State_samples_per_second": 24.715,
+      "Start_State_steps_per_second": 24.715,
+      "epoch": 97.82608695652173,
+      "step": 2250
+    },
+    {
+      "Raw_Model_loss": 0.9061517715454102,
+      "Raw_Model_runtime": 0.4112,
+      "Raw_Model_samples_per_second": 24.319,
+      "Raw_Model_steps_per_second": 24.319,
+      "epoch": 97.82608695652173,
+      "step": 2250
+    },
+    {
+      "SWA_loss": 0.74998939037323,
+      "SWA_runtime": 0.4166,
+      "SWA_samples_per_second": 24.004,
+      "SWA_steps_per_second": 24.004,
+      "epoch": 97.82608695652173,
+      "step": 2250
+    },
+    {
+      "EMA_loss": 0.8602108955383301,
+      "EMA_runtime": 0.398,
+      "EMA_samples_per_second": 25.124,
+      "EMA_steps_per_second": 25.124,
+      "epoch": 97.82608695652173,
+      "step": 2250
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.800933883385446e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null