Training in progress, step 4050, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f298dd0a7b849bb55a6d5cb7290507c8064f9b006406a664a429001d19e0e48c
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b1674b110cd3152426bbe05cc5f0d45a53b6ea70c1f07b7ffe3a2e658d6c17d
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6668a3d3adb3a86f62c6ef423882ea9f2f598f32ad5045f34c14199b38fb689f
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e4c61f600a24769d3508958b5be7a636626fc7dd36b36dfe84519c7990f9fa3
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:488cbcf14a0f8a4794af20845693e7c92cc4e0193e27f71cfb8b870a8f1fae2d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:12c3bba0118a53d6f1dc342017f2ea922f8815570aacf4ca8fc91241ca3c4a16
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d162883f1a66ee54c1f60afa7c5bed405d62515f1f02173124202a7368b03a7d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1997849c2025c9ed68622bc6b79aa148345dac46cf13e358512de3e857a9129
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 169.56521739130434,
   "eval_steps": 150,
-  "global_step": 3900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3777,6 +3777,151 @@
       "EMA_steps_per_second": 24.093,
       "epoch": 169.56521739130434,
       "step": 3900
     }
   ],
   "logging_steps": 10,
@@ -3796,7 +3941,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0061040993472512e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 176.08695652173913,
   "eval_steps": 150,
+  "global_step": 4050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 24.093,
       "epoch": 169.56521739130434,
       "step": 3900
+    },
+    {
+      "epoch": 170.0,
+      "grad_norm": 3.2512736320495605,
+      "learning_rate": 2.5136229028837813e-06,
+      "loss": 0.2311,
+      "step": 3910
+    },
+    {
+      "epoch": 170.43478260869566,
+      "grad_norm": 1.862411618232727,
+      "learning_rate": 2.5136047193121285e-06,
+      "loss": 0.2351,
+      "step": 3920
+    },
+    {
+      "epoch": 170.8695652173913,
+      "grad_norm": 2.6634721755981445,
+      "learning_rate": 2.513586037651761e-06,
+      "loss": 0.2343,
+      "step": 3930
+    },
+    {
+      "epoch": 171.30434782608697,
+      "grad_norm": 2.177884340286255,
+      "learning_rate": 2.5135668579100817e-06,
+      "loss": 0.2296,
+      "step": 3940
+    },
+    {
+      "epoch": 171.7391304347826,
+      "grad_norm": 1.8351444005966187,
+      "learning_rate": 2.5135471800946947e-06,
+      "loss": 0.2501,
+      "step": 3950
+    },
+    {
+      "epoch": 172.17391304347825,
+      "grad_norm": 2.0342533588409424,
+      "learning_rate": 2.513527004213398e-06,
+      "loss": 0.2407,
+      "step": 3960
+    },
+    {
+      "epoch": 172.6086956521739,
+      "grad_norm": 2.0113251209259033,
+      "learning_rate": 2.5135063302741893e-06,
+      "loss": 0.234,
+      "step": 3970
+    },
+    {
+      "epoch": 173.04347826086956,
+      "grad_norm": 1.9626580476760864,
+      "learning_rate": 2.5134851582852637e-06,
+      "loss": 0.2137,
+      "step": 3980
+    },
+    {
+      "epoch": 173.47826086956522,
+      "grad_norm": 2.3283474445343018,
+      "learning_rate": 2.5134634882550122e-06,
+      "loss": 0.2388,
+      "step": 3990
+    },
+    {
+      "epoch": 173.91304347826087,
+      "grad_norm": 2.082240104675293,
+      "learning_rate": 2.5134413201920244e-06,
+      "loss": 0.2468,
+      "step": 4000
+    },
+    {
+      "epoch": 174.34782608695653,
+      "grad_norm": 2.389084815979004,
+      "learning_rate": 2.513418654105087e-06,
+      "loss": 0.2283,
+      "step": 4010
+    },
+    {
+      "epoch": 174.7826086956522,
+      "grad_norm": 2.385908365249634,
+      "learning_rate": 2.5133954900031847e-06,
+      "loss": 0.2295,
+      "step": 4020
+    },
+    {
+      "epoch": 175.2173913043478,
+      "grad_norm": 2.003931760787964,
+      "learning_rate": 2.513371827895498e-06,
+      "loss": 0.2329,
+      "step": 4030
+    },
+    {
+      "epoch": 175.65217391304347,
+      "grad_norm": 2.265186071395874,
+      "learning_rate": 2.5133476677914065e-06,
+      "loss": 0.2145,
+      "step": 4040
+    },
+    {
+      "epoch": 176.08695652173913,
+      "grad_norm": 1.8546191453933716,
+      "learning_rate": 2.5133230097004866e-06,
+      "loss": 0.2419,
+      "step": 4050
+    },
+    {
+      "epoch": 176.08695652173913,
+      "eval_loss": 0.9715728759765625,
+      "eval_runtime": 0.4124,
+      "eval_samples_per_second": 24.249,
+      "eval_steps_per_second": 24.249,
+      "step": 4050
+    },
+    {
+      "Start_State_loss": 0.861186683177948,
+      "Start_State_runtime": 0.4406,
+      "Start_State_samples_per_second": 22.694,
+      "Start_State_steps_per_second": 22.694,
+      "epoch": 176.08695652173913,
+      "step": 4050
+    },
+    {
+      "Raw_Model_loss": 0.9715728759765625,
+      "Raw_Model_runtime": 0.5139,
+      "Raw_Model_samples_per_second": 19.459,
+      "Raw_Model_steps_per_second": 19.459,
+      "epoch": 176.08695652173913,
+      "step": 4050
+    },
+    {
+      "SWA_loss": 0.800355076789856,
+      "SWA_runtime": 0.4756,
+      "SWA_samples_per_second": 21.028,
+      "SWA_steps_per_second": 21.028,
+      "epoch": 176.08695652173913,
+      "step": 4050
+    },
+    {
+      "EMA_loss": 0.8603526949882507,
+      "EMA_runtime": 0.4374,
+      "EMA_samples_per_second": 22.861,
+      "EMA_steps_per_second": 22.861,
+      "epoch": 176.08695652173913,
+      "step": 4050
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.0440404596622131e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null