Training in progress, step 4050, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:460e8e8695016d7fb3fe1981d689ac748c31bfbaa2f5af7cb550b10ae4a2bdf6
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c703da2264e055a297790ac7d288cc98953e35f33bdc95a5685265382fb890e
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f6dd162a8f76ef782100cbd4cc1329e64448d85f627b9bf81ba66e937483b4c
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:3222e360dfa7b35a1163b70615c3f1dede1049c9c6a85199690290550db33722
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:488cbcf14a0f8a4794af20845693e7c92cc4e0193e27f71cfb8b870a8f1fae2d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:12c3bba0118a53d6f1dc342017f2ea922f8815570aacf4ca8fc91241ca3c4a16
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e87b12dd89c08406ca001c2f9dadca3ff34969fd8915b971b04b981fc47351e8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:63e5c116adbf0f8029c8a52c2390c4234cb418c18a9d2241c9b1d212add8b091
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 169.56521739130434,
   "eval_steps": 150,
-  "global_step": 3900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3777,6 +3777,151 @@
       "EMA_steps_per_second": 25.739,
       "epoch": 169.56521739130434,
       "step": 3900
     }
   ],
   "logging_steps": 10,
@@ -3796,7 +3941,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0061040993472512e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 176.08695652173913,
   "eval_steps": 150,
+  "global_step": 4050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 25.739,
       "epoch": 169.56521739130434,
       "step": 3900
+    },
+    {
+      "epoch": 170.0,
+      "grad_norm": 3.183704137802124,
+      "learning_rate": 2.5257092444735684e-06,
+      "loss": 0.2311,
+      "step": 3910
+    },
+    {
+      "epoch": 170.43478260869566,
+      "grad_norm": 1.870707392692566,
+      "learning_rate": 2.5256909734692075e-06,
+      "loss": 0.2348,
+      "step": 3920
+    },
+    {
+      "epoch": 170.8695652173913,
+      "grad_norm": 2.794963836669922,
+      "learning_rate": 2.5256722019811535e-06,
+      "loss": 0.2342,
+      "step": 3930
+    },
+    {
+      "epoch": 171.30434782608697,
+      "grad_norm": 2.1583147048950195,
+      "learning_rate": 2.525652930016847e-06,
+      "loss": 0.2293,
+      "step": 3940
+    },
+    {
+      "epoch": 171.7391304347826,
+      "grad_norm": 1.784059762954712,
+      "learning_rate": 2.525633157583926e-06,
+      "loss": 0.2504,
+      "step": 3950
+    },
+    {
+      "epoch": 172.17391304347825,
+      "grad_norm": 2.0553624629974365,
+      "learning_rate": 2.5256128846902287e-06,
+      "loss": 0.2408,
+      "step": 3960
+    },
+    {
+      "epoch": 172.6086956521739,
+      "grad_norm": 2.012216567993164,
+      "learning_rate": 2.5255921113437894e-06,
+      "loss": 0.2336,
+      "step": 3970
+    },
+    {
+      "epoch": 173.04347826086956,
+      "grad_norm": 1.940037727355957,
+      "learning_rate": 2.5255708375528436e-06,
+      "loss": 0.2135,
+      "step": 3980
+    },
+    {
+      "epoch": 173.47826086956522,
+      "grad_norm": 2.3687658309936523,
+      "learning_rate": 2.525549063325822e-06,
+      "loss": 0.2385,
+      "step": 3990
+    },
+    {
+      "epoch": 173.91304347826087,
+      "grad_norm": 2.059690237045288,
+      "learning_rate": 2.5255267886713553e-06,
+      "loss": 0.2467,
+      "step": 4000
+    },
+    {
+      "epoch": 174.34782608695653,
+      "grad_norm": 2.3199281692504883,
+      "learning_rate": 2.5255040135982736e-06,
+      "loss": 0.228,
+      "step": 4010
+    },
+    {
+      "epoch": 174.7826086956522,
+      "grad_norm": 2.3488564491271973,
+      "learning_rate": 2.5254807381156035e-06,
+      "loss": 0.2294,
+      "step": 4020
+    },
+    {
+      "epoch": 175.2173913043478,
+      "grad_norm": 1.9849615097045898,
+      "learning_rate": 2.5254569622325704e-06,
+      "loss": 0.2328,
+      "step": 4030
+    },
+    {
+      "epoch": 175.65217391304347,
+      "grad_norm": 2.2598798274993896,
+      "learning_rate": 2.525432685958599e-06,
+      "loss": 0.2147,
+      "step": 4040
+    },
+    {
+      "epoch": 176.08695652173913,
+      "grad_norm": 1.856614351272583,
+      "learning_rate": 2.5254079093033117e-06,
+      "loss": 0.2414,
+      "step": 4050
+    },
+    {
+      "epoch": 176.08695652173913,
+      "eval_loss": 0.9707199335098267,
+      "eval_runtime": 0.472,
+      "eval_samples_per_second": 21.186,
+      "eval_steps_per_second": 21.186,
+      "step": 4050
+    },
+    {
+      "Start_State_loss": 0.8609819412231445,
+      "Start_State_runtime": 0.4561,
+      "Start_State_samples_per_second": 21.924,
+      "Start_State_steps_per_second": 21.924,
+      "epoch": 176.08695652173913,
+      "step": 4050
+    },
+    {
+      "Raw_Model_loss": 0.9707199335098267,
+      "Raw_Model_runtime": 0.3939,
+      "Raw_Model_samples_per_second": 25.385,
+      "Raw_Model_steps_per_second": 25.385,
+      "epoch": 176.08695652173913,
+      "step": 4050
+    },
+    {
+      "SWA_loss": 0.8006541132926941,
+      "SWA_runtime": 0.3999,
+      "SWA_samples_per_second": 25.007,
+      "SWA_steps_per_second": 25.007,
+      "epoch": 176.08695652173913,
+      "step": 4050
+    },
+    {
+      "EMA_loss": 0.8589029312133789,
+      "EMA_runtime": 0.3915,
+      "EMA_samples_per_second": 25.545,
+      "EMA_steps_per_second": 25.545,
+      "epoch": 176.08695652173913,
+      "step": 4050
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.0440404596622131e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null