Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73320e76344a133855f71d58f5599b5bab5bec21149e32ab22ea8639c81b6efa
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:f80ba914040554f1d90e5449fb288b4da5b6e06b0d76aa98ce7dddde9700b42e
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df0f0d4523a1748c8d67b29c00bcdc95ba64d1d0d15e03f3aaf492af944d8a42
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b5a85cf2dc26270c152d94b20c59b9328d1c1900e3688d967f5caa95b453a21
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:790c395b0a5037d7be1e3d6aec472475bfb03f273b97c2103b3eaeeee641cbe6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:db84a3afeb4f95e4ac798b091171126770595698eb1a4e09a848baf2239c44e8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0301af88bd95ce6b3924705dcc39f92acccc19dd6a0525d5021e46ffe9ebde47
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fad51fab4121c7172f2200154af188e4ded1ceaffc87bf0a38752fa2cf99398
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 208.69565217391303,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4647,6 +4647,151 @@
       "EMA_steps_per_second": 21.511,
       "epoch": 208.69565217391303,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -4666,7 +4811,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2352177659543552e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 215.2173913043478,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 21.511,
       "epoch": 208.69565217391303,
       "step": 4800
+    },
+    {
+      "epoch": 209.1304347826087,
+      "grad_norm": 2.1667871475219727,
+      "learning_rate": 1.5295805741494488e-06,
+      "loss": 0.222,
+      "step": 4810
+    },
+    {
+      "epoch": 209.56521739130434,
+      "grad_norm": 1.5375043153762817,
+      "learning_rate": 1.5295649612312986e-06,
+      "loss": 0.2039,
+      "step": 4820
+    },
+    {
+      "epoch": 210.0,
+      "grad_norm": 4.258355617523193,
+      "learning_rate": 1.5295490452590467e-06,
+      "loss": 0.2327,
+      "step": 4830
+    },
+    {
+      "epoch": 210.43478260869566,
+      "grad_norm": 3.2269175052642822,
+      "learning_rate": 1.5295328262390007e-06,
+      "loss": 0.2222,
+      "step": 4840
+    },
+    {
+      "epoch": 210.8695652173913,
+      "grad_norm": 1.8290541172027588,
+      "learning_rate": 1.52951630417759e-06,
+      "loss": 0.2446,
+      "step": 4850
+    },
+    {
+      "epoch": 211.30434782608697,
+      "grad_norm": 1.5938493013381958,
+      "learning_rate": 1.529499479081363e-06,
+      "loss": 0.2348,
+      "step": 4860
+    },
+    {
+      "epoch": 211.7391304347826,
+      "grad_norm": 3.224069118499756,
+      "learning_rate": 1.529482350956989e-06,
+      "loss": 0.2,
+      "step": 4870
+    },
+    {
+      "epoch": 212.17391304347825,
+      "grad_norm": 1.7785706520080566,
+      "learning_rate": 1.5294649198112566e-06,
+      "loss": 0.2512,
+      "step": 4880
+    },
+    {
+      "epoch": 212.6086956521739,
+      "grad_norm": 1.4701004028320312,
+      "learning_rate": 1.5294471856510751e-06,
+      "loss": 0.2113,
+      "step": 4890
+    },
+    {
+      "epoch": 213.04347826086956,
+      "grad_norm": 1.8032009601593018,
+      "learning_rate": 1.5294291484834741e-06,
+      "loss": 0.2194,
+      "step": 4900
+    },
+    {
+      "epoch": 213.47826086956522,
+      "grad_norm": 1.9518096446990967,
+      "learning_rate": 1.5294108083156023e-06,
+      "loss": 0.2541,
+      "step": 4910
+    },
+    {
+      "epoch": 213.91304347826087,
+      "grad_norm": 1.6218771934509277,
+      "learning_rate": 1.5293921651547298e-06,
+      "loss": 0.2186,
+      "step": 4920
+    },
+    {
+      "epoch": 214.34782608695653,
+      "grad_norm": 2.399592399597168,
+      "learning_rate": 1.529373219008246e-06,
+      "loss": 0.2156,
+      "step": 4930
+    },
+    {
+      "epoch": 214.7826086956522,
+      "grad_norm": 1.714321494102478,
+      "learning_rate": 1.52935396988366e-06,
+      "loss": 0.2162,
+      "step": 4940
+    },
+    {
+      "epoch": 215.2173913043478,
+      "grad_norm": 2.624946355819702,
+      "learning_rate": 1.5293344177886024e-06,
+      "loss": 0.1922,
+      "step": 4950
+    },
+    {
+      "epoch": 215.2173913043478,
+      "eval_loss": 0.9804704785346985,
+      "eval_runtime": 0.404,
+      "eval_samples_per_second": 24.75,
+      "eval_steps_per_second": 24.75,
+      "step": 4950
+    },
+    {
+      "Start_State_loss": 0.8609819412231445,
+      "Start_State_runtime": 0.3989,
+      "Start_State_samples_per_second": 25.072,
+      "Start_State_steps_per_second": 25.072,
+      "epoch": 215.2173913043478,
+      "step": 4950
+    },
+    {
+      "Raw_Model_loss": 0.9804704785346985,
+      "Raw_Model_runtime": 0.402,
+      "Raw_Model_samples_per_second": 24.873,
+      "Raw_Model_steps_per_second": 24.873,
+      "epoch": 215.2173913043478,
+      "step": 4950
+    },
+    {
+      "SWA_loss": 0.8207080960273743,
+      "SWA_runtime": 0.3968,
+      "SWA_samples_per_second": 25.201,
+      "SWA_steps_per_second": 25.201,
+      "epoch": 215.2173913043478,
+      "step": 4950
+    },
+    {
+      "EMA_loss": 0.8598450422286987,
+      "EMA_runtime": 0.4316,
+      "EMA_samples_per_second": 23.17,
+      "EMA_steps_per_second": 23.17,
+      "epoch": 215.2173913043478,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.2725269073480909e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null