Training in progress, step 3300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6140a82871947a5053ea753f4b4e7478652f03aaa4f2bffc3efce40f5b8a2acf
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:32f20e5a113f0ce12c0b08ff61de538680ca692bc68665ee0332272cc0d8f53c
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e34c33547a03894cfd3b0e074d18c7955c94b3793b595b0fb33caf001f9e934
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:080d08b596e97f811e550148cdd9224bf440ad30a23acba52af3d08c0021f9aa
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1dc11cf7bbf295ee9c52e4bc96c7945f90dee5f465d4b3d8a5908a292cedccce
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c26e3773f4be8664a2594f025c73a5f9434f857a45f46fc072657f1fdefb7000
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddcc6f5bcca0b4700eaf14cba204c25dc453658df367f27efd599da5c59cda0d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:070547fc77391e346b90917e21c08178811df2dccd6cf65dcc04961ee24e1903
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 136.95652173913044,
   "eval_steps": 150,
-  "global_step": 3150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3052,6 +3052,151 @@
       "EMA_steps_per_second": 25.899,
       "epoch": 136.95652173913044,
       "step": 3150
     }
   ],
   "logging_steps": 10,
@@ -3071,7 +3216,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.121206262826598e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 143.47826086956522,
   "eval_steps": 150,
+  "global_step": 3300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 25.899,
       "epoch": 136.95652173913044,
       "step": 3150
+    },
+    {
+      "epoch": 137.3913043478261,
+      "grad_norm": 1.7837154865264893,
+      "learning_rate": 3.938808916216111e-06,
+      "loss": 0.2769,
+      "step": 3160
+    },
+    {
+      "epoch": 137.82608695652175,
+      "grad_norm": 1.8921836614608765,
+      "learning_rate": 3.938780422835473e-06,
+      "loss": 0.2349,
+      "step": 3170
+    },
+    {
+      "epoch": 138.2608695652174,
+      "grad_norm": 1.6770527362823486,
+      "learning_rate": 3.9387511489573816e-06,
+      "loss": 0.2269,
+      "step": 3180
+    },
+    {
+      "epoch": 138.69565217391303,
+      "grad_norm": 2.0695013999938965,
+      "learning_rate": 3.9387210945934395e-06,
+      "loss": 0.2747,
+      "step": 3190
+    },
+    {
+      "epoch": 139.1304347826087,
+      "grad_norm": 1.3567662239074707,
+      "learning_rate": 3.938690259755561e-06,
+      "loss": 0.2254,
+      "step": 3200
+    },
+    {
+      "epoch": 139.56521739130434,
+      "grad_norm": 1.9828763008117676,
+      "learning_rate": 3.938658644455966e-06,
+      "loss": 0.2696,
+      "step": 3210
+    },
+    {
+      "epoch": 140.0,
+      "grad_norm": 2.950700283050537,
+      "learning_rate": 3.938626248707186e-06,
+      "loss": 0.23,
+      "step": 3220
+    },
+    {
+      "epoch": 140.43478260869566,
+      "grad_norm": 2.2718775272369385,
+      "learning_rate": 3.938593072522064e-06,
+      "loss": 0.2313,
+      "step": 3230
+    },
+    {
+      "epoch": 140.8695652173913,
+      "grad_norm": 1.705852746963501,
+      "learning_rate": 3.938559115913747e-06,
+      "loss": 0.2377,
+      "step": 3240
+    },
+    {
+      "epoch": 141.30434782608697,
+      "grad_norm": 1.9781115055084229,
+      "learning_rate": 3.938524378895696e-06,
+      "loss": 0.2365,
+      "step": 3250
+    },
+    {
+      "epoch": 141.7391304347826,
+      "grad_norm": 1.9883968830108643,
+      "learning_rate": 3.938488861481679e-06,
+      "loss": 0.249,
+      "step": 3260
+    },
+    {
+      "epoch": 142.17391304347825,
+      "grad_norm": 1.706252098083496,
+      "learning_rate": 3.9384525636857744e-06,
+      "loss": 0.2577,
+      "step": 3270
+    },
+    {
+      "epoch": 142.6086956521739,
+      "grad_norm": 2.533005952835083,
+      "learning_rate": 3.938415485522369e-06,
+      "loss": 0.2606,
+      "step": 3280
+    },
+    {
+      "epoch": 143.04347826086956,
+      "grad_norm": 1.2762919664382935,
+      "learning_rate": 3.93837762700616e-06,
+      "loss": 0.2149,
+      "step": 3290
+    },
+    {
+      "epoch": 143.47826086956522,
+      "grad_norm": 1.8011665344238281,
+      "learning_rate": 3.938338988152153e-06,
+      "loss": 0.2475,
+      "step": 3300
+    },
+    {
+      "epoch": 143.47826086956522,
+      "eval_loss": 0.9505108594894409,
+      "eval_runtime": 0.4,
+      "eval_samples_per_second": 25.0,
+      "eval_steps_per_second": 25.0,
+      "step": 3300
+    },
+    {
+      "Start_State_loss": 0.8609819412231445,
+      "Start_State_runtime": 0.4096,
+      "Start_State_samples_per_second": 24.414,
+      "Start_State_steps_per_second": 24.414,
+      "epoch": 143.47826086956522,
+      "step": 3300
+    },
+    {
+      "Raw_Model_loss": 0.9505108594894409,
+      "Raw_Model_runtime": 0.3921,
+      "Raw_Model_samples_per_second": 25.502,
+      "Raw_Model_steps_per_second": 25.502,
+      "epoch": 143.47826086956522,
+      "step": 3300
+    },
+    {
+      "SWA_loss": 0.7819399833679199,
+      "SWA_runtime": 0.3956,
+      "SWA_samples_per_second": 25.275,
+      "SWA_steps_per_second": 25.275,
+      "epoch": 143.47826086956522,
+      "step": 3300
+    },
+    {
+      "EMA_loss": 0.859829306602478,
+      "EMA_runtime": 0.3871,
+      "EMA_samples_per_second": 25.834,
+      "EMA_steps_per_second": 25.834,
+      "epoch": 143.47826086956522,
+      "step": 3300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.51203574828974e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null