Training in progress, step 3300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d63441ec3a969a74407420396fbf80d70a54603fc26523cf80a059be318bdc6
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:561dd93e7200e620b3a628a98f78b77e49214dc77820bd53e01765ece4e79aaf
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8341a25de57f92cfd4f595bd362441a1aa28e0e40a28c5233a174e404e93cb3
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2fbfde6e57429b12b8a8888f9861f253842d30f7969950972c18e96feefbcc7
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1dc11cf7bbf295ee9c52e4bc96c7945f90dee5f465d4b3d8a5908a292cedccce
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c26e3773f4be8664a2594f025c73a5f9434f857a45f46fc072657f1fdefb7000
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3561b109706461e913d6181bf1abc2a9b68bea4d15e3fa953484e4d068be280b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a0ab9d5b0198a16acdaf1c9f1e4c57811cdaac3c11a1070ce9660ad9c246b9d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 136.95652173913044,
   "eval_steps": 150,
-  "global_step": 3150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3052,6 +3052,151 @@
       "EMA_steps_per_second": 25.577,
       "epoch": 136.95652173913044,
       "step": 3150
     }
   ],
   "logging_steps": 10,
@@ -3071,7 +3216,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.121206262826598e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 143.47826086956522,
   "eval_steps": 150,
+  "global_step": 3300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 25.577,
       "epoch": 136.95652173913044,
       "step": 3150
+    },
+    {
+      "epoch": 137.3913043478261,
+      "grad_norm": 1.8168175220489502,
+      "learning_rate": 3.90958477702786e-06,
+      "loss": 0.2772,
+      "step": 3160
+    },
+    {
+      "epoch": 137.82608695652175,
+      "grad_norm": 1.9455727338790894,
+      "learning_rate": 3.909556495054918e-06,
+      "loss": 0.235,
+      "step": 3170
+    },
+    {
+      "epoch": 138.2608695652174,
+      "grad_norm": 1.652616024017334,
+      "learning_rate": 3.9095274383754535e-06,
+      "loss": 0.2271,
+      "step": 3180
+    },
+    {
+      "epoch": 138.69565217391303,
+      "grad_norm": 2.0651702880859375,
+      "learning_rate": 3.9094976070009825e-06,
+      "loss": 0.275,
+      "step": 3190
+    },
+    {
+      "epoch": 139.1304347826087,
+      "grad_norm": 1.3532943725585938,
+      "learning_rate": 3.90946700094333e-06,
+      "loss": 0.2252,
+      "step": 3200
+    },
+    {
+      "epoch": 139.56521739130434,
+      "grad_norm": 1.9652019739151,
+      "learning_rate": 3.909435620214626e-06,
+      "loss": 0.2701,
+      "step": 3210
+    },
+    {
+      "epoch": 140.0,
+      "grad_norm": 2.921708106994629,
+      "learning_rate": 3.909403464827308e-06,
+      "loss": 0.2301,
+      "step": 3220
+    },
+    {
+      "epoch": 140.43478260869566,
+      "grad_norm": 2.249617576599121,
+      "learning_rate": 3.909370534794125e-06,
+      "loss": 0.2311,
+      "step": 3230
+    },
+    {
+      "epoch": 140.8695652173913,
+      "grad_norm": 1.7195583581924438,
+      "learning_rate": 3.9093368301281256e-06,
+      "loss": 0.238,
+      "step": 3240
+    },
+    {
+      "epoch": 141.30434782608697,
+      "grad_norm": 1.9796561002731323,
+      "learning_rate": 3.909302350842671e-06,
+      "loss": 0.2368,
+      "step": 3250
+    },
+    {
+      "epoch": 141.7391304347826,
+      "grad_norm": 2.028313636779785,
+      "learning_rate": 3.909267096951428e-06,
+      "loss": 0.2492,
+      "step": 3260
+    },
+    {
+      "epoch": 142.17391304347825,
+      "grad_norm": 1.7353265285491943,
+      "learning_rate": 3.90923106846837e-06,
+      "loss": 0.2578,
+      "step": 3270
+    },
+    {
+      "epoch": 142.6086956521739,
+      "grad_norm": 2.5716023445129395,
+      "learning_rate": 3.9091942654077765e-06,
+      "loss": 0.2606,
+      "step": 3280
+    },
+    {
+      "epoch": 143.04347826086956,
+      "grad_norm": 1.2427494525909424,
+      "learning_rate": 3.9091566877842355e-06,
+      "loss": 0.2151,
+      "step": 3290
+    },
+    {
+      "epoch": 143.47826086956522,
+      "grad_norm": 1.797579288482666,
+      "learning_rate": 3.9091183356126425e-06,
+      "loss": 0.2476,
+      "step": 3300
+    },
+    {
+      "epoch": 143.47826086956522,
+      "eval_loss": 0.9522649049758911,
+      "eval_runtime": 0.4144,
+      "eval_samples_per_second": 24.129,
+      "eval_steps_per_second": 24.129,
+      "step": 3300
+    },
+    {
+      "Start_State_loss": 0.861186683177948,
+      "Start_State_runtime": 0.4101,
+      "Start_State_samples_per_second": 24.382,
+      "Start_State_steps_per_second": 24.382,
+      "epoch": 143.47826086956522,
+      "step": 3300
+    },
+    {
+      "Raw_Model_loss": 0.9522649049758911,
+      "Raw_Model_runtime": 0.4058,
+      "Raw_Model_samples_per_second": 24.644,
+      "Raw_Model_steps_per_second": 24.644,
+      "epoch": 143.47826086956522,
+      "step": 3300
+    },
+    {
+      "SWA_loss": 0.7822953462600708,
+      "SWA_runtime": 0.4238,
+      "SWA_samples_per_second": 23.595,
+      "SWA_steps_per_second": 23.595,
+      "epoch": 143.47826086956522,
+      "step": 3300
+    },
+    {
+      "EMA_loss": 0.8601328134536743,
+      "EMA_runtime": 0.4018,
+      "EMA_samples_per_second": 24.887,
+      "EMA_steps_per_second": 24.887,
+      "epoch": 143.47826086956522,
+      "step": 3300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.51203574828974e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null