Training in progress, step 3150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5294f50c0baae12880a019af7aff602de0021ca7f152917dde18bdf22ba93937
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d63441ec3a969a74407420396fbf80d70a54603fc26523cf80a059be318bdc6
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b7e62ea9f776c4c1909b99bd4b2be719e11c652940cf5f69aa1e349ee14b1fc
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8341a25de57f92cfd4f595bd362441a1aa28e0e40a28c5233a174e404e93cb3
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84ddf8abb9ec9ea656e462efff79374386d297b7f7fbb9fe2e12d28f7e1de152
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1dc11cf7bbf295ee9c52e4bc96c7945f90dee5f465d4b3d8a5908a292cedccce
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8b1ff2305e39132563133ecd5a3bc22eb8aea6f062c680ce8b5a9a3f47c0580
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3561b109706461e913d6181bf1abc2a9b68bea4d15e3fa953484e4d068be280b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 130.43478260869566,
   "eval_steps": 150,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2907,6 +2907,151 @@
       "EMA_steps_per_second": 24.244,
       "epoch": 130.43478260869566,
       "step": 3000
     }
   ],
   "logging_steps": 10,
@@ -2926,7 +3071,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.725240940312166e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 136.95652173913044,
   "eval_steps": 150,
+  "global_step": 3150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 24.244,
       "epoch": 130.43478260869566,
       "step": 3000
+    },
+    {
+      "epoch": 130.8695652173913,
+      "grad_norm": 2.050870418548584,
+      "learning_rate": 3.9099160349471675e-06,
+      "loss": 0.23,
+      "step": 3010
+    },
+    {
+      "epoch": 131.30434782608697,
+      "grad_norm": 1.7972759008407593,
+      "learning_rate": 3.90989937474532e-06,
+      "loss": 0.2704,
+      "step": 3020
+    },
+    {
+      "epoch": 131.7391304347826,
+      "grad_norm": 1.958837628364563,
+      "learning_rate": 3.909881939701041e-06,
+      "loss": 0.2614,
+      "step": 3030
+    },
+    {
+      "epoch": 132.17391304347825,
+      "grad_norm": 1.825850486755371,
+      "learning_rate": 3.909863729821243e-06,
+      "loss": 0.2269,
+      "step": 3040
+    },
+    {
+      "epoch": 132.6086956521739,
+      "grad_norm": 2.1669623851776123,
+      "learning_rate": 3.9098447451131435e-06,
+      "loss": 0.2528,
+      "step": 3050
+    },
+    {
+      "epoch": 133.04347826086956,
+      "grad_norm": 2.685922622680664,
+      "learning_rate": 3.909824985584268e-06,
+      "loss": 0.215,
+      "step": 3060
+    },
+    {
+      "epoch": 133.47826086956522,
+      "grad_norm": 1.285071611404419,
+      "learning_rate": 3.9098044512424475e-06,
+      "loss": 0.2484,
+      "step": 3070
+    },
+    {
+      "epoch": 133.91304347826087,
+      "grad_norm": 2.4123470783233643,
+      "learning_rate": 3.909783142095821e-06,
+      "loss": 0.2733,
+      "step": 3080
+    },
+    {
+      "epoch": 134.34782608695653,
+      "grad_norm": 1.9801201820373535,
+      "learning_rate": 3.909761058152836e-06,
+      "loss": 0.2539,
+      "step": 3090
+    },
+    {
+      "epoch": 134.7826086956522,
+      "grad_norm": 1.934043049812317,
+      "learning_rate": 3.9097381994222444e-06,
+      "loss": 0.206,
+      "step": 3100
+    },
+    {
+      "epoch": 135.2173913043478,
+      "grad_norm": 2.4174482822418213,
+      "learning_rate": 3.9097145659131085e-06,
+      "loss": 0.244,
+      "step": 3110
+    },
+    {
+      "epoch": 135.65217391304347,
+      "grad_norm": 1.85491943359375,
+      "learning_rate": 3.909690157634794e-06,
+      "loss": 0.2852,
+      "step": 3120
+    },
+    {
+      "epoch": 136.08695652173913,
+      "grad_norm": 2.3516900539398193,
+      "learning_rate": 3.909664974596977e-06,
+      "loss": 0.2128,
+      "step": 3130
+    },
+    {
+      "epoch": 136.52173913043478,
+      "grad_norm": 2.355637788772583,
+      "learning_rate": 3.909639016809639e-06,
+      "loss": 0.2381,
+      "step": 3140
+    },
+    {
+      "epoch": 136.95652173913044,
+      "grad_norm": 2.8338263034820557,
+      "learning_rate": 3.909612284283068e-06,
+      "loss": 0.2338,
+      "step": 3150
+    },
+    {
+      "epoch": 136.95652173913044,
+      "eval_loss": 0.9423562288284302,
+      "eval_runtime": 0.4463,
+      "eval_samples_per_second": 22.407,
+      "eval_steps_per_second": 22.407,
+      "step": 3150
+    },
+    {
+      "Start_State_loss": 0.861186683177948,
+      "Start_State_runtime": 0.394,
+      "Start_State_samples_per_second": 25.38,
+      "Start_State_steps_per_second": 25.38,
+      "epoch": 136.95652173913044,
+      "step": 3150
+    },
+    {
+      "Raw_Model_loss": 0.9423562288284302,
+      "Raw_Model_runtime": 0.4021,
+      "Raw_Model_samples_per_second": 24.868,
+      "Raw_Model_steps_per_second": 24.868,
+      "epoch": 136.95652173913044,
+      "step": 3150
+    },
+    {
+      "SWA_loss": 0.7764584422111511,
+      "SWA_runtime": 0.4066,
+      "SWA_samples_per_second": 24.596,
+      "SWA_steps_per_second": 24.596,
+      "epoch": 136.95652173913044,
+      "step": 3150
+    },
+    {
+      "EMA_loss": 0.861250102519989,
+      "EMA_runtime": 0.391,
+      "EMA_samples_per_second": 25.577,
+      "EMA_steps_per_second": 25.577,
+      "epoch": 136.95652173913044,
+      "step": 3150
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.121206262826598e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null