Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4376c34886456cb2899c7f6beeadbdd0369c3eb2c8cb577a4c24d977132e673
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:5294f50c0baae12880a019af7aff602de0021ca7f152917dde18bdf22ba93937
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5822d4454f023f2e758e0371b888496dd2a0767e11534488d6f9c822d136956
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b7e62ea9f776c4c1909b99bd4b2be719e11c652940cf5f69aa1e349ee14b1fc
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41879b6be867dc93cfdfe9c095241e1809219ed8cb44d663d4b21de0f8b8f617
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:84ddf8abb9ec9ea656e462efff79374386d297b7f7fbb9fe2e12d28f7e1de152
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:040a1b5835b5527454d21946072fd417fbebea1df191d3f188daffdb17ff5507
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8b1ff2305e39132563133ecd5a3bc22eb8aea6f062c680ce8b5a9a3f47c0580
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 123.91304347826087,
   "eval_steps": 150,
-  "global_step": 2850,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2762,6 +2762,151 @@
       "EMA_steps_per_second": 19.037,
       "epoch": 123.91304347826087,
       "step": 2850
     }
   ],
   "logging_steps": 10,
@@ -2781,7 +2926,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.337359146420634e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 130.43478260869566,
   "eval_steps": 150,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 19.037,
       "epoch": 123.91304347826087,
       "step": 2850
+    },
+    {
+      "epoch": 124.34782608695652,
+      "grad_norm": 1.6300952434539795,
+      "learning_rate": 3.910072953123827e-06,
+      "loss": 0.2256,
+      "step": 2860
+    },
+    {
+      "epoch": 124.78260869565217,
+      "grad_norm": 1.5945820808410645,
+      "learning_rate": 3.910067916178865e-06,
+      "loss": 0.2304,
+      "step": 2870
+    },
+    {
+      "epoch": 125.21739130434783,
+      "grad_norm": 2.0118942260742188,
+      "learning_rate": 3.9100621043246675e-06,
+      "loss": 0.2693,
+      "step": 2880
+    },
+    {
+      "epoch": 125.65217391304348,
+      "grad_norm": 2.1449036598205566,
+      "learning_rate": 3.910055517563539e-06,
+      "loss": 0.2454,
+      "step": 2890
+    },
+    {
+      "epoch": 126.08695652173913,
+      "grad_norm": 2.3814568519592285,
+      "learning_rate": 3.9100481558980905e-06,
+      "loss": 0.2517,
+      "step": 2900
+    },
+    {
+      "epoch": 126.52173913043478,
+      "grad_norm": 1.680646300315857,
+      "learning_rate": 3.91004001933124e-06,
+      "loss": 0.2023,
+      "step": 2910
+    },
+    {
+      "epoch": 126.95652173913044,
+      "grad_norm": 1.567590355873108,
+      "learning_rate": 3.9100311078662124e-06,
+      "loss": 0.2903,
+      "step": 2920
+    },
+    {
+      "epoch": 127.3913043478261,
+      "grad_norm": 2.0478575229644775,
+      "learning_rate": 3.9100214215065405e-06,
+      "loss": 0.2554,
+      "step": 2930
+    },
+    {
+      "epoch": 127.82608695652173,
+      "grad_norm": 2.724403142929077,
+      "learning_rate": 3.910010960256062e-06,
+      "loss": 0.2195,
+      "step": 2940
+    },
+    {
+      "epoch": 128.2608695652174,
+      "grad_norm": 2.3156094551086426,
+      "learning_rate": 3.909999724118925e-06,
+      "loss": 0.2952,
+      "step": 2950
+    },
+    {
+      "epoch": 128.69565217391303,
+      "grad_norm": 1.6324609518051147,
+      "learning_rate": 3.909987713099583e-06,
+      "loss": 0.2409,
+      "step": 2960
+    },
+    {
+      "epoch": 129.1304347826087,
+      "grad_norm": 1.66539466381073,
+      "learning_rate": 3.909974927202796e-06,
+      "loss": 0.2029,
+      "step": 2970
+    },
+    {
+      "epoch": 129.56521739130434,
+      "grad_norm": 1.877989649772644,
+      "learning_rate": 3.909961366433632e-06,
+      "loss": 0.2407,
+      "step": 2980
+    },
+    {
+      "epoch": 130.0,
+      "grad_norm": 5.461711406707764,
+      "learning_rate": 3.909947030797467e-06,
+      "loss": 0.2466,
+      "step": 2990
+    },
+    {
+      "epoch": 130.43478260869566,
+      "grad_norm": 2.4120867252349854,
+      "learning_rate": 3.909931920299982e-06,
+      "loss": 0.2372,
+      "step": 3000
+    },
+    {
+      "epoch": 130.43478260869566,
+      "eval_loss": 0.9418841600418091,
+      "eval_runtime": 0.4153,
+      "eval_samples_per_second": 24.08,
+      "eval_steps_per_second": 24.08,
+      "step": 3000
+    },
+    {
+      "Start_State_loss": 0.861186683177948,
+      "Start_State_runtime": 0.4056,
+      "Start_State_samples_per_second": 24.655,
+      "Start_State_steps_per_second": 24.655,
+      "epoch": 130.43478260869566,
+      "step": 3000
+    },
+    {
+      "Raw_Model_loss": 0.9418841600418091,
+      "Raw_Model_runtime": 0.4028,
+      "Raw_Model_samples_per_second": 24.829,
+      "Raw_Model_steps_per_second": 24.829,
+      "epoch": 130.43478260869566,
+      "step": 3000
+    },
+    {
+      "SWA_loss": 0.7738855481147766,
+      "SWA_runtime": 0.4063,
+      "SWA_samples_per_second": 24.613,
+      "SWA_steps_per_second": 24.613,
+      "epoch": 130.43478260869566,
+      "step": 3000
+    },
+    {
+      "EMA_loss": 0.8603588938713074,
+      "EMA_runtime": 0.4125,
+      "EMA_samples_per_second": 24.244,
+      "EMA_steps_per_second": 24.244,
+      "epoch": 130.43478260869566,
+      "step": 3000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 7.725240940312166e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null