Training in progress, step 116, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +215 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f665f4d8bec07fb34d9167a74519000ca1c07ab4c7bda4abe394ba88ac21e636
 size 48679352

 version https://git-lfs.github.com/spec/v1
+oid sha256:28a1ae218f1ff6eb872136adb7304db287346d66909b1eb743a4dd4fbcb2e6b7
 size 48679352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eebb42e267e22b0dcd069ba21ca540bf94385bb45036cf004d0ea00a0a68f6f1
 size 25152500

 version https://git-lfs.github.com/spec/v1
+oid sha256:850d4377277d6b716ba444a1d4bd4d3ee5948814c02b5d64a4cb5cd9d04f1b5c
 size 25152500

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e43153d8095dfe754b5facaefcfbc05a2190eef6bcf4b8e8d6a0d880bacca91f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a8ecfa01e7c54e7ebac11aad61255a493edc13101f10e4edddeff0bacdcd859
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:969c56c88a0cef1fee3d363c20e94622cc83295b65bf6f7189fcb71ab5f0d40d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5db974519fd77fbcd1d1516436fa53f7a6999ec0d08fdab2b48306286e57ccd6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.754880694143167,
   "eval_steps": 500,
-  "global_step": 87,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -616,6 +616,217 @@
       "learning_rate": 1.5917335155023367e-05,
       "loss": 1.1773,
       "step": 87
     }
   ],
   "logging_steps": 1,
@@ -630,12 +841,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.50460296445952e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0065075921908895,
   "eval_steps": 500,
+  "global_step": 116,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.5917335155023367e-05,
       "loss": 1.1773,
       "step": 87
+    },
+    {
+      "epoch": 0.7635574837310195,
+      "grad_norm": 0.32429060339927673,
+      "learning_rate": 1.4895706208868875e-05,
+      "loss": 1.2633,
+      "step": 88
+    },
+    {
+      "epoch": 0.7722342733188721,
+      "grad_norm": 0.31287485361099243,
+      "learning_rate": 1.3902195302273779e-05,
+      "loss": 1.3551,
+      "step": 89
+    },
+    {
+      "epoch": 0.7809110629067245,
+      "grad_norm": 0.33581656217575073,
+      "learning_rate": 1.2937598223330005e-05,
+      "loss": 1.3166,
+      "step": 90
+    },
+    {
+      "epoch": 0.789587852494577,
+      "grad_norm": 0.32596108317375183,
+      "learning_rate": 1.2002687600565137e-05,
+      "loss": 1.3277,
+      "step": 91
+    },
+    {
+      "epoch": 0.7982646420824295,
+      "grad_norm": 0.3356931507587433,
+      "learning_rate": 1.1098212284078036e-05,
+      "loss": 1.2979,
+      "step": 92
+    },
+    {
+      "epoch": 0.806941431670282,
+      "grad_norm": 0.3395873010158539,
+      "learning_rate": 1.0224896745720514e-05,
+      "loss": 1.2646,
+      "step": 93
+    },
+    {
+      "epoch": 0.8156182212581344,
+      "grad_norm": 0.3901115953922272,
+      "learning_rate": 9.383440498805712e-06,
+      "loss": 1.2756,
+      "step": 94
+    },
+    {
+      "epoch": 0.824295010845987,
+      "grad_norm": 0.4069584012031555,
+      "learning_rate": 8.574517537807897e-06,
+      "loss": 1.5386,
+      "step": 95
+    },
+    {
+      "epoch": 0.8329718004338394,
+      "grad_norm": 0.37969765067100525,
+      "learning_rate": 7.798775798502483e-06,
+      "loss": 1.3174,
+      "step": 96
+    },
+    {
+      "epoch": 0.841648590021692,
+      "grad_norm": 0.3992767930030823,
+      "learning_rate": 7.0568366389786975e-06,
+      "loss": 1.2494,
+      "step": 97
+    },
+    {
+      "epoch": 0.8503253796095445,
+      "grad_norm": 0.4310814142227173,
+      "learning_rate": 6.349294341940593e-06,
+      "loss": 1.2746,
+      "step": 98
+    },
+    {
+      "epoch": 0.8590021691973969,
+      "grad_norm": 0.4858376681804657,
+      "learning_rate": 5.676715638695063e-06,
+      "loss": 1.3332,
+      "step": 99
+    },
+    {
+      "epoch": 0.8676789587852495,
+      "grad_norm": 0.4930087924003601,
+      "learning_rate": 5.0396392552081564e-06,
+      "loss": 1.1824,
+      "step": 100
+    },
+    {
+      "epoch": 0.8763557483731019,
+      "grad_norm": 0.5185401439666748,
+      "learning_rate": 4.43857548059321e-06,
+      "loss": 1.4682,
+      "step": 101
+    },
+    {
+      "epoch": 0.8850325379609545,
+      "grad_norm": 0.5266461968421936,
+      "learning_rate": 3.87400575837657e-06,
+      "loss": 1.503,
+      "step": 102
+    },
+    {
+      "epoch": 0.8937093275488069,
+      "grad_norm": 0.5809972286224365,
+      "learning_rate": 3.346382300868134e-06,
+      "loss": 1.641,
+      "step": 103
+    },
+    {
+      "epoch": 0.9023861171366594,
+      "grad_norm": 0.6158227920532227,
+      "learning_rate": 2.85612772694579e-06,
+      "loss": 1.4546,
+      "step": 104
+    },
+    {
+      "epoch": 0.911062906724512,
+      "grad_norm": 0.6743486523628235,
+      "learning_rate": 2.403634723543674e-06,
+      "loss": 1.6859,
+      "step": 105
+    },
+    {
+      "epoch": 0.9197396963123644,
+      "grad_norm": 0.7346360683441162,
+      "learning_rate": 1.9892657311155248e-06,
+      "loss": 1.1147,
+      "step": 106
+    },
+    {
+      "epoch": 0.928416485900217,
+      "grad_norm": 0.7887254357337952,
+      "learning_rate": 1.6133526533250565e-06,
+      "loss": 1.6007,
+      "step": 107
+    },
+    {
+      "epoch": 0.9370932754880694,
+      "grad_norm": 0.9641562700271606,
+      "learning_rate": 1.2761965911958384e-06,
+      "loss": 1.6112,
+      "step": 108
+    },
+    {
+      "epoch": 0.9457700650759219,
+      "grad_norm": 0.9735156893730164,
+      "learning_rate": 9.780676019336631e-07,
+      "loss": 1.7186,
+      "step": 109
+    },
+    {
+      "epoch": 0.9544468546637744,
+      "grad_norm": 1.1226974725723267,
+      "learning_rate": 7.192044826145771e-07,
+      "loss": 1.5448,
+      "step": 110
+    },
+    {
+      "epoch": 0.9631236442516269,
+      "grad_norm": 1.3849451541900635,
+      "learning_rate": 4.998145789118114e-07,
+      "loss": 1.4752,
+      "step": 111
+    },
+    {
+      "epoch": 0.9718004338394793,
+      "grad_norm": 2.066307783126831,
+      "learning_rate": 3.2007361901485455e-07,
+      "loss": 1.7514,
+      "step": 112
+    },
+    {
+      "epoch": 0.9804772234273319,
+      "grad_norm": 0.38120055198669434,
+      "learning_rate": 1.8012557287367392e-07,
+      "loss": 1.3631,
+      "step": 113
+    },
+    {
+      "epoch": 0.9891540130151844,
+      "grad_norm": 0.4110223650932312,
+      "learning_rate": 8.008253688084889e-08,
+      "loss": 1.2402,
+      "step": 114
+    },
+    {
+      "epoch": 0.9978308026030369,
+      "grad_norm": 0.6343638896942139,
+      "learning_rate": 2.0024644083921352e-08,
+      "loss": 1.4255,
+      "step": 115
+    },
+    {
+      "epoch": 0.9978308026030369,
+      "eval_loss": 1.3990576267242432,
+      "eval_runtime": 3.4704,
+      "eval_samples_per_second": 27.951,
+      "eval_steps_per_second": 7.204,
+      "step": 115
+    },
+    {
+      "epoch": 1.0065075921908895,
+      "grad_norm": 2.7238411903381348,
+      "learning_rate": 0.0,
+      "loss": 1.7311,
+      "step": 116
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.329034773594112e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null