Training in progress, step 208, checkpoint

Browse files

Files changed (3) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/trainer_state.json +243 -3

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2a90a3fb8be7c015f5d69d981f401deb0a1c7090ca756c441db00cf9f12ce9f
 size 4969539560

 version https://git-lfs.github.com/spec/v1
+oid sha256:50a7626c3332382c720b25d7028428e6e693206a85b1d278123f350e6447c549
 size 4969539560

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a58a8899b511d48c4f12a03907873a2e2af75be92f7e47ba879a77cc9687488
 size 1912795688

 version https://git-lfs.github.com/spec/v1
+oid sha256:674ac2c674747082527a37e7013363c3374ff004d5b78edf91c3585792370cd4
 size 1912795688

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 44.0,
   "eval_steps": 16,
-  "global_step": 176,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1328,6 +1328,246 @@
       "eval_samples_per_second": 16.828,
       "eval_steps_per_second": 16.828,
       "step": 176
     }
   ],
   "logging_steps": 1,
@@ -1347,7 +1587,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.902744584388608e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 52.0,
   "eval_steps": 16,
+  "global_step": 208,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.828,
       "eval_steps_per_second": 16.828,
       "step": 176
+    },
+    {
+      "epoch": 44.29090909090909,
+      "grad_norm": 6.314858436584473,
+      "learning_rate": 7.185729670371604e-08,
+      "loss": 0.7001,
+      "step": 177
+    },
+    {
+      "epoch": 44.58181818181818,
+      "grad_norm": 6.364148139953613,
+      "learning_rate": 7.149255520259337e-08,
+      "loss": 0.786,
+      "step": 178
+    },
+    {
+      "epoch": 44.872727272727275,
+      "grad_norm": 5.679451942443848,
+      "learning_rate": 7.11265577295385e-08,
+      "loss": 0.6767,
+      "step": 179
+    },
+    {
+      "epoch": 45.0,
+      "grad_norm": 6.4454216957092285,
+      "learning_rate": 7.075933215667603e-08,
+      "loss": 0.7351,
+      "step": 180
+    },
+    {
+      "epoch": 45.29090909090909,
+      "grad_norm": 5.991427421569824,
+      "learning_rate": 7.039090644965509e-08,
+      "loss": 0.7047,
+      "step": 181
+    },
+    {
+      "epoch": 45.58181818181818,
+      "grad_norm": 5.386115550994873,
+      "learning_rate": 7.002130866551968e-08,
+      "loss": 0.7113,
+      "step": 182
+    },
+    {
+      "epoch": 45.872727272727275,
+      "grad_norm": 6.815364360809326,
+      "learning_rate": 6.965056695057204e-08,
+      "loss": 0.7255,
+      "step": 183
+    },
+    {
+      "epoch": 46.0,
+      "grad_norm": 6.38714599609375,
+      "learning_rate": 6.927870953822915e-08,
+      "loss": 0.7503,
+      "step": 184
+    },
+    {
+      "epoch": 46.29090909090909,
+      "grad_norm": 5.759856224060059,
+      "learning_rate": 6.890576474687262e-08,
+      "loss": 0.7008,
+      "step": 185
+    },
+    {
+      "epoch": 46.58181818181818,
+      "grad_norm": 5.1396918296813965,
+      "learning_rate": 6.853176097769228e-08,
+      "loss": 0.6925,
+      "step": 186
+    },
+    {
+      "epoch": 46.872727272727275,
+      "grad_norm": 5.9070539474487305,
+      "learning_rate": 6.815672671252315e-08,
+      "loss": 0.7409,
+      "step": 187
+    },
+    {
+      "epoch": 47.0,
+      "grad_norm": 5.90541410446167,
+      "learning_rate": 6.778069051167653e-08,
+      "loss": 0.702,
+      "step": 188
+    },
+    {
+      "epoch": 47.29090909090909,
+      "grad_norm": 5.474076747894287,
+      "learning_rate": 6.740368101176495e-08,
+      "loss": 0.7085,
+      "step": 189
+    },
+    {
+      "epoch": 47.58181818181818,
+      "grad_norm": 5.111520767211914,
+      "learning_rate": 6.702572692352155e-08,
+      "loss": 0.685,
+      "step": 190
+    },
+    {
+      "epoch": 47.872727272727275,
+      "grad_norm": 5.618140697479248,
+      "learning_rate": 6.664685702961344e-08,
+      "loss": 0.7551,
+      "step": 191
+    },
+    {
+      "epoch": 48.0,
+      "grad_norm": 4.961245059967041,
+      "learning_rate": 6.626710018244986e-08,
+      "loss": 0.6327,
+      "step": 192
+    },
+    {
+      "epoch": 48.0,
+      "eval_loss": 0.6752312183380127,
+      "eval_runtime": 0.7832,
+      "eval_samples_per_second": 16.599,
+      "eval_steps_per_second": 16.599,
+      "step": 192
+    },
+    {
+      "epoch": 48.29090909090909,
+      "grad_norm": 5.36975622177124,
+      "learning_rate": 6.588648530198504e-08,
+      "loss": 0.7312,
+      "step": 193
+    },
+    {
+      "epoch": 48.58181818181818,
+      "grad_norm": 5.021007061004639,
+      "learning_rate": 6.550504137351574e-08,
+      "loss": 0.7467,
+      "step": 194
+    },
+    {
+      "epoch": 48.872727272727275,
+      "grad_norm": 4.721583843231201,
+      "learning_rate": 6.512279744547392e-08,
+      "loss": 0.6271,
+      "step": 195
+    },
+    {
+      "epoch": 49.0,
+      "grad_norm": 5.531439304351807,
+      "learning_rate": 6.473978262721462e-08,
+      "loss": 0.7127,
+      "step": 196
+    },
+    {
+      "epoch": 49.29090909090909,
+      "grad_norm": 5.3525309562683105,
+      "learning_rate": 6.435602608679917e-08,
+      "loss": 0.7255,
+      "step": 197
+    },
+    {
+      "epoch": 49.58181818181818,
+      "grad_norm": 4.411137104034424,
+      "learning_rate": 6.397155704877387e-08,
+      "loss": 0.6177,
+      "step": 198
+    },
+    {
+      "epoch": 49.872727272727275,
+      "grad_norm": 4.907252788543701,
+      "learning_rate": 6.358640479194451e-08,
+      "loss": 0.7295,
+      "step": 199
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 4.626101493835449,
+      "learning_rate": 6.320059864714664e-08,
+      "loss": 0.7091,
+      "step": 200
+    },
+    {
+      "epoch": 50.29090909090909,
+      "grad_norm": 4.853626728057861,
+      "learning_rate": 6.281416799501187e-08,
+      "loss": 0.7432,
+      "step": 201
+    },
+    {
+      "epoch": 50.58181818181818,
+      "grad_norm": 4.439899921417236,
+      "learning_rate": 6.242714226373049e-08,
+      "loss": 0.676,
+      "step": 202
+    },
+    {
+      "epoch": 50.872727272727275,
+      "grad_norm": 4.5280985832214355,
+      "learning_rate": 6.203955092681039e-08,
+      "loss": 0.7086,
+      "step": 203
+    },
+    {
+      "epoch": 51.0,
+      "grad_norm": 4.414018154144287,
+      "learning_rate": 6.165142350083249e-08,
+      "loss": 0.5264,
+      "step": 204
+    },
+    {
+      "epoch": 51.29090909090909,
+      "grad_norm": 4.17572021484375,
+      "learning_rate": 6.126278954320294e-08,
+      "loss": 0.7346,
+      "step": 205
+    },
+    {
+      "epoch": 51.58181818181818,
+      "grad_norm": 4.015255928039551,
+      "learning_rate": 6.087367864990232e-08,
+      "loss": 0.6239,
+      "step": 206
+    },
+    {
+      "epoch": 51.872727272727275,
+      "grad_norm": 4.698182582855225,
+      "learning_rate": 6.048412045323163e-08,
+      "loss": 0.688,
+      "step": 207
+    },
+    {
+      "epoch": 52.0,
+      "grad_norm": 5.5075297355651855,
+      "learning_rate": 6.00941446195558e-08,
+      "loss": 0.6903,
+      "step": 208
+    },
+    {
+      "epoch": 52.0,
+      "eval_loss": 0.6604220271110535,
+      "eval_runtime": 0.6915,
+      "eval_samples_per_second": 18.8,
+      "eval_steps_per_second": 18.8,
+      "step": 208
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.975970872459264e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null