Training in progress, step 224, checkpoint

Browse files

Files changed (3) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/trainer_state.json +123 -3

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50a7626c3332382c720b25d7028428e6e693206a85b1d278123f350e6447c549
 size 4969539560

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f766264a80af3c2e0386eedf3905edbf56634837a038ce95c6038d7405eedfe
 size 4969539560

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:674ac2c674747082527a37e7013363c3374ff004d5b78edf91c3585792370cd4
 size 1912795688

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6e24e7e534a14d518b12200bfaba3ba2cedbbafce9b0fbda9c2aca6057ce604
 size 1912795688

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 52.0,
   "eval_steps": 16,
-  "global_step": 208,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1568,6 +1568,126 @@
       "eval_samples_per_second": 18.8,
       "eval_steps_per_second": 18.8,
       "step": 208
     }
   ],
   "logging_steps": 1,
@@ -1587,7 +1707,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.975970872459264e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 56.0,
   "eval_steps": 16,
+  "global_step": 224,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 18.8,
       "eval_steps_per_second": 18.8,
       "step": 208
+    },
+    {
+      "epoch": 52.29090909090909,
+      "grad_norm": 3.8842809200286865,
+      "learning_rate": 5.970378084704441e-08,
+      "loss": 0.6428,
+      "step": 209
+    },
+    {
+      "epoch": 52.58181818181818,
+      "grad_norm": 4.9067301750183105,
+      "learning_rate": 5.931305886341008e-08,
+      "loss": 0.7572,
+      "step": 210
+    },
+    {
+      "epoch": 52.872727272727275,
+      "grad_norm": 4.025907516479492,
+      "learning_rate": 5.892200842364462e-08,
+      "loss": 0.6545,
+      "step": 211
+    },
+    {
+      "epoch": 53.0,
+      "grad_norm": 4.105547904968262,
+      "learning_rate": 5.853065930775303e-08,
+      "loss": 0.6439,
+      "step": 212
+    },
+    {
+      "epoch": 53.29090909090909,
+      "grad_norm": 3.7520296573638916,
+      "learning_rate": 5.813904131848564e-08,
+      "loss": 0.677,
+      "step": 213
+    },
+    {
+      "epoch": 53.58181818181818,
+      "grad_norm": 3.975045680999756,
+      "learning_rate": 5.7747184279068564e-08,
+      "loss": 0.6321,
+      "step": 214
+    },
+    {
+      "epoch": 53.872727272727275,
+      "grad_norm": 4.536473274230957,
+      "learning_rate": 5.735511803093248e-08,
+      "loss": 0.7326,
+      "step": 215
+    },
+    {
+      "epoch": 54.0,
+      "grad_norm": 5.148712158203125,
+      "learning_rate": 5.696287243144012e-08,
+      "loss": 0.6819,
+      "step": 216
+    },
+    {
+      "epoch": 54.29090909090909,
+      "grad_norm": 3.6721999645233154,
+      "learning_rate": 5.6570477351612554e-08,
+      "loss": 0.6655,
+      "step": 217
+    },
+    {
+      "epoch": 54.58181818181818,
+      "grad_norm": 4.29323148727417,
+      "learning_rate": 5.61779626738543e-08,
+      "loss": 0.6743,
+      "step": 218
+    },
+    {
+      "epoch": 54.872727272727275,
+      "grad_norm": 4.018572807312012,
+      "learning_rate": 5.5785358289677765e-08,
+      "loss": 0.711,
+      "step": 219
+    },
+    {
+      "epoch": 55.0,
+      "grad_norm": 4.6550445556640625,
+      "learning_rate": 5.539269409742683e-08,
+      "loss": 0.6398,
+      "step": 220
+    },
+    {
+      "epoch": 55.29090909090909,
+      "grad_norm": 4.599621295928955,
+      "learning_rate": 5.5e-08,
+      "loss": 0.6885,
+      "step": 221
+    },
+    {
+      "epoch": 55.58181818181818,
+      "grad_norm": 3.6876866817474365,
+      "learning_rate": 5.460730590257318e-08,
+      "loss": 0.6391,
+      "step": 222
+    },
+    {
+      "epoch": 55.872727272727275,
+      "grad_norm": 3.641345262527466,
+      "learning_rate": 5.421464171032224e-08,
+      "loss": 0.6684,
+      "step": 223
+    },
+    {
+      "epoch": 56.0,
+      "grad_norm": 4.325244903564453,
+      "learning_rate": 5.382203732614572e-08,
+      "loss": 0.7467,
+      "step": 224
+    },
+    {
+      "epoch": 56.0,
+      "eval_loss": 0.6532977819442749,
+      "eval_runtime": 0.746,
+      "eval_samples_per_second": 17.427,
+      "eval_steps_per_second": 17.427,
+      "step": 224
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7.512584016494592e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null