Training in progress, epoch 12, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +108 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fae6d18c31da2f3123d26fe82f253230f081a7f04d6096c55edf8a79d57c0bff
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:9273b0b5b72839b135e5ba3d001ba6d7289e641b1303d533d3f16dcafb32b4ac
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57eff680a79bd13191e5837ccb2bf3e205b17f06697567bf05c733d21f919c9e
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f523e103b2aa541067a3a863044f1b45be43e5156c2986397eee07006ae38a5
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7620d0d74aa4af76afd5408d773ed4748a8acb91b0e964a8cddab8e88f040c64
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f1e7cc261bf54ef1e547376788ce8abb284b4d32ff4f5a42cd1d1aecd5e3670
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b2b83ebf1ec1af378519da07bfb09fb79fd0733745840a41e1fc2e6668cb73a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac558eb50fb0d07f8ffcf509322d18bbb69a3f968f832820a9d4adbe07047818
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 11.997999636297509,
   "eval_steps": 50,
-  "global_step": 4116,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1237,6 +1237,111 @@
       "eval_samples_per_second": 41.464,
       "eval_steps_per_second": 20.732,
       "step": 4100
     }
   ],
   "logging_steps": 50,
@@ -1256,7 +1361,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.072157800433451e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 12.997999636297509,
   "eval_steps": 50,
+  "global_step": 4459,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.464,
       "eval_steps_per_second": 20.732,
       "step": 4100
+    },
+    {
+      "epoch": 12.098927077650481,
+      "grad_norm": 61.96623611450195,
+      "learning_rate": 3.950437317784257e-05,
+      "loss": 0.7457,
+      "step": 4150
+    },
+    {
+      "epoch": 12.098927077650481,
+      "eval_loss": 0.7167355418205261,
+      "eval_runtime": 116.6266,
+      "eval_samples_per_second": 41.38,
+      "eval_steps_per_second": 20.69,
+      "step": 4150
+    },
+    {
+      "epoch": 12.244408074195308,
+      "grad_norm": 112.12747955322266,
+      "learning_rate": 3.8775510204081634e-05,
+      "loss": 0.7356,
+      "step": 4200
+    },
+    {
+      "epoch": 12.244408074195308,
+      "eval_loss": 0.7129220962524414,
+      "eval_runtime": 116.6342,
+      "eval_samples_per_second": 41.377,
+      "eval_steps_per_second": 20.689,
+      "step": 4200
+    },
+    {
+      "epoch": 12.389889070740134,
+      "grad_norm": 51.88462829589844,
+      "learning_rate": 3.8046647230320704e-05,
+      "loss": 0.7361,
+      "step": 4250
+    },
+    {
+      "epoch": 12.389889070740134,
+      "eval_loss": 0.7131578326225281,
+      "eval_runtime": 116.4086,
+      "eval_samples_per_second": 41.457,
+      "eval_steps_per_second": 20.729,
+      "step": 4250
+    },
+    {
+      "epoch": 12.53537006728496,
+      "grad_norm": 65.30543518066406,
+      "learning_rate": 3.731778425655977e-05,
+      "loss": 0.7323,
+      "step": 4300
+    },
+    {
+      "epoch": 12.53537006728496,
+      "eval_loss": 0.7133215665817261,
+      "eval_runtime": 116.5949,
+      "eval_samples_per_second": 41.391,
+      "eval_steps_per_second": 20.696,
+      "step": 4300
+    },
+    {
+      "epoch": 12.680851063829786,
+      "grad_norm": 59.78929901123047,
+      "learning_rate": 3.658892128279884e-05,
+      "loss": 0.7358,
+      "step": 4350
+    },
+    {
+      "epoch": 12.680851063829786,
+      "eval_loss": 0.7077481746673584,
+      "eval_runtime": 116.19,
+      "eval_samples_per_second": 41.535,
+      "eval_steps_per_second": 20.768,
+      "step": 4350
+    },
+    {
+      "epoch": 12.826332060374614,
+      "grad_norm": 43.919498443603516,
+      "learning_rate": 3.58600583090379e-05,
+      "loss": 0.7359,
+      "step": 4400
+    },
+    {
+      "epoch": 12.826332060374614,
+      "eval_loss": 0.7035172581672668,
+      "eval_runtime": 116.6188,
+      "eval_samples_per_second": 41.383,
+      "eval_steps_per_second": 20.691,
+      "step": 4400
+    },
+    {
+      "epoch": 12.97181305691944,
+      "grad_norm": 48.08681869506836,
+      "learning_rate": 3.5131195335276965e-05,
+      "loss": 0.7392,
+      "step": 4450
+    },
+    {
+      "epoch": 12.97181305691944,
+      "eval_loss": 0.7051976323127747,
+      "eval_runtime": 116.393,
+      "eval_samples_per_second": 41.463,
+      "eval_steps_per_second": 20.731,
+      "step": 4450
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.1614435613679288e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null