Training in progress, epoch 10, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +108 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b1930aa8d3a968bfd6ecd49bdd6dc92fbbe16fcbf8df5ba323ebb30856c81c8
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c30855507821eae60b9a8981ec29a51e2006c4710fe70f6eddd878cdf727bc5
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c86e35f8ee50fb6da6cf3be46516c8727e2ff2afed6dfeb57b6e68f97501943a
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd9acbde3767dd0193d5328dd03bad7ab2d4f2ea5faf5f9f997bed12d35d2d5f
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5b4ef6bfb1501ea1d61f1cecfe9c5f89d66dd2a0b6e81616014abd495ba17d7
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e18b7a226bd09a1c0b40f0d1408dd50fa3221531aba57476aa3bd09f3bf91da
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3a2f6b2401b763e8093a671422c0ca2aede809649bace5a55adda737174083e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:14ff11420ab6e05bda6bd86fde16e8ed4af7e505a292540a3a802d06de28458c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.997999636297509,
   "eval_steps": 50,
-  "global_step": 3430,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1027,6 +1027,111 @@
       "eval_samples_per_second": 41.393,
       "eval_steps_per_second": 20.697,
       "step": 3400
     }
   ],
   "logging_steps": 50,
@@ -1046,7 +1151,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.934627923491553e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.997999636297509,
   "eval_steps": 50,
+  "global_step": 3773,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.393,
       "eval_steps_per_second": 20.697,
       "step": 3400
+    },
+    {
+      "epoch": 10.05819239861793,
+      "grad_norm": 73.24003601074219,
+      "learning_rate": 4.970845481049563e-05,
+      "loss": 0.7873,
+      "step": 3450
+    },
+    {
+      "epoch": 10.05819239861793,
+      "eval_loss": 0.7501546144485474,
+      "eval_runtime": 117.2672,
+      "eval_samples_per_second": 41.154,
+      "eval_steps_per_second": 20.577,
+      "step": 3450
+    },
+    {
+      "epoch": 10.203673395162756,
+      "grad_norm": 64.36954498291016,
+      "learning_rate": 4.89795918367347e-05,
+      "loss": 0.7681,
+      "step": 3500
+    },
+    {
+      "epoch": 10.203673395162756,
+      "eval_loss": 0.7464452385902405,
+      "eval_runtime": 116.6327,
+      "eval_samples_per_second": 41.378,
+      "eval_steps_per_second": 20.689,
+      "step": 3500
+    },
+    {
+      "epoch": 10.349154391707582,
+      "grad_norm": 53.44997024536133,
+      "learning_rate": 4.825072886297377e-05,
+      "loss": 0.7657,
+      "step": 3550
+    },
+    {
+      "epoch": 10.349154391707582,
+      "eval_loss": 0.7468724250793457,
+      "eval_runtime": 116.3252,
+      "eval_samples_per_second": 41.487,
+      "eval_steps_per_second": 20.744,
+      "step": 3550
+    },
+    {
+      "epoch": 10.49463538825241,
+      "grad_norm": 54.961727142333984,
+      "learning_rate": 4.752186588921283e-05,
+      "loss": 0.7746,
+      "step": 3600
+    },
+    {
+      "epoch": 10.49463538825241,
+      "eval_loss": 0.7428314685821533,
+      "eval_runtime": 116.5215,
+      "eval_samples_per_second": 41.417,
+      "eval_steps_per_second": 20.709,
+      "step": 3600
+    },
+    {
+      "epoch": 10.640116384797237,
+      "grad_norm": 72.78599548339844,
+      "learning_rate": 4.6793002915451894e-05,
+      "loss": 0.7666,
+      "step": 3650
+    },
+    {
+      "epoch": 10.640116384797237,
+      "eval_loss": 0.7381331324577332,
+      "eval_runtime": 116.4741,
+      "eval_samples_per_second": 41.434,
+      "eval_steps_per_second": 20.717,
+      "step": 3650
+    },
+    {
+      "epoch": 10.785597381342063,
+      "grad_norm": 57.89088821411133,
+      "learning_rate": 4.6064139941690965e-05,
+      "loss": 0.7685,
+      "step": 3700
+    },
+    {
+      "epoch": 10.785597381342063,
+      "eval_loss": 0.7335684299468994,
+      "eval_runtime": 116.9024,
+      "eval_samples_per_second": 41.282,
+      "eval_steps_per_second": 20.641,
+      "step": 3700
+    },
+    {
+      "epoch": 10.93107837788689,
+      "grad_norm": 63.70279312133789,
+      "learning_rate": 4.533527696793003e-05,
+      "loss": 0.7666,
+      "step": 3750
+    },
+    {
+      "epoch": 10.93107837788689,
+      "eval_loss": 0.7345423102378845,
+      "eval_runtime": 116.4317,
+      "eval_samples_per_second": 41.449,
+      "eval_steps_per_second": 20.725,
+      "step": 3750
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 9.827787294554194e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null