Training in progress, epoch 8, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +168 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6e077a077f82244e38d0afcc3d1ca738963ebca1861cee05f8c0d24bf3c61c9
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:88647830ecd553d3bbcce815c85cc295f4bf39af9e61197684a6bbf2ad0d22cd
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c5ccf025b5e035a93f9afcb300d38710204c9fa4bdd9f102d70848632e5ccff
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6a4f68f91aa0a169d492df4d096b1d4770de24a063b76c7cc1a09f608822ee7
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d33f3dbdb9b3f7dde1b012b4c45dfa6f4e834ae52f1442515a3bb9195da78f3
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:21dfc6c263d5ad0f8ba77e03600244b9f2781e61ae66cba4cff3c2ce6c58574f
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62099b39eb8addcb11715a980e6ab00ae65f78659f9cd1992430ce564ecc8e81
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:86d123b176365e851d79aa73f522c50da61f447efcfc0bcc767ae1a1949443a3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.0,
   "eval_steps": 50,
-  "global_step": 1638,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -487,6 +487,171 @@
       "eval_samples_per_second": 41.566,
       "eval_steps_per_second": 20.783,
       "step": 1600
     }
   ],
   "logging_steps": 50,
@@ -506,7 +671,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.210910911822561e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.0,
   "eval_steps": 50,
+  "global_step": 2184,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.566,
       "eval_steps_per_second": 20.783,
       "step": 1600
+    },
+    {
+      "epoch": 6.044112578977599,
+      "grad_norm": 59.42768859863281,
+      "learning_rate": 3.933823529411765e-05,
+      "loss": 0.8781,
+      "step": 1650
+    },
+    {
+      "epoch": 6.044112578977599,
+      "eval_loss": 1.233597993850708,
+      "eval_runtime": 117.1571,
+      "eval_samples_per_second": 41.193,
+      "eval_steps_per_second": 20.596,
+      "step": 1650
+    },
+    {
+      "epoch": 6.227914991384262,
+      "grad_norm": 68.26610565185547,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.8804,
+      "step": 1700
+    },
+    {
+      "epoch": 6.227914991384262,
+      "eval_loss": 1.2279460430145264,
+      "eval_runtime": 116.1011,
+      "eval_samples_per_second": 41.567,
+      "eval_steps_per_second": 20.784,
+      "step": 1700
+    },
+    {
+      "epoch": 6.411717403790925,
+      "grad_norm": 77.21823120117188,
+      "learning_rate": 3.566176470588235e-05,
+      "loss": 0.8733,
+      "step": 1750
+    },
+    {
+      "epoch": 6.411717403790925,
+      "eval_loss": 1.2353451251983643,
+      "eval_runtime": 116.0518,
+      "eval_samples_per_second": 41.585,
+      "eval_steps_per_second": 20.792,
+      "step": 1750
+    },
+    {
+      "epoch": 6.595519816197587,
+      "grad_norm": 49.22051239013672,
+      "learning_rate": 3.382352941176471e-05,
+      "loss": 0.875,
+      "step": 1800
+    },
+    {
+      "epoch": 6.595519816197587,
+      "eval_loss": 1.2324572801589966,
+      "eval_runtime": 116.0982,
+      "eval_samples_per_second": 41.568,
+      "eval_steps_per_second": 20.784,
+      "step": 1800
+    },
+    {
+      "epoch": 6.779322228604251,
+      "grad_norm": 61.27114486694336,
+      "learning_rate": 3.198529411764706e-05,
+      "loss": 0.8634,
+      "step": 1850
+    },
+    {
+      "epoch": 6.779322228604251,
+      "eval_loss": 1.2263100147247314,
+      "eval_runtime": 116.0582,
+      "eval_samples_per_second": 41.583,
+      "eval_steps_per_second": 20.791,
+      "step": 1850
+    },
+    {
+      "epoch": 6.963124641010913,
+      "grad_norm": 53.27342224121094,
+      "learning_rate": 3.0147058823529413e-05,
+      "loss": 0.8647,
+      "step": 1900
+    },
+    {
+      "epoch": 6.963124641010913,
+      "eval_loss": 1.2306259870529175,
+      "eval_runtime": 116.21,
+      "eval_samples_per_second": 41.528,
+      "eval_steps_per_second": 20.764,
+      "step": 1900
+    },
+    {
+      "epoch": 7.143365881677197,
+      "grad_norm": 56.99700927734375,
+      "learning_rate": 2.8308823529411766e-05,
+      "loss": 0.8335,
+      "step": 1950
+    },
+    {
+      "epoch": 7.143365881677197,
+      "eval_loss": 1.2323832511901855,
+      "eval_runtime": 116.0282,
+      "eval_samples_per_second": 41.593,
+      "eval_steps_per_second": 20.797,
+      "step": 1950
+    },
+    {
+      "epoch": 7.32716829408386,
+      "grad_norm": 111.48177337646484,
+      "learning_rate": 2.647058823529412e-05,
+      "loss": 0.8489,
+      "step": 2000
+    },
+    {
+      "epoch": 7.32716829408386,
+      "eval_loss": 1.2314597368240356,
+      "eval_runtime": 116.1391,
+      "eval_samples_per_second": 41.554,
+      "eval_steps_per_second": 20.777,
+      "step": 2000
+    },
+    {
+      "epoch": 7.5109707064905225,
+      "grad_norm": 44.07224655151367,
+      "learning_rate": 2.4632352941176472e-05,
+      "loss": 0.8473,
+      "step": 2050
+    },
+    {
+      "epoch": 7.5109707064905225,
+      "eval_loss": 1.2360129356384277,
+      "eval_runtime": 116.3906,
+      "eval_samples_per_second": 41.464,
+      "eval_steps_per_second": 20.732,
+      "step": 2050
+    },
+    {
+      "epoch": 7.694773118897185,
+      "grad_norm": 58.74856948852539,
+      "learning_rate": 2.2794117647058825e-05,
+      "loss": 0.8422,
+      "step": 2100
+    },
+    {
+      "epoch": 7.694773118897185,
+      "eval_loss": 1.23045015335083,
+      "eval_runtime": 116.4238,
+      "eval_samples_per_second": 41.452,
+      "eval_steps_per_second": 20.726,
+      "step": 2100
+    },
+    {
+      "epoch": 7.878575531303849,
+      "grad_norm": 42.6165771484375,
+      "learning_rate": 2.0955882352941178e-05,
+      "loss": 0.8414,
+      "step": 2150
+    },
+    {
+      "epoch": 7.878575531303849,
+      "eval_loss": 1.232067346572876,
+      "eval_runtime": 115.9906,
+      "eval_samples_per_second": 41.607,
+      "eval_steps_per_second": 20.803,
+      "step": 2150
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.614783810576056e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null