Training in progress, epoch 28, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:727012ff11d243aa3f50de8258ad959513310b901aef61c0f3c57fba9b72cea7
 size 990185320

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1bdcc22122be16bcad201b13438cbcd5bb3a61bbd2cb3d243f13927651c8ef3
 size 990185320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1cc975ad13f0fa89a81b5fa79d6bf3b2541171d36c7eb13e67661a24c57543b1
 size 1980541387

 version https://git-lfs.github.com/spec/v1
+oid sha256:66bba534d6f1ca378d37f9424710e1fbb0cf4f775c1e889d437a4390c2e6da59
 size 1980541387

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a55fd7ac78bf4b5e6b13f1c5a1f5fb7258744c10b012de8c0c0b5edc12e58da
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c33bcc6689ffa514c871162fcc88c5e26610e3e356b556757408394db2158e3
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c84c0eceb8506ba57b63c709b65cc1be3871eb480c744855060e8151b4276a67
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:37380fd84c1c4a4c2909f470440f6cf70cc0f0dbedd46d88c29bfc45ff95dfcc
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 27.0,
   "eval_steps": 500,
-  "global_step": 41553,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3129,6 +3129,119 @@
       "eval_samples_per_second": 22.098,
       "eval_steps_per_second": 2.762,
       "step": 41553
     }
   ],
   "logging_steps": 100,
@@ -3148,7 +3261,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.931144958338662e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 28.0,
   "eval_steps": 500,
+  "global_step": 43092,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.098,
       "eval_steps_per_second": 2.762,
       "step": 41553
+    },
+    {
+      "epoch": 27.030539311241064,
+      "grad_norm": 4.933349609375,
+      "learning_rate": 4.9501841022308866e-06,
+      "loss": 1.3968,
+      "step": 41600
+    },
+    {
+      "epoch": 27.09551656920078,
+      "grad_norm": 5.9000444412231445,
+      "learning_rate": 4.841888672298029e-06,
+      "loss": 1.484,
+      "step": 41700
+    },
+    {
+      "epoch": 27.160493827160494,
+      "grad_norm": 4.207714080810547,
+      "learning_rate": 4.7335932423651726e-06,
+      "loss": 1.3794,
+      "step": 41800
+    },
+    {
+      "epoch": 27.22547108512021,
+      "grad_norm": 3.1242659091949463,
+      "learning_rate": 4.625297812432316e-06,
+      "loss": 1.4728,
+      "step": 41900
+    },
+    {
+      "epoch": 27.290448343079923,
+      "grad_norm": 5.078500270843506,
+      "learning_rate": 4.5170023824994586e-06,
+      "loss": 1.4554,
+      "step": 42000
+    },
+    {
+      "epoch": 27.355425601039634,
+      "grad_norm": 4.096863269805908,
+      "learning_rate": 4.408706952566602e-06,
+      "loss": 1.453,
+      "step": 42100
+    },
+    {
+      "epoch": 27.42040285899935,
+      "grad_norm": 3.733389377593994,
+      "learning_rate": 4.300411522633745e-06,
+      "loss": 1.4627,
+      "step": 42200
+    },
+    {
+      "epoch": 27.485380116959064,
+      "grad_norm": 4.735873222351074,
+      "learning_rate": 4.192116092700888e-06,
+      "loss": 1.4533,
+      "step": 42300
+    },
+    {
+      "epoch": 27.55035737491878,
+      "grad_norm": 5.443370819091797,
+      "learning_rate": 4.083820662768031e-06,
+      "loss": 1.4395,
+      "step": 42400
+    },
+    {
+      "epoch": 27.615334632878493,
+      "grad_norm": 5.1538238525390625,
+      "learning_rate": 3.975525232835175e-06,
+      "loss": 1.3913,
+      "step": 42500
+    },
+    {
+      "epoch": 27.680311890838208,
+      "grad_norm": 6.172743797302246,
+      "learning_rate": 3.867229802902317e-06,
+      "loss": 1.5319,
+      "step": 42600
+    },
+    {
+      "epoch": 27.74528914879792,
+      "grad_norm": 2.933137893676758,
+      "learning_rate": 3.758934372969461e-06,
+      "loss": 1.4268,
+      "step": 42700
+    },
+    {
+      "epoch": 27.810266406757634,
+      "grad_norm": 4.5866475105285645,
+      "learning_rate": 3.6506389430366043e-06,
+      "loss": 1.4041,
+      "step": 42800
+    },
+    {
+      "epoch": 27.87524366471735,
+      "grad_norm": 4.22698450088501,
+      "learning_rate": 3.542343513103747e-06,
+      "loss": 1.4158,
+      "step": 42900
+    },
+    {
+      "epoch": 27.940220922677064,
+      "grad_norm": 4.885856628417969,
+      "learning_rate": 3.4340480831708903e-06,
+      "loss": 1.4515,
+      "step": 43000
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 1.3683773279190063,
+      "eval_runtime": 61.9894,
+      "eval_samples_per_second": 22.068,
+      "eval_steps_per_second": 2.759,
+      "step": 43092
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 6.352643822557594e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null