Training in progress, step 600, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:389139e8293cf0265bd0dd8a65a2482d21cc51a5fa821642143b7daf82f108b0
 size 2558403928

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4b6b0c15c719b8eaea77ad30f2872552d8062d2ef3ddf2596e34108954f23ab
 size 2558403928

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7507fef582f26fa6dd26593efcff1fe00c92de5de40a9e14d4bcfae3d4660cf5
-size 1313044361

 version https://git-lfs.github.com/spec/v1
+oid sha256:50806c2d1cb1d5eaefc1cbc0fb07371b9ab885876b2f6b143d28741862abf943
+size 1313638993

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6bfeac7f2161ffd59c7dec4e192c42f83cdf28d8494d04d02013314243750b1
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7d59e617532ca7477c4cbf7e762ce90bb19c54009f36c062b2a5b94fe25c293
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30af866df24edce708e1eb20700878b402fa05707fa9bc5f332496baf440dbbb
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb7fde5111803012042c93a73aa191336bb6e10b3ad44f6bd1d94fc7008a22b6
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e7f847589ff5ebc49461e971738b280435583eb06a67d9e67099912165ff9ed
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:824648ef06ea0ce4b952c142f576a70b350abd12eb9776a23ec3817669fa8ff9
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.12,
   "eval_steps": 500,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -225,6 +225,216 @@
       "learning_rate": 4.873647561199115e-05,
       "loss": 4.1776,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -244,7 +454,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.41041809391616e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.24,
   "eval_steps": 500,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.873647561199115e-05,
       "loss": 4.1776,
       "step": 300
+    },
+    {
+      "epoch": 0.124,
+      "grad_norm": 15.050427436828613,
+      "learning_rate": 4.863390271098922e-05,
+      "loss": 3.5808,
+      "step": 310
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 8.734102249145508,
+      "learning_rate": 4.852744386123061e-05,
+      "loss": 3.9796,
+      "step": 320
+    },
+    {
+      "epoch": 0.132,
+      "grad_norm": 8.711186408996582,
+      "learning_rate": 4.84171165669608e-05,
+      "loss": 4.2317,
+      "step": 330
+    },
+    {
+      "epoch": 0.136,
+      "grad_norm": 6.751059055328369,
+      "learning_rate": 4.8302938968485144e-05,
+      "loss": 3.7145,
+      "step": 340
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 10.623860359191895,
+      "learning_rate": 4.8184929839186196e-05,
+      "loss": 3.9616,
+      "step": 350
+    },
+    {
+      "epoch": 0.144,
+      "grad_norm": 7.5071330070495605,
+      "learning_rate": 4.806310858243694e-05,
+      "loss": 4.0164,
+      "step": 360
+    },
+    {
+      "epoch": 0.148,
+      "grad_norm": 8.607765197753906,
+      "learning_rate": 4.793749522841042e-05,
+      "loss": 4.4924,
+      "step": 370
+    },
+    {
+      "epoch": 0.152,
+      "grad_norm": 8.406026840209961,
+      "learning_rate": 4.780811043078636e-05,
+      "loss": 3.4254,
+      "step": 380
+    },
+    {
+      "epoch": 0.156,
+      "grad_norm": 9.387131690979004,
+      "learning_rate": 4.767497546335519e-05,
+      "loss": 3.9158,
+      "step": 390
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 7.5071258544921875,
+      "learning_rate": 4.753811221652017e-05,
+      "loss": 4.1042,
+      "step": 400
+    },
+    {
+      "epoch": 0.164,
+      "grad_norm": 6.716228008270264,
+      "learning_rate": 4.739754319369814e-05,
+      "loss": 3.8632,
+      "step": 410
+    },
+    {
+      "epoch": 0.168,
+      "grad_norm": 9.47385311126709,
+      "learning_rate": 4.7253291507619404e-05,
+      "loss": 3.7837,
+      "step": 420
+    },
+    {
+      "epoch": 0.172,
+      "grad_norm": 7.547070026397705,
+      "learning_rate": 4.710538087652748e-05,
+      "loss": 4.0398,
+      "step": 430
+    },
+    {
+      "epoch": 0.176,
+      "grad_norm": 13.61339282989502,
+      "learning_rate": 4.695383562027933e-05,
+      "loss": 3.7789,
+      "step": 440
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 6.434921741485596,
+      "learning_rate": 4.679868065634656e-05,
+      "loss": 3.9506,
+      "step": 450
+    },
+    {
+      "epoch": 0.184,
+      "grad_norm": 7.865591049194336,
+      "learning_rate": 4.663994149571849e-05,
+      "loss": 3.4036,
+      "step": 460
+    },
+    {
+      "epoch": 0.188,
+      "grad_norm": 9.311790466308594,
+      "learning_rate": 4.647764423870751e-05,
+      "loss": 4.1299,
+      "step": 470
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 8.277907371520996,
+      "learning_rate": 4.631181557065761e-05,
+      "loss": 4.0614,
+      "step": 480
+    },
+    {
+      "epoch": 0.196,
+      "grad_norm": 12.398967742919922,
+      "learning_rate": 4.614248275755676e-05,
+      "loss": 3.7492,
+      "step": 490
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 7.308017730712891,
+      "learning_rate": 4.5969673641553685e-05,
+      "loss": 4.1606,
+      "step": 500
+    },
+    {
+      "epoch": 0.204,
+      "grad_norm": 6.510436058044434,
+      "learning_rate": 4.579341663638004e-05,
+      "loss": 3.5708,
+      "step": 510
+    },
+    {
+      "epoch": 0.208,
+      "grad_norm": 10.914970397949219,
+      "learning_rate": 4.5613740722678525e-05,
+      "loss": 3.4741,
+      "step": 520
+    },
+    {
+      "epoch": 0.212,
+      "grad_norm": 8.786978721618652,
+      "learning_rate": 4.5430675443237817e-05,
+      "loss": 3.6204,
+      "step": 530
+    },
+    {
+      "epoch": 0.216,
+      "grad_norm": 10.566540718078613,
+      "learning_rate": 4.524425089813507e-05,
+      "loss": 3.9298,
+      "step": 540
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 8.051084518432617,
+      "learning_rate": 4.505449773978677e-05,
+      "loss": 3.7783,
+      "step": 550
+    },
+    {
+      "epoch": 0.224,
+      "grad_norm": 11.182727813720703,
+      "learning_rate": 4.4861447167908824e-05,
+      "loss": 3.8174,
+      "step": 560
+    },
+    {
+      "epoch": 0.228,
+      "grad_norm": 11.375614166259766,
+      "learning_rate": 4.466513092438653e-05,
+      "loss": 4.0511,
+      "step": 570
+    },
+    {
+      "epoch": 0.232,
+      "grad_norm": 8.66441535949707,
+      "learning_rate": 4.446558128805561e-05,
+      "loss": 3.7058,
+      "step": 580
+    },
+    {
+      "epoch": 0.236,
+      "grad_norm": 5.743879795074463,
+      "learning_rate": 4.426283106939474e-05,
+      "loss": 3.817,
+      "step": 590
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 10.231585502624512,
+      "learning_rate": 4.4056913605130804e-05,
+      "loss": 3.9779,
+      "step": 600
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.82083618783232e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96555ac3c0979f5dce122c8f700ea90690bfa57f9771c6c52bfcefa74d7b8abe
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7aa5aa52e27a2537453961ad4bf444627e0fda1a2dc872db4046ff91151bfac
 size 5841