Training in progress, epoch 16, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +105 -6

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:811ccfaa8e3c84f8eb2939ce96631f3ec49f0f3099b1b0e60ca7c519a45c98e0
 size 1227009528

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e1ea03da8d9a978320d45f1bc6677407a85624af3d9baa7bae32e5c03676367
 size 1227009528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:727366cbef486a57fc5b65e236bc10bb55ca8dff9e286c2204c706e7a3b6d855
 size 2454133690

 version https://git-lfs.github.com/spec/v1
+oid sha256:b98a2483ec61025369cf6eb8fec5397cf636bfb0ffa7a3eedf987ef5b4b9d5c8
 size 2454133690

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6106dbeee05b0c02d6a33db47221a3364be09d497bc2812c14de2fc90515255
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ffc97010f20f826b75fdc09ec365ad76a45dfcdc64194b72334d5902c2cf28eb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04e18aa381d7c2401ed38f210463d64263e7586c0355129a12549e48c017c1be
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5384c34df266d1db083f57452aa67b48a3012f0aeee7f4ad7194984e89d75fe
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 34.700294494628906,
-  "best_model_checkpoint": "/kaggle/working/output/checkpoint-13050",
-  "epoch": 15.0,
   "eval_steps": 500,
-  "global_step": 19575,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1492,6 +1492,105 @@
       "eval_samples_per_second": 26.507,
       "eval_steps_per_second": 3.331,
       "step": 19575
     }
   ],
   "logging_steps": 100,
@@ -1506,7 +1605,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 5
       }
     },
     "TrainerControl": {
@@ -1520,7 +1619,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.110966354570752e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 34.54485321044922,
+  "best_model_checkpoint": "/kaggle/working/output/checkpoint-20880",
+  "epoch": 16.0,
   "eval_steps": 500,
+  "global_step": 20880,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.507,
       "eval_steps_per_second": 3.331,
       "step": 19575
+    },
+    {
+      "epoch": 15.019157088122606,
+      "grad_norm": 3.291614294052124,
+      "learning_rate": 4.061733716475096e-05,
+      "loss": 32.9437,
+      "step": 19600
+    },
+    {
+      "epoch": 15.095785440613026,
+      "grad_norm": 4.4670867919921875,
+      "learning_rate": 4.056944444444445e-05,
+      "loss": 33.6879,
+      "step": 19700
+    },
+    {
+      "epoch": 15.172413793103448,
+      "grad_norm": 3.4122018814086914,
+      "learning_rate": 4.0521551724137934e-05,
+      "loss": 33.0167,
+      "step": 19800
+    },
+    {
+      "epoch": 15.24904214559387,
+      "grad_norm": 3.854083299636841,
+      "learning_rate": 4.047365900383142e-05,
+      "loss": 33.8342,
+      "step": 19900
+    },
+    {
+      "epoch": 15.32567049808429,
+      "grad_norm": 2.945396900177002,
+      "learning_rate": 4.042576628352491e-05,
+      "loss": 32.3812,
+      "step": 20000
+    },
+    {
+      "epoch": 15.402298850574713,
+      "grad_norm": 2.5246341228485107,
+      "learning_rate": 4.0377873563218395e-05,
+      "loss": 33.3573,
+      "step": 20100
+    },
+    {
+      "epoch": 15.478927203065133,
+      "grad_norm": 2.837134599685669,
+      "learning_rate": 4.032998084291188e-05,
+      "loss": 33.5981,
+      "step": 20200
+    },
+    {
+      "epoch": 15.555555555555555,
+      "grad_norm": 4.350450038909912,
+      "learning_rate": 4.028208812260537e-05,
+      "loss": 34.0699,
+      "step": 20300
+    },
+    {
+      "epoch": 15.632183908045977,
+      "grad_norm": 2.4908435344696045,
+      "learning_rate": 4.0234195402298855e-05,
+      "loss": 33.8105,
+      "step": 20400
+    },
+    {
+      "epoch": 15.708812260536398,
+      "grad_norm": 2.9461615085601807,
+      "learning_rate": 4.0186302681992336e-05,
+      "loss": 33.3251,
+      "step": 20500
+    },
+    {
+      "epoch": 15.78544061302682,
+      "grad_norm": 2.8716940879821777,
+      "learning_rate": 4.013840996168582e-05,
+      "loss": 33.7594,
+      "step": 20600
+    },
+    {
+      "epoch": 15.862068965517242,
+      "grad_norm": 2.7166991233825684,
+      "learning_rate": 4.009051724137931e-05,
+      "loss": 33.58,
+      "step": 20700
+    },
+    {
+      "epoch": 15.938697318007662,
+      "grad_norm": 2.2878618240356445,
+      "learning_rate": 4.0042624521072796e-05,
+      "loss": 33.4573,
+      "step": 20800
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 34.54485321044922,
+      "eval_runtime": 49.3188,
+      "eval_samples_per_second": 26.46,
+      "eval_steps_per_second": 3.325,
+      "step": 20880
     }
   ],
   "logging_steps": 100,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.251697444875469e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null