Training in progress, epoch 3, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +104 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf382415b8b4e319747d4c583bb2c22fdcb33f73e65a25fb65dde51f022f0b3a
 size 1227009528

 version https://git-lfs.github.com/spec/v1
+oid sha256:c450bc0ab6aae2aa695b08c5f17070da86a392ef1d21ad63fdcff23b36b0281c
 size 1227009528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb172aa8a3695c37694e8b016fb08371ff016bf0005d26a5ad71d0066147ef06
 size 2454133690

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cd17e14a85b790579fc23c4dffeabc9df3be8e2f4b9762f22e4935e57438ad2
 size 2454133690

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fda2382d9098c76a47d94697adf0e77400f7b6a3f4a525cb2f195f30c9813189
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bff8dada29d1f5265289e75197b18e7b964b1af6e44a0a6b6522b1cf938eb114
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2590224ad91e1be553a4c5db4bec4d60b1f52733b47fba11c73ce6465c9447e8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b374d94603410fd6652078786e8573cde53c3c6aef9163768dada58a03a48fd5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 35.211631774902344,
-  "best_model_checkpoint": "/kaggle/working/output/checkpoint-2610",
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 2610,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -205,6 +205,105 @@
       "eval_samples_per_second": 26.452,
       "eval_steps_per_second": 3.324,
       "step": 2610
     }
   ],
   "logging_steps": 100,
@@ -233,7 +332,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2814621806094336.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 35.00273132324219,
+  "best_model_checkpoint": "/kaggle/working/output/checkpoint-3915",
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 3915,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.452,
       "eval_steps_per_second": 3.324,
       "step": 2610
+    },
+    {
+      "epoch": 2.0689655172413794,
+      "grad_norm": 6.074384689331055,
+      "learning_rate": 4.8707375478927206e-05,
+      "loss": 33.6587,
+      "step": 2700
+    },
+    {
+      "epoch": 2.1455938697318007,
+      "grad_norm": 3.770009994506836,
+      "learning_rate": 4.865948275862069e-05,
+      "loss": 34.5023,
+      "step": 2800
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 4.6336140632629395,
+      "learning_rate": 4.861159003831418e-05,
+      "loss": 34.1806,
+      "step": 2900
+    },
+    {
+      "epoch": 2.2988505747126435,
+      "grad_norm": 5.440792083740234,
+      "learning_rate": 4.856369731800767e-05,
+      "loss": 34.6645,
+      "step": 3000
+    },
+    {
+      "epoch": 2.375478927203065,
+      "grad_norm": 2.98138165473938,
+      "learning_rate": 4.8515804597701154e-05,
+      "loss": 34.1371,
+      "step": 3100
+    },
+    {
+      "epoch": 2.4521072796934864,
+      "grad_norm": 2.4175803661346436,
+      "learning_rate": 4.846791187739464e-05,
+      "loss": 33.8015,
+      "step": 3200
+    },
+    {
+      "epoch": 2.528735632183908,
+      "grad_norm": 3.846370220184326,
+      "learning_rate": 4.842001915708813e-05,
+      "loss": 34.0589,
+      "step": 3300
+    },
+    {
+      "epoch": 2.6053639846743293,
+      "grad_norm": 4.001793384552002,
+      "learning_rate": 4.8372126436781614e-05,
+      "loss": 33.7327,
+      "step": 3400
+    },
+    {
+      "epoch": 2.681992337164751,
+      "grad_norm": 3.7779624462127686,
+      "learning_rate": 4.83242337164751e-05,
+      "loss": 34.3508,
+      "step": 3500
+    },
+    {
+      "epoch": 2.7586206896551726,
+      "grad_norm": 3.5112695693969727,
+      "learning_rate": 4.827634099616858e-05,
+      "loss": 33.5653,
+      "step": 3600
+    },
+    {
+      "epoch": 2.835249042145594,
+      "grad_norm": 2.3443048000335693,
+      "learning_rate": 4.822844827586207e-05,
+      "loss": 33.798,
+      "step": 3700
+    },
+    {
+      "epoch": 2.9118773946360155,
+      "grad_norm": 2.5035479068756104,
+      "learning_rate": 4.8180555555555555e-05,
+      "loss": 33.4353,
+      "step": 3800
+    },
+    {
+      "epoch": 2.9885057471264367,
+      "grad_norm": 3.4322028160095215,
+      "learning_rate": 4.813266283524904e-05,
+      "loss": 33.948,
+      "step": 3900
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 35.00273132324219,
+      "eval_runtime": 49.3242,
+      "eval_samples_per_second": 26.458,
+      "eval_steps_per_second": 3.325,
+      "step": 3915
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 4221932709141504.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null