Training in progress, epoch 1, checkpoint

Browse files

Files changed (3) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +32 -32

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c77ed00cbcfdc7b5605f93bc71df50ba9902c68af1f7757caa4da6d160b7e60a
 size 1227009528

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa9f769a1a8a8b6a773996d7c24b349e4672595d1b4ff0b77824a8db6f68871c
 size 1227009528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:989ac37794f1d3e800bb1bbd3247450b69a96a60b5a4ca851c554f4e40868485
 size 2454133690

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f7703588a46eff1240aab8e93209d8f65d0aae932e6049646bf5f7ac4a0b063
 size 2454133690

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 35.55657958984375,
   "best_model_checkpoint": "/kaggle/working/output/checkpoint-1305",
   "epoch": 1.0,
   "eval_steps": 500,
@@ -10,101 +10,101 @@
   "log_history": [
     {
       "epoch": 0.07662835249042145,
-      "grad_norm": 9.95783519744873,
       "learning_rate": 4.9952586206896554e-05,
-      "loss": 58.2962,
       "step": 100
     },
     {
       "epoch": 0.1532567049808429,
-      "grad_norm": 4.181793212890625,
       "learning_rate": 4.990469348659004e-05,
-      "loss": 38.6823,
       "step": 200
     },
     {
       "epoch": 0.22988505747126436,
-      "grad_norm": 2.342090368270874,
       "learning_rate": 4.985680076628353e-05,
-      "loss": 35.8141,
       "step": 300
     },
     {
       "epoch": 0.3065134099616858,
-      "grad_norm": 3.5410687923431396,
       "learning_rate": 4.9808908045977015e-05,
-      "loss": 35.0102,
       "step": 400
     },
     {
       "epoch": 0.3831417624521073,
-      "grad_norm": 1.9479660987854004,
       "learning_rate": 4.97610153256705e-05,
-      "loss": 35.9766,
       "step": 500
     },
     {
       "epoch": 0.45977011494252873,
-      "grad_norm": 4.819860458374023,
       "learning_rate": 4.971312260536399e-05,
-      "loss": 34.6098,
       "step": 600
     },
     {
       "epoch": 0.5363984674329502,
-      "grad_norm": 5.347679138183594,
       "learning_rate": 4.9665229885057475e-05,
-      "loss": 34.7696,
       "step": 700
     },
     {
       "epoch": 0.6130268199233716,
-      "grad_norm": 3.895015239715576,
       "learning_rate": 4.961733716475096e-05,
-      "loss": 34.5659,
       "step": 800
     },
     {
       "epoch": 0.6896551724137931,
-      "grad_norm": 3.2303035259246826,
       "learning_rate": 4.956944444444445e-05,
-      "loss": 33.4366,
       "step": 900
     },
     {
       "epoch": 0.7662835249042146,
-      "grad_norm": 4.221305847167969,
       "learning_rate": 4.952155172413793e-05,
-      "loss": 34.3158,
       "step": 1000
     },
     {
       "epoch": 0.842911877394636,
-      "grad_norm": 5.473431587219238,
       "learning_rate": 4.9473659003831416e-05,
-      "loss": 33.9442,
       "step": 1100
     },
     {
       "epoch": 0.9195402298850575,
-      "grad_norm": 3.3115882873535156,
       "learning_rate": 4.94257662835249e-05,
-      "loss": 34.2257,
       "step": 1200
     },
     {
       "epoch": 0.9961685823754789,
-      "grad_norm": 2.4284849166870117,
       "learning_rate": 4.937787356321839e-05,
-      "loss": 33.5458,
       "step": 1300
     },
     {
       "epoch": 1.0,
-      "eval_loss": 35.55657958984375,
-      "eval_runtime": 49.2878,
-      "eval_samples_per_second": 26.477,
-      "eval_steps_per_second": 3.327,
       "step": 1305
     }
   ],
@@ -116,7 +116,7 @@
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {
-        "early_stopping_patience": 3,
         "early_stopping_threshold": 0.0
       },
       "attributes": {

 {
+  "best_metric": 35.558197021484375,
   "best_model_checkpoint": "/kaggle/working/output/checkpoint-1305",
   "epoch": 1.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.07662835249042145,
+      "grad_norm": 9.545656204223633,
       "learning_rate": 4.9952586206896554e-05,
+      "loss": 58.0015,
       "step": 100
     },
     {
       "epoch": 0.1532567049808429,
+      "grad_norm": 3.9482674598693848,
       "learning_rate": 4.990469348659004e-05,
+      "loss": 38.502,
       "step": 200
     },
     {
       "epoch": 0.22988505747126436,
+      "grad_norm": 2.5423216819763184,
       "learning_rate": 4.985680076628353e-05,
+      "loss": 35.7891,
       "step": 300
     },
     {
       "epoch": 0.3065134099616858,
+      "grad_norm": 3.6723568439483643,
       "learning_rate": 4.9808908045977015e-05,
+      "loss": 34.9999,
       "step": 400
     },
     {
       "epoch": 0.3831417624521073,
+      "grad_norm": 2.0953221321105957,
       "learning_rate": 4.97610153256705e-05,
+      "loss": 35.9283,
       "step": 500
     },
     {
       "epoch": 0.45977011494252873,
+      "grad_norm": 4.932604789733887,
       "learning_rate": 4.971312260536399e-05,
+      "loss": 34.5531,
       "step": 600
     },
     {
       "epoch": 0.5363984674329502,
+      "grad_norm": 5.419522762298584,
       "learning_rate": 4.9665229885057475e-05,
+      "loss": 34.7408,
       "step": 700
     },
     {
       "epoch": 0.6130268199233716,
+      "grad_norm": 3.9690020084381104,
       "learning_rate": 4.961733716475096e-05,
+      "loss": 34.5521,
       "step": 800
     },
     {
       "epoch": 0.6896551724137931,
+      "grad_norm": 3.3197548389434814,
       "learning_rate": 4.956944444444445e-05,
+      "loss": 33.4281,
       "step": 900
     },
     {
       "epoch": 0.7662835249042146,
+      "grad_norm": 4.233493328094482,
       "learning_rate": 4.952155172413793e-05,
+      "loss": 34.3137,
       "step": 1000
     },
     {
       "epoch": 0.842911877394636,
+      "grad_norm": 5.390758037567139,
       "learning_rate": 4.9473659003831416e-05,
+      "loss": 33.9454,
       "step": 1100
     },
     {
       "epoch": 0.9195402298850575,
+      "grad_norm": 3.419612407684326,
       "learning_rate": 4.94257662835249e-05,
+      "loss": 34.2298,
       "step": 1200
     },
     {
       "epoch": 0.9961685823754789,
+      "grad_norm": 2.3791182041168213,
       "learning_rate": 4.937787356321839e-05,
+      "loss": 33.5481,
       "step": 1300
     },
     {
       "epoch": 1.0,
+      "eval_loss": 35.558197021484375,
+      "eval_runtime": 49.3359,
+      "eval_samples_per_second": 26.451,
+      "eval_steps_per_second": 3.324,
       "step": 1305
     }
   ],
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {
+        "early_stopping_patience": 10,
         "early_stopping_threshold": 0.0
       },
       "attributes": {