Training in progress, epoch 1, checkpoint

Browse files

Files changed (3) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +31 -31

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed0a9e27912c4dc60639c8833f6bee50855f3e2302e82bda9e9c0868757378c3
 size 1227009528

 version https://git-lfs.github.com/spec/v1
+oid sha256:c77ed00cbcfdc7b5605f93bc71df50ba9902c68af1f7757caa4da6d160b7e60a
 size 1227009528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d872ac2969817b48da2f57c818767e386ef21d15a258e7f4b85128f1d9326c6d
 size 2454133690

 version https://git-lfs.github.com/spec/v1
+oid sha256:989ac37794f1d3e800bb1bbd3247450b69a96a60b5a4ca851c554f4e40868485
 size 2454133690

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 35.5689697265625,
   "best_model_checkpoint": "/kaggle/working/output/checkpoint-1305",
   "epoch": 1.0,
   "eval_steps": 500,
@@ -10,101 +10,101 @@
   "log_history": [
     {
       "epoch": 0.07662835249042145,
-      "grad_norm": 10.31527328491211,
       "learning_rate": 4.9952586206896554e-05,
-      "loss": 58.4258,
       "step": 100
     },
     {
       "epoch": 0.1532567049808429,
-      "grad_norm": 4.617059230804443,
       "learning_rate": 4.990469348659004e-05,
-      "loss": 38.9853,
       "step": 200
     },
     {
       "epoch": 0.22988505747126436,
-      "grad_norm": 2.52376127243042,
       "learning_rate": 4.985680076628353e-05,
-      "loss": 35.8655,
       "step": 300
     },
     {
       "epoch": 0.3065134099616858,
-      "grad_norm": 3.7238430976867676,
       "learning_rate": 4.9808908045977015e-05,
-      "loss": 34.9943,
       "step": 400
     },
     {
       "epoch": 0.3831417624521073,
-      "grad_norm": 2.0289058685302734,
       "learning_rate": 4.97610153256705e-05,
-      "loss": 35.9013,
       "step": 500
     },
     {
       "epoch": 0.45977011494252873,
-      "grad_norm": 5.092604160308838,
       "learning_rate": 4.971312260536399e-05,
-      "loss": 34.5219,
       "step": 600
     },
     {
       "epoch": 0.5363984674329502,
-      "grad_norm": 5.38631010055542,
       "learning_rate": 4.9665229885057475e-05,
-      "loss": 34.7252,
       "step": 700
     },
     {
       "epoch": 0.6130268199233716,
-      "grad_norm": 3.966066360473633,
       "learning_rate": 4.961733716475096e-05,
-      "loss": 34.5442,
       "step": 800
     },
     {
       "epoch": 0.6896551724137931,
-      "grad_norm": 3.288087844848633,
       "learning_rate": 4.956944444444445e-05,
-      "loss": 33.4222,
       "step": 900
     },
     {
       "epoch": 0.7662835249042146,
-      "grad_norm": 4.245945453643799,
       "learning_rate": 4.952155172413793e-05,
-      "loss": 34.3038,
       "step": 1000
     },
     {
       "epoch": 0.842911877394636,
-      "grad_norm": 5.456043720245361,
       "learning_rate": 4.9473659003831416e-05,
-      "loss": 33.9338,
       "step": 1100
     },
     {
       "epoch": 0.9195402298850575,
-      "grad_norm": 3.3580803871154785,
       "learning_rate": 4.94257662835249e-05,
-      "loss": 34.2207,
       "step": 1200
     },
     {
       "epoch": 0.9961685823754789,
-      "grad_norm": 2.4025654792785645,
       "learning_rate": 4.937787356321839e-05,
-      "loss": 33.5373,
       "step": 1300
     },
     {
       "epoch": 1.0,
-      "eval_loss": 35.5689697265625,
-      "eval_runtime": 49.3779,
-      "eval_samples_per_second": 26.429,
-      "eval_steps_per_second": 3.321,
       "step": 1305
     }
   ],

 {
+  "best_metric": 35.55657958984375,
   "best_model_checkpoint": "/kaggle/working/output/checkpoint-1305",
   "epoch": 1.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.07662835249042145,
+      "grad_norm": 9.95783519744873,
       "learning_rate": 4.9952586206896554e-05,
+      "loss": 58.2962,
       "step": 100
     },
     {
       "epoch": 0.1532567049808429,
+      "grad_norm": 4.181793212890625,
       "learning_rate": 4.990469348659004e-05,
+      "loss": 38.6823,
       "step": 200
     },
     {
       "epoch": 0.22988505747126436,
+      "grad_norm": 2.342090368270874,
       "learning_rate": 4.985680076628353e-05,
+      "loss": 35.8141,
       "step": 300
     },
     {
       "epoch": 0.3065134099616858,
+      "grad_norm": 3.5410687923431396,
       "learning_rate": 4.9808908045977015e-05,
+      "loss": 35.0102,
       "step": 400
     },
     {
       "epoch": 0.3831417624521073,
+      "grad_norm": 1.9479660987854004,
       "learning_rate": 4.97610153256705e-05,
+      "loss": 35.9766,
       "step": 500
     },
     {
       "epoch": 0.45977011494252873,
+      "grad_norm": 4.819860458374023,
       "learning_rate": 4.971312260536399e-05,
+      "loss": 34.6098,
       "step": 600
     },
     {
       "epoch": 0.5363984674329502,
+      "grad_norm": 5.347679138183594,
       "learning_rate": 4.9665229885057475e-05,
+      "loss": 34.7696,
       "step": 700
     },
     {
       "epoch": 0.6130268199233716,
+      "grad_norm": 3.895015239715576,
       "learning_rate": 4.961733716475096e-05,
+      "loss": 34.5659,
       "step": 800
     },
     {
       "epoch": 0.6896551724137931,
+      "grad_norm": 3.2303035259246826,
       "learning_rate": 4.956944444444445e-05,
+      "loss": 33.4366,
       "step": 900
     },
     {
       "epoch": 0.7662835249042146,
+      "grad_norm": 4.221305847167969,
       "learning_rate": 4.952155172413793e-05,
+      "loss": 34.3158,
       "step": 1000
     },
     {
       "epoch": 0.842911877394636,
+      "grad_norm": 5.473431587219238,
       "learning_rate": 4.9473659003831416e-05,
+      "loss": 33.9442,
       "step": 1100
     },
     {
       "epoch": 0.9195402298850575,
+      "grad_norm": 3.3115882873535156,
       "learning_rate": 4.94257662835249e-05,
+      "loss": 34.2257,
       "step": 1200
     },
     {
       "epoch": 0.9961685823754789,
+      "grad_norm": 2.4284849166870117,
       "learning_rate": 4.937787356321839e-05,
+      "loss": 33.5458,
       "step": 1300
     },
     {
       "epoch": 1.0,
+      "eval_loss": 35.55657958984375,
+      "eval_runtime": 49.2878,
+      "eval_samples_per_second": 26.477,
+      "eval_steps_per_second": 3.327,
       "step": 1305
     }
   ],