Training in progress, epoch 2, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +104 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa9f769a1a8a8b6a773996d7c24b349e4672595d1b4ff0b77824a8db6f68871c
 size 1227009528

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf382415b8b4e319747d4c583bb2c22fdcb33f73e65a25fb65dde51f022f0b3a
 size 1227009528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f7703588a46eff1240aab8e93209d8f65d0aae932e6049646bf5f7ac4a0b063
 size 2454133690

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb172aa8a3695c37694e8b016fb08371ff016bf0005d26a5ad71d0066147ef06
 size 2454133690

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:516b7135de753fb3094aa8b4ec4118118441d7163be5041898012aee7e4ea239
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fda2382d9098c76a47d94697adf0e77400f7b6a3f4a525cb2f195f30c9813189
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39665badb31ad7d6b4ab988a13e0c580a201e6ed151e19101e4c789a0afc002a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2590224ad91e1be553a4c5db4bec4d60b1f52733b47fba11c73ce6465c9447e8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 35.558197021484375,
-  "best_model_checkpoint": "/kaggle/working/output/checkpoint-1305",
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 1305,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -106,6 +106,105 @@
       "eval_samples_per_second": 26.451,
       "eval_steps_per_second": 3.324,
       "step": 1305
     }
   ],
   "logging_steps": 100,
@@ -134,7 +233,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1407310903047168.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 35.211631774902344,
+  "best_model_checkpoint": "/kaggle/working/output/checkpoint-2610",
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 2610,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.451,
       "eval_steps_per_second": 3.324,
       "step": 1305
+    },
+    {
+      "epoch": 1.0727969348659003,
+      "grad_norm": 3.0501019954681396,
+      "learning_rate": 4.932998084291188e-05,
+      "loss": 34.3557,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1494252873563218,
+      "grad_norm": 3.027714252471924,
+      "learning_rate": 4.928208812260537e-05,
+      "loss": 34.2442,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2260536398467432,
+      "grad_norm": 3.693758249282837,
+      "learning_rate": 4.923419540229886e-05,
+      "loss": 33.5375,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3026819923371646,
+      "grad_norm": 3.7679357528686523,
+      "learning_rate": 4.9186302681992344e-05,
+      "loss": 33.7891,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3793103448275863,
+      "grad_norm": 3.2367331981658936,
+      "learning_rate": 4.9138409961685824e-05,
+      "loss": 33.4964,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4559386973180077,
+      "grad_norm": 3.6876628398895264,
+      "learning_rate": 4.909051724137931e-05,
+      "loss": 34.7739,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5325670498084292,
+      "grad_norm": 1.9550260305404663,
+      "learning_rate": 4.90426245210728e-05,
+      "loss": 34.2552,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6091954022988506,
+      "grad_norm": 4.955118656158447,
+      "learning_rate": 4.8994731800766285e-05,
+      "loss": 33.9766,
+      "step": 2100
+    },
+    {
+      "epoch": 1.685823754789272,
+      "grad_norm": 6.145394802093506,
+      "learning_rate": 4.894683908045977e-05,
+      "loss": 34.1676,
+      "step": 2200
+    },
+    {
+      "epoch": 1.7624521072796935,
+      "grad_norm": 6.15125846862793,
+      "learning_rate": 4.889894636015326e-05,
+      "loss": 34.3084,
+      "step": 2300
+    },
+    {
+      "epoch": 1.839080459770115,
+      "grad_norm": 2.647857427597046,
+      "learning_rate": 4.8851053639846746e-05,
+      "loss": 34.6449,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9157088122605364,
+      "grad_norm": 4.066762447357178,
+      "learning_rate": 4.880316091954023e-05,
+      "loss": 34.1318,
+      "step": 2500
+    },
+    {
+      "epoch": 1.9923371647509578,
+      "grad_norm": 5.785406589508057,
+      "learning_rate": 4.875526819923372e-05,
+      "loss": 34.1303,
+      "step": 2600
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 35.211631774902344,
+      "eval_runtime": 49.3338,
+      "eval_samples_per_second": 26.452,
+      "eval_steps_per_second": 3.324,
+      "step": 2610
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 2814621806094336.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null