Training in progress, epoch 5, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +104 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43744e9d3a7df899c77712de3afb6af1a054747752266c81e6c564a6bbdfc9fc
 size 1227009528

 version https://git-lfs.github.com/spec/v1
+oid sha256:2968fae491fefd2f9a431c5a0bf13b850a49d5465bf2f3ab25c45e33c0a41886
 size 1227009528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dc38bc58189826542c01bb812237dd78de2565f1b21ebc12593e6867e65ffec
 size 2454133690

 version https://git-lfs.github.com/spec/v1
+oid sha256:938bb6b2c29f2be8620725e1d9819dff7d9e79ec433558bbd6ac24951cd0c258
 size 2454133690

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd03df90c7c1260e5c9a0b8fad9ec21a69a6cc6367e61c044d90f7a2513787fb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:feb257991d06d0ad08909803a2d396d17f96d7f13a21d29dde85f6747c2c6f53
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e03a74488d48b3a98579050f742070bcb62d3183a7aab3987e0d0c9c802d894
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:34c587e6b31550b01ed65ddb502a6dbeb722c15426dc145d4dd3a0afea5fb120
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 34.954986572265625,
-  "best_model_checkpoint": "/kaggle/working/output/checkpoint-5220",
-  "epoch": 4.0,
   "eval_steps": 500,
-  "global_step": 5220,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -403,6 +403,105 @@
       "eval_samples_per_second": 26.478,
       "eval_steps_per_second": 3.327,
       "step": 5220
     }
   ],
   "logging_steps": 100,
@@ -431,7 +530,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5629243612188672.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 34.924800872802734,
+  "best_model_checkpoint": "/kaggle/working/output/checkpoint-6525",
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 6525,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.478,
       "eval_steps_per_second": 3.327,
       "step": 5220
+    },
+    {
+      "epoch": 4.061302681992337,
+      "grad_norm": 4.420943260192871,
+      "learning_rate": 4.746264367816092e-05,
+      "loss": 34.5735,
+      "step": 5300
+    },
+    {
+      "epoch": 4.137931034482759,
+      "grad_norm": 2.898287534713745,
+      "learning_rate": 4.741475095785441e-05,
+      "loss": 34.0739,
+      "step": 5400
+    },
+    {
+      "epoch": 4.21455938697318,
+      "grad_norm": 4.703996658325195,
+      "learning_rate": 4.73668582375479e-05,
+      "loss": 33.7022,
+      "step": 5500
+    },
+    {
+      "epoch": 4.291187739463601,
+      "grad_norm": 2.2913658618927,
+      "learning_rate": 4.7318965517241384e-05,
+      "loss": 33.6581,
+      "step": 5600
+    },
+    {
+      "epoch": 4.3678160919540225,
+      "grad_norm": 3.895615339279175,
+      "learning_rate": 4.727107279693487e-05,
+      "loss": 34.0314,
+      "step": 5700
+    },
+    {
+      "epoch": 4.444444444444445,
+      "grad_norm": 4.635524749755859,
+      "learning_rate": 4.722318007662835e-05,
+      "loss": 34.5266,
+      "step": 5800
+    },
+    {
+      "epoch": 4.521072796934866,
+      "grad_norm": 3.451066017150879,
+      "learning_rate": 4.717528735632184e-05,
+      "loss": 33.1786,
+      "step": 5900
+    },
+    {
+      "epoch": 4.597701149425287,
+      "grad_norm": 2.552107810974121,
+      "learning_rate": 4.7127394636015325e-05,
+      "loss": 33.6118,
+      "step": 6000
+    },
+    {
+      "epoch": 4.674329501915709,
+      "grad_norm": 2.359786033630371,
+      "learning_rate": 4.707998084291188e-05,
+      "loss": 33.9903,
+      "step": 6100
+    },
+    {
+      "epoch": 4.75095785440613,
+      "grad_norm": 2.2611875534057617,
+      "learning_rate": 4.703208812260537e-05,
+      "loss": 34.0762,
+      "step": 6200
+    },
+    {
+      "epoch": 4.827586206896552,
+      "grad_norm": 1.8199210166931152,
+      "learning_rate": 4.698419540229885e-05,
+      "loss": 33.6635,
+      "step": 6300
+    },
+    {
+      "epoch": 4.904214559386973,
+      "grad_norm": 2.7332305908203125,
+      "learning_rate": 4.693630268199234e-05,
+      "loss": 33.0946,
+      "step": 6400
+    },
+    {
+      "epoch": 4.980842911877395,
+      "grad_norm": 2.9454078674316406,
+      "learning_rate": 4.6888409961685824e-05,
+      "loss": 33.9173,
+      "step": 6500
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 34.924800872802734,
+      "eval_runtime": 49.3002,
+      "eval_samples_per_second": 26.47,
+      "eval_steps_per_second": 3.327,
+      "step": 6525
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 7036554515235840.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null