Training in progress, epoch 4, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +104 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c450bc0ab6aae2aa695b08c5f17070da86a392ef1d21ad63fdcff23b36b0281c
 size 1227009528

 version https://git-lfs.github.com/spec/v1
+oid sha256:43744e9d3a7df899c77712de3afb6af1a054747752266c81e6c564a6bbdfc9fc
 size 1227009528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cd17e14a85b790579fc23c4dffeabc9df3be8e2f4b9762f22e4935e57438ad2
 size 2454133690

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dc38bc58189826542c01bb812237dd78de2565f1b21ebc12593e6867e65ffec
 size 2454133690

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bff8dada29d1f5265289e75197b18e7b964b1af6e44a0a6b6522b1cf938eb114
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd03df90c7c1260e5c9a0b8fad9ec21a69a6cc6367e61c044d90f7a2513787fb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b374d94603410fd6652078786e8573cde53c3c6aef9163768dada58a03a48fd5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e03a74488d48b3a98579050f742070bcb62d3183a7aab3987e0d0c9c802d894
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 35.00273132324219,
-  "best_model_checkpoint": "/kaggle/working/output/checkpoint-3915",
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 3915,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -304,6 +304,105 @@
       "eval_samples_per_second": 26.458,
       "eval_steps_per_second": 3.325,
       "step": 3915
     }
   ],
   "logging_steps": 100,
@@ -332,7 +431,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4221932709141504.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 34.954986572265625,
+  "best_model_checkpoint": "/kaggle/working/output/checkpoint-5220",
+  "epoch": 4.0,
   "eval_steps": 500,
+  "global_step": 5220,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.458,
       "eval_steps_per_second": 3.325,
       "step": 3915
+    },
+    {
+      "epoch": 3.0651340996168583,
+      "grad_norm": 2.8833682537078857,
+      "learning_rate": 4.808477011494253e-05,
+      "loss": 34.523,
+      "step": 4000
+    },
+    {
+      "epoch": 3.1417624521072796,
+      "grad_norm": 2.8744261264801025,
+      "learning_rate": 4.803735632183908e-05,
+      "loss": 33.921,
+      "step": 4100
+    },
+    {
+      "epoch": 3.218390804597701,
+      "grad_norm": 2.928616762161255,
+      "learning_rate": 4.798946360153257e-05,
+      "loss": 33.6903,
+      "step": 4200
+    },
+    {
+      "epoch": 3.2950191570881224,
+      "grad_norm": 3.0579280853271484,
+      "learning_rate": 4.7941570881226054e-05,
+      "loss": 33.0608,
+      "step": 4300
+    },
+    {
+      "epoch": 3.371647509578544,
+      "grad_norm": 1.6688510179519653,
+      "learning_rate": 4.789367816091954e-05,
+      "loss": 33.8769,
+      "step": 4400
+    },
+    {
+      "epoch": 3.4482758620689653,
+      "grad_norm": 2.6190459728240967,
+      "learning_rate": 4.784578544061303e-05,
+      "loss": 33.2974,
+      "step": 4500
+    },
+    {
+      "epoch": 3.524904214559387,
+      "grad_norm": 2.6260671615600586,
+      "learning_rate": 4.7797892720306515e-05,
+      "loss": 34.0589,
+      "step": 4600
+    },
+    {
+      "epoch": 3.6015325670498086,
+      "grad_norm": 3.191978693008423,
+      "learning_rate": 4.775e-05,
+      "loss": 33.9493,
+      "step": 4700
+    },
+    {
+      "epoch": 3.67816091954023,
+      "grad_norm": 2.759941339492798,
+      "learning_rate": 4.770210727969349e-05,
+      "loss": 33.5936,
+      "step": 4800
+    },
+    {
+      "epoch": 3.7547892720306515,
+      "grad_norm": 2.262294054031372,
+      "learning_rate": 4.7654214559386976e-05,
+      "loss": 34.06,
+      "step": 4900
+    },
+    {
+      "epoch": 3.8314176245210727,
+      "grad_norm": 4.6808600425720215,
+      "learning_rate": 4.760632183908046e-05,
+      "loss": 34.1592,
+      "step": 5000
+    },
+    {
+      "epoch": 3.9080459770114944,
+      "grad_norm": 4.294464111328125,
+      "learning_rate": 4.755842911877395e-05,
+      "loss": 34.4652,
+      "step": 5100
+    },
+    {
+      "epoch": 3.9846743295019156,
+      "grad_norm": 2.7845072746276855,
+      "learning_rate": 4.7510536398467436e-05,
+      "loss": 34.2075,
+      "step": 5200
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 34.954986572265625,
+      "eval_runtime": 49.2865,
+      "eval_samples_per_second": 26.478,
+      "eval_steps_per_second": 3.327,
+      "step": 5220
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 5629243612188672.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null