Training in progress, step 23500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40edcfcd3eadd3934df8237241fafe734256be703a0e3946a4e6ee14e6bf5a22
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:33122d71cdf7165052a6451b4b890be19eede04be5a6b00cb6a95a1eef2edf2f
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d296490c405857ea96e4fbe1deae357928a09b842487dd9e87ba7f64056b04e
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:79ab7fc909db5811b643181df3c63513f79ba22ba389b4afec1eac2809371c99
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b5df9c2ed680cbe1eadef613230eab99b9589effb616e86f824a6c4d292f402
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:909694fbb2ac6b6563f3c5bf7a09371dca2d67c279250546522e439c69924143
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5dcf2c6dc0ad63a4d7cbede289213f75c3cbabb91c5c15238e6438903f0efdfd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a84f776b40f88d7bc189cfa4b1f3b071349677635e65ce7ce8b5d9881aaebec8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.0815029963850975,
   "best_model_checkpoint": "./fine-tuned/checkpoint-22500",
-  "epoch": 1.8399999999999999,
   "eval_steps": 500,
-  "global_step": 23000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3595,6 +3595,84 @@
       "eval_samples_per_second": 22.708,
       "eval_steps_per_second": 5.677,
       "step": 23000
     }
   ],
   "logging_steps": 50,
@@ -3614,7 +3692,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.602412593152e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.0815029963850975,
   "best_model_checkpoint": "./fine-tuned/checkpoint-22500",
+  "epoch": 1.88,
   "eval_steps": 500,
+  "global_step": 23500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.708,
       "eval_steps_per_second": 5.677,
       "step": 23000
+    },
+    {
+      "epoch": 1.8439999999999999,
+      "grad_norm": 0.2026013433933258,
+      "learning_rate": 2.3496e-06,
+      "loss": 0.0526,
+      "step": 23050
+    },
+    {
+      "epoch": 1.8479999999999999,
+      "grad_norm": 0.1372475028038025,
+      "learning_rate": 2.2896e-06,
+      "loss": 0.057,
+      "step": 23100
+    },
+    {
+      "epoch": 1.8519999999999999,
+      "grad_norm": 0.13629719614982605,
+      "learning_rate": 2.2296e-06,
+      "loss": 0.0576,
+      "step": 23150
+    },
+    {
+      "epoch": 1.8559999999999999,
+      "grad_norm": 0.2135656774044037,
+      "learning_rate": 2.1696e-06,
+      "loss": 0.0571,
+      "step": 23200
+    },
+    {
+      "epoch": 1.8599999999999999,
+      "grad_norm": 0.1738504022359848,
+      "learning_rate": 2.1095999999999997e-06,
+      "loss": 0.054,
+      "step": 23250
+    },
+    {
+      "epoch": 1.8639999999999999,
+      "grad_norm": 0.17974117398262024,
+      "learning_rate": 2.0496000000000002e-06,
+      "loss": 0.0551,
+      "step": 23300
+    },
+    {
+      "epoch": 1.8679999999999999,
+      "grad_norm": 0.16323037445545197,
+      "learning_rate": 1.9896e-06,
+      "loss": 0.0515,
+      "step": 23350
+    },
+    {
+      "epoch": 1.8719999999999999,
+      "grad_norm": 0.11057537794113159,
+      "learning_rate": 1.9296e-06,
+      "loss": 0.0564,
+      "step": 23400
+    },
+    {
+      "epoch": 1.876,
+      "grad_norm": 0.1545117348432541,
+      "learning_rate": 1.8696e-06,
+      "loss": 0.0508,
+      "step": 23450
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.25704920291900635,
+      "learning_rate": 1.8096e-06,
+      "loss": 0.0521,
+      "step": 23500
+    },
+    {
+      "epoch": 1.88,
+      "eval_loss": 0.08151672035455704,
+      "eval_runtime": 88.0934,
+      "eval_samples_per_second": 22.703,
+      "eval_steps_per_second": 5.676,
+      "step": 23500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.724204171264e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null