Training in progress, step 24000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33122d71cdf7165052a6451b4b890be19eede04be5a6b00cb6a95a1eef2edf2f
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f9311e2550653c7cfff27cdfcd9ae1c1ccbbeaa1e9481e382a45fb1ada32568
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79ab7fc909db5811b643181df3c63513f79ba22ba389b4afec1eac2809371c99
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b0751212d7784f97747445314fe884f391f2159de9683d5358f326eecd2a4d1
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:909694fbb2ac6b6563f3c5bf7a09371dca2d67c279250546522e439c69924143
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d17b897621ac09187e8d36f4eeef5f19583342b14705476fa86e2dbea16377ec
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a84f776b40f88d7bc189cfa4b1f3b071349677635e65ce7ce8b5d9881aaebec8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed5584b494a8ffe5156189ac2ab8d1dfe54f3dfebb02cc807c1073c45dc03931
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.0815029963850975,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-22500",
-  "epoch": 1.88,
   "eval_steps": 500,
-  "global_step": 23500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3673,6 +3673,84 @@
       "eval_samples_per_second": 22.703,
       "eval_steps_per_second": 5.676,
       "step": 23500
     }
   ],
   "logging_steps": 50,
@@ -3692,7 +3770,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.724204171264e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08148019760847092,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-24000",
+  "epoch": 1.92,
   "eval_steps": 500,
+  "global_step": 24000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.703,
       "eval_steps_per_second": 5.676,
       "step": 23500
+    },
+    {
+      "epoch": 1.884,
+      "grad_norm": 0.10899360477924347,
+      "learning_rate": 1.7496e-06,
+      "loss": 0.0558,
+      "step": 23550
+    },
+    {
+      "epoch": 1.888,
+      "grad_norm": 0.09025511890649796,
+      "learning_rate": 1.6896e-06,
+      "loss": 0.0582,
+      "step": 23600
+    },
+    {
+      "epoch": 1.892,
+      "grad_norm": 0.11647246032953262,
+      "learning_rate": 1.6296e-06,
+      "loss": 0.0518,
+      "step": 23650
+    },
+    {
+      "epoch": 1.896,
+      "grad_norm": 0.15982107818126678,
+      "learning_rate": 1.5696e-06,
+      "loss": 0.0535,
+      "step": 23700
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 0.15808264911174774,
+      "learning_rate": 1.5096e-06,
+      "loss": 0.0557,
+      "step": 23750
+    },
+    {
+      "epoch": 1.904,
+      "grad_norm": 0.12610608339309692,
+      "learning_rate": 1.4496e-06,
+      "loss": 0.0547,
+      "step": 23800
+    },
+    {
+      "epoch": 1.908,
+      "grad_norm": 0.10674013942480087,
+      "learning_rate": 1.3896e-06,
+      "loss": 0.0506,
+      "step": 23850
+    },
+    {
+      "epoch": 1.912,
+      "grad_norm": 0.15550707280635834,
+      "learning_rate": 1.3296e-06,
+      "loss": 0.0576,
+      "step": 23900
+    },
+    {
+      "epoch": 1.916,
+      "grad_norm": 0.12588605284690857,
+      "learning_rate": 1.2696e-06,
+      "loss": 0.0566,
+      "step": 23950
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 0.1209346354007721,
+      "learning_rate": 1.2096e-06,
+      "loss": 0.0564,
+      "step": 24000
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 0.08148019760847092,
+      "eval_runtime": 88.0412,
+      "eval_samples_per_second": 22.717,
+      "eval_steps_per_second": 5.679,
+      "step": 24000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.845995749376e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null