Training in progress, epoch 9, checkpoint

Files changed (5) hide show

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:148108680e1c355b14ff9c8fdb0b036b9dd0b4f80824bbb97e6841ea7bbccd5f
 size 2610104820

 version https://git-lfs.github.com/spec/v1
+oid sha256:e28c72beb1acad11718cf70f833baa11d22a709648c8bcee9bf0c1540a3d3341
 size 2610104820

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a3a5760f9f6911291b319348564ca8aeff757b71959b72ee1ba089d86df01c8
 size 5210004271

 version https://git-lfs.github.com/spec/v1
+oid sha256:7977ea558a8e8da98dd9f5dd4cfd83e2947d4244886ce537ca44c985eb4832a2
 size 5210004271

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a73f4ec8cc461fdcad0bea4ca4995104cb70648550f70c0efd1720de2eef3ad
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:f75193245e65869ca07a16a2caab41ba86286fcae28542136bb36df639a39935
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a76d1e97e3814aeb3d609132d6f8310077a0cb3a51a73e991f39e961364cd916
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:69e7a70b99a4ca390e08d8c14e39ca3fc804d75e54a2b4300e5640fb55822343
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.5642563700675964,
-  "best_model_checkpoint": "mgh6/HTH_pssm/checkpoint-800",
-  "epoch": 8.0,
   "eval_steps": 50,
-  "global_step": 872,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -262,6 +262,36 @@
       "eval_samples_per_second": 42.927,
       "eval_steps_per_second": 21.463,
       "step": 850
     }
   ],
   "logging_steps": 50,

 {
+  "best_metric": 0.5641968250274658,
+  "best_model_checkpoint": "mgh6/HTH_pssm/checkpoint-900",
+  "epoch": 9.0,
   "eval_steps": 50,
+  "global_step": 981,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 42.927,
       "eval_steps_per_second": 21.463,
       "step": 850
+    },
+    {
+      "epoch": 8.2582504683672,
+      "grad_norm": 0.01695585809648037,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.5335,
+      "step": 900
+    },
+    {
+      "epoch": 8.2582504683672,
+      "eval_loss": 0.5641968250274658,
+      "eval_runtime": 8.5378,
+      "eval_samples_per_second": 42.868,
+      "eval_steps_per_second": 21.434,
+      "step": 900
+    },
+    {
+      "epoch": 8.719412019022913,
+      "grad_norm": 0.03029218688607216,
+      "learning_rate": 1.2037037037037037e-05,
+      "loss": 0.5407,
+      "step": 950
+    },
+    {
+      "epoch": 8.719412019022913,
+      "eval_loss": 0.5642545223236084,
+      "eval_runtime": 8.5373,
+      "eval_samples_per_second": 42.871,
+      "eval_steps_per_second": 21.435,
+      "step": 950
     }
   ],
   "logging_steps": 50,