Training in progress, step 40, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8b1531d957d0a56511b821d5a6aacb3aac6ba6ab36a3763cb2d4f6efb143b6d
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:16f0d7332dfed6a4a63efcdfd07c10cf2197b210dee61d9ad4914ec6596dbbed
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55fc13f1d6ea075e0a96a6f1f3f3a01add3e27d169d777b14af7e8b85c9c104b
 size 1279647314

 version https://git-lfs.github.com/spec/v1
+oid sha256:3242aad940a9c39b3529ce253f008669cb0597966c8ed6307a2ce6975a64142b
 size 1279647314

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:036c6d1ced8df685be210cfe4df2afa6b83c3adf7f10c172c0f285238a3beda8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f2026c5de2a90763e8e8281319b30d28dd1bb90121002f251649da42d60e056
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b1ece0846e2afe71b4b44981fd9a82ee7e8be48b72c44e6ff1c690617d2b724
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e5fc52ecbc811cf8c3969c1073ba49c5ec4288905574552319850bcb54c0249
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.6746580600738525,
-  "best_model_checkpoint": "miner_id_24/checkpoint-20",
-  "epoch": 0.006333498268184067,
   "eval_steps": 20,
-  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -163,6 +163,154 @@
       "eval_samples_per_second": 2.653,
       "eval_steps_per_second": 2.653,
       "step": 20
     }
   ],
   "logging_steps": 1,
@@ -191,7 +339,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.756620932297523e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.529219627380371,
+  "best_model_checkpoint": "miner_id_24/checkpoint-40",
+  "epoch": 0.012666996536368134,
   "eval_steps": 20,
+  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.653,
       "eval_steps_per_second": 2.653,
       "step": 20
+    },
+    {
+      "epoch": 0.0066501731815932705,
+      "grad_norm": 0.7943449020385742,
+      "learning_rate": 4.2e-05,
+      "loss": 2.6219,
+      "step": 21
+    },
+    {
+      "epoch": 0.006966848095002474,
+      "grad_norm": 0.7790957689285278,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 2.5103,
+      "step": 22
+    },
+    {
+      "epoch": 0.007283523008411678,
+      "grad_norm": 0.7326317429542542,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 2.4827,
+      "step": 23
+    },
+    {
+      "epoch": 0.00760019792182088,
+      "grad_norm": 0.7278855443000793,
+      "learning_rate": 4.8e-05,
+      "loss": 2.4126,
+      "step": 24
+    },
+    {
+      "epoch": 0.007916872835230085,
+      "grad_norm": 0.7726553678512573,
+      "learning_rate": 5e-05,
+      "loss": 2.4046,
+      "step": 25
+    },
+    {
+      "epoch": 0.008233547748639287,
+      "grad_norm": 0.7696128487586975,
+      "learning_rate": 5.2000000000000004e-05,
+      "loss": 2.5753,
+      "step": 26
+    },
+    {
+      "epoch": 0.00855022266204849,
+      "grad_norm": 0.8221985697746277,
+      "learning_rate": 5.4000000000000005e-05,
+      "loss": 2.7203,
+      "step": 27
+    },
+    {
+      "epoch": 0.008866897575457694,
+      "grad_norm": 0.8378767371177673,
+      "learning_rate": 5.6000000000000006e-05,
+      "loss": 2.6197,
+      "step": 28
+    },
+    {
+      "epoch": 0.009183572488866898,
+      "grad_norm": 0.8172261118888855,
+      "learning_rate": 5.8e-05,
+      "loss": 2.4763,
+      "step": 29
+    },
+    {
+      "epoch": 0.009500247402276101,
+      "grad_norm": 0.766254723072052,
+      "learning_rate": 6e-05,
+      "loss": 2.5404,
+      "step": 30
+    },
+    {
+      "epoch": 0.009816922315685305,
+      "grad_norm": 0.8601265549659729,
+      "learning_rate": 6.2e-05,
+      "loss": 2.7159,
+      "step": 31
+    },
+    {
+      "epoch": 0.010133597229094508,
+      "grad_norm": 0.862657904624939,
+      "learning_rate": 6.400000000000001e-05,
+      "loss": 2.4799,
+      "step": 32
+    },
+    {
+      "epoch": 0.01045027214250371,
+      "grad_norm": 0.8857929706573486,
+      "learning_rate": 6.6e-05,
+      "loss": 2.5324,
+      "step": 33
+    },
+    {
+      "epoch": 0.010766947055912914,
+      "grad_norm": 0.916630744934082,
+      "learning_rate": 6.800000000000001e-05,
+      "loss": 2.6486,
+      "step": 34
+    },
+    {
+      "epoch": 0.011083621969322117,
+      "grad_norm": 0.9253357648849487,
+      "learning_rate": 7e-05,
+      "loss": 2.5913,
+      "step": 35
+    },
+    {
+      "epoch": 0.011400296882731321,
+      "grad_norm": 0.9131091237068176,
+      "learning_rate": 7.2e-05,
+      "loss": 2.3062,
+      "step": 36
+    },
+    {
+      "epoch": 0.011716971796140525,
+      "grad_norm": 0.908059298992157,
+      "learning_rate": 7.4e-05,
+      "loss": 2.4921,
+      "step": 37
+    },
+    {
+      "epoch": 0.012033646709549728,
+      "grad_norm": 0.9732745885848999,
+      "learning_rate": 7.6e-05,
+      "loss": 2.6578,
+      "step": 38
+    },
+    {
+      "epoch": 0.012350321622958932,
+      "grad_norm": 0.8774698972702026,
+      "learning_rate": 7.800000000000001e-05,
+      "loss": 2.5082,
+      "step": 39
+    },
+    {
+      "epoch": 0.012666996536368134,
+      "grad_norm": 1.0928329229354858,
+      "learning_rate": 8e-05,
+      "loss": 2.6549,
+      "step": 40
+    },
+    {
+      "epoch": 0.012666996536368134,
+      "eval_loss": 2.529219627380371,
+      "eval_runtime": 191.2367,
+      "eval_samples_per_second": 2.656,
+      "eval_steps_per_second": 2.656,
+      "step": 40
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.417612480820019e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null