Training in progress, step 279, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +215 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d03be7cd88f841328a915192c41c5230d9dca513190e2fe330b82acac365c837
 size 78480072

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3e4eb2b85b34775dda40d612d8e0e0fef4dd234a5021de12dd66d4d842bfe2e
 size 78480072

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:def033ca616a262ca52681afe9bcce7f1179e5df7160ed8d9aecca176fb57a66
 size 157104826

 version https://git-lfs.github.com/spec/v1
+oid sha256:8fc12d556dd8950cac42d8a8e2a85b02939dc0486f0de7537f7dd46d2022b6e7
 size 157104826

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07d39337f30b730c860666e174e427e0055432130190b901f313c33485b2842d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:abf148214261af1951ab5cd5cec16e89c9a503c9a6d288ec5a3ee096d6ee1f54
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f62a2b7b80424390be488e4fe1a2355752b2472c2cc007b9b58ab8f8c8cce220
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:df88d9a2fa8f6aa22628bd0a19f8f680f15f56bd367aca8ac1af6d2eda14e4e8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.49775421619415283,
   "best_model_checkpoint": "miner_id_24/checkpoint-250",
-  "epoch": 3.5906642728904847,
   "eval_steps": 25,
-  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1845,6 +1845,217 @@
       "eval_samples_per_second": 15.333,
       "eval_steps_per_second": 2.147,
       "step": 250
     }
   ],
   "logging_steps": 1,
@@ -1868,12 +2079,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 7.866513605473075e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.49775421619415283,
   "best_model_checkpoint": "miner_id_24/checkpoint-250",
+  "epoch": 4.007181328545781,
   "eval_steps": 25,
+  "global_step": 279,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.333,
       "eval_steps_per_second": 2.147,
       "step": 250
+    },
+    {
+      "epoch": 3.6050269299820465,
+      "grad_norm": 3.0492210388183594,
+      "learning_rate": 1.2438224123471442e-05,
+      "loss": 0.3956,
+      "step": 251
+    },
+    {
+      "epoch": 3.6193895870736084,
+      "grad_norm": 2.8214497566223145,
+      "learning_rate": 1.2268627707128812e-05,
+      "loss": 0.3482,
+      "step": 252
+    },
+    {
+      "epoch": 3.6337522441651706,
+      "grad_norm": 2.3415520191192627,
+      "learning_rate": 1.210499173001039e-05,
+      "loss": 0.3028,
+      "step": 253
+    },
+    {
+      "epoch": 3.6481149012567324,
+      "grad_norm": 2.5095021724700928,
+      "learning_rate": 1.194733901708629e-05,
+      "loss": 0.2931,
+      "step": 254
+    },
+    {
+      "epoch": 3.6624775583482947,
+      "grad_norm": 2.4495046138763428,
+      "learning_rate": 1.1795691558743535e-05,
+      "loss": 0.2587,
+      "step": 255
+    },
+    {
+      "epoch": 3.6768402154398565,
+      "grad_norm": 2.3127005100250244,
+      "learning_rate": 1.1650070507718633e-05,
+      "loss": 0.2124,
+      "step": 256
+    },
+    {
+      "epoch": 3.6912028725314183,
+      "grad_norm": 2.227742910385132,
+      "learning_rate": 1.1510496176147086e-05,
+      "loss": 0.1828,
+      "step": 257
+    },
+    {
+      "epoch": 3.70556552962298,
+      "grad_norm": 1.9458461999893188,
+      "learning_rate": 1.1376988032730134e-05,
+      "loss": 0.1345,
+      "step": 258
+    },
+    {
+      "epoch": 3.719928186714542,
+      "grad_norm": 1.859049916267395,
+      "learning_rate": 1.1249564700019125e-05,
+      "loss": 0.0947,
+      "step": 259
+    },
+    {
+      "epoch": 3.734290843806104,
+      "grad_norm": 1.2114741802215576,
+      "learning_rate": 1.1128243951817937e-05,
+      "loss": 0.1815,
+      "step": 260
+    },
+    {
+      "epoch": 3.748653500897666,
+      "grad_norm": 2.4042224884033203,
+      "learning_rate": 1.1013042710703766e-05,
+      "loss": 0.8597,
+      "step": 261
+    },
+    {
+      "epoch": 3.7630161579892283,
+      "grad_norm": 2.3829939365386963,
+      "learning_rate": 1.0903977045666654e-05,
+      "loss": 0.7914,
+      "step": 262
+    },
+    {
+      "epoch": 3.77737881508079,
+      "grad_norm": 2.3067331314086914,
+      "learning_rate": 1.0801062169868106e-05,
+      "loss": 0.5984,
+      "step": 263
+    },
+    {
+      "epoch": 3.791741472172352,
+      "grad_norm": 2.29392671585083,
+      "learning_rate": 1.0704312438519058e-05,
+      "loss": 0.531,
+      "step": 264
+    },
+    {
+      "epoch": 3.8061041292639137,
+      "grad_norm": 2.4506468772888184,
+      "learning_rate": 1.0613741346877497e-05,
+      "loss": 0.4849,
+      "step": 265
+    },
+    {
+      "epoch": 3.8204667863554755,
+      "grad_norm": 2.338438034057617,
+      "learning_rate": 1.0529361528366089e-05,
+      "loss": 0.4381,
+      "step": 266
+    },
+    {
+      "epoch": 3.834829443447038,
+      "grad_norm": 2.8582491874694824,
+      "learning_rate": 1.0451184752809978e-05,
+      "loss": 0.4172,
+      "step": 267
+    },
+    {
+      "epoch": 3.8491921005385996,
+      "grad_norm": 2.70757794380188,
+      "learning_rate": 1.0379221924795052e-05,
+      "loss": 0.389,
+      "step": 268
+    },
+    {
+      "epoch": 3.8635547576301614,
+      "grad_norm": 2.733470916748047,
+      "learning_rate": 1.031348308214692e-05,
+      "loss": 0.3339,
+      "step": 269
+    },
+    {
+      "epoch": 3.8779174147217237,
+      "grad_norm": 2.574880361557007,
+      "learning_rate": 1.0253977394530751e-05,
+      "loss": 0.2985,
+      "step": 270
+    },
+    {
+      "epoch": 3.8922800718132855,
+      "grad_norm": 2.384779453277588,
+      "learning_rate": 1.0200713162172245e-05,
+      "loss": 0.313,
+      "step": 271
+    },
+    {
+      "epoch": 3.9066427289048473,
+      "grad_norm": 2.192976713180542,
+      "learning_rate": 1.0153697814699859e-05,
+      "loss": 0.2477,
+      "step": 272
+    },
+    {
+      "epoch": 3.921005385996409,
+      "grad_norm": 2.00533127784729,
+      "learning_rate": 1.0112937910108495e-05,
+      "loss": 0.2028,
+      "step": 273
+    },
+    {
+      "epoch": 3.9353680430879714,
+      "grad_norm": 1.7238686084747314,
+      "learning_rate": 1.0078439133844709e-05,
+      "loss": 0.1615,
+      "step": 274
+    },
+    {
+      "epoch": 3.949730700179533,
+      "grad_norm": 1.5112303495407104,
+      "learning_rate": 1.0050206298013732e-05,
+      "loss": 0.13,
+      "step": 275
+    },
+    {
+      "epoch": 3.949730700179533,
+      "eval_loss": 0.46412649750709534,
+      "eval_runtime": 3.284,
+      "eval_samples_per_second": 15.225,
+      "eval_steps_per_second": 2.132,
+      "step": 275
+    },
+    {
+      "epoch": 3.964093357271095,
+      "grad_norm": 1.2303223609924316,
+      "learning_rate": 1.0028243340708174e-05,
+      "loss": 0.097,
+      "step": 276
+    },
+    {
+      "epoch": 3.9784560143626573,
+      "grad_norm": 1.2757847309112549,
+      "learning_rate": 1.0012553325458767e-05,
+      "loss": 0.2561,
+      "step": 277
+    },
+    {
+      "epoch": 3.992818671454219,
+      "grad_norm": 1.8387738466262817,
+      "learning_rate": 1.0003138440807033e-05,
+      "loss": 0.3984,
+      "step": 278
+    },
+    {
+      "epoch": 4.007181328545781,
+      "grad_norm": 1.8089104890823364,
+      "learning_rate": 1e-05,
+      "loss": 0.5447,
+      "step": 279
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 8.77822740680147e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null