Training in progress, step 133, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +243 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d8dc624f9acde36326176980a154822516d424136b09a181311475a15744e63
 size 78480072

 version https://git-lfs.github.com/spec/v1
+oid sha256:98db3ed9bea4ffa9f3e6f5de6e859c44234a7d58c3e546271c05c1bd29d14e0e
 size 78480072

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f397ad9601328571f197af011d9d50fea539c1a183e716af85ff04152a683465
 size 157104826

 version https://git-lfs.github.com/spec/v1
+oid sha256:59dca352a9920089bd19272da4368db923b95fe6eddff52d37471628cef40360
 size 157104826

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:658d33ef902b1dedc073e9d1bbbd14ca7725ea2c0676e92250f191f18c3878d3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:85702cced7cfdb220c2b7edaa9f20135c968ecc9021f4b21eef404719d23c6cd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b969cb3da1b61540c213ebf9a9134bb0b4ecf274ba2793440c21dcfe3464f533
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ec0c9b71bfc5d41045936414bd8985d97d970e02f84be007a006f11855b68af
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.02247953414917,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.12924071082390953,
   "eval_steps": 25,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -747,6 +747,245 @@
       "eval_samples_per_second": 9.439,
       "eval_steps_per_second": 9.439,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -770,12 +1009,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 7.87020276301824e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.02247953414917,
   "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.17189014539579967,
   "eval_steps": 25,
+  "global_step": 133,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.439,
       "eval_steps_per_second": 9.439,
       "step": 100
+    },
+    {
+      "epoch": 0.13053311793214864,
+      "grad_norm": 0.36377787590026855,
+      "learning_rate": 5.699511691628639e-05,
+      "loss": 0.9368,
+      "step": 101
+    },
+    {
+      "epoch": 0.13182552504038772,
+      "grad_norm": 0.3719994127750397,
+      "learning_rate": 5.511977500775052e-05,
+      "loss": 1.0211,
+      "step": 102
+    },
+    {
+      "epoch": 0.13311793214862683,
+      "grad_norm": 0.3707346022129059,
+      "learning_rate": 5.329254083075112e-05,
+      "loss": 0.9783,
+      "step": 103
+    },
+    {
+      "epoch": 0.1344103392568659,
+      "grad_norm": 0.36826223134994507,
+      "learning_rate": 5.151448143859205e-05,
+      "loss": 0.9802,
+      "step": 104
+    },
+    {
+      "epoch": 0.13570274636510501,
+      "grad_norm": 0.36664366722106934,
+      "learning_rate": 4.978663516788749e-05,
+      "loss": 1.0115,
+      "step": 105
+    },
+    {
+      "epoch": 0.1369951534733441,
+      "grad_norm": 0.36409223079681396,
+      "learning_rate": 4.811001103220266e-05,
+      "loss": 1.0589,
+      "step": 106
+    },
+    {
+      "epoch": 0.1382875605815832,
+      "grad_norm": 0.3501863479614258,
+      "learning_rate": 4.6485588132818434e-05,
+      "loss": 1.0006,
+      "step": 107
+    },
+    {
+      "epoch": 0.13957996768982228,
+      "grad_norm": 0.3493867516517639,
+      "learning_rate": 4.4914315086963665e-05,
+      "loss": 1.0094,
+      "step": 108
+    },
+    {
+      "epoch": 0.1408723747980614,
+      "grad_norm": 0.35538920760154724,
+      "learning_rate": 4.339710947384949e-05,
+      "loss": 1.0153,
+      "step": 109
+    },
+    {
+      "epoch": 0.1421647819063005,
+      "grad_norm": 0.36491742730140686,
+      "learning_rate": 4.193485729882891e-05,
+      "loss": 1.0412,
+      "step": 110
+    },
+    {
+      "epoch": 0.14345718901453958,
+      "grad_norm": 0.36901021003723145,
+      "learning_rate": 4.052841247599446e-05,
+      "loss": 1.0098,
+      "step": 111
+    },
+    {
+      "epoch": 0.14474959612277868,
+      "grad_norm": 0.380164235830307,
+      "learning_rate": 3.9178596329516735e-05,
+      "loss": 1.0856,
+      "step": 112
+    },
+    {
+      "epoch": 0.14604200323101776,
+      "grad_norm": 0.3649565577507019,
+      "learning_rate": 3.78861971140139e-05,
+      "loss": 1.0262,
+      "step": 113
+    },
+    {
+      "epoch": 0.14733441033925687,
+      "grad_norm": 0.37567245960235596,
+      "learning_rate": 3.6651969554233325e-05,
+      "loss": 1.0776,
+      "step": 114
+    },
+    {
+      "epoch": 0.14862681744749595,
+      "grad_norm": 0.3666926622390747,
+      "learning_rate": 3.5476634404313645e-05,
+      "loss": 0.9935,
+      "step": 115
+    },
+    {
+      "epoch": 0.14991922455573506,
+      "grad_norm": 0.37592780590057373,
+      "learning_rate": 3.436087802688448e-05,
+      "loss": 1.0594,
+      "step": 116
+    },
+    {
+      "epoch": 0.15121163166397414,
+      "grad_norm": 0.3706028163433075,
+      "learning_rate": 3.330535199225016e-05,
+      "loss": 1.0206,
+      "step": 117
+    },
+    {
+      "epoch": 0.15250403877221325,
+      "grad_norm": 0.38433101773262024,
+      "learning_rate": 3.231067269789085e-05,
+      "loss": 1.0791,
+      "step": 118
+    },
+    {
+      "epoch": 0.15379644588045235,
+      "grad_norm": 0.3920274078845978,
+      "learning_rate": 3.137742100850389e-05,
+      "loss": 1.0546,
+      "step": 119
+    },
+    {
+      "epoch": 0.15508885298869143,
+      "grad_norm": 0.38755470514297485,
+      "learning_rate": 3.0506141916795233e-05,
+      "loss": 1.0496,
+      "step": 120
+    },
+    {
+      "epoch": 0.15638126009693054,
+      "grad_norm": 0.38180747628211975,
+      "learning_rate": 2.9697344225218805e-05,
+      "loss": 1.0409,
+      "step": 121
+    },
+    {
+      "epoch": 0.15767366720516962,
+      "grad_norm": 0.38283225893974304,
+      "learning_rate": 2.8951500248850473e-05,
+      "loss": 1.1025,
+      "step": 122
+    },
+    {
+      "epoch": 0.15896607431340873,
+      "grad_norm": 0.39247995615005493,
+      "learning_rate": 2.826904553956915e-05,
+      "loss": 1.0607,
+      "step": 123
+    },
+    {
+      "epoch": 0.1602584814216478,
+      "grad_norm": 0.3813554048538208,
+      "learning_rate": 2.7650378631706888e-05,
+      "loss": 1.0681,
+      "step": 124
+    },
+    {
+      "epoch": 0.16155088852988692,
+      "grad_norm": 0.38495323061943054,
+      "learning_rate": 2.709586080931599e-05,
+      "loss": 1.0247,
+      "step": 125
+    },
+    {
+      "epoch": 0.16155088852988692,
+      "eval_loss": 1.0126595497131348,
+      "eval_runtime": 5.2902,
+      "eval_samples_per_second": 9.451,
+      "eval_steps_per_second": 9.451,
+      "step": 125
+    },
+    {
+      "epoch": 0.16284329563812602,
+      "grad_norm": 0.38048914074897766,
+      "learning_rate": 2.6605815895189287e-05,
+      "loss": 0.9995,
+      "step": 126
+    },
+    {
+      "epoch": 0.1641357027463651,
+      "grad_norm": 0.3828051686286926,
+      "learning_rate": 2.618053006175675e-05,
+      "loss": 1.0404,
+      "step": 127
+    },
+    {
+      "epoch": 0.1654281098546042,
+      "grad_norm": 0.3885887563228607,
+      "learning_rate": 2.582025166396893e-05,
+      "loss": 1.0402,
+      "step": 128
+    },
+    {
+      "epoch": 0.1667205169628433,
+      "grad_norm": 0.38757041096687317,
+      "learning_rate": 2.552519109426453e-05,
+      "loss": 1.0203,
+      "step": 129
+    },
+    {
+      "epoch": 0.1680129240710824,
+      "grad_norm": 0.3830198645591736,
+      "learning_rate": 2.529552065970726e-05,
+      "loss": 1.0256,
+      "step": 130
+    },
+    {
+      "epoch": 0.16930533117932148,
+      "grad_norm": 0.38863909244537354,
+      "learning_rate": 2.5131374481363254e-05,
+      "loss": 1.0731,
+      "step": 131
+    },
+    {
+      "epoch": 0.17059773828756059,
+      "grad_norm": 0.39180222153663635,
+      "learning_rate": 2.5032848415978297e-05,
+      "loss": 1.0099,
+      "step": 132
+    },
+    {
+      "epoch": 0.17189014539579967,
+      "grad_norm": 0.41591089963912964,
+      "learning_rate": 2.5e-05,
+      "loss": 1.0978,
+      "step": 133
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.046736967481426e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null