Training in progress, step 120, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72d67265c9a443fe69b3354dfa4ae158837e22dced7d2197ec76e9fc1416d452
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:85fd3349fb0b6d9fe33609fd627bbfa198712a033c54895c31d1954fff998d2f
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18e24e09b1e55b470e3716dd0556376e6189a9a5ee317a63b79489e372305eff
 size 23159290

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ef667d6928d98b9252d546a69290d43eb4b3268ece09ea8d4b8985820baaa05
 size 23159290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fa2e51ab7a64ce18512351c5dbd00e07cf7826b590c6de414616260bdbb9965
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9fd0216f0d6187ef1dc8511dbb510792521c2906a3f52d90a5f66d2aa05fa7a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7736f824b0a772b3806e37af9e860068207311e879196bc19f8a76d97eaf6bce
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:61c2b4927e3039b26d377375be782c03ce853d193f96b5868ccf559441e84af9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7664662599563599,
-  "best_model_checkpoint": "miner_id_besimray/checkpoint-100",
-  "epoch": 1.2861736334405145,
   "eval_steps": 20,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -755,6 +755,154 @@
       "eval_samples_per_second": 21.558,
       "eval_steps_per_second": 2.235,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -783,7 +931,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.394546334728192e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7635705471038818,
+  "best_model_checkpoint": "miner_id_besimray/checkpoint-120",
+  "epoch": 1.5434083601286175,
   "eval_steps": 20,
+  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.558,
       "eval_steps_per_second": 2.235,
       "step": 100
+    },
+    {
+      "epoch": 1.2990353697749195,
+      "grad_norm": 0.27163776755332947,
+      "learning_rate": 5.4600950026045326e-05,
+      "loss": 0.8166,
+      "step": 101
+    },
+    {
+      "epoch": 1.3118971061093248,
+      "grad_norm": 0.24301646649837494,
+      "learning_rate": 5.261313375270014e-05,
+      "loss": 0.7311,
+      "step": 102
+    },
+    {
+      "epoch": 1.32475884244373,
+      "grad_norm": 0.2601422369480133,
+      "learning_rate": 5.0649178193565314e-05,
+      "loss": 0.8192,
+      "step": 103
+    },
+    {
+      "epoch": 1.337620578778135,
+      "grad_norm": 0.28303226828575134,
+      "learning_rate": 4.87100722594094e-05,
+      "loss": 0.7946,
+      "step": 104
+    },
+    {
+      "epoch": 1.3504823151125402,
+      "grad_norm": 0.25355738401412964,
+      "learning_rate": 4.6796792348466356e-05,
+      "loss": 0.7246,
+      "step": 105
+    },
+    {
+      "epoch": 1.3633440514469453,
+      "grad_norm": 0.2478146255016327,
+      "learning_rate": 4.491030185478976e-05,
+      "loss": 0.8159,
+      "step": 106
+    },
+    {
+      "epoch": 1.3762057877813505,
+      "grad_norm": 0.22157523036003113,
+      "learning_rate": 4.305155068315481e-05,
+      "loss": 0.6485,
+      "step": 107
+    },
+    {
+      "epoch": 1.3890675241157555,
+      "grad_norm": 0.28142282366752625,
+      "learning_rate": 4.12214747707527e-05,
+      "loss": 0.7363,
+      "step": 108
+    },
+    {
+      "epoch": 1.4019292604501608,
+      "grad_norm": 0.21578700840473175,
+      "learning_rate": 3.942099561591802e-05,
+      "loss": 0.6999,
+      "step": 109
+    },
+    {
+      "epoch": 1.414790996784566,
+      "grad_norm": 0.24640053510665894,
+      "learning_rate": 3.7651019814126654e-05,
+      "loss": 0.7388,
+      "step": 110
+    },
+    {
+      "epoch": 1.427652733118971,
+      "grad_norm": 0.21803902089595795,
+      "learning_rate": 3.591243860149759e-05,
+      "loss": 0.6631,
+      "step": 111
+    },
+    {
+      "epoch": 1.4405144694533762,
+      "grad_norm": 0.2544996440410614,
+      "learning_rate": 3.4206127406028745e-05,
+      "loss": 0.6946,
+      "step": 112
+    },
+    {
+      "epoch": 1.4533762057877815,
+      "grad_norm": 0.25184303522109985,
+      "learning_rate": 3.253294540679257e-05,
+      "loss": 0.6731,
+      "step": 113
+    },
+    {
+      "epoch": 1.4662379421221865,
+      "grad_norm": 0.25497835874557495,
+      "learning_rate": 3.089373510131354e-05,
+      "loss": 0.7296,
+      "step": 114
+    },
+    {
+      "epoch": 1.4790996784565915,
+      "grad_norm": 0.273090660572052,
+      "learning_rate": 2.9289321881345254e-05,
+      "loss": 0.7861,
+      "step": 115
+    },
+    {
+      "epoch": 1.4919614147909968,
+      "grad_norm": 0.278880774974823,
+      "learning_rate": 2.7720513617260856e-05,
+      "loss": 0.7271,
+      "step": 116
+    },
+    {
+      "epoch": 1.504823151125402,
+      "grad_norm": 0.2511500120162964,
+      "learning_rate": 2.6188100251265945e-05,
+      "loss": 0.6752,
+      "step": 117
+    },
+    {
+      "epoch": 1.517684887459807,
+      "grad_norm": 0.2742422819137573,
+      "learning_rate": 2.4692853399638917e-05,
+      "loss": 0.7954,
+      "step": 118
+    },
+    {
+      "epoch": 1.5305466237942122,
+      "grad_norm": 0.274632066488266,
+      "learning_rate": 2.323552596419889e-05,
+      "loss": 0.8,
+      "step": 119
+    },
+    {
+      "epoch": 1.5434083601286175,
+      "grad_norm": 0.25790005922317505,
+      "learning_rate": 2.181685175319702e-05,
+      "loss": 0.8212,
+      "step": 120
+    },
+    {
+      "epoch": 1.5434083601286175,
+      "eval_loss": 0.7635705471038818,
+      "eval_runtime": 5.7735,
+      "eval_samples_per_second": 28.406,
+      "eval_steps_per_second": 2.945,
+      "step": 120
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.858372738187264e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null