Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c1c9190f08199ff0609b272bf4812d872ecf6af7ddaae2ad14d54a949f937f8
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:72d67265c9a443fe69b3354dfa4ae158837e22dced7d2197ec76e9fc1416d452
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3ab265eb30355919991822e0cc6c38dc53b6b2d245118f01060a4abbff6110b
 size 23159290

 version https://git-lfs.github.com/spec/v1
+oid sha256:18e24e09b1e55b470e3716dd0556376e6189a9a5ee317a63b79489e372305eff
 size 23159290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d863956ee027610692953e2f8b517eb62237dedd2129c265b5b8401104a9871
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fa2e51ab7a64ce18512351c5dbd00e07cf7826b590c6de414616260bdbb9965
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed29baad6d6611c736eccf18bdd7afdc5d6f3612cde61e7bfa83472d3e2068d2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7736f824b0a772b3806e37af9e860068207311e879196bc19f8a76d97eaf6bce
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7697538137435913,
-  "best_model_checkpoint": "miner_id_besimray/checkpoint-80",
-  "epoch": 1.0289389067524115,
   "eval_steps": 20,
-  "global_step": 80,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -607,6 +607,154 @@
       "eval_samples_per_second": 24.246,
       "eval_steps_per_second": 2.513,
       "step": 80
     }
   ],
   "logging_steps": 1,
@@ -635,7 +783,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.911441083203584e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7664662599563599,
+  "best_model_checkpoint": "miner_id_besimray/checkpoint-100",
+  "epoch": 1.2861736334405145,
   "eval_steps": 20,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.246,
       "eval_steps_per_second": 2.513,
       "step": 80
+    },
+    {
+      "epoch": 1.0418006430868167,
+      "grad_norm": 0.21907751262187958,
+      "learning_rate": 9.775619357041952e-05,
+      "loss": 0.6622,
+      "step": 81
+    },
+    {
+      "epoch": 1.0546623794212218,
+      "grad_norm": 0.2108103632926941,
+      "learning_rate": 9.551351696494854e-05,
+      "loss": 0.6832,
+      "step": 82
+    },
+    {
+      "epoch": 1.067524115755627,
+      "grad_norm": 0.21840904653072357,
+      "learning_rate": 9.327309943879604e-05,
+      "loss": 0.7518,
+      "step": 83
+    },
+    {
+      "epoch": 1.0803858520900322,
+      "grad_norm": 0.23524457216262817,
+      "learning_rate": 9.103606910965666e-05,
+      "loss": 0.7071,
+      "step": 84
+    },
+    {
+      "epoch": 1.0932475884244373,
+      "grad_norm": 0.2435670644044876,
+      "learning_rate": 8.880355238966923e-05,
+      "loss": 0.7268,
+      "step": 85
+    },
+    {
+      "epoch": 1.1061093247588425,
+      "grad_norm": 0.208921417593956,
+      "learning_rate": 8.657667341823448e-05,
+      "loss": 0.6816,
+      "step": 86
+    },
+    {
+      "epoch": 1.1189710610932475,
+      "grad_norm": 0.2085571438074112,
+      "learning_rate": 8.435655349597689e-05,
+      "loss": 0.6773,
+      "step": 87
+    },
+    {
+      "epoch": 1.1318327974276527,
+      "grad_norm": 0.2277572900056839,
+      "learning_rate": 8.214431052013634e-05,
+      "loss": 0.7188,
+      "step": 88
+    },
+    {
+      "epoch": 1.144694533762058,
+      "grad_norm": 0.24401521682739258,
+      "learning_rate": 7.994105842167273e-05,
+      "loss": 0.6896,
+      "step": 89
+    },
+    {
+      "epoch": 1.157556270096463,
+      "grad_norm": 0.23171570897102356,
+      "learning_rate": 7.774790660436858e-05,
+      "loss": 0.6567,
+      "step": 90
+    },
+    {
+      "epoch": 1.1704180064308682,
+      "grad_norm": 0.2330271154642105,
+      "learning_rate": 7.556595938621058e-05,
+      "loss": 0.7833,
+      "step": 91
+    },
+    {
+      "epoch": 1.1832797427652733,
+      "grad_norm": 0.23862923681735992,
+      "learning_rate": 7.339631544333249e-05,
+      "loss": 0.6973,
+      "step": 92
+    },
+    {
+      "epoch": 1.1961414790996785,
+      "grad_norm": 0.2100347876548767,
+      "learning_rate": 7.124006725679828e-05,
+      "loss": 0.6078,
+      "step": 93
+    },
+    {
+      "epoch": 1.2090032154340835,
+      "grad_norm": 0.21575500071048737,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 0.6561,
+      "step": 94
+    },
+    {
+      "epoch": 1.2218649517684887,
+      "grad_norm": 0.2418583333492279,
+      "learning_rate": 6.697209380448333e-05,
+      "loss": 0.732,
+      "step": 95
+    },
+    {
+      "epoch": 1.234726688102894,
+      "grad_norm": 0.22877807915210724,
+      "learning_rate": 6.486251759186572e-05,
+      "loss": 0.6474,
+      "step": 96
+    },
+    {
+      "epoch": 1.247588424437299,
+      "grad_norm": 0.24375984072685242,
+      "learning_rate": 6.277063415980549e-05,
+      "loss": 0.7595,
+      "step": 97
+    },
+    {
+      "epoch": 1.2604501607717042,
+      "grad_norm": 0.21191298961639404,
+      "learning_rate": 6.069749683460765e-05,
+      "loss": 0.6969,
+      "step": 98
+    },
+    {
+      "epoch": 1.2733118971061093,
+      "grad_norm": 0.2615202069282532,
+      "learning_rate": 5.864414950334796e-05,
+      "loss": 0.7311,
+      "step": 99
+    },
+    {
+      "epoch": 1.2861736334405145,
+      "grad_norm": 0.2501668930053711,
+      "learning_rate": 5.6611626088244194e-05,
+      "loss": 0.7258,
+      "step": 100
+    },
+    {
+      "epoch": 1.2861736334405145,
+      "eval_loss": 0.7664662599563599,
+      "eval_runtime": 7.6076,
+      "eval_samples_per_second": 21.558,
+      "eval_steps_per_second": 2.235,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.394546334728192e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null