Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9580f23f6650701b8c5c6baa7b6251793876fc45c8700caf4e48d91b6ad89806
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:96ccc5b9ac087dba0f10fdc4d5342763320b3d393d47476a061e07710ee9b638
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5a855a05342866a4aba16944f07a8978153f6a90eff7647124c560db0db5cc6
 size 23159290

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7e67d1ef70988eb681b3fa8d5f97f7cf8dd017881f8271c13d1e14c3a983051
 size 23159290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c899beef0e4b648cad8954a66a8d655d219bebd0e6f90f7ad69eea43e18a96c4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0432b165814871079f9ee89b9acfe77d274309a01b9cb7e1f0b9e05d72efa489
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed29baad6d6611c736eccf18bdd7afdc5d6f3612cde61e7bfa83472d3e2068d2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7736f824b0a772b3806e37af9e860068207311e879196bc19f8a76d97eaf6bce
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.10349678248167038,
-  "best_model_checkpoint": "miner_id_besimray/checkpoint-80",
-  "epoch": 1.0289389067524115,
   "eval_steps": 20,
-  "global_step": 80,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -607,6 +607,154 @@
       "eval_samples_per_second": 24.005,
       "eval_steps_per_second": 2.488,
       "step": 80
     }
   ],
   "logging_steps": 1,
@@ -635,7 +783,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.911441083203584e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.09471629559993744,
+  "best_model_checkpoint": "miner_id_besimray/checkpoint-100",
+  "epoch": 1.2861736334405145,
   "eval_steps": 20,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.005,
       "eval_steps_per_second": 2.488,
       "step": 80
+    },
+    {
+      "epoch": 1.0418006430868167,
+      "grad_norm": 1.8745784759521484,
+      "learning_rate": 9.775619357041952e-05,
+      "loss": 0.1944,
+      "step": 81
+    },
+    {
+      "epoch": 1.0546623794212218,
+      "grad_norm": 2.0719668865203857,
+      "learning_rate": 9.551351696494854e-05,
+      "loss": 0.1917,
+      "step": 82
+    },
+    {
+      "epoch": 1.067524115755627,
+      "grad_norm": 1.204854965209961,
+      "learning_rate": 9.327309943879604e-05,
+      "loss": 0.0717,
+      "step": 83
+    },
+    {
+      "epoch": 1.0803858520900322,
+      "grad_norm": 0.9742199182510376,
+      "learning_rate": 9.103606910965666e-05,
+      "loss": 0.0752,
+      "step": 84
+    },
+    {
+      "epoch": 1.0932475884244373,
+      "grad_norm": 1.1170694828033447,
+      "learning_rate": 8.880355238966923e-05,
+      "loss": 0.0936,
+      "step": 85
+    },
+    {
+      "epoch": 1.1061093247588425,
+      "grad_norm": 1.186493158340454,
+      "learning_rate": 8.657667341823448e-05,
+      "loss": 0.1443,
+      "step": 86
+    },
+    {
+      "epoch": 1.1189710610932475,
+      "grad_norm": 0.8638191223144531,
+      "learning_rate": 8.435655349597689e-05,
+      "loss": 0.0455,
+      "step": 87
+    },
+    {
+      "epoch": 1.1318327974276527,
+      "grad_norm": 0.8235441446304321,
+      "learning_rate": 8.214431052013634e-05,
+      "loss": 0.0438,
+      "step": 88
+    },
+    {
+      "epoch": 1.144694533762058,
+      "grad_norm": 1.0054430961608887,
+      "learning_rate": 7.994105842167273e-05,
+      "loss": 0.0574,
+      "step": 89
+    },
+    {
+      "epoch": 1.157556270096463,
+      "grad_norm": 1.3182615041732788,
+      "learning_rate": 7.774790660436858e-05,
+      "loss": 0.0656,
+      "step": 90
+    },
+    {
+      "epoch": 1.1704180064308682,
+      "grad_norm": 1.3295056819915771,
+      "learning_rate": 7.556595938621058e-05,
+      "loss": 0.0805,
+      "step": 91
+    },
+    {
+      "epoch": 1.1832797427652733,
+      "grad_norm": 0.636367917060852,
+      "learning_rate": 7.339631544333249e-05,
+      "loss": 0.0327,
+      "step": 92
+    },
+    {
+      "epoch": 1.1961414790996785,
+      "grad_norm": 0.9409329891204834,
+      "learning_rate": 7.124006725679828e-05,
+      "loss": 0.039,
+      "step": 93
+    },
+    {
+      "epoch": 1.2090032154340835,
+      "grad_norm": 1.8021913766860962,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 0.1653,
+      "step": 94
+    },
+    {
+      "epoch": 1.2218649517684887,
+      "grad_norm": 1.4615201950073242,
+      "learning_rate": 6.697209380448333e-05,
+      "loss": 0.0553,
+      "step": 95
+    },
+    {
+      "epoch": 1.234726688102894,
+      "grad_norm": 1.356886386871338,
+      "learning_rate": 6.486251759186572e-05,
+      "loss": 0.0814,
+      "step": 96
+    },
+    {
+      "epoch": 1.247588424437299,
+      "grad_norm": 2.497354745864868,
+      "learning_rate": 6.277063415980549e-05,
+      "loss": 0.0964,
+      "step": 97
+    },
+    {
+      "epoch": 1.2604501607717042,
+      "grad_norm": 1.3293228149414062,
+      "learning_rate": 6.069749683460765e-05,
+      "loss": 0.0668,
+      "step": 98
+    },
+    {
+      "epoch": 1.2733118971061093,
+      "grad_norm": 1.5753332376480103,
+      "learning_rate": 5.864414950334796e-05,
+      "loss": 0.0494,
+      "step": 99
+    },
+    {
+      "epoch": 1.2861736334405145,
+      "grad_norm": 0.9486237168312073,
+      "learning_rate": 5.6611626088244194e-05,
+      "loss": 0.0493,
+      "step": 100
+    },
+    {
+      "epoch": 1.2861736334405145,
+      "eval_loss": 0.09471629559993744,
+      "eval_runtime": 6.8732,
+      "eval_samples_per_second": 23.861,
+      "eval_steps_per_second": 2.473,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.394546334728192e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null