Training in progress, step 140, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85fd3349fb0b6d9fe33609fd627bbfa198712a033c54895c31d1954fff998d2f
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8f124971f6e45e066092c45814571663abeeb1c7c37d9b8a60eedfc0a06e172
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ef667d6928d98b9252d546a69290d43eb4b3268ece09ea8d4b8985820baaa05
 size 23159290

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fe17862cdc22820617ba77c353485eff09dcb153edbcbcced750cf2df5f273b
 size 23159290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9fd0216f0d6187ef1dc8511dbb510792521c2906a3f52d90a5f66d2aa05fa7a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e59ab75e1b6101343865e80667c2c665b321f766aee719369a3ca5a3689ff09
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61c2b4927e3039b26d377375be782c03ce853d193f96b5868ccf559441e84af9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:22a860b36e177d944f54f688d2f30a0a558f05a29fd2b863008a05217bc84467
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7635705471038818,
-  "best_model_checkpoint": "miner_id_besimray/checkpoint-120",
-  "epoch": 1.5434083601286175,
   "eval_steps": 20,
-  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -903,6 +903,154 @@
       "eval_samples_per_second": 28.406,
       "eval_steps_per_second": 2.945,
       "step": 120
     }
   ],
   "logging_steps": 1,
@@ -931,7 +1079,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.858372738187264e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7629328370094299,
+  "best_model_checkpoint": "miner_id_besimray/checkpoint-140",
+  "epoch": 1.8006430868167203,
   "eval_steps": 20,
+  "global_step": 140,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 28.406,
       "eval_steps_per_second": 2.945,
       "step": 120
+    },
+    {
+      "epoch": 1.5562700964630225,
+      "grad_norm": 0.2886348068714142,
+      "learning_rate": 2.043754511182191e-05,
+      "loss": 0.8158,
+      "step": 121
+    },
+    {
+      "epoch": 1.5691318327974275,
+      "grad_norm": 0.2530727982521057,
+      "learning_rate": 1.9098300562505266e-05,
+      "loss": 0.6713,
+      "step": 122
+    },
+    {
+      "epoch": 1.5819935691318328,
+      "grad_norm": 0.24064087867736816,
+      "learning_rate": 1.7799792455209018e-05,
+      "loss": 0.6981,
+      "step": 123
+    },
+    {
+      "epoch": 1.594855305466238,
+      "grad_norm": 0.2673289477825165,
+      "learning_rate": 1.6542674627869737e-05,
+      "loss": 0.7346,
+      "step": 124
+    },
+    {
+      "epoch": 1.607717041800643,
+      "grad_norm": 0.22544747591018677,
+      "learning_rate": 1.5327580077171587e-05,
+      "loss": 0.6114,
+      "step": 125
+    },
+    {
+      "epoch": 1.6205787781350482,
+      "grad_norm": 0.2511521577835083,
+      "learning_rate": 1.415512063981339e-05,
+      "loss": 0.7274,
+      "step": 126
+    },
+    {
+      "epoch": 1.6334405144694535,
+      "grad_norm": 0.2477598786354065,
+      "learning_rate": 1.3025886684430467e-05,
+      "loss": 0.6706,
+      "step": 127
+    },
+    {
+      "epoch": 1.6463022508038585,
+      "grad_norm": 0.2672538161277771,
+      "learning_rate": 1.19404468143262e-05,
+      "loss": 0.7443,
+      "step": 128
+    },
+    {
+      "epoch": 1.6591639871382635,
+      "grad_norm": 0.26399627327919006,
+      "learning_rate": 1.0899347581163221e-05,
+      "loss": 0.6866,
+      "step": 129
+    },
+    {
+      "epoch": 1.6720257234726688,
+      "grad_norm": 0.2790736258029938,
+      "learning_rate": 9.903113209758096e-06,
+      "loss": 0.7447,
+      "step": 130
+    },
+    {
+      "epoch": 1.684887459807074,
+      "grad_norm": 0.23339378833770752,
+      "learning_rate": 8.952245334118414e-06,
+      "loss": 0.6387,
+      "step": 131
+    },
+    {
+      "epoch": 1.697749196141479,
+      "grad_norm": 0.23756496608257294,
+      "learning_rate": 8.047222744854943e-06,
+      "loss": 0.6194,
+      "step": 132
+    },
+    {
+      "epoch": 1.7106109324758842,
+      "grad_norm": 0.27553918957710266,
+      "learning_rate": 7.1885011480961164e-06,
+      "loss": 0.848,
+      "step": 133
+    },
+    {
+      "epoch": 1.7234726688102895,
+      "grad_norm": 0.2218138724565506,
+      "learning_rate": 6.37651293602628e-06,
+      "loss": 0.5259,
+      "step": 134
+    },
+    {
+      "epoch": 1.7363344051446945,
+      "grad_norm": 0.2685801386833191,
+      "learning_rate": 5.611666969163243e-06,
+      "loss": 0.7221,
+      "step": 135
+    },
+    {
+      "epoch": 1.7491961414790995,
+      "grad_norm": 0.24097266793251038,
+      "learning_rate": 4.8943483704846475e-06,
+      "loss": 0.6776,
+      "step": 136
+    },
+    {
+      "epoch": 1.762057877813505,
+      "grad_norm": 0.24491430819034576,
+      "learning_rate": 4.224918331506955e-06,
+      "loss": 0.7152,
+      "step": 137
+    },
+    {
+      "epoch": 1.77491961414791,
+      "grad_norm": 0.28753861784935,
+      "learning_rate": 3.6037139304146762e-06,
+      "loss": 0.8375,
+      "step": 138
+    },
+    {
+      "epoch": 1.787781350482315,
+      "grad_norm": 0.2249891459941864,
+      "learning_rate": 3.0310479623313127e-06,
+      "loss": 0.6006,
+      "step": 139
+    },
+    {
+      "epoch": 1.8006430868167203,
+      "grad_norm": 0.24978116154670715,
+      "learning_rate": 2.5072087818176382e-06,
+      "loss": 0.6807,
+      "step": 140
+    },
+    {
+      "epoch": 1.8006430868167203,
+      "eval_loss": 0.7629328370094299,
+      "eval_runtime": 7.0132,
+      "eval_samples_per_second": 23.385,
+      "eval_steps_per_second": 2.424,
+      "step": 140
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.32938145759232e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null