Training in progress, step 140, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +152 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:833eb01138783f900186e10d4e4abdce2331f847c08833bd0fa504402085a60b
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:89698065e8e2f09c47a2523945d02b0d700a6e7e9682f02876feb1c2df0b556e
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be261bb291f9b4a5d55868833557a7b0f1e34d282ee624617485ad6c262a8639
 size 23159290

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c6bbb2ae050e5de748c89daebe89c76d78ce1d43502c409aef1191b1d589edd
 size 23159290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d57cb21cc7fa77e1d0615ec039ca096efa9b134639fd673e38d6b4c2602fef16
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad8d45468f3e2058e4054b1300023f160078727b78fd8ca1d82d4d66de05c95e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61c2b4927e3039b26d377375be782c03ce853d193f96b5868ccf559441e84af9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:22a860b36e177d944f54f688d2f30a0a558f05a29fd2b863008a05217bc84467
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.07654841244220734,
   "best_model_checkpoint": "miner_id_besimray/checkpoint-120",
-  "epoch": 1.5434083601286175,
   "eval_steps": 20,
-  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -903,6 +903,154 @@
       "eval_samples_per_second": 25.413,
       "eval_steps_per_second": 2.634,
       "step": 120
     }
   ],
   "logging_steps": 1,
@@ -917,7 +1065,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -931,7 +1079,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.858372738187264e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.07654841244220734,
   "best_model_checkpoint": "miner_id_besimray/checkpoint-120",
+  "epoch": 1.8006430868167203,
   "eval_steps": 20,
+  "global_step": 140,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.413,
       "eval_steps_per_second": 2.634,
       "step": 120
+    },
+    {
+      "epoch": 1.5562700964630225,
+      "grad_norm": 0.8864114284515381,
+      "learning_rate": 2.043754511182191e-05,
+      "loss": 0.0666,
+      "step": 121
+    },
+    {
+      "epoch": 1.5691318327974275,
+      "grad_norm": 0.679110050201416,
+      "learning_rate": 1.9098300562505266e-05,
+      "loss": 0.0519,
+      "step": 122
+    },
+    {
+      "epoch": 1.5819935691318328,
+      "grad_norm": 0.8264833688735962,
+      "learning_rate": 1.7799792455209018e-05,
+      "loss": 0.0535,
+      "step": 123
+    },
+    {
+      "epoch": 1.594855305466238,
+      "grad_norm": 0.8187565803527832,
+      "learning_rate": 1.6542674627869737e-05,
+      "loss": 0.0726,
+      "step": 124
+    },
+    {
+      "epoch": 1.607717041800643,
+      "grad_norm": 1.0040825605392456,
+      "learning_rate": 1.5327580077171587e-05,
+      "loss": 0.0547,
+      "step": 125
+    },
+    {
+      "epoch": 1.6205787781350482,
+      "grad_norm": 0.9699273109436035,
+      "learning_rate": 1.415512063981339e-05,
+      "loss": 0.0486,
+      "step": 126
+    },
+    {
+      "epoch": 1.6334405144694535,
+      "grad_norm": 0.9256762266159058,
+      "learning_rate": 1.3025886684430467e-05,
+      "loss": 0.0629,
+      "step": 127
+    },
+    {
+      "epoch": 1.6463022508038585,
+      "grad_norm": 1.14625084400177,
+      "learning_rate": 1.19404468143262e-05,
+      "loss": 0.1237,
+      "step": 128
+    },
+    {
+      "epoch": 1.6591639871382635,
+      "grad_norm": 0.9128087162971497,
+      "learning_rate": 1.0899347581163221e-05,
+      "loss": 0.0844,
+      "step": 129
+    },
+    {
+      "epoch": 1.6720257234726688,
+      "grad_norm": 0.6387249231338501,
+      "learning_rate": 9.903113209758096e-06,
+      "loss": 0.0356,
+      "step": 130
+    },
+    {
+      "epoch": 1.684887459807074,
+      "grad_norm": 0.8623852729797363,
+      "learning_rate": 8.952245334118414e-06,
+      "loss": 0.037,
+      "step": 131
+    },
+    {
+      "epoch": 1.697749196141479,
+      "grad_norm": 0.9539658427238464,
+      "learning_rate": 8.047222744854943e-06,
+      "loss": 0.0334,
+      "step": 132
+    },
+    {
+      "epoch": 1.7106109324758842,
+      "grad_norm": 1.2123513221740723,
+      "learning_rate": 7.1885011480961164e-06,
+      "loss": 0.0939,
+      "step": 133
+    },
+    {
+      "epoch": 1.7234726688102895,
+      "grad_norm": 1.1446812152862549,
+      "learning_rate": 6.37651293602628e-06,
+      "loss": 0.0887,
+      "step": 134
+    },
+    {
+      "epoch": 1.7363344051446945,
+      "grad_norm": 1.11151921749115,
+      "learning_rate": 5.611666969163243e-06,
+      "loss": 0.077,
+      "step": 135
+    },
+    {
+      "epoch": 1.7491961414790995,
+      "grad_norm": 0.8716309070587158,
+      "learning_rate": 4.8943483704846475e-06,
+      "loss": 0.0522,
+      "step": 136
+    },
+    {
+      "epoch": 1.762057877813505,
+      "grad_norm": 1.1028003692626953,
+      "learning_rate": 4.224918331506955e-06,
+      "loss": 0.0752,
+      "step": 137
+    },
+    {
+      "epoch": 1.77491961414791,
+      "grad_norm": 0.5544919967651367,
+      "learning_rate": 3.6037139304146762e-06,
+      "loss": 0.025,
+      "step": 138
+    },
+    {
+      "epoch": 1.787781350482315,
+      "grad_norm": 0.9546120762825012,
+      "learning_rate": 3.0310479623313127e-06,
+      "loss": 0.0636,
+      "step": 139
+    },
+    {
+      "epoch": 1.8006430868167203,
+      "grad_norm": 0.6825479865074158,
+      "learning_rate": 2.5072087818176382e-06,
+      "loss": 0.0294,
+      "step": 140
+    },
+    {
+      "epoch": 1.8006430868167203,
+      "eval_loss": 0.07656604796648026,
+      "eval_runtime": 6.9163,
+      "eval_samples_per_second": 23.712,
+      "eval_steps_per_second": 2.458,
+      "step": 140
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 3.32938145759232e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null