Training in progress, step 140, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb419f5181ec8da0ae8397cbfdb62b04e49fa9a08a7101d937c933c3c4e9b5b5
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:57f7b5b1793e66b4e6395cd45d0b7bf1995df458d6793623a7bd9e2c0d0b928b
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6d1ba9960dfe9f6fb31574a7377c97b9d1778e61daac9aa92ca708534f38b3a
 size 23159290

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5e18ad39041526daf799ac3577064398b7fedac5b63062fe0b42b57a50f2bec
 size 23159290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9fd0216f0d6187ef1dc8511dbb510792521c2906a3f52d90a5f66d2aa05fa7a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e59ab75e1b6101343865e80667c2c665b321f766aee719369a3ca5a3689ff09
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61c2b4927e3039b26d377375be782c03ce853d193f96b5868ccf559441e84af9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:22a860b36e177d944f54f688d2f30a0a558f05a29fd2b863008a05217bc84467
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.764509916305542,
-  "best_model_checkpoint": "miner_id_besimray/checkpoint-120",
-  "epoch": 1.5434083601286175,
   "eval_steps": 20,
-  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -903,6 +903,154 @@
       "eval_samples_per_second": 24.097,
       "eval_steps_per_second": 2.498,
       "step": 120
     }
   ],
   "logging_steps": 1,
@@ -931,7 +1079,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.858372738187264e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7633899450302124,
+  "best_model_checkpoint": "miner_id_besimray/checkpoint-140",
+  "epoch": 1.8006430868167203,
   "eval_steps": 20,
+  "global_step": 140,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.097,
       "eval_steps_per_second": 2.498,
       "step": 120
+    },
+    {
+      "epoch": 1.5562700964630225,
+      "grad_norm": 0.288256973028183,
+      "learning_rate": 2.043754511182191e-05,
+      "loss": 0.8183,
+      "step": 121
+    },
+    {
+      "epoch": 1.5691318327974275,
+      "grad_norm": 0.254046231508255,
+      "learning_rate": 1.9098300562505266e-05,
+      "loss": 0.6721,
+      "step": 122
+    },
+    {
+      "epoch": 1.5819935691318328,
+      "grad_norm": 0.24051472544670105,
+      "learning_rate": 1.7799792455209018e-05,
+      "loss": 0.6993,
+      "step": 123
+    },
+    {
+      "epoch": 1.594855305466238,
+      "grad_norm": 0.2690548002719879,
+      "learning_rate": 1.6542674627869737e-05,
+      "loss": 0.7357,
+      "step": 124
+    },
+    {
+      "epoch": 1.607717041800643,
+      "grad_norm": 0.2249222695827484,
+      "learning_rate": 1.5327580077171587e-05,
+      "loss": 0.6112,
+      "step": 125
+    },
+    {
+      "epoch": 1.6205787781350482,
+      "grad_norm": 0.2525765597820282,
+      "learning_rate": 1.415512063981339e-05,
+      "loss": 0.7281,
+      "step": 126
+    },
+    {
+      "epoch": 1.6334405144694535,
+      "grad_norm": 0.2448454648256302,
+      "learning_rate": 1.3025886684430467e-05,
+      "loss": 0.6699,
+      "step": 127
+    },
+    {
+      "epoch": 1.6463022508038585,
+      "grad_norm": 0.27227962017059326,
+      "learning_rate": 1.19404468143262e-05,
+      "loss": 0.7431,
+      "step": 128
+    },
+    {
+      "epoch": 1.6591639871382635,
+      "grad_norm": 0.26319149136543274,
+      "learning_rate": 1.0899347581163221e-05,
+      "loss": 0.6885,
+      "step": 129
+    },
+    {
+      "epoch": 1.6720257234726688,
+      "grad_norm": 0.2802058160305023,
+      "learning_rate": 9.903113209758096e-06,
+      "loss": 0.7451,
+      "step": 130
+    },
+    {
+      "epoch": 1.684887459807074,
+      "grad_norm": 0.23295214772224426,
+      "learning_rate": 8.952245334118414e-06,
+      "loss": 0.6393,
+      "step": 131
+    },
+    {
+      "epoch": 1.697749196141479,
+      "grad_norm": 0.2382490485906601,
+      "learning_rate": 8.047222744854943e-06,
+      "loss": 0.621,
+      "step": 132
+    },
+    {
+      "epoch": 1.7106109324758842,
+      "grad_norm": 0.26903268694877625,
+      "learning_rate": 7.1885011480961164e-06,
+      "loss": 0.8464,
+      "step": 133
+    },
+    {
+      "epoch": 1.7234726688102895,
+      "grad_norm": 0.22437304258346558,
+      "learning_rate": 6.37651293602628e-06,
+      "loss": 0.526,
+      "step": 134
+    },
+    {
+      "epoch": 1.7363344051446945,
+      "grad_norm": 0.2693169414997101,
+      "learning_rate": 5.611666969163243e-06,
+      "loss": 0.7231,
+      "step": 135
+    },
+    {
+      "epoch": 1.7491961414790995,
+      "grad_norm": 0.24426168203353882,
+      "learning_rate": 4.8943483704846475e-06,
+      "loss": 0.6771,
+      "step": 136
+    },
+    {
+      "epoch": 1.762057877813505,
+      "grad_norm": 0.24735158681869507,
+      "learning_rate": 4.224918331506955e-06,
+      "loss": 0.7126,
+      "step": 137
+    },
+    {
+      "epoch": 1.77491961414791,
+      "grad_norm": 0.2898198962211609,
+      "learning_rate": 3.6037139304146762e-06,
+      "loss": 0.838,
+      "step": 138
+    },
+    {
+      "epoch": 1.787781350482315,
+      "grad_norm": 0.22501428425312042,
+      "learning_rate": 3.0310479623313127e-06,
+      "loss": 0.6003,
+      "step": 139
+    },
+    {
+      "epoch": 1.8006430868167203,
+      "grad_norm": 0.2505525052547455,
+      "learning_rate": 2.5072087818176382e-06,
+      "loss": 0.6793,
+      "step": 140
+    },
+    {
+      "epoch": 1.8006430868167203,
+      "eval_loss": 0.7633899450302124,
+      "eval_runtime": 6.8979,
+      "eval_samples_per_second": 23.775,
+      "eval_steps_per_second": 2.465,
+      "step": 140
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.32938145759232e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null