Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +2552 -377

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0241384ebd3d15b1a8164991a445a993df2bd29e7024ac9c77da5909807a7c57
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb8b281d3670780618442404eb45c98293a0d43e46f8e5ca3eb87cb4663d60e7
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8da2a29d769a2c7c6ee654d830f0801577c6076f6346125ad041b3edd166bbc2
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fa59c9185701213ec25411dab80244c017dba754eeac7bca5fb0c59c13e7e9c
 size 1465

trainer_state.json CHANGED Viewed

@@ -1,844 +1,3019 @@
 {
-  "best_global_step": 55,
-  "best_metric": 0.7241045236587524,
-  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-55",
-  "epoch": 2.8947368421052633,
   "eval_steps": 1,
-  "global_step": 55,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.05263157894736842,
-      "grad_norm": 0.7188231945037842,
       "learning_rate": 0.0,
-      "loss": 3.2235,
       "step": 1
     },
     {
       "epoch": 0.05263157894736842,
-      "eval_loss": 3.15524959564209,
-      "eval_runtime": 3.3312,
-      "eval_samples_per_second": 9.006,
-      "eval_steps_per_second": 1.201,
       "step": 1
     },
     {
       "epoch": 0.10526315789473684,
-      "grad_norm": 0.766629159450531,
       "learning_rate": 3.3333333333333335e-05,
-      "loss": 3.165,
       "step": 2
     },
     {
       "epoch": 0.10526315789473684,
-      "eval_loss": 3.1018595695495605,
-      "eval_runtime": 3.28,
-      "eval_samples_per_second": 9.146,
-      "eval_steps_per_second": 1.219,
       "step": 2
     },
     {
       "epoch": 0.15789473684210525,
-      "grad_norm": 0.6206756234169006,
       "learning_rate": 6.666666666666667e-05,
-      "loss": 2.8628,
       "step": 3
     },
     {
       "epoch": 0.15789473684210525,
-      "eval_loss": 2.97302508354187,
-      "eval_runtime": 3.2899,
-      "eval_samples_per_second": 9.119,
-      "eval_steps_per_second": 1.216,
       "step": 3
     },
     {
       "epoch": 0.21052631578947367,
-      "grad_norm": 0.6644885540008545,
       "learning_rate": 0.0001,
-      "loss": 2.9711,
       "step": 4
     },
     {
       "epoch": 0.21052631578947367,
-      "eval_loss": 2.762944221496582,
-      "eval_runtime": 3.2987,
-      "eval_samples_per_second": 9.095,
-      "eval_steps_per_second": 1.213,
       "step": 4
     },
     {
       "epoch": 0.2631578947368421,
-      "grad_norm": 0.6135285496711731,
       "learning_rate": 0.00013333333333333334,
-      "loss": 2.7061,
       "step": 5
     },
     {
       "epoch": 0.2631578947368421,
-      "eval_loss": 2.5087203979492188,
-      "eval_runtime": 3.3091,
-      "eval_samples_per_second": 9.066,
-      "eval_steps_per_second": 1.209,
       "step": 5
     },
     {
       "epoch": 0.3157894736842105,
-      "grad_norm": 0.5422775745391846,
       "learning_rate": 0.00016666666666666666,
-      "loss": 2.4032,
       "step": 6
     },
     {
       "epoch": 0.3157894736842105,
-      "eval_loss": 2.270092725753784,
-      "eval_runtime": 3.3142,
-      "eval_samples_per_second": 9.052,
-      "eval_steps_per_second": 1.207,
       "step": 6
     },
     {
       "epoch": 0.3684210526315789,
-      "grad_norm": 0.5579596161842346,
       "learning_rate": 0.0002,
-      "loss": 2.272,
       "step": 7
     },
     {
       "epoch": 0.3684210526315789,
-      "eval_loss": 2.0614399909973145,
-      "eval_runtime": 3.3233,
-      "eval_samples_per_second": 9.027,
-      "eval_steps_per_second": 1.204,
       "step": 7
     },
     {
       "epoch": 0.42105263157894735,
-      "grad_norm": 0.7365043759346008,
       "learning_rate": 0.00023333333333333333,
-      "loss": 2.0297,
       "step": 8
     },
     {
       "epoch": 0.42105263157894735,
-      "eval_loss": 1.8437634706497192,
-      "eval_runtime": 3.3264,
-      "eval_samples_per_second": 9.019,
-      "eval_steps_per_second": 1.202,
       "step": 8
     },
     {
       "epoch": 0.47368421052631576,
-      "grad_norm": 0.7677823901176453,
       "learning_rate": 0.0002666666666666667,
-      "loss": 1.8911,
       "step": 9
     },
     {
       "epoch": 0.47368421052631576,
-      "eval_loss": 1.615093469619751,
-      "eval_runtime": 3.3357,
-      "eval_samples_per_second": 8.994,
-      "eval_steps_per_second": 1.199,
       "step": 9
     },
     {
       "epoch": 0.5263157894736842,
-      "grad_norm": 0.7033586502075195,
       "learning_rate": 0.0003,
-      "loss": 1.654,
       "step": 10
     },
     {
       "epoch": 0.5263157894736842,
-      "eval_loss": 1.4461504220962524,
-      "eval_runtime": 3.3549,
-      "eval_samples_per_second": 8.942,
-      "eval_steps_per_second": 1.192,
       "step": 10
     },
     {
       "epoch": 0.5789473684210527,
-      "grad_norm": 0.721517026424408,
       "learning_rate": 0.0003333333333333333,
-      "loss": 1.5364,
       "step": 11
     },
     {
       "epoch": 0.5789473684210527,
-      "eval_loss": 1.3645799160003662,
-      "eval_runtime": 3.361,
-      "eval_samples_per_second": 8.926,
-      "eval_steps_per_second": 1.19,
       "step": 11
     },
     {
       "epoch": 0.631578947368421,
-      "grad_norm": 0.7304323315620422,
       "learning_rate": 0.00036666666666666667,
-      "loss": 1.3689,
       "step": 12
     },
     {
       "epoch": 0.631578947368421,
-      "eval_loss": 1.272360920906067,
-      "eval_runtime": 3.3759,
-      "eval_samples_per_second": 8.887,
-      "eval_steps_per_second": 1.185,
       "step": 12
     },
     {
       "epoch": 0.6842105263157895,
-      "grad_norm": 0.6370911002159119,
       "learning_rate": 0.0004,
-      "loss": 1.329,
       "step": 13
     },
     {
       "epoch": 0.6842105263157895,
-      "eval_loss": 1.19339120388031,
-      "eval_runtime": 3.3835,
-      "eval_samples_per_second": 8.867,
-      "eval_steps_per_second": 1.182,
       "step": 13
     },
     {
       "epoch": 0.7368421052631579,
-      "grad_norm": 0.5493318438529968,
       "learning_rate": 0.00043333333333333337,
-      "loss": 1.1991,
       "step": 14
     },
     {
       "epoch": 0.7368421052631579,
-      "eval_loss": 1.154818058013916,
-      "eval_runtime": 3.3971,
-      "eval_samples_per_second": 8.831,
-      "eval_steps_per_second": 1.177,
       "step": 14
     },
     {
       "epoch": 0.7894736842105263,
-      "grad_norm": 0.4599643051624298,
       "learning_rate": 0.00046666666666666666,
-      "loss": 1.2358,
       "step": 15
     },
     {
       "epoch": 0.7894736842105263,
-      "eval_loss": 1.1299824714660645,
-      "eval_runtime": 3.4098,
-      "eval_samples_per_second": 8.798,
-      "eval_steps_per_second": 1.173,
       "step": 15
     },
     {
       "epoch": 0.8421052631578947,
-      "grad_norm": 0.5700777173042297,
       "learning_rate": 0.0005,
-      "loss": 1.206,
       "step": 16
     },
     {
       "epoch": 0.8421052631578947,
-      "eval_loss": 1.1079914569854736,
-      "eval_runtime": 3.4063,
-      "eval_samples_per_second": 8.807,
-      "eval_steps_per_second": 1.174,
       "step": 16
     },
     {
       "epoch": 0.8947368421052632,
-      "grad_norm": 0.44451233744621277,
-      "learning_rate": 0.0004993910125649561,
-      "loss": 1.2374,
       "step": 17
     },
     {
       "epoch": 0.8947368421052632,
-      "eval_loss": 1.076997995376587,
-      "eval_runtime": 3.4099,
-      "eval_samples_per_second": 8.798,
-      "eval_steps_per_second": 1.173,
       "step": 17
     },
     {
       "epoch": 0.9473684210526315,
-      "grad_norm": 0.382600337266922,
-      "learning_rate": 0.0004975670171853926,
-      "loss": 1.0959,
       "step": 18
     },
     {
       "epoch": 0.9473684210526315,
-      "eval_loss": 1.0459389686584473,
-      "eval_runtime": 3.4174,
-      "eval_samples_per_second": 8.779,
-      "eval_steps_per_second": 1.17,
       "step": 18
     },
     {
       "epoch": 1.0,
-      "grad_norm": 0.3735465109348297,
-      "learning_rate": 0.0004945369001834514,
-      "loss": 1.1433,
       "step": 19
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.0354558229446411,
-      "eval_runtime": 3.41,
-      "eval_samples_per_second": 8.798,
-      "eval_steps_per_second": 1.173,
       "step": 19
     },
     {
       "epoch": 1.0526315789473684,
-      "grad_norm": 0.36878153681755066,
-      "learning_rate": 0.0004903154239845797,
-      "loss": 1.0467,
       "step": 20
     },
     {
       "epoch": 1.0526315789473684,
-      "eval_loss": 1.0118752717971802,
-      "eval_runtime": 3.4023,
-      "eval_samples_per_second": 8.818,
-      "eval_steps_per_second": 1.176,
       "step": 20
     },
     {
       "epoch": 1.1052631578947367,
-      "grad_norm": 0.3709339499473572,
-      "learning_rate": 0.0004849231551964771,
-      "loss": 1.0453,
       "step": 21
     },
     {
       "epoch": 1.1052631578947367,
-      "eval_loss": 0.9837953448295593,
-      "eval_runtime": 3.3826,
-      "eval_samples_per_second": 8.869,
-      "eval_steps_per_second": 1.183,
       "step": 21
     },
     {
       "epoch": 1.1578947368421053,
-      "grad_norm": 0.32317909598350525,
-      "learning_rate": 0.0004783863644106502,
-      "loss": 1.0573,
       "step": 22
     },
     {
       "epoch": 1.1578947368421053,
-      "eval_loss": 0.9650039076805115,
-      "eval_runtime": 3.3888,
-      "eval_samples_per_second": 8.853,
-      "eval_steps_per_second": 1.18,
       "step": 22
     },
     {
       "epoch": 1.2105263157894737,
-      "grad_norm": 0.3465510606765747,
-      "learning_rate": 0.00047073689821473173,
-      "loss": 0.9613,
       "step": 23
     },
     {
       "epoch": 1.2105263157894737,
-      "eval_loss": 0.9524248838424683,
-      "eval_runtime": 3.389,
-      "eval_samples_per_second": 8.852,
-      "eval_steps_per_second": 1.18,
       "step": 23
     },
     {
       "epoch": 1.263157894736842,
-      "grad_norm": 0.341265469789505,
-      "learning_rate": 0.00046201202403910646,
-      "loss": 1.0765,
       "step": 24
     },
     {
       "epoch": 1.263157894736842,
-      "eval_loss": 0.9478815197944641,
-      "eval_runtime": 3.3934,
-      "eval_samples_per_second": 8.841,
-      "eval_steps_per_second": 1.179,
       "step": 24
     },
     {
       "epoch": 1.3157894736842106,
-      "grad_norm": 0.32804617285728455,
-      "learning_rate": 0.0004522542485937369,
-      "loss": 0.9063,
       "step": 25
     },
     {
       "epoch": 1.3157894736842106,
-      "eval_loss": 0.9379161596298218,
-      "eval_runtime": 3.394,
-      "eval_samples_per_second": 8.839,
-      "eval_steps_per_second": 1.179,
       "step": 25
     },
     {
       "epoch": 1.368421052631579,
-      "grad_norm": 0.31782791018486023,
-      "learning_rate": 0.0004415111107797445,
-      "loss": 0.9969,
       "step": 26
     },
     {
       "epoch": 1.368421052631579,
-      "eval_loss": 0.9347817897796631,
-      "eval_runtime": 3.3909,
-      "eval_samples_per_second": 8.847,
-      "eval_steps_per_second": 1.18,
       "step": 26
     },
     {
       "epoch": 1.4210526315789473,
-      "grad_norm": 0.3140616714954376,
-      "learning_rate": 0.0004298349500846628,
-      "loss": 0.9423,
       "step": 27
     },
     {
       "epoch": 1.4210526315789473,
-      "eval_loss": 0.9298030138015747,
-      "eval_runtime": 3.4047,
-      "eval_samples_per_second": 8.811,
-      "eval_steps_per_second": 1.175,
       "step": 27
     },
     {
       "epoch": 1.4736842105263157,
-      "grad_norm": 0.3035232126712799,
-      "learning_rate": 0.0004172826515897146,
-      "loss": 0.8544,
       "step": 28
     },
     {
       "epoch": 1.4736842105263157,
-      "eval_loss": 0.920465350151062,
-      "eval_runtime": 3.4152,
-      "eval_samples_per_second": 8.784,
-      "eval_steps_per_second": 1.171,
       "step": 28
     },
     {
       "epoch": 1.526315789473684,
-      "grad_norm": 0.36378970742225647,
-      "learning_rate": 0.00040391536883141455,
-      "loss": 1.0175,
       "step": 29
     },
     {
       "epoch": 1.526315789473684,
-      "eval_loss": 0.9069837331771851,
-      "eval_runtime": 3.4214,
-      "eval_samples_per_second": 8.768,
-      "eval_steps_per_second": 1.169,
       "step": 29
     },
     {
       "epoch": 1.5789473684210527,
-      "grad_norm": 0.3729051947593689,
-      "learning_rate": 0.0003897982258676867,
-      "loss": 0.9851,
       "step": 30
     },
     {
       "epoch": 1.5789473684210527,
-      "eval_loss": 0.8988735675811768,
-      "eval_runtime": 3.4109,
-      "eval_samples_per_second": 8.795,
-      "eval_steps_per_second": 1.173,
       "step": 30
     },
     {
       "epoch": 1.631578947368421,
-      "grad_norm": 0.3581544756889343,
-      "learning_rate": 0.000375,
-      "loss": 0.9229,
       "step": 31
     },
     {
       "epoch": 1.631578947368421,
-      "eval_loss": 0.8822915554046631,
-      "eval_runtime": 3.3783,
-      "eval_samples_per_second": 8.88,
-      "eval_steps_per_second": 1.184,
       "step": 31
     },
     {
       "epoch": 1.6842105263157894,
-      "grad_norm": 0.28150516748428345,
-      "learning_rate": 0.00035959278669726934,
-      "loss": 0.94,
       "step": 32
     },
     {
       "epoch": 1.6842105263157894,
-      "eval_loss": 0.8713746666908264,
-      "eval_runtime": 3.4041,
-      "eval_samples_per_second": 8.813,
-      "eval_steps_per_second": 1.175,
       "step": 32
     },
     {
       "epoch": 1.736842105263158,
-      "grad_norm": 0.30831000208854675,
-      "learning_rate": 0.00034365164835397803,
-      "loss": 1.0407,
       "step": 33
     },
     {
       "epoch": 1.736842105263158,
-      "eval_loss": 0.8603693842887878,
-      "eval_runtime": 3.417,
-      "eval_samples_per_second": 8.78,
-      "eval_steps_per_second": 1.171,
       "step": 33
     },
     {
       "epoch": 1.7894736842105263,
-      "grad_norm": 0.31896907091140747,
-      "learning_rate": 0.00032725424859373687,
-      "loss": 0.9185,
       "step": 34
     },
     {
       "epoch": 1.7894736842105263,
-      "eval_loss": 0.849823534488678,
-      "eval_runtime": 3.4154,
-      "eval_samples_per_second": 8.784,
-      "eval_steps_per_second": 1.171,
       "step": 34
     },
     {
       "epoch": 1.8421052631578947,
-      "grad_norm": 0.29725414514541626,
-      "learning_rate": 0.0003104804738999169,
-      "loss": 0.978,
       "step": 35
     },
     {
       "epoch": 1.8421052631578947,
-      "eval_loss": 0.8390634655952454,
-      "eval_runtime": 3.4119,
-      "eval_samples_per_second": 8.793,
-      "eval_steps_per_second": 1.172,
       "step": 35
     },
     {
       "epoch": 1.8947368421052633,
-      "grad_norm": 0.3137111961841583,
-      "learning_rate": 0.00029341204441673266,
-      "loss": 0.9221,
       "step": 36
     },
     {
       "epoch": 1.8947368421052633,
-      "eval_loss": 0.8293085098266602,
-      "eval_runtime": 3.3951,
-      "eval_samples_per_second": 8.836,
-      "eval_steps_per_second": 1.178,
       "step": 36
     },
     {
       "epoch": 1.9473684210526314,
-      "grad_norm": 0.267716646194458,
-      "learning_rate": 0.0002761321158169134,
-      "loss": 1.0078,
       "step": 37
     },
     {
       "epoch": 1.9473684210526314,
-      "eval_loss": 0.8227899670600891,
-      "eval_runtime": 3.3926,
-      "eval_samples_per_second": 8.843,
-      "eval_steps_per_second": 1.179,
       "step": 37
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.3097141683101654,
-      "learning_rate": 0.0002587248741756253,
-      "loss": 1.0386,
       "step": 38
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.8196889758110046,
-      "eval_runtime": 3.3913,
-      "eval_samples_per_second": 8.846,
-      "eval_steps_per_second": 1.179,
       "step": 38
     },
     {
       "epoch": 2.0526315789473686,
-      "grad_norm": 0.29532116651535034,
-      "learning_rate": 0.00024127512582437484,
-      "loss": 0.9046,
       "step": 39
     },
     {
       "epoch": 2.0526315789473686,
-      "eval_loss": 0.8109915852546692,
-      "eval_runtime": 3.3856,
-      "eval_samples_per_second": 8.861,
-      "eval_steps_per_second": 1.181,
       "step": 39
     },
     {
       "epoch": 2.1052631578947367,
-      "grad_norm": 0.3160407245159149,
-      "learning_rate": 0.00022386788418308668,
-      "loss": 0.8684,
       "step": 40
     },
     {
       "epoch": 2.1052631578947367,
-      "eval_loss": 0.799045979976654,
-      "eval_runtime": 3.3859,
-      "eval_samples_per_second": 8.86,
-      "eval_steps_per_second": 1.181,
       "step": 40
     },
     {
       "epoch": 2.1578947368421053,
-      "grad_norm": 0.2594124674797058,
-      "learning_rate": 0.00020658795558326743,
-      "loss": 0.8051,
       "step": 41
     },
     {
       "epoch": 2.1578947368421053,
-      "eval_loss": 0.7873298525810242,
-      "eval_runtime": 3.3873,
-      "eval_samples_per_second": 8.857,
-      "eval_steps_per_second": 1.181,
       "step": 41
     },
     {
       "epoch": 2.2105263157894735,
-      "grad_norm": 0.2573184370994568,
-      "learning_rate": 0.0001895195261000831,
-      "loss": 0.7542,
       "step": 42
     },
     {
       "epoch": 2.2105263157894735,
-      "eval_loss": 0.7783879637718201,
-      "eval_runtime": 3.3897,
-      "eval_samples_per_second": 8.85,
-      "eval_steps_per_second": 1.18,
       "step": 42
     },
     {
       "epoch": 2.263157894736842,
-      "grad_norm": 0.3050247132778168,
-      "learning_rate": 0.00017274575140626317,
-      "loss": 0.8833,
       "step": 43
     },
     {
       "epoch": 2.263157894736842,
-      "eval_loss": 0.7714616060256958,
-      "eval_runtime": 3.4031,
-      "eval_samples_per_second": 8.815,
-      "eval_steps_per_second": 1.175,
       "step": 43
     },
     {
       "epoch": 2.3157894736842106,
-      "grad_norm": 0.27206432819366455,
-      "learning_rate": 0.00015634835164602198,
-      "loss": 0.8176,
       "step": 44
     },
     {
       "epoch": 2.3157894736842106,
-      "eval_loss": 0.7637041807174683,
-      "eval_runtime": 3.4006,
-      "eval_samples_per_second": 8.822,
-      "eval_steps_per_second": 1.176,
       "step": 44
     },
     {
       "epoch": 2.3684210526315788,
-      "grad_norm": 0.24384012818336487,
-      "learning_rate": 0.00014040721330273062,
-      "loss": 0.7616,
       "step": 45
     },
     {
       "epoch": 2.3684210526315788,
-      "eval_loss": 0.7560217380523682,
-      "eval_runtime": 3.4005,
-      "eval_samples_per_second": 8.822,
-      "eval_steps_per_second": 1.176,
       "step": 45
     },
     {
       "epoch": 2.4210526315789473,
-      "grad_norm": 0.25645551085472107,
-      "learning_rate": 0.00012500000000000006,
-      "loss": 0.7888,
       "step": 46
     },
     {
       "epoch": 2.4210526315789473,
-      "eval_loss": 0.7505295872688293,
-      "eval_runtime": 3.3925,
-      "eval_samples_per_second": 8.843,
-      "eval_steps_per_second": 1.179,
       "step": 46
     },
     {
       "epoch": 2.473684210526316,
-      "grad_norm": 0.27820125222206116,
-      "learning_rate": 0.00011020177413231333,
-      "loss": 0.7584,
       "step": 47
     },
     {
       "epoch": 2.473684210526316,
-      "eval_loss": 0.7445800304412842,
-      "eval_runtime": 3.3928,
-      "eval_samples_per_second": 8.842,
-      "eval_steps_per_second": 1.179,
       "step": 47
     },
     {
       "epoch": 2.526315789473684,
-      "grad_norm": 0.23925091326236725,
-      "learning_rate": 9.608463116858542e-05,
-      "loss": 0.7504,
       "step": 48
     },
     {
       "epoch": 2.526315789473684,
-      "eval_loss": 0.7403488755226135,
-      "eval_runtime": 3.4026,
-      "eval_samples_per_second": 8.817,
-      "eval_steps_per_second": 1.176,
       "step": 48
     },
     {
       "epoch": 2.5789473684210527,
-      "grad_norm": 0.32143712043762207,
-      "learning_rate": 8.271734841028553e-05,
-      "loss": 0.8269,
       "step": 49
     },
     {
       "epoch": 2.5789473684210527,
-      "eval_loss": 0.7371814250946045,
-      "eval_runtime": 3.3997,
-      "eval_samples_per_second": 8.824,
-      "eval_steps_per_second": 1.177,
       "step": 49
     },
     {
       "epoch": 2.6315789473684212,
-      "grad_norm": 0.2628876864910126,
-      "learning_rate": 7.016504991533726e-05,
-      "loss": 0.7076,
       "step": 50
     },
     {
       "epoch": 2.6315789473684212,
-      "eval_loss": 0.7335822582244873,
-      "eval_runtime": 3.4029,
-      "eval_samples_per_second": 8.816,
-      "eval_steps_per_second": 1.175,
       "step": 50
     },
     {
       "epoch": 2.6842105263157894,
-      "grad_norm": 0.30318617820739746,
-      "learning_rate": 5.848888922025553e-05,
-      "loss": 0.7792,
       "step": 51
     },
     {
       "epoch": 2.6842105263157894,
-      "eval_loss": 0.7297669053077698,
-      "eval_runtime": 3.3726,
-      "eval_samples_per_second": 8.895,
-      "eval_steps_per_second": 1.186,
       "step": 51
     },
     {
       "epoch": 2.736842105263158,
-      "grad_norm": 0.3162338435649872,
-      "learning_rate": 4.7745751406263163e-05,
-      "loss": 0.7217,
       "step": 52
     },
     {
       "epoch": 2.736842105263158,
-      "eval_loss": 0.728228747844696,
-      "eval_runtime": 3.3989,
-      "eval_samples_per_second": 8.827,
-      "eval_steps_per_second": 1.177,
       "step": 52
     },
     {
       "epoch": 2.7894736842105265,
-      "grad_norm": 0.2733875513076782,
-      "learning_rate": 3.798797596089351e-05,
-      "loss": 0.8098,
       "step": 53
     },
     {
       "epoch": 2.7894736842105265,
-      "eval_loss": 0.7270908355712891,
-      "eval_runtime": 3.4122,
-      "eval_samples_per_second": 8.792,
-      "eval_steps_per_second": 1.172,
       "step": 53
     },
     {
       "epoch": 2.8421052631578947,
-      "grad_norm": 0.26100900769233704,
-      "learning_rate": 2.9263101785268254e-05,
-      "loss": 0.7631,
       "step": 54
     },
     {
       "epoch": 2.8421052631578947,
-      "eval_loss": 0.7254647016525269,
-      "eval_runtime": 3.4244,
-      "eval_samples_per_second": 8.761,
-      "eval_steps_per_second": 1.168,
       "step": 54
     },
     {
       "epoch": 2.8947368421052633,
-      "grad_norm": 0.2827248275279999,
-      "learning_rate": 2.1613635589349755e-05,
-      "loss": 0.7716,
       "step": 55
     },
     {
       "epoch": 2.8947368421052633,
-      "eval_loss": 0.7241045236587524,
-      "eval_runtime": 3.4133,
-      "eval_samples_per_second": 8.789,
-      "eval_steps_per_second": 1.172,
       "step": 55
     }
   ],
   "logging_steps": 1,
-  "max_steps": 60,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 5,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -852,7 +3027,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2315465393725440.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 200,
+  "best_metric": 0.0016098986379802227,
+  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-200",
+  "epoch": 10.526315789473685,
   "eval_steps": 1,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.05263157894736842,
+      "grad_norm": 9.795289039611816,
       "learning_rate": 0.0,
+      "loss": 3.2204,
       "step": 1
     },
     {
       "epoch": 0.05263157894736842,
+      "eval_loss": 3.1565215587615967,
+      "eval_runtime": 0.9831,
+      "eval_samples_per_second": 30.517,
+      "eval_steps_per_second": 4.069,
       "step": 1
     },
     {
       "epoch": 0.10526315789473684,
+      "grad_norm": 10.048436164855957,
       "learning_rate": 3.3333333333333335e-05,
+      "loss": 3.1604,
       "step": 2
     },
     {
       "epoch": 0.10526315789473684,
+      "eval_loss": 2.4775681495666504,
+      "eval_runtime": 0.8971,
+      "eval_samples_per_second": 33.44,
+      "eval_steps_per_second": 4.459,
       "step": 2
     },
     {
       "epoch": 0.15789473684210525,
+      "grad_norm": 5.148971080780029,
       "learning_rate": 6.666666666666667e-05,
+      "loss": 2.3511,
       "step": 3
     },
     {
       "epoch": 0.15789473684210525,
+      "eval_loss": 2.0030856132507324,
+      "eval_runtime": 0.8926,
+      "eval_samples_per_second": 33.611,
+      "eval_steps_per_second": 4.481,
       "step": 3
     },
     {
       "epoch": 0.21052631578947367,
+      "grad_norm": 4.8437819480896,
       "learning_rate": 0.0001,
+      "loss": 2.0198,
       "step": 4
     },
     {
       "epoch": 0.21052631578947367,
+      "eval_loss": 1.6053706407546997,
+      "eval_runtime": 0.8924,
+      "eval_samples_per_second": 33.618,
+      "eval_steps_per_second": 4.482,
       "step": 4
     },
     {
       "epoch": 0.2631578947368421,
+      "grad_norm": 4.386927604675293,
       "learning_rate": 0.00013333333333333334,
+      "loss": 1.6969,
       "step": 5
     },
     {
       "epoch": 0.2631578947368421,
+      "eval_loss": 1.4053733348846436,
+      "eval_runtime": 0.8951,
+      "eval_samples_per_second": 33.517,
+      "eval_steps_per_second": 4.469,
       "step": 5
     },
     {
       "epoch": 0.3157894736842105,
+      "grad_norm": 3.955519676208496,
       "learning_rate": 0.00016666666666666666,
+      "loss": 1.4825,
       "step": 6
     },
     {
       "epoch": 0.3157894736842105,
+      "eval_loss": 1.3105080127716064,
+      "eval_runtime": 0.893,
+      "eval_samples_per_second": 33.593,
+      "eval_steps_per_second": 4.479,
       "step": 6
     },
     {
       "epoch": 0.3684210526315789,
+      "grad_norm": 3.6086604595184326,
       "learning_rate": 0.0002,
+      "loss": 1.3404,
       "step": 7
     },
     {
       "epoch": 0.3684210526315789,
+      "eval_loss": 1.2445138692855835,
+      "eval_runtime": 0.8942,
+      "eval_samples_per_second": 33.549,
+      "eval_steps_per_second": 4.473,
       "step": 7
     },
     {
       "epoch": 0.42105263157894735,
+      "grad_norm": 2.691216230392456,
       "learning_rate": 0.00023333333333333333,
+      "loss": 1.2627,
       "step": 8
     },
     {
       "epoch": 0.42105263157894735,
+      "eval_loss": 1.1471664905548096,
+      "eval_runtime": 0.8927,
+      "eval_samples_per_second": 33.606,
+      "eval_steps_per_second": 4.481,
       "step": 8
     },
     {
       "epoch": 0.47368421052631576,
+      "grad_norm": 2.5174126625061035,
       "learning_rate": 0.0002666666666666667,
+      "loss": 1.2037,
       "step": 9
     },
     {
       "epoch": 0.47368421052631576,
+      "eval_loss": 1.1372406482696533,
+      "eval_runtime": 0.8947,
+      "eval_samples_per_second": 33.529,
+      "eval_steps_per_second": 4.471,
       "step": 9
     },
     {
       "epoch": 0.5263157894736842,
+      "grad_norm": 2.893831253051758,
       "learning_rate": 0.0003,
+      "loss": 1.1793,
       "step": 10
     },
     {
       "epoch": 0.5263157894736842,
+      "eval_loss": 1.0686627626419067,
+      "eval_runtime": 0.8921,
+      "eval_samples_per_second": 33.628,
+      "eval_steps_per_second": 4.484,
       "step": 10
     },
     {
       "epoch": 0.5789473684210527,
+      "grad_norm": 2.5055713653564453,
       "learning_rate": 0.0003333333333333333,
+      "loss": 1.201,
       "step": 11
     },
     {
       "epoch": 0.5789473684210527,
+      "eval_loss": 1.0994912385940552,
+      "eval_runtime": 0.8951,
+      "eval_samples_per_second": 33.517,
+      "eval_steps_per_second": 4.469,
       "step": 11
     },
     {
       "epoch": 0.631578947368421,
+      "grad_norm": 2.297982931137085,
       "learning_rate": 0.00036666666666666667,
+      "loss": 1.177,
       "step": 12
     },
     {
       "epoch": 0.631578947368421,
+      "eval_loss": 1.0981471538543701,
+      "eval_runtime": 0.8926,
+      "eval_samples_per_second": 33.608,
+      "eval_steps_per_second": 4.481,
       "step": 12
     },
     {
       "epoch": 0.6842105263157895,
+      "grad_norm": 2.8536081314086914,
       "learning_rate": 0.0004,
+      "loss": 1.2106,
       "step": 13
     },
     {
       "epoch": 0.6842105263157895,
+      "eval_loss": 1.0119823217391968,
+      "eval_runtime": 0.8936,
+      "eval_samples_per_second": 33.574,
+      "eval_steps_per_second": 4.477,
       "step": 13
     },
     {
       "epoch": 0.7368421052631579,
+      "grad_norm": 1.8637670278549194,
       "learning_rate": 0.00043333333333333337,
+      "loss": 1.0688,
       "step": 14
     },
     {
       "epoch": 0.7368421052631579,
+      "eval_loss": 1.0545283555984497,
+      "eval_runtime": 0.893,
+      "eval_samples_per_second": 33.596,
+      "eval_steps_per_second": 4.479,
       "step": 14
     },
     {
       "epoch": 0.7894736842105263,
+      "grad_norm": 2.6284332275390625,
       "learning_rate": 0.00046666666666666666,
+      "loss": 1.1661,
       "step": 15
     },
     {
       "epoch": 0.7894736842105263,
+      "eval_loss": 1.031855821609497,
+      "eval_runtime": 0.8928,
+      "eval_samples_per_second": 33.603,
+      "eval_steps_per_second": 4.48,
       "step": 15
     },
     {
       "epoch": 0.8421052631578947,
+      "grad_norm": 1.9439812898635864,
       "learning_rate": 0.0005,
+      "loss": 1.1859,
       "step": 16
     },
     {
       "epoch": 0.8421052631578947,
+      "eval_loss": 0.9958587884902954,
+      "eval_runtime": 0.8982,
+      "eval_samples_per_second": 33.401,
+      "eval_steps_per_second": 4.453,
       "step": 16
     },
     {
       "epoch": 0.8947368421052632,
+      "grad_norm": 1.7199311256408691,
+      "learning_rate": 0.0004999776608025946,
+      "loss": 1.1636,
       "step": 17
     },
     {
       "epoch": 0.8947368421052632,
+      "eval_loss": 0.9928242564201355,
+      "eval_runtime": 0.8982,
+      "eval_samples_per_second": 33.398,
+      "eval_steps_per_second": 4.453,
       "step": 17
     },
     {
       "epoch": 0.9473684210526315,
+      "grad_norm": 5.788880825042725,
+      "learning_rate": 0.000499910647202696,
+      "loss": 1.0348,
       "step": 18
     },
     {
       "epoch": 0.9473684210526315,
+      "eval_loss": 1.0362129211425781,
+      "eval_runtime": 0.8954,
+      "eval_samples_per_second": 33.504,
+      "eval_steps_per_second": 4.467,
       "step": 18
     },
     {
       "epoch": 1.0,
+      "grad_norm": 2.156782388687134,
+      "learning_rate": 0.0004997989711765446,
+      "loss": 1.201,
       "step": 19
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.9807829260826111,
+      "eval_runtime": 0.8926,
+      "eval_samples_per_second": 33.611,
+      "eval_steps_per_second": 4.481,
       "step": 19
     },
     {
       "epoch": 1.0526315789473684,
+      "grad_norm": 1.9558554887771606,
+      "learning_rate": 0.0004996426526821629,
+      "loss": 0.8535,
       "step": 20
     },
     {
       "epoch": 1.0526315789473684,
+      "eval_loss": 0.9379722476005554,
+      "eval_runtime": 0.8935,
+      "eval_samples_per_second": 33.576,
+      "eval_steps_per_second": 4.477,
       "step": 20
     },
     {
       "epoch": 1.1052631578947367,
+      "grad_norm": 1.772550106048584,
+      "learning_rate": 0.0004994417196557883,
+      "loss": 0.968,
       "step": 21
     },
     {
       "epoch": 1.1052631578947367,
+      "eval_loss": 0.9845291376113892,
+      "eval_runtime": 0.8928,
+      "eval_samples_per_second": 33.603,
+      "eval_steps_per_second": 4.48,
       "step": 21
     },
     {
       "epoch": 1.1578947368421053,
+      "grad_norm": 2.108396291732788,
+      "learning_rate": 0.0004991962080068813,
+      "loss": 1.0552,
       "step": 22
     },
     {
       "epoch": 1.1578947368421053,
+      "eval_loss": 0.9239175319671631,
+      "eval_runtime": 0.893,
+      "eval_samples_per_second": 33.594,
+      "eval_steps_per_second": 4.479,
       "step": 22
     },
     {
       "epoch": 1.2105263157894737,
+      "grad_norm": 1.8215439319610596,
+      "learning_rate": 0.0004989061616117073,
+      "loss": 0.9825,
       "step": 23
     },
     {
       "epoch": 1.2105263157894737,
+      "eval_loss": 0.980516791343689,
+      "eval_runtime": 0.8952,
+      "eval_samples_per_second": 33.513,
+      "eval_steps_per_second": 4.468,
       "step": 23
     },
     {
       "epoch": 1.263157894736842,
+      "grad_norm": 20.904949188232422,
+      "learning_rate": 0.0004985716323054959,
+      "loss": 0.9563,
       "step": 24
     },
     {
       "epoch": 1.263157894736842,
+      "eval_loss": 1.112138271331787,
+      "eval_runtime": 0.8954,
+      "eval_samples_per_second": 33.505,
+      "eval_steps_per_second": 4.467,
       "step": 24
     },
     {
       "epoch": 1.3157894736842106,
+      "grad_norm": 2.785473585128784,
+      "learning_rate": 0.0004981926798731766,
+      "loss": 1.048,
       "step": 25
     },
     {
       "epoch": 1.3157894736842106,
+      "eval_loss": 0.9919915795326233,
+      "eval_runtime": 0.8932,
+      "eval_samples_per_second": 33.586,
+      "eval_steps_per_second": 4.478,
       "step": 25
     },
     {
       "epoch": 1.368421052631579,
+      "grad_norm": 1.8656138181686401,
+      "learning_rate": 0.000497769372038695,
+      "loss": 1.0315,
       "step": 26
     },
     {
       "epoch": 1.368421052631579,
+      "eval_loss": 0.9384483098983765,
+      "eval_runtime": 0.8931,
+      "eval_samples_per_second": 33.589,
+      "eval_steps_per_second": 4.479,
       "step": 26
     },
     {
       "epoch": 1.4210526315789473,
+      "grad_norm": 1.697496771812439,
+      "learning_rate": 0.0004973017844529094,
+      "loss": 1.0063,
       "step": 27
     },
     {
       "epoch": 1.4210526315789473,
+      "eval_loss": 0.904453694820404,
+      "eval_runtime": 0.8918,
+      "eval_samples_per_second": 33.64,
+      "eval_steps_per_second": 4.485,
       "step": 27
     },
     {
       "epoch": 1.4736842105263157,
+      "grad_norm": 1.7305934429168701,
+      "learning_rate": 0.0004967900006800708,
+      "loss": 0.8483,
       "step": 28
     },
     {
       "epoch": 1.4736842105263157,
+      "eval_loss": 0.876754879951477,
+      "eval_runtime": 0.8933,
+      "eval_samples_per_second": 33.584,
+      "eval_steps_per_second": 4.478,
       "step": 28
     },
     {
       "epoch": 1.526315789473684,
+      "grad_norm": 1.7766728401184082,
+      "learning_rate": 0.000496234112182889,
+      "loss": 1.0118,
       "step": 29
     },
     {
       "epoch": 1.526315789473684,
+      "eval_loss": 0.9041274785995483,
+      "eval_runtime": 0.8949,
+      "eval_samples_per_second": 33.524,
+      "eval_steps_per_second": 4.47,
       "step": 29
     },
     {
       "epoch": 1.5789473684210527,
+      "grad_norm": 1.9015165567398071,
+      "learning_rate": 0.000495634218306187,
+      "loss": 0.8917,
       "step": 30
     },
     {
       "epoch": 1.5789473684210527,
+      "eval_loss": 0.8897702693939209,
+      "eval_runtime": 0.8926,
+      "eval_samples_per_second": 33.611,
+      "eval_steps_per_second": 4.481,
       "step": 30
     },
     {
       "epoch": 1.631578947368421,
+      "grad_norm": 1.4804080724716187,
+      "learning_rate": 0.0004949904262591467,
+      "loss": 1.0084,
       "step": 31
     },
     {
       "epoch": 1.631578947368421,
+      "eval_loss": 0.885962188243866,
+      "eval_runtime": 0.8988,
+      "eval_samples_per_second": 33.378,
+      "eval_steps_per_second": 4.45,
       "step": 31
     },
     {
       "epoch": 1.6842105263157894,
+      "grad_norm": 1.819899320602417,
+      "learning_rate": 0.0004943028510961491,
+      "loss": 0.969,
       "step": 32
     },
     {
       "epoch": 1.6842105263157894,
+      "eval_loss": 0.8608292937278748,
+      "eval_runtime": 0.8958,
+      "eval_samples_per_second": 33.489,
+      "eval_steps_per_second": 4.465,
       "step": 32
     },
     {
       "epoch": 1.736842105263158,
+      "grad_norm": 2.8180196285247803,
+      "learning_rate": 0.0004935716156962127,
+      "loss": 1.1318,
       "step": 33
     },
     {
       "epoch": 1.736842105263158,
+      "eval_loss": 0.875141978263855,
+      "eval_runtime": 0.8971,
+      "eval_samples_per_second": 33.441,
+      "eval_steps_per_second": 4.459,
       "step": 33
     },
     {
       "epoch": 1.7894736842105263,
+      "grad_norm": 1.8047230243682861,
+      "learning_rate": 0.000492796850741033,
+      "loss": 1.0002,
       "step": 34
     },
     {
       "epoch": 1.7894736842105263,
+      "eval_loss": 0.89467453956604,
+      "eval_runtime": 0.8966,
+      "eval_samples_per_second": 33.46,
+      "eval_steps_per_second": 4.461,
       "step": 34
     },
     {
       "epoch": 1.8421052631578947,
+      "grad_norm": 2.6305246353149414,
+      "learning_rate": 0.0004919786946916281,
+      "loss": 1.1024,
       "step": 35
     },
     {
       "epoch": 1.8421052631578947,
+      "eval_loss": 0.8359136581420898,
+      "eval_runtime": 0.8971,
+      "eval_samples_per_second": 33.44,
+      "eval_steps_per_second": 4.459,
       "step": 35
     },
     {
       "epoch": 1.8947368421052633,
+      "grad_norm": 2.4130873680114746,
+      "learning_rate": 0.0004911172937635942,
+      "loss": 0.9314,
       "step": 36
     },
     {
       "epoch": 1.8947368421052633,
+      "eval_loss": 0.8058050274848938,
+      "eval_runtime": 0.8959,
+      "eval_samples_per_second": 33.487,
+      "eval_steps_per_second": 4.465,
       "step": 36
     },
     {
       "epoch": 1.9473684210526314,
+      "grad_norm": 1.580320119857788,
+      "learning_rate": 0.0004902128019009741,
+      "loss": 1.0036,
       "step": 37
     },
     {
       "epoch": 1.9473684210526314,
+      "eval_loss": 0.7546663880348206,
+      "eval_runtime": 0.8967,
+      "eval_samples_per_second": 33.457,
+      "eval_steps_per_second": 4.461,
       "step": 37
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.6066155433654785,
+      "learning_rate": 0.000489265380748746,
+      "loss": 1.094,
       "step": 38
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.8417730331420898,
+      "eval_runtime": 0.895,
+      "eval_samples_per_second": 33.519,
+      "eval_steps_per_second": 4.469,
       "step": 38
     },
     {
       "epoch": 2.0526315789473686,
+      "grad_norm": 2.4847571849823,
+      "learning_rate": 0.0004882751996239352,
+      "loss": 0.9106,
       "step": 39
     },
     {
       "epoch": 2.0526315789473686,
+      "eval_loss": 0.805930495262146,
+      "eval_runtime": 0.8985,
+      "eval_samples_per_second": 33.388,
+      "eval_steps_per_second": 4.452,
       "step": 39
     },
     {
       "epoch": 2.1052631578947367,
+      "grad_norm": 2.144543409347534,
+      "learning_rate": 0.0004872424354853545,
+      "loss": 0.8542,
       "step": 40
     },
     {
       "epoch": 2.1052631578947367,
+      "eval_loss": 0.7550076842308044,
+      "eval_runtime": 0.8977,
+      "eval_samples_per_second": 33.42,
+      "eval_steps_per_second": 4.456,
       "step": 40
     },
     {
       "epoch": 2.1578947368421053,
+      "grad_norm": 1.2767819166183472,
+      "learning_rate": 0.0004861672729019797,
+      "loss": 0.7569,
       "step": 41
     },
     {
       "epoch": 2.1578947368421053,
+      "eval_loss": 0.720465362071991,
+      "eval_runtime": 0.9013,
+      "eval_samples_per_second": 33.285,
+      "eval_steps_per_second": 4.438,
       "step": 41
     },
     {
       "epoch": 2.2105263157894735,
+      "grad_norm": 1.4606373310089111,
+      "learning_rate": 0.0004850499040199643,
+      "loss": 0.6198,
       "step": 42
     },
     {
       "epoch": 2.2105263157894735,
+      "eval_loss": 0.7800072431564331,
+      "eval_runtime": 0.8938,
+      "eval_samples_per_second": 33.564,
+      "eval_steps_per_second": 4.475,
       "step": 42
     },
     {
       "epoch": 2.263157894736842,
+      "grad_norm": 4.208314895629883,
+      "learning_rate": 0.0004838905285283005,
+      "loss": 0.8454,
       "step": 43
     },
     {
       "epoch": 2.263157894736842,
+      "eval_loss": 0.7882384657859802,
+      "eval_runtime": 0.8955,
+      "eval_samples_per_second": 33.502,
+      "eval_steps_per_second": 4.467,
       "step": 43
     },
     {
       "epoch": 2.3157894736842106,
+      "grad_norm": 2.8906519412994385,
+      "learning_rate": 0.00048268935362313215,
+      "loss": 0.8786,
       "step": 44
     },
     {
       "epoch": 2.3157894736842106,
+      "eval_loss": 0.7504675388336182,
+      "eval_runtime": 0.8973,
+      "eval_samples_per_second": 33.435,
+      "eval_steps_per_second": 4.458,
       "step": 44
     },
     {
       "epoch": 2.3684210526315788,
+      "grad_norm": 2.5608749389648438,
+      "learning_rate": 0.00048144659397072586,
+      "loss": 0.7165,
       "step": 45
     },
     {
       "epoch": 2.3684210526315788,
+      "eval_loss": 0.7160356640815735,
+      "eval_runtime": 0.8985,
+      "eval_samples_per_second": 33.389,
+      "eval_steps_per_second": 4.452,
       "step": 45
     },
     {
       "epoch": 2.4210526315789473,
+      "grad_norm": 2.237501621246338,
+      "learning_rate": 0.0004801624716691072,
+      "loss": 0.9232,
       "step": 46
     },
     {
       "epoch": 2.4210526315789473,
+      "eval_loss": 0.7007637619972229,
+      "eval_runtime": 0.8986,
+      "eval_samples_per_second": 33.387,
+      "eval_steps_per_second": 4.452,
       "step": 46
     },
     {
       "epoch": 2.473684210526316,
+      "grad_norm": 2.166039228439331,
+      "learning_rate": 0.00047883721620836894,
+      "loss": 0.782,
       "step": 47
     },
     {
       "epoch": 2.473684210526316,
+      "eval_loss": 0.6951841711997986,
+      "eval_runtime": 0.9007,
+      "eval_samples_per_second": 33.308,
+      "eval_steps_per_second": 4.441,
       "step": 47
     },
     {
       "epoch": 2.526315789473684,
+      "grad_norm": 1.6499485969543457,
+      "learning_rate": 0.0004774710644296578,
+      "loss": 0.7387,
       "step": 48
     },
     {
       "epoch": 2.526315789473684,
+      "eval_loss": 0.7041357755661011,
+      "eval_runtime": 0.8999,
+      "eval_samples_per_second": 33.337,
+      "eval_steps_per_second": 4.445,
       "step": 48
     },
     {
       "epoch": 2.5789473684210527,
+      "grad_norm": 2.833061456680298,
+      "learning_rate": 0.00047606426048284813,
+      "loss": 0.8343,
       "step": 49
     },
     {
       "epoch": 2.5789473684210527,
+      "eval_loss": 0.6822550296783447,
+      "eval_runtime": 0.9005,
+      "eval_samples_per_second": 33.316,
+      "eval_steps_per_second": 4.442,
       "step": 49
     },
     {
       "epoch": 2.6315789473684212,
+      "grad_norm": 2.0135650634765625,
+      "learning_rate": 0.00047461705578290833,
+      "loss": 0.7768,
       "step": 50
     },
     {
       "epoch": 2.6315789473684212,
+      "eval_loss": 0.6283606886863708,
+      "eval_runtime": 0.8974,
+      "eval_samples_per_second": 33.428,
+      "eval_steps_per_second": 4.457,
       "step": 50
     },
     {
       "epoch": 2.6842105263157894,
+      "grad_norm": 1.5658601522445679,
+      "learning_rate": 0.0004731297089649703,
+      "loss": 0.7418,
       "step": 51
     },
     {
       "epoch": 2.6842105263157894,
+      "eval_loss": 0.6374291181564331,
+      "eval_runtime": 0.8918,
+      "eval_samples_per_second": 33.641,
+      "eval_steps_per_second": 4.485,
       "step": 51
     },
     {
       "epoch": 2.736842105263158,
+      "grad_norm": 1.7403415441513062,
+      "learning_rate": 0.0004716024858381075,
+      "loss": 0.7866,
       "step": 52
     },
     {
       "epoch": 2.736842105263158,
+      "eval_loss": 0.6586597561836243,
+      "eval_runtime": 0.8957,
+      "eval_samples_per_second": 33.495,
+      "eval_steps_per_second": 4.466,
       "step": 52
     },
     {
       "epoch": 2.7894736842105265,
+      "grad_norm": 1.519404411315918,
+      "learning_rate": 0.00047003565933783123,
+      "loss": 0.8354,
       "step": 53
     },
     {
       "epoch": 2.7894736842105265,
+      "eval_loss": 0.691727340221405,
+      "eval_runtime": 0.8923,
+      "eval_samples_per_second": 33.62,
+      "eval_steps_per_second": 4.483,
       "step": 53
     },
     {
       "epoch": 2.8421052631578947,
+      "grad_norm": 1.5139788389205933,
+      "learning_rate": 0.0004684295094773134,
+      "loss": 0.7804,
       "step": 54
     },
     {
       "epoch": 2.8421052631578947,
+      "eval_loss": 0.6508743762969971,
+      "eval_runtime": 0.8929,
+      "eval_samples_per_second": 33.598,
+      "eval_steps_per_second": 4.48,
       "step": 54
     },
     {
       "epoch": 2.8947368421052633,
+      "grad_norm": 1.5480479001998901,
+      "learning_rate": 0.00046678432329734434,
+      "loss": 0.7253,
       "step": 55
     },
     {
       "epoch": 2.8947368421052633,
+      "eval_loss": 0.6439611911773682,
+      "eval_runtime": 0.894,
+      "eval_samples_per_second": 33.557,
+      "eval_steps_per_second": 4.474,
       "step": 55
+    },
+    {
+      "epoch": 2.9473684210526314,
+      "grad_norm": 1.5994068384170532,
+      "learning_rate": 0.00046510039481503486,
+      "loss": 0.842,
+      "step": 56
+    },
+    {
+      "epoch": 2.9473684210526314,
+      "eval_loss": 0.6327024698257446,
+      "eval_runtime": 0.9041,
+      "eval_samples_per_second": 33.184,
+      "eval_steps_per_second": 4.424,
+      "step": 56
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 1.6054733991622925,
+      "learning_rate": 0.00046337802497127117,
+      "loss": 0.8073,
+      "step": 57
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.6213096976280212,
+      "eval_runtime": 0.8992,
+      "eval_samples_per_second": 33.362,
+      "eval_steps_per_second": 4.448,
+      "step": 57
+    },
+    {
+      "epoch": 3.0526315789473686,
+      "grad_norm": 2.5787405967712402,
+      "learning_rate": 0.00046161752157693284,
+      "loss": 0.6017,
+      "step": 58
+    },
+    {
+      "epoch": 3.0526315789473686,
+      "eval_loss": 0.5892248749732971,
+      "eval_runtime": 0.8922,
+      "eval_samples_per_second": 33.624,
+      "eval_steps_per_second": 4.483,
+      "step": 58
+    },
+    {
+      "epoch": 3.1052631578947367,
+      "grad_norm": 1.7601501941680908,
+      "learning_rate": 0.0004598191992578828,
+      "loss": 0.6071,
+      "step": 59
+    },
+    {
+      "epoch": 3.1052631578947367,
+      "eval_loss": 0.5735067129135132,
+      "eval_runtime": 0.8924,
+      "eval_samples_per_second": 33.618,
+      "eval_steps_per_second": 4.482,
+      "step": 59
+    },
+    {
+      "epoch": 3.1578947368421053,
+      "grad_norm": 1.7480543851852417,
+      "learning_rate": 0.00045798337939873923,
+      "loss": 0.6597,
+      "step": 60
+    },
+    {
+      "epoch": 3.1578947368421053,
+      "eval_loss": 0.5306870341300964,
+      "eval_runtime": 0.8938,
+      "eval_samples_per_second": 33.566,
+      "eval_steps_per_second": 4.475,
+      "step": 60
+    },
+    {
+      "epoch": 3.2105263157894735,
+      "grad_norm": 2.3808937072753906,
+      "learning_rate": 0.0004561103900854401,
+      "loss": 0.5372,
+      "step": 61
+    },
+    {
+      "epoch": 3.2105263157894735,
+      "eval_loss": 0.535223662853241,
+      "eval_runtime": 0.8966,
+      "eval_samples_per_second": 33.459,
+      "eval_steps_per_second": 4.461,
+      "step": 61
+    },
+    {
+      "epoch": 3.263157894736842,
+      "grad_norm": 1.8272178173065186,
+      "learning_rate": 0.0004542005660466094,
+      "loss": 0.5399,
+      "step": 62
+    },
+    {
+      "epoch": 3.263157894736842,
+      "eval_loss": 0.5316082239151001,
+      "eval_runtime": 0.8994,
+      "eval_samples_per_second": 33.354,
+      "eval_steps_per_second": 4.447,
+      "step": 62
+    },
+    {
+      "epoch": 3.3157894736842106,
+      "grad_norm": 2.0635435581207275,
+      "learning_rate": 0.0004522542485937369,
+      "loss": 0.5531,
+      "step": 63
+    },
+    {
+      "epoch": 3.3157894736842106,
+      "eval_loss": 0.5134085416793823,
+      "eval_runtime": 0.8937,
+      "eval_samples_per_second": 33.567,
+      "eval_steps_per_second": 4.476,
+      "step": 63
+    },
+    {
+      "epoch": 3.3684210526315788,
+      "grad_norm": 2.268183708190918,
+      "learning_rate": 0.0004502717855601809,
+      "loss": 0.5291,
+      "step": 64
+    },
+    {
+      "epoch": 3.3684210526315788,
+      "eval_loss": 0.5419598817825317,
+      "eval_runtime": 0.8959,
+      "eval_samples_per_second": 33.486,
+      "eval_steps_per_second": 4.465,
+      "step": 64
+    },
+    {
+      "epoch": 3.4210526315789473,
+      "grad_norm": 1.8800358772277832,
+      "learning_rate": 0.0004482535312390058,
+      "loss": 0.5501,
+      "step": 65
+    },
+    {
+      "epoch": 3.4210526315789473,
+      "eval_loss": 0.5209227800369263,
+      "eval_runtime": 0.8927,
+      "eval_samples_per_second": 33.606,
+      "eval_steps_per_second": 4.481,
+      "step": 65
+    },
+    {
+      "epoch": 3.473684210526316,
+      "grad_norm": 3.1507558822631836,
+      "learning_rate": 0.00044619984631966527,
+      "loss": 0.5309,
+      "step": 66
+    },
+    {
+      "epoch": 3.473684210526316,
+      "eval_loss": 0.536996603012085,
+      "eval_runtime": 0.8951,
+      "eval_samples_per_second": 33.517,
+      "eval_steps_per_second": 4.469,
+      "step": 66
+    },
+    {
+      "epoch": 3.526315789473684,
+      "grad_norm": 3.5700478553771973,
+      "learning_rate": 0.0004441110978235418,
+      "loss": 0.7223,
+      "step": 67
+    },
+    {
+      "epoch": 3.526315789473684,
+      "eval_loss": 0.5140640139579773,
+      "eval_runtime": 0.8962,
+      "eval_samples_per_second": 33.474,
+      "eval_steps_per_second": 4.463,
+      "step": 67
+    },
+    {
+      "epoch": 3.5789473684210527,
+      "grad_norm": 1.758971929550171,
+      "learning_rate": 0.0004419876590383554,
+      "loss": 0.6927,
+      "step": 68
+    },
+    {
+      "epoch": 3.5789473684210527,
+      "eval_loss": 0.47072505950927734,
+      "eval_runtime": 0.9127,
+      "eval_samples_per_second": 32.87,
+      "eval_steps_per_second": 4.383,
+      "step": 68
+    },
+    {
+      "epoch": 3.6315789473684212,
+      "grad_norm": 1.5274709463119507,
+      "learning_rate": 0.00043982990945145146,
+      "loss": 0.4762,
+      "step": 69
+    },
+    {
+      "epoch": 3.6315789473684212,
+      "eval_loss": 0.4518219828605652,
+      "eval_runtime": 0.8967,
+      "eval_samples_per_second": 33.456,
+      "eval_steps_per_second": 4.461,
+      "step": 69
+    },
+    {
+      "epoch": 3.6842105263157894,
+      "grad_norm": 1.7685797214508057,
+      "learning_rate": 0.0004376382346819819,
+      "loss": 0.5629,
+      "step": 70
+    },
+    {
+      "epoch": 3.6842105263157894,
+      "eval_loss": 0.40707579255104065,
+      "eval_runtime": 0.8934,
+      "eval_samples_per_second": 33.581,
+      "eval_steps_per_second": 4.478,
+      "step": 70
+    },
+    {
+      "epoch": 3.736842105263158,
+      "grad_norm": 1.6618574857711792,
+      "learning_rate": 0.00043541302641198946,
+      "loss": 0.5877,
+      "step": 71
+    },
+    {
+      "epoch": 3.736842105263158,
+      "eval_loss": 0.3780651390552521,
+      "eval_runtime": 0.9024,
+      "eval_samples_per_second": 33.246,
+      "eval_steps_per_second": 4.433,
+      "step": 71
+    },
+    {
+      "epoch": 3.7894736842105265,
+      "grad_norm": 1.542702317237854,
+      "learning_rate": 0.00043315468231640834,
+      "loss": 0.5222,
+      "step": 72
+    },
+    {
+      "epoch": 3.7894736842105265,
+      "eval_loss": 0.3732970356941223,
+      "eval_runtime": 0.9166,
+      "eval_samples_per_second": 32.73,
+      "eval_steps_per_second": 4.364,
+      "step": 72
+    },
+    {
+      "epoch": 3.8421052631578947,
+      "grad_norm": 1.8039391040802002,
+      "learning_rate": 0.00043086360599199516,
+      "loss": 0.5238,
+      "step": 73
+    },
+    {
+      "epoch": 3.8421052631578947,
+      "eval_loss": 0.3568810820579529,
+      "eval_runtime": 0.9031,
+      "eval_samples_per_second": 33.218,
+      "eval_steps_per_second": 4.429,
+      "step": 73
+    },
+    {
+      "epoch": 3.8947368421052633,
+      "grad_norm": 1.6215863227844238,
+      "learning_rate": 0.0004285402068852002,
+      "loss": 0.6504,
+      "step": 74
+    },
+    {
+      "epoch": 3.8947368421052633,
+      "eval_loss": 0.3885921835899353,
+      "eval_runtime": 0.896,
+      "eval_samples_per_second": 33.483,
+      "eval_steps_per_second": 4.464,
+      "step": 74
+    },
+    {
+      "epoch": 3.9473684210526314,
+      "grad_norm": 1.5152952671051025,
+      "learning_rate": 0.00042618490021899383,
+      "loss": 0.5694,
+      "step": 75
+    },
+    {
+      "epoch": 3.9473684210526314,
+      "eval_loss": 0.38745489716529846,
+      "eval_runtime": 0.8939,
+      "eval_samples_per_second": 33.562,
+      "eval_steps_per_second": 4.475,
+      "step": 75
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 2.6989200115203857,
+      "learning_rate": 0.00042379810691866064,
+      "loss": 0.5849,
+      "step": 76
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.42535698413848877,
+      "eval_runtime": 0.9073,
+      "eval_samples_per_second": 33.066,
+      "eval_steps_per_second": 4.409,
+      "step": 76
+    },
+    {
+      "epoch": 4.052631578947368,
+      "grad_norm": 1.7381691932678223,
+      "learning_rate": 0.00042138025353657407,
+      "loss": 0.3779,
+      "step": 77
+    },
+    {
+      "epoch": 4.052631578947368,
+      "eval_loss": 0.37115439772605896,
+      "eval_runtime": 0.9112,
+      "eval_samples_per_second": 32.922,
+      "eval_steps_per_second": 4.39,
+      "step": 77
+    },
+    {
+      "epoch": 4.105263157894737,
+      "grad_norm": 2.188385248184204,
+      "learning_rate": 0.00041893177217596633,
+      "loss": 0.44,
+      "step": 78
+    },
+    {
+      "epoch": 4.105263157894737,
+      "eval_loss": 0.2926563322544098,
+      "eval_runtime": 0.8982,
+      "eval_samples_per_second": 33.401,
+      "eval_steps_per_second": 4.453,
+      "step": 78
+    },
+    {
+      "epoch": 4.157894736842105,
+      "grad_norm": 2.3652961254119873,
+      "learning_rate": 0.0004164531004137049,
+      "loss": 0.3639,
+      "step": 79
+    },
+    {
+      "epoch": 4.157894736842105,
+      "eval_loss": 0.2751067876815796,
+      "eval_runtime": 0.9146,
+      "eval_samples_per_second": 32.8,
+      "eval_steps_per_second": 4.373,
+      "step": 79
+    },
+    {
+      "epoch": 4.2105263157894735,
+      "grad_norm": 2.165874719619751,
+      "learning_rate": 0.0004139446812220924,
+      "loss": 0.2683,
+      "step": 80
+    },
+    {
+      "epoch": 4.2105263157894735,
+      "eval_loss": 0.2685202360153198,
+      "eval_runtime": 0.9124,
+      "eval_samples_per_second": 32.881,
+      "eval_steps_per_second": 4.384,
+      "step": 80
+    },
+    {
+      "epoch": 4.2631578947368425,
+      "grad_norm": 1.7391912937164307,
+      "learning_rate": 0.0004114069628897006,
+      "loss": 0.2993,
+      "step": 81
+    },
+    {
+      "epoch": 4.2631578947368425,
+      "eval_loss": 0.33646491169929504,
+      "eval_runtime": 0.8952,
+      "eval_samples_per_second": 33.51,
+      "eval_steps_per_second": 4.468,
+      "step": 81
+    },
+    {
+      "epoch": 4.315789473684211,
+      "grad_norm": 3.65714693069458,
+      "learning_rate": 0.0004088403989412559,
+      "loss": 0.4252,
+      "step": 82
+    },
+    {
+      "epoch": 4.315789473684211,
+      "eval_loss": 0.2839888632297516,
+      "eval_runtime": 0.9057,
+      "eval_samples_per_second": 33.123,
+      "eval_steps_per_second": 4.416,
+      "step": 82
+    },
+    {
+      "epoch": 4.368421052631579,
+      "grad_norm": 2.1762771606445312,
+      "learning_rate": 0.00040624544805658794,
+      "loss": 0.3304,
+      "step": 83
+    },
+    {
+      "epoch": 4.368421052631579,
+      "eval_loss": 0.27002134919166565,
+      "eval_runtime": 0.8939,
+      "eval_samples_per_second": 33.562,
+      "eval_steps_per_second": 4.475,
+      "step": 83
+    },
+    {
+      "epoch": 4.421052631578947,
+      "grad_norm": 2.1018354892730713,
+      "learning_rate": 0.00040362257398865713,
+      "loss": 0.4506,
+      "step": 84
+    },
+    {
+      "epoch": 4.421052631578947,
+      "eval_loss": 0.2557659149169922,
+      "eval_runtime": 0.8969,
+      "eval_samples_per_second": 33.45,
+      "eval_steps_per_second": 4.46,
+      "step": 84
+    },
+    {
+      "epoch": 4.473684210526316,
+      "grad_norm": 1.7509180307388306,
+      "learning_rate": 0.00040097224548067613,
+      "loss": 0.3731,
+      "step": 85
+    },
+    {
+      "epoch": 4.473684210526316,
+      "eval_loss": 0.26859304308891296,
+      "eval_runtime": 0.9009,
+      "eval_samples_per_second": 33.299,
+      "eval_steps_per_second": 4.44,
+      "step": 85
+    },
+    {
+      "epoch": 4.526315789473684,
+      "grad_norm": 1.971816897392273,
+      "learning_rate": 0.0003982949361823388,
+      "loss": 0.38,
+      "step": 86
+    },
+    {
+      "epoch": 4.526315789473684,
+      "eval_loss": 0.2624681293964386,
+      "eval_runtime": 0.8949,
+      "eval_samples_per_second": 33.524,
+      "eval_steps_per_second": 4.47,
+      "step": 86
+    },
+    {
+      "epoch": 4.578947368421053,
+      "grad_norm": 1.4714068174362183,
+      "learning_rate": 0.0003955911245651726,
+      "loss": 0.3944,
+      "step": 87
+    },
+    {
+      "epoch": 4.578947368421053,
+      "eval_loss": 0.23652420938014984,
+      "eval_runtime": 0.8952,
+      "eval_samples_per_second": 33.511,
+      "eval_steps_per_second": 4.468,
+      "step": 87
+    },
+    {
+      "epoch": 4.631578947368421,
+      "grad_norm": 2.6970834732055664,
+      "learning_rate": 0.0003928612938370292,
+      "loss": 0.3374,
+      "step": 88
+    },
+    {
+      "epoch": 4.631578947368421,
+      "eval_loss": 0.2716277241706848,
+      "eval_runtime": 0.8932,
+      "eval_samples_per_second": 33.588,
+      "eval_steps_per_second": 4.478,
+      "step": 88
+    },
+    {
+      "epoch": 4.684210526315789,
+      "grad_norm": 1.9066615104675293,
+      "learning_rate": 0.00039010593185572867,
+      "loss": 0.2442,
+      "step": 89
+    },
+    {
+      "epoch": 4.684210526315789,
+      "eval_loss": 0.2999991476535797,
+      "eval_runtime": 0.8939,
+      "eval_samples_per_second": 33.559,
+      "eval_steps_per_second": 4.475,
+      "step": 89
+    },
+    {
+      "epoch": 4.7368421052631575,
+      "grad_norm": 2.6232354640960693,
+      "learning_rate": 0.00038732553104187296,
+      "loss": 0.2857,
+      "step": 90
+    },
+    {
+      "epoch": 4.7368421052631575,
+      "eval_loss": 0.2302989959716797,
+      "eval_runtime": 0.8938,
+      "eval_samples_per_second": 33.564,
+      "eval_steps_per_second": 4.475,
+      "step": 90
+    },
+    {
+      "epoch": 4.7894736842105265,
+      "grad_norm": 2.0710129737854004,
+      "learning_rate": 0.0003845205882908432,
+      "loss": 0.4195,
+      "step": 91
+    },
+    {
+      "epoch": 4.7894736842105265,
+      "eval_loss": 0.21816590428352356,
+      "eval_runtime": 0.9251,
+      "eval_samples_per_second": 32.429,
+      "eval_steps_per_second": 4.324,
+      "step": 91
+    },
+    {
+      "epoch": 4.842105263157895,
+      "grad_norm": 1.8006062507629395,
+      "learning_rate": 0.0003816916048839979,
+      "loss": 0.2859,
+      "step": 92
+    },
+    {
+      "epoch": 4.842105263157895,
+      "eval_loss": 0.21071405708789825,
+      "eval_runtime": 0.8965,
+      "eval_samples_per_second": 33.462,
+      "eval_steps_per_second": 4.462,
+      "step": 92
+    },
+    {
+      "epoch": 4.894736842105263,
+      "grad_norm": 1.6352888345718384,
+      "learning_rate": 0.0003788390863990875,
+      "loss": 0.4275,
+      "step": 93
+    },
+    {
+      "epoch": 4.894736842105263,
+      "eval_loss": 0.20206846296787262,
+      "eval_runtime": 0.9052,
+      "eval_samples_per_second": 33.144,
+      "eval_steps_per_second": 4.419,
+      "step": 93
+    },
+    {
+      "epoch": 4.947368421052632,
+      "grad_norm": 1.6399378776550293,
+      "learning_rate": 0.00037596354261990007,
+      "loss": 0.389,
+      "step": 94
+    },
+    {
+      "epoch": 4.947368421052632,
+      "eval_loss": 0.19467315077781677,
+      "eval_runtime": 0.8973,
+      "eval_samples_per_second": 33.435,
+      "eval_steps_per_second": 4.458,
+      "step": 94
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 1.5680173635482788,
+      "learning_rate": 0.0003730654874451569,
+      "loss": 0.395,
+      "step": 95
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.19546455144882202,
+      "eval_runtime": 0.91,
+      "eval_samples_per_second": 32.968,
+      "eval_steps_per_second": 4.396,
+      "step": 95
+    },
+    {
+      "epoch": 5.052631578947368,
+      "grad_norm": 1.0308386087417603,
+      "learning_rate": 0.00037014543879667093,
+      "loss": 0.1384,
+      "step": 96
+    },
+    {
+      "epoch": 5.052631578947368,
+      "eval_loss": 0.18969732522964478,
+      "eval_runtime": 0.9021,
+      "eval_samples_per_second": 33.258,
+      "eval_steps_per_second": 4.434,
+      "step": 96
+    },
+    {
+      "epoch": 5.105263157894737,
+      "grad_norm": 1.4042502641677856,
+      "learning_rate": 0.0003672039185267878,
+      "loss": 0.2291,
+      "step": 97
+    },
+    {
+      "epoch": 5.105263157894737,
+      "eval_loss": 0.16800740361213684,
+      "eval_runtime": 0.8938,
+      "eval_samples_per_second": 33.563,
+      "eval_steps_per_second": 4.475,
+      "step": 97
+    },
+    {
+      "epoch": 5.157894736842105,
+      "grad_norm": 1.6313552856445312,
+      "learning_rate": 0.00036424145232512333,
+      "loss": 0.1736,
+      "step": 98
+    },
+    {
+      "epoch": 5.157894736842105,
+      "eval_loss": 0.16714099049568176,
+      "eval_runtime": 0.9009,
+      "eval_samples_per_second": 33.301,
+      "eval_steps_per_second": 4.44,
+      "step": 98
+    },
+    {
+      "epoch": 5.2105263157894735,
+      "grad_norm": 1.8922698497772217,
+      "learning_rate": 0.0003612585696246158,
+      "loss": 0.1677,
+      "step": 99
+    },
+    {
+      "epoch": 5.2105263157894735,
+      "eval_loss": 0.179762065410614,
+      "eval_runtime": 0.9039,
+      "eval_samples_per_second": 33.188,
+      "eval_steps_per_second": 4.425,
+      "step": 99
+    },
+    {
+      "epoch": 5.2631578947368425,
+      "grad_norm": 2.409526824951172,
+      "learning_rate": 0.0003582558035069091,
+      "loss": 0.2379,
+      "step": 100
+    },
+    {
+      "epoch": 5.2631578947368425,
+      "eval_loss": 0.1902371197938919,
+      "eval_runtime": 0.9097,
+      "eval_samples_per_second": 32.98,
+      "eval_steps_per_second": 4.397,
+      "step": 100
+    },
+    {
+      "epoch": 5.315789473684211,
+      "grad_norm": 2.084869146347046,
+      "learning_rate": 0.0003552336906070838,
+      "loss": 0.2165,
+      "step": 101
+    },
+    {
+      "epoch": 5.315789473684211,
+      "eval_loss": 0.17252177000045776,
+      "eval_runtime": 0.8948,
+      "eval_samples_per_second": 33.528,
+      "eval_steps_per_second": 4.47,
+      "step": 101
+    },
+    {
+      "epoch": 5.368421052631579,
+      "grad_norm": 1.655718207359314,
+      "learning_rate": 0.000352192771017753,
+      "loss": 0.223,
+      "step": 102
+    },
+    {
+      "epoch": 5.368421052631579,
+      "eval_loss": 0.18867380917072296,
+      "eval_runtime": 0.8956,
+      "eval_samples_per_second": 33.495,
+      "eval_steps_per_second": 4.466,
+      "step": 102
+    },
+    {
+      "epoch": 5.421052631578947,
+      "grad_norm": 2.672633409500122,
+      "learning_rate": 0.0003491335881925407,
+      "loss": 0.161,
+      "step": 103
+    },
+    {
+      "epoch": 5.421052631578947,
+      "eval_loss": 0.1944020837545395,
+      "eval_runtime": 0.8924,
+      "eval_samples_per_second": 33.616,
+      "eval_steps_per_second": 4.482,
+      "step": 103
+    },
+    {
+      "epoch": 5.473684210526316,
+      "grad_norm": 1.9712008237838745,
+      "learning_rate": 0.0003460566888489593,
+      "loss": 0.2525,
+      "step": 104
+    },
+    {
+      "epoch": 5.473684210526316,
+      "eval_loss": 0.17671068012714386,
+      "eval_runtime": 0.897,
+      "eval_samples_per_second": 33.446,
+      "eval_steps_per_second": 4.459,
+      "step": 104
+    },
+    {
+      "epoch": 5.526315789473684,
+      "grad_norm": 2.2153072357177734,
+      "learning_rate": 0.00034296262287070335,
+      "loss": 0.2105,
+      "step": 105
+    },
+    {
+      "epoch": 5.526315789473684,
+      "eval_loss": 0.1715732216835022,
+      "eval_runtime": 0.8951,
+      "eval_samples_per_second": 33.514,
+      "eval_steps_per_second": 4.469,
+      "step": 105
+    },
+    {
+      "epoch": 5.578947368421053,
+      "grad_norm": 1.8106168508529663,
+      "learning_rate": 0.0003398519432093782,
+      "loss": 0.259,
+      "step": 106
+    },
+    {
+      "epoch": 5.578947368421053,
+      "eval_loss": 0.1465868353843689,
+      "eval_runtime": 0.9077,
+      "eval_samples_per_second": 33.051,
+      "eval_steps_per_second": 4.407,
+      "step": 106
+    },
+    {
+      "epoch": 5.631578947368421,
+      "grad_norm": 2.1159439086914062,
+      "learning_rate": 0.0003367252057856802,
+      "loss": 0.2065,
+      "step": 107
+    },
+    {
+      "epoch": 5.631578947368421,
+      "eval_loss": 0.14219093322753906,
+      "eval_runtime": 0.9049,
+      "eval_samples_per_second": 33.154,
+      "eval_steps_per_second": 4.42,
+      "step": 107
+    },
+    {
+      "epoch": 5.684210526315789,
+      "grad_norm": 1.4467761516571045,
+      "learning_rate": 0.00033358296939004547,
+      "loss": 0.2083,
+      "step": 108
+    },
+    {
+      "epoch": 5.684210526315789,
+      "eval_loss": 0.1406753957271576,
+      "eval_runtime": 0.8954,
+      "eval_samples_per_second": 33.505,
+      "eval_steps_per_second": 4.467,
+      "step": 108
+    },
+    {
+      "epoch": 5.7368421052631575,
+      "grad_norm": 1.3671239614486694,
+      "learning_rate": 0.00033042579558278717,
+      "loss": 0.1825,
+      "step": 109
+    },
+    {
+      "epoch": 5.7368421052631575,
+      "eval_loss": 0.13007155060768127,
+      "eval_runtime": 0.8998,
+      "eval_samples_per_second": 33.342,
+      "eval_steps_per_second": 4.446,
+      "step": 109
+    },
+    {
+      "epoch": 5.7894736842105265,
+      "grad_norm": 1.479944109916687,
+      "learning_rate": 0.00032725424859373687,
+      "loss": 0.2244,
+      "step": 110
+    },
+    {
+      "epoch": 5.7894736842105265,
+      "eval_loss": 0.12692232429981232,
+      "eval_runtime": 0.901,
+      "eval_samples_per_second": 33.298,
+      "eval_steps_per_second": 4.44,
+      "step": 110
+    },
+    {
+      "epoch": 5.842105263157895,
+      "grad_norm": 1.5173969268798828,
+      "learning_rate": 0.0003240688952214085,
+      "loss": 0.2273,
+      "step": 111
+    },
+    {
+      "epoch": 5.842105263157895,
+      "eval_loss": 0.12454597651958466,
+      "eval_runtime": 0.8987,
+      "eval_samples_per_second": 33.382,
+      "eval_steps_per_second": 4.451,
+      "step": 111
+    },
+    {
+      "epoch": 5.894736842105263,
+      "grad_norm": 2.7870988845825195,
+      "learning_rate": 0.00032087030473170445,
+      "loss": 0.2101,
+      "step": 112
+    },
+    {
+      "epoch": 5.894736842105263,
+      "eval_loss": 0.12002909928560257,
+      "eval_runtime": 0.893,
+      "eval_samples_per_second": 33.593,
+      "eval_steps_per_second": 4.479,
+      "step": 112
+    },
+    {
+      "epoch": 5.947368421052632,
+      "grad_norm": 1.3659342527389526,
+      "learning_rate": 0.00031765904875617973,
+      "loss": 0.1882,
+      "step": 113
+    },
+    {
+      "epoch": 5.947368421052632,
+      "eval_loss": 0.10573837906122208,
+      "eval_runtime": 0.8956,
+      "eval_samples_per_second": 33.496,
+      "eval_steps_per_second": 4.466,
+      "step": 113
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.8464044332504272,
+      "learning_rate": 0.00031443570118988356,
+      "loss": 0.2285,
+      "step": 114
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.10221625119447708,
+      "eval_runtime": 0.8955,
+      "eval_samples_per_second": 33.501,
+      "eval_steps_per_second": 4.467,
+      "step": 114
+    },
+    {
+      "epoch": 6.052631578947368,
+      "grad_norm": 1.3894392251968384,
+      "learning_rate": 0.00031120083808879663,
+      "loss": 0.1115,
+      "step": 115
+    },
+    {
+      "epoch": 6.052631578947368,
+      "eval_loss": 0.09458151459693909,
+      "eval_runtime": 0.8981,
+      "eval_samples_per_second": 33.405,
+      "eval_steps_per_second": 4.454,
+      "step": 115
+    },
+    {
+      "epoch": 6.105263157894737,
+      "grad_norm": 0.933142364025116,
+      "learning_rate": 0.0003079550375668821,
+      "loss": 0.0888,
+      "step": 116
+    },
+    {
+      "epoch": 6.105263157894737,
+      "eval_loss": 0.09364737570285797,
+      "eval_runtime": 0.9403,
+      "eval_samples_per_second": 31.905,
+      "eval_steps_per_second": 4.254,
+      "step": 116
+    },
+    {
+      "epoch": 6.157894736842105,
+      "grad_norm": 0.9676756262779236,
+      "learning_rate": 0.00030469887969276877,
+      "loss": 0.0785,
+      "step": 117
+    },
+    {
+      "epoch": 6.157894736842105,
+      "eval_loss": 0.10635325312614441,
+      "eval_runtime": 0.903,
+      "eval_samples_per_second": 33.224,
+      "eval_steps_per_second": 4.43,
+      "step": 117
+    },
+    {
+      "epoch": 6.2105263157894735,
+      "grad_norm": 1.249068260192871,
+      "learning_rate": 0.00030143294638608487,
+      "loss": 0.0938,
+      "step": 118
+    },
+    {
+      "epoch": 6.2105263157894735,
+      "eval_loss": 0.10837359726428986,
+      "eval_runtime": 0.9003,
+      "eval_samples_per_second": 33.323,
+      "eval_steps_per_second": 4.443,
+      "step": 118
+    },
+    {
+      "epoch": 6.2631578947368425,
+      "grad_norm": 2.1446304321289062,
+      "learning_rate": 0.00029815782131346137,
+      "loss": 0.1436,
+      "step": 119
+    },
+    {
+      "epoch": 6.2631578947368425,
+      "eval_loss": 0.1047668606042862,
+      "eval_runtime": 0.9066,
+      "eval_samples_per_second": 33.09,
+      "eval_steps_per_second": 4.412,
+      "step": 119
+    },
+    {
+      "epoch": 6.315789473684211,
+      "grad_norm": 1.329365611076355,
+      "learning_rate": 0.0002948740897842223,
+      "loss": 0.1319,
+      "step": 120
+    },
+    {
+      "epoch": 6.315789473684211,
+      "eval_loss": 0.10011889785528183,
+      "eval_runtime": 0.9034,
+      "eval_samples_per_second": 33.206,
+      "eval_steps_per_second": 4.428,
+      "step": 120
+    },
+    {
+      "epoch": 6.368421052631579,
+      "grad_norm": 1.4938923120498657,
+      "learning_rate": 0.00029158233864578256,
+      "loss": 0.1027,
+      "step": 121
+    },
+    {
+      "epoch": 6.368421052631579,
+      "eval_loss": 0.09962069243192673,
+      "eval_runtime": 0.8983,
+      "eval_samples_per_second": 33.396,
+      "eval_steps_per_second": 4.453,
+      "step": 121
+    },
+    {
+      "epoch": 6.421052631578947,
+      "grad_norm": 1.295058250427246,
+      "learning_rate": 0.00028828315617877,
+      "loss": 0.0763,
+      "step": 122
+    },
+    {
+      "epoch": 6.421052631578947,
+      "eval_loss": 0.10031073540449142,
+      "eval_runtime": 0.9155,
+      "eval_samples_per_second": 32.768,
+      "eval_steps_per_second": 4.369,
+      "step": 122
+    },
+    {
+      "epoch": 6.473684210526316,
+      "grad_norm": 1.8959721326828003,
+      "learning_rate": 0.0002849771319918922,
+      "loss": 0.1292,
+      "step": 123
+    },
+    {
+      "epoch": 6.473684210526316,
+      "eval_loss": 0.11003147065639496,
+      "eval_runtime": 0.919,
+      "eval_samples_per_second": 32.644,
+      "eval_steps_per_second": 4.353,
+      "step": 123
+    },
+    {
+      "epoch": 6.526315789473684,
+      "grad_norm": 1.3598809242248535,
+      "learning_rate": 0.00028166485691656423,
+      "loss": 0.1272,
+      "step": 124
+    },
+    {
+      "epoch": 6.526315789473684,
+      "eval_loss": 0.10435277968645096,
+      "eval_runtime": 0.8989,
+      "eval_samples_per_second": 33.374,
+      "eval_steps_per_second": 4.45,
+      "step": 124
+    },
+    {
+      "epoch": 6.578947368421053,
+      "grad_norm": 1.4015425443649292,
+      "learning_rate": 0.00027834692290132053,
+      "loss": 0.1348,
+      "step": 125
+    },
+    {
+      "epoch": 6.578947368421053,
+      "eval_loss": 0.10004603117704391,
+      "eval_runtime": 0.9016,
+      "eval_samples_per_second": 33.273,
+      "eval_steps_per_second": 4.436,
+      "step": 125
+    },
+    {
+      "epoch": 6.631578947368421,
+      "grad_norm": 1.1642837524414062,
+      "learning_rate": 0.0002750239229060246,
+      "loss": 0.1121,
+      "step": 126
+    },
+    {
+      "epoch": 6.631578947368421,
+      "eval_loss": 0.09635353088378906,
+      "eval_runtime": 0.9239,
+      "eval_samples_per_second": 32.47,
+      "eval_steps_per_second": 4.329,
+      "step": 126
+    },
+    {
+      "epoch": 6.684210526315789,
+      "grad_norm": 1.363749384880066,
+      "learning_rate": 0.0002716964507958994,
+      "loss": 0.1415,
+      "step": 127
+    },
+    {
+      "epoch": 6.684210526315789,
+      "eval_loss": 0.07641066610813141,
+      "eval_runtime": 0.912,
+      "eval_samples_per_second": 32.894,
+      "eval_steps_per_second": 4.386,
+      "step": 127
+    },
+    {
+      "epoch": 6.7368421052631575,
+      "grad_norm": 1.292934775352478,
+      "learning_rate": 0.0002683651012353955,
+      "loss": 0.1513,
+      "step": 128
+    },
+    {
+      "epoch": 6.7368421052631575,
+      "eval_loss": 0.07172319293022156,
+      "eval_runtime": 0.8976,
+      "eval_samples_per_second": 33.423,
+      "eval_steps_per_second": 4.456,
+      "step": 128
+    },
+    {
+      "epoch": 6.7894736842105265,
+      "grad_norm": 1.0078333616256714,
+      "learning_rate": 0.0002650304695819168,
+      "loss": 0.1185,
+      "step": 129
+    },
+    {
+      "epoch": 6.7894736842105265,
+      "eval_loss": 0.06412829458713531,
+      "eval_runtime": 0.8976,
+      "eval_samples_per_second": 33.424,
+      "eval_steps_per_second": 4.456,
+      "step": 129
+    },
+    {
+      "epoch": 6.842105263157895,
+      "grad_norm": 1.173531413078308,
+      "learning_rate": 0.00026169315177942135,
+      "loss": 0.158,
+      "step": 130
+    },
+    {
+      "epoch": 6.842105263157895,
+      "eval_loss": 0.05317940190434456,
+      "eval_runtime": 0.895,
+      "eval_samples_per_second": 33.52,
+      "eval_steps_per_second": 4.469,
+      "step": 130
+    },
+    {
+      "epoch": 6.894736842105263,
+      "grad_norm": 1.5312238931655884,
+      "learning_rate": 0.0002583537442519187,
+      "loss": 0.1335,
+      "step": 131
+    },
+    {
+      "epoch": 6.894736842105263,
+      "eval_loss": 0.04491396248340607,
+      "eval_runtime": 0.9089,
+      "eval_samples_per_second": 33.006,
+      "eval_steps_per_second": 4.401,
+      "step": 131
+    },
+    {
+      "epoch": 6.947368421052632,
+      "grad_norm": 1.399732232093811,
+      "learning_rate": 0.00025501284379688067,
+      "loss": 0.1462,
+      "step": 132
+    },
+    {
+      "epoch": 6.947368421052632,
+      "eval_loss": 0.050081584602594376,
+      "eval_runtime": 0.9127,
+      "eval_samples_per_second": 32.871,
+      "eval_steps_per_second": 4.383,
+      "step": 132
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 1.5357416868209839,
+      "learning_rate": 0.0002516710474785856,
+      "loss": 0.1136,
+      "step": 133
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.05439286679029465,
+      "eval_runtime": 0.8974,
+      "eval_samples_per_second": 33.429,
+      "eval_steps_per_second": 4.457,
+      "step": 133
+    },
+    {
+      "epoch": 7.052631578947368,
+      "grad_norm": 0.9891072511672974,
+      "learning_rate": 0.0002483289525214145,
+      "loss": 0.0741,
+      "step": 134
+    },
+    {
+      "epoch": 7.052631578947368,
+      "eval_loss": 0.05073266103863716,
+      "eval_runtime": 0.8953,
+      "eval_samples_per_second": 33.508,
+      "eval_steps_per_second": 4.468,
+      "step": 134
+    },
+    {
+      "epoch": 7.105263157894737,
+      "grad_norm": 0.9686666131019592,
+      "learning_rate": 0.00024498715620311935,
+      "loss": 0.0518,
+      "step": 135
+    },
+    {
+      "epoch": 7.105263157894737,
+      "eval_loss": 0.05563385412096977,
+      "eval_runtime": 0.9008,
+      "eval_samples_per_second": 33.305,
+      "eval_steps_per_second": 4.441,
+      "step": 135
+    },
+    {
+      "epoch": 7.157894736842105,
+      "grad_norm": 1.2277772426605225,
+      "learning_rate": 0.00024164625574808144,
+      "loss": 0.0436,
+      "step": 136
+    },
+    {
+      "epoch": 7.157894736842105,
+      "eval_loss": 0.058188486844301224,
+      "eval_runtime": 0.9014,
+      "eval_samples_per_second": 33.283,
+      "eval_steps_per_second": 4.438,
+      "step": 136
+    },
+    {
+      "epoch": 7.2105263157894735,
+      "grad_norm": 1.3704907894134521,
+      "learning_rate": 0.00023830684822057877,
+      "loss": 0.1041,
+      "step": 137
+    },
+    {
+      "epoch": 7.2105263157894735,
+      "eval_loss": 0.06476210802793503,
+      "eval_runtime": 0.9007,
+      "eval_samples_per_second": 33.306,
+      "eval_steps_per_second": 4.441,
+      "step": 137
+    },
+    {
+      "epoch": 7.2631578947368425,
+      "grad_norm": 16.16583251953125,
+      "learning_rate": 0.00023496953041808325,
+      "loss": 0.0492,
+      "step": 138
+    },
+    {
+      "epoch": 7.2631578947368425,
+      "eval_loss": 0.07608657330274582,
+      "eval_runtime": 0.8935,
+      "eval_samples_per_second": 33.576,
+      "eval_steps_per_second": 4.477,
+      "step": 138
+    },
+    {
+      "epoch": 7.315789473684211,
+      "grad_norm": 1.200278639793396,
+      "learning_rate": 0.0002316348987646045,
+      "loss": 0.0716,
+      "step": 139
+    },
+    {
+      "epoch": 7.315789473684211,
+      "eval_loss": 0.07832919806241989,
+      "eval_runtime": 0.8933,
+      "eval_samples_per_second": 33.584,
+      "eval_steps_per_second": 4.478,
+      "step": 139
+    },
+    {
+      "epoch": 7.368421052631579,
+      "grad_norm": 1.10837984085083,
+      "learning_rate": 0.00022830354920410064,
+      "loss": 0.0867,
+      "step": 140
+    },
+    {
+      "epoch": 7.368421052631579,
+      "eval_loss": 0.06757114827632904,
+      "eval_runtime": 0.8916,
+      "eval_samples_per_second": 33.649,
+      "eval_steps_per_second": 4.487,
+      "step": 140
+    },
+    {
+      "epoch": 7.421052631578947,
+      "grad_norm": 0.8154372572898865,
+      "learning_rate": 0.0002249760770939754,
+      "loss": 0.0596,
+      "step": 141
+    },
+    {
+      "epoch": 7.421052631578947,
+      "eval_loss": 0.06439080089330673,
+      "eval_runtime": 0.8926,
+      "eval_samples_per_second": 33.61,
+      "eval_steps_per_second": 4.481,
+      "step": 141
+    },
+    {
+      "epoch": 7.473684210526316,
+      "grad_norm": 1.3668967485427856,
+      "learning_rate": 0.0002216530770986795,
+      "loss": 0.0742,
+      "step": 142
+    },
+    {
+      "epoch": 7.473684210526316,
+      "eval_loss": 0.05956079065799713,
+      "eval_runtime": 0.9129,
+      "eval_samples_per_second": 32.861,
+      "eval_steps_per_second": 4.381,
+      "step": 142
+    },
+    {
+      "epoch": 7.526315789473684,
+      "grad_norm": 1.1893479824066162,
+      "learning_rate": 0.0002183351430834358,
+      "loss": 0.0885,
+      "step": 143
+    },
+    {
+      "epoch": 7.526315789473684,
+      "eval_loss": 0.05919176712632179,
+      "eval_runtime": 0.9013,
+      "eval_samples_per_second": 33.285,
+      "eval_steps_per_second": 4.438,
+      "step": 143
+    },
+    {
+      "epoch": 7.578947368421053,
+      "grad_norm": 0.9393155574798584,
+      "learning_rate": 0.0002150228680081079,
+      "loss": 0.069,
+      "step": 144
+    },
+    {
+      "epoch": 7.578947368421053,
+      "eval_loss": 0.055469710379838943,
+      "eval_runtime": 0.8928,
+      "eval_samples_per_second": 33.603,
+      "eval_steps_per_second": 4.48,
+      "step": 144
+    },
+    {
+      "epoch": 7.631578947368421,
+      "grad_norm": 1.1879485845565796,
+      "learning_rate": 0.00021171684382123,
+      "loss": 0.0636,
+      "step": 145
+    },
+    {
+      "epoch": 7.631578947368421,
+      "eval_loss": 0.048830099403858185,
+      "eval_runtime": 0.8962,
+      "eval_samples_per_second": 33.476,
+      "eval_steps_per_second": 4.463,
+      "step": 145
+    },
+    {
+      "epoch": 7.684210526315789,
+      "grad_norm": 1.3696624040603638,
+      "learning_rate": 0.0002084176613542175,
+      "loss": 0.0769,
+      "step": 146
+    },
+    {
+      "epoch": 7.684210526315789,
+      "eval_loss": 0.04780884087085724,
+      "eval_runtime": 0.8944,
+      "eval_samples_per_second": 33.543,
+      "eval_steps_per_second": 4.472,
+      "step": 146
+    },
+    {
+      "epoch": 7.7368421052631575,
+      "grad_norm": 0.8504798412322998,
+      "learning_rate": 0.00020512591021577773,
+      "loss": 0.0452,
+      "step": 147
+    },
+    {
+      "epoch": 7.7368421052631575,
+      "eval_loss": 0.05237739533185959,
+      "eval_runtime": 0.8936,
+      "eval_samples_per_second": 33.572,
+      "eval_steps_per_second": 4.476,
+      "step": 147
+    },
+    {
+      "epoch": 7.7894736842105265,
+      "grad_norm": 1.4475505352020264,
+      "learning_rate": 0.00020184217868653867,
+      "loss": 0.0855,
+      "step": 148
+    },
+    {
+      "epoch": 7.7894736842105265,
+      "eval_loss": 0.04543802887201309,
+      "eval_runtime": 0.896,
+      "eval_samples_per_second": 33.484,
+      "eval_steps_per_second": 4.465,
+      "step": 148
+    },
+    {
+      "epoch": 7.842105263157895,
+      "grad_norm": 1.5789515972137451,
+      "learning_rate": 0.0001985670536139151,
+      "loss": 0.0874,
+      "step": 149
+    },
+    {
+      "epoch": 7.842105263157895,
+      "eval_loss": 0.0420089028775692,
+      "eval_runtime": 0.9085,
+      "eval_samples_per_second": 33.022,
+      "eval_steps_per_second": 4.403,
+      "step": 149
+    },
+    {
+      "epoch": 7.894736842105263,
+      "grad_norm": 0.9716910719871521,
+      "learning_rate": 0.0001953011203072312,
+      "loss": 0.0741,
+      "step": 150
+    },
+    {
+      "epoch": 7.894736842105263,
+      "eval_loss": 0.053930822759866714,
+      "eval_runtime": 0.8925,
+      "eval_samples_per_second": 33.612,
+      "eval_steps_per_second": 4.482,
+      "step": 150
+    },
+    {
+      "epoch": 7.947368421052632,
+      "grad_norm": 1.258216142654419,
+      "learning_rate": 0.00019204496243311792,
+      "loss": 0.0988,
+      "step": 151
+    },
+    {
+      "epoch": 7.947368421052632,
+      "eval_loss": 0.050727710127830505,
+      "eval_runtime": 0.9129,
+      "eval_samples_per_second": 32.861,
+      "eval_steps_per_second": 4.381,
+      "step": 151
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 1.6167078018188477,
+      "learning_rate": 0.00018879916191120349,
+      "loss": 0.1526,
+      "step": 152
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.044940169900655746,
+      "eval_runtime": 0.9149,
+      "eval_samples_per_second": 32.792,
+      "eval_steps_per_second": 4.372,
+      "step": 152
+    },
+    {
+      "epoch": 8.052631578947368,
+      "grad_norm": 0.7703630328178406,
+      "learning_rate": 0.00018556429881011656,
+      "loss": 0.029,
+      "step": 153
+    },
+    {
+      "epoch": 8.052631578947368,
+      "eval_loss": 0.04256557673215866,
+      "eval_runtime": 0.8993,
+      "eval_samples_per_second": 33.359,
+      "eval_steps_per_second": 4.448,
+      "step": 153
+    },
+    {
+      "epoch": 8.105263157894736,
+      "grad_norm": 0.7948728799819946,
+      "learning_rate": 0.0001823409512438203,
+      "loss": 0.0294,
+      "step": 154
+    },
+    {
+      "epoch": 8.105263157894736,
+      "eval_loss": 0.0398668609559536,
+      "eval_runtime": 0.9221,
+      "eval_samples_per_second": 32.536,
+      "eval_steps_per_second": 4.338,
+      "step": 154
+    },
+    {
+      "epoch": 8.157894736842104,
+      "grad_norm": 0.5918542146682739,
+      "learning_rate": 0.00017912969526829559,
+      "loss": 0.0219,
+      "step": 155
+    },
+    {
+      "epoch": 8.157894736842104,
+      "eval_loss": 0.03863578289747238,
+      "eval_runtime": 0.8936,
+      "eval_samples_per_second": 33.573,
+      "eval_steps_per_second": 4.476,
+      "step": 155
+    },
+    {
+      "epoch": 8.210526315789474,
+      "grad_norm": 0.5533296465873718,
+      "learning_rate": 0.00017593110477859153,
+      "loss": 0.0238,
+      "step": 156
+    },
+    {
+      "epoch": 8.210526315789474,
+      "eval_loss": 0.03713521733880043,
+      "eval_runtime": 0.8943,
+      "eval_samples_per_second": 33.547,
+      "eval_steps_per_second": 4.473,
+      "step": 156
+    },
+    {
+      "epoch": 8.263157894736842,
+      "grad_norm": 0.5387775897979736,
+      "learning_rate": 0.00017274575140626317,
+      "loss": 0.0332,
+      "step": 157
+    },
+    {
+      "epoch": 8.263157894736842,
+      "eval_loss": 0.0393383763730526,
+      "eval_runtime": 0.8986,
+      "eval_samples_per_second": 33.384,
+      "eval_steps_per_second": 4.451,
+      "step": 157
+    },
+    {
+      "epoch": 8.31578947368421,
+      "grad_norm": 2.716648578643799,
+      "learning_rate": 0.00016957420441721284,
+      "loss": 0.0508,
+      "step": 158
+    },
+    {
+      "epoch": 8.31578947368421,
+      "eval_loss": 0.039231013506650925,
+      "eval_runtime": 0.911,
+      "eval_samples_per_second": 32.932,
+      "eval_steps_per_second": 4.391,
+      "step": 158
+    },
+    {
+      "epoch": 8.368421052631579,
+      "grad_norm": 0.6262527704238892,
+      "learning_rate": 0.00016641703060995457,
+      "loss": 0.0376,
+      "step": 159
+    },
+    {
+      "epoch": 8.368421052631579,
+      "eval_loss": 0.03573182597756386,
+      "eval_runtime": 0.9178,
+      "eval_samples_per_second": 32.685,
+      "eval_steps_per_second": 4.358,
+      "step": 159
+    },
+    {
+      "epoch": 8.421052631578947,
+      "grad_norm": 1.1656262874603271,
+      "learning_rate": 0.00016327479421431983,
+      "loss": 0.0613,
+      "step": 160
+    },
+    {
+      "epoch": 8.421052631578947,
+      "eval_loss": 0.029768355190753937,
+      "eval_runtime": 0.8926,
+      "eval_samples_per_second": 33.61,
+      "eval_steps_per_second": 4.481,
+      "step": 160
+    },
+    {
+      "epoch": 8.473684210526315,
+      "grad_norm": 0.9731020927429199,
+      "learning_rate": 0.00016014805679062183,
+      "loss": 0.0755,
+      "step": 161
+    },
+    {
+      "epoch": 8.473684210526315,
+      "eval_loss": 0.022336162626743317,
+      "eval_runtime": 0.9064,
+      "eval_samples_per_second": 33.097,
+      "eval_steps_per_second": 4.413,
+      "step": 161
+    },
+    {
+      "epoch": 8.526315789473685,
+      "grad_norm": 0.9505934119224548,
+      "learning_rate": 0.0001570373771292967,
+      "loss": 0.0592,
+      "step": 162
+    },
+    {
+      "epoch": 8.526315789473685,
+      "eval_loss": 0.019842755049467087,
+      "eval_runtime": 0.9099,
+      "eval_samples_per_second": 32.97,
+      "eval_steps_per_second": 4.396,
+      "step": 162
+    },
+    {
+      "epoch": 8.578947368421053,
+      "grad_norm": 0.709037184715271,
+      "learning_rate": 0.00015394331115104075,
+      "loss": 0.0386,
+      "step": 163
+    },
+    {
+      "epoch": 8.578947368421053,
+      "eval_loss": 0.019390322268009186,
+      "eval_runtime": 0.8955,
+      "eval_samples_per_second": 33.501,
+      "eval_steps_per_second": 4.467,
+      "step": 163
+    },
+    {
+      "epoch": 8.631578947368421,
+      "grad_norm": 1.0144383907318115,
+      "learning_rate": 0.00015086641180745932,
+      "loss": 0.0392,
+      "step": 164
+    },
+    {
+      "epoch": 8.631578947368421,
+      "eval_loss": 0.018627820536494255,
+      "eval_runtime": 0.8942,
+      "eval_samples_per_second": 33.549,
+      "eval_steps_per_second": 4.473,
+      "step": 164
+    },
+    {
+      "epoch": 8.68421052631579,
+      "grad_norm": 1.3723385334014893,
+      "learning_rate": 0.00014780722898224708,
+      "loss": 0.0286,
+      "step": 165
+    },
+    {
+      "epoch": 8.68421052631579,
+      "eval_loss": 0.015356449410319328,
+      "eval_runtime": 0.8932,
+      "eval_samples_per_second": 33.586,
+      "eval_steps_per_second": 4.478,
+      "step": 165
+    },
+    {
+      "epoch": 8.736842105263158,
+      "grad_norm": 0.6372384428977966,
+      "learning_rate": 0.0001447663093929163,
+      "loss": 0.0425,
+      "step": 166
+    },
+    {
+      "epoch": 8.736842105263158,
+      "eval_loss": 0.015127343125641346,
+      "eval_runtime": 0.9004,
+      "eval_samples_per_second": 33.319,
+      "eval_steps_per_second": 4.443,
+      "step": 166
+    },
+    {
+      "epoch": 8.789473684210526,
+      "grad_norm": 0.7628927826881409,
+      "learning_rate": 0.00014174419649309089,
+      "loss": 0.0218,
+      "step": 167
+    },
+    {
+      "epoch": 8.789473684210526,
+      "eval_loss": 0.015446596778929234,
+      "eval_runtime": 0.8932,
+      "eval_samples_per_second": 33.586,
+      "eval_steps_per_second": 4.478,
+      "step": 167
+    },
+    {
+      "epoch": 8.842105263157894,
+      "grad_norm": 0.7694376111030579,
+      "learning_rate": 0.00013874143037538418,
+      "loss": 0.0251,
+      "step": 168
+    },
+    {
+      "epoch": 8.842105263157894,
+      "eval_loss": 0.01555707585066557,
+      "eval_runtime": 0.9268,
+      "eval_samples_per_second": 32.368,
+      "eval_steps_per_second": 4.316,
+      "step": 168
+    },
+    {
+      "epoch": 8.894736842105264,
+      "grad_norm": 0.7292389869689941,
+      "learning_rate": 0.0001357585476748766,
+      "loss": 0.0345,
+      "step": 169
+    },
+    {
+      "epoch": 8.894736842105264,
+      "eval_loss": 0.014117183163762093,
+      "eval_runtime": 0.8989,
+      "eval_samples_per_second": 33.374,
+      "eval_steps_per_second": 4.45,
+      "step": 169
+    },
+    {
+      "epoch": 8.947368421052632,
+      "grad_norm": 0.7417434453964233,
+      "learning_rate": 0.00013279608147321223,
+      "loss": 0.0355,
+      "step": 170
+    },
+    {
+      "epoch": 8.947368421052632,
+      "eval_loss": 0.01502351462841034,
+      "eval_runtime": 0.8919,
+      "eval_samples_per_second": 33.634,
+      "eval_steps_per_second": 4.485,
+      "step": 170
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 1.0023473501205444,
+      "learning_rate": 0.00012985456120332905,
+      "loss": 0.0463,
+      "step": 171
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.015432776883244514,
+      "eval_runtime": 0.8928,
+      "eval_samples_per_second": 33.604,
+      "eval_steps_per_second": 4.481,
+      "step": 171
+    },
+    {
+      "epoch": 9.052631578947368,
+      "grad_norm": 0.9472024440765381,
+      "learning_rate": 0.00012693451255484312,
+      "loss": 0.0164,
+      "step": 172
+    },
+    {
+      "epoch": 9.052631578947368,
+      "eval_loss": 0.015417199581861496,
+      "eval_runtime": 0.9209,
+      "eval_samples_per_second": 32.576,
+      "eval_steps_per_second": 4.344,
+      "step": 172
+    },
+    {
+      "epoch": 9.105263157894736,
+      "grad_norm": 0.48799633979797363,
+      "learning_rate": 0.00012403645738009997,
+      "loss": 0.0112,
+      "step": 173
+    },
+    {
+      "epoch": 9.105263157894736,
+      "eval_loss": 0.015746938064694405,
+      "eval_runtime": 0.903,
+      "eval_samples_per_second": 33.221,
+      "eval_steps_per_second": 4.43,
+      "step": 173
+    },
+    {
+      "epoch": 9.157894736842104,
+      "grad_norm": 0.38101622462272644,
+      "learning_rate": 0.00012116091360091261,
+      "loss": 0.0107,
+      "step": 174
+    },
+    {
+      "epoch": 9.157894736842104,
+      "eval_loss": 0.016201062127947807,
+      "eval_runtime": 0.9098,
+      "eval_samples_per_second": 32.973,
+      "eval_steps_per_second": 4.396,
+      "step": 174
+    },
+    {
+      "epoch": 9.210526315789474,
+      "grad_norm": 0.5602852702140808,
+      "learning_rate": 0.00011830839511600211,
+      "loss": 0.0214,
+      "step": 175
+    },
+    {
+      "epoch": 9.210526315789474,
+      "eval_loss": 0.01637989468872547,
+      "eval_runtime": 0.8978,
+      "eval_samples_per_second": 33.416,
+      "eval_steps_per_second": 4.455,
+      "step": 175
+    },
+    {
+      "epoch": 9.263157894736842,
+      "grad_norm": 0.48026910424232483,
+      "learning_rate": 0.00011547941170915685,
+      "loss": 0.0159,
+      "step": 176
+    },
+    {
+      "epoch": 9.263157894736842,
+      "eval_loss": 0.01590169034898281,
+      "eval_runtime": 0.8929,
+      "eval_samples_per_second": 33.599,
+      "eval_steps_per_second": 4.48,
+      "step": 176
+    },
+    {
+      "epoch": 9.31578947368421,
+      "grad_norm": 0.42628395557403564,
+      "learning_rate": 0.00011267446895812702,
+      "loss": 0.0103,
+      "step": 177
+    },
+    {
+      "epoch": 9.31578947368421,
+      "eval_loss": 0.016489733010530472,
+      "eval_runtime": 0.9067,
+      "eval_samples_per_second": 33.087,
+      "eval_steps_per_second": 4.412,
+      "step": 177
+    },
+    {
+      "epoch": 9.368421052631579,
+      "grad_norm": 0.31815841794013977,
+      "learning_rate": 0.0001098940681442713,
+      "loss": 0.0127,
+      "step": 178
+    },
+    {
+      "epoch": 9.368421052631579,
+      "eval_loss": 0.016672790050506592,
+      "eval_runtime": 0.9121,
+      "eval_samples_per_second": 32.892,
+      "eval_steps_per_second": 4.386,
+      "step": 178
+    },
+    {
+      "epoch": 9.421052631578947,
+      "grad_norm": 0.9146761894226074,
+      "learning_rate": 0.00010713870616297092,
+      "loss": 0.0272,
+      "step": 179
+    },
+    {
+      "epoch": 9.421052631578947,
+      "eval_loss": 0.016623031347990036,
+      "eval_runtime": 0.8922,
+      "eval_samples_per_second": 33.624,
+      "eval_steps_per_second": 4.483,
+      "step": 179
+    },
+    {
+      "epoch": 9.473684210526315,
+      "grad_norm": 0.7005583643913269,
+      "learning_rate": 0.00010440887543482746,
+      "loss": 0.0316,
+      "step": 180
+    },
+    {
+      "epoch": 9.473684210526315,
+      "eval_loss": 0.01275827456265688,
+      "eval_runtime": 0.8927,
+      "eval_samples_per_second": 33.606,
+      "eval_steps_per_second": 4.481,
+      "step": 180
+    },
+    {
+      "epoch": 9.526315789473685,
+      "grad_norm": 0.650211751461029,
+      "learning_rate": 0.0001017050638176612,
+      "loss": 0.026,
+      "step": 181
+    },
+    {
+      "epoch": 9.526315789473685,
+      "eval_loss": 0.00972173921763897,
+      "eval_runtime": 0.8929,
+      "eval_samples_per_second": 33.597,
+      "eval_steps_per_second": 4.48,
+      "step": 181
+    },
+    {
+      "epoch": 9.578947368421053,
+      "grad_norm": 0.6491077542304993,
+      "learning_rate": 9.902775451932386e-05,
+      "loss": 0.0118,
+      "step": 182
+    },
+    {
+      "epoch": 9.578947368421053,
+      "eval_loss": 0.008100698702037334,
+      "eval_runtime": 0.8982,
+      "eval_samples_per_second": 33.399,
+      "eval_steps_per_second": 4.453,
+      "step": 182
+    },
+    {
+      "epoch": 9.631578947368421,
+      "grad_norm": 0.5663555264472961,
+      "learning_rate": 9.637742601134286e-05,
+      "loss": 0.0179,
+      "step": 183
+    },
+    {
+      "epoch": 9.631578947368421,
+      "eval_loss": 0.007195114623755217,
+      "eval_runtime": 0.8943,
+      "eval_samples_per_second": 33.547,
+      "eval_steps_per_second": 4.473,
+      "step": 183
+    },
+    {
+      "epoch": 9.68421052631579,
+      "grad_norm": 0.45350518822669983,
+      "learning_rate": 9.375455194341214e-05,
+      "loss": 0.0133,
+      "step": 184
+    },
+    {
+      "epoch": 9.68421052631579,
+      "eval_loss": 0.005673492327332497,
+      "eval_runtime": 0.8957,
+      "eval_samples_per_second": 33.493,
+      "eval_steps_per_second": 4.466,
+      "step": 184
+    },
+    {
+      "epoch": 9.736842105263158,
+      "grad_norm": 0.4562082886695862,
+      "learning_rate": 9.11596010587441e-05,
+      "loss": 0.0116,
+      "step": 185
+    },
+    {
+      "epoch": 9.736842105263158,
+      "eval_loss": 0.005512699484825134,
+      "eval_runtime": 0.8942,
+      "eval_samples_per_second": 33.551,
+      "eval_steps_per_second": 4.473,
+      "step": 185
+    },
+    {
+      "epoch": 9.789473684210526,
+      "grad_norm": 0.4965287446975708,
+      "learning_rate": 8.85930371102994e-05,
+      "loss": 0.0175,
+      "step": 186
+    },
+    {
+      "epoch": 9.789473684210526,
+      "eval_loss": 0.005058939103037119,
+      "eval_runtime": 0.8924,
+      "eval_samples_per_second": 33.619,
+      "eval_steps_per_second": 4.482,
+      "step": 186
+    },
+    {
+      "epoch": 9.842105263157894,
+      "grad_norm": 0.4823167324066162,
+      "learning_rate": 8.605531877790762e-05,
+      "loss": 0.0156,
+      "step": 187
+    },
+    {
+      "epoch": 9.842105263157894,
+      "eval_loss": 0.004006177186965942,
+      "eval_runtime": 0.8937,
+      "eval_samples_per_second": 33.568,
+      "eval_steps_per_second": 4.476,
+      "step": 187
+    },
+    {
+      "epoch": 9.894736842105264,
+      "grad_norm": 0.5879040360450745,
+      "learning_rate": 8.354689958629513e-05,
+      "loss": 0.0147,
+      "step": 188
+    },
+    {
+      "epoch": 9.894736842105264,
+      "eval_loss": 0.003014415269717574,
+      "eval_runtime": 0.8965,
+      "eval_samples_per_second": 33.465,
+      "eval_steps_per_second": 4.462,
+      "step": 188
+    },
+    {
+      "epoch": 9.947368421052632,
+      "grad_norm": 0.4576377868652344,
+      "learning_rate": 8.106822782403376e-05,
+      "loss": 0.0095,
+      "step": 189
+    },
+    {
+      "epoch": 9.947368421052632,
+      "eval_loss": 0.002746094949543476,
+      "eval_runtime": 0.8942,
+      "eval_samples_per_second": 33.55,
+      "eval_steps_per_second": 4.473,
+      "step": 189
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.3874748647212982,
+      "learning_rate": 7.861974646342596e-05,
+      "loss": 0.0065,
+      "step": 190
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.0022730662021785975,
+      "eval_runtime": 0.8918,
+      "eval_samples_per_second": 33.639,
+      "eval_steps_per_second": 4.485,
+      "step": 190
+    },
+    {
+      "epoch": 10.052631578947368,
+      "grad_norm": 0.19529208540916443,
+      "learning_rate": 7.620189308133943e-05,
+      "loss": 0.0038,
+      "step": 191
+    },
+    {
+      "epoch": 10.052631578947368,
+      "eval_loss": 0.0020791899878531694,
+      "eval_runtime": 0.8957,
+      "eval_samples_per_second": 33.495,
+      "eval_steps_per_second": 4.466,
+      "step": 191
+    },
+    {
+      "epoch": 10.105263157894736,
+      "grad_norm": 0.11527393758296967,
+      "learning_rate": 7.381509978100626e-05,
+      "loss": 0.0022,
+      "step": 192
+    },
+    {
+      "epoch": 10.105263157894736,
+      "eval_loss": 0.002016394166275859,
+      "eval_runtime": 0.8996,
+      "eval_samples_per_second": 33.347,
+      "eval_steps_per_second": 4.446,
+      "step": 192
+    },
+    {
+      "epoch": 10.157894736842104,
+      "grad_norm": 0.15251131355762482,
+      "learning_rate": 7.145979311479986e-05,
+      "loss": 0.003,
+      "step": 193
+    },
+    {
+      "epoch": 10.157894736842104,
+      "eval_loss": 0.0021317771170288324,
+      "eval_runtime": 0.8932,
+      "eval_samples_per_second": 33.585,
+      "eval_steps_per_second": 4.478,
+      "step": 193
+    },
+    {
+      "epoch": 10.210526315789474,
+      "grad_norm": 0.16482071578502655,
+      "learning_rate": 6.913639400800489e-05,
+      "loss": 0.0024,
+      "step": 194
+    },
+    {
+      "epoch": 10.210526315789474,
+      "eval_loss": 0.0021966167259961367,
+      "eval_runtime": 0.8945,
+      "eval_samples_per_second": 33.537,
+      "eval_steps_per_second": 4.472,
+      "step": 194
+    },
+    {
+      "epoch": 10.263157894736842,
+      "grad_norm": 0.14208117127418518,
+      "learning_rate": 6.684531768359173e-05,
+      "loss": 0.002,
+      "step": 195
+    },
+    {
+      "epoch": 10.263157894736842,
+      "eval_loss": 0.0022034423891454935,
+      "eval_runtime": 0.8952,
+      "eval_samples_per_second": 33.511,
+      "eval_steps_per_second": 4.468,
+      "step": 195
+    },
+    {
+      "epoch": 10.31578947368421,
+      "grad_norm": 0.11844911426305771,
+      "learning_rate": 6.458697358801061e-05,
+      "loss": 0.0018,
+      "step": 196
+    },
+    {
+      "epoch": 10.31578947368421,
+      "eval_loss": 0.002191495383158326,
+      "eval_runtime": 0.8926,
+      "eval_samples_per_second": 33.611,
+      "eval_steps_per_second": 4.481,
+      "step": 196
+    },
+    {
+      "epoch": 10.368421052631579,
+      "grad_norm": 0.25322437286376953,
+      "learning_rate": 6.236176531801813e-05,
+      "loss": 0.0049,
+      "step": 197
+    },
+    {
+      "epoch": 10.368421052631579,
+      "eval_loss": 0.0022686992306262255,
+      "eval_runtime": 0.8949,
+      "eval_samples_per_second": 33.525,
+      "eval_steps_per_second": 4.47,
+      "step": 197
+    },
+    {
+      "epoch": 10.421052631578947,
+      "grad_norm": 0.29156965017318726,
+      "learning_rate": 6.017009054854858e-05,
+      "loss": 0.0045,
+      "step": 198
+    },
+    {
+      "epoch": 10.421052631578947,
+      "eval_loss": 0.002286201808601618,
+      "eval_runtime": 0.8929,
+      "eval_samples_per_second": 33.597,
+      "eval_steps_per_second": 4.48,
+      "step": 198
+    },
+    {
+      "epoch": 10.473684210526315,
+      "grad_norm": 0.3855668306350708,
+      "learning_rate": 5.801234096164468e-05,
+      "loss": 0.0034,
+      "step": 199
+    },
+    {
+      "epoch": 10.473684210526315,
+      "eval_loss": 0.0018616730812937021,
+      "eval_runtime": 0.894,
+      "eval_samples_per_second": 33.558,
+      "eval_steps_per_second": 4.474,
+      "step": 199
+    },
+    {
+      "epoch": 10.526315789473685,
+      "grad_norm": 0.2883719205856323,
+      "learning_rate": 5.58889021764582e-05,
+      "loss": 0.0044,
+      "step": 200
+    },
+    {
+      "epoch": 10.526315789473685,
+      "eval_loss": 0.0016098986379802227,
+      "eval_runtime": 0.8994,
+      "eval_samples_per_second": 33.357,
+      "eval_steps_per_second": 4.448,
+      "step": 200
     }
   ],
   "logging_steps": 1,
+  "max_steps": 250,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 14,
   "save_steps": 5,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 8525733259253760.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null