Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +6 -756

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07d1432b81afb8b1c9b8a744002a2a19f6f2b8a03c380138733e9d4cc7703199
 size 738232680

 version https://git-lfs.github.com/spec/v1
+oid sha256:e689d366b6b1f9af5f5ff2b3a42b870f7943ad7be28f2166e8166a7dcdfa876a
 size 738232680

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7bbf72886e01a48dac6ee38e56cb54de7d11394f5e3b568d3406678b8add32e
 size 1476611275

 version https://git-lfs.github.com/spec/v1
+oid sha256:34942080677a5bfc1e6937dc1f807d3e2478a43450cf01078151d65f53ecb22a
 size 1476611275

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1978ff613baf8cb1b30a1bdc5826e9439217fa692b15137f4bd6509f24bd92bb
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc68d513fd3f1dcd81811bb7d8ba9f54286dc534ae7648cf0048790d5ce39fbf
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cfb2c4e7f5b85204aebf8454da8cb3b4b0d2808506f763786b16d6b47eab0a0
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:432fe31cc8feaadc988ff87816d3eb23d869c5008676f20a3367d6de19e5cf4c
 size 1465

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 190,
-  "best_metric": 0.001307736849412322,
-  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-190",
-  "epoch": 10.0,
   "eval_steps": 1,
-  "global_step": 190,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2108,756 +2108,6 @@
       "eval_samples_per_second": 8.845,
       "eval_steps_per_second": 1.179,
       "step": 140
-    },
-    {
-      "epoch": 7.421052631578947,
-      "grad_norm": 0.35066893696784973,
-      "learning_rate": 0.0002249760770939754,
-      "loss": 0.0336,
-      "step": 141
-    },
-    {
-      "epoch": 7.421052631578947,
-      "eval_loss": 0.028481462970376015,
-      "eval_runtime": 3.376,
-      "eval_samples_per_second": 8.886,
-      "eval_steps_per_second": 1.185,
-      "step": 141
-    },
-    {
-      "epoch": 7.473684210526316,
-      "grad_norm": 0.40360027551651,
-      "learning_rate": 0.0002216530770986795,
-      "loss": 0.0205,
-      "step": 142
-    },
-    {
-      "epoch": 7.473684210526316,
-      "eval_loss": 0.027093667536973953,
-      "eval_runtime": 3.3851,
-      "eval_samples_per_second": 8.862,
-      "eval_steps_per_second": 1.182,
-      "step": 142
-    },
-    {
-      "epoch": 7.526315789473684,
-      "grad_norm": 0.3854162395000458,
-      "learning_rate": 0.0002183351430834358,
-      "loss": 0.0307,
-      "step": 143
-    },
-    {
-      "epoch": 7.526315789473684,
-      "eval_loss": 0.02729531191289425,
-      "eval_runtime": 3.4029,
-      "eval_samples_per_second": 8.816,
-      "eval_steps_per_second": 1.175,
-      "step": 143
-    },
-    {
-      "epoch": 7.578947368421053,
-      "grad_norm": 0.3493349254131317,
-      "learning_rate": 0.0002150228680081079,
-      "loss": 0.0229,
-      "step": 144
-    },
-    {
-      "epoch": 7.578947368421053,
-      "eval_loss": 0.025978045538067818,
-      "eval_runtime": 3.4085,
-      "eval_samples_per_second": 8.801,
-      "eval_steps_per_second": 1.174,
-      "step": 144
-    },
-    {
-      "epoch": 7.631578947368421,
-      "grad_norm": 0.47219786047935486,
-      "learning_rate": 0.00021171684382123,
-      "loss": 0.0405,
-      "step": 145
-    },
-    {
-      "epoch": 7.631578947368421,
-      "eval_loss": 0.02607414871454239,
-      "eval_runtime": 3.3976,
-      "eval_samples_per_second": 8.83,
-      "eval_steps_per_second": 1.177,
-      "step": 145
-    },
-    {
-      "epoch": 7.684210526315789,
-      "grad_norm": 0.3866257965564728,
-      "learning_rate": 0.0002084176613542175,
-      "loss": 0.028,
-      "step": 146
-    },
-    {
-      "epoch": 7.684210526315789,
-      "eval_loss": 0.02371269464492798,
-      "eval_runtime": 3.3925,
-      "eval_samples_per_second": 8.843,
-      "eval_steps_per_second": 1.179,
-      "step": 146
-    },
-    {
-      "epoch": 7.7368421052631575,
-      "grad_norm": 0.6331397891044617,
-      "learning_rate": 0.00020512591021577773,
-      "loss": 0.0501,
-      "step": 147
-    },
-    {
-      "epoch": 7.7368421052631575,
-      "eval_loss": 0.024511611089110374,
-      "eval_runtime": 3.3882,
-      "eval_samples_per_second": 8.854,
-      "eval_steps_per_second": 1.181,
-      "step": 147
-    },
-    {
-      "epoch": 7.7894736842105265,
-      "grad_norm": 0.45335713028907776,
-      "learning_rate": 0.00020184217868653867,
-      "loss": 0.0279,
-      "step": 148
-    },
-    {
-      "epoch": 7.7894736842105265,
-      "eval_loss": 0.02352703921496868,
-      "eval_runtime": 3.3857,
-      "eval_samples_per_second": 8.861,
-      "eval_steps_per_second": 1.181,
-      "step": 148
-    },
-    {
-      "epoch": 7.842105263157895,
-      "grad_norm": 0.4972074627876282,
-      "learning_rate": 0.0001985670536139151,
-      "loss": 0.033,
-      "step": 149
-    },
-    {
-      "epoch": 7.842105263157895,
-      "eval_loss": 0.02143845707178116,
-      "eval_runtime": 3.3819,
-      "eval_samples_per_second": 8.871,
-      "eval_steps_per_second": 1.183,
-      "step": 149
-    },
-    {
-      "epoch": 7.894736842105263,
-      "grad_norm": 0.352267861366272,
-      "learning_rate": 0.0001953011203072312,
-      "loss": 0.0337,
-      "step": 150
-    },
-    {
-      "epoch": 7.894736842105263,
-      "eval_loss": 0.02080574445426464,
-      "eval_runtime": 3.3774,
-      "eval_samples_per_second": 8.883,
-      "eval_steps_per_second": 1.184,
-      "step": 150
-    },
-    {
-      "epoch": 7.947368421052632,
-      "grad_norm": 0.5821244120597839,
-      "learning_rate": 0.00019204496243311792,
-      "loss": 0.0634,
-      "step": 151
-    },
-    {
-      "epoch": 7.947368421052632,
-      "eval_loss": 0.016822049394249916,
-      "eval_runtime": 3.3726,
-      "eval_samples_per_second": 8.895,
-      "eval_steps_per_second": 1.186,
-      "step": 151
-    },
-    {
-      "epoch": 8.0,
-      "grad_norm": 0.38316017389297485,
-      "learning_rate": 0.00018879916191120349,
-      "loss": 0.0422,
-      "step": 152
-    },
-    {
-      "epoch": 8.0,
-      "eval_loss": 0.013590247370302677,
-      "eval_runtime": 3.3896,
-      "eval_samples_per_second": 8.851,
-      "eval_steps_per_second": 1.18,
-      "step": 152
-    },
-    {
-      "epoch": 8.052631578947368,
-      "grad_norm": 0.10196978598833084,
-      "learning_rate": 0.00018556429881011656,
-      "loss": 0.0059,
-      "step": 153
-    },
-    {
-      "epoch": 8.052631578947368,
-      "eval_loss": 0.013392569497227669,
-      "eval_runtime": 3.3989,
-      "eval_samples_per_second": 8.826,
-      "eval_steps_per_second": 1.177,
-      "step": 153
-    },
-    {
-      "epoch": 8.105263157894736,
-      "grad_norm": 0.13090473413467407,
-      "learning_rate": 0.0001823409512438203,
-      "loss": 0.0097,
-      "step": 154
-    },
-    {
-      "epoch": 8.105263157894736,
-      "eval_loss": 0.013524877838790417,
-      "eval_runtime": 3.4041,
-      "eval_samples_per_second": 8.813,
-      "eval_steps_per_second": 1.175,
-      "step": 154
-    },
-    {
-      "epoch": 8.157894736842104,
-      "grad_norm": 0.08641204982995987,
-      "learning_rate": 0.00017912969526829559,
-      "loss": 0.0046,
-      "step": 155
-    },
-    {
-      "epoch": 8.157894736842104,
-      "eval_loss": 0.014381513930857182,
-      "eval_runtime": 3.4025,
-      "eval_samples_per_second": 8.817,
-      "eval_steps_per_second": 1.176,
-      "step": 155
-    },
-    {
-      "epoch": 8.210526315789474,
-      "grad_norm": 0.2780037522315979,
-      "learning_rate": 0.00017593110477859153,
-      "loss": 0.0212,
-      "step": 156
-    },
-    {
-      "epoch": 8.210526315789474,
-      "eval_loss": 0.01327499095350504,
-      "eval_runtime": 3.3964,
-      "eval_samples_per_second": 8.833,
-      "eval_steps_per_second": 1.178,
-      "step": 156
-    },
-    {
-      "epoch": 8.263157894736842,
-      "grad_norm": 0.31865352392196655,
-      "learning_rate": 0.00017274575140626317,
-      "loss": 0.0212,
-      "step": 157
-    },
-    {
-      "epoch": 8.263157894736842,
-      "eval_loss": 0.012452797032892704,
-      "eval_runtime": 3.3903,
-      "eval_samples_per_second": 8.849,
-      "eval_steps_per_second": 1.18,
-      "step": 157
-    },
-    {
-      "epoch": 8.31578947368421,
-      "grad_norm": 0.35457736253738403,
-      "learning_rate": 0.00016957420441721284,
-      "loss": 0.0098,
-      "step": 158
-    },
-    {
-      "epoch": 8.31578947368421,
-      "eval_loss": 0.011020404286682606,
-      "eval_runtime": 3.3806,
-      "eval_samples_per_second": 8.874,
-      "eval_steps_per_second": 1.183,
-      "step": 158
-    },
-    {
-      "epoch": 8.368421052631579,
-      "grad_norm": 0.3316934108734131,
-      "learning_rate": 0.00016641703060995457,
-      "loss": 0.022,
-      "step": 159
-    },
-    {
-      "epoch": 8.368421052631579,
-      "eval_loss": 0.010090429335832596,
-      "eval_runtime": 3.3847,
-      "eval_samples_per_second": 8.863,
-      "eval_steps_per_second": 1.182,
-      "step": 159
-    },
-    {
-      "epoch": 8.421052631578947,
-      "grad_norm": 0.2943498492240906,
-      "learning_rate": 0.00016327479421431983,
-      "loss": 0.0208,
-      "step": 160
-    },
-    {
-      "epoch": 8.421052631578947,
-      "eval_loss": 0.008338144980370998,
-      "eval_runtime": 3.3812,
-      "eval_samples_per_second": 8.872,
-      "eval_steps_per_second": 1.183,
-      "step": 160
-    },
-    {
-      "epoch": 8.473684210526315,
-      "grad_norm": 0.2523714303970337,
-      "learning_rate": 0.00016014805679062183,
-      "loss": 0.017,
-      "step": 161
-    },
-    {
-      "epoch": 8.473684210526315,
-      "eval_loss": 0.007794048171490431,
-      "eval_runtime": 3.379,
-      "eval_samples_per_second": 8.878,
-      "eval_steps_per_second": 1.184,
-      "step": 161
-    },
-    {
-      "epoch": 8.526315789473685,
-      "grad_norm": 0.45208269357681274,
-      "learning_rate": 0.0001570373771292967,
-      "loss": 0.0161,
-      "step": 162
-    },
-    {
-      "epoch": 8.526315789473685,
-      "eval_loss": 0.00768243195489049,
-      "eval_runtime": 3.4065,
-      "eval_samples_per_second": 8.807,
-      "eval_steps_per_second": 1.174,
-      "step": 162
-    },
-    {
-      "epoch": 8.578947368421053,
-      "grad_norm": 0.20215876400470734,
-      "learning_rate": 0.00015394331115104075,
-      "loss": 0.0143,
-      "step": 163
-    },
-    {
-      "epoch": 8.578947368421053,
-      "eval_loss": 0.007556635420769453,
-      "eval_runtime": 3.4167,
-      "eval_samples_per_second": 8.78,
-      "eval_steps_per_second": 1.171,
-      "step": 163
-    },
-    {
-      "epoch": 8.631578947368421,
-      "grad_norm": 0.4235493540763855,
-      "learning_rate": 0.00015086641180745932,
-      "loss": 0.02,
-      "step": 164
-    },
-    {
-      "epoch": 8.631578947368421,
-      "eval_loss": 0.008587359450757504,
-      "eval_runtime": 3.4278,
-      "eval_samples_per_second": 8.752,
-      "eval_steps_per_second": 1.167,
-      "step": 164
-    },
-    {
-      "epoch": 8.68421052631579,
-      "grad_norm": 0.3459453582763672,
-      "learning_rate": 0.00014780722898224708,
-      "loss": 0.0156,
-      "step": 165
-    },
-    {
-      "epoch": 8.68421052631579,
-      "eval_loss": 0.009687132202088833,
-      "eval_runtime": 3.4089,
-      "eval_samples_per_second": 8.801,
-      "eval_steps_per_second": 1.173,
-      "step": 165
-    },
-    {
-      "epoch": 8.736842105263158,
-      "grad_norm": 0.46791887283325195,
-      "learning_rate": 0.0001447663093929163,
-      "loss": 0.0254,
-      "step": 166
-    },
-    {
-      "epoch": 8.736842105263158,
-      "eval_loss": 0.005360104609280825,
-      "eval_runtime": 3.4012,
-      "eval_samples_per_second": 8.82,
-      "eval_steps_per_second": 1.176,
-      "step": 166
-    },
-    {
-      "epoch": 8.789473684210526,
-      "grad_norm": 0.32888978719711304,
-      "learning_rate": 0.00014174419649309089,
-      "loss": 0.0193,
-      "step": 167
-    },
-    {
-      "epoch": 8.789473684210526,
-      "eval_loss": 0.005120207089930773,
-      "eval_runtime": 3.393,
-      "eval_samples_per_second": 8.842,
-      "eval_steps_per_second": 1.179,
-      "step": 167
-    },
-    {
-      "epoch": 8.842105263157894,
-      "grad_norm": 0.36381661891937256,
-      "learning_rate": 0.00013874143037538418,
-      "loss": 0.0115,
-      "step": 168
-    },
-    {
-      "epoch": 8.842105263157894,
-      "eval_loss": 0.005558122880756855,
-      "eval_runtime": 3.397,
-      "eval_samples_per_second": 8.831,
-      "eval_steps_per_second": 1.178,
-      "step": 168
-    },
-    {
-      "epoch": 8.894736842105264,
-      "grad_norm": 0.15391984581947327,
-      "learning_rate": 0.0001357585476748766,
-      "loss": 0.0077,
-      "step": 169
-    },
-    {
-      "epoch": 8.894736842105264,
-      "eval_loss": 0.006869714241474867,
-      "eval_runtime": 3.392,
-      "eval_samples_per_second": 8.844,
-      "eval_steps_per_second": 1.179,
-      "step": 169
-    },
-    {
-      "epoch": 8.947368421052632,
-      "grad_norm": 0.3248370289802551,
-      "learning_rate": 0.00013279608147321223,
-      "loss": 0.0066,
-      "step": 170
-    },
-    {
-      "epoch": 8.947368421052632,
-      "eval_loss": 0.00868891179561615,
-      "eval_runtime": 3.391,
-      "eval_samples_per_second": 8.847,
-      "eval_steps_per_second": 1.18,
-      "step": 170
-    },
-    {
-      "epoch": 9.0,
-      "grad_norm": 0.22031106054782867,
-      "learning_rate": 0.00012985456120332905,
-      "loss": 0.0103,
-      "step": 171
-    },
-    {
-      "epoch": 9.0,
-      "eval_loss": 0.009011917747557163,
-      "eval_runtime": 3.3794,
-      "eval_samples_per_second": 8.877,
-      "eval_steps_per_second": 1.184,
-      "step": 171
-    },
-    {
-      "epoch": 9.052631578947368,
-      "grad_norm": 0.19521355628967285,
-      "learning_rate": 0.00012693451255484312,
-      "loss": 0.0035,
-      "step": 172
-    },
-    {
-      "epoch": 9.052631578947368,
-      "eval_loss": 0.0076974560506641865,
-      "eval_runtime": 3.3987,
-      "eval_samples_per_second": 8.827,
-      "eval_steps_per_second": 1.177,
-      "step": 172
-    },
-    {
-      "epoch": 9.105263157894736,
-      "grad_norm": 0.22541294991970062,
-      "learning_rate": 0.00012403645738009997,
-      "loss": 0.0089,
-      "step": 173
-    },
-    {
-      "epoch": 9.105263157894736,
-      "eval_loss": 0.004544786177575588,
-      "eval_runtime": 3.41,
-      "eval_samples_per_second": 8.798,
-      "eval_steps_per_second": 1.173,
-      "step": 173
-    },
-    {
-      "epoch": 9.157894736842104,
-      "grad_norm": 0.1337708979845047,
-      "learning_rate": 0.00012116091360091261,
-      "loss": 0.005,
-      "step": 174
-    },
-    {
-      "epoch": 9.157894736842104,
-      "eval_loss": 0.0032975501380860806,
-      "eval_runtime": 3.4164,
-      "eval_samples_per_second": 8.781,
-      "eval_steps_per_second": 1.171,
-      "step": 174
-    },
-    {
-      "epoch": 9.210526315789474,
-      "grad_norm": 0.08104129135608673,
-      "learning_rate": 0.00011830839511600211,
-      "loss": 0.0028,
-      "step": 175
-    },
-    {
-      "epoch": 9.210526315789474,
-      "eval_loss": 0.002934858202934265,
-      "eval_runtime": 3.4116,
-      "eval_samples_per_second": 8.793,
-      "eval_steps_per_second": 1.172,
-      "step": 175
-    },
-    {
-      "epoch": 9.263157894736842,
-      "grad_norm": 0.03561758995056152,
-      "learning_rate": 0.00011547941170915685,
-      "loss": 0.0017,
-      "step": 176
-    },
-    {
-      "epoch": 9.263157894736842,
-      "eval_loss": 0.0032255654223263264,
-      "eval_runtime": 3.4066,
-      "eval_samples_per_second": 8.806,
-      "eval_steps_per_second": 1.174,
-      "step": 176
-    },
-    {
-      "epoch": 9.31578947368421,
-      "grad_norm": 0.11387041211128235,
-      "learning_rate": 0.00011267446895812702,
-      "loss": 0.0044,
-      "step": 177
-    },
-    {
-      "epoch": 9.31578947368421,
-      "eval_loss": 0.003973633516579866,
-      "eval_runtime": 3.4044,
-      "eval_samples_per_second": 8.812,
-      "eval_steps_per_second": 1.175,
-      "step": 177
-    },
-    {
-      "epoch": 9.368421052631579,
-      "grad_norm": 0.19635799527168274,
-      "learning_rate": 0.0001098940681442713,
-      "loss": 0.0085,
-      "step": 178
-    },
-    {
-      "epoch": 9.368421052631579,
-      "eval_loss": 0.004082486033439636,
-      "eval_runtime": 3.3977,
-      "eval_samples_per_second": 8.83,
-      "eval_steps_per_second": 1.177,
-      "step": 178
-    },
-    {
-      "epoch": 9.421052631578947,
-      "grad_norm": 0.16695837676525116,
-      "learning_rate": 0.00010713870616297092,
-      "loss": 0.0041,
-      "step": 179
-    },
-    {
-      "epoch": 9.421052631578947,
-      "eval_loss": 0.004096930380910635,
-      "eval_runtime": 3.3946,
-      "eval_samples_per_second": 8.838,
-      "eval_steps_per_second": 1.178,
-      "step": 179
-    },
-    {
-      "epoch": 9.473684210526315,
-      "grad_norm": 0.10704478621482849,
-      "learning_rate": 0.00010440887543482746,
-      "loss": 0.0061,
-      "step": 180
-    },
-    {
-      "epoch": 9.473684210526315,
-      "eval_loss": 0.003820668673142791,
-      "eval_runtime": 3.3815,
-      "eval_samples_per_second": 8.872,
-      "eval_steps_per_second": 1.183,
-      "step": 180
-    },
-    {
-      "epoch": 9.526315789473685,
-      "grad_norm": 0.15356966853141785,
-      "learning_rate": 0.0001017050638176612,
-      "loss": 0.0042,
-      "step": 181
-    },
-    {
-      "epoch": 9.526315789473685,
-      "eval_loss": 0.002816816559061408,
-      "eval_runtime": 3.3759,
-      "eval_samples_per_second": 8.887,
-      "eval_steps_per_second": 1.185,
-      "step": 181
-    },
-    {
-      "epoch": 9.578947368421053,
-      "grad_norm": 0.14018815755844116,
-      "learning_rate": 9.902775451932386e-05,
-      "loss": 0.0035,
-      "step": 182
-    },
-    {
-      "epoch": 9.578947368421053,
-      "eval_loss": 0.0024158721789717674,
-      "eval_runtime": 3.385,
-      "eval_samples_per_second": 8.863,
-      "eval_steps_per_second": 1.182,
-      "step": 182
-    },
-    {
-      "epoch": 9.631578947368421,
-      "grad_norm": 0.131745383143425,
-      "learning_rate": 9.637742601134286e-05,
-      "loss": 0.0072,
-      "step": 183
-    },
-    {
-      "epoch": 9.631578947368421,
-      "eval_loss": 0.002450426109135151,
-      "eval_runtime": 3.42,
-      "eval_samples_per_second": 8.772,
-      "eval_steps_per_second": 1.17,
-      "step": 183
-    },
-    {
-      "epoch": 9.68421052631579,
-      "grad_norm": 0.1151895672082901,
-      "learning_rate": 9.375455194341214e-05,
-      "loss": 0.0036,
-      "step": 184
-    },
-    {
-      "epoch": 9.68421052631579,
-      "eval_loss": 0.0024695699103176594,
-      "eval_runtime": 3.4266,
-      "eval_samples_per_second": 8.755,
-      "eval_steps_per_second": 1.167,
-      "step": 184
-    },
-    {
-      "epoch": 9.736842105263158,
-      "grad_norm": 0.10937950760126114,
-      "learning_rate": 9.11596010587441e-05,
-      "loss": 0.0069,
-      "step": 185
-    },
-    {
-      "epoch": 9.736842105263158,
-      "eval_loss": 0.002432518871501088,
-      "eval_runtime": 3.412,
-      "eval_samples_per_second": 8.792,
-      "eval_steps_per_second": 1.172,
-      "step": 185
-    },
-    {
-      "epoch": 9.789473684210526,
-      "grad_norm": 0.11447066813707352,
-      "learning_rate": 8.85930371102994e-05,
-      "loss": 0.009,
-      "step": 186
-    },
-    {
-      "epoch": 9.789473684210526,
-      "eval_loss": 0.0024716572370380163,
-      "eval_runtime": 3.4131,
-      "eval_samples_per_second": 8.79,
-      "eval_steps_per_second": 1.172,
-      "step": 186
-    },
-    {
-      "epoch": 9.842105263157894,
-      "grad_norm": 0.17368115484714508,
-      "learning_rate": 8.605531877790762e-05,
-      "loss": 0.0049,
-      "step": 187
-    },
-    {
-      "epoch": 9.842105263157894,
-      "eval_loss": 0.002253969432786107,
-      "eval_runtime": 3.4001,
-      "eval_samples_per_second": 8.823,
-      "eval_steps_per_second": 1.176,
-      "step": 187
-    },
-    {
-      "epoch": 9.894736842105264,
-      "grad_norm": 0.11908090114593506,
-      "learning_rate": 8.354689958629513e-05,
-      "loss": 0.0041,
-      "step": 188
-    },
-    {
-      "epoch": 9.894736842105264,
-      "eval_loss": 0.0017488420708104968,
-      "eval_runtime": 3.3957,
-      "eval_samples_per_second": 8.835,
-      "eval_steps_per_second": 1.178,
-      "step": 188
-    },
-    {
-      "epoch": 9.947368421052632,
-      "grad_norm": 0.022854585200548172,
-      "learning_rate": 8.106822782403376e-05,
-      "loss": 0.0009,
-      "step": 189
-    },
-    {
-      "epoch": 9.947368421052632,
-      "eval_loss": 0.0015173099236562848,
-      "eval_runtime": 3.3937,
-      "eval_samples_per_second": 8.84,
-      "eval_steps_per_second": 1.179,
-      "step": 189
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 0.11229632049798965,
-      "learning_rate": 7.861974646342596e-05,
-      "loss": 0.0041,
-      "step": 190
-    },
-    {
-      "epoch": 10.0,
-      "eval_loss": 0.001307736849412322,
-      "eval_runtime": 3.3916,
-      "eval_samples_per_second": 8.845,
-      "eval_steps_per_second": 1.179,
-      "step": 190
     }
   ],
   "logging_steps": 1,
@@ -2877,7 +2127,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8096682647961600.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 135,
+  "best_metric": 0.028628086671233177,
+  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-130",
+  "epoch": 7.368421052631579,
   "eval_steps": 1,
+  "global_step": 140,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.845,
       "eval_steps_per_second": 1.179,
       "step": 140
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5968350472955904.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null