Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +7 -1057

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d93ca4eb9edec96116bcbc3b1e81f3a0ba56ed79236db43613c942a41c02c063
 size 92309112

 version https://git-lfs.github.com/spec/v1
+oid sha256:5529bbd8b02900353e5a9edb1b0cc3a12d5828ce3583f1e939e8a5cd7869147d
 size 92309112

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e429f800f9a198ef6019ccdc8fa92c738c6868bcea07ecdf471826e9764be8d6
 size 184765003

 version https://git-lfs.github.com/spec/v1
+oid sha256:abc81f39457613379a6b53d39a8e9a20485a39bc6441c72daab7e852c4611bd3
 size 184765003

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9f086fad67247c070127f3d5f3c07ca470a78f03c26cde9ec189b8223e059e7
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:96d2f22d26bc65f3aeedce5509461616d5bf62bde9362cbb9270a9fe00a8d63a
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5a7217cbf6a48b6118e1945e7a873ce9e9505368a7aa0f316b1becdcb2a8301
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:1217dd157c01a1c43f8d1f2eafc858dc7730cb63e7c08068881fa71d637b5c4a
 size 1465

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 247,
-  "best_metric": 0.0044091795571148396,
-  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-240",
-  "epoch": 13.157894736842104,
   "eval_steps": 1,
-  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2708,1056 +2708,6 @@
       "eval_samples_per_second": 8.823,
       "eval_steps_per_second": 1.176,
       "step": 180
-    },
-    {
-      "epoch": 9.526315789473685,
-      "grad_norm": 0.5609657764434814,
-      "learning_rate": 0.0001017050638176612,
-      "loss": 0.0328,
-      "step": 181
-    },
-    {
-      "epoch": 9.526315789473685,
-      "eval_loss": 0.03608579561114311,
-      "eval_runtime": 3.3972,
-      "eval_samples_per_second": 8.831,
-      "eval_steps_per_second": 1.177,
-      "step": 181
-    },
-    {
-      "epoch": 9.578947368421053,
-      "grad_norm": 0.48078685998916626,
-      "learning_rate": 9.902775451932386e-05,
-      "loss": 0.0216,
-      "step": 182
-    },
-    {
-      "epoch": 9.578947368421053,
-      "eval_loss": 0.0358748622238636,
-      "eval_runtime": 3.3946,
-      "eval_samples_per_second": 8.837,
-      "eval_steps_per_second": 1.178,
-      "step": 182
-    },
-    {
-      "epoch": 9.631578947368421,
-      "grad_norm": 0.5188214182853699,
-      "learning_rate": 9.637742601134286e-05,
-      "loss": 0.0438,
-      "step": 183
-    },
-    {
-      "epoch": 9.631578947368421,
-      "eval_loss": 0.03486837074160576,
-      "eval_runtime": 3.3974,
-      "eval_samples_per_second": 8.83,
-      "eval_steps_per_second": 1.177,
-      "step": 183
-    },
-    {
-      "epoch": 9.68421052631579,
-      "grad_norm": 0.7200556993484497,
-      "learning_rate": 9.375455194341214e-05,
-      "loss": 0.0663,
-      "step": 184
-    },
-    {
-      "epoch": 9.68421052631579,
-      "eval_loss": 0.03245267644524574,
-      "eval_runtime": 3.4008,
-      "eval_samples_per_second": 8.822,
-      "eval_steps_per_second": 1.176,
-      "step": 184
-    },
-    {
-      "epoch": 9.736842105263158,
-      "grad_norm": 0.6560045480728149,
-      "learning_rate": 9.11596010587441e-05,
-      "loss": 0.064,
-      "step": 185
-    },
-    {
-      "epoch": 9.736842105263158,
-      "eval_loss": 0.029578620567917824,
-      "eval_runtime": 3.4019,
-      "eval_samples_per_second": 8.819,
-      "eval_steps_per_second": 1.176,
-      "step": 185
-    },
-    {
-      "epoch": 9.789473684210526,
-      "grad_norm": 0.5027221441268921,
-      "learning_rate": 8.85930371102994e-05,
-      "loss": 0.0416,
-      "step": 186
-    },
-    {
-      "epoch": 9.789473684210526,
-      "eval_loss": 0.026809442788362503,
-      "eval_runtime": 3.4005,
-      "eval_samples_per_second": 8.822,
-      "eval_steps_per_second": 1.176,
-      "step": 186
-    },
-    {
-      "epoch": 9.842105263157894,
-      "grad_norm": 0.4124845564365387,
-      "learning_rate": 8.605531877790762e-05,
-      "loss": 0.0335,
-      "step": 187
-    },
-    {
-      "epoch": 9.842105263157894,
-      "eval_loss": 0.02500898391008377,
-      "eval_runtime": 3.4021,
-      "eval_samples_per_second": 8.818,
-      "eval_steps_per_second": 1.176,
-      "step": 187
-    },
-    {
-      "epoch": 9.894736842105264,
-      "grad_norm": 0.5714792013168335,
-      "learning_rate": 8.354689958629513e-05,
-      "loss": 0.0491,
-      "step": 188
-    },
-    {
-      "epoch": 9.894736842105264,
-      "eval_loss": 0.022844497114419937,
-      "eval_runtime": 3.401,
-      "eval_samples_per_second": 8.821,
-      "eval_steps_per_second": 1.176,
-      "step": 188
-    },
-    {
-      "epoch": 9.947368421052632,
-      "grad_norm": 0.48736098408699036,
-      "learning_rate": 8.106822782403376e-05,
-      "loss": 0.018,
-      "step": 189
-    },
-    {
-      "epoch": 9.947368421052632,
-      "eval_loss": 0.021435970440506935,
-      "eval_runtime": 3.4008,
-      "eval_samples_per_second": 8.821,
-      "eval_steps_per_second": 1.176,
-      "step": 189
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 0.5927891731262207,
-      "learning_rate": 7.861974646342596e-05,
-      "loss": 0.0388,
-      "step": 190
-    },
-    {
-      "epoch": 10.0,
-      "eval_loss": 0.019742580130696297,
-      "eval_runtime": 3.4006,
-      "eval_samples_per_second": 8.822,
-      "eval_steps_per_second": 1.176,
-      "step": 190
-    },
-    {
-      "epoch": 10.052631578947368,
-      "grad_norm": 0.3376651108264923,
-      "learning_rate": 7.620189308133943e-05,
-      "loss": 0.0196,
-      "step": 191
-    },
-    {
-      "epoch": 10.052631578947368,
-      "eval_loss": 0.018559806048870087,
-      "eval_runtime": 3.388,
-      "eval_samples_per_second": 8.855,
-      "eval_steps_per_second": 1.181,
-      "step": 191
-    },
-    {
-      "epoch": 10.105263157894736,
-      "grad_norm": 0.3613579273223877,
-      "learning_rate": 7.381509978100626e-05,
-      "loss": 0.0172,
-      "step": 192
-    },
-    {
-      "epoch": 10.105263157894736,
-      "eval_loss": 0.017322294414043427,
-      "eval_runtime": 3.3891,
-      "eval_samples_per_second": 8.852,
-      "eval_steps_per_second": 1.18,
-      "step": 192
-    },
-    {
-      "epoch": 10.157894736842104,
-      "grad_norm": 0.2621256411075592,
-      "learning_rate": 7.145979311479986e-05,
-      "loss": 0.0159,
-      "step": 193
-    },
-    {
-      "epoch": 10.157894736842104,
-      "eval_loss": 0.016333211213350296,
-      "eval_runtime": 3.4014,
-      "eval_samples_per_second": 8.82,
-      "eval_steps_per_second": 1.176,
-      "step": 193
-    },
-    {
-      "epoch": 10.210526315789474,
-      "grad_norm": 0.24995078146457672,
-      "learning_rate": 6.913639400800489e-05,
-      "loss": 0.0132,
-      "step": 194
-    },
-    {
-      "epoch": 10.210526315789474,
-      "eval_loss": 0.015769897028803825,
-      "eval_runtime": 3.401,
-      "eval_samples_per_second": 8.821,
-      "eval_steps_per_second": 1.176,
-      "step": 194
-    },
-    {
-      "epoch": 10.263157894736842,
-      "grad_norm": 0.38419196009635925,
-      "learning_rate": 6.684531768359173e-05,
-      "loss": 0.0196,
-      "step": 195
-    },
-    {
-      "epoch": 10.263157894736842,
-      "eval_loss": 0.015028283931314945,
-      "eval_runtime": 3.4,
-      "eval_samples_per_second": 8.824,
-      "eval_steps_per_second": 1.176,
-      "step": 195
-    },
-    {
-      "epoch": 10.31578947368421,
-      "grad_norm": 0.23766584694385529,
-      "learning_rate": 6.458697358801061e-05,
-      "loss": 0.009,
-      "step": 196
-    },
-    {
-      "epoch": 10.31578947368421,
-      "eval_loss": 0.014445771463215351,
-      "eval_runtime": 3.3979,
-      "eval_samples_per_second": 8.829,
-      "eval_steps_per_second": 1.177,
-      "step": 196
-    },
-    {
-      "epoch": 10.368421052631579,
-      "grad_norm": 0.2710660398006439,
-      "learning_rate": 6.236176531801813e-05,
-      "loss": 0.0096,
-      "step": 197
-    },
-    {
-      "epoch": 10.368421052631579,
-      "eval_loss": 0.01395699568092823,
-      "eval_runtime": 3.3981,
-      "eval_samples_per_second": 8.828,
-      "eval_steps_per_second": 1.177,
-      "step": 197
-    },
-    {
-      "epoch": 10.421052631578947,
-      "grad_norm": 0.20278970897197723,
-      "learning_rate": 6.017009054854858e-05,
-      "loss": 0.0087,
-      "step": 198
-    },
-    {
-      "epoch": 10.421052631578947,
-      "eval_loss": 0.013656516559422016,
-      "eval_runtime": 3.4043,
-      "eval_samples_per_second": 8.812,
-      "eval_steps_per_second": 1.175,
-      "step": 198
-    },
-    {
-      "epoch": 10.473684210526315,
-      "grad_norm": 0.3319687247276306,
-      "learning_rate": 5.801234096164468e-05,
-      "loss": 0.016,
-      "step": 199
-    },
-    {
-      "epoch": 10.473684210526315,
-      "eval_loss": 0.012863567098975182,
-      "eval_runtime": 3.403,
-      "eval_samples_per_second": 8.816,
-      "eval_steps_per_second": 1.175,
-      "step": 199
-    },
-    {
-      "epoch": 10.526315789473685,
-      "grad_norm": 0.25473591685295105,
-      "learning_rate": 5.58889021764582e-05,
-      "loss": 0.0105,
-      "step": 200
-    },
-    {
-      "epoch": 10.526315789473685,
-      "eval_loss": 0.012198278680443764,
-      "eval_runtime": 3.3999,
-      "eval_samples_per_second": 8.824,
-      "eval_steps_per_second": 1.177,
-      "step": 200
-    },
-    {
-      "epoch": 10.578947368421053,
-      "grad_norm": 0.3705623745918274,
-      "learning_rate": 5.3800153680334754e-05,
-      "loss": 0.0134,
-      "step": 201
-    },
-    {
-      "epoch": 10.578947368421053,
-      "eval_loss": 0.011488989926874638,
-      "eval_runtime": 3.3917,
-      "eval_samples_per_second": 8.845,
-      "eval_steps_per_second": 1.179,
-      "step": 201
-    },
-    {
-      "epoch": 10.631578947368421,
-      "grad_norm": 0.24455586075782776,
-      "learning_rate": 5.17464687609942e-05,
-      "loss": 0.0112,
-      "step": 202
-    },
-    {
-      "epoch": 10.631578947368421,
-      "eval_loss": 0.010651330463588238,
-      "eval_runtime": 3.3998,
-      "eval_samples_per_second": 8.824,
-      "eval_steps_per_second": 1.177,
-      "step": 202
-    },
-    {
-      "epoch": 10.68421052631579,
-      "grad_norm": 0.2879987955093384,
-      "learning_rate": 4.97282144398192e-05,
-      "loss": 0.0108,
-      "step": 203
-    },
-    {
-      "epoch": 10.68421052631579,
-      "eval_loss": 0.010258635506033897,
-      "eval_runtime": 3.4041,
-      "eval_samples_per_second": 8.813,
-      "eval_steps_per_second": 1.175,
-      "step": 203
-    },
-    {
-      "epoch": 10.736842105263158,
-      "grad_norm": 0.2595934569835663,
-      "learning_rate": 4.7745751406263163e-05,
-      "loss": 0.0116,
-      "step": 204
-    },
-    {
-      "epoch": 10.736842105263158,
-      "eval_loss": 0.009770309552550316,
-      "eval_runtime": 3.4083,
-      "eval_samples_per_second": 8.802,
-      "eval_steps_per_second": 1.174,
-      "step": 204
-    },
-    {
-      "epoch": 10.789473684210526,
-      "grad_norm": 0.3026018738746643,
-      "learning_rate": 4.5799433953390616e-05,
-      "loss": 0.0116,
-      "step": 205
-    },
-    {
-      "epoch": 10.789473684210526,
-      "eval_loss": 0.00936987716704607,
-      "eval_runtime": 3.4054,
-      "eval_samples_per_second": 8.81,
-      "eval_steps_per_second": 1.175,
-      "step": 205
-    },
-    {
-      "epoch": 10.842105263157894,
-      "grad_norm": 0.4068312644958496,
-      "learning_rate": 4.388960991455998e-05,
-      "loss": 0.0109,
-      "step": 206
-    },
-    {
-      "epoch": 10.842105263157894,
-      "eval_loss": 0.008922109380364418,
-      "eval_runtime": 3.4117,
-      "eval_samples_per_second": 8.793,
-      "eval_steps_per_second": 1.172,
-      "step": 206
-    },
-    {
-      "epoch": 10.894736842105264,
-      "grad_norm": 0.3379729688167572,
-      "learning_rate": 4.2016620601260796e-05,
-      "loss": 0.015,
-      "step": 207
-    },
-    {
-      "epoch": 10.894736842105264,
-      "eval_loss": 0.008320866152644157,
-      "eval_runtime": 3.4039,
-      "eval_samples_per_second": 8.813,
-      "eval_steps_per_second": 1.175,
-      "step": 207
-    },
-    {
-      "epoch": 10.947368421052632,
-      "grad_norm": 0.2505350410938263,
-      "learning_rate": 4.0180800742117244e-05,
-      "loss": 0.008,
-      "step": 208
-    },
-    {
-      "epoch": 10.947368421052632,
-      "eval_loss": 0.007898358628153801,
-      "eval_runtime": 3.3962,
-      "eval_samples_per_second": 8.833,
-      "eval_steps_per_second": 1.178,
-      "step": 208
-    },
-    {
-      "epoch": 11.0,
-      "grad_norm": 0.36052215099334717,
-      "learning_rate": 3.838247842306716e-05,
-      "loss": 0.0133,
-      "step": 209
-    },
-    {
-      "epoch": 11.0,
-      "eval_loss": 0.007371651474386454,
-      "eval_runtime": 3.3973,
-      "eval_samples_per_second": 8.831,
-      "eval_steps_per_second": 1.177,
-      "step": 209
-    },
-    {
-      "epoch": 11.052631578947368,
-      "grad_norm": 0.12308855354785919,
-      "learning_rate": 3.662197502872885e-05,
-      "loss": 0.0051,
-      "step": 210
-    },
-    {
-      "epoch": 11.052631578947368,
-      "eval_loss": 0.006998243276029825,
-      "eval_runtime": 3.4004,
-      "eval_samples_per_second": 8.822,
-      "eval_steps_per_second": 1.176,
-      "step": 210
-    },
-    {
-      "epoch": 11.105263157894736,
-      "grad_norm": 0.12299831211566925,
-      "learning_rate": 3.489960518496521e-05,
-      "loss": 0.0065,
-      "step": 211
-    },
-    {
-      "epoch": 11.105263157894736,
-      "eval_loss": 0.006782620679587126,
-      "eval_runtime": 3.4059,
-      "eval_samples_per_second": 8.808,
-      "eval_steps_per_second": 1.174,
-      "step": 211
-    },
-    {
-      "epoch": 11.157894736842104,
-      "grad_norm": 0.12273000180721283,
-      "learning_rate": 3.321567670265568e-05,
-      "loss": 0.0059,
-      "step": 212
-    },
-    {
-      "epoch": 11.157894736842104,
-      "eval_loss": 0.006513877771794796,
-      "eval_runtime": 3.3943,
-      "eval_samples_per_second": 8.838,
-      "eval_steps_per_second": 1.178,
-      "step": 212
-    },
-    {
-      "epoch": 11.210526315789474,
-      "grad_norm": 0.11980213969945908,
-      "learning_rate": 3.157049052268662e-05,
-      "loss": 0.0051,
-      "step": 213
-    },
-    {
-      "epoch": 11.210526315789474,
-      "eval_loss": 0.006208530627191067,
-      "eval_runtime": 3.4058,
-      "eval_samples_per_second": 8.809,
-      "eval_steps_per_second": 1.174,
-      "step": 213
-    },
-    {
-      "epoch": 11.263157894736842,
-      "grad_norm": 0.14820842444896698,
-      "learning_rate": 2.9964340662168772e-05,
-      "loss": 0.005,
-      "step": 214
-    },
-    {
-      "epoch": 11.263157894736842,
-      "eval_loss": 0.006144699640572071,
-      "eval_runtime": 3.4009,
-      "eval_samples_per_second": 8.821,
-      "eval_steps_per_second": 1.176,
-      "step": 214
-    },
-    {
-      "epoch": 11.31578947368421,
-      "grad_norm": 0.09703250229358673,
-      "learning_rate": 2.8397514161892484e-05,
-      "loss": 0.0047,
-      "step": 215
-    },
-    {
-      "epoch": 11.31578947368421,
-      "eval_loss": 0.00596656883135438,
-      "eval_runtime": 3.4079,
-      "eval_samples_per_second": 8.803,
-      "eval_steps_per_second": 1.174,
-      "step": 215
-    },
-    {
-      "epoch": 11.368421052631579,
-      "grad_norm": 0.1398313045501709,
-      "learning_rate": 2.687029103502972e-05,
-      "loss": 0.0058,
-      "step": 216
-    },
-    {
-      "epoch": 11.368421052631579,
-      "eval_loss": 0.0058633070439100266,
-      "eval_runtime": 3.403,
-      "eval_samples_per_second": 8.816,
-      "eval_steps_per_second": 1.175,
-      "step": 216
-    },
-    {
-      "epoch": 11.421052631578947,
-      "grad_norm": 0.12219510972499847,
-      "learning_rate": 2.5382944217091723e-05,
-      "loss": 0.0059,
-      "step": 217
-    },
-    {
-      "epoch": 11.421052631578947,
-      "eval_loss": 0.0056641846895217896,
-      "eval_runtime": 3.4055,
-      "eval_samples_per_second": 8.809,
-      "eval_steps_per_second": 1.175,
-      "step": 217
-    },
-    {
-      "epoch": 11.473684210526315,
-      "grad_norm": 0.10808281600475311,
-      "learning_rate": 2.3935739517151916e-05,
-      "loss": 0.005,
-      "step": 218
-    },
-    {
-      "epoch": 11.473684210526315,
-      "eval_loss": 0.005585065111517906,
-      "eval_runtime": 3.3987,
-      "eval_samples_per_second": 8.827,
-      "eval_steps_per_second": 1.177,
-      "step": 218
-    },
-    {
-      "epoch": 11.526315789473685,
-      "grad_norm": 0.19032533466815948,
-      "learning_rate": 2.2528935570342164e-05,
-      "loss": 0.0063,
-      "step": 219
-    },
-    {
-      "epoch": 11.526315789473685,
-      "eval_loss": 0.005458400584757328,
-      "eval_runtime": 3.4008,
-      "eval_samples_per_second": 8.822,
-      "eval_steps_per_second": 1.176,
-      "step": 219
-    },
-    {
-      "epoch": 11.578947368421053,
-      "grad_norm": 0.09316842257976532,
-      "learning_rate": 2.1162783791631057e-05,
-      "loss": 0.004,
-      "step": 220
-    },
-    {
-      "epoch": 11.578947368421053,
-      "eval_loss": 0.0053214430809021,
-      "eval_runtime": 3.3972,
-      "eval_samples_per_second": 8.831,
-      "eval_steps_per_second": 1.177,
-      "step": 220
-    },
-    {
-      "epoch": 11.631578947368421,
-      "grad_norm": 0.13419128954410553,
-      "learning_rate": 1.9837528330892778e-05,
-      "loss": 0.0053,
-      "step": 221
-    },
-    {
-      "epoch": 11.631578947368421,
-      "eval_loss": 0.00523610832169652,
-      "eval_runtime": 3.3774,
-      "eval_samples_per_second": 8.883,
-      "eval_steps_per_second": 1.184,
-      "step": 221
-    },
-    {
-      "epoch": 11.68421052631579,
-      "grad_norm": 0.1483260989189148,
-      "learning_rate": 1.8553406029274188e-05,
-      "loss": 0.0063,
-      "step": 222
-    },
-    {
-      "epoch": 11.68421052631579,
-      "eval_loss": 0.0051864017732441425,
-      "eval_runtime": 3.3864,
-      "eval_samples_per_second": 8.859,
-      "eval_steps_per_second": 1.181,
-      "step": 222
-    },
-    {
-      "epoch": 11.736842105263158,
-      "grad_norm": 0.15016067028045654,
-      "learning_rate": 1.7310646376867885e-05,
-      "loss": 0.0067,
-      "step": 223
-    },
-    {
-      "epoch": 11.736842105263158,
-      "eval_loss": 0.0051628886722028255,
-      "eval_runtime": 3.399,
-      "eval_samples_per_second": 8.826,
-      "eval_steps_per_second": 1.177,
-      "step": 223
-    },
-    {
-      "epoch": 11.789473684210526,
-      "grad_norm": 0.0965675637125969,
-      "learning_rate": 1.6109471471699556e-05,
-      "loss": 0.0052,
-      "step": 224
-    },
-    {
-      "epoch": 11.789473684210526,
-      "eval_loss": 0.005002335179597139,
-      "eval_runtime": 3.4012,
-      "eval_samples_per_second": 8.82,
-      "eval_steps_per_second": 1.176,
-      "step": 224
-    },
-    {
-      "epoch": 11.842105263157894,
-      "grad_norm": 0.1401059329509735,
-      "learning_rate": 1.4950095980035772e-05,
-      "loss": 0.0055,
-      "step": 225
-    },
-    {
-      "epoch": 11.842105263157894,
-      "eval_loss": 0.004974076058715582,
-      "eval_runtime": 3.4045,
-      "eval_samples_per_second": 8.812,
-      "eval_steps_per_second": 1.175,
-      "step": 225
-    },
-    {
-      "epoch": 11.894736842105264,
-      "grad_norm": 0.08175503462553024,
-      "learning_rate": 1.3832727098020331e-05,
-      "loss": 0.0037,
-      "step": 226
-    },
-    {
-      "epoch": 11.894736842105264,
-      "eval_loss": 0.004897472448647022,
-      "eval_runtime": 3.4065,
-      "eval_samples_per_second": 8.807,
-      "eval_steps_per_second": 1.174,
-      "step": 226
-    },
-    {
-      "epoch": 11.947368421052632,
-      "grad_norm": 0.14667555689811707,
-      "learning_rate": 1.2757564514645492e-05,
-      "loss": 0.0047,
-      "step": 227
-    },
-    {
-      "epoch": 11.947368421052632,
-      "eval_loss": 0.004857571795582771,
-      "eval_runtime": 3.4021,
-      "eval_samples_per_second": 8.818,
-      "eval_steps_per_second": 1.176,
-      "step": 227
-    },
-    {
-      "epoch": 12.0,
-      "grad_norm": 0.07701026648283005,
-      "learning_rate": 1.1724800376064798e-05,
-      "loss": 0.0036,
-      "step": 228
-    },
-    {
-      "epoch": 12.0,
-      "eval_loss": 0.004770983941853046,
-      "eval_runtime": 3.4001,
-      "eval_samples_per_second": 8.823,
-      "eval_steps_per_second": 1.176,
-      "step": 228
-    },
-    {
-      "epoch": 12.052631578947368,
-      "grad_norm": 0.11114013940095901,
-      "learning_rate": 1.0734619251253963e-05,
-      "loss": 0.0057,
-      "step": 229
-    },
-    {
-      "epoch": 12.052631578947368,
-      "eval_loss": 0.004740286152809858,
-      "eval_runtime": 3.4009,
-      "eval_samples_per_second": 8.821,
-      "eval_steps_per_second": 1.176,
-      "step": 229
-    },
-    {
-      "epoch": 12.105263157894736,
-      "grad_norm": 0.07092595100402832,
-      "learning_rate": 9.78719809902598e-06,
-      "loss": 0.0035,
-      "step": 230
-    },
-    {
-      "epoch": 12.105263157894736,
-      "eval_loss": 0.004716214258223772,
-      "eval_runtime": 3.4053,
-      "eval_samples_per_second": 8.81,
-      "eval_steps_per_second": 1.175,
-      "step": 230
-    },
-    {
-      "epoch": 12.157894736842104,
-      "grad_norm": 0.12435787171125412,
-      "learning_rate": 8.882706236405884e-06,
-      "loss": 0.0054,
-      "step": 231
-    },
-    {
-      "epoch": 12.157894736842104,
-      "eval_loss": 0.004733518231660128,
-      "eval_runtime": 3.3993,
-      "eval_samples_per_second": 8.825,
-      "eval_steps_per_second": 1.177,
-      "step": 231
-    },
-    {
-      "epoch": 12.210526315789474,
-      "grad_norm": 0.12049361318349838,
-      "learning_rate": 8.02130530837189e-06,
-      "loss": 0.0053,
-      "step": 232
-    },
-    {
-      "epoch": 12.210526315789474,
-      "eval_loss": 0.004637454636394978,
-      "eval_runtime": 3.4013,
-      "eval_samples_per_second": 8.82,
-      "eval_steps_per_second": 1.176,
-      "step": 232
-    },
-    {
-      "epoch": 12.263157894736842,
-      "grad_norm": 0.06943191587924957,
-      "learning_rate": 7.203149258967034e-06,
-      "loss": 0.0039,
-      "step": 233
-    },
-    {
-      "epoch": 12.263157894736842,
-      "eval_loss": 0.004599397070705891,
-      "eval_runtime": 3.4029,
-      "eval_samples_per_second": 8.816,
-      "eval_steps_per_second": 1.175,
-      "step": 233
-    },
-    {
-      "epoch": 12.31578947368421,
-      "grad_norm": 0.10378482937812805,
-      "learning_rate": 6.428384303787282e-06,
-      "loss": 0.0053,
-      "step": 234
-    },
-    {
-      "epoch": 12.31578947368421,
-      "eval_loss": 0.0046176365576684475,
-      "eval_runtime": 3.4039,
-      "eval_samples_per_second": 8.813,
-      "eval_steps_per_second": 1.175,
-      "step": 234
-    },
-    {
-      "epoch": 12.368421052631579,
-      "grad_norm": 0.08170512318611145,
-      "learning_rate": 5.697148903850868e-06,
-      "loss": 0.0046,
-      "step": 235
-    },
-    {
-      "epoch": 12.368421052631579,
-      "eval_loss": 0.00459822965785861,
-      "eval_runtime": 3.404,
-      "eval_samples_per_second": 8.813,
-      "eval_steps_per_second": 1.175,
-      "step": 235
-    },
-    {
-      "epoch": 12.421052631578947,
-      "grad_norm": 0.09477739036083221,
-      "learning_rate": 5.009573740853312e-06,
-      "loss": 0.0047,
-      "step": 236
-    },
-    {
-      "epoch": 12.421052631578947,
-      "eval_loss": 0.004573486745357513,
-      "eval_runtime": 3.4032,
-      "eval_samples_per_second": 8.815,
-      "eval_steps_per_second": 1.175,
-      "step": 236
-    },
-    {
-      "epoch": 12.473684210526315,
-      "grad_norm": 0.0745476633310318,
-      "learning_rate": 4.365781693813048e-06,
-      "loss": 0.004,
-      "step": 237
-    },
-    {
-      "epoch": 12.473684210526315,
-      "eval_loss": 0.004487224388867617,
-      "eval_runtime": 3.4067,
-      "eval_samples_per_second": 8.806,
-      "eval_steps_per_second": 1.174,
-      "step": 237
-    },
-    {
-      "epoch": 12.526315789473685,
-      "grad_norm": 0.13931944966316223,
-      "learning_rate": 3.765887817111069e-06,
-      "loss": 0.0065,
-      "step": 238
-    },
-    {
-      "epoch": 12.526315789473685,
-      "eval_loss": 0.004524969030171633,
-      "eval_runtime": 3.4058,
-      "eval_samples_per_second": 8.808,
-      "eval_steps_per_second": 1.174,
-      "step": 238
-    },
-    {
-      "epoch": 12.578947368421053,
-      "grad_norm": 0.056376032531261444,
-      "learning_rate": 3.2099993199292688e-06,
-      "loss": 0.0026,
-      "step": 239
-    },
-    {
-      "epoch": 12.578947368421053,
-      "eval_loss": 0.0044847470708191395,
-      "eval_runtime": 3.3996,
-      "eval_samples_per_second": 8.825,
-      "eval_steps_per_second": 1.177,
-      "step": 239
-    },
-    {
-      "epoch": 12.631578947368421,
-      "grad_norm": 0.07375714182853699,
-      "learning_rate": 2.698215547090599e-06,
-      "loss": 0.004,
-      "step": 240
-    },
-    {
-      "epoch": 12.631578947368421,
-      "eval_loss": 0.004458704963326454,
-      "eval_runtime": 3.3998,
-      "eval_samples_per_second": 8.824,
-      "eval_steps_per_second": 1.177,
-      "step": 240
-    },
-    {
-      "epoch": 12.68421052631579,
-      "grad_norm": 0.06447097659111023,
-      "learning_rate": 2.230627961304993e-06,
-      "loss": 0.0032,
-      "step": 241
-    },
-    {
-      "epoch": 12.68421052631579,
-      "eval_loss": 0.0044786701910197735,
-      "eval_runtime": 3.3934,
-      "eval_samples_per_second": 8.841,
-      "eval_steps_per_second": 1.179,
-      "step": 241
-    },
-    {
-      "epoch": 12.736842105263158,
-      "grad_norm": 0.1086612269282341,
-      "learning_rate": 1.807320126823414e-06,
-      "loss": 0.0042,
-      "step": 242
-    },
-    {
-      "epoch": 12.736842105263158,
-      "eval_loss": 0.004519260488450527,
-      "eval_runtime": 3.3977,
-      "eval_samples_per_second": 8.83,
-      "eval_steps_per_second": 1.177,
-      "step": 242
-    },
-    {
-      "epoch": 12.789473684210526,
-      "grad_norm": 0.052398040890693665,
-      "learning_rate": 1.4283676945041346e-06,
-      "loss": 0.0024,
-      "step": 243
-    },
-    {
-      "epoch": 12.789473684210526,
-      "eval_loss": 0.004430453758686781,
-      "eval_runtime": 3.4008,
-      "eval_samples_per_second": 8.821,
-      "eval_steps_per_second": 1.176,
-      "step": 243
-    },
-    {
-      "epoch": 12.842105263157894,
-      "grad_norm": 0.10231564193964005,
-      "learning_rate": 1.0938383882926617e-06,
-      "loss": 0.003,
-      "step": 244
-    },
-    {
-      "epoch": 12.842105263157894,
-      "eval_loss": 0.0044572907499969006,
-      "eval_runtime": 3.4036,
-      "eval_samples_per_second": 8.814,
-      "eval_steps_per_second": 1.175,
-      "step": 244
-    },
-    {
-      "epoch": 12.894736842105264,
-      "grad_norm": 0.1136302798986435,
-      "learning_rate": 8.037919931187243e-07,
-      "loss": 0.0028,
-      "step": 245
-    },
-    {
-      "epoch": 12.894736842105264,
-      "eval_loss": 0.0044529978185892105,
-      "eval_runtime": 3.4025,
-      "eval_samples_per_second": 8.817,
-      "eval_steps_per_second": 1.176,
-      "step": 245
-    },
-    {
-      "epoch": 12.947368421052632,
-      "grad_norm": 0.08841534703969955,
-      "learning_rate": 5.582803442117091e-07,
-      "loss": 0.0034,
-      "step": 246
-    },
-    {
-      "epoch": 12.947368421052632,
-      "eval_loss": 0.004437682218849659,
-      "eval_runtime": 3.3982,
-      "eval_samples_per_second": 8.828,
-      "eval_steps_per_second": 1.177,
-      "step": 246
-    },
-    {
-      "epoch": 13.0,
-      "grad_norm": 0.09434516727924347,
-      "learning_rate": 3.5734731783715333e-07,
-      "loss": 0.0051,
-      "step": 247
-    },
-    {
-      "epoch": 13.0,
-      "eval_loss": 0.0044091795571148396,
-      "eval_runtime": 3.4027,
-      "eval_samples_per_second": 8.817,
-      "eval_steps_per_second": 1.176,
-      "step": 247
-    },
-    {
-      "epoch": 13.052631578947368,
-      "grad_norm": 0.11519359052181244,
-      "learning_rate": 2.0102882345540696e-07,
-      "loss": 0.0041,
-      "step": 248
-    },
-    {
-      "epoch": 13.052631578947368,
-      "eval_loss": 0.004471189342439175,
-      "eval_runtime": 3.3961,
-      "eval_samples_per_second": 8.834,
-      "eval_steps_per_second": 1.178,
-      "step": 248
-    },
-    {
-      "epoch": 13.105263157894736,
-      "grad_norm": 0.054617173969745636,
-      "learning_rate": 8.935279730407086e-08,
-      "loss": 0.0026,
-      "step": 249
-    },
-    {
-      "epoch": 13.105263157894736,
-      "eval_loss": 0.004416502080857754,
-      "eval_runtime": 3.4007,
-      "eval_samples_per_second": 8.822,
-      "eval_steps_per_second": 1.176,
-      "step": 249
-    },
-    {
-      "epoch": 13.157894736842104,
-      "grad_norm": 0.0668402761220932,
-      "learning_rate": 2.2339197405490953e-08,
-      "loss": 0.0035,
-      "step": 250
-    },
-    {
-      "epoch": 13.157894736842104,
-      "eval_loss": 0.004414246417582035,
-      "eval_runtime": 3.3991,
-      "eval_samples_per_second": 8.826,
-      "eval_steps_per_second": 1.177,
-      "step": 250
     }
   ],
   "logging_steps": 1,
@@ -3772,12 +2722,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.0147096033671168e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 180,
+  "best_metric": 0.037015657871961594,
+  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-180",
+  "epoch": 9.473684210526315,
   "eval_steps": 1,
+  "global_step": 180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.823,
       "eval_steps_per_second": 1.176,
       "step": 180
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 7311440876433408.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null