Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +6 -1206

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5529bbd8b02900353e5a9edb1b0cc3a12d5828ce3583f1e939e8a5cd7869147d
 size 92309112

 version https://git-lfs.github.com/spec/v1
+oid sha256:91deaa0df19cb3a4603aed93b3ea53b071dfc7c0b2e4fdaaec06eb2240d2d81c
 size 92309112

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abc81f39457613379a6b53d39a8e9a20485a39bc6441c72daab7e852c4611bd3
 size 184765003

 version https://git-lfs.github.com/spec/v1
+oid sha256:18d99d58786c67973fe2041dabca67551378777424f0b36426db8c429e7ae955
 size 184765003

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96d2f22d26bc65f3aeedce5509461616d5bf62bde9362cbb9270a9fe00a8d63a
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:3dbc0a5b32ad7d5de753e64fe048720f783b76e89c603c1c55e1c06734520c91
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1217dd157c01a1c43f8d1f2eafc858dc7730cb63e7c08068881fa71d637b5c4a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:904ce4dc1d5cd57472f50779861a9053d20471c1dc9e146ec99c9316f40e0da7
 size 1465

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 180,
-  "best_metric": 0.037015657871961594,
-  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-180",
-  "epoch": 9.473684210526315,
   "eval_steps": 1,
-  "global_step": 180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1508,1206 +1508,6 @@
       "eval_samples_per_second": 8.824,
       "eval_steps_per_second": 1.177,
       "step": 100
-    },
-    {
-      "epoch": 5.315789473684211,
-      "grad_norm": 0.8746724128723145,
-      "learning_rate": 0.0003552336906070838,
-      "loss": 0.4326,
-      "step": 101
-    },
-    {
-      "epoch": 5.315789473684211,
-      "eval_loss": 0.4299829304218292,
-      "eval_runtime": 3.3922,
-      "eval_samples_per_second": 8.844,
-      "eval_steps_per_second": 1.179,
-      "step": 101
-    },
-    {
-      "epoch": 5.368421052631579,
-      "grad_norm": 0.8440446257591248,
-      "learning_rate": 0.000352192771017753,
-      "loss": 0.4344,
-      "step": 102
-    },
-    {
-      "epoch": 5.368421052631579,
-      "eval_loss": 0.4243197739124298,
-      "eval_runtime": 3.3935,
-      "eval_samples_per_second": 8.84,
-      "eval_steps_per_second": 1.179,
-      "step": 102
-    },
-    {
-      "epoch": 5.421052631578947,
-      "grad_norm": 0.7834837436676025,
-      "learning_rate": 0.0003491335881925407,
-      "loss": 0.4662,
-      "step": 103
-    },
-    {
-      "epoch": 5.421052631578947,
-      "eval_loss": 0.42057812213897705,
-      "eval_runtime": 3.3965,
-      "eval_samples_per_second": 8.833,
-      "eval_steps_per_second": 1.178,
-      "step": 103
-    },
-    {
-      "epoch": 5.473684210526316,
-      "grad_norm": 0.7472103834152222,
-      "learning_rate": 0.0003460566888489593,
-      "loss": 0.418,
-      "step": 104
-    },
-    {
-      "epoch": 5.473684210526316,
-      "eval_loss": 0.4140828549861908,
-      "eval_runtime": 3.3928,
-      "eval_samples_per_second": 8.842,
-      "eval_steps_per_second": 1.179,
-      "step": 104
-    },
-    {
-      "epoch": 5.526315789473684,
-      "grad_norm": 0.8624552488327026,
-      "learning_rate": 0.00034296262287070335,
-      "loss": 0.3972,
-      "step": 105
-    },
-    {
-      "epoch": 5.526315789473684,
-      "eval_loss": 0.4123520851135254,
-      "eval_runtime": 3.3971,
-      "eval_samples_per_second": 8.831,
-      "eval_steps_per_second": 1.177,
-      "step": 105
-    },
-    {
-      "epoch": 5.578947368421053,
-      "grad_norm": 0.8890901207923889,
-      "learning_rate": 0.0003398519432093782,
-      "loss": 0.4657,
-      "step": 106
-    },
-    {
-      "epoch": 5.578947368421053,
-      "eval_loss": 0.40413472056388855,
-      "eval_runtime": 3.3959,
-      "eval_samples_per_second": 8.834,
-      "eval_steps_per_second": 1.178,
-      "step": 106
-    },
-    {
-      "epoch": 5.631578947368421,
-      "grad_norm": 0.7559741139411926,
-      "learning_rate": 0.0003367252057856802,
-      "loss": 0.4583,
-      "step": 107
-    },
-    {
-      "epoch": 5.631578947368421,
-      "eval_loss": 0.3957214951515198,
-      "eval_runtime": 3.3997,
-      "eval_samples_per_second": 8.824,
-      "eval_steps_per_second": 1.177,
-      "step": 107
-    },
-    {
-      "epoch": 5.684210526315789,
-      "grad_norm": 0.7100098729133606,
-      "learning_rate": 0.00033358296939004547,
-      "loss": 0.4226,
-      "step": 108
-    },
-    {
-      "epoch": 5.684210526315789,
-      "eval_loss": 0.3925686478614807,
-      "eval_runtime": 3.3977,
-      "eval_samples_per_second": 8.83,
-      "eval_steps_per_second": 1.177,
-      "step": 108
-    },
-    {
-      "epoch": 5.7368421052631575,
-      "grad_norm": 0.693897545337677,
-      "learning_rate": 0.00033042579558278717,
-      "loss": 0.4317,
-      "step": 109
-    },
-    {
-      "epoch": 5.7368421052631575,
-      "eval_loss": 0.38951781392097473,
-      "eval_runtime": 3.3988,
-      "eval_samples_per_second": 8.827,
-      "eval_steps_per_second": 1.177,
-      "step": 109
-    },
-    {
-      "epoch": 5.7894736842105265,
-      "grad_norm": 0.8033037781715393,
-      "learning_rate": 0.00032725424859373687,
-      "loss": 0.4543,
-      "step": 110
-    },
-    {
-      "epoch": 5.7894736842105265,
-      "eval_loss": 0.38237908482551575,
-      "eval_runtime": 3.3962,
-      "eval_samples_per_second": 8.833,
-      "eval_steps_per_second": 1.178,
-      "step": 110
-    },
-    {
-      "epoch": 5.842105263157895,
-      "grad_norm": 0.8621124625205994,
-      "learning_rate": 0.0003240688952214085,
-      "loss": 0.4746,
-      "step": 111
-    },
-    {
-      "epoch": 5.842105263157895,
-      "eval_loss": 0.373757928609848,
-      "eval_runtime": 3.3971,
-      "eval_samples_per_second": 8.831,
-      "eval_steps_per_second": 1.177,
-      "step": 111
-    },
-    {
-      "epoch": 5.894736842105263,
-      "grad_norm": 0.8101131319999695,
-      "learning_rate": 0.00032087030473170445,
-      "loss": 0.3917,
-      "step": 112
-    },
-    {
-      "epoch": 5.894736842105263,
-      "eval_loss": 0.3614272177219391,
-      "eval_runtime": 3.39,
-      "eval_samples_per_second": 8.85,
-      "eval_steps_per_second": 1.18,
-      "step": 112
-    },
-    {
-      "epoch": 5.947368421052632,
-      "grad_norm": 0.6941331624984741,
-      "learning_rate": 0.00031765904875617973,
-      "loss": 0.3344,
-      "step": 113
-    },
-    {
-      "epoch": 5.947368421052632,
-      "eval_loss": 0.35045164823532104,
-      "eval_runtime": 3.3993,
-      "eval_samples_per_second": 8.825,
-      "eval_steps_per_second": 1.177,
-      "step": 113
-    },
-    {
-      "epoch": 6.0,
-      "grad_norm": 0.6586763262748718,
-      "learning_rate": 0.00031443570118988356,
-      "loss": 0.3539,
-      "step": 114
-    },
-    {
-      "epoch": 6.0,
-      "eval_loss": 0.34484100341796875,
-      "eval_runtime": 3.3948,
-      "eval_samples_per_second": 8.837,
-      "eval_steps_per_second": 1.178,
-      "step": 114
-    },
-    {
-      "epoch": 6.052631578947368,
-      "grad_norm": 0.7052369713783264,
-      "learning_rate": 0.00031120083808879663,
-      "loss": 0.3257,
-      "step": 115
-    },
-    {
-      "epoch": 6.052631578947368,
-      "eval_loss": 0.3385400176048279,
-      "eval_runtime": 3.4041,
-      "eval_samples_per_second": 8.813,
-      "eval_steps_per_second": 1.175,
-      "step": 115
-    },
-    {
-      "epoch": 6.105263157894737,
-      "grad_norm": 0.8040263056755066,
-      "learning_rate": 0.0003079550375668821,
-      "loss": 0.335,
-      "step": 116
-    },
-    {
-      "epoch": 6.105263157894737,
-      "eval_loss": 0.3320732116699219,
-      "eval_runtime": 3.4012,
-      "eval_samples_per_second": 8.82,
-      "eval_steps_per_second": 1.176,
-      "step": 116
-    },
-    {
-      "epoch": 6.157894736842105,
-      "grad_norm": 0.9117230772972107,
-      "learning_rate": 0.00030469887969276877,
-      "loss": 0.3133,
-      "step": 117
-    },
-    {
-      "epoch": 6.157894736842105,
-      "eval_loss": 0.328256756067276,
-      "eval_runtime": 3.4045,
-      "eval_samples_per_second": 8.812,
-      "eval_steps_per_second": 1.175,
-      "step": 117
-    },
-    {
-      "epoch": 6.2105263157894735,
-      "grad_norm": 0.8745028972625732,
-      "learning_rate": 0.00030143294638608487,
-      "loss": 0.2972,
-      "step": 118
-    },
-    {
-      "epoch": 6.2105263157894735,
-      "eval_loss": 0.3161332905292511,
-      "eval_runtime": 3.3982,
-      "eval_samples_per_second": 8.828,
-      "eval_steps_per_second": 1.177,
-      "step": 118
-    },
-    {
-      "epoch": 6.2631578947368425,
-      "grad_norm": 0.893980085849762,
-      "learning_rate": 0.00029815782131346137,
-      "loss": 0.3135,
-      "step": 119
-    },
-    {
-      "epoch": 6.2631578947368425,
-      "eval_loss": 0.3072938621044159,
-      "eval_runtime": 3.3977,
-      "eval_samples_per_second": 8.83,
-      "eval_steps_per_second": 1.177,
-      "step": 119
-    },
-    {
-      "epoch": 6.315789473684211,
-      "grad_norm": 0.8993279337882996,
-      "learning_rate": 0.0002948740897842223,
-      "loss": 0.2965,
-      "step": 120
-    },
-    {
-      "epoch": 6.315789473684211,
-      "eval_loss": 0.3108386695384979,
-      "eval_runtime": 3.3904,
-      "eval_samples_per_second": 8.849,
-      "eval_steps_per_second": 1.18,
-      "step": 120
-    },
-    {
-      "epoch": 6.368421052631579,
-      "grad_norm": 0.8741037845611572,
-      "learning_rate": 0.00029158233864578256,
-      "loss": 0.2753,
-      "step": 121
-    },
-    {
-      "epoch": 6.368421052631579,
-      "eval_loss": 0.31585294008255005,
-      "eval_runtime": 3.3843,
-      "eval_samples_per_second": 8.865,
-      "eval_steps_per_second": 1.182,
-      "step": 121
-    },
-    {
-      "epoch": 6.421052631578947,
-      "grad_norm": 0.8745630979537964,
-      "learning_rate": 0.00028828315617877,
-      "loss": 0.305,
-      "step": 122
-    },
-    {
-      "epoch": 6.421052631578947,
-      "eval_loss": 0.31079187989234924,
-      "eval_runtime": 3.3933,
-      "eval_samples_per_second": 8.841,
-      "eval_steps_per_second": 1.179,
-      "step": 122
-    },
-    {
-      "epoch": 6.473684210526316,
-      "grad_norm": 0.8834717869758606,
-      "learning_rate": 0.0002849771319918922,
-      "loss": 0.3354,
-      "step": 123
-    },
-    {
-      "epoch": 6.473684210526316,
-      "eval_loss": 0.30564117431640625,
-      "eval_runtime": 3.3954,
-      "eval_samples_per_second": 8.836,
-      "eval_steps_per_second": 1.178,
-      "step": 123
-    },
-    {
-      "epoch": 6.526315789473684,
-      "grad_norm": 0.8826112151145935,
-      "learning_rate": 0.00028166485691656423,
-      "loss": 0.301,
-      "step": 124
-    },
-    {
-      "epoch": 6.526315789473684,
-      "eval_loss": 0.2981402277946472,
-      "eval_runtime": 3.3997,
-      "eval_samples_per_second": 8.824,
-      "eval_steps_per_second": 1.177,
-      "step": 124
-    },
-    {
-      "epoch": 6.578947368421053,
-      "grad_norm": 0.7558391094207764,
-      "learning_rate": 0.00027834692290132053,
-      "loss": 0.2935,
-      "step": 125
-    },
-    {
-      "epoch": 6.578947368421053,
-      "eval_loss": 0.29539814591407776,
-      "eval_runtime": 3.3982,
-      "eval_samples_per_second": 8.828,
-      "eval_steps_per_second": 1.177,
-      "step": 125
-    },
-    {
-      "epoch": 6.631578947368421,
-      "grad_norm": 1.2316842079162598,
-      "learning_rate": 0.0002750239229060246,
-      "loss": 0.2295,
-      "step": 126
-    },
-    {
-      "epoch": 6.631578947368421,
-      "eval_loss": 0.29493311047554016,
-      "eval_runtime": 3.3983,
-      "eval_samples_per_second": 8.828,
-      "eval_steps_per_second": 1.177,
-      "step": 126
-    },
-    {
-      "epoch": 6.684210526315789,
-      "grad_norm": 0.872908353805542,
-      "learning_rate": 0.0002716964507958994,
-      "loss": 0.3214,
-      "step": 127
-    },
-    {
-      "epoch": 6.684210526315789,
-      "eval_loss": 0.2816743552684784,
-      "eval_runtime": 3.3969,
-      "eval_samples_per_second": 8.831,
-      "eval_steps_per_second": 1.178,
-      "step": 127
-    },
-    {
-      "epoch": 6.7368421052631575,
-      "grad_norm": 1.1845930814743042,
-      "learning_rate": 0.0002683651012353955,
-      "loss": 0.3108,
-      "step": 128
-    },
-    {
-      "epoch": 6.7368421052631575,
-      "eval_loss": 0.27218949794769287,
-      "eval_runtime": 3.4046,
-      "eval_samples_per_second": 8.812,
-      "eval_steps_per_second": 1.175,
-      "step": 128
-    },
-    {
-      "epoch": 6.7894736842105265,
-      "grad_norm": 0.8063351511955261,
-      "learning_rate": 0.0002650304695819168,
-      "loss": 0.2863,
-      "step": 129
-    },
-    {
-      "epoch": 6.7894736842105265,
-      "eval_loss": 0.26498475670814514,
-      "eval_runtime": 3.4002,
-      "eval_samples_per_second": 8.823,
-      "eval_steps_per_second": 1.176,
-      "step": 129
-    },
-    {
-      "epoch": 6.842105263157895,
-      "grad_norm": 0.8428151607513428,
-      "learning_rate": 0.00026169315177942135,
-      "loss": 0.3621,
-      "step": 130
-    },
-    {
-      "epoch": 6.842105263157895,
-      "eval_loss": 0.26111218333244324,
-      "eval_runtime": 3.4007,
-      "eval_samples_per_second": 8.822,
-      "eval_steps_per_second": 1.176,
-      "step": 130
-    },
-    {
-      "epoch": 6.894736842105263,
-      "grad_norm": 0.7834460139274597,
-      "learning_rate": 0.0002583537442519187,
-      "loss": 0.3314,
-      "step": 131
-    },
-    {
-      "epoch": 6.894736842105263,
-      "eval_loss": 0.2560313940048218,
-      "eval_runtime": 3.3993,
-      "eval_samples_per_second": 8.825,
-      "eval_steps_per_second": 1.177,
-      "step": 131
-    },
-    {
-      "epoch": 6.947368421052632,
-      "grad_norm": 0.7809928059577942,
-      "learning_rate": 0.00025501284379688067,
-      "loss": 0.3259,
-      "step": 132
-    },
-    {
-      "epoch": 6.947368421052632,
-      "eval_loss": 0.24695177376270294,
-      "eval_runtime": 3.3903,
-      "eval_samples_per_second": 8.849,
-      "eval_steps_per_second": 1.18,
-      "step": 132
-    },
-    {
-      "epoch": 7.0,
-      "grad_norm": 0.679124116897583,
-      "learning_rate": 0.0002516710474785856,
-      "loss": 0.2897,
-      "step": 133
-    },
-    {
-      "epoch": 7.0,
-      "eval_loss": 0.23945002257823944,
-      "eval_runtime": 3.393,
-      "eval_samples_per_second": 8.842,
-      "eval_steps_per_second": 1.179,
-      "step": 133
-    },
-    {
-      "epoch": 7.052631578947368,
-      "grad_norm": 0.7083767056465149,
-      "learning_rate": 0.0002483289525214145,
-      "loss": 0.2112,
-      "step": 134
-    },
-    {
-      "epoch": 7.052631578947368,
-      "eval_loss": 0.22805434465408325,
-      "eval_runtime": 3.3927,
-      "eval_samples_per_second": 8.843,
-      "eval_steps_per_second": 1.179,
-      "step": 134
-    },
-    {
-      "epoch": 7.105263157894737,
-      "grad_norm": 0.7295684218406677,
-      "learning_rate": 0.00024498715620311935,
-      "loss": 0.1686,
-      "step": 135
-    },
-    {
-      "epoch": 7.105263157894737,
-      "eval_loss": 0.22213517129421234,
-      "eval_runtime": 3.3986,
-      "eval_samples_per_second": 8.827,
-      "eval_steps_per_second": 1.177,
-      "step": 135
-    },
-    {
-      "epoch": 7.157894736842105,
-      "grad_norm": 0.9701097011566162,
-      "learning_rate": 0.00024164625574808144,
-      "loss": 0.192,
-      "step": 136
-    },
-    {
-      "epoch": 7.157894736842105,
-      "eval_loss": 0.21580030024051666,
-      "eval_runtime": 3.3985,
-      "eval_samples_per_second": 8.827,
-      "eval_steps_per_second": 1.177,
-      "step": 136
-    },
-    {
-      "epoch": 7.2105263157894735,
-      "grad_norm": 0.9494478702545166,
-      "learning_rate": 0.00023830684822057877,
-      "loss": 0.205,
-      "step": 137
-    },
-    {
-      "epoch": 7.2105263157894735,
-      "eval_loss": 0.21216638386249542,
-      "eval_runtime": 3.4006,
-      "eval_samples_per_second": 8.822,
-      "eval_steps_per_second": 1.176,
-      "step": 137
-    },
-    {
-      "epoch": 7.2631578947368425,
-      "grad_norm": 0.6897704005241394,
-      "learning_rate": 0.00023496953041808325,
-      "loss": 0.1542,
-      "step": 138
-    },
-    {
-      "epoch": 7.2631578947368425,
-      "eval_loss": 0.21432656049728394,
-      "eval_runtime": 3.3968,
-      "eval_samples_per_second": 8.832,
-      "eval_steps_per_second": 1.178,
-      "step": 138
-    },
-    {
-      "epoch": 7.315789473684211,
-      "grad_norm": 0.7690937519073486,
-      "learning_rate": 0.0002316348987646045,
-      "loss": 0.213,
-      "step": 139
-    },
-    {
-      "epoch": 7.315789473684211,
-      "eval_loss": 0.21909914910793304,
-      "eval_runtime": 3.3981,
-      "eval_samples_per_second": 8.829,
-      "eval_steps_per_second": 1.177,
-      "step": 139
-    },
-    {
-      "epoch": 7.368421052631579,
-      "grad_norm": 0.9047114253044128,
-      "learning_rate": 0.00022830354920410064,
-      "loss": 0.2302,
-      "step": 140
-    },
-    {
-      "epoch": 7.368421052631579,
-      "eval_loss": 0.2153581976890564,
-      "eval_runtime": 3.399,
-      "eval_samples_per_second": 8.826,
-      "eval_steps_per_second": 1.177,
-      "step": 140
-    },
-    {
-      "epoch": 7.421052631578947,
-      "grad_norm": 0.7724714279174805,
-      "learning_rate": 0.0002249760770939754,
-      "loss": 0.1825,
-      "step": 141
-    },
-    {
-      "epoch": 7.421052631578947,
-      "eval_loss": 0.20969410240650177,
-      "eval_runtime": 3.3776,
-      "eval_samples_per_second": 8.882,
-      "eval_steps_per_second": 1.184,
-      "step": 141
-    },
-    {
-      "epoch": 7.473684210526316,
-      "grad_norm": 0.7683383822441101,
-      "learning_rate": 0.0002216530770986795,
-      "loss": 0.1793,
-      "step": 142
-    },
-    {
-      "epoch": 7.473684210526316,
-      "eval_loss": 0.204229936003685,
-      "eval_runtime": 3.398,
-      "eval_samples_per_second": 8.829,
-      "eval_steps_per_second": 1.177,
-      "step": 142
-    },
-    {
-      "epoch": 7.526315789473684,
-      "grad_norm": 0.8928307890892029,
-      "learning_rate": 0.0002183351430834358,
-      "loss": 0.2218,
-      "step": 143
-    },
-    {
-      "epoch": 7.526315789473684,
-      "eval_loss": 0.197996586561203,
-      "eval_runtime": 3.3992,
-      "eval_samples_per_second": 8.826,
-      "eval_steps_per_second": 1.177,
-      "step": 143
-    },
-    {
-      "epoch": 7.578947368421053,
-      "grad_norm": 0.683783769607544,
-      "learning_rate": 0.0002150228680081079,
-      "loss": 0.1496,
-      "step": 144
-    },
-    {
-      "epoch": 7.578947368421053,
-      "eval_loss": 0.19135157763957977,
-      "eval_runtime": 3.4077,
-      "eval_samples_per_second": 8.804,
-      "eval_steps_per_second": 1.174,
-      "step": 144
-    },
-    {
-      "epoch": 7.631578947368421,
-      "grad_norm": 0.7701078653335571,
-      "learning_rate": 0.00021171684382123,
-      "loss": 0.2014,
-      "step": 145
-    },
-    {
-      "epoch": 7.631578947368421,
-      "eval_loss": 0.1854608803987503,
-      "eval_runtime": 3.4029,
-      "eval_samples_per_second": 8.816,
-      "eval_steps_per_second": 1.175,
-      "step": 145
-    },
-    {
-      "epoch": 7.684210526315789,
-      "grad_norm": 0.9109010696411133,
-      "learning_rate": 0.0002084176613542175,
-      "loss": 0.191,
-      "step": 146
-    },
-    {
-      "epoch": 7.684210526315789,
-      "eval_loss": 0.1755831390619278,
-      "eval_runtime": 3.4062,
-      "eval_samples_per_second": 8.807,
-      "eval_steps_per_second": 1.174,
-      "step": 146
-    },
-    {
-      "epoch": 7.7368421052631575,
-      "grad_norm": 0.9243440628051758,
-      "learning_rate": 0.00020512591021577773,
-      "loss": 0.1477,
-      "step": 147
-    },
-    {
-      "epoch": 7.7368421052631575,
-      "eval_loss": 0.17130498588085175,
-      "eval_runtime": 3.3849,
-      "eval_samples_per_second": 8.863,
-      "eval_steps_per_second": 1.182,
-      "step": 147
-    },
-    {
-      "epoch": 7.7894736842105265,
-      "grad_norm": 0.6701480746269226,
-      "learning_rate": 0.00020184217868653867,
-      "loss": 0.1978,
-      "step": 148
-    },
-    {
-      "epoch": 7.7894736842105265,
-      "eval_loss": 0.16958914697170258,
-      "eval_runtime": 3.3829,
-      "eval_samples_per_second": 8.868,
-      "eval_steps_per_second": 1.182,
-      "step": 148
-    },
-    {
-      "epoch": 7.842105263157895,
-      "grad_norm": 0.6767657399177551,
-      "learning_rate": 0.0001985670536139151,
-      "loss": 0.2179,
-      "step": 149
-    },
-    {
-      "epoch": 7.842105263157895,
-      "eval_loss": 0.16378562152385712,
-      "eval_runtime": 3.3828,
-      "eval_samples_per_second": 8.868,
-      "eval_steps_per_second": 1.182,
-      "step": 149
-    },
-    {
-      "epoch": 7.894736842105263,
-      "grad_norm": 0.6448670625686646,
-      "learning_rate": 0.0001953011203072312,
-      "loss": 0.2025,
-      "step": 150
-    },
-    {
-      "epoch": 7.894736842105263,
-      "eval_loss": 0.15805380046367645,
-      "eval_runtime": 3.3987,
-      "eval_samples_per_second": 8.827,
-      "eval_steps_per_second": 1.177,
-      "step": 150
-    },
-    {
-      "epoch": 7.947368421052632,
-      "grad_norm": 0.87026047706604,
-      "learning_rate": 0.00019204496243311792,
-      "loss": 0.2653,
-      "step": 151
-    },
-    {
-      "epoch": 7.947368421052632,
-      "eval_loss": 0.14828962087631226,
-      "eval_runtime": 3.3946,
-      "eval_samples_per_second": 8.838,
-      "eval_steps_per_second": 1.178,
-      "step": 151
-    },
-    {
-      "epoch": 8.0,
-      "grad_norm": 0.746687114238739,
-      "learning_rate": 0.00018879916191120349,
-      "loss": 0.2052,
-      "step": 152
-    },
-    {
-      "epoch": 8.0,
-      "eval_loss": 0.1411527693271637,
-      "eval_runtime": 3.3931,
-      "eval_samples_per_second": 8.841,
-      "eval_steps_per_second": 1.179,
-      "step": 152
-    },
-    {
-      "epoch": 8.052631578947368,
-      "grad_norm": 0.47239571809768677,
-      "learning_rate": 0.00018556429881011656,
-      "loss": 0.1007,
-      "step": 153
-    },
-    {
-      "epoch": 8.052631578947368,
-      "eval_loss": 0.13516879081726074,
-      "eval_runtime": 3.3993,
-      "eval_samples_per_second": 8.825,
-      "eval_steps_per_second": 1.177,
-      "step": 153
-    },
-    {
-      "epoch": 8.105263157894736,
-      "grad_norm": 0.8439627289772034,
-      "learning_rate": 0.0001823409512438203,
-      "loss": 0.1246,
-      "step": 154
-    },
-    {
-      "epoch": 8.105263157894736,
-      "eval_loss": 0.13015992939472198,
-      "eval_runtime": 3.3942,
-      "eval_samples_per_second": 8.839,
-      "eval_steps_per_second": 1.178,
-      "step": 154
-    },
-    {
-      "epoch": 8.157894736842104,
-      "grad_norm": 0.6233652830123901,
-      "learning_rate": 0.00017912969526829559,
-      "loss": 0.0809,
-      "step": 155
-    },
-    {
-      "epoch": 8.157894736842104,
-      "eval_loss": 0.12686298787593842,
-      "eval_runtime": 3.3971,
-      "eval_samples_per_second": 8.831,
-      "eval_steps_per_second": 1.177,
-      "step": 155
-    },
-    {
-      "epoch": 8.210526315789474,
-      "grad_norm": 0.7331376075744629,
-      "learning_rate": 0.00017593110477859153,
-      "loss": 0.0948,
-      "step": 156
-    },
-    {
-      "epoch": 8.210526315789474,
-      "eval_loss": 0.12066776305437088,
-      "eval_runtime": 3.3964,
-      "eval_samples_per_second": 8.833,
-      "eval_steps_per_second": 1.178,
-      "step": 156
-    },
-    {
-      "epoch": 8.263157894736842,
-      "grad_norm": 0.7566715478897095,
-      "learning_rate": 0.00017274575140626317,
-      "loss": 0.1052,
-      "step": 157
-    },
-    {
-      "epoch": 8.263157894736842,
-      "eval_loss": 0.1153416633605957,
-      "eval_runtime": 3.3936,
-      "eval_samples_per_second": 8.84,
-      "eval_steps_per_second": 1.179,
-      "step": 157
-    },
-    {
-      "epoch": 8.31578947368421,
-      "grad_norm": 0.5211192965507507,
-      "learning_rate": 0.00016957420441721284,
-      "loss": 0.0584,
-      "step": 158
-    },
-    {
-      "epoch": 8.31578947368421,
-      "eval_loss": 0.10957438498735428,
-      "eval_runtime": 3.3951,
-      "eval_samples_per_second": 8.836,
-      "eval_steps_per_second": 1.178,
-      "step": 158
-    },
-    {
-      "epoch": 8.368421052631579,
-      "grad_norm": 0.7941140532493591,
-      "learning_rate": 0.00016641703060995457,
-      "loss": 0.1393,
-      "step": 159
-    },
-    {
-      "epoch": 8.368421052631579,
-      "eval_loss": 0.1009925901889801,
-      "eval_runtime": 3.3908,
-      "eval_samples_per_second": 8.847,
-      "eval_steps_per_second": 1.18,
-      "step": 159
-    },
-    {
-      "epoch": 8.421052631578947,
-      "grad_norm": 0.7772736549377441,
-      "learning_rate": 0.00016327479421431983,
-      "loss": 0.1284,
-      "step": 160
-    },
-    {
-      "epoch": 8.421052631578947,
-      "eval_loss": 0.094593845307827,
-      "eval_runtime": 3.3985,
-      "eval_samples_per_second": 8.827,
-      "eval_steps_per_second": 1.177,
-      "step": 160
-    },
-    {
-      "epoch": 8.473684210526315,
-      "grad_norm": 0.8724604845046997,
-      "learning_rate": 0.00016014805679062183,
-      "loss": 0.1518,
-      "step": 161
-    },
-    {
-      "epoch": 8.473684210526315,
-      "eval_loss": 0.0894516333937645,
-      "eval_runtime": 3.3955,
-      "eval_samples_per_second": 8.835,
-      "eval_steps_per_second": 1.178,
-      "step": 161
-    },
-    {
-      "epoch": 8.526315789473685,
-      "grad_norm": 0.7179498672485352,
-      "learning_rate": 0.0001570373771292967,
-      "loss": 0.1107,
-      "step": 162
-    },
-    {
-      "epoch": 8.526315789473685,
-      "eval_loss": 0.0845918357372284,
-      "eval_runtime": 3.4033,
-      "eval_samples_per_second": 8.815,
-      "eval_steps_per_second": 1.175,
-      "step": 162
-    },
-    {
-      "epoch": 8.578947368421053,
-      "grad_norm": 0.6780802607536316,
-      "learning_rate": 0.00015394331115104075,
-      "loss": 0.0997,
-      "step": 163
-    },
-    {
-      "epoch": 8.578947368421053,
-      "eval_loss": 0.08240295946598053,
-      "eval_runtime": 3.402,
-      "eval_samples_per_second": 8.818,
-      "eval_steps_per_second": 1.176,
-      "step": 163
-    },
-    {
-      "epoch": 8.631578947368421,
-      "grad_norm": 0.6817135810852051,
-      "learning_rate": 0.00015086641180745932,
-      "loss": 0.1156,
-      "step": 164
-    },
-    {
-      "epoch": 8.631578947368421,
-      "eval_loss": 0.07952894270420074,
-      "eval_runtime": 3.4067,
-      "eval_samples_per_second": 8.806,
-      "eval_steps_per_second": 1.174,
-      "step": 164
-    },
-    {
-      "epoch": 8.68421052631579,
-      "grad_norm": 0.7739869356155396,
-      "learning_rate": 0.00014780722898224708,
-      "loss": 0.1247,
-      "step": 165
-    },
-    {
-      "epoch": 8.68421052631579,
-      "eval_loss": 0.07561580091714859,
-      "eval_runtime": 3.4045,
-      "eval_samples_per_second": 8.812,
-      "eval_steps_per_second": 1.175,
-      "step": 165
-    },
-    {
-      "epoch": 8.736842105263158,
-      "grad_norm": 0.8046780228614807,
-      "learning_rate": 0.0001447663093929163,
-      "loss": 0.1085,
-      "step": 166
-    },
-    {
-      "epoch": 8.736842105263158,
-      "eval_loss": 0.07319317758083344,
-      "eval_runtime": 3.3994,
-      "eval_samples_per_second": 8.825,
-      "eval_steps_per_second": 1.177,
-      "step": 166
-    },
-    {
-      "epoch": 8.789473684210526,
-      "grad_norm": 0.6103046536445618,
-      "learning_rate": 0.00014174419649309089,
-      "loss": 0.0832,
-      "step": 167
-    },
-    {
-      "epoch": 8.789473684210526,
-      "eval_loss": 0.07252493500709534,
-      "eval_runtime": 3.4001,
-      "eval_samples_per_second": 8.823,
-      "eval_steps_per_second": 1.176,
-      "step": 167
-    },
-    {
-      "epoch": 8.842105263157894,
-      "grad_norm": 0.6907472610473633,
-      "learning_rate": 0.00013874143037538418,
-      "loss": 0.1031,
-      "step": 168
-    },
-    {
-      "epoch": 8.842105263157894,
-      "eval_loss": 0.07177206873893738,
-      "eval_runtime": 3.4044,
-      "eval_samples_per_second": 8.812,
-      "eval_steps_per_second": 1.175,
-      "step": 168
-    },
-    {
-      "epoch": 8.894736842105264,
-      "grad_norm": 0.6837093830108643,
-      "learning_rate": 0.0001357585476748766,
-      "loss": 0.1074,
-      "step": 169
-    },
-    {
-      "epoch": 8.894736842105264,
-      "eval_loss": 0.06924725323915482,
-      "eval_runtime": 3.4019,
-      "eval_samples_per_second": 8.819,
-      "eval_steps_per_second": 1.176,
-      "step": 169
-    },
-    {
-      "epoch": 8.947368421052632,
-      "grad_norm": 0.5226811766624451,
-      "learning_rate": 0.00013279608147321223,
-      "loss": 0.0467,
-      "step": 170
-    },
-    {
-      "epoch": 8.947368421052632,
-      "eval_loss": 0.06760647892951965,
-      "eval_runtime": 3.3966,
-      "eval_samples_per_second": 8.832,
-      "eval_steps_per_second": 1.178,
-      "step": 170
-    },
-    {
-      "epoch": 9.0,
-      "grad_norm": 0.8332634568214417,
-      "learning_rate": 0.00012985456120332905,
-      "loss": 0.1137,
-      "step": 171
-    },
-    {
-      "epoch": 9.0,
-      "eval_loss": 0.06686952710151672,
-      "eval_runtime": 3.3907,
-      "eval_samples_per_second": 8.848,
-      "eval_steps_per_second": 1.18,
-      "step": 171
-    },
-    {
-      "epoch": 9.052631578947368,
-      "grad_norm": 0.4633868932723999,
-      "learning_rate": 0.00012693451255484312,
-      "loss": 0.0353,
-      "step": 172
-    },
-    {
-      "epoch": 9.052631578947368,
-      "eval_loss": 0.06244245544075966,
-      "eval_runtime": 3.3982,
-      "eval_samples_per_second": 8.828,
-      "eval_steps_per_second": 1.177,
-      "step": 172
-    },
-    {
-      "epoch": 9.105263157894736,
-      "grad_norm": 0.7089731693267822,
-      "learning_rate": 0.00012403645738009997,
-      "loss": 0.059,
-      "step": 173
-    },
-    {
-      "epoch": 9.105263157894736,
-      "eval_loss": 0.05555792525410652,
-      "eval_runtime": 3.3985,
-      "eval_samples_per_second": 8.828,
-      "eval_steps_per_second": 1.177,
-      "step": 173
-    },
-    {
-      "epoch": 9.157894736842104,
-      "grad_norm": 0.570846438407898,
-      "learning_rate": 0.00012116091360091261,
-      "loss": 0.0545,
-      "step": 174
-    },
-    {
-      "epoch": 9.157894736842104,
-      "eval_loss": 0.052096955478191376,
-      "eval_runtime": 3.3964,
-      "eval_samples_per_second": 8.833,
-      "eval_steps_per_second": 1.178,
-      "step": 174
-    },
-    {
-      "epoch": 9.210526315789474,
-      "grad_norm": 0.4484975337982178,
-      "learning_rate": 0.00011830839511600211,
-      "loss": 0.0334,
-      "step": 175
-    },
-    {
-      "epoch": 9.210526315789474,
-      "eval_loss": 0.05176297202706337,
-      "eval_runtime": 3.4033,
-      "eval_samples_per_second": 8.815,
-      "eval_steps_per_second": 1.175,
-      "step": 175
-    },
-    {
-      "epoch": 9.263157894736842,
-      "grad_norm": 0.677650511264801,
-      "learning_rate": 0.00011547941170915685,
-      "loss": 0.0503,
-      "step": 176
-    },
-    {
-      "epoch": 9.263157894736842,
-      "eval_loss": 0.05027133598923683,
-      "eval_runtime": 3.4064,
-      "eval_samples_per_second": 8.807,
-      "eval_steps_per_second": 1.174,
-      "step": 176
-    },
-    {
-      "epoch": 9.31578947368421,
-      "grad_norm": 0.5817425847053528,
-      "learning_rate": 0.00011267446895812702,
-      "loss": 0.0293,
-      "step": 177
-    },
-    {
-      "epoch": 9.31578947368421,
-      "eval_loss": 0.049430813640356064,
-      "eval_runtime": 3.4086,
-      "eval_samples_per_second": 8.801,
-      "eval_steps_per_second": 1.174,
-      "step": 177
-    },
-    {
-      "epoch": 9.368421052631579,
-      "grad_norm": 0.970379114151001,
-      "learning_rate": 0.0001098940681442713,
-      "loss": 0.0679,
-      "step": 178
-    },
-    {
-      "epoch": 9.368421052631579,
-      "eval_loss": 0.04337286949157715,
-      "eval_runtime": 3.4,
-      "eval_samples_per_second": 8.824,
-      "eval_steps_per_second": 1.176,
-      "step": 178
-    },
-    {
-      "epoch": 9.421052631578947,
-      "grad_norm": 0.4084687829017639,
-      "learning_rate": 0.00010713870616297092,
-      "loss": 0.0262,
-      "step": 179
-    },
-    {
-      "epoch": 9.421052631578947,
-      "eval_loss": 0.03992774710059166,
-      "eval_runtime": 3.4026,
-      "eval_samples_per_second": 8.817,
-      "eval_steps_per_second": 1.176,
-      "step": 179
-    },
-    {
-      "epoch": 9.473684210526315,
-      "grad_norm": 0.650490939617157,
-      "learning_rate": 0.00010440887543482746,
-      "loss": 0.0407,
-      "step": 180
-    },
-    {
-      "epoch": 9.473684210526315,
-      "eval_loss": 0.037015657871961594,
-      "eval_runtime": 3.4003,
-      "eval_samples_per_second": 8.823,
-      "eval_steps_per_second": 1.176,
-      "step": 180
     }
   ],
   "logging_steps": 1,
@@ -2727,7 +1527,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7311440876433408.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 99,
+  "best_metric": 0.43201857805252075,
+  "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-90",
+  "epoch": 5.2631578947368425,
   "eval_steps": 1,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.824,
       "eval_steps_per_second": 1.177,
       "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4061879153080320.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null