End of training

Browse files

Files changed (7) hide show

README.md +2 -2
all_results.json +10 -10
eval_results.json +5 -5
train_results.json +6 -6
trainer_state.json +135 -135
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -16,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # Phi-4-mini-instruct_sft_sg_values_resp_split
-This model is a fine-tuned version of [microsoft/Phi-4-mini-instruct](https://huggingface.co/microsoft/Phi-4-mini-instruct) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.3345
 ## Model description

 # Phi-4-mini-instruct_sft_sg_values_resp_split
+This model is a fine-tuned version of [microsoft/Phi-4-mini-instruct](https://huggingface.co/microsoft/Phi-4-mini-instruct) on the sft_sg_values_res_split dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.3214
 ## Model description

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 0.9996261682242991,
-    "eval_loss": 2.384812116622925,
-    "eval_runtime": 18.1789,
-    "eval_samples_per_second": 27.504,
-    "eval_steps_per_second": 13.752,
-    "total_flos": 4.450466167504896e+16,
-    "train_loss": 3.11931433781101,
-    "train_runtime": 1360.775,
-    "train_samples_per_second": 7.863,
-    "train_steps_per_second": 0.983
 }

 {
+    "epoch": 0.999829030603522,
+    "eval_loss": 2.3213753700256348,
+    "eval_runtime": 18.0849,
+    "eval_samples_per_second": 27.647,
+    "eval_steps_per_second": 13.824,
+    "total_flos": 4.82073055174656e+16,
+    "train_loss": 3.015217604943731,
+    "train_runtime": 1458.2015,
+    "train_samples_per_second": 8.022,
+    "train_steps_per_second": 1.003
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 0.9996261682242991,
-    "eval_loss": 2.384812116622925,
-    "eval_runtime": 18.1789,
-    "eval_samples_per_second": 27.504,
-    "eval_steps_per_second": 13.752
 }

 {
+    "epoch": 0.999829030603522,
+    "eval_loss": 2.3213753700256348,
+    "eval_runtime": 18.0849,
+    "eval_samples_per_second": 27.647,
+    "eval_steps_per_second": 13.824
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.9996261682242991,
-    "total_flos": 4.450466167504896e+16,
-    "train_loss": 3.11931433781101,
-    "train_runtime": 1360.775,
-    "train_samples_per_second": 7.863,
-    "train_steps_per_second": 0.983
 }

 {
+    "epoch": 0.999829030603522,
+    "total_flos": 4.82073055174656e+16,
+    "train_loss": 3.015217604943731,
+    "train_runtime": 1458.2015,
+    "train_samples_per_second": 8.022,
+    "train_steps_per_second": 1.003
 }

trainer_state.json CHANGED Viewed

@@ -2,198 +2,198 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9996261682242991,
   "eval_steps": 250,
-  "global_step": 1337,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.05009345794392523,
-      "grad_norm": 3.513535261154175,
-      "learning_rate": 4.925373134328357e-07,
-      "loss": 4.4864,
-      "step": 67
     },
     {
-      "epoch": 0.10018691588785046,
-      "grad_norm": 4.232038974761963,
-      "learning_rate": 9.925373134328357e-07,
-      "loss": 4.4815,
-      "step": 134
     },
     {
-      "epoch": 0.1502803738317757,
-      "grad_norm": 3.0024209022521973,
-      "learning_rate": 9.451371571072319e-07,
-      "loss": 4.3614,
-      "step": 201
     },
     {
-      "epoch": 0.18691588785046728,
-      "eval_loss": 4.165477752685547,
-      "eval_runtime": 18.4458,
-      "eval_samples_per_second": 27.107,
-      "eval_steps_per_second": 13.553,
       "step": 250
     },
     {
-      "epoch": 0.20037383177570092,
-      "grad_norm": 4.35124397277832,
-      "learning_rate": 8.894430590191188e-07,
-      "loss": 4.1954,
-      "step": 268
     },
     {
-      "epoch": 0.2504672897196262,
-      "grad_norm": 4.761136531829834,
-      "learning_rate": 8.337489609310058e-07,
-      "loss": 3.9922,
-      "step": 335
     },
     {
-      "epoch": 0.3005607476635514,
-      "grad_norm": 5.12410831451416,
-      "learning_rate": 7.780548628428927e-07,
-      "loss": 3.6946,
-      "step": 402
     },
     {
-      "epoch": 0.3506542056074766,
-      "grad_norm": 4.370376110076904,
-      "learning_rate": 7.223607647547797e-07,
-      "loss": 3.3914,
-      "step": 469
-    },
-    {
-      "epoch": 0.37383177570093457,
-      "eval_loss": 3.1697182655334473,
-      "eval_runtime": 18.4011,
-      "eval_samples_per_second": 27.172,
-      "eval_steps_per_second": 13.586,
       "step": 500
     },
     {
-      "epoch": 0.40074766355140184,
-      "grad_norm": 3.3430747985839844,
-      "learning_rate": 6.666666666666666e-07,
-      "loss": 3.154,
-      "step": 536
     },
     {
-      "epoch": 0.4508411214953271,
-      "grad_norm": 4.1145734786987305,
-      "learning_rate": 6.109725685785536e-07,
-      "loss": 2.9973,
-      "step": 603
     },
     {
-      "epoch": 0.5009345794392523,
-      "grad_norm": 3.4338088035583496,
-      "learning_rate": 5.552784704904405e-07,
-      "loss": 2.815,
-      "step": 670
     },
     {
-      "epoch": 0.5510280373831775,
-      "grad_norm": 3.3768129348754883,
-      "learning_rate": 4.995843724023275e-07,
-      "loss": 2.684,
-      "step": 737
     },
     {
-      "epoch": 0.5607476635514018,
-      "eval_loss": 2.6262145042419434,
-      "eval_runtime": 18.4215,
-      "eval_samples_per_second": 27.142,
-      "eval_steps_per_second": 13.571,
       "step": 750
     },
     {
-      "epoch": 0.6011214953271028,
-      "grad_norm": 2.7695705890655518,
-      "learning_rate": 4.438902743142144e-07,
-      "loss": 2.6152,
-      "step": 804
     },
     {
-      "epoch": 0.6512149532710281,
-      "grad_norm": 2.307760715484619,
-      "learning_rate": 3.881961762261014e-07,
-      "loss": 2.5592,
-      "step": 871
     },
     {
-      "epoch": 0.7013084112149532,
-      "grad_norm": 2.533203125,
-      "learning_rate": 3.3250207813798835e-07,
-      "loss": 2.5099,
-      "step": 938
     },
     {
-      "epoch": 0.7476635514018691,
-      "eval_loss": 2.444204807281494,
-      "eval_runtime": 18.3848,
-      "eval_samples_per_second": 27.196,
-      "eval_steps_per_second": 13.598,
       "step": 1000
     },
     {
-      "epoch": 0.7514018691588785,
-      "grad_norm": 1.7434587478637695,
-      "learning_rate": 2.7680798004987534e-07,
-      "loss": 2.4359,
-      "step": 1005
     },
     {
-      "epoch": 0.8014953271028037,
-      "grad_norm": 2.9051830768585205,
-      "learning_rate": 2.2111388196176226e-07,
-      "loss": 2.4193,
-      "step": 1072
     },
     {
-      "epoch": 0.851588785046729,
-      "grad_norm": 2.5767340660095215,
-      "learning_rate": 1.6541978387364923e-07,
-      "loss": 2.4261,
-      "step": 1139
     },
     {
-      "epoch": 0.9016822429906542,
-      "grad_norm": 1.5444096326828003,
-      "learning_rate": 1.0972568578553615e-07,
-      "loss": 2.3706,
-      "step": 1206
     },
     {
-      "epoch": 0.9345794392523364,
-      "eval_loss": 2.3879618644714355,
-      "eval_runtime": 18.3821,
-      "eval_samples_per_second": 27.2,
-      "eval_steps_per_second": 13.6,
-      "step": 1250
     },
     {
-      "epoch": 0.9517757009345794,
-      "grad_norm": 2.0951781272888184,
-      "learning_rate": 5.403158769742311e-08,
-      "loss": 2.3796,
-      "step": 1273
     },
     {
-      "epoch": 0.9996261682242991,
-      "step": 1337,
-      "total_flos": 4.450466167504896e+16,
-      "train_loss": 3.11931433781101,
-      "train_runtime": 1360.775,
-      "train_samples_per_second": 7.863,
-      "train_steps_per_second": 0.983
     }
   ],
-  "logging_steps": 67,
-  "max_steps": 1337,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
@@ -209,7 +209,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.450466167504896e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.999829030603522,
   "eval_steps": 250,
+  "global_step": 1462,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.05060694135749701,
+      "grad_norm": 2.961400270462036,
+      "learning_rate": 4.965986394557823e-07,
+      "loss": 4.4344,
+      "step": 74
     },
     {
+      "epoch": 0.10121388271499401,
+      "grad_norm": 3.643557548522949,
+      "learning_rate": 1e-06,
+      "loss": 4.4596,
+      "step": 148
     },
     {
+      "epoch": 0.15182082407249103,
+      "grad_norm": 3.3004343509674072,
+      "learning_rate": 9.437262357414448e-07,
+      "loss": 4.3698,
+      "step": 222
     },
     {
+      "epoch": 0.17096939647803044,
+      "eval_loss": 4.173080921173096,
+      "eval_runtime": 18.3767,
+      "eval_samples_per_second": 27.208,
+      "eval_steps_per_second": 13.604,
       "step": 250
     },
     {
+      "epoch": 0.20242776542998803,
+      "grad_norm": 3.9712746143341064,
+      "learning_rate": 8.874524714828897e-07,
+      "loss": 4.1264,
+      "step": 296
     },
     {
+      "epoch": 0.253034706787485,
+      "grad_norm": 5.5848774909973145,
+      "learning_rate": 8.311787072243346e-07,
+      "loss": 3.8829,
+      "step": 370
     },
     {
+      "epoch": 0.30364164814498207,
+      "grad_norm": 4.0708184242248535,
+      "learning_rate": 7.749049429657795e-07,
+      "loss": 3.5096,
+      "step": 444
     },
     {
+      "epoch": 0.3419387929560609,
+      "eval_loss": 3.149691581726074,
+      "eval_runtime": 18.3567,
+      "eval_samples_per_second": 27.238,
+      "eval_steps_per_second": 13.619,
       "step": 500
     },
     {
+      "epoch": 0.35424858950247906,
+      "grad_norm": 3.6866307258605957,
+      "learning_rate": 7.186311787072243e-07,
+      "loss": 3.1506,
+      "step": 518
     },
     {
+      "epoch": 0.40485553085997605,
+      "grad_norm": 4.073938369750977,
+      "learning_rate": 6.623574144486692e-07,
+      "loss": 2.9908,
+      "step": 592
     },
     {
+      "epoch": 0.45546247221747305,
+      "grad_norm": 3.710505485534668,
+      "learning_rate": 6.060836501901141e-07,
+      "loss": 2.7593,
+      "step": 666
     },
     {
+      "epoch": 0.50606941357497,
+      "grad_norm": 2.3573338985443115,
+      "learning_rate": 5.498098859315589e-07,
+      "loss": 2.6213,
+      "step": 740
     },
     {
+      "epoch": 0.5129081894340913,
+      "eval_loss": 2.573621988296509,
+      "eval_runtime": 18.3572,
+      "eval_samples_per_second": 27.237,
+      "eval_steps_per_second": 13.619,
       "step": 750
     },
     {
+      "epoch": 0.5566763549324671,
+      "grad_norm": 2.2275450229644775,
+      "learning_rate": 4.935361216730038e-07,
+      "loss": 2.5332,
+      "step": 814
     },
     {
+      "epoch": 0.6072832962899641,
+      "grad_norm": 2.2295360565185547,
+      "learning_rate": 4.372623574144487e-07,
+      "loss": 2.484,
+      "step": 888
     },
     {
+      "epoch": 0.6578902376474611,
+      "grad_norm": 2.1964755058288574,
+      "learning_rate": 3.8098859315589356e-07,
+      "loss": 2.4305,
+      "step": 962
     },
     {
+      "epoch": 0.6838775859121218,
+      "eval_loss": 2.3979878425598145,
+      "eval_runtime": 18.3621,
+      "eval_samples_per_second": 27.23,
+      "eval_steps_per_second": 13.615,
       "step": 1000
     },
     {
+      "epoch": 0.7084971790049581,
+      "grad_norm": 2.5384292602539062,
+      "learning_rate": 3.247148288973384e-07,
+      "loss": 2.3982,
+      "step": 1036
+    },
+    {
+      "epoch": 0.7591041203624551,
+      "grad_norm": 1.8956412076950073,
+      "learning_rate": 2.6844106463878326e-07,
+      "loss": 2.3504,
+      "step": 1110
     },
     {
+      "epoch": 0.8097110617199521,
+      "grad_norm": 1.7790541648864746,
+      "learning_rate": 2.1216730038022811e-07,
+      "loss": 2.3653,
+      "step": 1184
     },
     {
+      "epoch": 0.8548469823901521,
+      "eval_loss": 2.334463119506836,
+      "eval_runtime": 18.3571,
+      "eval_samples_per_second": 27.237,
+      "eval_steps_per_second": 13.619,
+      "step": 1250
     },
     {
+      "epoch": 0.8603180030774491,
+      "grad_norm": 2.580681562423706,
+      "learning_rate": 1.55893536121673e-07,
+      "loss": 2.317,
+      "step": 1258
     },
     {
+      "epoch": 0.9109249444349461,
+      "grad_norm": 1.333031415939331,
+      "learning_rate": 9.961977186311786e-08,
+      "loss": 2.3346,
+      "step": 1332
     },
     {
+      "epoch": 0.9615318857924432,
+      "grad_norm": 1.8250882625579834,
+      "learning_rate": 4.3346007604562734e-08,
+      "loss": 2.3081,
+      "step": 1406
     },
     {
+      "epoch": 0.999829030603522,
+      "step": 1462,
+      "total_flos": 4.82073055174656e+16,
+      "train_loss": 3.015217604943731,
+      "train_runtime": 1458.2015,
+      "train_samples_per_second": 8.022,
+      "train_steps_per_second": 1.003
     }
   ],
+  "logging_steps": 74,
+  "max_steps": 1462,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 4.82073055174656e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_eval_loss.png CHANGED Viewed

training_loss.png CHANGED Viewed