Model save

Browse files

Files changed (3) hide show

README.md +11 -12
adapter_model.safetensors +1 -1
trainer_state.json +107 -122

README.md CHANGED Viewed

@@ -19,7 +19,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [Qwen/Qwen2.5-Coder-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Coder-1.5B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9411
 ## Model description
@@ -53,17 +53,16 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 1.194         | 0.2712 | 20   | 1.1335          |
-| 0.8781        | 0.5424 | 40   | 1.0606          |
-| 0.971         | 0.8136 | 60   | 1.0339          |
-| 0.8568        | 1.0814 | 80   | 1.0087          |
-| 0.8531        | 1.3525 | 100  | 0.9888          |
-| 0.8971        | 1.6237 | 120  | 0.9694          |
-| 0.8475        | 1.8949 | 140  | 0.9589          |
-| 0.8708        | 2.1627 | 160  | 0.9529          |
-| 0.7806        | 2.4339 | 180  | 0.9453          |
-| 0.6945        | 2.7051 | 200  | 0.9455          |
-| 0.7384        | 2.9763 | 220  | 0.9411          |
 ### Framework versions

 This model is a fine-tuned version of [Qwen/Qwen2.5-Coder-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Coder-1.5B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9464
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 1.1739        | 0.2759 | 20   | 1.1330          |
+| 0.8905        | 0.5517 | 40   | 1.0622          |
+| 0.9773        | 0.8276 | 60   | 1.0305          |
+| 0.8092        | 1.0966 | 80   | 1.0049          |
+| 0.7883        | 1.3724 | 100  | 0.9816          |
+| 0.7641        | 1.6483 | 120  | 0.9676          |
+| 0.79          | 1.9241 | 140  | 0.9591          |
+| 0.8975        | 2.1931 | 160  | 0.9538          |
+| 0.7537        | 2.4690 | 180  | 0.9526          |
+| 0.6484        | 2.7448 | 200  | 0.9464          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d74899206b7b1f73a46cb08c7a9011b0708626bdeac88d08b309e62c96ec31d
 size 147770496

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a5f1d6b328858de3e31aa52666e6e68c00333a702d37f457a3e538c7f8024ed
 size 147770496

trainer_state.json CHANGED Viewed

@@ -1,199 +1,184 @@
 {
-  "best_global_step": 220,
-  "best_metric": 0.9410861134529114,
-  "best_model_checkpoint": "j05hr3d/SFT-Qwen2.5-Coder-1.5B_v1.1/checkpoint-220",
   "epoch": 3.0,
   "eval_steps": 20,
-  "global_step": 222,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.2711864406779661,
-      "grad_norm": 0.7084594964981079,
-      "learning_rate": 9.441860465116279e-05,
-      "loss": 1.194,
       "step": 20
     },
     {
-      "epoch": 0.2711864406779661,
-      "eval_loss": 1.133489727973938,
-      "eval_runtime": 8.8736,
-      "eval_samples_per_second": 7.325,
-      "eval_steps_per_second": 3.719,
       "step": 20
     },
     {
-      "epoch": 0.5423728813559322,
-      "grad_norm": 0.6419398784637451,
-      "learning_rate": 8.511627906976745e-05,
-      "loss": 0.8781,
       "step": 40
     },
     {
-      "epoch": 0.5423728813559322,
-      "eval_loss": 1.0605597496032715,
-      "eval_runtime": 8.8573,
-      "eval_samples_per_second": 7.339,
-      "eval_steps_per_second": 3.726,
       "step": 40
     },
     {
-      "epoch": 0.8135593220338984,
-      "grad_norm": 0.3213561773300171,
-      "learning_rate": 7.58139534883721e-05,
-      "loss": 0.971,
       "step": 60
     },
     {
-      "epoch": 0.8135593220338984,
-      "eval_loss": 1.0338528156280518,
-      "eval_runtime": 8.7742,
-      "eval_samples_per_second": 7.408,
-      "eval_steps_per_second": 3.761,
       "step": 60
     },
     {
-      "epoch": 1.0813559322033899,
-      "grad_norm": 0.424533873796463,
-      "learning_rate": 6.651162790697675e-05,
-      "loss": 0.8568,
       "step": 80
     },
     {
-      "epoch": 1.0813559322033899,
-      "eval_loss": 1.0086784362792969,
-      "eval_runtime": 8.7994,
-      "eval_samples_per_second": 7.387,
-      "eval_steps_per_second": 3.75,
       "step": 80
     },
     {
-      "epoch": 1.352542372881356,
-      "grad_norm": 0.8564242124557495,
-      "learning_rate": 5.720930232558139e-05,
-      "loss": 0.8531,
       "step": 100
     },
     {
-      "epoch": 1.352542372881356,
-      "eval_loss": 0.9888104796409607,
-      "eval_runtime": 8.8125,
-      "eval_samples_per_second": 7.376,
-      "eval_steps_per_second": 3.745,
       "step": 100
     },
     {
-      "epoch": 1.623728813559322,
-      "grad_norm": 1.0968314409255981,
-      "learning_rate": 4.790697674418605e-05,
-      "loss": 0.8971,
       "step": 120
     },
     {
-      "epoch": 1.623728813559322,
-      "eval_loss": 0.9693613648414612,
-      "eval_runtime": 8.8377,
-      "eval_samples_per_second": 7.355,
-      "eval_steps_per_second": 3.734,
       "step": 120
     },
     {
-      "epoch": 1.8949152542372882,
-      "grad_norm": 0.4130585491657257,
-      "learning_rate": 3.86046511627907e-05,
-      "loss": 0.8475,
       "step": 140
     },
     {
-      "epoch": 1.8949152542372882,
-      "eval_loss": 0.9588562846183777,
-      "eval_runtime": 8.8593,
-      "eval_samples_per_second": 7.337,
-      "eval_steps_per_second": 3.725,
       "step": 140
     },
     {
-      "epoch": 2.1627118644067798,
-      "grad_norm": 0.5262497663497925,
-      "learning_rate": 2.9302325581395352e-05,
-      "loss": 0.8708,
       "step": 160
     },
     {
-      "epoch": 2.1627118644067798,
-      "eval_loss": 0.952869176864624,
-      "eval_runtime": 8.8336,
-      "eval_samples_per_second": 7.358,
-      "eval_steps_per_second": 3.736,
       "step": 160
     },
     {
-      "epoch": 2.4338983050847456,
-      "grad_norm": 0.44273582100868225,
-      "learning_rate": 2e-05,
-      "loss": 0.7806,
       "step": 180
     },
     {
-      "epoch": 2.4338983050847456,
-      "eval_loss": 0.945322573184967,
-      "eval_runtime": 8.7983,
-      "eval_samples_per_second": 7.388,
-      "eval_steps_per_second": 3.751,
       "step": 180
     },
     {
-      "epoch": 2.705084745762712,
-      "grad_norm": 0.43839001655578613,
-      "learning_rate": 1.0697674418604651e-05,
-      "loss": 0.6945,
       "step": 200
     },
     {
-      "epoch": 2.705084745762712,
-      "eval_loss": 0.9455349445343018,
-      "eval_runtime": 8.8108,
-      "eval_samples_per_second": 7.377,
-      "eval_steps_per_second": 3.745,
       "step": 200
     },
-    {
-      "epoch": 2.976271186440678,
-      "grad_norm": 0.8535068035125732,
-      "learning_rate": 1.3953488372093023e-06,
-      "loss": 0.7384,
-      "step": 220
-    },
-    {
-      "epoch": 2.976271186440678,
-      "eval_loss": 0.9410861134529114,
-      "eval_runtime": 8.8196,
-      "eval_samples_per_second": 7.37,
-      "eval_steps_per_second": 3.742,
-      "step": 220
-    },
     {
       "epoch": 3.0,
-      "step": 222,
-      "total_flos": 2.5054811021408256e+16,
-      "train_loss": 0.8678630219923483,
-      "train_runtime": 981.2953,
-      "train_samples_per_second": 1.804,
-      "train_steps_per_second": 0.226
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.9410861134529114,
-      "eval_runtime": 8.8886,
-      "eval_samples_per_second": 7.313,
-      "eval_steps_per_second": 3.713,
-      "step": 222
     }
   ],
   "logging_steps": 20,
-  "max_steps": 222,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 20,
@@ -218,7 +203,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.5054811021408256e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 200,
+  "best_metric": 0.946416974067688,
+  "best_model_checkpoint": "j05hr3d/SFT-Qwen2.5-Coder-1.5B_v1.1/checkpoint-200",
   "epoch": 3.0,
   "eval_steps": 20,
+  "global_step": 219,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.27586206896551724,
+      "grad_norm": 0.7840086817741394,
+      "learning_rate": 9.433962264150944e-05,
+      "loss": 1.1739,
       "step": 20
     },
     {
+      "epoch": 0.27586206896551724,
+      "eval_loss": 1.1330275535583496,
+      "eval_runtime": 8.7827,
+      "eval_samples_per_second": 7.401,
+      "eval_steps_per_second": 3.757,
       "step": 20
     },
     {
+      "epoch": 0.5517241379310345,
+      "grad_norm": 0.5770975947380066,
+      "learning_rate": 8.49056603773585e-05,
+      "loss": 0.8905,
       "step": 40
     },
     {
+      "epoch": 0.5517241379310345,
+      "eval_loss": 1.0621660947799683,
+      "eval_runtime": 8.7027,
+      "eval_samples_per_second": 7.469,
+      "eval_steps_per_second": 3.792,
       "step": 40
     },
     {
+      "epoch": 0.8275862068965517,
+      "grad_norm": 0.3944004774093628,
+      "learning_rate": 7.547169811320755e-05,
+      "loss": 0.9773,
       "step": 60
     },
     {
+      "epoch": 0.8275862068965517,
+      "eval_loss": 1.030529260635376,
+      "eval_runtime": 8.7329,
+      "eval_samples_per_second": 7.443,
+      "eval_steps_per_second": 3.779,
       "step": 60
     },
     {
+      "epoch": 1.096551724137931,
+      "grad_norm": 0.6047775149345398,
+      "learning_rate": 6.60377358490566e-05,
+      "loss": 0.8092,
       "step": 80
     },
     {
+      "epoch": 1.096551724137931,
+      "eval_loss": 1.0048853158950806,
+      "eval_runtime": 8.7488,
+      "eval_samples_per_second": 7.43,
+      "eval_steps_per_second": 3.772,
       "step": 80
     },
     {
+      "epoch": 1.3724137931034484,
+      "grad_norm": 0.9171755313873291,
+      "learning_rate": 5.660377358490566e-05,
+      "loss": 0.7883,
       "step": 100
     },
     {
+      "epoch": 1.3724137931034484,
+      "eval_loss": 0.9816080927848816,
+      "eval_runtime": 8.7226,
+      "eval_samples_per_second": 7.452,
+      "eval_steps_per_second": 3.783,
       "step": 100
     },
     {
+      "epoch": 1.6482758620689655,
+      "grad_norm": 0.5142741799354553,
+      "learning_rate": 4.716981132075472e-05,
+      "loss": 0.7641,
       "step": 120
     },
     {
+      "epoch": 1.6482758620689655,
+      "eval_loss": 0.9676293730735779,
+      "eval_runtime": 8.7198,
+      "eval_samples_per_second": 7.454,
+      "eval_steps_per_second": 3.785,
       "step": 120
     },
     {
+      "epoch": 1.9241379310344828,
+      "grad_norm": 0.4295555353164673,
+      "learning_rate": 3.7735849056603776e-05,
+      "loss": 0.79,
       "step": 140
     },
     {
+      "epoch": 1.9241379310344828,
+      "eval_loss": 0.9590840935707092,
+      "eval_runtime": 8.6822,
+      "eval_samples_per_second": 7.487,
+      "eval_steps_per_second": 3.801,
       "step": 140
     },
     {
+      "epoch": 2.193103448275862,
+      "grad_norm": 0.7362737059593201,
+      "learning_rate": 2.830188679245283e-05,
+      "loss": 0.8975,
       "step": 160
     },
     {
+      "epoch": 2.193103448275862,
+      "eval_loss": 0.9538200497627258,
+      "eval_runtime": 8.7607,
+      "eval_samples_per_second": 7.42,
+      "eval_steps_per_second": 3.767,
       "step": 160
     },
     {
+      "epoch": 2.4689655172413794,
+      "grad_norm": 0.6581431031227112,
+      "learning_rate": 1.8867924528301888e-05,
+      "loss": 0.7537,
       "step": 180
     },
     {
+      "epoch": 2.4689655172413794,
+      "eval_loss": 0.9525668025016785,
+      "eval_runtime": 8.7426,
+      "eval_samples_per_second": 7.435,
+      "eval_steps_per_second": 3.775,
       "step": 180
     },
     {
+      "epoch": 2.7448275862068967,
+      "grad_norm": 0.583696722984314,
+      "learning_rate": 9.433962264150944e-06,
+      "loss": 0.6484,
       "step": 200
     },
     {
+      "epoch": 2.7448275862068967,
+      "eval_loss": 0.946416974067688,
+      "eval_runtime": 8.7773,
+      "eval_samples_per_second": 7.405,
+      "eval_steps_per_second": 3.76,
       "step": 200
     },
     {
       "epoch": 3.0,
+      "step": 219,
+      "total_flos": 2.0274076806230016e+16,
+      "train_loss": 0.8416161210569617,
+      "train_runtime": 794.3439,
+      "train_samples_per_second": 2.19,
+      "train_steps_per_second": 0.276
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.946416974067688,
+      "eval_runtime": 8.7789,
+      "eval_samples_per_second": 7.404,
+      "eval_steps_per_second": 3.759,
+      "step": 219
     }
   ],
   "logging_steps": 20,
+  "max_steps": 219,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 2.0274076806230016e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null