CharlesLi
/

mistral_cot_simplest_lora

@@ -3,7 +3,6 @@ library_name: peft
 license: apache-2.0
 base_model: mistralai/Mistral-7B-Instruct-v0.1
 tags:
-- alignment-handbook
 - trl
 - sft
 - generated_from_trainer
@@ -21,7 +20,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.1](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1) on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6954
 ## Model description
@@ -52,17 +51,20 @@ The following hyperparameters were used during training:
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 10
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss |
-|:-------------:|:-----:|:----:|:---------------:|
-| 1.9369        | 1.0   | 2    | 0.9818          |
-| 1.9369        | 2.0   | 4    | 0.7695          |
-| 1.2233        | 3.0   | 6    | 0.7315          |
-| 1.2233        | 4.0   | 8    | 0.7013          |
-| 0.8937        | 5.0   | 10   | 0.6954          |
 ### Framework versions

 license: apache-2.0
 base_model: mistralai/Mistral-7B-Instruct-v0.1
 tags:
 - trl
 - sft
 - generated_from_trainer
 This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.1](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6346
 ## Model description
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 15
 ### Training results
+| Training Loss | Epoch  | Step | Validation Loss |
+|:-------------:|:------:|:----:|:---------------:|
+| 1.9369        | 1.0    | 2    | 0.9818          |
+| 1.9369        | 2.0    | 4    | 0.7654          |
+| 1.2187        | 3.0    | 6    | 0.7218          |
+| 1.2187        | 4.0    | 8    | 0.6669          |
+| 0.8351        | 5.0    | 10   | 0.6480          |
+| 0.8351        | 6.0    | 12   | 0.6381          |
+| 0.8351        | 7.0    | 14   | 0.6353          |
+| 0.7893        | 7.6667 | 15   | 0.6346          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,14 +1,9 @@
 {
-    "epoch": 5.0,
-    "eval_loss": 0.6953997015953064,
-    "eval_runtime": 0.8608,
-    "eval_samples": 20,
-    "eval_samples_per_second": 3.485,
-    "eval_steps_per_second": 1.162,
-    "total_flos": 5536776290566144.0,
-    "train_loss": 1.1298380970954895,
-    "train_runtime": 63.6283,
     "train_samples": 100,
-    "train_samples_per_second": 3.143,
-    "train_steps_per_second": 0.157
 }

 {
+    "epoch": 7.666666666666667,
+    "total_flos": 8305281071054848.0,
+    "train_loss": 0.9955663760503133,
+    "train_runtime": 87.8629,
     "train_samples": 100,
+    "train_samples_per_second": 3.414,
+    "train_steps_per_second": 0.171
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 5.0,
-    "total_flos": 5536776290566144.0,
-    "train_loss": 1.1298380970954895,
-    "train_runtime": 63.6283,
     "train_samples": 100,
-    "train_samples_per_second": 3.143,
-    "train_steps_per_second": 0.157
 }

 {
+    "epoch": 7.666666666666667,
+    "total_flos": 8305281071054848.0,
+    "train_loss": 0.9955663760503133,
+    "train_runtime": 87.8629,
     "train_samples": 100,
+    "train_samples_per_second": 3.414,
+    "train_steps_per_second": 0.171
 }

trainer_state.json CHANGED Viewed

@@ -1,88 +1,119 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.0,
   "eval_steps": 500,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.6666666666666666,
-      "grad_norm": 0.8433068619524136,
-      "learning_rate": 0.0002,
       "loss": 1.9369,
       "step": 1
     },
     {
       "epoch": 1.0,
       "eval_loss": 0.9818150401115417,
-      "eval_runtime": 0.7579,
-      "eval_samples_per_second": 3.958,
-      "eval_steps_per_second": 1.319,
       "step": 2
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.7694724202156067,
-      "eval_runtime": 0.8108,
-      "eval_samples_per_second": 3.7,
-      "eval_steps_per_second": 1.233,
       "step": 4
     },
     {
       "epoch": 2.6666666666666665,
-      "grad_norm": 0.39134348931417895,
-      "learning_rate": 0.00011736481776669306,
-      "loss": 1.2233,
       "step": 5
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.7314517498016357,
-      "eval_runtime": 0.7623,
-      "eval_samples_per_second": 3.935,
-      "eval_steps_per_second": 1.312,
       "step": 6
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.7012591361999512,
-      "eval_runtime": 0.8133,
-      "eval_samples_per_second": 3.688,
-      "eval_steps_per_second": 1.229,
       "step": 8
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.27545457961569547,
-      "learning_rate": 0.0,
-      "loss": 0.8937,
       "step": 10
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.6953997015953064,
-      "eval_runtime": 0.8422,
-      "eval_samples_per_second": 3.562,
-      "eval_steps_per_second": 1.187,
       "step": 10
     },
     {
-      "epoch": 5.0,
-      "step": 10,
-      "total_flos": 5536776290566144.0,
-      "train_loss": 1.1298380970954895,
-      "train_runtime": 63.6283,
-      "train_samples_per_second": 3.143,
-      "train_steps_per_second": 0.157
     }
   ],
   "logging_steps": 5,
-  "max_steps": 10,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -96,7 +127,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5536776290566144.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.666666666666667,
   "eval_steps": 500,
+  "global_step": 15,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.6666666666666666,
+      "grad_norm": 0.8434562800389038,
+      "learning_rate": 0.0001,
       "loss": 1.9369,
       "step": 1
     },
     {
       "epoch": 1.0,
       "eval_loss": 0.9818150401115417,
+      "eval_runtime": 0.7574,
+      "eval_samples_per_second": 3.961,
+      "eval_steps_per_second": 1.32,
       "step": 2
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.7653645873069763,
+      "eval_runtime": 0.812,
+      "eval_samples_per_second": 3.695,
+      "eval_steps_per_second": 1.232,
       "step": 4
     },
     {
       "epoch": 2.6666666666666665,
+      "grad_norm": 0.38835903193953863,
+      "learning_rate": 0.00017485107481711012,
+      "loss": 1.2187,
       "step": 5
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.7217903137207031,
+      "eval_runtime": 0.7628,
+      "eval_samples_per_second": 3.933,
+      "eval_steps_per_second": 1.311,
       "step": 6
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.6669471859931946,
+      "eval_runtime": 0.816,
+      "eval_samples_per_second": 3.677,
+      "eval_steps_per_second": 1.226,
       "step": 8
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.2836544204991338,
+      "learning_rate": 6.453951129574644e-05,
+      "loss": 0.8351,
       "step": 10
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.648018479347229,
+      "eval_runtime": 0.7628,
+      "eval_samples_per_second": 3.933,
+      "eval_steps_per_second": 1.311,
       "step": 10
     },
     {
+      "epoch": 6.0,
+      "eval_loss": 0.6381418704986572,
+      "eval_runtime": 0.8152,
+      "eval_samples_per_second": 3.68,
+      "eval_steps_per_second": 1.227,
+      "step": 12
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.6352726221084595,
+      "eval_runtime": 0.7641,
+      "eval_samples_per_second": 3.926,
+      "eval_steps_per_second": 1.309,
+      "step": 14
+    },
+    {
+      "epoch": 7.666666666666667,
+      "grad_norm": 0.2657040105968121,
+      "learning_rate": 0.0,
+      "loss": 0.7893,
+      "step": 15
+    },
+    {
+      "epoch": 7.666666666666667,
+      "eval_loss": 0.634563684463501,
+      "eval_runtime": 0.845,
+      "eval_samples_per_second": 3.55,
+      "eval_steps_per_second": 1.183,
+      "step": 15
+    },
+    {
+      "epoch": 7.666666666666667,
+      "step": 15,
+      "total_flos": 8305281071054848.0,
+      "train_loss": 0.9955663760503133,
+      "train_runtime": 87.8629,
+      "train_samples_per_second": 3.414,
+      "train_steps_per_second": 0.171
     }
   ],
   "logging_steps": 5,
+  "max_steps": 15,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 8305281071054848.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null