CharlesLi
/

mistral_cot_simplest_qlora

@@ -3,7 +3,6 @@ library_name: peft
 license: apache-2.0
 base_model: mistralai/Mistral-7B-Instruct-v0.1
 tags:
-- alignment-handbook
 - trl
 - sft
 - generated_from_trainer
@@ -21,7 +20,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.1](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1) on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.8974
 ## Model description
@@ -50,13 +49,16 @@ The following hyperparameters were used during training:
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 1
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.8904        | 0.8   | 2    | 0.8974          |
 ### Framework versions

 license: apache-2.0
 base_model: mistralai/Mistral-7B-Instruct-v0.1
 tags:
 - trl
 - sft
 - generated_from_trainer
 This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.1](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.7150
 ## Model description
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 5
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.8904        | 1.0   | 3    | 0.8287          |
+| 1.4592        | 2.0   | 6    | 0.7422          |
+| 1.4592        | 3.0   | 9    | 0.7162          |
+| 1.0477        | 3.4   | 10   | 0.7150          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,14 +1,9 @@
 {
-    "epoch": 0.8,
-    "eval_loss": 0.8973897099494934,
-    "eval_runtime": 0.9334,
-    "eval_samples": 20,
-    "eval_samples_per_second": 3.214,
-    "eval_steps_per_second": 1.071,
-    "total_flos": 1406258997362688.0,
-    "train_loss": 1.9418977499008179,
-    "train_runtime": 22.4337,
     "train_samples": 100,
-    "train_samples_per_second": 0.892,
-    "train_steps_per_second": 0.089
 }

 {
+    "epoch": 3.4,
+    "total_flos": 5976600671682560.0,
+    "train_loss": 1.2965626955032348,
+    "train_runtime": 74.9653,
     "train_samples": 100,
+    "train_samples_per_second": 1.334,
+    "train_steps_per_second": 0.133
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 0.8,
-    "total_flos": 1406258997362688.0,
-    "train_loss": 1.9418977499008179,
-    "train_runtime": 22.4337,
     "train_samples": 100,
-    "train_samples_per_second": 0.892,
-    "train_steps_per_second": 0.089
 }

 {
+    "epoch": 3.4,
+    "total_flos": 5976600671682560.0,
+    "train_loss": 1.2965626955032348,
+    "train_runtime": 74.9653,
     "train_samples": 100,
+    "train_samples_per_second": 1.334,
+    "train_steps_per_second": 0.133
 }

trainer_state.json CHANGED Viewed

@@ -1,42 +1,80 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8,
   "eval_steps": 500,
-  "global_step": 2,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.4,
-      "grad_norm": 1.2139586210250854,
       "learning_rate": 0.0002,
       "loss": 1.8904,
       "step": 1
     },
     {
-      "epoch": 0.8,
-      "eval_loss": 0.8973897099494934,
-      "eval_runtime": 0.919,
-      "eval_samples_per_second": 3.264,
-      "eval_steps_per_second": 1.088,
-      "step": 2
     },
     {
-      "epoch": 0.8,
-      "step": 2,
-      "total_flos": 1406258997362688.0,
-      "train_loss": 1.9418977499008179,
-      "train_runtime": 22.4337,
-      "train_samples_per_second": 0.892,
-      "train_steps_per_second": 0.089
     }
   ],
   "logging_steps": 5,
-  "max_steps": 2,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -50,7 +88,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1406258997362688.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.4,
   "eval_steps": 500,
+  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.4,
+      "grad_norm": 1.2139655351638794,
       "learning_rate": 0.0002,
       "loss": 1.8904,
       "step": 1
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 0.8287366032600403,
+      "eval_runtime": 0.886,
+      "eval_samples_per_second": 3.386,
+      "eval_steps_per_second": 1.129,
+      "step": 3
     },
     {
+      "epoch": 1.8,
+      "grad_norm": 0.7967442274093628,
+      "learning_rate": 0.00011736481776669306,
+      "loss": 1.4592,
+      "step": 5
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.7421586513519287,
+      "eval_runtime": 0.8866,
+      "eval_samples_per_second": 3.384,
+      "eval_steps_per_second": 1.128,
+      "step": 6
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.7162426114082336,
+      "eval_runtime": 0.8865,
+      "eval_samples_per_second": 3.384,
+      "eval_steps_per_second": 1.128,
+      "step": 9
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 0.5492648482322693,
+      "learning_rate": 0.0,
+      "loss": 1.0477,
+      "step": 10
+    },
+    {
+      "epoch": 3.4,
+      "eval_loss": 0.7149809002876282,
+      "eval_runtime": 0.9232,
+      "eval_samples_per_second": 3.25,
+      "eval_steps_per_second": 1.083,
+      "step": 10
+    },
+    {
+      "epoch": 3.4,
+      "step": 10,
+      "total_flos": 5976600671682560.0,
+      "train_loss": 1.2965626955032348,
+      "train_runtime": 74.9653,
+      "train_samples_per_second": 1.334,
+      "train_steps_per_second": 0.133
     }
   ],
   "logging_steps": 5,
+  "max_steps": 10,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 5976600671682560.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null