Model save

Browse files

Files changed (6) hide show

README.md +5 -5
adapter_model.safetensors +1 -1
all_results.json +4 -4
runs/May14_15-05-13_541c0b3e5c99/events.out.tfevents.1715699125.541c0b3e5c99.8018.2 +2 -2
train_results.json +4 -4
trainer_state.json +21 -21

README.md CHANGED Viewed

@@ -2,13 +2,13 @@
 license: apache-2.0
 library_name: peft
 tags:
-- alignment-handbook
 - trl
 - sft
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
 datasets:
-- HuggingFaceH4/ultrachat_200k
 model-index:
 - name: zephyr-7b-sft-qlora
   results: []
@@ -19,9 +19,9 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-sft-qlora
-This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the HuggingFaceH4/ultrachat_200k dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0181
 ## Model description
@@ -55,7 +55,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.9758        | 1.0   | 42   | 1.0181          |
 ### Framework versions

 license: apache-2.0
 library_name: peft
 tags:
 - trl
 - sft
 - generated_from_trainer
+- alignment-handbook
 base_model: mistralai/Mistral-7B-v0.1
 datasets:
+- generator
 model-index:
 - name: zephyr-7b-sft-qlora
   results: []
 # zephyr-7b-sft-qlora
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.0182
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.9758        | 1.0   | 42   | 1.0182          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41ccb51498f8845b621d5d36eea3d8eb2c81e08fc49e8f99acb12ab4b3a743f0
 size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4087837c1fbb724c2f8523b904cf61c2411363f6773675bf9f2afaf3af12896
 size 83946192

all_results.json CHANGED Viewed

@@ -6,9 +6,9 @@
     "eval_samples_per_second": 3.701,
     "eval_steps_per_second": 0.47,
     "total_flos": 2.935565656994611e+16,
-    "train_loss": 1.0142703553040822,
-    "train_runtime": 423.6882,
     "train_samples": 500,
-    "train_samples_per_second": 0.788,
-    "train_steps_per_second": 0.099
 }

     "eval_samples_per_second": 3.701,
     "eval_steps_per_second": 0.47,
     "total_flos": 2.935565656994611e+16,
+    "train_loss": 1.0143198739914667,
+    "train_runtime": 408.5529,
     "train_samples": 500,
+    "train_samples_per_second": 0.818,
+    "train_steps_per_second": 0.103
 }

runs/May14_15-05-13_541c0b3e5c99/events.out.tfevents.1715699125.541c0b3e5c99.8018.2 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a705a70bcfbf43744e0f054e3d4756c8f4b06f15e6ae33317543204662fca9de
-size 7122

 version https://git-lfs.github.com/spec/v1
+oid sha256:97c3d02c11c4b0f8a9ce754c39ece2c39a137b2b200e60f6ebce352cd5bce6a3
+size 7736

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.0,
     "total_flos": 2.935565656994611e+16,
-    "train_loss": 1.0142703553040822,
-    "train_runtime": 423.6882,
     "train_samples": 500,
-    "train_samples_per_second": 0.788,
-    "train_steps_per_second": 0.099
 }

 {
     "epoch": 1.0,
     "total_flos": 2.935565656994611e+16,
+    "train_loss": 1.0143198739914667,
+    "train_runtime": 408.5529,
     "train_samples": 500,
+    "train_samples_per_second": 0.818,
+    "train_steps_per_second": 0.103
 }

trainer_state.json CHANGED Viewed

@@ -12,88 +12,88 @@
       "epoch": 0.023809523809523808,
       "grad_norm": 0.35546875,
       "learning_rate": 4e-05,
-      "loss": 0.995,
       "step": 1
     },
     {
       "epoch": 0.11904761904761904,
       "grad_norm": 0.31640625,
       "learning_rate": 0.0002,
-      "loss": 1.11,
       "step": 5
     },
     {
       "epoch": 0.23809523809523808,
-      "grad_norm": 0.318359375,
       "learning_rate": 0.0001911228490388136,
-      "loss": 1.0479,
       "step": 10
     },
     {
       "epoch": 0.35714285714285715,
       "grad_norm": 0.267578125,
       "learning_rate": 0.00016606747233900815,
-      "loss": 0.9913,
       "step": 15
     },
     {
       "epoch": 0.47619047619047616,
-      "grad_norm": 0.26953125,
       "learning_rate": 0.00012928227712765504,
       "loss": 0.9396,
       "step": 20
     },
     {
       "epoch": 0.5952380952380952,
-      "grad_norm": 0.2314453125,
       "learning_rate": 8.729821802531212e-05,
-      "loss": 0.9968,
       "step": 25
     },
     {
       "epoch": 0.7142857142857143,
-      "grad_norm": 0.267578125,
       "learning_rate": 4.756927164427685e-05,
-      "loss": 1.0416,
       "step": 30
     },
     {
       "epoch": 0.8333333333333334,
-      "grad_norm": 0.251953125,
       "learning_rate": 1.7149035075615794e-05,
       "loss": 1.0231,
       "step": 35
     },
     {
       "epoch": 0.9523809523809523,
-      "grad_norm": 0.2099609375,
       "learning_rate": 1.4384089652291543e-06,
       "loss": 0.9758,
       "step": 40
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.0180646181106567,
-      "eval_runtime": 89.6858,
-      "eval_samples_per_second": 3.691,
-      "eval_steps_per_second": 0.468,
       "step": 42
     },
     {
       "epoch": 1.0,
       "step": 42,
       "total_flos": 2.935565656994611e+16,
-      "train_loss": 1.0142703553040822,
-      "train_runtime": 423.6882,
-      "train_samples_per_second": 0.788,
-      "train_steps_per_second": 0.099
     }
   ],
   "logging_steps": 5,
   "max_steps": 42,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
-  "save_steps": 100,
   "total_flos": 2.935565656994611e+16,
   "train_batch_size": 4,
   "trial_name": null,

       "epoch": 0.023809523809523808,
       "grad_norm": 0.35546875,
       "learning_rate": 4e-05,
+      "loss": 0.9948,
       "step": 1
     },
     {
       "epoch": 0.11904761904761904,
       "grad_norm": 0.31640625,
       "learning_rate": 0.0002,
+      "loss": 1.1099,
       "step": 5
     },
     {
       "epoch": 0.23809523809523808,
+      "grad_norm": 0.31640625,
       "learning_rate": 0.0001911228490388136,
+      "loss": 1.048,
       "step": 10
     },
     {
       "epoch": 0.35714285714285715,
       "grad_norm": 0.267578125,
       "learning_rate": 0.00016606747233900815,
+      "loss": 0.9912,
       "step": 15
     },
     {
       "epoch": 0.47619047619047616,
+      "grad_norm": 0.2578125,
       "learning_rate": 0.00012928227712765504,
       "loss": 0.9396,
       "step": 20
     },
     {
       "epoch": 0.5952380952380952,
+      "grad_norm": 0.2294921875,
       "learning_rate": 8.729821802531212e-05,
+      "loss": 0.997,
       "step": 25
     },
     {
       "epoch": 0.7142857142857143,
+      "grad_norm": 0.2421875,
       "learning_rate": 4.756927164427685e-05,
+      "loss": 1.0419,
       "step": 30
     },
     {
       "epoch": 0.8333333333333334,
+      "grad_norm": 0.248046875,
       "learning_rate": 1.7149035075615794e-05,
       "loss": 1.0231,
       "step": 35
     },
     {
       "epoch": 0.9523809523809523,
+      "grad_norm": 0.208984375,
       "learning_rate": 1.4384089652291543e-06,
       "loss": 0.9758,
       "step": 40
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.0181750059127808,
+      "eval_runtime": 88.1603,
+      "eval_samples_per_second": 3.755,
+      "eval_steps_per_second": 0.476,
       "step": 42
     },
     {
       "epoch": 1.0,
       "step": 42,
       "total_flos": 2.935565656994611e+16,
+      "train_loss": 1.0143198739914667,
+      "train_runtime": 408.5529,
+      "train_samples_per_second": 0.818,
+      "train_steps_per_second": 0.103
     }
   ],
   "logging_steps": 5,
   "max_steps": 42,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
+  "save_steps": 10,
   "total_flos": 2.935565656994611e+16,
   "train_batch_size": 4,
   "trial_name": null,