Model save

Browse files

Files changed (7) hide show

README.md +3 -3
adapter_model.safetensors +1 -1
all_results.json +8 -8
config_argument.yaml +1 -1
eval_results.json +4 -4
train_results.json +4 -4
trainer_state.json +55 -55

README.md CHANGED Viewed

@@ -14,7 +14,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [hllj/mistral-vi-math](https://huggingface.co/hllj/mistral-vi-math) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5087
 ## Model description
@@ -33,7 +33,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 5e-05
 - train_batch_size: 4
 - eval_batch_size: 4
 - seed: 42
@@ -48,7 +48,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.3103        | 1.27  | 200  | 0.5224          |
 ### Framework versions

 This model is a fine-tuned version of [hllj/mistral-vi-math](https://huggingface.co/hllj/mistral-vi-math) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5062
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 3e-05
 - train_batch_size: 4
 - eval_batch_size: 4
 - seed: 42
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.3374        | 1.27  | 200  | 0.5180          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c25760b21a9d3724c95a2655f4e712bc426ea7d6cf3771f3a4c590d72513ee16
 size 872450448

 version https://git-lfs.github.com/spec/v1
+oid sha256:e53a9e6b7e21140982d001c013b6966e19608a7186e08561bc84d41e56f14f9e
 size 872450448

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 1.39,
-    "eval_loss": 0.508748471736908,
-    "eval_runtime": 6.855,
     "eval_samples": 140,
-    "eval_samples_per_second": 20.423,
-    "eval_steps_per_second": 5.106,
-    "train_loss": 0.40742398091291976,
-    "train_runtime": 500.0224,
     "train_samples": 1196,
-    "train_samples_per_second": 4.784,
-    "train_steps_per_second": 1.196
 }

 {
     "epoch": 1.39,
+    "eval_loss": 0.5062369704246521,
+    "eval_runtime": 6.8908,
     "eval_samples": 140,
+    "eval_samples_per_second": 20.317,
+    "eval_steps_per_second": 5.079,
+    "train_loss": 0.4328786596908408,
+    "train_runtime": 504.1662,
     "train_samples": 1196,
+    "train_samples_per_second": 4.744,
+    "train_steps_per_second": 1.186
 }

config_argument.yaml CHANGED Viewed

@@ -13,7 +13,7 @@ gradient_checkpointing_kwargs:
   use_reentrant: false
 hub_model_id: hllj/sft-mistral-v1-original-data
 hub_strategy: every_save
-learning_rate: 5.0e-05
 log_level: info
 logging_first_step: true
 logging_steps: 10

   use_reentrant: false
 hub_model_id: hllj/sft-mistral-v1-original-data
 hub_strategy: every_save
+learning_rate: 3.0e-05
 log_level: info
 logging_first_step: true
 logging_steps: 10

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.39,
-    "eval_loss": 0.508748471736908,
-    "eval_runtime": 6.855,
     "eval_samples": 140,
-    "eval_samples_per_second": 20.423,
-    "eval_steps_per_second": 5.106
 }

 {
     "epoch": 1.39,
+    "eval_loss": 0.5062369704246521,
+    "eval_runtime": 6.8908,
     "eval_samples": 140,
+    "eval_samples_per_second": 20.317,
+    "eval_steps_per_second": 5.079
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.39,
-    "train_loss": 0.40742398091291976,
-    "train_runtime": 500.0224,
     "train_samples": 1196,
-    "train_samples_per_second": 4.784,
-    "train_steps_per_second": 1.196
 }

 {
     "epoch": 1.39,
+    "train_loss": 0.4328786596908408,
+    "train_runtime": 504.1662,
     "train_samples": 1196,
+    "train_samples_per_second": 4.744,
+    "train_steps_per_second": 1.186
 }

trainer_state.json CHANGED Viewed

@@ -10,164 +10,164 @@
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 1.6666666666666667e-06,
       "loss": 0.8728,
       "step": 1
     },
     {
       "epoch": 0.03,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.8168,
       "step": 10
     },
     {
       "epoch": 0.07,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.6667,
       "step": 20
     },
     {
       "epoch": 0.1,
-      "learning_rate": 5e-05,
-      "loss": 0.5432,
       "step": 30
     },
     {
       "epoch": 0.13,
-      "learning_rate": 4.996177016978633e-05,
-      "loss": 0.4616,
       "step": 40
     },
     {
       "epoch": 0.17,
-      "learning_rate": 4.984719760073877e-05,
-      "loss": 0.4572,
       "step": 50
     },
     {
       "epoch": 0.2,
-      "learning_rate": 4.9656632700046265e-05,
-      "loss": 0.4327,
       "step": 60
     },
     {
       "epoch": 0.23,
-      "learning_rate": 4.9390658288812675e-05,
-      "loss": 0.401,
       "step": 70
     },
     {
       "epoch": 0.27,
-      "learning_rate": 4.90500878195646e-05,
-      "loss": 0.4179,
       "step": 80
     },
     {
       "epoch": 0.3,
-      "learning_rate": 4.8635962888399254e-05,
-      "loss": 0.4091,
       "step": 90
     },
     {
       "epoch": 0.33,
-      "learning_rate": 4.820140360457198e-05,
-      "loss": 0.4178,
       "step": 100
     },
     {
       "epoch": 0.37,
-      "learning_rate": 4.7651197369406566e-05,
-      "loss": 0.4046,
       "step": 110
     },
     {
       "epoch": 1.01,
-      "learning_rate": 4.703171501987564e-05,
-      "loss": 0.396,
       "step": 120
     },
     {
       "epoch": 1.04,
-      "learning_rate": 4.6344851172382647e-05,
-      "loss": 0.3232,
       "step": 130
     },
     {
       "epoch": 1.07,
-      "learning_rate": 4.5592706521989154e-05,
-      "loss": 0.3301,
       "step": 140
     },
     {
       "epoch": 1.11,
-      "learning_rate": 4.477758141767761e-05,
-      "loss": 0.333,
       "step": 150
     },
     {
       "epoch": 1.14,
-      "learning_rate": 4.390196882699528e-05,
-      "loss": 0.3361,
       "step": 160
     },
     {
       "epoch": 1.17,
-      "learning_rate": 4.296854671159614e-05,
-      "loss": 0.3169,
       "step": 170
     },
     {
       "epoch": 1.21,
-      "learning_rate": 4.198016983699933e-05,
-      "loss": 0.3168,
       "step": 180
     },
     {
       "epoch": 1.24,
-      "learning_rate": 4.0939861041613107e-05,
-      "loss": 0.3351,
       "step": 190
     },
     {
       "epoch": 1.27,
-      "learning_rate": 3.9850801991726846e-05,
-      "loss": 0.3103,
       "step": 200
     },
     {
       "epoch": 1.27,
-      "eval_loss": 0.5224232077598572,
-      "eval_runtime": 6.8718,
-      "eval_samples_per_second": 20.373,
-      "eval_steps_per_second": 5.093,
       "step": 200
     },
     {
       "epoch": 1.31,
-      "learning_rate": 3.871632345074615e-05,
-      "loss": 0.3372,
       "step": 210
     },
     {
       "epoch": 1.34,
-      "learning_rate": 3.753989509243122e-05,
-      "loss": 0.3065,
       "step": 220
     },
     {
       "epoch": 1.37,
-      "learning_rate": 3.632511488929382e-05,
-      "loss": 0.3254,
       "step": 230
     },
     {
       "epoch": 1.39,
       "step": 236,
       "total_flos": 4.241630717752115e+16,
-      "train_loss": 0.40742398091291976,
-      "train_runtime": 500.0224,
-      "train_samples_per_second": 4.784,
-      "train_steps_per_second": 1.196
     }
   ],
   "logging_steps": 10,

   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 1e-06,
       "loss": 0.8728,
       "step": 1
     },
     {
       "epoch": 0.03,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.8297,
       "step": 10
     },
     {
       "epoch": 0.07,
+      "learning_rate": 1.9999999999999998e-05,
+      "loss": 0.7256,
       "step": 20
     },
     {
       "epoch": 0.1,
+      "learning_rate": 3e-05,
+      "loss": 0.6035,
       "step": 30
     },
     {
       "epoch": 0.13,
+      "learning_rate": 2.99770621018718e-05,
+      "loss": 0.4872,
       "step": 40
     },
     {
       "epoch": 0.17,
+      "learning_rate": 2.990831856044326e-05,
+      "loss": 0.476,
       "step": 50
     },
     {
       "epoch": 0.2,
+      "learning_rate": 2.979397962002776e-05,
+      "loss": 0.4522,
       "step": 60
     },
     {
       "epoch": 0.23,
+      "learning_rate": 2.9634394973287605e-05,
+      "loss": 0.4198,
       "step": 70
     },
     {
       "epoch": 0.27,
+      "learning_rate": 2.943005269173876e-05,
+      "loss": 0.434,
       "step": 80
     },
     {
       "epoch": 0.3,
+      "learning_rate": 2.9181577733039554e-05,
+      "loss": 0.4245,
       "step": 90
     },
     {
       "epoch": 0.33,
+      "learning_rate": 2.8889730029628665e-05,
+      "loss": 0.4332,
       "step": 100
     },
     {
       "epoch": 0.37,
+      "learning_rate": 2.8555402164558058e-05,
+      "loss": 0.418,
       "step": 110
     },
     {
       "epoch": 1.01,
+      "learning_rate": 2.8179616641629125e-05,
+      "loss": 0.4121,
       "step": 120
     },
     {
       "epoch": 1.04,
+      "learning_rate": 2.776352275818093e-05,
+      "loss": 0.3505,
       "step": 130
     },
     {
       "epoch": 1.07,
+      "learning_rate": 2.730839309009485e-05,
+      "loss": 0.3558,
       "step": 140
     },
     {
       "epoch": 1.11,
+      "learning_rate": 2.6815619599765775e-05,
+      "loss": 0.3613,
       "step": 150
     },
     {
       "epoch": 1.14,
+      "learning_rate": 2.628670937894323e-05,
+      "loss": 0.3646,
       "step": 160
     },
     {
       "epoch": 1.17,
+      "learning_rate": 2.572328003946244e-05,
+      "loss": 0.3456,
       "step": 170
     },
     {
       "epoch": 1.21,
+      "learning_rate": 2.512705476596226e-05,
+      "loss": 0.3435,
       "step": 180
     },
     {
       "epoch": 1.24,
+      "learning_rate": 2.4499857045720705e-05,
+      "loss": 0.3614,
       "step": 190
     },
     {
       "epoch": 1.27,
+      "learning_rate": 2.3843605091726184e-05,
+      "loss": 0.3374,
       "step": 200
     },
     {
       "epoch": 1.27,
+      "eval_loss": 0.5180116295814514,
+      "eval_runtime": 6.8175,
+      "eval_samples_per_second": 20.535,
+      "eval_steps_per_second": 5.134,
       "step": 200
     },
     {
       "epoch": 1.31,
+      "learning_rate": 2.3160305976040984e-05,
+      "loss": 0.3647,
       "step": 210
     },
     {
       "epoch": 1.34,
+      "learning_rate": 2.2452049491399336e-05,
+      "loss": 0.3271,
       "step": 220
     },
     {
       "epoch": 1.37,
+      "learning_rate": 2.1721001759813677e-05,
+      "loss": 0.3519,
       "step": 230
     },
     {
       "epoch": 1.39,
       "step": 236,
       "total_flos": 4.241630717752115e+16,
+      "train_loss": 0.4328786596908408,
+      "train_runtime": 504.1662,
+      "train_samples_per_second": 4.744,
+      "train_steps_per_second": 1.186
     }
   ],
   "logging_steps": 10,