Model save

Browse files

Files changed (4) hide show

README.md +5 -5
all_results.json +4 -4
train_results.json +4 -4
trainer_state.json +76 -76

README.md CHANGED Viewed

@@ -20,7 +20,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/gemma-2-2b-it](https://huggingface.co/google/gemma-2-2b-it) on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9842
 ## Model description
@@ -39,7 +39,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 2e-05
 - train_batch_size: 4
 - eval_batch_size: 4
 - seed: 42
@@ -57,9 +57,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 1.3036        | 0.9180 | 7    | 1.2136          |
-| 0.9604        | 1.9672 | 15   | 0.9997          |
-| 0.8292        | 2.7541 | 21   | 0.9842          |
 ### Framework versions

 This model is a fine-tuned version of [google/gemma-2-2b-it](https://huggingface.co/google/gemma-2-2b-it) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.0122
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 5e-05
 - train_batch_size: 4
 - eval_batch_size: 4
 - seed: 42
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 1.39          | 0.9180 | 7    | 1.3376          |
+| 0.9541        | 1.9672 | 15   | 1.0215          |
+| 0.745         | 2.7541 | 21   | 1.0122          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 2.7540983606557377,
     "total_flos": 3971544514560.0,
-    "train_loss": 1.268857215132032,
-    "train_runtime": 396.9611,
     "train_samples": 726,
-    "train_samples_per_second": 3.673,
-    "train_steps_per_second": 0.053
 }

 {
     "epoch": 2.7540983606557377,
     "total_flos": 3971544514560.0,
+    "train_loss": 1.29271438008263,
+    "train_runtime": 605.3238,
     "train_samples": 726,
+    "train_samples_per_second": 2.409,
+    "train_steps_per_second": 0.035
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 2.7540983606557377,
     "total_flos": 3971544514560.0,
-    "train_loss": 1.268857215132032,
-    "train_runtime": 396.9611,
     "train_samples": 726,
-    "train_samples_per_second": 3.673,
-    "train_steps_per_second": 0.053
 }

 {
     "epoch": 2.7540983606557377,
     "total_flos": 3971544514560.0,
+    "train_loss": 1.29271438008263,
+    "train_runtime": 605.3238,
     "train_samples": 726,
+    "train_samples_per_second": 2.409,
+    "train_steps_per_second": 0.035
 }

trainer_state.json CHANGED Viewed

@@ -10,183 +10,183 @@
   "log_history": [
     {
       "epoch": 0.13114754098360656,
-      "grad_norm": 39.05130772271081,
-      "learning_rate": 6.666666666666667e-06,
       "loss": 2.4376,
       "step": 1
     },
     {
       "epoch": 0.26229508196721313,
-      "grad_norm": 39.015973031999486,
-      "learning_rate": 1.3333333333333333e-05,
       "loss": 2.4339,
       "step": 2
     },
     {
       "epoch": 0.39344262295081966,
-      "grad_norm": 15.152312064538828,
-      "learning_rate": 2e-05,
-      "loss": 1.8888,
       "step": 3
     },
     {
       "epoch": 0.5245901639344263,
-      "grad_norm": 29.273723674546083,
-      "learning_rate": 1.9848077530122083e-05,
-      "loss": 1.8725,
       "step": 4
     },
     {
       "epoch": 0.6557377049180327,
-      "grad_norm": 11.667536919946288,
-      "learning_rate": 1.9396926207859085e-05,
-      "loss": 1.7797,
       "step": 5
     },
     {
       "epoch": 0.7868852459016393,
-      "grad_norm": 5.696635279505377,
-      "learning_rate": 1.866025403784439e-05,
-      "loss": 1.4526,
       "step": 6
     },
     {
       "epoch": 0.9180327868852459,
-      "grad_norm": 6.1474254223603655,
-      "learning_rate": 1.766044443118978e-05,
-      "loss": 1.3036,
       "step": 7
     },
     {
       "epoch": 0.9180327868852459,
-      "eval_loss": 1.2136186361312866,
-      "eval_runtime": 9.285,
-      "eval_samples_per_second": 20.678,
-      "eval_steps_per_second": 2.585,
       "step": 7
     },
     {
       "epoch": 1.0491803278688525,
-      "grad_norm": 3.8441152970886963,
-      "learning_rate": 1.6427876096865394e-05,
-      "loss": 1.193,
       "step": 8
     },
     {
       "epoch": 1.180327868852459,
-      "grad_norm": 3.216661811188678,
-      "learning_rate": 1.5000000000000002e-05,
-      "loss": 1.1161,
       "step": 9
     },
     {
       "epoch": 1.3114754098360657,
-      "grad_norm": 2.783161962423741,
-      "learning_rate": 1.342020143325669e-05,
-      "loss": 1.0656,
       "step": 10
     },
     {
       "epoch": 1.4426229508196722,
-      "grad_norm": 2.6684579204452517,
-      "learning_rate": 1.1736481776669307e-05,
-      "loss": 1.0333,
       "step": 11
     },
     {
       "epoch": 1.5737704918032787,
-      "grad_norm": 2.1293181551342286,
-      "learning_rate": 1e-05,
-      "loss": 1.0045,
       "step": 12
     },
     {
       "epoch": 1.7049180327868854,
-      "grad_norm": 1.7349053966220533,
-      "learning_rate": 8.263518223330698e-06,
-      "loss": 0.971,
       "step": 13
     },
     {
       "epoch": 1.8360655737704918,
-      "grad_norm": 1.708605250889302,
-      "learning_rate": 6.579798566743314e-06,
-      "loss": 0.9746,
       "step": 14
     },
     {
       "epoch": 1.9672131147540983,
-      "grad_norm": 1.565922544143404,
-      "learning_rate": 5.000000000000003e-06,
-      "loss": 0.9604,
       "step": 15
     },
     {
       "epoch": 1.9672131147540983,
-      "eval_loss": 0.9996973872184753,
-      "eval_runtime": 9.0907,
-      "eval_samples_per_second": 21.121,
-      "eval_steps_per_second": 2.64,
       "step": 15
     },
     {
       "epoch": 2.098360655737705,
-      "grad_norm": 1.4703758003535075,
-      "learning_rate": 3.5721239031346067e-06,
-      "loss": 0.9006,
       "step": 16
     },
     {
       "epoch": 2.2295081967213113,
-      "grad_norm": 1.4546503498400736,
-      "learning_rate": 2.339555568810221e-06,
-      "loss": 0.8672,
       "step": 17
     },
     {
       "epoch": 2.360655737704918,
-      "grad_norm": 1.333908386274604,
-      "learning_rate": 1.339745962155613e-06,
-      "loss": 0.8603,
       "step": 18
     },
     {
       "epoch": 2.4918032786885247,
-      "grad_norm": 1.2309918853415422,
-      "learning_rate": 6.030737921409169e-07,
-      "loss": 0.8533,
       "step": 19
     },
     {
       "epoch": 2.6229508196721314,
-      "grad_norm": 1.187570177680188,
-      "learning_rate": 1.519224698779198e-07,
-      "loss": 0.8482,
       "step": 20
     },
     {
       "epoch": 2.7540983606557377,
-      "grad_norm": 1.1796688649183953,
       "learning_rate": 0.0,
-      "loss": 0.8292,
       "step": 21
     },
     {
       "epoch": 2.7540983606557377,
-      "eval_loss": 0.9841778874397278,
-      "eval_runtime": 9.0575,
-      "eval_samples_per_second": 21.198,
-      "eval_steps_per_second": 2.65,
       "step": 21
     },
     {
       "epoch": 2.7540983606557377,
       "step": 21,
       "total_flos": 3971544514560.0,
-      "train_loss": 1.268857215132032,
-      "train_runtime": 396.9611,
-      "train_samples_per_second": 3.673,
-      "train_steps_per_second": 0.053
     }
   ],
   "logging_steps": 1,

   "log_history": [
     {
       "epoch": 0.13114754098360656,
+      "grad_norm": 39.05072126696723,
+      "learning_rate": 1.6666666666666667e-05,
       "loss": 2.4376,
       "step": 1
     },
     {
       "epoch": 0.26229508196721313,
+      "grad_norm": 39.016375245765836,
+      "learning_rate": 3.3333333333333335e-05,
       "loss": 2.4339,
       "step": 2
     },
     {
       "epoch": 0.39344262295081966,
+      "grad_norm": 32.661267867985714,
+      "learning_rate": 5e-05,
+      "loss": 1.9547,
       "step": 3
     },
     {
       "epoch": 0.5245901639344263,
+      "grad_norm": 13.966533792864706,
+      "learning_rate": 4.962019382530521e-05,
+      "loss": 2.0498,
       "step": 4
     },
     {
       "epoch": 0.6557377049180327,
+      "grad_norm": 16.547294305437767,
+      "learning_rate": 4.849231551964771e-05,
+      "loss": 1.9131,
       "step": 5
     },
     {
       "epoch": 0.7868852459016393,
+      "grad_norm": 7.978971381469852,
+      "learning_rate": 4.665063509461097e-05,
+      "loss": 1.5865,
       "step": 6
     },
     {
       "epoch": 0.9180327868852459,
+      "grad_norm": 4.596921803156147,
+      "learning_rate": 4.415111107797445e-05,
+      "loss": 1.39,
       "step": 7
     },
     {
       "epoch": 0.9180327868852459,
+      "eval_loss": 1.3376487493515015,
+      "eval_runtime": 17.0154,
+      "eval_samples_per_second": 11.284,
+      "eval_steps_per_second": 1.41,
       "step": 7
     },
     {
       "epoch": 1.0491803278688525,
+      "grad_norm": 4.90093363719236,
+      "learning_rate": 4.1069690242163484e-05,
+      "loss": 1.2949,
       "step": 8
     },
     {
       "epoch": 1.180327868852459,
+      "grad_norm": 4.892431290254693,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.2567,
       "step": 9
     },
     {
       "epoch": 1.3114754098360657,
+      "grad_norm": 2.793814810608094,
+      "learning_rate": 3.355050358314172e-05,
+      "loss": 1.1411,
       "step": 10
     },
     {
       "epoch": 1.4426229508196722,
+      "grad_norm": 2.132448746823284,
+      "learning_rate": 2.9341204441673266e-05,
+      "loss": 1.0593,
       "step": 11
     },
     {
       "epoch": 1.5737704918032787,
+      "grad_norm": 1.6858973805764268,
+      "learning_rate": 2.5e-05,
+      "loss": 1.0091,
       "step": 12
     },
     {
       "epoch": 1.7049180327868854,
+      "grad_norm": 2.079280289342001,
+      "learning_rate": 2.0658795558326743e-05,
+      "loss": 0.977,
       "step": 13
     },
     {
       "epoch": 1.8360655737704918,
+      "grad_norm": 1.5764028928084828,
+      "learning_rate": 1.6449496416858284e-05,
+      "loss": 0.9782,
       "step": 14
     },
     {
       "epoch": 1.9672131147540983,
+      "grad_norm": 1.3883568841727698,
+      "learning_rate": 1.2500000000000006e-05,
+      "loss": 0.9541,
       "step": 15
     },
     {
       "epoch": 1.9672131147540983,
+      "eval_loss": 1.0214608907699585,
+      "eval_runtime": 16.9378,
+      "eval_samples_per_second": 11.336,
+      "eval_steps_per_second": 1.417,
       "step": 15
     },
     {
       "epoch": 2.098360655737705,
+      "grad_norm": 1.4882737473631815,
+      "learning_rate": 8.930309757836517e-06,
+      "loss": 0.8517,
       "step": 16
     },
     {
       "epoch": 2.2295081967213113,
+      "grad_norm": 1.3413297585539747,
+      "learning_rate": 5.848888922025553e-06,
+      "loss": 0.7971,
       "step": 17
     },
     {
       "epoch": 2.360655737704918,
+      "grad_norm": 1.1809008492312185,
+      "learning_rate": 3.3493649053890326e-06,
+      "loss": 0.7859,
       "step": 18
     },
     {
       "epoch": 2.4918032786885247,
+      "grad_norm": 1.0943970674897627,
+      "learning_rate": 1.5076844803522922e-06,
+      "loss": 0.7711,
       "step": 19
     },
     {
       "epoch": 2.6229508196721314,
+      "grad_norm": 1.1052118316853639,
+      "learning_rate": 3.7980617469479953e-07,
+      "loss": 0.7603,
       "step": 20
     },
     {
       "epoch": 2.7540983606557377,
+      "grad_norm": 1.0269995716510345,
       "learning_rate": 0.0,
+      "loss": 0.745,
       "step": 21
     },
     {
       "epoch": 2.7540983606557377,
+      "eval_loss": 1.0121965408325195,
+      "eval_runtime": 9.0436,
+      "eval_samples_per_second": 21.231,
+      "eval_steps_per_second": 2.654,
       "step": 21
     },
     {
       "epoch": 2.7540983606557377,
       "step": 21,
       "total_flos": 3971544514560.0,
+      "train_loss": 1.29271438008263,
+      "train_runtime": 605.3238,
+      "train_samples_per_second": 2.409,
+      "train_steps_per_second": 0.035
     }
   ],
   "logging_steps": 1,