ninagroot/babyllamatest

Browse files

Files changed (4) hide show

README.md +44 -24
config.json +1 -1
model.safetensors +2 -2
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -13,7 +13,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 3.4868
 ## Model description
@@ -33,39 +33,59 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.00025
-- train_batch_size: 4
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
-- lr_scheduler_warmup_steps: 200
-- num_epochs: 20
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 16.2182       | 1.0   | 393  | 13.7445         |
-| 6.1598        | 2.0   | 786  | 6.7784          |
-| 5.094         | 3.0   | 1179 | 5.4728          |
-| 4.2823        | 4.0   | 1572 | 4.9842          |
-| 3.7105        | 5.0   | 1965 | 4.6118          |
-| 3.3325        | 6.0   | 2358 | 4.4379          |
-| 3.1282        | 7.0   | 2751 | 4.2705          |
-| 2.9706        | 8.0   | 3144 | 4.0921          |
-| 2.8795        | 9.0   | 3537 | 3.9575          |
-| 2.5869        | 10.0  | 3930 | 3.8738          |
-| 2.6449        | 11.0  | 4323 | 3.8033          |
-| 2.4537        | 12.0  | 4716 | 3.7222          |
-| 2.4489        | 13.0  | 5109 | 3.6770          |
-| 2.237         | 14.0  | 5502 | 3.6201          |
-| 2.2934        | 15.0  | 5895 | 3.5597          |
-| 2.2597        | 16.0  | 6288 | 3.5336          |
-| 2.2667        | 17.0  | 6681 | 3.5108          |
-| 2.2947        | 18.0  | 7074 | 3.4935          |
-| 2.1618        | 19.0  | 7467 | 3.4894          |
-| 2.2033        | 20.0  | 7860 | 3.4868          |
 ### Framework versions

 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 5.5855
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.00025
+- train_batch_size: 32
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 50
+- num_epochs: 40
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| No log        | 1.0   | 7    | 71.5542         |
+| No log        | 2.0   | 14   | 62.5591         |
+| 75.1015       | 3.0   | 21   | 52.1433         |
+| 75.1015       | 4.0   | 28   | 41.8504         |
+| 75.1015       | 5.0   | 35   | 35.2569         |
+| 47.6078       | 6.0   | 42   | 29.3735         |
+| 47.6078       | 7.0   | 49   | 25.0324         |
+| 47.6078       | 8.0   | 56   | 21.8563         |
+| 29.8451       | 9.0   | 63   | 18.5148         |
+| 29.8451       | 10.0  | 70   | 15.5228         |
+| 29.8451       | 11.0  | 77   | 13.0948         |
+| 17.3358       | 12.0  | 84   | 11.0128         |
+| 17.3358       | 13.0  | 91   | 9.2921          |
+| 17.3358       | 14.0  | 98   | 8.5328          |
+| 9.565         | 15.0  | 105  | 7.7662          |
+| 9.565         | 16.0  | 112  | 7.5869          |
+| 9.565         | 17.0  | 119  | 7.0970          |
+| 6.5384        | 18.0  | 126  | 6.8532          |
+| 6.5384        | 19.0  | 133  | 6.5811          |
+| 5.5048        | 20.0  | 140  | 6.4781          |
+| 5.5048        | 21.0  | 147  | 6.3671          |
+| 5.5048        | 22.0  | 154  | 6.3537          |
+| 5.0318        | 23.0  | 161  | 6.1682          |
+| 5.0318        | 24.0  | 168  | 5.9982          |
+| 5.0318        | 25.0  | 175  | 5.9669          |
+| 4.71          | 26.0  | 182  | 5.8959          |
+| 4.71          | 27.0  | 189  | 5.8910          |
+| 4.71          | 28.0  | 196  | 5.8447          |
+| 4.5081        | 29.0  | 203  | 5.7656          |
+| 4.5081        | 30.0  | 210  | 5.7277          |
+| 4.5081        | 31.0  | 217  | 5.7041          |
+| 4.3384        | 32.0  | 224  | 5.6611          |
+| 4.3384        | 33.0  | 231  | 5.6682          |
+| 4.3384        | 34.0  | 238  | 5.6317          |
+| 4.2903        | 35.0  | 245  | 5.6118          |
+| 4.2903        | 36.0  | 252  | 5.5995          |
+| 4.2903        | 37.0  | 259  | 5.6007          |
+| 4.2404        | 38.0  | 266  | 5.5819          |
+| 4.2404        | 39.0  | 273  | 5.5834          |
+| 4.1963        | 40.0  | 280  | 5.5855          |
 ### Framework versions

config.json CHANGED Viewed

@@ -24,5 +24,5 @@
   "torch_dtype": "float32",
   "transformers_version": "4.39.1",
   "use_cache": true,
-  "vocab_size": 32000
 }

   "torch_dtype": "float32",
   "transformers_version": "4.39.1",
   "use_cache": true,
+  "vocab_size": 12198
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18587d669e316d918d29fef1f1c52079e33a2b167f33c3ccd433d7cd84931186
-size 298928096

 version https://git-lfs.github.com/spec/v1
+oid sha256:03acd465aafbe8e6f46318a9592cd0ae304d19d427c38a460754b2dc18cd506c
+size 217819016

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42dba10b5115a01d6be8e65830dfd27ac82bb1251d44e3f697c99e87edbab09d
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a404120ec632e6c40885939d6a4d0f4d7e819ebd221abbc8530bab3798a602c
 size 4984