ninagroot/babyllamatest

Browse files

Files changed (8) hide show

README.md +42 -42
added_tokens.json +1 -1
merges.txt +0 -0
model.safetensors +1 -1
tokenizer.json +0 -0
tokenizer_config.json +2 -1
training_args.bin +1 -1
vocab.json +0 -0

README.md CHANGED Viewed

@@ -13,7 +13,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 5.5855
 ## Model description
@@ -33,7 +33,7 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.00025
-- train_batch_size: 32
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
@@ -46,46 +46,46 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| No log        | 1.0   | 7    | 71.5542         |
-| No log        | 2.0   | 14   | 62.5591         |
-| 75.1015       | 3.0   | 21   | 52.1433         |
-| 75.1015       | 4.0   | 28   | 41.8504         |
-| 75.1015       | 5.0   | 35   | 35.2569         |
-| 47.6078       | 6.0   | 42   | 29.3735         |
-| 47.6078       | 7.0   | 49   | 25.0324         |
-| 47.6078       | 8.0   | 56   | 21.8563         |
-| 29.8451       | 9.0   | 63   | 18.5148         |
-| 29.8451       | 10.0  | 70   | 15.5228         |
-| 29.8451       | 11.0  | 77   | 13.0948         |
-| 17.3358       | 12.0  | 84   | 11.0128         |
-| 17.3358       | 13.0  | 91   | 9.2921          |
-| 17.3358       | 14.0  | 98   | 8.5328          |
-| 9.565         | 15.0  | 105  | 7.7662          |
-| 9.565         | 16.0  | 112  | 7.5869          |
-| 9.565         | 17.0  | 119  | 7.0970          |
-| 6.5384        | 18.0  | 126  | 6.8532          |
-| 6.5384        | 19.0  | 133  | 6.5811          |
-| 5.5048        | 20.0  | 140  | 6.4781          |
-| 5.5048        | 21.0  | 147  | 6.3671          |
-| 5.5048        | 22.0  | 154  | 6.3537          |
-| 5.0318        | 23.0  | 161  | 6.1682          |
-| 5.0318        | 24.0  | 168  | 5.9982          |
-| 5.0318        | 25.0  | 175  | 5.9669          |
-| 4.71          | 26.0  | 182  | 5.8959          |
-| 4.71          | 27.0  | 189  | 5.8910          |
-| 4.71          | 28.0  | 196  | 5.8447          |
-| 4.5081        | 29.0  | 203  | 5.7656          |
-| 4.5081        | 30.0  | 210  | 5.7277          |
-| 4.5081        | 31.0  | 217  | 5.7041          |
-| 4.3384        | 32.0  | 224  | 5.6611          |
-| 4.3384        | 33.0  | 231  | 5.6682          |
-| 4.3384        | 34.0  | 238  | 5.6317          |
-| 4.2903        | 35.0  | 245  | 5.6118          |
-| 4.2903        | 36.0  | 252  | 5.5995          |
-| 4.2903        | 37.0  | 259  | 5.6007          |
-| 4.2404        | 38.0  | 266  | 5.5819          |
-| 4.2404        | 39.0  | 273  | 5.5834          |
-| 4.1963        | 40.0  | 280  | 5.5855          |
 ### Framework versions

 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 12.3739
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.00025
+- train_batch_size: 128
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 81.6769       | 1.0   | 2    | 74.8633         |
+| 81.1451       | 2.0   | 4    | 73.7956         |
+| 78.7609       | 3.0   | 6    | 71.9935         |
+| 79.1356       | 4.0   | 8    | 69.4148         |
+| 75.726        | 5.0   | 10   | 67.8374         |
+| 74.2979       | 6.0   | 12   | 64.3771         |
+| 70.3903       | 7.0   | 14   | 61.1100         |
+| 67.5033       | 8.0   | 16   | 58.1597         |
+| 64.8955       | 9.0   | 18   | 55.2518         |
+| 61.2792       | 10.0  | 20   | 52.1664         |
+| 57.5665       | 11.0  | 22   | 48.9584         |
+| 54.0972       | 12.0  | 24   | 45.8081         |
+| 50.2098       | 13.0  | 26   | 42.8455         |
+| 48.9371       | 14.0  | 28   | 40.1582         |
+| 45.2235       | 15.0  | 30   | 37.7302         |
+| 44.1405       | 16.0  | 32   | 35.5237         |
+| 41.0789       | 17.0  | 34   | 33.5662         |
+| 40.2006       | 18.0  | 36   | 31.8106         |
+| 38.5898       | 19.0  | 38   | 30.1508         |
+| 36.2422       | 20.0  | 40   | 28.5076         |
+| 34.6463       | 21.0  | 42   | 26.5191         |
+| 30.7565       | 22.0  | 44   | 24.9482         |
+| 29.6666       | 23.0  | 46   | 23.8793         |
+| 27.6733       | 24.0  | 48   | 22.8973         |
+| 25.9126       | 25.0  | 50   | 21.6442         |
+| 25.2859       | 26.0  | 52   | 20.4439         |
+| 24.0265       | 27.0  | 54   | 19.7371         |
+| 21.8765       | 28.0  | 56   | 18.4843         |
+| 20.4426       | 29.0  | 58   | 17.2997         |
+| 18.7842       | 30.0  | 60   | 16.1685         |
+| 17.7504       | 31.0  | 62   | 15.4688         |
+| 16.5791       | 32.0  | 64   | 15.0343         |
+| 16.1571       | 33.0  | 66   | 14.1040         |
+| 15.0651       | 34.0  | 68   | 13.7322         |
+| 14.0418       | 35.0  | 70   | 13.2421         |
+| 13.6841       | 36.0  | 72   | 12.8765         |
+| 13.3316       | 37.0  | 74   | 12.5740         |
+| 13.3591       | 38.0  | 76   | 12.5028         |
+| 13.0756       | 39.0  | 78   | 12.4223         |
+| 13.0233       | 40.0  | 80   | 12.3739         |
 ### Framework versions

added_tokens.json CHANGED Viewed

@@ -1,3 +1,3 @@
 {
-  "<|endoftext|>": 4312
 }

 {
+  "<|endoftext|>": 12198
 }

merges.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03acd465aafbe8e6f46318a9592cd0ae304d19d427c38a460754b2dc18cd506c
 size 217819016

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a1714b9a7d37f2a284c5fd482259328e6821ab9e76ec376a2a7644c9d1cf168
 size 217819016

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -25,7 +25,7 @@
       "single_word": false,
       "special": true
     },
-    "4312": {
       "content": "<|endoftext|>",
       "lstrip": false,
       "normalized": false,
@@ -40,5 +40,6 @@
   "model_max_length": 128,
   "pad_token": "<pad>",
   "tokenizer_class": "GPT2Tokenizer",
   "unk_token": "<|endoftext|>"
 }

       "single_word": false,
       "special": true
     },
+    "12198": {
       "content": "<|endoftext|>",
       "lstrip": false,
       "normalized": false,
   "model_max_length": 128,
   "pad_token": "<pad>",
   "tokenizer_class": "GPT2Tokenizer",
+  "truncation": true,
   "unk_token": "<|endoftext|>"
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a404120ec632e6c40885939d6a4d0f4d7e819ebd221abbc8530bab3798a602c
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:0551b202cc608f1cc3f396331916badd2c01ef6cd77ea9422de79e6fdc202a56
 size 4984

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff