ninagroot/GPT2-705Mtest

Browse files

Files changed (4) hide show

README.md +43 -26
model.safetensors +1 -1
runs/Apr17_11-29-53_gcn72.local.snellius.surf.nl/events.out.tfevents.1713346201.gcn72.local.snellius.surf.nl.3351341.0 +3 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -13,7 +13,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 5.3587
 ## Model description
@@ -33,11 +33,11 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.00025
-- train_batch_size: 32
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 4
-- total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 50
@@ -48,29 +48,46 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 9.7349        | 0.57  | 1    | 9.7279          |
-| 7.9926        | 1.71  | 3    | 9.0873          |
-| 7.841         | 2.86  | 5    | 8.5549          |
-| 8.2689        | 4.0   | 7    | 8.0536          |
-| 7.6266        | 4.57  | 8    | 7.6283          |
-| 7.9761        | 5.71  | 10   | 8.6639          |
-| 6.9298        | 6.86  | 12   | 7.4626          |
-| 6.7702        | 8.0   | 14   | 7.1394          |
-| 6.5432        | 8.57  | 15   | 7.2277          |
-| 6.6661        | 9.71  | 17   | 6.9744          |
-| 6.2206        | 10.86 | 19   | 6.8123          |
-| 5.9537        | 12.0  | 21   | 6.5676          |
-| 5.8129        | 12.57 | 22   | 6.5414          |
-| 5.5342        | 13.71 | 24   | 6.2716          |
-| 5.2846        | 14.86 | 26   | 6.0899          |
-| 5.0273        | 16.0  | 28   | 6.0949          |
-| 4.8946        | 16.57 | 29   | 5.8957          |
-| 4.7286        | 17.71 | 31   | 5.8237          |
-| 4.6267        | 18.86 | 33   | 5.6508          |
-| 4.3125        | 20.0  | 35   | 5.5182          |
-| 4.2257        | 20.57 | 36   | 5.5018          |
-| 4.1476        | 21.71 | 38   | 5.5468          |
-| 3.7466        | 22.86 | 40   | 5.3587          |
 ### Framework versions

 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 6.8497
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.00025
+- train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 4
+- total_train_batch_size: 32
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 50
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 7.607         | 1.0   | 7    | 7.9535          |
+| 6.4914        | 2.0   | 14   | 7.1690          |
+| 6.0264        | 3.0   | 21   | 6.4225          |
+| 4.9537        | 4.0   | 28   | 6.0582          |
+| 4.6624        | 5.0   | 35   | 5.6295          |
+| 4.1858        | 6.0   | 42   | 5.4364          |
+| 3.4042        | 7.0   | 49   | 5.6539          |
+| 3.4375        | 8.0   | 56   | 5.3934          |
+| 3.1425        | 9.0   | 63   | 5.3686          |
+| 3.0208        | 10.0  | 70   | 5.4510          |
+| 2.855         | 11.0  | 77   | 5.6289          |
+| 2.5067        | 12.0  | 84   | 5.7600          |
+| 2.369         | 13.0  | 91   | 5.8043          |
+| 2.2087        | 14.0  | 98   | 5.9449          |
+| 1.9651        | 15.0  | 105  | 6.0183          |
+| 1.8533        | 16.0  | 112  | 6.1303          |
+| 1.5668        | 17.0  | 119  | 6.1822          |
+| 1.2826        | 18.0  | 126  | 6.2579          |
+| 1.0517        | 19.0  | 133  | 6.3620          |
+| 0.8265        | 20.0  | 140  | 6.4218          |
+| 0.5489        | 21.0  | 147  | 6.4343          |
+| 0.3733        | 22.0  | 154  | 6.4700          |
+| 0.2322        | 23.0  | 161  | 6.5601          |
+| 0.15          | 24.0  | 168  | 6.5968          |
+| 0.1128        | 25.0  | 175  | 6.6768          |
+| 0.0703        | 26.0  | 182  | 6.7425          |
+| 0.0618        | 27.0  | 189  | 6.7583          |
+| 0.0403        | 28.0  | 196  | 6.7516          |
+| 0.0273        | 29.0  | 203  | 6.8169          |
+| 0.0227        | 30.0  | 210  | 6.8227          |
+| 0.0178        | 31.0  | 217  | 6.8049          |
+| 0.0131        | 32.0  | 224  | 6.8238          |
+| 0.0113        | 33.0  | 231  | 6.8419          |
+| 0.0126        | 34.0  | 238  | 6.8478          |
+| 0.0121        | 35.0  | 245  | 6.8468          |
+| 0.0103        | 36.0  | 252  | 6.8474          |
+| 0.0105        | 37.0  | 259  | 6.8487          |
+| 0.008         | 38.0  | 266  | 6.8494          |
+| 0.0118        | 39.0  | 273  | 6.8498          |
+| 0.0079        | 40.0  | 280  | 6.8497          |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:577b8b36a65b5dd5f55967fa25527da910f7ff4958630310f4af4cc87aae40bd
 size 2796386080

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e15cffb20ce445937d71d9af0ce6de30ee80d67d8e3c545970c6ffee03beb8e
 size 2796386080

runs/Apr17_11-29-53_gcn72.local.snellius.surf.nl/events.out.tfevents.1713346201.gcn72.local.snellius.surf.nl.3351341.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5407f7d6ea4e696e32c68f04493e90988558acc97a868428019a0213bf19dc49
+size 74353

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:203b45fa49050b6ad59814a39fb7da86a37bb21d366d1dcf0001df7a073b6ee1
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:b14ae6a4eb91ae7a48f011bea7ab8fd663f6f33af4cf501f15323656b828c040
 size 4984