ninagroot/GPT2-705Mtest

Browse files

Files changed (4) hide show

README.md +26 -43
model.safetensors +1 -1
runs/Apr17_11-41-39_gcn42.local.snellius.surf.nl/events.out.tfevents.1713346911.gcn42.local.snellius.surf.nl.2981629.0 +3 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -13,7 +13,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 6.8497
 ## Model description
@@ -33,11 +33,11 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.00025
-- train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 4
-- total_train_batch_size: 32
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 50
@@ -48,46 +48,29 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 7.607         | 1.0   | 7    | 7.9535          |
-| 6.4914        | 2.0   | 14   | 7.1690          |
-| 6.0264        | 3.0   | 21   | 6.4225          |
-| 4.9537        | 4.0   | 28   | 6.0582          |
-| 4.6624        | 5.0   | 35   | 5.6295          |
-| 4.1858        | 6.0   | 42   | 5.4364          |
-| 3.4042        | 7.0   | 49   | 5.6539          |
-| 3.4375        | 8.0   | 56   | 5.3934          |
-| 3.1425        | 9.0   | 63   | 5.3686          |
-| 3.0208        | 10.0  | 70   | 5.4510          |
-| 2.855         | 11.0  | 77   | 5.6289          |
-| 2.5067        | 12.0  | 84   | 5.7600          |
-| 2.369         | 13.0  | 91   | 5.8043          |
-| 2.2087        | 14.0  | 98   | 5.9449          |
-| 1.9651        | 15.0  | 105  | 6.0183          |
-| 1.8533        | 16.0  | 112  | 6.1303          |
-| 1.5668        | 17.0  | 119  | 6.1822          |
-| 1.2826        | 18.0  | 126  | 6.2579          |
-| 1.0517        | 19.0  | 133  | 6.3620          |
-| 0.8265        | 20.0  | 140  | 6.4218          |
-| 0.5489        | 21.0  | 147  | 6.4343          |
-| 0.3733        | 22.0  | 154  | 6.4700          |
-| 0.2322        | 23.0  | 161  | 6.5601          |
-| 0.15          | 24.0  | 168  | 6.5968          |
-| 0.1128        | 25.0  | 175  | 6.6768          |
-| 0.0703        | 26.0  | 182  | 6.7425          |
-| 0.0618        | 27.0  | 189  | 6.7583          |
-| 0.0403        | 28.0  | 196  | 6.7516          |
-| 0.0273        | 29.0  | 203  | 6.8169          |
-| 0.0227        | 30.0  | 210  | 6.8227          |
-| 0.0178        | 31.0  | 217  | 6.8049          |
-| 0.0131        | 32.0  | 224  | 6.8238          |
-| 0.0113        | 33.0  | 231  | 6.8419          |
-| 0.0126        | 34.0  | 238  | 6.8478          |
-| 0.0121        | 35.0  | 245  | 6.8468          |
-| 0.0103        | 36.0  | 252  | 6.8474          |
-| 0.0105        | 37.0  | 259  | 6.8487          |
-| 0.008         | 38.0  | 266  | 6.8494          |
-| 0.0118        | 39.0  | 273  | 6.8498          |
-| 0.0079        | 40.0  | 280  | 6.8497          |
 ### Framework versions

 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 5.3613
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.00025
+- train_batch_size: 32
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 4
+- total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 50
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 9.7393        | 0.57  | 1    | 9.7595          |
+| 7.9692        | 1.71  | 3    | 8.8893          |
+| 7.9553        | 2.86  | 5    | 8.2940          |
+| 8.7602        | 4.0   | 7    | 8.8014          |
+| 8.2186        | 4.57  | 8    | 7.8900          |
+| 7.1745        | 5.71  | 10   | 7.5816          |
+| 7.1837        | 6.86  | 12   | 7.3890          |
+| 6.5593        | 8.0   | 14   | 7.1178          |
+| 6.387         | 8.57  | 15   | 8.4858          |
+| 6.4743        | 9.71  | 17   | 6.9945          |
+| 6.1188        | 10.86 | 19   | 6.8243          |
+| 5.9195        | 12.0  | 21   | 6.5761          |
+| 5.7847        | 12.57 | 22   | 6.4606          |
+| 5.4622        | 13.71 | 24   | 6.2584          |
+| 5.2573        | 14.86 | 26   | 6.1843          |
+| 5.0353        | 16.0  | 28   | 5.9988          |
+| 4.8916        | 16.57 | 29   | 5.9437          |
+| 4.6798        | 17.71 | 31   | 5.8515          |
+| 4.6879        | 18.86 | 33   | 5.6935          |
+| 4.3026        | 20.0  | 35   | 5.6336          |
+| 4.2853        | 20.57 | 36   | 5.5061          |
+| 4.0243        | 21.71 | 38   | 5.4732          |
+| 3.819         | 22.86 | 40   | 5.3613          |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e15cffb20ce445937d71d9af0ce6de30ee80d67d8e3c545970c6ffee03beb8e
 size 2796386080

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d021d2d8676458c20960a472cdf7297e746755aabd78d27641db72c358c8a3a
 size 2796386080

runs/Apr17_11-41-39_gcn42.local.snellius.surf.nl/events.out.tfevents.1713346911.gcn42.local.snellius.surf.nl.2981629.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:615c479541aa8d424bc6fe838b8e0213e7a63fb03318d903becc0c6cc5c60d2d
+size 19424

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b14ae6a4eb91ae7a48f011bea7ab8fd663f6f33af4cf501f15323656b828c040
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed32b3d5b0def93391e72339d891569ab53ae8dd8b365dbfdf72094aee89a01c
 size 4984