ninagroot/GPT2-705M

Browse files

Files changed (4) hide show

README.md +20 -38
model.safetensors +1 -1
runs/Apr22_21-01-20_gcn22.local.snellius.surf.nl/events.out.tfevents.1713812489.gcn22.local.snellius.surf.nl.1486285.0 +3 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -13,7 +13,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 4.8747
 ## Model description
@@ -41,49 +41,31 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 50
-- num_epochs: 40
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 8.6484        | 0.89  | 2    | 7.5910          |
-| 7.4125        | 1.78  | 4    | 7.3845          |
-| 7.177         | 2.67  | 6    | 8.4543          |
-| 6.8693        | 4.0   | 9    | 7.1517          |
-| 6.7375        | 4.89  | 11   | 6.7577          |
-| 6.4793        | 5.78  | 13   | 6.3863          |
-| 6.155         | 6.67  | 15   | 6.1743          |
-| 5.8146        | 8.0   | 18   | 5.8802          |
-| 5.5765        | 8.89  | 20   | 5.6410          |
-| 5.1699        | 9.78  | 22   | 5.4458          |
-| 5.1785        | 10.67 | 24   | 5.3271          |
-| 4.854         | 12.0  | 27   | 5.0277          |
-| 4.8076        | 12.89 | 29   | 4.9158          |
-| 4.5975        | 13.78 | 31   | 4.9445          |
-| 4.385         | 14.67 | 33   | 4.8140          |
-| 4.4167        | 16.0  | 36   | 4.6747          |
-| 4.3464        | 16.89 | 38   | 4.5966          |
-| 4.1645        | 17.78 | 40   | 4.4547          |
-| 3.9958        | 18.67 | 42   | 4.4993          |
-| 3.8152        | 20.0  | 45   | 4.4591          |
-| 3.6949        | 20.89 | 47   | 4.4364          |
-| 3.6767        | 21.78 | 49   | 4.4040          |
-| 3.5244        | 22.67 | 51   | 4.4034          |
-| 3.3385        | 24.0  | 54   | 4.4621          |
-| 3.2586        | 24.89 | 56   | 4.5152          |
-| 3.1222        | 25.78 | 58   | 4.5277          |
-| 2.8846        | 26.67 | 60   | 4.5638          |
-| 2.7718        | 28.0  | 63   | 4.6443          |
-| 2.5681        | 28.89 | 65   | 4.6683          |
-| 2.5383        | 29.78 | 67   | 4.7204          |
-| 2.4544        | 30.67 | 69   | 4.7512          |
-| 2.2336        | 32.0  | 72   | 4.7927          |
-| 2.1591        | 32.89 | 74   | 4.8253          |
-| 2.1328        | 33.78 | 76   | 4.8684          |
-| 2.1649        | 34.67 | 78   | 4.8750          |
-| 2.1091        | 35.56 | 80   | 4.8747          |
 ### Framework versions

 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 4.5594
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 50
+- num_epochs: 20
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 8.705         | 0.89  | 2    | 7.8398          |
+| 7.9084        | 1.78  | 4    | 7.9095          |
+| 7.5512        | 2.67  | 6    | 7.0537          |
+| 6.877         | 4.0   | 9    | 6.8957          |
+| 6.6817        | 4.89  | 11   | 6.6244          |
+| 6.3264        | 5.78  | 13   | 7.6667          |
+| 6.044         | 6.67  | 15   | 6.2046          |
+| 5.7734        | 8.0   | 18   | 5.8704          |
+| 5.6256        | 8.89  | 20   | 5.7477          |
+| 5.3341        | 9.78  | 22   | 5.5244          |
+| 5.3234        | 10.67 | 24   | 5.3057          |
+| 5.1621        | 12.0  | 27   | 5.2336          |
+| 4.9043        | 12.89 | 29   | 5.0179          |
+| 4.7566        | 13.78 | 31   | 4.8456          |
+| 4.4543        | 14.67 | 33   | 4.7870          |
+| 4.3777        | 16.0  | 36   | 4.5766          |
+| 4.3737        | 16.89 | 38   | 4.5429          |
+| 4.2825        | 17.78 | 40   | 4.5594          |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59f9b32e01cb286bf7b3f5bf3c4452b35c89854ce4edeb937cbd1a3f0e29c890
 size 2747965216

 version https://git-lfs.github.com/spec/v1
+oid sha256:797679ee0881ea87b6a748dc92f78b550162f5e8a89e08438223ef1fc30b9cfc
 size 2747965216

runs/Apr22_21-01-20_gcn22.local.snellius.surf.nl/events.out.tfevents.1713812489.gcn22.local.snellius.surf.nl.1486285.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:442a83a839dd67b77ebabd3de48f81e2372ffce89003a9a3ed7fb529b7f6e604
+size 18093

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0e8c7544a44d2168b581b5ef35f1b96ca96f33b184b742628c864897f209e2f
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f94d5f797a871e76244808734bd8d84c2dc7ef3a7650697947ce1b69e151588c
 size 4984