ninagroot/GPT2-705Mtest

Browse files

Files changed (4) hide show

README.md +62 -27
model.safetensors +1 -1
runs/Apr17_12-24-48_gcn61.local.snellius.surf.nl/events.out.tfevents.1713349497.gcn61.local.snellius.surf.nl.3984517.0 +3 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -13,7 +13,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 5.3613
 ## Model description
@@ -33,44 +33,79 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.00025
-- train_batch_size: 32
 - eval_batch_size: 8
 - seed: 42
-- gradient_accumulation_steps: 4
 - total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 50
-- num_epochs: 40
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 9.7393        | 0.57  | 1    | 9.7595          |
-| 7.9692        | 1.71  | 3    | 8.8893          |
-| 7.9553        | 2.86  | 5    | 8.2940          |
-| 8.7602        | 4.0   | 7    | 8.8014          |
-| 8.2186        | 4.57  | 8    | 7.8900          |
-| 7.1745        | 5.71  | 10   | 7.5816          |
-| 7.1837        | 6.86  | 12   | 7.3890          |
-| 6.5593        | 8.0   | 14   | 7.1178          |
-| 6.387         | 8.57  | 15   | 8.4858          |
-| 6.4743        | 9.71  | 17   | 6.9945          |
-| 6.1188        | 10.86 | 19   | 6.8243          |
-| 5.9195        | 12.0  | 21   | 6.5761          |
-| 5.7847        | 12.57 | 22   | 6.4606          |
-| 5.4622        | 13.71 | 24   | 6.2584          |
-| 5.2573        | 14.86 | 26   | 6.1843          |
-| 5.0353        | 16.0  | 28   | 5.9988          |
-| 4.8916        | 16.57 | 29   | 5.9437          |
-| 4.6798        | 17.71 | 31   | 5.8515          |
-| 4.6879        | 18.86 | 33   | 5.6935          |
-| 4.3026        | 20.0  | 35   | 5.6336          |
-| 4.2853        | 20.57 | 36   | 5.5061          |
-| 4.0243        | 21.71 | 38   | 5.4732          |
-| 3.819         | 22.86 | 40   | 5.3613          |
 ### Framework versions

 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 6.2845
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.00025
+- train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42
+- gradient_accumulation_steps: 8
 - total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 50
+- num_epochs: 100
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 9.7065        | 0.57  | 1    | 9.7011          |
+| 7.9846        | 1.71  | 3    | 8.5445          |
+| 7.6607        | 2.86  | 5    | 8.0972          |
+| 7.5687        | 4.0   | 7    | 8.4841          |
+| 8.0293        | 4.57  | 8    | 7.9394          |
+| 7.0027        | 5.71  | 10   | 7.7385          |
+| 6.8649        | 6.86  | 12   | 7.3423          |
+| 6.4228        | 8.0   | 14   | 7.0662          |
+| 6.259         | 8.57  | 15   | 6.9541          |
+| 6.1205        | 9.71  | 17   | 6.6782          |
+| 5.8029        | 10.86 | 19   | 6.5614          |
+| 5.4672        | 12.0  | 21   | 6.2749          |
+| 5.4032        | 12.57 | 22   | 6.2083          |
+| 5.166         | 13.71 | 24   | 6.0910          |
+| 4.9317        | 14.86 | 26   | 5.9103          |
+| 4.71          | 16.0  | 28   | 5.8250          |
+| 4.6227        | 16.57 | 29   | 5.7667          |
+| 4.317         | 17.71 | 31   | 5.5216          |
+| 4.375         | 18.86 | 33   | 5.4968          |
+| 4.2285        | 20.0  | 35   | 5.4314          |
+| 4.0816        | 20.57 | 36   | 5.3738          |
+| 3.8132        | 21.71 | 38   | 5.4058          |
+| 3.5336        | 22.86 | 40   | 5.5456          |
+| 3.5355        | 24.0  | 42   | 5.3319          |
+| 3.3558        | 24.57 | 43   | 5.3172          |
+| 3.2986        | 25.71 | 45   | 5.3937          |
+| 3.0968        | 26.86 | 47   | 5.3438          |
+| 2.9288        | 28.0  | 49   | 5.4855          |
+| 2.8645        | 28.57 | 50   | 5.4153          |
+| 2.6979        | 29.71 | 52   | 5.5391          |
+| 2.6357        | 30.86 | 54   | 5.6242          |
+| 2.5271        | 32.0  | 56   | 5.6653          |
+| 2.4606        | 32.57 | 57   | 5.7393          |
+| 2.3441        | 33.71 | 59   | 5.8189          |
+| 2.2027        | 34.86 | 61   | 5.7873          |
+| 2.1467        | 36.0  | 63   | 5.7625          |
+| 2.0218        | 36.57 | 64   | 5.7930          |
+| 1.9145        | 37.71 | 66   | 5.9998          |
+| 1.8427        | 38.86 | 68   | 5.9277          |
+| 1.7795        | 40.0  | 70   | 5.9826          |
+| 1.6823        | 40.57 | 71   | 6.0166          |
+| 1.5936        | 41.71 | 73   | 6.0393          |
+| 1.5114        | 42.86 | 75   | 6.1086          |
+| 1.4313        | 44.0  | 77   | 6.1522          |
+| 1.3536        | 44.57 | 78   | 6.1280          |
+| 1.2649        | 45.71 | 80   | 6.1950          |
+| 1.1631        | 46.86 | 82   | 6.2132          |
+| 1.1196        | 48.0  | 84   | 6.2504          |
+| 1.038         | 48.57 | 85   | 6.2654          |
+| 0.9875        | 49.71 | 87   | 6.2609          |
+| 0.9314        | 50.86 | 89   | 6.2622          |
+| 0.9101        | 52.0  | 91   | 6.2624          |
+| 0.8854        | 52.57 | 92   | 6.2676          |
+| 0.8441        | 53.71 | 94   | 6.2807          |
+| 0.8359        | 54.86 | 96   | 6.2855          |
+| 0.8137        | 56.0  | 98   | 6.2849          |
+| 0.815         | 56.57 | 99   | 6.2846          |
+| 0.8284        | 57.14 | 100  | 6.2845          |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d021d2d8676458c20960a472cdf7297e746755aabd78d27641db72c358c8a3a
 size 2796386080

 version https://git-lfs.github.com/spec/v1
+oid sha256:17c1efb0068e09265d973c531ad4e0911372742a468e28c8842abc4358905829
 size 2796386080

runs/Apr17_12-24-48_gcn61.local.snellius.surf.nl/events.out.tfevents.1713349497.gcn61.local.snellius.surf.nl.3984517.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6f3d980b23d33ec2f66c7aa4389002abb105341cef143cc8b2622ea84f13474
+size 41155

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed32b3d5b0def93391e72339d891569ab53ae8dd8b365dbfdf72094aee89a01c
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:86662ece6d6f843dd83dc719cbd6d726ba4d67990a8b8eec336560c941979997
 size 4984