ninagroot/Llama-360Mtest

Browse files

Files changed (4) hide show

README.md +62 -27
model.safetensors +1 -1
runs/Apr17_12-23-14_gcn20.local.snellius.surf.nl/events.out.tfevents.1713349405.gcn20.local.snellius.surf.nl.1176517.0 +3 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -13,7 +13,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 5.3649
 ## Model description
@@ -33,44 +33,79 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0003
-- train_batch_size: 32
 - eval_batch_size: 8
 - seed: 42
-- gradient_accumulation_steps: 4
 - total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 50
-- num_epochs: 40
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 9.5781        | 0.57  | 1    | 9.5646          |
-| 9.4151        | 1.71  | 3    | 9.3660          |
-| 8.6797        | 2.86  | 5    | 8.9242          |
-| 7.7829        | 4.0   | 7    | 8.3276          |
-| 7.4363        | 4.57  | 8    | 8.0833          |
-| 6.9645        | 5.71  | 10   | 7.6931          |
-| 6.6265        | 6.86  | 12   | 7.4268          |
-| 6.2878        | 8.0   | 14   | 7.1965          |
-| 6.1084        | 8.57  | 15   | 7.0904          |
-| 5.7872        | 9.71  | 17   | 6.8732          |
-| 5.43          | 10.86 | 19   | 6.6048          |
-| 5.0767        | 12.0  | 21   | 6.4381          |
-| 4.9363        | 12.57 | 22   | 6.3377          |
-| 4.5648        | 13.71 | 24   | 6.1173          |
-| 4.2417        | 14.86 | 26   | 5.9199          |
-| 3.926         | 16.0  | 28   | 5.7397          |
-| 3.7467        | 16.57 | 29   | 5.6383          |
-| 3.4837        | 17.71 | 31   | 5.5448          |
-| 3.2985        | 18.86 | 33   | 5.4371          |
-| 2.9882        | 20.0  | 35   | 5.4290          |
-| 2.8515        | 20.57 | 36   | 5.4213          |
-| 2.5933        | 21.71 | 38   | 5.3916          |
-| 2.3065        | 22.86 | 40   | 5.3649          |
 ### Framework versions

 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 5.6445
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.0003
+- train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42
+- gradient_accumulation_steps: 8
 - total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 50
+- num_epochs: 100
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 9.595         | 0.57  | 1    | 9.6036          |
+| 9.4191        | 1.71  | 3    | 9.4004          |
+| 8.6679        | 2.86  | 5    | 8.9609          |
+| 7.7889        | 4.0   | 7    | 8.3870          |
+| 7.4852        | 4.57  | 8    | 8.1495          |
+| 6.9951        | 5.71  | 10   | 7.7565          |
+| 6.6337        | 6.86  | 12   | 7.4558          |
+| 6.2744        | 8.0   | 14   | 7.1806          |
+| 6.052         | 8.57  | 15   | 7.0535          |
+| 5.69          | 9.71  | 17   | 6.8455          |
+| 5.4046        | 10.86 | 19   | 6.6445          |
+| 5.1682        | 12.0  | 21   | 6.5058          |
+| 5.0522        | 12.57 | 22   | 6.3872          |
+| 4.6834        | 13.71 | 24   | 6.2011          |
+| 4.2821        | 14.86 | 26   | 5.9424          |
+| 3.9781        | 16.0  | 28   | 5.7461          |
+| 3.7742        | 16.57 | 29   | 5.6778          |
+| 3.525         | 17.71 | 31   | 5.5370          |
+| 3.3434        | 18.86 | 33   | 5.4445          |
+| 3.0161        | 20.0  | 35   | 5.3650          |
+| 2.848         | 20.57 | 36   | 5.4065          |
+| 2.5819        | 21.71 | 38   | 5.3697          |
+| 2.2761        | 22.86 | 40   | 5.3867          |
+| 2.0201        | 24.0  | 42   | 5.3975          |
+| 1.8269        | 24.57 | 43   | 5.4014          |
+| 1.5501        | 25.71 | 45   | 5.3687          |
+| 1.3036        | 26.86 | 47   | 5.4212          |
+| 1.0129        | 28.0  | 49   | 5.4374          |
+| 0.8856        | 28.57 | 50   | 5.4521          |
+| 0.6592        | 29.71 | 52   | 5.4968          |
+| 0.5508        | 30.86 | 54   | 5.4760          |
+| 0.4567        | 32.0  | 56   | 5.4806          |
+| 0.4057        | 32.57 | 57   | 5.5026          |
+| 0.3211        | 33.71 | 59   | 5.5319          |
+| 0.289         | 34.86 | 61   | 5.5295          |
+| 0.2501        | 36.0  | 63   | 5.5913          |
+| 0.2088        | 36.57 | 64   | 5.5563          |
+| 0.1661        | 37.71 | 66   | 5.5826          |
+| 0.1405        | 38.86 | 68   | 5.5947          |
+| 0.1031        | 40.0  | 70   | 5.6525          |
+| 0.0882        | 40.57 | 71   | 5.6373          |
+| 0.0609        | 41.71 | 73   | 5.6135          |
+| 0.0544        | 42.86 | 75   | 5.6294          |
+| 0.0415        | 44.0  | 77   | 5.6271          |
+| 0.0358        | 44.57 | 78   | 5.6269          |
+| 0.0284        | 45.71 | 80   | 5.6244          |
+| 0.0241        | 46.86 | 82   | 5.6265          |
+| 0.0207        | 48.0  | 84   | 5.6290          |
+| 0.0201        | 48.57 | 85   | 5.6310          |
+| 0.0194        | 49.71 | 87   | 5.6346          |
+| 0.0182        | 50.86 | 89   | 5.6376          |
+| 0.0166        | 52.0  | 91   | 5.6402          |
+| 0.0159        | 52.57 | 92   | 5.6413          |
+| 0.0156        | 53.71 | 94   | 5.6430          |
+| 0.0151        | 54.86 | 96   | 5.6440          |
+| 0.0151        | 56.0  | 98   | 5.6444          |
+| 0.0151        | 56.57 | 99   | 5.6445          |
+| 0.0144        | 57.14 | 100  | 5.6445          |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5565075cfacf013834e10d49bc325bd1a80185b85099c949d8dad85d1e04cb1
 size 1408774432

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cf188330e20a958fc19fa166f852613d26d71a3348dc3f34de0a2a3960e8ce6
 size 1408774432

runs/Apr17_12-23-14_gcn20.local.snellius.surf.nl/events.out.tfevents.1713349405.gcn20.local.snellius.surf.nl.1176517.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97dbf587554a639e0af1a979d99e8a71ed252ffdb5f253b8f43c8c36677fa3c3
+size 41039

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29cdcf928fd468e90e2f2a6126f8cfcf3d4abe128edd25f38df98c1fe01aa3b6
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dc0fe5f1565284ba751ed376d47d7be6f894736965a81620a6e9253651d4135
 size 4984