ILC-CNR/gs-Logion

Browse files

Files changed (7) hide show

README.md +15 -21
all_results.json +8 -8
eval_results.json +4 -10
model.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +88 -145
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,13 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [cabrooks/LOGION-50k_wordpiece](https://huggingface.co/cabrooks/LOGION-50k_wordpiece) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.4955
-- Top1 Acc: 0.4969
-- Top5 Acc: 0.6832
-- Top10 Acc: 0.7329
-- Top15 Acc: 0.7702
-- Top20 Acc: 0.8137
-- Top25 Acc: 0.8447
 ## Model description
@@ -40,7 +34,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 5e-05
 - train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42
@@ -51,23 +45,23 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step  | Validation Loss | Top1 Acc | Top5 Acc | Top10 Acc | Top15 Acc | Top20 Acc | Top25 Acc |
-|:-------------:|:-----:|:-----:|:---------------:|:--------:|:--------:|:---------:|:---------:|:---------:|:---------:|
-| 3.682         | 1.0   | 1945  | 3.2188          | 0.4809   | 0.6412   | 0.7023    | 0.7481    | 0.7634    | 0.7939    |
-| 3.1512        | 2.0   | 3890  | 2.9742          | 0.5223   | 0.7070   | 0.7389    | 0.7962    | 0.8089    | 0.8153    |
-| 2.9401        | 3.0   | 5835  | 2.8273          | 0.5796   | 0.6815   | 0.7325    | 0.7834    | 0.8025    | 0.8025    |
-| 2.8102        | 4.0   | 7780  | 2.7434          | 0.6051   | 0.7898   | 0.8089    | 0.8408    | 0.8471    | 0.8535    |
-| 2.6986        | 5.0   | 9725  | 2.6706          | 0.5973   | 0.7248   | 0.7584    | 0.7785    | 0.8054    | 0.8188    |
-| 2.6151        | 6.0   | 11670 | 2.6058          | 0.5484   | 0.6516   | 0.7290    | 0.7548    | 0.7677    | 0.7935    |
-| 2.5517        | 7.0   | 13615 | 2.5683          | 0.5906   | 0.7047   | 0.7651    | 0.8054    | 0.8188    | 0.8188    |
-| 2.4911        | 8.0   | 15560 | 2.5127          | 0.6644   | 0.7808   | 0.8288    | 0.8425    | 0.8493    | 0.8767    |
-| 2.4587        | 9.0   | 17505 | 2.5157          | 0.5886   | 0.6899   | 0.7342    | 0.7532    | 0.7722    | 0.7975    |
-| 2.4275        | 10.0  | 19450 | 2.4786          | 0.5608   | 0.7095   | 0.7365    | 0.7568    | 0.7770    | 0.7973    |
 ### Framework versions
 - Transformers 4.51.3
 - Pytorch 2.7.0+cu126
-- Datasets 3.5.1
 - Tokenizers 0.21.1

 This model is a fine-tuned version of [cabrooks/LOGION-50k_wordpiece](https://huggingface.co/cabrooks/LOGION-50k_wordpiece) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.5408
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 4e-05
 - train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42
 ### Training results
+| Training Loss | Epoch | Step  | Validation Loss |
+|:-------------:|:-----:|:-----:|:---------------:|
+| 3.7164        | 1.0   | 1945  | 3.2547          |
+| 3.1887        | 2.0   | 3890  | 3.0060          |
+| 2.9816        | 3.0   | 5835  | 2.8557          |
+| 2.8566        | 4.0   | 7780  | 2.7777          |
+| 2.7497        | 5.0   | 9725  | 2.7062          |
+| 2.6705        | 6.0   | 11670 | 2.6446          |
+| 2.6134        | 7.0   | 13615 | 2.6067          |
+| 2.5566        | 8.0   | 15560 | 2.5568          |
+| 2.5294        | 9.0   | 17505 | 2.5612          |
+| 2.5018        | 10.0  | 19450 | 2.5244          |
 ### Framework versions
 - Transformers 4.51.3
 - Pytorch 2.7.0+cu126
+- Datasets 3.6.0
 - Tokenizers 0.21.1

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 10.0,
-    "eval_loss": 2.4954521656036377,
-    "eval_runtime": 1447.5251,
-    "eval_samples_per_second": 2.394,
-    "eval_steps_per_second": 0.3,
     "eval_top10_acc": 0.7329192546583851,
     "eval_top15_acc": 0.7701863354037267,
     "eval_top1_acc": 0.4968944099378882,
@@ -12,8 +12,8 @@
     "eval_top5_acc": 0.6832298136645962,
     "step": 19450,
     "total_flos": 2.04819897090048e+16,
-    "train_loss": 2.78261650968027,
-    "train_runtime": 17591.3374,
-    "train_samples_per_second": 17.698,
-    "train_steps_per_second": 1.106
 }

 {
     "epoch": 10.0,
+    "eval_loss": 2.5408458709716797,
+    "eval_runtime": 26.4975,
+    "eval_samples_per_second": 130.805,
+    "eval_steps_per_second": 16.379,
     "eval_top10_acc": 0.7329192546583851,
     "eval_top15_acc": 0.7701863354037267,
     "eval_top1_acc": 0.4968944099378882,
     "eval_top5_acc": 0.6832298136645962,
     "step": 19450,
     "total_flos": 2.04819897090048e+16,
+    "train_loss": 2.836465446256427,
+    "train_runtime": 5611.6836,
+    "train_samples_per_second": 55.481,
+    "train_steps_per_second": 3.466
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,7 @@
 {
     "epoch": 10.0,
-    "eval_loss": 2.4954521656036377,
-    "eval_runtime": 1447.5251,
-    "eval_samples_per_second": 2.394,
-    "eval_steps_per_second": 0.3,
-    "eval_top10_acc": 0.7329192546583851,
-    "eval_top15_acc": 0.7701863354037267,
-    "eval_top1_acc": 0.4968944099378882,
-    "eval_top20_acc": 0.8136645962732919,
-    "eval_top25_acc": 0.84472049689441,
-    "eval_top5_acc": 0.6832298136645962
 }

 {
     "epoch": 10.0,
+    "eval_loss": 2.5408458709716797,
+    "eval_runtime": 26.4975,
+    "eval_samples_per_second": 130.805,
+    "eval_steps_per_second": 16.379
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3af1daa73536dd2971cd777ee89413ad3ce946c4c5a72af8298794d7f09febed
 size 497995232

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcb886e9e5e381ea97f2b5e4a06d1b6f0751a5ed19f347709138f0ae5ba3aa41
 size 497995232

train_results.json CHANGED Viewed

@@ -2,8 +2,8 @@
     "epoch": 10.0,
     "step": 19450,
     "total_flos": 2.04819897090048e+16,
-    "train_loss": 2.78261650968027,
-    "train_runtime": 17591.3374,
-    "train_samples_per_second": 17.698,
-    "train_steps_per_second": 1.106
 }

     "epoch": 10.0,
     "step": 19450,
     "total_flos": 2.04819897090048e+16,
+    "train_loss": 2.836465446256427,
+    "train_runtime": 5611.6836,
+    "train_samples_per_second": 55.481,
+    "train_steps_per_second": 3.466
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": null,
-  "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 10.0,
   "eval_steps": 500,
@@ -11,235 +11,169 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 7.5098795890808105,
-      "learning_rate": 4.500771208226221e-05,
-      "loss": 3.682,
       "step": 1945
     },
     {
       "epoch": 1.0,
-      "eval_loss": 3.2188210487365723,
-      "eval_runtime": 1468.3006,
-      "eval_samples_per_second": 2.361,
-      "eval_steps_per_second": 0.296,
-      "eval_top10_acc": 0.7022900763358778,
-      "eval_top15_acc": 0.7480916030534351,
-      "eval_top1_acc": 0.48091603053435117,
-      "eval_top20_acc": 0.7633587786259542,
-      "eval_top25_acc": 0.7938931297709924,
-      "eval_top5_acc": 0.6412213740458015,
       "step": 1945
     },
     {
       "epoch": 2.0,
-      "grad_norm": 7.310127258300781,
-      "learning_rate": 4.000771208226221e-05,
-      "loss": 3.1512,
       "step": 3890
     },
     {
       "epoch": 2.0,
-      "eval_loss": 2.9741616249084473,
-      "eval_runtime": 1459.0041,
-      "eval_samples_per_second": 2.376,
-      "eval_steps_per_second": 0.297,
-      "eval_top10_acc": 0.7388535031847133,
-      "eval_top15_acc": 0.7961783439490446,
-      "eval_top1_acc": 0.5222929936305732,
-      "eval_top20_acc": 0.8089171974522293,
-      "eval_top25_acc": 0.8152866242038217,
-      "eval_top5_acc": 0.7070063694267515,
       "step": 3890
     },
     {
       "epoch": 3.0,
-      "grad_norm": 7.220669269561768,
-      "learning_rate": 3.5010282776349616e-05,
-      "loss": 2.9401,
       "step": 5835
     },
     {
       "epoch": 3.0,
-      "eval_loss": 2.8273277282714844,
-      "eval_runtime": 1449.4875,
-      "eval_samples_per_second": 2.391,
-      "eval_steps_per_second": 0.299,
-      "eval_top10_acc": 0.732484076433121,
-      "eval_top15_acc": 0.7834394904458599,
-      "eval_top1_acc": 0.5796178343949044,
-      "eval_top20_acc": 0.802547770700637,
-      "eval_top25_acc": 0.802547770700637,
-      "eval_top5_acc": 0.6815286624203821,
       "step": 5835
     },
     {
       "epoch": 4.0,
-      "grad_norm": 6.662809371948242,
-      "learning_rate": 3.0010282776349617e-05,
-      "loss": 2.8102,
       "step": 7780
     },
     {
       "epoch": 4.0,
-      "eval_loss": 2.7433667182922363,
-      "eval_runtime": 1464.6527,
-      "eval_samples_per_second": 2.366,
-      "eval_steps_per_second": 0.296,
-      "eval_top10_acc": 0.8089171974522293,
-      "eval_top15_acc": 0.8407643312101911,
-      "eval_top1_acc": 0.6050955414012739,
-      "eval_top20_acc": 0.8471337579617835,
-      "eval_top25_acc": 0.8535031847133758,
-      "eval_top5_acc": 0.7898089171974523,
       "step": 7780
     },
     {
       "epoch": 5.0,
-      "grad_norm": 6.250679969787598,
-      "learning_rate": 2.501285347043702e-05,
-      "loss": 2.6986,
       "step": 9725
     },
     {
       "epoch": 5.0,
-      "eval_loss": 2.670605182647705,
-      "eval_runtime": 1457.7258,
-      "eval_samples_per_second": 2.378,
-      "eval_steps_per_second": 0.298,
-      "eval_top10_acc": 0.7583892617449665,
-      "eval_top15_acc": 0.7785234899328859,
-      "eval_top1_acc": 0.5973154362416108,
-      "eval_top20_acc": 0.8053691275167785,
-      "eval_top25_acc": 0.8187919463087249,
-      "eval_top5_acc": 0.7248322147651006,
       "step": 9725
     },
     {
       "epoch": 6.0,
-      "grad_norm": 7.041776657104492,
-      "learning_rate": 2.0012853470437018e-05,
-      "loss": 2.6151,
       "step": 11670
     },
     {
       "epoch": 6.0,
-      "eval_loss": 2.605792999267578,
-      "eval_runtime": 1462.3053,
-      "eval_samples_per_second": 2.37,
-      "eval_steps_per_second": 0.297,
-      "eval_top10_acc": 0.7290322580645161,
-      "eval_top15_acc": 0.7548387096774194,
-      "eval_top1_acc": 0.5483870967741935,
-      "eval_top20_acc": 0.7677419354838709,
-      "eval_top25_acc": 0.7935483870967742,
-      "eval_top5_acc": 0.6516129032258065,
       "step": 11670
     },
     {
       "epoch": 7.0,
-      "grad_norm": 7.394732475280762,
-      "learning_rate": 1.5015424164524421e-05,
-      "loss": 2.5517,
       "step": 13615
     },
     {
       "epoch": 7.0,
-      "eval_loss": 2.5682945251464844,
-      "eval_runtime": 1457.23,
-      "eval_samples_per_second": 2.378,
-      "eval_steps_per_second": 0.298,
-      "eval_top10_acc": 0.7651006711409396,
-      "eval_top15_acc": 0.8053691275167785,
-      "eval_top1_acc": 0.5906040268456376,
-      "eval_top20_acc": 0.8187919463087249,
-      "eval_top25_acc": 0.8187919463087249,
-      "eval_top5_acc": 0.7046979865771812,
       "step": 13615
     },
     {
       "epoch": 8.0,
-      "grad_norm": 6.788048267364502,
-      "learning_rate": 1.0017994858611827e-05,
-      "loss": 2.4911,
       "step": 15560
     },
     {
       "epoch": 8.0,
-      "eval_loss": 2.5127227306365967,
-      "eval_runtime": 1453.7592,
-      "eval_samples_per_second": 2.384,
-      "eval_steps_per_second": 0.299,
-      "eval_top10_acc": 0.8287671232876712,
-      "eval_top15_acc": 0.8424657534246576,
-      "eval_top1_acc": 0.6643835616438356,
-      "eval_top20_acc": 0.8493150684931506,
-      "eval_top25_acc": 0.8767123287671232,
-      "eval_top5_acc": 0.7808219178082192,
       "step": 15560
     },
     {
       "epoch": 9.0,
-      "grad_norm": 6.64603328704834,
-      "learning_rate": 5.017994858611825e-06,
-      "loss": 2.4587,
       "step": 17505
     },
     {
       "epoch": 9.0,
-      "eval_loss": 2.5156757831573486,
-      "eval_runtime": 1453.9459,
-      "eval_samples_per_second": 2.384,
-      "eval_steps_per_second": 0.298,
-      "eval_top10_acc": 0.7341772151898734,
-      "eval_top15_acc": 0.7531645569620253,
-      "eval_top1_acc": 0.5886075949367089,
-      "eval_top20_acc": 0.7721518987341772,
-      "eval_top25_acc": 0.7974683544303798,
-      "eval_top5_acc": 0.689873417721519,
       "step": 17505
     },
     {
       "epoch": 10.0,
-      "grad_norm": 7.522444248199463,
-      "learning_rate": 2.0565552699228795e-08,
-      "loss": 2.4275,
       "step": 19450
     },
     {
       "epoch": 10.0,
-      "eval_loss": 2.478581666946411,
-      "eval_runtime": 1450.9422,
-      "eval_samples_per_second": 2.389,
-      "eval_steps_per_second": 0.299,
-      "eval_top10_acc": 0.7364864864864865,
-      "eval_top15_acc": 0.7567567567567568,
-      "eval_top1_acc": 0.5608108108108109,
-      "eval_top20_acc": 0.777027027027027,
-      "eval_top25_acc": 0.7972972972972973,
-      "eval_top5_acc": 0.7094594594594594,
       "step": 19450
     },
     {
       "epoch": 10.0,
       "step": 19450,
       "total_flos": 2.04819897090048e+16,
-      "train_loss": 2.78261650968027,
-      "train_runtime": 17591.3374,
-      "train_samples_per_second": 17.698,
-      "train_steps_per_second": 1.106
     },
     {
       "epoch": 10.0,
-      "eval_loss": 2.4954521656036377,
-      "eval_runtime": 1447.5251,
-      "eval_samples_per_second": 2.394,
-      "eval_steps_per_second": 0.3,
-      "eval_top10_acc": 0.7329192546583851,
-      "eval_top15_acc": 0.7701863354037267,
-      "eval_top1_acc": 0.4968944099378882,
-      "eval_top20_acc": 0.8136645962732919,
-      "eval_top25_acc": 0.84472049689441,
-      "eval_top5_acc": 0.6832298136645962,
       "step": 19450
     }
   ],
@@ -249,6 +183,15 @@
   "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
         "should_epoch_stop": false,

 {
   "best_global_step": null,
+  "best_metric": 2.5244338512420654,
   "best_model_checkpoint": null,
   "epoch": 10.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 7.744540691375732,
+      "learning_rate": 3.600616966580978e-05,
+      "loss": 3.7164,
       "step": 1945
     },
     {
       "epoch": 1.0,
+      "eval_loss": 3.2547335624694824,
+      "eval_runtime": 24.9102,
+      "eval_samples_per_second": 139.14,
+      "eval_steps_per_second": 17.423,
       "step": 1945
     },
     {
       "epoch": 2.0,
+      "grad_norm": 7.693874359130859,
+      "learning_rate": 3.200822622107969e-05,
+      "loss": 3.1887,
       "step": 3890
     },
     {
       "epoch": 2.0,
+      "eval_loss": 3.0059654712677,
+      "eval_runtime": 24.8889,
+      "eval_samples_per_second": 139.259,
+      "eval_steps_per_second": 17.438,
       "step": 3890
     },
     {
       "epoch": 3.0,
+      "grad_norm": 7.287598609924316,
+      "learning_rate": 2.8010282776349616e-05,
+      "loss": 2.9816,
       "step": 5835
     },
     {
       "epoch": 3.0,
+      "eval_loss": 2.8556885719299316,
+      "eval_runtime": 24.9739,
+      "eval_samples_per_second": 138.785,
+      "eval_steps_per_second": 17.378,
       "step": 5835
     },
     {
       "epoch": 4.0,
+      "grad_norm": 6.844884872436523,
+      "learning_rate": 2.401439588688946e-05,
+      "loss": 2.8566,
       "step": 7780
     },
     {
       "epoch": 4.0,
+      "eval_loss": 2.7777276039123535,
+      "eval_runtime": 24.9528,
+      "eval_samples_per_second": 138.902,
+      "eval_steps_per_second": 17.393,
       "step": 7780
     },
     {
       "epoch": 5.0,
+      "grad_norm": 6.421507835388184,
+      "learning_rate": 2.001439588688946e-05,
+      "loss": 2.7497,
       "step": 9725
     },
     {
       "epoch": 5.0,
+      "eval_loss": 2.706150531768799,
+      "eval_runtime": 25.4567,
+      "eval_samples_per_second": 136.153,
+      "eval_steps_per_second": 17.049,
       "step": 9725
     },
     {
       "epoch": 6.0,
+      "grad_norm": 7.025661945343018,
+      "learning_rate": 1.6014395886889463e-05,
+      "loss": 2.6705,
       "step": 11670
     },
     {
       "epoch": 6.0,
+      "eval_loss": 2.644594430923462,
+      "eval_runtime": 24.4453,
+      "eval_samples_per_second": 141.786,
+      "eval_steps_per_second": 17.754,
       "step": 11670
     },
     {
       "epoch": 7.0,
+      "grad_norm": 7.462997913360596,
+      "learning_rate": 1.201439588688946e-05,
+      "loss": 2.6134,
       "step": 13615
     },
     {
       "epoch": 7.0,
+      "eval_loss": 2.6067004203796387,
+      "eval_runtime": 25.7293,
+      "eval_samples_per_second": 134.71,
+      "eval_steps_per_second": 16.868,
       "step": 13615
     },
     {
       "epoch": 8.0,
+      "grad_norm": 6.885842800140381,
+      "learning_rate": 8.016452442159383e-06,
+      "loss": 2.5566,
       "step": 15560
     },
     {
       "epoch": 8.0,
+      "eval_loss": 2.5567843914031982,
+      "eval_runtime": 26.1325,
+      "eval_samples_per_second": 132.632,
+      "eval_steps_per_second": 16.608,
       "step": 15560
     },
     {
       "epoch": 9.0,
+      "grad_norm": 6.753671646118164,
+      "learning_rate": 4.02056555269923e-06,
+      "loss": 2.5294,
       "step": 17505
     },
     {
       "epoch": 9.0,
+      "eval_loss": 2.5612432956695557,
+      "eval_runtime": 23.421,
+      "eval_samples_per_second": 147.987,
+      "eval_steps_per_second": 18.53,
       "step": 17505
     },
     {
       "epoch": 10.0,
+      "grad_norm": 7.779834270477295,
+      "learning_rate": 2.056555269922879e-08,
+      "loss": 2.5018,
       "step": 19450
     },
     {
       "epoch": 10.0,
+      "eval_loss": 2.5244338512420654,
+      "eval_runtime": 26.3445,
+      "eval_samples_per_second": 131.564,
+      "eval_steps_per_second": 16.474,
       "step": 19450
     },
     {
       "epoch": 10.0,
       "step": 19450,
       "total_flos": 2.04819897090048e+16,
+      "train_loss": 2.836465446256427,
+      "train_runtime": 5611.6836,
+      "train_samples_per_second": 55.481,
+      "train_steps_per_second": 3.466
     },
     {
       "epoch": 10.0,
+      "eval_loss": 2.5408458709716797,
+      "eval_runtime": 26.4975,
+      "eval_samples_per_second": 130.805,
+      "eval_steps_per_second": 16.379,
       "step": 19450
     }
   ],
   "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
     "TrainerControl": {
       "args": {
         "should_epoch_stop": false,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56d990e78a87875a305cb75d68d2e66e4c4d1896a4e05bd3d7dde0c1e1ebd2d3
 size 5649

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a3edd9f667d26281ac19fcd505b40032fd8864a7754c4e6e1c5f47d379f91c4
 size 5649