ILC-CNR/gs-greBERTa

Browse files

Files changed (6) hide show

README.md +22 -25
all_results.json +16 -14
eval_results.json +10 -8
model.safetensors +1 -1
train_results.json +6 -6
trainer_state.json +170 -148

README.md CHANGED Viewed

@@ -7,11 +7,6 @@ tags:
 model-index:
 - name: gs-greBERTa
   results: []
-datasets:
-- CNR-ILC/gs-maat-corpus
-metrics:
-- accuracy
-pipeline_tag: fill-mask
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -19,13 +14,15 @@ should probably proofread and complete it, then remove this comment. -->
 # gs-greBERTa
-This model is a fine-tuned version of [bowphs/GreBerta](https://huggingface.co/bowphs/GreBerta) on the [gs-maat-corpus](https://huggingface.co/datasets/CNR-ILC/gs-maat-corpus) dataset.
-It achieves the following results on the held out test set:
-- Loss: 0.5786
-- Top1 Acc: 0.8589
-- Top5 Acc: 0.9202
-- Top10 Acc: 0.9448
-- Top20 Acc: 0.9632
 ## Model description
@@ -55,18 +52,18 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step  | Validation Loss | Top1 Acc | Top5 Acc | Top10 Acc | Top20 Acc |
-|:-------------:|:-----:|:-----:|:---------------:|:--------:|:--------:|:---------:|:---------:|
-| 1.2561        | 1.0   | 5634  | 0.9441          | 0.7965   | 0.8837   | 0.9302    | 0.9593    |
-| 0.969         | 2.0   | 11268 | 0.8007          | 0.8028   | 0.9296   | 0.9366    | 0.9648    |
-| 0.8407        | 3.0   | 16902 | 0.7505          | 0.8092   | 0.9249   | 0.9480    | 0.9769    |
-| 0.7791        | 4.0   | 22536 | 0.6900          | 0.825    | 0.9313   | 0.95      | 0.975     |
-| 0.7264        | 5.0   | 28170 | 0.6541          | 0.8824   | 0.9471   | 0.9706    | 0.9765    |
-| 0.6872        | 6.0   | 33804 | 0.6343          | 0.8344   | 0.9264   | 0.9571    | 0.9877    |
-| 0.6553        | 7.0   | 39438 | 0.6069          | 0.8705   | 0.9568   | 0.9712    | 0.9784    |
-| 0.6479        | 8.0   | 45072 | 0.5924          | 0.8905   | 0.9708   | 0.9854    | 0.9927    |
-| 0.6181        | 9.0   | 50706 | 0.5827          | 0.8834   | 0.9571   | 0.9693    | 0.9816    |
-| 0.6051        | 10.0  | 56340 | 0.5851          | 0.8922   | 0.9701   | 1.0       | 1.0       |
 ### Framework versions
@@ -74,4 +71,4 @@ The following hyperparameters were used during training:
 - Transformers 4.51.3
 - Pytorch 2.7.0+cu126
 - Datasets 3.5.1
-- Tokenizers 0.21.1

 model-index:
 - name: gs-greBERTa
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # gs-greBERTa
+This model is a fine-tuned version of [bowphs/GreBerta](https://huggingface.co/bowphs/GreBerta) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.8902
+- Top1 Acc: 0.2938
+- Top5 Acc: 0.5563
+- Top10 Acc: 0.725
+- Top15 Acc: 0.8
+- Top20 Acc: 0.8562
+- Top25 Acc: 0.8875
 ## Model description
 ### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Top1 Acc | Top5 Acc | Top10 Acc | Top15 Acc | Top20 Acc | Top25 Acc |
+|:-------------:|:-----:|:-----:|:---------------:|:--------:|:--------:|:---------:|:---------:|:---------:|:---------:|
+| 1.2596        | 1.0   | 5710  | 0.9249          | 0.8129   | 0.8889   | 0.9123    | 0.9357    | 0.9415    | 0.9591    |
+| 0.9346        | 2.0   | 11420 | 0.8081          | 0.8      | 0.9214   | 0.9643    | 0.9714    | 0.9786    | 0.9929    |
+| 0.8283        | 3.0   | 17130 | 0.7369          | 0.8313   | 0.95     | 0.9563    | 0.975     | 0.9812    | 0.9812    |
+| 0.7704        | 4.0   | 22840 | 0.6792          | 0.7812   | 0.9062   | 0.9375    | 0.9375    | 0.95      | 0.9625    |
+| 0.7199        | 5.0   | 28550 | 0.6544          | 0.8158   | 0.9342   | 0.9539    | 0.9605    | 0.9671    | 0.9737    |
+| 0.6929        | 6.0   | 34260 | 0.6316          | 0.8235   | 0.9265   | 0.9412    | 0.9485    | 0.9485    | 0.9632    |
+| 1.0611        | 7.0   | 39970 | 2.5215          | 0.4110   | 0.6164   | 0.7397    | 0.8151    | 0.8699    | 0.9041    |
+| 2.6146        | 8.0   | 45680 | 2.8091          | 0.2865   | 0.4663   | 0.6292    | 0.7191    | 0.7640    | 0.7865    |
+| 2.8789        | 9.0   | 51390 | 2.9949          | 0.3469   | 0.5850   | 0.7211    | 0.8095    | 0.8435    | 0.8844    |
+| 2.9492        | 10.0  | 57100 | 2.8886          | 0.2733   | 0.5267   | 0.72      | 0.8       | 0.8467    | 0.8733    |
 ### Framework versions
 - Transformers 4.51.3
 - Pytorch 2.7.0+cu126
 - Datasets 3.5.1
+- Tokenizers 0.21.1

all_results.json CHANGED Viewed

@@ -1,17 +1,19 @@
 {
     "epoch": 10.0,
-    "eval_loss": 0.5786494612693787,
-    "eval_runtime": 736.6563,
-    "eval_samples_per_second": 3.851,
-    "eval_steps_per_second": 0.482,
-    "eval_top10_acc": 0.9447852760736196,
-    "eval_top1_acc": 0.8588957055214724,
-    "eval_top20_acc": 0.9631901840490797,
-    "eval_top5_acc": 0.9202453987730062,
-    "step": 56340,
-    "total_flos": 5.933070595915776e+16,
-    "train_loss": 0.7784920386062855,
-    "train_runtime": 14293.974,
-    "train_samples_per_second": 63.066,
-    "train_steps_per_second": 3.942
 }

 {
     "epoch": 10.0,
+    "eval_loss": 2.8902111053466797,
+    "eval_runtime": 4655.9501,
+    "eval_samples_per_second": 2.196,
+    "eval_steps_per_second": 0.274,
+    "eval_top10_acc": 0.725,
+    "eval_top15_acc": 0.8,
+    "eval_top1_acc": 0.29375,
+    "eval_top20_acc": 0.85625,
+    "eval_top25_acc": 0.8875,
+    "eval_top5_acc": 0.55625,
+    "step": 57100,
+    "total_flos": 6.01310491705344e+16,
+    "train_loss": 1.4709516054277036,
+    "train_runtime": 50482.2285,
+    "train_samples_per_second": 18.099,
+    "train_steps_per_second": 1.131
 }

eval_results.json CHANGED Viewed

@@ -1,11 +1,13 @@
 {
     "epoch": 10.0,
-    "eval_loss": 0.5786494612693787,
-    "eval_runtime": 736.6563,
-    "eval_samples_per_second": 3.851,
-    "eval_steps_per_second": 0.482,
-    "eval_top10_acc": 0.9447852760736196,
-    "eval_top1_acc": 0.8588957055214724,
-    "eval_top20_acc": 0.9631901840490797,
-    "eval_top5_acc": 0.9202453987730062
 }

 {
     "epoch": 10.0,
+    "eval_loss": 2.8902111053466797,
+    "eval_runtime": 4655.9501,
+    "eval_samples_per_second": 2.196,
+    "eval_steps_per_second": 0.274,
+    "eval_top10_acc": 0.725,
+    "eval_top15_acc": 0.8,
+    "eval_top1_acc": 0.29375,
+    "eval_top20_acc": 0.85625,
+    "eval_top25_acc": 0.8875,
+    "eval_top5_acc": 0.55625
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbc282e85cce75ef4bb3e2e8e5e0fe234ef492beebc040cd69cd3f3746b1457c
 size 504150808

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf585d817002ecdff72009d19f5d4b18258b1b20cd6eec4beb507b78b6b9897c
 size 504150808

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 10.0,
-    "step": 56340,
-    "total_flos": 5.933070595915776e+16,
-    "train_loss": 0.7784920386062855,
-    "train_runtime": 14293.974,
-    "train_samples_per_second": 63.066,
-    "train_steps_per_second": 3.942
 }

 {
     "epoch": 10.0,
+    "step": 57100,
+    "total_flos": 6.01310491705344e+16,
+    "train_loss": 1.4709516054277036,
+    "train_runtime": 50482.2285,
+    "train_samples_per_second": 18.099,
+    "train_steps_per_second": 1.131
 }

trainer_state.json CHANGED Viewed

@@ -4,225 +4,247 @@
   "best_model_checkpoint": null,
   "epoch": 10.0,
   "eval_steps": 500,
-  "global_step": 56340,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 5.6999335289001465,
-      "learning_rate": 4.5005324813631524e-05,
-      "loss": 1.2561,
-      "step": 5634
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.9440904259681702,
-      "eval_runtime": 727.0892,
-      "eval_samples_per_second": 3.902,
-      "eval_steps_per_second": 0.488,
-      "eval_top10_acc": 0.9302325581395349,
-      "eval_top1_acc": 0.7965116279069767,
-      "eval_top20_acc": 0.9593023255813954,
-      "eval_top5_acc": 0.8837209302325582,
-      "step": 5634
     },
     {
       "epoch": 2.0,
-      "grad_norm": 4.9532036781311035,
-      "learning_rate": 4.000887468938587e-05,
-      "loss": 0.969,
-      "step": 11268
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.8007155656814575,
-      "eval_runtime": 732.2211,
-      "eval_samples_per_second": 3.875,
-      "eval_steps_per_second": 0.485,
-      "eval_top10_acc": 0.9366197183098591,
-      "eval_top1_acc": 0.8028169014084507,
-      "eval_top20_acc": 0.9647887323943662,
-      "eval_top5_acc": 0.9295774647887324,
-      "step": 11268
     },
     {
       "epoch": 3.0,
-      "grad_norm": 4.767992973327637,
-      "learning_rate": 3.5011537096201635e-05,
-      "loss": 0.8407,
-      "step": 16902
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.750490665435791,
-      "eval_runtime": 746.6021,
-      "eval_samples_per_second": 3.8,
-      "eval_steps_per_second": 0.475,
-      "eval_top10_acc": 0.9479768786127167,
-      "eval_top1_acc": 0.8092485549132948,
-      "eval_top20_acc": 0.976878612716763,
-      "eval_top5_acc": 0.9248554913294798,
-      "step": 16902
     },
     {
       "epoch": 4.0,
-      "grad_norm": 4.196132659912109,
-      "learning_rate": 3.0011537096201635e-05,
-      "loss": 0.7791,
-      "step": 22536
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.6900169849395752,
-      "eval_runtime": 744.1442,
-      "eval_samples_per_second": 3.812,
-      "eval_steps_per_second": 0.477,
-      "eval_top10_acc": 0.95,
-      "eval_top1_acc": 0.825,
-      "eval_top20_acc": 0.975,
-      "eval_top5_acc": 0.93125,
-      "step": 22536
     },
     {
       "epoch": 5.0,
-      "grad_norm": 4.124821186065674,
-      "learning_rate": 2.5014199503017393e-05,
-      "loss": 0.7264,
-      "step": 28170
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.6541450619697571,
-      "eval_runtime": 732.9508,
-      "eval_samples_per_second": 3.871,
-      "eval_steps_per_second": 0.484,
-      "eval_top10_acc": 0.9705882352941176,
-      "eval_top1_acc": 0.8823529411764706,
-      "eval_top20_acc": 0.9764705882352941,
-      "eval_top5_acc": 0.9470588235294117,
-      "step": 28170
     },
     {
       "epoch": 6.0,
-      "grad_norm": 4.150660991668701,
-      "learning_rate": 2.001508697195598e-05,
-      "loss": 0.6872,
-      "step": 33804
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.6342827081680298,
-      "eval_runtime": 735.093,
-      "eval_samples_per_second": 3.859,
-      "eval_steps_per_second": 0.483,
-      "eval_top10_acc": 0.9570552147239264,
-      "eval_top1_acc": 0.8343558282208589,
-      "eval_top20_acc": 0.9877300613496932,
-      "eval_top5_acc": 0.9263803680981595,
-      "step": 33804
     },
     {
       "epoch": 7.0,
-      "grad_norm": 4.235877990722656,
-      "learning_rate": 1.501597444089457e-05,
-      "loss": 0.6553,
-      "step": 39438
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.6069093942642212,
-      "eval_runtime": 729.8603,
-      "eval_samples_per_second": 3.887,
-      "eval_steps_per_second": 0.486,
-      "eval_top10_acc": 0.9712230215827338,
-      "eval_top1_acc": 0.8705035971223022,
-      "eval_top20_acc": 0.9784172661870504,
-      "eval_top5_acc": 0.9568345323741008,
-      "step": 39438
     },
     {
       "epoch": 8.0,
-      "grad_norm": 4.277960777282715,
-      "learning_rate": 1.0021299254526093e-05,
-      "loss": 0.6479,
-      "step": 45072
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.5924458503723145,
-      "eval_runtime": 735.4415,
-      "eval_samples_per_second": 3.858,
-      "eval_steps_per_second": 0.483,
-      "eval_top10_acc": 0.9854014598540146,
-      "eval_top1_acc": 0.8905109489051095,
-      "eval_top20_acc": 0.9927007299270073,
-      "eval_top5_acc": 0.9708029197080292,
-      "step": 45072
     },
     {
       "epoch": 9.0,
-      "grad_norm": 3.431784152984619,
-      "learning_rate": 5.023074192403266e-06,
-      "loss": 0.6181,
-      "step": 50706
     },
     {
       "epoch": 9.0,
-      "eval_loss": 0.5826597213745117,
-      "eval_runtime": 740.5141,
-      "eval_samples_per_second": 3.831,
-      "eval_steps_per_second": 0.479,
-      "eval_top10_acc": 0.9693251533742331,
-      "eval_top1_acc": 0.8834355828220859,
-      "eval_top20_acc": 0.9815950920245399,
-      "eval_top5_acc": 0.9570552147239264,
-      "step": 50706
     },
     {
       "epoch": 10.0,
-      "grad_norm": 4.740328788757324,
-      "learning_rate": 2.5736599219027333e-08,
-      "loss": 0.6051,
-      "step": 56340
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.5851157307624817,
-      "eval_runtime": 739.7027,
-      "eval_samples_per_second": 3.835,
-      "eval_steps_per_second": 0.48,
-      "eval_top10_acc": 1.0,
-      "eval_top1_acc": 0.8922155688622755,
-      "eval_top20_acc": 1.0,
-      "eval_top5_acc": 0.9700598802395209,
-      "step": 56340
     },
     {
       "epoch": 10.0,
-      "step": 56340,
-      "total_flos": 5.933070595915776e+16,
-      "train_loss": 0.7784920386062855,
-      "train_runtime": 14293.974,
-      "train_samples_per_second": 63.066,
-      "train_steps_per_second": 3.942
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.5786494612693787,
-      "eval_runtime": 736.6563,
-      "eval_samples_per_second": 3.851,
-      "eval_steps_per_second": 0.482,
-      "eval_top10_acc": 0.9447852760736196,
-      "eval_top1_acc": 0.8588957055214724,
-      "eval_top20_acc": 0.9631901840490797,
-      "eval_top5_acc": 0.9202453987730062,
-      "step": 56340
     }
   ],
   "logging_steps": 500,
-  "max_steps": 56340,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
@@ -238,7 +260,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.933070595915776e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

   "best_model_checkpoint": null,
   "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 57100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 4.83211088180542,
+      "learning_rate": 4.50061295971979e-05,
+      "loss": 1.2596,
+      "step": 5710
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.9248688817024231,
+      "eval_runtime": 4196.9447,
+      "eval_samples_per_second": 2.436,
+      "eval_steps_per_second": 0.305,
+      "eval_top10_acc": 0.9122807017543859,
+      "eval_top15_acc": 0.935672514619883,
+      "eval_top1_acc": 0.8128654970760234,
+      "eval_top20_acc": 0.9415204678362573,
+      "eval_top25_acc": 0.9590643274853801,
+      "eval_top5_acc": 0.8888888888888888,
+      "step": 5710
     },
     {
       "epoch": 2.0,
+      "grad_norm": 5.2830610275268555,
+      "learning_rate": 4.0007005253940456e-05,
+      "loss": 0.9346,
+      "step": 11420
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.8081104159355164,
+      "eval_runtime": 4239.8896,
+      "eval_samples_per_second": 2.411,
+      "eval_steps_per_second": 0.301,
+      "eval_top10_acc": 0.9642857142857143,
+      "eval_top15_acc": 0.9714285714285714,
+      "eval_top1_acc": 0.8,
+      "eval_top20_acc": 0.9785714285714285,
+      "eval_top25_acc": 0.9928571428571429,
+      "eval_top5_acc": 0.9214285714285714,
+      "step": 11420
     },
     {
       "epoch": 3.0,
+      "grad_norm": 4.63004207611084,
+      "learning_rate": 3.500875656742557e-05,
+      "loss": 0.8283,
+      "step": 17130
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.7369009852409363,
+      "eval_runtime": 4264.7537,
+      "eval_samples_per_second": 2.397,
+      "eval_steps_per_second": 0.3,
+      "eval_top10_acc": 0.95625,
+      "eval_top15_acc": 0.975,
+      "eval_top1_acc": 0.83125,
+      "eval_top20_acc": 0.98125,
+      "eval_top25_acc": 0.98125,
+      "eval_top5_acc": 0.95,
+      "step": 17130
     },
     {
       "epoch": 4.0,
+      "grad_norm": 4.364180564880371,
+      "learning_rate": 3.0010507880910683e-05,
+      "loss": 0.7704,
+      "step": 22840
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.6792041063308716,
+      "eval_runtime": 4245.71,
+      "eval_samples_per_second": 2.408,
+      "eval_steps_per_second": 0.301,
+      "eval_top10_acc": 0.9375,
+      "eval_top15_acc": 0.9375,
+      "eval_top1_acc": 0.78125,
+      "eval_top20_acc": 0.95,
+      "eval_top25_acc": 0.9625,
+      "eval_top5_acc": 0.90625,
+      "step": 22840
     },
     {
       "epoch": 5.0,
+      "grad_norm": 4.872766971588135,
+      "learning_rate": 2.50122591943958e-05,
+      "loss": 0.7199,
+      "step": 28550
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.6544201970100403,
+      "eval_runtime": 4216.6247,
+      "eval_samples_per_second": 2.425,
+      "eval_steps_per_second": 0.303,
+      "eval_top10_acc": 0.9539473684210527,
+      "eval_top15_acc": 0.9605263157894737,
+      "eval_top1_acc": 0.8157894736842105,
+      "eval_top20_acc": 0.9671052631578947,
+      "eval_top25_acc": 0.9736842105263158,
+      "eval_top5_acc": 0.9342105263157895,
+      "step": 28550
     },
     {
       "epoch": 6.0,
+      "grad_norm": 4.480776309967041,
+      "learning_rate": 2.001488616462347e-05,
+      "loss": 0.6929,
+      "step": 34260
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.63157719373703,
+      "eval_runtime": 4227.1237,
+      "eval_samples_per_second": 2.419,
+      "eval_steps_per_second": 0.302,
+      "eval_top10_acc": 0.9411764705882353,
+      "eval_top15_acc": 0.9485294117647058,
+      "eval_top1_acc": 0.8235294117647058,
+      "eval_top20_acc": 0.9485294117647058,
+      "eval_top25_acc": 0.9632352941176471,
+      "eval_top5_acc": 0.9264705882352942,
+      "step": 34260
     },
     {
       "epoch": 7.0,
+      "grad_norm": 5.865991592407227,
+      "learning_rate": 1.5018388791593696e-05,
+      "loss": 1.0611,
+      "step": 39970
     },
     {
       "epoch": 7.0,
+      "eval_loss": 2.5214645862579346,
+      "eval_runtime": 4231.1251,
+      "eval_samples_per_second": 2.416,
+      "eval_steps_per_second": 0.302,
+      "eval_top10_acc": 0.7397260273972602,
+      "eval_top15_acc": 0.815068493150685,
+      "eval_top1_acc": 0.410958904109589,
+      "eval_top20_acc": 0.8698630136986302,
+      "eval_top25_acc": 0.9041095890410958,
+      "eval_top5_acc": 0.6164383561643836,
+      "step": 39970
     },
     {
       "epoch": 8.0,
+      "grad_norm": 5.6015849113464355,
+      "learning_rate": 1.0021015761821365e-05,
+      "loss": 2.6146,
+      "step": 45680
     },
     {
       "epoch": 8.0,
+      "eval_loss": 2.8090970516204834,
+      "eval_runtime": 4501.1732,
+      "eval_samples_per_second": 2.271,
+      "eval_steps_per_second": 0.284,
+      "eval_top10_acc": 0.6292134831460674,
+      "eval_top15_acc": 0.7191011235955056,
+      "eval_top1_acc": 0.28651685393258425,
+      "eval_top20_acc": 0.7640449438202247,
+      "eval_top25_acc": 0.7865168539325843,
+      "eval_top5_acc": 0.46629213483146065,
+      "step": 45680
     },
     {
       "epoch": 9.0,
+      "grad_norm": 5.040839672088623,
+      "learning_rate": 5.023642732049037e-06,
+      "loss": 2.8789,
+      "step": 51390
     },
     {
       "epoch": 9.0,
+      "eval_loss": 2.994880199432373,
+      "eval_runtime": 4685.973,
+      "eval_samples_per_second": 2.182,
+      "eval_steps_per_second": 0.273,
+      "eval_top10_acc": 0.7210884353741497,
+      "eval_top15_acc": 0.8095238095238095,
+      "eval_top1_acc": 0.3469387755102041,
+      "eval_top20_acc": 0.8435374149659864,
+      "eval_top25_acc": 0.8843537414965986,
+      "eval_top5_acc": 0.5850340136054422,
+      "step": 51390
     },
     {
       "epoch": 10.0,
+      "grad_norm": 5.243908405303955,
+      "learning_rate": 2.4518388791593697e-08,
+      "loss": 2.9492,
+      "step": 57100
     },
     {
       "epoch": 10.0,
+      "eval_loss": 2.8885974884033203,
+      "eval_runtime": 4645.6271,
+      "eval_samples_per_second": 2.201,
+      "eval_steps_per_second": 0.275,
+      "eval_top10_acc": 0.72,
+      "eval_top15_acc": 0.8,
+      "eval_top1_acc": 0.2733333333333333,
+      "eval_top20_acc": 0.8466666666666667,
+      "eval_top25_acc": 0.8733333333333333,
+      "eval_top5_acc": 0.5266666666666666,
+      "step": 57100
     },
     {
       "epoch": 10.0,
+      "step": 57100,
+      "total_flos": 6.01310491705344e+16,
+      "train_loss": 1.4709516054277036,
+      "train_runtime": 50482.2285,
+      "train_samples_per_second": 18.099,
+      "train_steps_per_second": 1.131
     },
     {
       "epoch": 10.0,
+      "eval_loss": 2.8902111053466797,
+      "eval_runtime": 4655.9501,
+      "eval_samples_per_second": 2.196,
+      "eval_steps_per_second": 0.274,
+      "eval_top10_acc": 0.725,
+      "eval_top15_acc": 0.8,
+      "eval_top1_acc": 0.29375,
+      "eval_top20_acc": 0.85625,
+      "eval_top25_acc": 0.8875,
+      "eval_top5_acc": 0.55625,
+      "step": 57100
     }
   ],
   "logging_steps": 500,
+  "max_steps": 57100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 6.01310491705344e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null