zireael08/swin-msldv2

Browse files

Files changed (7) hide show

README.md +14 -14
all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +304 -304
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -23,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.9929701230228472
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -33,8 +33,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0139
-- Accuracy: 0.9930
 ## Model description
@@ -53,7 +53,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0002
 - train_batch_size: 32
 - eval_batch_size: 64
 - seed: 42
@@ -66,16 +66,16 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 0.6791        | 1.0   | 83   | 0.4035          | 0.8389   |
-| 0.5440        | 2.0   | 166  | 0.4195          | 0.8301   |
-| 0.5461        | 3.0   | 249  | 0.2318          | 0.9062   |
-| 0.3638        | 4.0   | 332  | 0.1876          | 0.9186   |
-| 0.2937        | 5.0   | 415  | 0.1239          | 0.9540   |
-| 0.1980        | 6.0   | 498  | 0.0752          | 0.9770   |
-| 0.1727        | 7.0   | 581  | 0.0600          | 0.9823   |
-| 0.0900        | 8.0   | 664  | 0.0722          | 0.9858   |
-| 0.0441        | 9.0   | 747  | 0.0640          | 0.9876   |
-| 0.1195        | 10.0  | 830  | 0.0693          | 0.9841   |
 ### Framework versions

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.9982425307557118
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0098
+- Accuracy: 0.9982
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0001
 - train_batch_size: 32
 - eval_batch_size: 64
 - seed: 42
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 0.6367        | 1.0   | 83   | 0.4612          | 0.8248   |
+| 0.4656        | 2.0   | 166  | 0.3608          | 0.8496   |
+| 0.4911        | 3.0   | 249  | 0.1344          | 0.9646   |
+| 0.1630        | 4.0   | 332  | 0.1347          | 0.9575   |
+| 0.1872        | 5.0   | 415  | 0.1106          | 0.9628   |
+| 0.1801        | 6.0   | 498  | 0.0968          | 0.9823   |
+| 0.1453        | 7.0   | 581  | 0.1196          | 0.9717   |
+| 0.0787        | 8.0   | 664  | 0.0838          | 0.9894   |
+| 0.0353        | 9.0   | 747  | 0.0801          | 0.9912   |
+| 0.0878        | 10.0  | 830  | 0.0818          | 0.9912   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.9929701230228472,
-    "eval_loss": 0.013884289190173149,
-    "eval_runtime": 5.6893,
-    "eval_samples_per_second": 100.013,
-    "eval_steps_per_second": 1.582,
     "total_flos": 8.593274471605862e+17,
-    "train_loss": 0.33146001000002207,
-    "train_runtime": 922.6735,
-    "train_samples_per_second": 28.623,
-    "train_steps_per_second": 0.9
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.9982425307557118,
+    "eval_loss": 0.009822744876146317,
+    "eval_runtime": 6.0857,
+    "eval_samples_per_second": 93.498,
+    "eval_steps_per_second": 1.479,
     "total_flos": 8.593274471605862e+17,
+    "train_loss": 0.29410572172288435,
+    "train_runtime": 896.4382,
+    "train_samples_per_second": 29.461,
+    "train_steps_per_second": 0.926
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.9929701230228472,
-    "eval_loss": 0.013884289190173149,
-    "eval_runtime": 5.6893,
-    "eval_samples_per_second": 100.013,
-    "eval_steps_per_second": 1.582
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.9982425307557118,
+    "eval_loss": 0.009822744876146317,
+    "eval_runtime": 6.0857,
+    "eval_samples_per_second": 93.498,
+    "eval_steps_per_second": 1.479
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88893b360ace28496cff1e3fb3284cbcf229d4e60a790e577d565d9fbe374109
 size 110362448

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe2399d36d2c712a58c79aa8eada79a504907fecd03646c12c6865d1884ee997
 size 110362448

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
     "total_flos": 8.593274471605862e+17,
-    "train_loss": 0.33146001000002207,
-    "train_runtime": 922.6735,
-    "train_samples_per_second": 28.623,
-    "train_steps_per_second": 0.9
 }

 {
     "epoch": 10.0,
     "total_flos": 8.593274471605862e+17,
+    "train_loss": 0.29410572172288435,
+    "train_runtime": 896.4382,
+    "train_samples_per_second": 29.461,
+    "train_steps_per_second": 0.926
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 747,
-  "best_metric": 0.9876106194690265,
   "best_model_checkpoint": "./logs/checkpoint-747",
   "epoch": 10.0,
   "eval_steps": 500,
@@ -11,683 +11,683 @@
   "log_history": [
     {
       "epoch": 0.12048192771084337,
-      "grad_norm": 6.176705837249756,
-      "learning_rate": 2.168674698795181e-05,
-      "loss": 1.7943456649780274,
       "step": 10
     },
     {
       "epoch": 0.24096385542168675,
-      "grad_norm": 8.065713882446289,
-      "learning_rate": 4.578313253012048e-05,
-      "loss": 1.5439151763916015,
       "step": 20
     },
     {
       "epoch": 0.3614457831325301,
-      "grad_norm": 7.123748302459717,
-      "learning_rate": 6.987951807228917e-05,
-      "loss": 1.2263535499572753,
       "step": 30
     },
     {
       "epoch": 0.4819277108433735,
-      "grad_norm": 15.442414283752441,
-      "learning_rate": 9.397590361445784e-05,
-      "loss": 0.8671344757080078,
       "step": 40
     },
     {
       "epoch": 0.6024096385542169,
-      "grad_norm": 13.811105728149414,
-      "learning_rate": 0.00011807228915662652,
-      "loss": 0.7558579444885254,
       "step": 50
     },
     {
       "epoch": 0.7228915662650602,
-      "grad_norm": 11.728008270263672,
-      "learning_rate": 0.00014216867469879518,
-      "loss": 0.8202498435974122,
       "step": 60
     },
     {
       "epoch": 0.8433734939759037,
-      "grad_norm": 9.147120475769043,
-      "learning_rate": 0.00016626506024096388,
-      "loss": 0.7484613418579101,
       "step": 70
     },
     {
       "epoch": 0.963855421686747,
-      "grad_norm": 13.851210594177246,
-      "learning_rate": 0.00019036144578313252,
-      "loss": 0.6791098594665528,
       "step": 80
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.8389380530973451,
-      "eval_loss": 0.40345069766044617,
-      "eval_runtime": 5.4508,
-      "eval_samples_per_second": 103.654,
-      "eval_steps_per_second": 1.651,
       "step": 83
     },
     {
       "epoch": 1.0843373493975903,
-      "grad_norm": 7.1830878257751465,
-      "learning_rate": 0.00019996816476922677,
-      "loss": 0.627526044845581,
       "step": 90
     },
     {
       "epoch": 1.2048192771084336,
-      "grad_norm": 9.858720779418945,
-      "learning_rate": 0.00019977368953632839,
-      "loss": 0.5963219165802002,
       "step": 100
     },
     {
       "epoch": 1.3253012048192772,
-      "grad_norm": 16.397104263305664,
-      "learning_rate": 0.0001994027688138541,
-      "loss": 0.6106359958648682,
       "step": 110
     },
     {
       "epoch": 1.4457831325301205,
-      "grad_norm": 8.843240737915039,
-      "learning_rate": 0.00019885605855918885,
-      "loss": 0.6805217742919922,
       "step": 120
     },
     {
       "epoch": 1.5662650602409638,
-      "grad_norm": 14.887824058532715,
-      "learning_rate": 0.0001981345256059637,
-      "loss": 0.531688928604126,
       "step": 130
     },
     {
       "epoch": 1.6867469879518073,
-      "grad_norm": 9.859296798706055,
-      "learning_rate": 0.0001972394459542521,
-      "loss": 0.5321962833404541,
       "step": 140
     },
     {
       "epoch": 1.8072289156626506,
-      "grad_norm": 22.302900314331055,
-      "learning_rate": 0.0001961724025140185,
-      "loss": 0.5432641983032227,
       "step": 150
     },
     {
       "epoch": 1.927710843373494,
-      "grad_norm": 8.619937896728516,
-      "learning_rate": 0.00019493528230580992,
-      "loss": 0.5439841747283936,
       "step": 160
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8300884955752212,
-      "eval_loss": 0.4195369780063629,
-      "eval_runtime": 5.4707,
-      "eval_samples_per_second": 103.278,
-      "eval_steps_per_second": 1.645,
       "step": 166
     },
     {
       "epoch": 2.0481927710843375,
-      "grad_norm": 24.363290786743164,
-      "learning_rate": 0.00019353027312364116,
-      "loss": 0.5910098552703857,
       "step": 170
     },
     {
       "epoch": 2.1686746987951806,
-      "grad_norm": 6.910096168518066,
-      "learning_rate": 0.00019195985966597494,
-      "loss": 0.5120758533477783,
       "step": 180
     },
     {
       "epoch": 2.289156626506024,
-      "grad_norm": 17.687562942504883,
-      "learning_rate": 0.00019022681914163917,
-      "loss": 0.405228328704834,
       "step": 190
     },
     {
       "epoch": 2.4096385542168672,
-      "grad_norm": 12.02397632598877,
-      "learning_rate": 0.0001883342163584523,
-      "loss": 0.48291816711425783,
       "step": 200
     },
     {
       "epoch": 2.5301204819277108,
-      "grad_norm": 18.50483512878418,
-      "learning_rate": 0.00018628539830324229,
-      "loss": 0.4583749294281006,
       "step": 210
     },
     {
       "epoch": 2.6506024096385543,
-      "grad_norm": 6.045924186706543,
-      "learning_rate": 0.00018408398822284392,
-      "loss": 0.48716106414794924,
       "step": 220
     },
     {
       "epoch": 2.7710843373493974,
-      "grad_norm": 11.271085739135742,
-      "learning_rate": 0.0001817338792165421,
-      "loss": 0.3358022212982178,
       "step": 230
     },
     {
       "epoch": 2.891566265060241,
-      "grad_norm": 12.60858154296875,
-      "learning_rate": 0.00017923922735129302,
-      "loss": 0.546141242980957,
       "step": 240
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9061946902654867,
-      "eval_loss": 0.23178476095199585,
-      "eval_runtime": 5.4341,
-      "eval_samples_per_second": 103.972,
-      "eval_steps_per_second": 1.656,
       "step": 249
     },
     {
       "epoch": 3.0120481927710845,
-      "grad_norm": 8.480234146118164,
-      "learning_rate": 0.0001766044443118978,
-      "loss": 0.34228219985961916,
       "step": 250
     },
     {
       "epoch": 3.1325301204819276,
-      "grad_norm": 17.870315551757812,
-      "learning_rate": 0.00017383418959912746,
-      "loss": 0.3570461988449097,
       "step": 260
     },
     {
       "epoch": 3.253012048192771,
-      "grad_norm": 3.9850714206695557,
-      "learning_rate": 0.00017093336228959536,
-      "loss": 0.30241072177886963,
       "step": 270
     },
     {
       "epoch": 3.3734939759036147,
-      "grad_norm": 12.326411247253418,
-      "learning_rate": 0.00016790709237195065,
-      "loss": 0.4090369701385498,
       "step": 280
     },
     {
       "epoch": 3.4939759036144578,
-      "grad_norm": 4.366477966308594,
-      "learning_rate": 0.00016476073167471345,
-      "loss": 0.3212424755096436,
       "step": 290
     },
     {
       "epoch": 3.6144578313253013,
-      "grad_norm": 9.694393157958984,
-      "learning_rate": 0.00016149984440179537,
-      "loss": 0.2823866128921509,
       "step": 300
     },
     {
       "epoch": 3.734939759036145,
-      "grad_norm": 8.204358100891113,
-      "learning_rate": 0.00015813019729244405,
-      "loss": 0.2677892208099365,
       "step": 310
     },
     {
       "epoch": 3.855421686746988,
-      "grad_norm": 7.021804332733154,
-      "learning_rate": 0.0001546577494230118,
-      "loss": 0.24797892570495605,
       "step": 320
     },
     {
       "epoch": 3.9759036144578315,
-      "grad_norm": 9.44687557220459,
-      "learning_rate": 0.00015108864166858506,
-      "loss": 0.3637809991836548,
       "step": 330
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9185840707964602,
-      "eval_loss": 0.1876251995563507,
-      "eval_runtime": 5.4214,
-      "eval_samples_per_second": 104.217,
-      "eval_steps_per_second": 1.66,
       "step": 332
     },
     {
       "epoch": 4.096385542168675,
-      "grad_norm": 7.593841552734375,
-      "learning_rate": 0.00014742918584311,
-      "loss": 0.3275733470916748,
       "step": 340
     },
     {
       "epoch": 4.216867469879518,
-      "grad_norm": 9.369234085083008,
-      "learning_rate": 0.00014368585353722048,
-      "loss": 0.26893665790557864,
       "step": 350
     },
     {
       "epoch": 4.337349397590361,
-      "grad_norm": 19.293025970458984,
-      "learning_rate": 0.0001398652646735076,
-      "loss": 0.27639012336730956,
       "step": 360
     },
     {
       "epoch": 4.457831325301205,
-      "grad_norm": 17.32465171813965,
-      "learning_rate": 0.00013597417579947054,
-      "loss": 0.2637490749359131,
       "step": 370
     },
     {
       "epoch": 4.578313253012048,
-      "grad_norm": 6.271369934082031,
-      "learning_rate": 0.00013201946813885232,
-      "loss": 0.34631929397583006,
       "step": 380
     },
     {
       "epoch": 4.698795180722891,
-      "grad_norm": 8.38680362701416,
-      "learning_rate": 0.00012800813542249072,
-      "loss": 0.22855329513549805,
       "step": 390
     },
     {
       "epoch": 4.8192771084337345,
-      "grad_norm": 9.031497955322266,
-      "learning_rate": 0.00012394727152020528,
-      "loss": 0.3539623498916626,
       "step": 400
     },
     {
       "epoch": 4.9397590361445785,
-      "grad_norm": 8.364486694335938,
-      "learning_rate": 0.00011984405789559298,
-      "loss": 0.2936580657958984,
       "step": 410
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9539823008849557,
-      "eval_loss": 0.12390898168087006,
-      "eval_runtime": 5.8382,
-      "eval_samples_per_second": 96.776,
-      "eval_steps_per_second": 1.542,
       "step": 415
     },
     {
       "epoch": 5.0602409638554215,
-      "grad_norm": 5.641082763671875,
-      "learning_rate": 0.00011570575090591791,
-      "loss": 0.20228171348571777,
       "step": 420
     },
     {
       "epoch": 5.180722891566265,
-      "grad_norm": 5.010425567626953,
-      "learning_rate": 0.00011153966896955468,
-      "loss": 0.2692150354385376,
       "step": 430
     },
     {
       "epoch": 5.301204819277109,
-      "grad_norm": 5.971624374389648,
-      "learning_rate": 0.00010735317962367959,
-      "loss": 0.21376564502716064,
       "step": 440
     },
     {
       "epoch": 5.421686746987952,
-      "grad_norm": 9.657953262329102,
-      "learning_rate": 0.00010315368649509716,
-      "loss": 0.15639951229095458,
       "step": 450
     },
     {
       "epoch": 5.542168674698795,
-      "grad_norm": 6.185604095458984,
-      "learning_rate": 9.894861620724375e-05,
-      "loss": 0.23455722332000734,
       "step": 460
     },
     {
       "epoch": 5.662650602409639,
-      "grad_norm": 4.242949962615967,
-      "learning_rate": 9.474540524652267e-05,
-      "loss": 0.1507526993751526,
       "step": 470
     },
     {
       "epoch": 5.783132530120482,
-      "grad_norm": 9.122421264648438,
-      "learning_rate": 9.055148681119688e-05,
-      "loss": 0.21329116821289062,
       "step": 480
     },
     {
       "epoch": 5.903614457831325,
-      "grad_norm": 2.256641149520874,
-      "learning_rate": 8.637427766609691e-05,
-      "loss": 0.19799797534942626,
       "step": 490
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9769911504424779,
-      "eval_loss": 0.0752442330121994,
-      "eval_runtime": 5.5001,
-      "eval_samples_per_second": 102.725,
-      "eval_steps_per_second": 1.636,
       "step": 498
     },
     {
       "epoch": 6.024096385542169,
-      "grad_norm": 5.028798580169678,
-      "learning_rate": 8.222116502639032e-05,
-      "loss": 0.10370807647705078,
       "step": 500
     },
     {
       "epoch": 6.144578313253012,
-      "grad_norm": 7.922329902648926,
-      "learning_rate": 7.809949349360872e-05,
-      "loss": 0.1501248598098755,
       "step": 510
     },
     {
       "epoch": 6.265060240963855,
-      "grad_norm": 3.3606350421905518,
-      "learning_rate": 7.401655206703479e-05,
-      "loss": 0.1932325005531311,
       "step": 520
     },
     {
       "epoch": 6.385542168674699,
-      "grad_norm": 4.238986492156982,
-      "learning_rate": 6.99795612534202e-05,
-      "loss": 0.14431376457214357,
       "step": 530
     },
     {
       "epoch": 6.506024096385542,
-      "grad_norm": 5.669098854064941,
-      "learning_rate": 6.599566029782863e-05,
-      "loss": 0.19270881414413452,
       "step": 540
     },
     {
       "epoch": 6.626506024096385,
-      "grad_norm": 1.8570481538772583,
-      "learning_rate": 6.20718945581877e-05,
-      "loss": 0.12588899135589598,
       "step": 550
     },
     {
       "epoch": 6.746987951807229,
-      "grad_norm": 8.998724937438965,
-      "learning_rate": 5.821520304587528e-05,
-      "loss": 0.1433807611465454,
       "step": 560
     },
     {
       "epoch": 6.867469879518072,
-      "grad_norm": 5.294978141784668,
-      "learning_rate": 5.443240615437586e-05,
-      "loss": 0.13480768203735352,
       "step": 570
     },
     {
       "epoch": 6.9879518072289155,
-      "grad_norm": 6.6459832191467285,
-      "learning_rate": 5.07301935977071e-05,
-      "loss": 0.17268821001052856,
       "step": 580
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9823008849557522,
-      "eval_loss": 0.05996280908584595,
-      "eval_runtime": 5.4871,
-      "eval_samples_per_second": 102.969,
-      "eval_steps_per_second": 1.64,
       "step": 581
     },
     {
       "epoch": 7.108433734939759,
-      "grad_norm": 6.390337944030762,
-      "learning_rate": 4.7115112579947675e-05,
-      "loss": 0.11058632135391236,
       "step": 590
     },
     {
       "epoch": 7.228915662650603,
-      "grad_norm": 6.371334552764893,
-      "learning_rate": 4.359355621678764e-05,
-      "loss": 0.13580918312072754,
       "step": 600
     },
     {
       "epoch": 7.349397590361446,
-      "grad_norm": 5.915042400360107,
-      "learning_rate": 4.0171752229577875e-05,
-      "loss": 0.10019686222076415,
       "step": 610
     },
     {
       "epoch": 7.469879518072289,
-      "grad_norm": 10.278961181640625,
-      "learning_rate": 3.6855751931871516e-05,
-      "loss": 0.10151375532150268,
       "step": 620
     },
     {
       "epoch": 7.590361445783133,
-      "grad_norm": 4.616462230682373,
-      "learning_rate": 3.365141952793622e-05,
-      "loss": 0.11933131217956543,
       "step": 630
     },
     {
       "epoch": 7.710843373493976,
-      "grad_norm": 14.82908821105957,
-      "learning_rate": 3.056442174215985e-05,
-      "loss": 0.11742031574249268,
       "step": 640
     },
     {
       "epoch": 7.831325301204819,
-      "grad_norm": 7.869307518005371,
-      "learning_rate": 2.7600217797692042e-05,
-      "loss": 0.13143677711486818,
       "step": 650
     },
     {
       "epoch": 7.951807228915663,
-      "grad_norm": 8.95853328704834,
-      "learning_rate": 2.4764049762041874e-05,
-      "loss": 0.09001794457435608,
       "step": 660
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9858407079646018,
-      "eval_loss": 0.07218904048204422,
-      "eval_runtime": 5.8913,
-      "eval_samples_per_second": 95.904,
-      "eval_steps_per_second": 1.528,
       "step": 664
     },
     {
       "epoch": 8.072289156626505,
-      "grad_norm": 6.763011455535889,
-      "learning_rate": 2.2060933276706586e-05,
-      "loss": 0.1112417459487915,
       "step": 670
     },
     {
       "epoch": 8.19277108433735,
-      "grad_norm": 3.7270097732543945,
-      "learning_rate": 1.9495648687224676e-05,
-      "loss": 0.05919206738471985,
       "step": 680
     },
     {
       "epoch": 8.313253012048193,
-      "grad_norm": 3.07499361038208,
-      "learning_rate": 1.7072732589339955e-05,
-      "loss": 0.12545101642608641,
       "step": 690
     },
     {
       "epoch": 8.433734939759036,
-      "grad_norm": 5.470985412597656,
-      "learning_rate": 1.4796469806226532e-05,
-      "loss": 0.0804430365562439,
       "step": 700
     },
     {
       "epoch": 8.55421686746988,
-      "grad_norm": 6.063421726226807,
-      "learning_rate": 1.2670885810962884e-05,
-      "loss": 0.06899781823158264,
       "step": 710
     },
     {
       "epoch": 8.674698795180722,
-      "grad_norm": 1.9861423969268799,
-      "learning_rate": 1.0699739607655435e-05,
-      "loss": 0.06391697525978088,
       "step": 720
     },
     {
       "epoch": 8.795180722891565,
-      "grad_norm": 7.721556186676025,
-      "learning_rate": 8.886517083801015e-06,
-      "loss": 0.1207929015159607,
       "step": 730
     },
     {
       "epoch": 8.91566265060241,
-      "grad_norm": 0.324483186006546,
-      "learning_rate": 7.234424845644383e-06,
-      "loss": 0.04410604834556579,
       "step": 740
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.9876106194690265,
-      "eval_loss": 0.06401132047176361,
-      "eval_runtime": 5.8918,
-      "eval_samples_per_second": 95.896,
-      "eval_steps_per_second": 1.528,
       "step": 747
     },
     {
       "epoch": 9.036144578313253,
-      "grad_norm": 0.9848870038986206,
-      "learning_rate": 5.746384547432737e-06,
-      "loss": 0.028363901376724242,
       "step": 750
     },
     {
       "epoch": 9.156626506024097,
-      "grad_norm": 3.6140482425689697,
-      "learning_rate": 4.425027724595298e-06,
-      "loss": 0.10400755405426025,
       "step": 760
     },
     {
       "epoch": 9.27710843373494,
-      "grad_norm": 2.882124900817871,
-      "learning_rate": 3.2726911399860837e-06,
-      "loss": 0.11473925113677978,
       "step": 770
     },
     {
       "epoch": 9.397590361445783,
-      "grad_norm": 3.0985116958618164,
-      "learning_rate": 2.291412651418778e-06,
-      "loss": 0.11879135370254516,
       "step": 780
     },
     {
       "epoch": 9.518072289156626,
-      "grad_norm": 6.65316104888916,
-      "learning_rate": 1.482927607802853e-06,
-      "loss": 0.08090834617614746,
       "step": 790
     },
     {
       "epoch": 9.638554216867469,
-      "grad_norm": 0.7483940124511719,
-      "learning_rate": 8.486657802532439e-07,
-      "loss": 0.052888357639312746,
       "step": 800
     },
     {
       "epoch": 9.759036144578314,
-      "grad_norm": 3.122527599334717,
-      "learning_rate": 3.8974883360169966e-07,
-      "loss": 0.07597114443778992,
       "step": 810
     },
     {
       "epoch": 9.879518072289157,
-      "grad_norm": 3.4678826332092285,
-      "learning_rate": 1.0698834278045633e-07,
-      "loss": 0.0631083905696869,
       "step": 820
     },
     {
       "epoch": 10.0,
-      "grad_norm": 0.2041388303041458,
-      "learning_rate": 8.843575868833221e-10,
-      "loss": 0.11945844888687134,
       "step": 830
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.984070796460177,
-      "eval_loss": 0.06931564211845398,
-      "eval_runtime": 5.5703,
-      "eval_samples_per_second": 101.431,
-      "eval_steps_per_second": 1.616,
       "step": 830
     },
     {
       "epoch": 10.0,
       "step": 830,
       "total_flos": 8.593274471605862e+17,
-      "train_loss": 0.33146001000002207,
-      "train_runtime": 922.6735,
-      "train_samples_per_second": 28.623,
-      "train_steps_per_second": 0.9
     }
   ],
   "logging_steps": 10,

 {
   "best_global_step": 747,
+  "best_metric": 0.9911504424778761,
   "best_model_checkpoint": "./logs/checkpoint-747",
   "epoch": 10.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.12048192771084337,
+      "grad_norm": 6.236629486083984,
+      "learning_rate": 1.0843373493975904e-05,
+      "loss": 1.7779657363891601,
       "step": 10
     },
     {
       "epoch": 0.24096385542168675,
+      "grad_norm": 6.614838123321533,
+      "learning_rate": 2.289156626506024e-05,
+      "loss": 1.6157239913940429,
       "step": 20
     },
     {
       "epoch": 0.3614457831325301,
+      "grad_norm": 8.87565803527832,
+      "learning_rate": 3.4939759036144585e-05,
+      "loss": 1.3881938934326172,
       "step": 30
     },
     {
       "epoch": 0.4819277108433735,
+      "grad_norm": 8.774048805236816,
+      "learning_rate": 4.698795180722892e-05,
+      "loss": 1.0548779487609863,
       "step": 40
     },
     {
       "epoch": 0.6024096385542169,
+      "grad_norm": 10.919977188110352,
+      "learning_rate": 5.903614457831326e-05,
+      "loss": 0.860891056060791,
       "step": 50
     },
     {
       "epoch": 0.7228915662650602,
+      "grad_norm": 17.067983627319336,
+      "learning_rate": 7.108433734939759e-05,
+      "loss": 0.7981919765472412,
       "step": 60
     },
     {
       "epoch": 0.8433734939759037,
+      "grad_norm": 9.766481399536133,
+      "learning_rate": 8.313253012048194e-05,
+      "loss": 0.7360480785369873,
       "step": 70
     },
     {
       "epoch": 0.963855421686747,
+      "grad_norm": 11.55764102935791,
+      "learning_rate": 9.518072289156626e-05,
+      "loss": 0.636728572845459,
       "step": 80
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8247787610619469,
+      "eval_loss": 0.46115025877952576,
+      "eval_runtime": 5.444,
+      "eval_samples_per_second": 103.785,
+      "eval_steps_per_second": 1.653,
       "step": 83
     },
     {
       "epoch": 1.0843373493975903,
+      "grad_norm": 13.059717178344727,
+      "learning_rate": 9.998408238461338e-05,
+      "loss": 0.5606242656707764,
       "step": 90
     },
     {
       "epoch": 1.2048192771084336,
+      "grad_norm": 7.8438615798950195,
+      "learning_rate": 9.988684476816419e-05,
+      "loss": 0.4747779369354248,
       "step": 100
     },
     {
       "epoch": 1.3253012048192772,
+      "grad_norm": 17.873554229736328,
+      "learning_rate": 9.970138440692705e-05,
+      "loss": 0.513523006439209,
       "step": 110
     },
     {
       "epoch": 1.4457831325301205,
+      "grad_norm": 11.972646713256836,
+      "learning_rate": 9.942802927959443e-05,
+      "loss": 0.5974394321441651,
       "step": 120
     },
     {
       "epoch": 1.5662650602409638,
+      "grad_norm": 16.943544387817383,
+      "learning_rate": 9.906726280298186e-05,
+      "loss": 0.452280855178833,
       "step": 130
     },
     {
       "epoch": 1.6867469879518073,
+      "grad_norm": 9.1749906539917,
+      "learning_rate": 9.861972297712605e-05,
+      "loss": 0.4720293045043945,
       "step": 140
     },
     {
       "epoch": 1.8072289156626506,
+      "grad_norm": 11.010215759277344,
+      "learning_rate": 9.808620125700925e-05,
+      "loss": 0.4886914253234863,
       "step": 150
     },
     {
       "epoch": 1.927710843373494,
+      "grad_norm": 8.292040824890137,
+      "learning_rate": 9.746764115290496e-05,
+      "loss": 0.46558895111083987,
       "step": 160
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8495575221238938,
+      "eval_loss": 0.3608015775680542,
+      "eval_runtime": 5.678,
+      "eval_samples_per_second": 99.507,
+      "eval_steps_per_second": 1.585,
       "step": 166
     },
     {
       "epoch": 2.0481927710843375,
+      "grad_norm": 17.205005645751953,
+      "learning_rate": 9.676513656182058e-05,
+      "loss": 0.36324758529663087,
       "step": 170
     },
     {
       "epoch": 2.1686746987951806,
+      "grad_norm": 11.862001419067383,
+      "learning_rate": 9.597992983298747e-05,
+      "loss": 0.4520224094390869,
       "step": 180
     },
     {
       "epoch": 2.289156626506024,
+      "grad_norm": 15.979503631591797,
+      "learning_rate": 9.511340957081958e-05,
+      "loss": 0.40279397964477537,
       "step": 190
     },
     {
       "epoch": 2.4096385542168672,
+      "grad_norm": 14.119962692260742,
+      "learning_rate": 9.416710817922615e-05,
+      "loss": 0.41336545944213865,
       "step": 200
     },
     {
       "epoch": 2.5301204819277108,
+      "grad_norm": 17.406816482543945,
+      "learning_rate": 9.314269915162114e-05,
+      "loss": 0.3019423961639404,
       "step": 210
     },
     {
       "epoch": 2.6506024096385543,
+      "grad_norm": 14.716191291809082,
+      "learning_rate": 9.204199411142196e-05,
+      "loss": 0.3748778820037842,
       "step": 220
     },
     {
       "epoch": 2.7710843373493974,
+      "grad_norm": 21.437185287475586,
+      "learning_rate": 9.086693960827105e-05,
+      "loss": 0.34201803207397463,
       "step": 230
     },
     {
       "epoch": 2.891566265060241,
+      "grad_norm": 10.061134338378906,
+      "learning_rate": 8.961961367564651e-05,
+      "loss": 0.49113874435424804,
       "step": 240
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9646017699115044,
+      "eval_loss": 0.1344006061553955,
+      "eval_runtime": 6.1864,
+      "eval_samples_per_second": 91.329,
+      "eval_steps_per_second": 1.455,
       "step": 249
     },
     {
       "epoch": 3.0120481927710845,
+      "grad_norm": 12.825634956359863,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.27299160957336427,
       "step": 250
     },
     {
       "epoch": 3.1325301204819276,
+      "grad_norm": 10.527647972106934,
+      "learning_rate": 8.691709479956373e-05,
+      "loss": 0.24414093494415284,
       "step": 260
     },
     {
       "epoch": 3.253012048192771,
+      "grad_norm": 4.087771892547607,
+      "learning_rate": 8.546668114479768e-05,
+      "loss": 0.18104053735733033,
       "step": 270
     },
     {
       "epoch": 3.3734939759036147,
+      "grad_norm": 9.269667625427246,
+      "learning_rate": 8.395354618597533e-05,
+      "loss": 0.3339837551116943,
       "step": 280
     },
     {
       "epoch": 3.4939759036144578,
+      "grad_norm": 5.284663200378418,
+      "learning_rate": 8.238036583735673e-05,
+      "loss": 0.2400984764099121,
       "step": 290
     },
     {
       "epoch": 3.6144578313253013,
+      "grad_norm": 8.479917526245117,
+      "learning_rate": 8.074992220089769e-05,
+      "loss": 0.22019331455230712,
       "step": 300
     },
     {
       "epoch": 3.734939759036145,
+      "grad_norm": 9.128419876098633,
+      "learning_rate": 7.906509864622203e-05,
+      "loss": 0.25870823860168457,
       "step": 310
     },
     {
       "epoch": 3.855421686746988,
+      "grad_norm": 12.799089431762695,
+      "learning_rate": 7.73288747115059e-05,
+      "loss": 0.20678648948669434,
       "step": 320
     },
     {
       "epoch": 3.9759036144578315,
+      "grad_norm": 11.251450538635254,
+      "learning_rate": 7.554432083429253e-05,
+      "loss": 0.1629856824874878,
       "step": 330
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9575221238938053,
+      "eval_loss": 0.13474561274051666,
+      "eval_runtime": 5.6362,
+      "eval_samples_per_second": 100.245,
+      "eval_steps_per_second": 1.597,
       "step": 332
     },
     {
       "epoch": 4.096385542168675,
+      "grad_norm": 19.876901626586914,
+      "learning_rate": 7.3714592921555e-05,
+      "loss": 0.24734578132629395,
       "step": 340
     },
     {
       "epoch": 4.216867469879518,
+      "grad_norm": 13.15965461730957,
+      "learning_rate": 7.184292676861024e-05,
+      "loss": 0.22765071392059327,
       "step": 350
     },
     {
       "epoch": 4.337349397590361,
+      "grad_norm": 12.12977123260498,
+      "learning_rate": 6.99326323367538e-05,
+      "loss": 0.17916421890258788,
       "step": 360
     },
     {
       "epoch": 4.457831325301205,
+      "grad_norm": 8.979646682739258,
+      "learning_rate": 6.798708789973527e-05,
+      "loss": 0.1901506304740906,
       "step": 370
     },
     {
       "epoch": 4.578313253012048,
+      "grad_norm": 5.592668056488037,
+      "learning_rate": 6.600973406942616e-05,
+      "loss": 0.22261853218078614,
       "step": 380
     },
     {
       "epoch": 4.698795180722891,
+      "grad_norm": 12.222548484802246,
+      "learning_rate": 6.400406771124536e-05,
+      "loss": 0.16046804189682007,
       "step": 390
     },
     {
       "epoch": 4.8192771084337345,
+      "grad_norm": 9.516422271728516,
+      "learning_rate": 6.197363576010264e-05,
+      "loss": 0.3090466022491455,
       "step": 400
     },
     {
       "epoch": 4.9397590361445785,
+      "grad_norm": 8.311286926269531,
+      "learning_rate": 5.992202894779649e-05,
+      "loss": 0.18722275495529175,
       "step": 410
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9628318584070796,
+      "eval_loss": 0.11059214919805527,
+      "eval_runtime": 5.668,
+      "eval_samples_per_second": 99.682,
+      "eval_steps_per_second": 1.588,
       "step": 415
     },
     {
       "epoch": 5.0602409638554215,
+      "grad_norm": 6.544140338897705,
+      "learning_rate": 5.7852875452958954e-05,
+      "loss": 0.1725080966949463,
       "step": 420
     },
     {
       "epoch": 5.180722891566265,
+      "grad_norm": 7.241940975189209,
+      "learning_rate": 5.576983448477734e-05,
+      "loss": 0.2657145023345947,
       "step": 430
     },
     {
       "epoch": 5.301204819277109,
+      "grad_norm": 2.805722713470459,
+      "learning_rate": 5.3676589811839796e-05,
+      "loss": 0.16265145540237427,
       "step": 440
     },
     {
       "epoch": 5.421686746987952,
+      "grad_norm": 7.153483867645264,
+      "learning_rate": 5.157684324754858e-05,
+      "loss": 0.1511433720588684,
       "step": 450
     },
     {
       "epoch": 5.542168674698795,
+      "grad_norm": 3.1414175033569336,
+      "learning_rate": 4.9474308103621874e-05,
+      "loss": 0.15450478792190553,
       "step": 460
     },
     {
       "epoch": 5.662650602409639,
+      "grad_norm": 3.8960776329040527,
+      "learning_rate": 4.737270262326134e-05,
+      "loss": 0.13111191987991333,
       "step": 470
     },
     {
       "epoch": 5.783132530120482,
+      "grad_norm": 7.418442726135254,
+      "learning_rate": 4.527574340559844e-05,
+      "loss": 0.1539200186729431,
       "step": 480
     },
     {
       "epoch": 5.903614457831325,
+      "grad_norm": 8.860248565673828,
+      "learning_rate": 4.3187138833048456e-05,
+      "loss": 0.1801429271697998,
       "step": 490
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9823008849557522,
+      "eval_loss": 0.09679495543241501,
+      "eval_runtime": 6.1076,
+      "eval_samples_per_second": 92.508,
+      "eval_steps_per_second": 1.474,
       "step": 498
     },
     {
       "epoch": 6.024096385542169,
+      "grad_norm": 11.467449188232422,
+      "learning_rate": 4.111058251319516e-05,
+      "loss": 0.11156998872756958,
       "step": 500
     },
     {
       "epoch": 6.144578313253012,
+      "grad_norm": 13.2984037399292,
+      "learning_rate": 3.904974674680436e-05,
+      "loss": 0.11730811595916749,
       "step": 510
     },
     {
       "epoch": 6.265060240963855,
+      "grad_norm": 3.543509006500244,
+      "learning_rate": 3.7008276033517396e-05,
+      "loss": 0.19998840093612671,
       "step": 520
     },
     {
       "epoch": 6.385542168674699,
+      "grad_norm": 4.334460735321045,
+      "learning_rate": 3.49897806267101e-05,
+      "loss": 0.09577634930610657,
       "step": 530
     },
     {
       "epoch": 6.506024096385542,
+      "grad_norm": 1.5698552131652832,
+      "learning_rate": 3.2997830148914314e-05,
+      "loss": 0.11064940690994263,
       "step": 540
     },
     {
       "epoch": 6.626506024096385,
+      "grad_norm": 1.4867029190063477,
+      "learning_rate": 3.103594727909385e-05,
+      "loss": 0.0978583574295044,
       "step": 550
     },
     {
       "epoch": 6.746987951807229,
+      "grad_norm": 8.762438774108887,
+      "learning_rate": 2.910760152293764e-05,
+      "loss": 0.08853105902671814,
       "step": 560
     },
     {
       "epoch": 6.867469879518072,
+      "grad_norm": 5.0525360107421875,
+      "learning_rate": 2.721620307718793e-05,
+      "loss": 0.13467444181442262,
       "step": 570
     },
     {
       "epoch": 6.9879518072289155,
+      "grad_norm": 13.927603721618652,
+      "learning_rate": 2.536509679885355e-05,
+      "loss": 0.14531443119049073,
       "step": 580
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9716814159292035,
+      "eval_loss": 0.1196078509092331,
+      "eval_runtime": 5.7351,
+      "eval_samples_per_second": 98.517,
+      "eval_steps_per_second": 1.569,
       "step": 581
     },
     {
       "epoch": 7.108433734939759,
+      "grad_norm": 1.3813672065734863,
+      "learning_rate": 2.3557556289973838e-05,
+      "loss": 0.07141577005386353,
       "step": 590
     },
     {
       "epoch": 7.228915662650603,
+      "grad_norm": 11.30803108215332,
+      "learning_rate": 2.179677810839382e-05,
+      "loss": 0.08913902044296265,
       "step": 600
     },
     {
       "epoch": 7.349397590361446,
+      "grad_norm": 15.15943717956543,
+      "learning_rate": 2.0085876114788937e-05,
+      "loss": 0.1786208987236023,
       "step": 610
     },
     {
       "epoch": 7.469879518072289,
+      "grad_norm": 6.659374237060547,
+      "learning_rate": 1.8427875965935758e-05,
+      "loss": 0.05375434160232544,
       "step": 620
     },
     {
       "epoch": 7.590361445783133,
+      "grad_norm": 3.859622001647949,
+      "learning_rate": 1.682570976396811e-05,
+      "loss": 0.13732693195343018,
       "step": 630
     },
     {
       "epoch": 7.710843373493976,
+      "grad_norm": 4.593474388122559,
+      "learning_rate": 1.5282210871079926e-05,
+      "loss": 0.09100980162620545,
       "step": 640
     },
     {
       "epoch": 7.831325301204819,
+      "grad_norm": 13.193694114685059,
+      "learning_rate": 1.3800108898846021e-05,
+      "loss": 0.09656141400337219,
       "step": 650
     },
     {
       "epoch": 7.951807228915663,
+      "grad_norm": 13.730281829833984,
+      "learning_rate": 1.2382024881020937e-05,
+      "loss": 0.0786526083946228,
       "step": 660
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9893805309734514,
+      "eval_loss": 0.08379530161619186,
+      "eval_runtime": 5.6656,
+      "eval_samples_per_second": 99.724,
+      "eval_steps_per_second": 1.589,
       "step": 664
     },
     {
       "epoch": 8.072289156626505,
+      "grad_norm": 1.4331773519515991,
+      "learning_rate": 1.1030466638353293e-05,
+      "loss": 0.0922305703163147,
       "step": 670
     },
     {
       "epoch": 8.19277108433735,
+      "grad_norm": 11.172012329101562,
+      "learning_rate": 9.747824343612338e-06,
+      "loss": 0.051563167572021486,
       "step": 680
     },
     {
       "epoch": 8.313253012048193,
+      "grad_norm": 9.389365196228027,
+      "learning_rate": 8.536366294669978e-06,
+      "loss": 0.0976746916770935,
       "step": 690
     },
     {
       "epoch": 8.433734939759036,
+      "grad_norm": 0.6641272902488708,
+      "learning_rate": 7.398234903113266e-06,
+      "loss": 0.07286246418952942,
       "step": 700
     },
     {
       "epoch": 8.55421686746988,
+      "grad_norm": 10.819772720336914,
+      "learning_rate": 6.335442905481442e-06,
+      "loss": 0.07259726524353027,
       "step": 710
     },
     {
       "epoch": 8.674698795180722,
+      "grad_norm": 0.8964389562606812,
+      "learning_rate": 5.349869803827717e-06,
+      "loss": 0.043448707461357115,
       "step": 720
     },
     {
       "epoch": 8.795180722891565,
+      "grad_norm": 7.601110935211182,
+      "learning_rate": 4.4432585419005076e-06,
+      "loss": 0.10902594327926636,
       "step": 730
     },
     {
       "epoch": 8.91566265060241,
+      "grad_norm": 0.9344149827957153,
+      "learning_rate": 3.6172124228221914e-06,
+      "loss": 0.03534201383590698,
       "step": 740
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9911504424778761,
+      "eval_loss": 0.0801326259970665,
+      "eval_runtime": 6.1806,
+      "eval_samples_per_second": 91.415,
+      "eval_steps_per_second": 1.456,
       "step": 747
     },
     {
       "epoch": 9.036144578313253,
+      "grad_norm": 2.648090124130249,
+      "learning_rate": 2.8731922737163685e-06,
+      "loss": 0.024153660237789153,
       "step": 750
     },
     {
       "epoch": 9.156626506024097,
+      "grad_norm": 7.166019439697266,
+      "learning_rate": 2.212513862297649e-06,
+      "loss": 0.12096415758132935,
       "step": 760
     },
     {
       "epoch": 9.27710843373494,
+      "grad_norm": 9.207470893859863,
+      "learning_rate": 1.6363455699930419e-06,
+      "loss": 0.10932642221450806,
       "step": 770
     },
     {
       "epoch": 9.397590361445783,
+      "grad_norm": 2.5481743812561035,
+      "learning_rate": 1.145706325709389e-06,
+      "loss": 0.06989773511886596,
       "step": 780
     },
     {
       "epoch": 9.518072289156626,
+      "grad_norm": 12.317899703979492,
+      "learning_rate": 7.414638039014265e-07,
+      "loss": 0.08738085627555847,
       "step": 790
     },
     {
       "epoch": 9.638554216867469,
+      "grad_norm": 2.812633752822876,
+      "learning_rate": 4.2433289012662194e-07,
+      "loss": 0.04424922168254852,
       "step": 800
     },
     {
       "epoch": 9.759036144578314,
+      "grad_norm": 1.378448486328125,
+      "learning_rate": 1.9487441680084983e-07,
+      "loss": 0.07828723788261413,
       "step": 810
     },
     {
       "epoch": 9.879518072289157,
+      "grad_norm": 9.539847373962402,
+      "learning_rate": 5.3494171390228166e-08,
+      "loss": 0.06453937888145447,
       "step": 820
     },
     {
       "epoch": 10.0,
+      "grad_norm": 0.7179245948791504,
+      "learning_rate": 4.4217879344166103e-10,
+      "loss": 0.08780375719070435,
       "step": 830
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.9911504424778761,
+      "eval_loss": 0.08178059756755829,
+      "eval_runtime": 5.6512,
+      "eval_samples_per_second": 99.979,
+      "eval_steps_per_second": 1.593,
       "step": 830
     },
     {
       "epoch": 10.0,
       "step": 830,
       "total_flos": 8.593274471605862e+17,
+      "train_loss": 0.29410572172288435,
+      "train_runtime": 896.4382,
+      "train_samples_per_second": 29.461,
+      "train_steps_per_second": 0.926
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72ac52cd7661209822ca173a4c3a27f6b18940c628449005a218e0107865dfb3
 size 5201

 version https://git-lfs.github.com/spec/v1
+oid sha256:a59329c3833ceef25e02a3057cd6a7cff3d8905c772dabca522835eecbd1b79b
 size 5201