Uploaded Model

Browse files

Files changed (5) hide show

all_results.json +16 -0
eval_results.json +11 -0
runs/Jun25_08-42-36_c7693021b18b/events.out.tfevents.1687684637.c7693021b18b.4388.1 +3 -0
train_results.json +8 -0
trainer_state.json +1465 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 4.0,
+    "eval_accuracy": 0.8528678304239401,
+    "eval_f1": 0.8528678304239401,
+    "eval_loss": 0.43922504782676697,
+    "eval_precision": 0.8528678304239401,
+    "eval_recall": 0.8528678304239401,
+    "eval_runtime": 37.7149,
+    "eval_samples_per_second": 53.162,
+    "eval_steps_per_second": 6.655,
+    "total_flos": 2.482954611949486e+18,
+    "train_loss": 0.3798632252359105,
+    "train_runtime": 1963.4033,
+    "train_samples_per_second": 16.319,
+    "train_steps_per_second": 1.021
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 4.0,
+    "eval_accuracy": 0.8528678304239401,
+    "eval_f1": 0.8528678304239401,
+    "eval_loss": 0.43922504782676697,
+    "eval_precision": 0.8528678304239401,
+    "eval_recall": 0.8528678304239401,
+    "eval_runtime": 37.7149,
+    "eval_samples_per_second": 53.162,
+    "eval_steps_per_second": 6.655
+}

runs/Jun25_08-42-36_c7693021b18b/events.out.tfevents.1687684637.c7693021b18b.4388.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bfa3d0b3637e72fcc4df1ca09fe07c45fb0f22b5ad5716e75f2ed601bb73327b
+size 560

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 4.0,
+    "total_flos": 2.482954611949486e+18,
+    "train_loss": 0.3798632252359105,
+    "train_runtime": 1963.4033,
+    "train_samples_per_second": 16.319,
+    "train_steps_per_second": 1.021
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1465 @@

+{
+  "best_metric": 0.43922504782676697,
+  "best_model_checkpoint": "./vit-base-HAM-10000-sharpened/checkpoint-1500",
+  "epoch": 4.0,
+  "global_step": 2004,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00019900199600798404,
+      "loss": 1.3227,
+      "step": 10
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019800399201596808,
+      "loss": 1.0383,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0001970059880239521,
+      "loss": 1.1101,
+      "step": 30
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019600798403193614,
+      "loss": 1.0701,
+      "step": 40
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019500998003992018,
+      "loss": 0.968,
+      "step": 50
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019401197604790419,
+      "loss": 0.7883,
+      "step": 60
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019301397205588822,
+      "loss": 0.8685,
+      "step": 70
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019201596806387228,
+      "loss": 0.6708,
+      "step": 80
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001910179640718563,
+      "loss": 0.7676,
+      "step": 90
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019001996007984032,
+      "loss": 0.7303,
+      "step": 100
+    },
+    {
+      "epoch": 0.2,
+      "eval_accuracy": 0.7197007481296758,
+      "eval_f1": 0.7197007481296758,
+      "eval_loss": 0.7828209400177002,
+      "eval_precision": 0.7197007481296758,
+      "eval_recall": 0.7197007481296758,
+      "eval_runtime": 37.1729,
+      "eval_samples_per_second": 53.937,
+      "eval_steps_per_second": 6.752,
+      "step": 100
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00018902195608782435,
+      "loss": 0.8345,
+      "step": 110
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0001880239520958084,
+      "loss": 0.713,
+      "step": 120
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00018702594810379242,
+      "loss": 0.8032,
+      "step": 130
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00018602794411177646,
+      "loss": 0.8546,
+      "step": 140
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001850299401197605,
+      "loss": 0.8987,
+      "step": 150
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00018403193612774452,
+      "loss": 0.8248,
+      "step": 160
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00018303393213572856,
+      "loss": 0.8294,
+      "step": 170
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00018203592814371256,
+      "loss": 0.634,
+      "step": 180
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00018103792415169662,
+      "loss": 0.8274,
+      "step": 190
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00018003992015968066,
+      "loss": 0.7198,
+      "step": 200
+    },
+    {
+      "epoch": 0.4,
+      "eval_accuracy": 0.7376558603491272,
+      "eval_f1": 0.7376558603491272,
+      "eval_loss": 0.7519164681434631,
+      "eval_precision": 0.7376558603491272,
+      "eval_recall": 0.7376558603491272,
+      "eval_runtime": 37.3275,
+      "eval_samples_per_second": 53.714,
+      "eval_steps_per_second": 6.724,
+      "step": 200
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0001790419161676647,
+      "loss": 0.7337,
+      "step": 210
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001780439121756487,
+      "loss": 0.9496,
+      "step": 220
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00017704590818363273,
+      "loss": 0.7117,
+      "step": 230
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0001760479041916168,
+      "loss": 0.6184,
+      "step": 240
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00017504990019960083,
+      "loss": 0.7994,
+      "step": 250
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00017405189620758483,
+      "loss": 0.8268,
+      "step": 260
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00017305389221556887,
+      "loss": 0.5843,
+      "step": 270
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0001720558882235529,
+      "loss": 0.5726,
+      "step": 280
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00017105788423153693,
+      "loss": 0.6429,
+      "step": 290
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00017005988023952097,
+      "loss": 0.7519,
+      "step": 300
+    },
+    {
+      "epoch": 0.6,
+      "eval_accuracy": 0.7541147132169576,
+      "eval_f1": 0.7541147132169576,
+      "eval_loss": 0.7125328183174133,
+      "eval_precision": 0.7541147132169576,
+      "eval_recall": 0.7541147132169576,
+      "eval_runtime": 37.1417,
+      "eval_samples_per_second": 53.982,
+      "eval_steps_per_second": 6.758,
+      "step": 300
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.000169061876247505,
+      "loss": 0.6019,
+      "step": 310
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00016806387225548904,
+      "loss": 0.8131,
+      "step": 320
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00016706586826347307,
+      "loss": 0.8256,
+      "step": 330
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016606786427145708,
+      "loss": 0.629,
+      "step": 340
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00016506986027944114,
+      "loss": 0.6215,
+      "step": 350
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00016407185628742517,
+      "loss": 0.6309,
+      "step": 360
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00016307385229540918,
+      "loss": 0.6247,
+      "step": 370
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0001620758483033932,
+      "loss": 0.4188,
+      "step": 380
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00016107784431137724,
+      "loss": 0.6371,
+      "step": 390
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0001600798403193613,
+      "loss": 0.6657,
+      "step": 400
+    },
+    {
+      "epoch": 0.8,
+      "eval_accuracy": 0.7571072319201995,
+      "eval_f1": 0.7571072319201996,
+      "eval_loss": 0.6623069047927856,
+      "eval_precision": 0.7571072319201995,
+      "eval_recall": 0.7571072319201995,
+      "eval_runtime": 36.8217,
+      "eval_samples_per_second": 54.452,
+      "eval_steps_per_second": 6.817,
+      "step": 400
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0001590818363273453,
+      "loss": 0.76,
+      "step": 410
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00015808383233532935,
+      "loss": 0.6307,
+      "step": 420
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00015708582834331338,
+      "loss": 0.6881,
+      "step": 430
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0001560878243512974,
+      "loss": 0.6971,
+      "step": 440
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00015508982035928145,
+      "loss": 0.5882,
+      "step": 450
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00015409181636726548,
+      "loss": 0.6752,
+      "step": 460
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00015309381237524951,
+      "loss": 0.693,
+      "step": 470
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00015209580838323355,
+      "loss": 0.5742,
+      "step": 480
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00015109780439121756,
+      "loss": 0.6703,
+      "step": 490
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0001500998003992016,
+      "loss": 0.5896,
+      "step": 500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7835411471321696,
+      "eval_f1": 0.7835411471321696,
+      "eval_loss": 0.5963543653488159,
+      "eval_precision": 0.7835411471321696,
+      "eval_recall": 0.7835411471321696,
+      "eval_runtime": 37.1954,
+      "eval_samples_per_second": 53.905,
+      "eval_steps_per_second": 6.748,
+      "step": 500
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00014910179640718565,
+      "loss": 0.5698,
+      "step": 510
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00014810379241516968,
+      "loss": 0.5745,
+      "step": 520
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0001471057884231537,
+      "loss": 0.5443,
+      "step": 530
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00014610778443113772,
+      "loss": 0.4716,
+      "step": 540
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00014510978043912176,
+      "loss": 0.58,
+      "step": 550
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00014411177644710582,
+      "loss": 0.4888,
+      "step": 560
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00014311377245508983,
+      "loss": 0.5387,
+      "step": 570
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00014211576846307386,
+      "loss": 0.558,
+      "step": 580
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.0001411177644710579,
+      "loss": 0.3441,
+      "step": 590
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00014011976047904193,
+      "loss": 0.515,
+      "step": 600
+    },
+    {
+      "epoch": 1.2,
+      "eval_accuracy": 0.8014962593516209,
+      "eval_f1": 0.8014962593516209,
+      "eval_loss": 0.5745382905006409,
+      "eval_precision": 0.8014962593516209,
+      "eval_recall": 0.8014962593516209,
+      "eval_runtime": 36.8363,
+      "eval_samples_per_second": 54.43,
+      "eval_steps_per_second": 6.814,
+      "step": 600
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00013912175648702593,
+      "loss": 0.5214,
+      "step": 610
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00013812375249501,
+      "loss": 0.4601,
+      "step": 620
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00013712574850299403,
+      "loss": 0.419,
+      "step": 630
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00013612774451097806,
+      "loss": 0.4933,
+      "step": 640
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00013512974051896207,
+      "loss": 0.4795,
+      "step": 650
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0001341317365269461,
+      "loss": 0.6423,
+      "step": 660
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00013313373253493016,
+      "loss": 0.5638,
+      "step": 670
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0001321357285429142,
+      "loss": 0.4128,
+      "step": 680
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0001311377245508982,
+      "loss": 0.4866,
+      "step": 690
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00013013972055888224,
+      "loss": 0.4318,
+      "step": 700
+    },
+    {
+      "epoch": 1.4,
+      "eval_accuracy": 0.8199501246882793,
+      "eval_f1": 0.8199501246882793,
+      "eval_loss": 0.5060503482818604,
+      "eval_precision": 0.8199501246882793,
+      "eval_recall": 0.8199501246882793,
+      "eval_runtime": 37.6535,
+      "eval_samples_per_second": 53.249,
+      "eval_steps_per_second": 6.666,
+      "step": 700
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00012914171656686627,
+      "loss": 0.5199,
+      "step": 710
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0001281437125748503,
+      "loss": 0.5103,
+      "step": 720
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00012714570858283434,
+      "loss": 0.4348,
+      "step": 730
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00012614770459081837,
+      "loss": 0.513,
+      "step": 740
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0001251497005988024,
+      "loss": 0.5174,
+      "step": 750
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00012415169660678644,
+      "loss": 0.4413,
+      "step": 760
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00012315369261477045,
+      "loss": 0.3546,
+      "step": 770
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0001221556886227545,
+      "loss": 0.614,
+      "step": 780
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00012115768463073853,
+      "loss": 0.4367,
+      "step": 790
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00012015968063872256,
+      "loss": 0.4299,
+      "step": 800
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.8074812967581048,
+      "eval_f1": 0.8074812967581048,
+      "eval_loss": 0.5238682627677917,
+      "eval_precision": 0.8074812967581048,
+      "eval_recall": 0.8074812967581048,
+      "eval_runtime": 36.8397,
+      "eval_samples_per_second": 54.425,
+      "eval_steps_per_second": 6.813,
+      "step": 800
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0001191616766467066,
+      "loss": 0.4153,
+      "step": 810
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.00011816367265469061,
+      "loss": 0.2803,
+      "step": 820
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.00011716566866267466,
+      "loss": 0.5581,
+      "step": 830
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0001161676646706587,
+      "loss": 0.5784,
+      "step": 840
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00011516966067864272,
+      "loss": 0.4193,
+      "step": 850
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00011417165668662675,
+      "loss": 0.3583,
+      "step": 860
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00011317365269461077,
+      "loss": 0.5462,
+      "step": 870
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00011217564870259483,
+      "loss": 0.5071,
+      "step": 880
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00011117764471057885,
+      "loss": 0.4694,
+      "step": 890
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00011017964071856288,
+      "loss": 0.4793,
+      "step": 900
+    },
+    {
+      "epoch": 1.8,
+      "eval_accuracy": 0.8124688279301746,
+      "eval_f1": 0.8124688279301745,
+      "eval_loss": 0.5365713834762573,
+      "eval_precision": 0.8124688279301746,
+      "eval_recall": 0.8124688279301746,
+      "eval_runtime": 36.9505,
+      "eval_samples_per_second": 54.262,
+      "eval_steps_per_second": 6.793,
+      "step": 900
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0001091816367265469,
+      "loss": 0.4214,
+      "step": 910
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00010818363273453094,
+      "loss": 0.5277,
+      "step": 920
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00010718562874251496,
+      "loss": 0.3656,
+      "step": 930
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00010618762475049902,
+      "loss": 0.4547,
+      "step": 940
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00010518962075848304,
+      "loss": 0.3721,
+      "step": 950
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00010419161676646707,
+      "loss": 0.4042,
+      "step": 960
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0001031936127744511,
+      "loss": 0.5385,
+      "step": 970
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00010219560878243513,
+      "loss": 0.4709,
+      "step": 980
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00010119760479041918,
+      "loss": 0.3954,
+      "step": 990
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00010019960079840321,
+      "loss": 0.4202,
+      "step": 1000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8244389027431421,
+      "eval_f1": 0.8244389027431421,
+      "eval_loss": 0.488178014755249,
+      "eval_precision": 0.8244389027431421,
+      "eval_recall": 0.8244389027431421,
+      "eval_runtime": 37.4243,
+      "eval_samples_per_second": 53.575,
+      "eval_steps_per_second": 6.707,
+      "step": 1000
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.920159680638723e-05,
+      "loss": 0.3039,
+      "step": 1010
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 9.820359281437126e-05,
+      "loss": 0.2715,
+      "step": 1020
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 9.72055888223553e-05,
+      "loss": 0.3244,
+      "step": 1030
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.620758483033933e-05,
+      "loss": 0.238,
+      "step": 1040
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 9.520958083832335e-05,
+      "loss": 0.2205,
+      "step": 1050
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 9.42115768463074e-05,
+      "loss": 0.2556,
+      "step": 1060
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 9.321357285429142e-05,
+      "loss": 0.2757,
+      "step": 1070
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 9.221556886227547e-05,
+      "loss": 0.2163,
+      "step": 1080
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 9.121756487025949e-05,
+      "loss": 0.1842,
+      "step": 1090
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 9.021956087824352e-05,
+      "loss": 0.2105,
+      "step": 1100
+    },
+    {
+      "epoch": 2.2,
+      "eval_accuracy": 0.8234413965087282,
+      "eval_f1": 0.8234413965087283,
+      "eval_loss": 0.533031165599823,
+      "eval_precision": 0.8234413965087282,
+      "eval_recall": 0.8234413965087282,
+      "eval_runtime": 37.4429,
+      "eval_samples_per_second": 53.548,
+      "eval_steps_per_second": 6.704,
+      "step": 1100
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 8.922155688622755e-05,
+      "loss": 0.259,
+      "step": 1110
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 8.822355289421159e-05,
+      "loss": 0.3202,
+      "step": 1120
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 8.722554890219561e-05,
+      "loss": 0.2068,
+      "step": 1130
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 8.622754491017964e-05,
+      "loss": 0.1961,
+      "step": 1140
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 8.522954091816367e-05,
+      "loss": 0.3125,
+      "step": 1150
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 8.423153692614771e-05,
+      "loss": 0.353,
+      "step": 1160
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 8.323353293413174e-05,
+      "loss": 0.2488,
+      "step": 1170
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 8.223552894211578e-05,
+      "loss": 0.3013,
+      "step": 1180
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 8.123752495009981e-05,
+      "loss": 0.2923,
+      "step": 1190
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 8.023952095808383e-05,
+      "loss": 0.2597,
+      "step": 1200
+    },
+    {
+      "epoch": 2.4,
+      "eval_accuracy": 0.8369077306733167,
+      "eval_f1": 0.8369077306733167,
+      "eval_loss": 0.4604151248931885,
+      "eval_precision": 0.8369077306733167,
+      "eval_recall": 0.8369077306733167,
+      "eval_runtime": 37.1858,
+      "eval_samples_per_second": 53.919,
+      "eval_steps_per_second": 6.75,
+      "step": 1200
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 7.924151696606786e-05,
+      "loss": 0.2663,
+      "step": 1210
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 7.82435129740519e-05,
+      "loss": 0.207,
+      "step": 1220
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 7.724550898203593e-05,
+      "loss": 0.2154,
+      "step": 1230
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 7.624750499001996e-05,
+      "loss": 0.2346,
+      "step": 1240
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 7.5249500998004e-05,
+      "loss": 0.1273,
+      "step": 1250
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 7.425149700598802e-05,
+      "loss": 0.2449,
+      "step": 1260
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 7.325349301397207e-05,
+      "loss": 0.2205,
+      "step": 1270
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 7.225548902195609e-05,
+      "loss": 0.1849,
+      "step": 1280
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 7.125748502994012e-05,
+      "loss": 0.1227,
+      "step": 1290
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 7.025948103792415e-05,
+      "loss": 0.2261,
+      "step": 1300
+    },
+    {
+      "epoch": 2.59,
+      "eval_accuracy": 0.8408977556109726,
+      "eval_f1": 0.8408977556109726,
+      "eval_loss": 0.4893205165863037,
+      "eval_precision": 0.8408977556109726,
+      "eval_recall": 0.8408977556109726,
+      "eval_runtime": 37.0693,
+      "eval_samples_per_second": 54.088,
+      "eval_steps_per_second": 6.771,
+      "step": 1300
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 6.926147704590819e-05,
+      "loss": 0.2807,
+      "step": 1310
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 6.826347305389222e-05,
+      "loss": 0.1794,
+      "step": 1320
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 6.726546906187626e-05,
+      "loss": 0.3331,
+      "step": 1330
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 6.626746506986028e-05,
+      "loss": 0.2242,
+      "step": 1340
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 6.526946107784432e-05,
+      "loss": 0.2214,
+      "step": 1350
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 6.427145708582834e-05,
+      "loss": 0.1417,
+      "step": 1360
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 6.327345309381238e-05,
+      "loss": 0.2484,
+      "step": 1370
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 6.227544910179641e-05,
+      "loss": 0.2092,
+      "step": 1380
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 6.127744510978044e-05,
+      "loss": 0.2279,
+      "step": 1390
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 6.027944111776448e-05,
+      "loss": 0.1853,
+      "step": 1400
+    },
+    {
+      "epoch": 2.79,
+      "eval_accuracy": 0.8493765586034913,
+      "eval_f1": 0.8493765586034913,
+      "eval_loss": 0.47934991121292114,
+      "eval_precision": 0.8493765586034913,
+      "eval_recall": 0.8493765586034913,
+      "eval_runtime": 37.4361,
+      "eval_samples_per_second": 53.558,
+      "eval_steps_per_second": 6.705,
+      "step": 1400
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 5.9281437125748505e-05,
+      "loss": 0.1767,
+      "step": 1410
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 5.828343313373253e-05,
+      "loss": 0.2012,
+      "step": 1420
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 5.728542914171657e-05,
+      "loss": 0.2907,
+      "step": 1430
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 5.62874251497006e-05,
+      "loss": 0.2804,
+      "step": 1440
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 5.5289421157684626e-05,
+      "loss": 0.2422,
+      "step": 1450
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 5.429141716566867e-05,
+      "loss": 0.2152,
+      "step": 1460
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 5.3293413173652694e-05,
+      "loss": 0.1492,
+      "step": 1470
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 5.2295409181636734e-05,
+      "loss": 0.1979,
+      "step": 1480
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 5.129740518962076e-05,
+      "loss": 0.2161,
+      "step": 1490
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 5.029940119760479e-05,
+      "loss": 0.1739,
+      "step": 1500
+    },
+    {
+      "epoch": 2.99,
+      "eval_accuracy": 0.8528678304239401,
+      "eval_f1": 0.8528678304239401,
+      "eval_loss": 0.43922504782676697,
+      "eval_precision": 0.8528678304239401,
+      "eval_recall": 0.8528678304239401,
+      "eval_runtime": 37.2676,
+      "eval_samples_per_second": 53.8,
+      "eval_steps_per_second": 6.735,
+      "step": 1500
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 4.930139720558882e-05,
+      "loss": 0.0986,
+      "step": 1510
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 4.8303393213572856e-05,
+      "loss": 0.1176,
+      "step": 1520
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 4.730538922155689e-05,
+      "loss": 0.0928,
+      "step": 1530
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 4.630738522954092e-05,
+      "loss": 0.066,
+      "step": 1540
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 4.530938123752495e-05,
+      "loss": 0.0838,
+      "step": 1550
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 4.4311377245508984e-05,
+      "loss": 0.0489,
+      "step": 1560
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 4.331337325349302e-05,
+      "loss": 0.061,
+      "step": 1570
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 4.231536926147705e-05,
+      "loss": 0.0531,
+      "step": 1580
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 4.131736526946108e-05,
+      "loss": 0.0527,
+      "step": 1590
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 4.031936127744511e-05,
+      "loss": 0.0629,
+      "step": 1600
+    },
+    {
+      "epoch": 3.19,
+      "eval_accuracy": 0.858354114713217,
+      "eval_f1": 0.8583541147132169,
+      "eval_loss": 0.4941013753414154,
+      "eval_precision": 0.858354114713217,
+      "eval_recall": 0.858354114713217,
+      "eval_runtime": 37.2743,
+      "eval_samples_per_second": 53.79,
+      "eval_steps_per_second": 6.734,
+      "step": 1600
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 3.9321357285429146e-05,
+      "loss": 0.0546,
+      "step": 1610
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 3.832335329341318e-05,
+      "loss": 0.0693,
+      "step": 1620
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 3.732534930139721e-05,
+      "loss": 0.0275,
+      "step": 1630
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 3.632734530938124e-05,
+      "loss": 0.0658,
+      "step": 1640
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 3.5329341317365274e-05,
+      "loss": 0.0442,
+      "step": 1650
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 3.433133732534931e-05,
+      "loss": 0.0588,
+      "step": 1660
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.0729,
+      "step": 1670
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 3.233532934131737e-05,
+      "loss": 0.059,
+      "step": 1680
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 3.13373253493014e-05,
+      "loss": 0.015,
+      "step": 1690
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 3.0339321357285433e-05,
+      "loss": 0.0802,
+      "step": 1700
+    },
+    {
+      "epoch": 3.39,
+      "eval_accuracy": 0.8613466334164589,
+      "eval_f1": 0.861346633416459,
+      "eval_loss": 0.4973970055580139,
+      "eval_precision": 0.8613466334164589,
+      "eval_recall": 0.8613466334164589,
+      "eval_runtime": 37.2547,
+      "eval_samples_per_second": 53.819,
+      "eval_steps_per_second": 6.737,
+      "step": 1700
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 2.934131736526946e-05,
+      "loss": 0.0791,
+      "step": 1710
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 2.8343313373253494e-05,
+      "loss": 0.0832,
+      "step": 1720
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 2.7345309381237527e-05,
+      "loss": 0.0523,
+      "step": 1730
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 2.634730538922156e-05,
+      "loss": 0.0451,
+      "step": 1740
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 2.5349301397205588e-05,
+      "loss": 0.0393,
+      "step": 1750
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 2.4351297405189622e-05,
+      "loss": 0.0768,
+      "step": 1760
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 2.3353293413173656e-05,
+      "loss": 0.0269,
+      "step": 1770
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 2.2355289421157686e-05,
+      "loss": 0.0344,
+      "step": 1780
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 2.135728542914172e-05,
+      "loss": 0.0238,
+      "step": 1790
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 2.035928143712575e-05,
+      "loss": 0.0712,
+      "step": 1800
+    },
+    {
+      "epoch": 3.59,
+      "eval_accuracy": 0.859351620947631,
+      "eval_f1": 0.859351620947631,
+      "eval_loss": 0.5416329503059387,
+      "eval_precision": 0.859351620947631,
+      "eval_recall": 0.859351620947631,
+      "eval_runtime": 36.9419,
+      "eval_samples_per_second": 54.274,
+      "eval_steps_per_second": 6.794,
+      "step": 1800
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 1.9361277445109784e-05,
+      "loss": 0.1233,
+      "step": 1810
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 1.8363273453093814e-05,
+      "loss": 0.0263,
+      "step": 1820
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 1.7365269461077845e-05,
+      "loss": 0.0323,
+      "step": 1830
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 1.6367265469061875e-05,
+      "loss": 0.0627,
+      "step": 1840
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 1.536926147704591e-05,
+      "loss": 0.0481,
+      "step": 1850
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 1.437125748502994e-05,
+      "loss": 0.0723,
+      "step": 1860
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 1.3373253493013973e-05,
+      "loss": 0.0572,
+      "step": 1870
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 1.2375249500998005e-05,
+      "loss": 0.0745,
+      "step": 1880
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 1.1377245508982035e-05,
+      "loss": 0.0439,
+      "step": 1890
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 1.0379241516966067e-05,
+      "loss": 0.0365,
+      "step": 1900
+    },
+    {
+      "epoch": 3.79,
+      "eval_accuracy": 0.857356608478803,
+      "eval_f1": 0.857356608478803,
+      "eval_loss": 0.5317644476890564,
+      "eval_precision": 0.857356608478803,
+      "eval_recall": 0.857356608478803,
+      "eval_runtime": 37.5261,
+      "eval_samples_per_second": 53.43,
+      "eval_steps_per_second": 6.689,
+      "step": 1900
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 9.3812375249501e-06,
+      "loss": 0.1207,
+      "step": 1910
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 8.383233532934131e-06,
+      "loss": 0.1096,
+      "step": 1920
+    },
+    {
+      "epoch": 3.85,
+      "learning_rate": 7.3852295409181634e-06,
+      "loss": 0.0233,
+      "step": 1930
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 6.3872255489021955e-06,
+      "loss": 0.0568,
+      "step": 1940
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 5.3892215568862275e-06,
+      "loss": 0.0162,
+      "step": 1950
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 4.39121756487026e-06,
+      "loss": 0.0422,
+      "step": 1960
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 3.3932135728542917e-06,
+      "loss": 0.0945,
+      "step": 1970
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 2.3952095808383237e-06,
+      "loss": 0.0559,
+      "step": 1980
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 1.3972055888223554e-06,
+      "loss": 0.1039,
+      "step": 1990
+    },
+    {
+      "epoch": 3.99,
+      "learning_rate": 3.992015968063872e-07,
+      "loss": 0.0591,
+      "step": 2000
+    },
+    {
+      "epoch": 3.99,
+      "eval_accuracy": 0.857356608478803,
+      "eval_f1": 0.857356608478803,
+      "eval_loss": 0.5344281792640686,
+      "eval_precision": 0.857356608478803,
+      "eval_recall": 0.857356608478803,
+      "eval_runtime": 37.4102,
+      "eval_samples_per_second": 53.595,
+      "eval_steps_per_second": 6.709,
+      "step": 2000
+    },
+    {
+      "epoch": 4.0,
+      "step": 2004,
+      "total_flos": 2.482954611949486e+18,
+      "train_loss": 0.3798632252359105,
+      "train_runtime": 1963.4033,
+      "train_samples_per_second": 16.319,
+      "train_steps_per_second": 1.021
+    }
+  ],
+  "max_steps": 2004,
+  "num_train_epochs": 4,
+  "total_flos": 2.482954611949486e+18,
+  "trial_name": null,
+  "trial_params": null
+}