{
  "best_metric": 0.9958071934678491,
  "best_model_checkpoint": "output_dev/v36-deberta_v2_xxlarge-f1-warmup-greater-patience-seqlen-240-6epoch-lr-2e-5/checkpoint-14600",
  "epoch": 5.572198921509886,
  "eval_steps": 200,
  "global_step": 18600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 4.990019960079841e-08,
      "loss": 1.2142,
      "step": 10
    },
    {
      "epoch": 0.01,
      "learning_rate": 9.980039920159682e-08,
      "loss": 1.2,
      "step": 20
    },
    {
      "epoch": 0.01,
      "learning_rate": 1.4970059880239523e-07,
      "loss": 1.1833,
      "step": 30
    },
    {
      "epoch": 0.01,
      "learning_rate": 1.9960079840319364e-07,
      "loss": 1.1024,
      "step": 40
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.4950099800399204e-07,
      "loss": 1.0527,
      "step": 50
    },
    {
      "epoch": 0.02,
      "learning_rate": 2.9940119760479047e-07,
      "loss": 0.9926,
      "step": 60
    },
    {
      "epoch": 0.02,
      "learning_rate": 3.4930139720558884e-07,
      "loss": 0.9131,
      "step": 70
    },
    {
      "epoch": 0.02,
      "learning_rate": 3.9920159680638727e-07,
      "loss": 0.8547,
      "step": 80
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.4910179640718565e-07,
      "loss": 0.7847,
      "step": 90
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.990019960079841e-07,
      "loss": 0.6674,
      "step": 100
    },
    {
      "epoch": 0.03,
      "learning_rate": 5.489021956087825e-07,
      "loss": 0.7092,
      "step": 110
    },
    {
      "epoch": 0.04,
      "learning_rate": 5.988023952095809e-07,
      "loss": 0.6892,
      "step": 120
    },
    {
      "epoch": 0.04,
      "learning_rate": 6.487025948103792e-07,
      "loss": 0.593,
      "step": 130
    },
    {
      "epoch": 0.04,
      "learning_rate": 6.986027944111777e-07,
      "loss": 0.5163,
      "step": 140
    },
    {
      "epoch": 0.04,
      "learning_rate": 7.485029940119761e-07,
      "loss": 0.4687,
      "step": 150
    },
    {
      "epoch": 0.05,
      "learning_rate": 7.984031936127745e-07,
      "loss": 0.4181,
      "step": 160
    },
    {
      "epoch": 0.05,
      "learning_rate": 8.483033932135728e-07,
      "loss": 0.3147,
      "step": 170
    },
    {
      "epoch": 0.05,
      "learning_rate": 8.982035928143713e-07,
      "loss": 0.3517,
      "step": 180
    },
    {
      "epoch": 0.06,
      "learning_rate": 9.481037924151697e-07,
      "loss": 0.3178,
      "step": 190
    },
    {
      "epoch": 0.06,
      "learning_rate": 9.980039920159682e-07,
      "loss": 0.3168,
      "step": 200
    },
    {
      "epoch": 0.06,
      "eval_f1": 0.715117705506412,
      "eval_f1_0": 0.9524392895324753,
      "eval_f1_1": 0.9676134766619297,
      "eval_f1_2": 0.00017229218601095132,
      "eval_f1_3": 0.9402457636452318,
      "eval_loss": 0.2787778079509735,
      "eval_runtime": 153.8618,
      "eval_samples_per_second": 77.134,
      "eval_steps_per_second": 0.305,
      "step": 200
    },
    {
      "epoch": 0.06,
      "learning_rate": 1.0479041916167664e-06,
      "loss": 0.2541,
      "step": 210
    },
    {
      "epoch": 0.07,
      "learning_rate": 1.097804391217565e-06,
      "loss": 0.227,
      "step": 220
    },
    {
      "epoch": 0.07,
      "learning_rate": 1.1477045908183634e-06,
      "loss": 0.2468,
      "step": 230
    },
    {
      "epoch": 0.07,
      "learning_rate": 1.1976047904191619e-06,
      "loss": 0.236,
      "step": 240
    },
    {
      "epoch": 0.07,
      "learning_rate": 1.2475049900199601e-06,
      "loss": 0.2776,
      "step": 250
    },
    {
      "epoch": 0.08,
      "learning_rate": 1.2974051896207584e-06,
      "loss": 0.2483,
      "step": 260
    },
    {
      "epoch": 0.08,
      "learning_rate": 1.347305389221557e-06,
      "loss": 0.2117,
      "step": 270
    },
    {
      "epoch": 0.08,
      "learning_rate": 1.3972055888223554e-06,
      "loss": 0.18,
      "step": 280
    },
    {
      "epoch": 0.09,
      "learning_rate": 1.4471057884231539e-06,
      "loss": 0.1752,
      "step": 290
    },
    {
      "epoch": 0.09,
      "learning_rate": 1.4970059880239521e-06,
      "loss": 0.17,
      "step": 300
    },
    {
      "epoch": 0.09,
      "learning_rate": 1.5469061876247506e-06,
      "loss": 0.1736,
      "step": 310
    },
    {
      "epoch": 0.1,
      "learning_rate": 1.596806387225549e-06,
      "loss": 0.1771,
      "step": 320
    },
    {
      "epoch": 0.1,
      "learning_rate": 1.6467065868263474e-06,
      "loss": 0.2029,
      "step": 330
    },
    {
      "epoch": 0.1,
      "learning_rate": 1.6966067864271456e-06,
      "loss": 0.1745,
      "step": 340
    },
    {
      "epoch": 0.1,
      "learning_rate": 1.7465069860279443e-06,
      "loss": 0.1408,
      "step": 350
    },
    {
      "epoch": 0.11,
      "learning_rate": 1.7964071856287426e-06,
      "loss": 0.1479,
      "step": 360
    },
    {
      "epoch": 0.11,
      "learning_rate": 1.846307385229541e-06,
      "loss": 0.1184,
      "step": 370
    },
    {
      "epoch": 0.11,
      "learning_rate": 1.8962075848303393e-06,
      "loss": 0.1263,
      "step": 380
    },
    {
      "epoch": 0.12,
      "learning_rate": 1.946107784431138e-06,
      "loss": 0.1521,
      "step": 390
    },
    {
      "epoch": 0.12,
      "learning_rate": 1.9960079840319363e-06,
      "loss": 0.1625,
      "step": 400
    },
    {
      "epoch": 0.12,
      "eval_f1": 0.9105686190994257,
      "eval_f1_0": 0.9668113842193872,
      "eval_f1_1": 0.9911796094568739,
      "eval_f1_2": 0.693173384704574,
      "eval_f1_3": 0.991110098016868,
      "eval_loss": 0.13286341726779938,
      "eval_runtime": 153.1538,
      "eval_samples_per_second": 77.491,
      "eval_steps_per_second": 0.307,
      "step": 400
    },
    {
      "epoch": 0.12,
      "learning_rate": 2.0459081836327348e-06,
      "loss": 0.0903,
      "step": 410
    },
    {
      "epoch": 0.13,
      "learning_rate": 2.095808383233533e-06,
      "loss": 0.0965,
      "step": 420
    },
    {
      "epoch": 0.13,
      "learning_rate": 2.1457085828343317e-06,
      "loss": 0.1268,
      "step": 430
    },
    {
      "epoch": 0.13,
      "learning_rate": 2.19560878243513e-06,
      "loss": 0.1247,
      "step": 440
    },
    {
      "epoch": 0.13,
      "learning_rate": 2.2455089820359283e-06,
      "loss": 0.101,
      "step": 450
    },
    {
      "epoch": 0.14,
      "learning_rate": 2.2954091816367268e-06,
      "loss": 0.0945,
      "step": 460
    },
    {
      "epoch": 0.14,
      "learning_rate": 2.3453093812375253e-06,
      "loss": 0.166,
      "step": 470
    },
    {
      "epoch": 0.14,
      "learning_rate": 2.3952095808383237e-06,
      "loss": 0.1141,
      "step": 480
    },
    {
      "epoch": 0.15,
      "learning_rate": 2.445109780439122e-06,
      "loss": 0.1131,
      "step": 490
    },
    {
      "epoch": 0.15,
      "learning_rate": 2.4950099800399203e-06,
      "loss": 0.0881,
      "step": 500
    },
    {
      "epoch": 0.15,
      "learning_rate": 2.5449101796407188e-06,
      "loss": 0.0874,
      "step": 510
    },
    {
      "epoch": 0.16,
      "learning_rate": 2.594810379241517e-06,
      "loss": 0.0625,
      "step": 520
    },
    {
      "epoch": 0.16,
      "learning_rate": 2.6447105788423157e-06,
      "loss": 0.093,
      "step": 530
    },
    {
      "epoch": 0.16,
      "learning_rate": 2.694610778443114e-06,
      "loss": 0.0936,
      "step": 540
    },
    {
      "epoch": 0.16,
      "learning_rate": 2.7445109780439123e-06,
      "loss": 0.0886,
      "step": 550
    },
    {
      "epoch": 0.17,
      "learning_rate": 2.7944111776447107e-06,
      "loss": 0.0901,
      "step": 560
    },
    {
      "epoch": 0.17,
      "learning_rate": 2.8443113772455092e-06,
      "loss": 0.0808,
      "step": 570
    },
    {
      "epoch": 0.17,
      "learning_rate": 2.8942115768463077e-06,
      "loss": 0.0486,
      "step": 580
    },
    {
      "epoch": 0.18,
      "learning_rate": 2.944111776447106e-06,
      "loss": 0.0889,
      "step": 590
    },
    {
      "epoch": 0.18,
      "learning_rate": 2.9940119760479042e-06,
      "loss": 0.0897,
      "step": 600
    },
    {
      "epoch": 0.18,
      "eval_f1": 0.9655660557043999,
      "eval_f1_0": 0.988741287133544,
      "eval_f1_1": 0.9930321299437529,
      "eval_f1_2": 0.8836948791359373,
      "eval_f1_3": 0.9967959266043652,
      "eval_loss": 0.055430300533771515,
      "eval_runtime": 153.1295,
      "eval_samples_per_second": 77.503,
      "eval_steps_per_second": 0.307,
      "step": 600
    },
    {
      "epoch": 0.18,
      "learning_rate": 3.0439121756487027e-06,
      "loss": 0.0423,
      "step": 610
    },
    {
      "epoch": 0.19,
      "learning_rate": 3.093812375249501e-06,
      "loss": 0.0778,
      "step": 620
    },
    {
      "epoch": 0.19,
      "learning_rate": 3.1437125748502993e-06,
      "loss": 0.0712,
      "step": 630
    },
    {
      "epoch": 0.19,
      "learning_rate": 3.193612774451098e-06,
      "loss": 0.0442,
      "step": 640
    },
    {
      "epoch": 0.19,
      "learning_rate": 3.2435129740518966e-06,
      "loss": 0.0853,
      "step": 650
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.2934131736526947e-06,
      "loss": 0.0601,
      "step": 660
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.343313373253493e-06,
      "loss": 0.1203,
      "step": 670
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.3932135728542912e-06,
      "loss": 0.0914,
      "step": 680
    },
    {
      "epoch": 0.21,
      "learning_rate": 3.44311377245509e-06,
      "loss": 0.0317,
      "step": 690
    },
    {
      "epoch": 0.21,
      "learning_rate": 3.4930139720558886e-06,
      "loss": 0.0712,
      "step": 700
    },
    {
      "epoch": 0.21,
      "learning_rate": 3.5429141716566867e-06,
      "loss": 0.0533,
      "step": 710
    },
    {
      "epoch": 0.22,
      "learning_rate": 3.592814371257485e-06,
      "loss": 0.0093,
      "step": 720
    },
    {
      "epoch": 0.22,
      "learning_rate": 3.642714570858284e-06,
      "loss": 0.0381,
      "step": 730
    },
    {
      "epoch": 0.22,
      "learning_rate": 3.692614770459082e-06,
      "loss": 0.0584,
      "step": 740
    },
    {
      "epoch": 0.22,
      "learning_rate": 3.7425149700598806e-06,
      "loss": 0.0565,
      "step": 750
    },
    {
      "epoch": 0.23,
      "learning_rate": 3.7924151696606787e-06,
      "loss": 0.041,
      "step": 760
    },
    {
      "epoch": 0.23,
      "learning_rate": 3.842315369261477e-06,
      "loss": 0.0442,
      "step": 770
    },
    {
      "epoch": 0.23,
      "learning_rate": 3.892215568862276e-06,
      "loss": 0.0267,
      "step": 780
    },
    {
      "epoch": 0.24,
      "learning_rate": 3.942115768463074e-06,
      "loss": 0.0551,
      "step": 790
    },
    {
      "epoch": 0.24,
      "learning_rate": 3.992015968063873e-06,
      "loss": 0.0935,
      "step": 800
    },
    {
      "epoch": 0.24,
      "eval_f1": 0.9565196786765503,
      "eval_f1_0": 0.9843092266751751,
      "eval_f1_1": 0.9943184551123322,
      "eval_f1_2": 0.8496552625559586,
      "eval_f1_3": 0.9977957703627355,
      "eval_loss": 0.10954605042934418,
      "eval_runtime": 153.1467,
      "eval_samples_per_second": 77.494,
      "eval_steps_per_second": 0.307,
      "step": 800
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.041916167664671e-06,
      "loss": 0.0896,
      "step": 810
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.0918163672654696e-06,
      "loss": 0.0404,
      "step": 820
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.141716566866268e-06,
      "loss": 0.0374,
      "step": 830
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.191616766467066e-06,
      "loss": 0.0221,
      "step": 840
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.241516966067864e-06,
      "loss": 0.0323,
      "step": 850
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2914171656686635e-06,
      "loss": 0.0164,
      "step": 860
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.341317365269461e-06,
      "loss": 0.0569,
      "step": 870
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.39121756487026e-06,
      "loss": 0.0829,
      "step": 880
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.441117764471058e-06,
      "loss": 0.0326,
      "step": 890
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.4910179640718566e-06,
      "loss": 0.0111,
      "step": 900
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.540918163672655e-06,
      "loss": 0.0548,
      "step": 910
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.5908183632734535e-06,
      "loss": 0.0253,
      "step": 920
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.640718562874252e-06,
      "loss": 0.0611,
      "step": 930
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.6906187624750505e-06,
      "loss": 0.0753,
      "step": 940
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.740518962075848e-06,
      "loss": 0.083,
      "step": 950
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.7904191616766475e-06,
      "loss": 0.0605,
      "step": 960
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.840319361277446e-06,
      "loss": 0.0613,
      "step": 970
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.890219560878244e-06,
      "loss": 0.007,
      "step": 980
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.940119760479042e-06,
      "loss": 0.0607,
      "step": 990
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.9900199600798405e-06,
      "loss": 0.0206,
      "step": 1000
    },
    {
      "epoch": 0.3,
      "eval_f1": 0.979305315894786,
      "eval_f1_0": 0.9936102682168653,
      "eval_f1_1": 0.9929366998906228,
      "eval_f1_2": 0.9321544346109409,
      "eval_f1_3": 0.9985198608607149,
      "eval_loss": 0.04428563266992569,
      "eval_runtime": 153.0733,
      "eval_samples_per_second": 77.531,
      "eval_steps_per_second": 0.307,
      "step": 1000
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.997897613791654e-06,
      "loss": 0.0793,
      "step": 1010
    },
    {
      "epoch": 0.31,
      "learning_rate": 4.995269631031221e-06,
      "loss": 0.0324,
      "step": 1020
    },
    {
      "epoch": 0.31,
      "learning_rate": 4.992641648270788e-06,
      "loss": 0.0165,
      "step": 1030
    },
    {
      "epoch": 0.31,
      "learning_rate": 4.990013665510355e-06,
      "loss": 0.0414,
      "step": 1040
    },
    {
      "epoch": 0.31,
      "learning_rate": 4.987385682749922e-06,
      "loss": 0.0346,
      "step": 1050
    },
    {
      "epoch": 0.32,
      "learning_rate": 4.984757699989489e-06,
      "loss": 0.0267,
      "step": 1060
    },
    {
      "epoch": 0.32,
      "learning_rate": 4.982129717229056e-06,
      "loss": 0.0739,
      "step": 1070
    },
    {
      "epoch": 0.32,
      "learning_rate": 4.979501734468623e-06,
      "loss": 0.1384,
      "step": 1080
    },
    {
      "epoch": 0.33,
      "learning_rate": 4.97687375170819e-06,
      "loss": 0.0517,
      "step": 1090
    },
    {
      "epoch": 0.33,
      "learning_rate": 4.974245768947757e-06,
      "loss": 0.007,
      "step": 1100
    },
    {
      "epoch": 0.33,
      "learning_rate": 4.971617786187323e-06,
      "loss": 0.0662,
      "step": 1110
    },
    {
      "epoch": 0.34,
      "learning_rate": 4.96898980342689e-06,
      "loss": 0.0194,
      "step": 1120
    },
    {
      "epoch": 0.34,
      "learning_rate": 4.966361820666457e-06,
      "loss": 0.0284,
      "step": 1130
    },
    {
      "epoch": 0.34,
      "learning_rate": 4.963733837906023e-06,
      "loss": 0.0335,
      "step": 1140
    },
    {
      "epoch": 0.34,
      "learning_rate": 4.96110585514559e-06,
      "loss": 0.0217,
      "step": 1150
    },
    {
      "epoch": 0.35,
      "learning_rate": 4.958477872385157e-06,
      "loss": 0.0608,
      "step": 1160
    },
    {
      "epoch": 0.35,
      "learning_rate": 4.955849889624724e-06,
      "loss": 0.1114,
      "step": 1170
    },
    {
      "epoch": 0.35,
      "learning_rate": 4.953221906864291e-06,
      "loss": 0.0605,
      "step": 1180
    },
    {
      "epoch": 0.36,
      "learning_rate": 4.950593924103858e-06,
      "loss": 0.0243,
      "step": 1190
    },
    {
      "epoch": 0.36,
      "learning_rate": 4.947965941343425e-06,
      "loss": 0.0096,
      "step": 1200
    },
    {
      "epoch": 0.36,
      "eval_f1": 0.9848431755266841,
      "eval_f1_0": 0.9953030664489017,
      "eval_f1_1": 0.9963201860243812,
      "eval_f1_2": 0.9497379775953829,
      "eval_f1_3": 0.9980114720380705,
      "eval_loss": 0.035134535282850266,
      "eval_runtime": 153.0723,
      "eval_samples_per_second": 77.532,
      "eval_steps_per_second": 0.307,
      "step": 1200
    },
    {
      "epoch": 0.36,
      "learning_rate": 4.945337958582992e-06,
      "loss": 0.0517,
      "step": 1210
    },
    {
      "epoch": 0.37,
      "learning_rate": 4.942709975822559e-06,
      "loss": 0.03,
      "step": 1220
    },
    {
      "epoch": 0.37,
      "learning_rate": 4.940081993062125e-06,
      "loss": 0.0065,
      "step": 1230
    },
    {
      "epoch": 0.37,
      "learning_rate": 4.937454010301692e-06,
      "loss": 0.0273,
      "step": 1240
    },
    {
      "epoch": 0.37,
      "learning_rate": 4.934826027541259e-06,
      "loss": 0.0545,
      "step": 1250
    },
    {
      "epoch": 0.38,
      "learning_rate": 4.932198044780826e-06,
      "loss": 0.0429,
      "step": 1260
    },
    {
      "epoch": 0.38,
      "learning_rate": 4.929570062020393e-06,
      "loss": 0.0661,
      "step": 1270
    },
    {
      "epoch": 0.38,
      "learning_rate": 4.92694207925996e-06,
      "loss": 0.0335,
      "step": 1280
    },
    {
      "epoch": 0.39,
      "learning_rate": 4.924314096499527e-06,
      "loss": 0.0586,
      "step": 1290
    },
    {
      "epoch": 0.39,
      "learning_rate": 4.9216861137390944e-06,
      "loss": 0.0199,
      "step": 1300
    },
    {
      "epoch": 0.39,
      "learning_rate": 4.9190581309786614e-06,
      "loss": 0.0438,
      "step": 1310
    },
    {
      "epoch": 0.4,
      "learning_rate": 4.9164301482182284e-06,
      "loss": 0.0341,
      "step": 1320
    },
    {
      "epoch": 0.4,
      "learning_rate": 4.913802165457795e-06,
      "loss": 0.0414,
      "step": 1330
    },
    {
      "epoch": 0.4,
      "learning_rate": 4.911174182697362e-06,
      "loss": 0.0236,
      "step": 1340
    },
    {
      "epoch": 0.4,
      "learning_rate": 4.908546199936929e-06,
      "loss": 0.0204,
      "step": 1350
    },
    {
      "epoch": 0.41,
      "learning_rate": 4.905918217176496e-06,
      "loss": 0.0594,
      "step": 1360
    },
    {
      "epoch": 0.41,
      "learning_rate": 4.903290234416063e-06,
      "loss": 0.0307,
      "step": 1370
    },
    {
      "epoch": 0.41,
      "learning_rate": 4.90066225165563e-06,
      "loss": 0.0289,
      "step": 1380
    },
    {
      "epoch": 0.42,
      "learning_rate": 4.898034268895197e-06,
      "loss": 0.0286,
      "step": 1390
    },
    {
      "epoch": 0.42,
      "learning_rate": 4.895406286134764e-06,
      "loss": 0.0165,
      "step": 1400
    },
    {
      "epoch": 0.42,
      "eval_f1": 0.9806008044565914,
      "eval_f1_0": 0.9935918800844773,
      "eval_f1_1": 0.9939256908226702,
      "eval_f1_2": 0.9369203232630038,
      "eval_f1_3": 0.9979653236562142,
      "eval_loss": 0.043006036430597305,
      "eval_runtime": 153.0999,
      "eval_samples_per_second": 77.518,
      "eval_steps_per_second": 0.307,
      "step": 1400
    },
    {
      "epoch": 0.42,
      "learning_rate": 4.892778303374331e-06,
      "loss": 0.0495,
      "step": 1410
    },
    {
      "epoch": 0.43,
      "learning_rate": 4.890150320613897e-06,
      "loss": 0.0302,
      "step": 1420
    },
    {
      "epoch": 0.43,
      "learning_rate": 4.887522337853464e-06,
      "loss": 0.0133,
      "step": 1430
    },
    {
      "epoch": 0.43,
      "learning_rate": 4.884894355093031e-06,
      "loss": 0.0525,
      "step": 1440
    },
    {
      "epoch": 0.43,
      "learning_rate": 4.882266372332598e-06,
      "loss": 0.0161,
      "step": 1450
    },
    {
      "epoch": 0.44,
      "learning_rate": 4.879638389572165e-06,
      "loss": 0.0087,
      "step": 1460
    },
    {
      "epoch": 0.44,
      "learning_rate": 4.877010406811732e-06,
      "loss": 0.0405,
      "step": 1470
    },
    {
      "epoch": 0.44,
      "learning_rate": 4.874382424051299e-06,
      "loss": 0.0454,
      "step": 1480
    },
    {
      "epoch": 0.45,
      "learning_rate": 4.871754441290866e-06,
      "loss": 0.0155,
      "step": 1490
    },
    {
      "epoch": 0.45,
      "learning_rate": 4.869126458530433e-06,
      "loss": 0.0502,
      "step": 1500
    },
    {
      "epoch": 0.45,
      "learning_rate": 4.86649847577e-06,
      "loss": 0.0055,
      "step": 1510
    },
    {
      "epoch": 0.46,
      "learning_rate": 4.863870493009566e-06,
      "loss": 0.0089,
      "step": 1520
    },
    {
      "epoch": 0.46,
      "learning_rate": 4.861242510249133e-06,
      "loss": 0.0225,
      "step": 1530
    },
    {
      "epoch": 0.46,
      "learning_rate": 4.8586145274887e-06,
      "loss": 0.0295,
      "step": 1540
    },
    {
      "epoch": 0.46,
      "learning_rate": 4.855986544728267e-06,
      "loss": 0.0668,
      "step": 1550
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.853358561967833e-06,
      "loss": 0.0125,
      "step": 1560
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.8507305792074e-06,
      "loss": 0.006,
      "step": 1570
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.848102596446967e-06,
      "loss": 0.0631,
      "step": 1580
    },
    {
      "epoch": 0.48,
      "learning_rate": 4.845474613686534e-06,
      "loss": 0.0364,
      "step": 1590
    },
    {
      "epoch": 0.48,
      "learning_rate": 4.842846630926101e-06,
      "loss": 0.0656,
      "step": 1600
    },
    {
      "epoch": 0.48,
      "eval_f1": 0.9573566037869359,
      "eval_f1_0": 0.9845514174634512,
      "eval_f1_1": 0.9949111421936536,
      "eval_f1_2": 0.8514684546002883,
      "eval_f1_3": 0.9984954008903504,
      "eval_loss": 0.11157545447349548,
      "eval_runtime": 153.0673,
      "eval_samples_per_second": 77.535,
      "eval_steps_per_second": 0.307,
      "step": 1600
    },
    {
      "epoch": 0.48,
      "learning_rate": 4.840218648165668e-06,
      "loss": 0.0364,
      "step": 1610
    },
    {
      "epoch": 0.49,
      "learning_rate": 4.837590665405235e-06,
      "loss": 0.0274,
      "step": 1620
    },
    {
      "epoch": 0.49,
      "learning_rate": 4.834962682644802e-06,
      "loss": 0.0171,
      "step": 1630
    },
    {
      "epoch": 0.49,
      "learning_rate": 4.832334699884369e-06,
      "loss": 0.0163,
      "step": 1640
    },
    {
      "epoch": 0.49,
      "learning_rate": 4.8297067171239355e-06,
      "loss": 0.0106,
      "step": 1650
    },
    {
      "epoch": 0.5,
      "learning_rate": 4.8270787343635026e-06,
      "loss": 0.022,
      "step": 1660
    },
    {
      "epoch": 0.5,
      "learning_rate": 4.8244507516030696e-06,
      "loss": 0.0448,
      "step": 1670
    },
    {
      "epoch": 0.5,
      "learning_rate": 4.821822768842637e-06,
      "loss": 0.0607,
      "step": 1680
    },
    {
      "epoch": 0.51,
      "learning_rate": 4.819194786082204e-06,
      "loss": 0.0159,
      "step": 1690
    },
    {
      "epoch": 0.51,
      "learning_rate": 4.816566803321771e-06,
      "loss": 0.009,
      "step": 1700
    },
    {
      "epoch": 0.51,
      "learning_rate": 4.813938820561338e-06,
      "loss": 0.041,
      "step": 1710
    },
    {
      "epoch": 0.52,
      "learning_rate": 4.811310837800905e-06,
      "loss": 0.0226,
      "step": 1720
    },
    {
      "epoch": 0.52,
      "learning_rate": 4.808682855040472e-06,
      "loss": 0.02,
      "step": 1730
    },
    {
      "epoch": 0.52,
      "learning_rate": 4.806054872280038e-06,
      "loss": 0.0264,
      "step": 1740
    },
    {
      "epoch": 0.52,
      "learning_rate": 4.803426889519605e-06,
      "loss": 0.0642,
      "step": 1750
    },
    {
      "epoch": 0.53,
      "learning_rate": 4.800798906759172e-06,
      "loss": 0.0672,
      "step": 1760
    },
    {
      "epoch": 0.53,
      "learning_rate": 4.798170923998739e-06,
      "loss": 0.0273,
      "step": 1770
    },
    {
      "epoch": 0.53,
      "learning_rate": 4.795542941238306e-06,
      "loss": 0.0089,
      "step": 1780
    },
    {
      "epoch": 0.54,
      "learning_rate": 4.792914958477873e-06,
      "loss": 0.0203,
      "step": 1790
    },
    {
      "epoch": 0.54,
      "learning_rate": 4.79028697571744e-06,
      "loss": 0.0107,
      "step": 1800
    },
    {
      "epoch": 0.54,
      "eval_f1": 0.9844617361811707,
      "eval_f1_0": 0.9950323086176547,
      "eval_f1_1": 0.9973182942970593,
      "eval_f1_2": 0.9468495385821599,
      "eval_f1_3": 0.9986468032278089,
      "eval_loss": 0.03598302602767944,
      "eval_runtime": 153.2134,
      "eval_samples_per_second": 77.461,
      "eval_steps_per_second": 0.307,
      "step": 1800
    },
    {
      "epoch": 0.54,
      "learning_rate": 4.787658992957007e-06,
      "loss": 0.0107,
      "step": 1810
    },
    {
      "epoch": 0.55,
      "learning_rate": 4.785031010196574e-06,
      "loss": 0.0255,
      "step": 1820
    },
    {
      "epoch": 0.55,
      "learning_rate": 4.782403027436141e-06,
      "loss": 0.006,
      "step": 1830
    },
    {
      "epoch": 0.55,
      "learning_rate": 4.779775044675707e-06,
      "loss": 0.0344,
      "step": 1840
    },
    {
      "epoch": 0.55,
      "learning_rate": 4.777147061915274e-06,
      "loss": 0.0458,
      "step": 1850
    },
    {
      "epoch": 0.56,
      "learning_rate": 4.774519079154841e-06,
      "loss": 0.0352,
      "step": 1860
    },
    {
      "epoch": 0.56,
      "learning_rate": 4.771891096394408e-06,
      "loss": 0.0799,
      "step": 1870
    },
    {
      "epoch": 0.56,
      "learning_rate": 4.769263113633975e-06,
      "loss": 0.0626,
      "step": 1880
    },
    {
      "epoch": 0.57,
      "learning_rate": 4.766635130873542e-06,
      "loss": 0.0176,
      "step": 1890
    },
    {
      "epoch": 0.57,
      "learning_rate": 4.764007148113109e-06,
      "loss": 0.0381,
      "step": 1900
    },
    {
      "epoch": 0.57,
      "learning_rate": 4.761379165352676e-06,
      "loss": 0.0297,
      "step": 1910
    },
    {
      "epoch": 0.58,
      "learning_rate": 4.758751182592243e-06,
      "loss": 0.0794,
      "step": 1920
    },
    {
      "epoch": 0.58,
      "learning_rate": 4.756123199831809e-06,
      "loss": 0.0186,
      "step": 1930
    },
    {
      "epoch": 0.58,
      "learning_rate": 4.753495217071376e-06,
      "loss": 0.0342,
      "step": 1940
    },
    {
      "epoch": 0.58,
      "learning_rate": 4.750867234310943e-06,
      "loss": 0.0705,
      "step": 1950
    },
    {
      "epoch": 0.59,
      "learning_rate": 4.74823925155051e-06,
      "loss": 0.0239,
      "step": 1960
    },
    {
      "epoch": 0.59,
      "learning_rate": 4.745611268790077e-06,
      "loss": 0.0408,
      "step": 1970
    },
    {
      "epoch": 0.59,
      "learning_rate": 4.742983286029644e-06,
      "loss": 0.0492,
      "step": 1980
    },
    {
      "epoch": 0.6,
      "learning_rate": 4.7403553032692105e-06,
      "loss": 0.1006,
      "step": 1990
    },
    {
      "epoch": 0.6,
      "learning_rate": 4.7377273205087775e-06,
      "loss": 0.0307,
      "step": 2000
    },
    {
      "epoch": 0.6,
      "eval_f1": 0.9852587720651101,
      "eval_f1_0": 0.9952924145851145,
      "eval_f1_1": 0.997425129509855,
      "eval_f1_2": 0.949825877240174,
      "eval_f1_3": 0.9984916669252971,
      "eval_loss": 0.03334509953856468,
      "eval_runtime": 153.1318,
      "eval_samples_per_second": 77.502,
      "eval_steps_per_second": 0.307,
      "step": 2000
    },
    {
      "epoch": 0.6,
      "learning_rate": 4.7350993377483445e-06,
      "loss": 0.0254,
      "step": 2010
    },
    {
      "epoch": 0.61,
      "learning_rate": 4.7324713549879115e-06,
      "loss": 0.0111,
      "step": 2020
    },
    {
      "epoch": 0.61,
      "learning_rate": 4.7298433722274785e-06,
      "loss": 0.0662,
      "step": 2030
    },
    {
      "epoch": 0.61,
      "learning_rate": 4.7272153894670456e-06,
      "loss": 0.0178,
      "step": 2040
    },
    {
      "epoch": 0.61,
      "learning_rate": 4.7245874067066126e-06,
      "loss": 0.0455,
      "step": 2050
    },
    {
      "epoch": 0.62,
      "learning_rate": 4.721959423946179e-06,
      "loss": 0.0158,
      "step": 2060
    },
    {
      "epoch": 0.62,
      "learning_rate": 4.719331441185746e-06,
      "loss": 0.005,
      "step": 2070
    },
    {
      "epoch": 0.62,
      "learning_rate": 4.716703458425313e-06,
      "loss": 0.0226,
      "step": 2080
    },
    {
      "epoch": 0.63,
      "learning_rate": 4.71407547566488e-06,
      "loss": 0.0296,
      "step": 2090
    },
    {
      "epoch": 0.63,
      "learning_rate": 4.711447492904447e-06,
      "loss": 0.0034,
      "step": 2100
    },
    {
      "epoch": 0.63,
      "learning_rate": 4.708819510144014e-06,
      "loss": 0.0272,
      "step": 2110
    },
    {
      "epoch": 0.64,
      "learning_rate": 4.706191527383581e-06,
      "loss": 0.0238,
      "step": 2120
    },
    {
      "epoch": 0.64,
      "learning_rate": 4.703563544623148e-06,
      "loss": 0.0169,
      "step": 2130
    },
    {
      "epoch": 0.64,
      "learning_rate": 4.700935561862715e-06,
      "loss": 0.0296,
      "step": 2140
    },
    {
      "epoch": 0.64,
      "learning_rate": 4.698307579102282e-06,
      "loss": 0.0354,
      "step": 2150
    },
    {
      "epoch": 0.65,
      "learning_rate": 4.695679596341848e-06,
      "loss": 0.0073,
      "step": 2160
    },
    {
      "epoch": 0.65,
      "learning_rate": 4.693051613581415e-06,
      "loss": 0.0033,
      "step": 2170
    },
    {
      "epoch": 0.65,
      "learning_rate": 4.690423630820982e-06,
      "loss": 0.0296,
      "step": 2180
    },
    {
      "epoch": 0.66,
      "learning_rate": 4.687795648060549e-06,
      "loss": 0.014,
      "step": 2190
    },
    {
      "epoch": 0.66,
      "learning_rate": 4.685167665300116e-06,
      "loss": 0.0143,
      "step": 2200
    },
    {
      "epoch": 0.66,
      "eval_f1": 0.988073153460117,
      "eval_f1_0": 0.9962023415252138,
      "eval_f1_1": 0.9963215311004785,
      "eval_f1_2": 0.9614893673366701,
      "eval_f1_3": 0.9982793738781053,
      "eval_loss": 0.026542503386735916,
      "eval_runtime": 153.1413,
      "eval_samples_per_second": 77.497,
      "eval_steps_per_second": 0.307,
      "step": 2200
    },
    {
      "epoch": 0.66,
      "learning_rate": 4.682539682539683e-06,
      "loss": 0.0228,
      "step": 2210
    },
    {
      "epoch": 0.67,
      "learning_rate": 4.67991169977925e-06,
      "loss": 0.0045,
      "step": 2220
    },
    {
      "epoch": 0.67,
      "learning_rate": 4.677283717018817e-06,
      "loss": 0.0374,
      "step": 2230
    },
    {
      "epoch": 0.67,
      "learning_rate": 4.674655734258384e-06,
      "loss": 0.0206,
      "step": 2240
    },
    {
      "epoch": 0.67,
      "learning_rate": 4.67202775149795e-06,
      "loss": 0.0119,
      "step": 2250
    },
    {
      "epoch": 0.68,
      "learning_rate": 4.669399768737517e-06,
      "loss": 0.0301,
      "step": 2260
    },
    {
      "epoch": 0.68,
      "learning_rate": 4.666771785977084e-06,
      "loss": 0.017,
      "step": 2270
    },
    {
      "epoch": 0.68,
      "learning_rate": 4.664143803216651e-06,
      "loss": 0.0234,
      "step": 2280
    },
    {
      "epoch": 0.69,
      "learning_rate": 4.661515820456218e-06,
      "loss": 0.0046,
      "step": 2290
    },
    {
      "epoch": 0.69,
      "learning_rate": 4.658887837695785e-06,
      "loss": 0.0356,
      "step": 2300
    },
    {
      "epoch": 0.69,
      "learning_rate": 4.656259854935352e-06,
      "loss": 0.03,
      "step": 2310
    },
    {
      "epoch": 0.7,
      "learning_rate": 4.653631872174919e-06,
      "loss": 0.0106,
      "step": 2320
    },
    {
      "epoch": 0.7,
      "learning_rate": 4.651003889414486e-06,
      "loss": 0.0374,
      "step": 2330
    },
    {
      "epoch": 0.7,
      "learning_rate": 4.648375906654053e-06,
      "loss": 0.0077,
      "step": 2340
    },
    {
      "epoch": 0.7,
      "learning_rate": 4.6457479238936195e-06,
      "loss": 0.0295,
      "step": 2350
    },
    {
      "epoch": 0.71,
      "learning_rate": 4.6431199411331865e-06,
      "loss": 0.0063,
      "step": 2360
    },
    {
      "epoch": 0.71,
      "learning_rate": 4.6404919583727535e-06,
      "loss": 0.0106,
      "step": 2370
    },
    {
      "epoch": 0.71,
      "learning_rate": 4.6378639756123205e-06,
      "loss": 0.0349,
      "step": 2380
    },
    {
      "epoch": 0.72,
      "learning_rate": 4.6352359928518875e-06,
      "loss": 0.003,
      "step": 2390
    },
    {
      "epoch": 0.72,
      "learning_rate": 4.6326080100914545e-06,
      "loss": 0.0121,
      "step": 2400
    },
    {
      "epoch": 0.72,
      "eval_f1": 0.9885120168169891,
      "eval_f1_0": 0.9963461094236451,
      "eval_f1_1": 0.9977868941982138,
      "eval_f1_2": 0.9611902612086393,
      "eval_f1_3": 0.9987248024374579,
      "eval_loss": 0.024830136448144913,
      "eval_runtime": 153.1267,
      "eval_samples_per_second": 77.504,
      "eval_steps_per_second": 0.307,
      "step": 2400
    },
    {
      "epoch": 0.72,
      "learning_rate": 4.629980027331021e-06,
      "loss": 0.0369,
      "step": 2410
    },
    {
      "epoch": 0.72,
      "learning_rate": 4.627352044570588e-06,
      "loss": 0.0023,
      "step": 2420
    },
    {
      "epoch": 0.73,
      "learning_rate": 4.624724061810155e-06,
      "loss": 0.0391,
      "step": 2430
    },
    {
      "epoch": 0.73,
      "learning_rate": 4.622096079049722e-06,
      "loss": 0.0066,
      "step": 2440
    },
    {
      "epoch": 0.73,
      "learning_rate": 4.619468096289289e-06,
      "loss": 0.0297,
      "step": 2450
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.616840113528856e-06,
      "loss": 0.0055,
      "step": 2460
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.614212130768423e-06,
      "loss": 0.002,
      "step": 2470
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.611584148007989e-06,
      "loss": 0.0128,
      "step": 2480
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.608956165247556e-06,
      "loss": 0.007,
      "step": 2490
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.606328182487123e-06,
      "loss": 0.0365,
      "step": 2500
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.60370019972669e-06,
      "loss": 0.0178,
      "step": 2510
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.601072216966257e-06,
      "loss": 0.0218,
      "step": 2520
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.598444234205824e-06,
      "loss": 0.0153,
      "step": 2530
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.595816251445391e-06,
      "loss": 0.0184,
      "step": 2540
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.593188268684958e-06,
      "loss": 0.0124,
      "step": 2550
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.590560285924525e-06,
      "loss": 0.029,
      "step": 2560
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.587932303164091e-06,
      "loss": 0.0251,
      "step": 2570
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.585304320403658e-06,
      "loss": 0.0308,
      "step": 2580
    },
    {
      "epoch": 0.78,
      "learning_rate": 4.582676337643225e-06,
      "loss": 0.017,
      "step": 2590
    },
    {
      "epoch": 0.78,
      "learning_rate": 4.580048354882792e-06,
      "loss": 0.0153,
      "step": 2600
    },
    {
      "epoch": 0.78,
      "eval_f1": 0.9824421525927298,
      "eval_f1_0": 0.9942432876005016,
      "eval_f1_1": 0.9977419540340049,
      "eval_f1_2": 0.9390652568676189,
      "eval_f1_3": 0.9987181118687942,
      "eval_loss": 0.04089111462235451,
      "eval_runtime": 153.216,
      "eval_samples_per_second": 77.459,
      "eval_steps_per_second": 0.307,
      "step": 2600
    },
    {
      "epoch": 0.78,
      "learning_rate": 4.577420372122359e-06,
      "loss": 0.0061,
      "step": 2610
    },
    {
      "epoch": 0.78,
      "learning_rate": 4.574792389361926e-06,
      "loss": 0.0299,
      "step": 2620
    },
    {
      "epoch": 0.79,
      "learning_rate": 4.572164406601493e-06,
      "loss": 0.0334,
      "step": 2630
    },
    {
      "epoch": 0.79,
      "learning_rate": 4.56953642384106e-06,
      "loss": 0.0402,
      "step": 2640
    },
    {
      "epoch": 0.79,
      "learning_rate": 4.566908441080627e-06,
      "loss": 0.0485,
      "step": 2650
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.564280458320194e-06,
      "loss": 0.0308,
      "step": 2660
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.56165247555976e-06,
      "loss": 0.0065,
      "step": 2670
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.559024492799327e-06,
      "loss": 0.0245,
      "step": 2680
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.5563965100388944e-06,
      "loss": 0.0462,
      "step": 2690
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.5537685272784614e-06,
      "loss": 0.0054,
      "step": 2700
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.5511405445180285e-06,
      "loss": 0.0238,
      "step": 2710
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.5485125617575955e-06,
      "loss": 0.0326,
      "step": 2720
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.5458845789971625e-06,
      "loss": 0.0269,
      "step": 2730
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.5432565962367295e-06,
      "loss": 0.0312,
      "step": 2740
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.5406286134762965e-06,
      "loss": 0.0117,
      "step": 2750
    },
    {
      "epoch": 0.83,
      "learning_rate": 4.538000630715863e-06,
      "loss": 0.0494,
      "step": 2760
    },
    {
      "epoch": 0.83,
      "learning_rate": 4.53537264795543e-06,
      "loss": 0.0224,
      "step": 2770
    },
    {
      "epoch": 0.83,
      "learning_rate": 4.532744665194997e-06,
      "loss": 0.0316,
      "step": 2780
    },
    {
      "epoch": 0.84,
      "learning_rate": 4.530116682434564e-06,
      "loss": 0.0199,
      "step": 2790
    },
    {
      "epoch": 0.84,
      "learning_rate": 4.527488699674131e-06,
      "loss": 0.0149,
      "step": 2800
    },
    {
      "epoch": 0.84,
      "eval_f1": 0.991081764730613,
      "eval_f1_0": 0.9971726588118188,
      "eval_f1_1": 0.9973864085569214,
      "eval_f1_2": 0.9709476248740075,
      "eval_f1_3": 0.9988203666797048,
      "eval_loss": 0.017994137480854988,
      "eval_runtime": 153.2012,
      "eval_samples_per_second": 77.467,
      "eval_steps_per_second": 0.307,
      "step": 2800
    },
    {
      "epoch": 0.84,
      "learning_rate": 4.524860716913698e-06,
      "loss": 0.0417,
      "step": 2810
    },
    {
      "epoch": 0.84,
      "learning_rate": 4.522232734153265e-06,
      "loss": 0.0199,
      "step": 2820
    },
    {
      "epoch": 0.85,
      "learning_rate": 4.519604751392832e-06,
      "loss": 0.0545,
      "step": 2830
    },
    {
      "epoch": 0.85,
      "learning_rate": 4.516976768632398e-06,
      "loss": 0.0061,
      "step": 2840
    },
    {
      "epoch": 0.85,
      "learning_rate": 4.514348785871965e-06,
      "loss": 0.0027,
      "step": 2850
    },
    {
      "epoch": 0.86,
      "learning_rate": 4.511720803111532e-06,
      "loss": 0.0053,
      "step": 2860
    },
    {
      "epoch": 0.86,
      "learning_rate": 4.509092820351099e-06,
      "loss": 0.0269,
      "step": 2870
    },
    {
      "epoch": 0.86,
      "learning_rate": 4.506464837590666e-06,
      "loss": 0.0437,
      "step": 2880
    },
    {
      "epoch": 0.87,
      "learning_rate": 4.503836854830232e-06,
      "loss": 0.0704,
      "step": 2890
    },
    {
      "epoch": 0.87,
      "learning_rate": 4.501208872069799e-06,
      "loss": 0.0695,
      "step": 2900
    },
    {
      "epoch": 0.87,
      "learning_rate": 4.498580889309366e-06,
      "loss": 0.0656,
      "step": 2910
    },
    {
      "epoch": 0.87,
      "learning_rate": 4.495952906548933e-06,
      "loss": 0.0253,
      "step": 2920
    },
    {
      "epoch": 0.88,
      "learning_rate": 4.4933249237885e-06,
      "loss": 0.0422,
      "step": 2930
    },
    {
      "epoch": 0.88,
      "learning_rate": 4.490696941028067e-06,
      "loss": 0.0096,
      "step": 2940
    },
    {
      "epoch": 0.88,
      "learning_rate": 4.488068958267634e-06,
      "loss": 0.0105,
      "step": 2950
    },
    {
      "epoch": 0.89,
      "learning_rate": 4.485440975507201e-06,
      "loss": 0.0183,
      "step": 2960
    },
    {
      "epoch": 0.89,
      "learning_rate": 4.482812992746768e-06,
      "loss": 0.004,
      "step": 2970
    },
    {
      "epoch": 0.89,
      "learning_rate": 4.480185009986335e-06,
      "loss": 0.0062,
      "step": 2980
    },
    {
      "epoch": 0.9,
      "learning_rate": 4.477557027225901e-06,
      "loss": 0.0264,
      "step": 2990
    },
    {
      "epoch": 0.9,
      "learning_rate": 4.474929044465468e-06,
      "loss": 0.0079,
      "step": 3000
    },
    {
      "epoch": 0.9,
      "eval_f1": 0.9892999364102113,
      "eval_f1_0": 0.9966928439249748,
      "eval_f1_1": 0.9975627514849588,
      "eval_f1_2": 0.9642531400753838,
      "eval_f1_3": 0.9986910101555279,
      "eval_loss": 0.025793807581067085,
      "eval_runtime": 153.0919,
      "eval_samples_per_second": 77.522,
      "eval_steps_per_second": 0.307,
      "step": 3000
    },
    {
      "epoch": 0.9,
      "learning_rate": 4.472301061705035e-06,
      "loss": 0.0384,
      "step": 3010
    },
    {
      "epoch": 0.9,
      "learning_rate": 4.469673078944602e-06,
      "loss": 0.0265,
      "step": 3020
    },
    {
      "epoch": 0.91,
      "learning_rate": 4.467045096184169e-06,
      "loss": 0.0047,
      "step": 3030
    },
    {
      "epoch": 0.91,
      "learning_rate": 4.464417113423736e-06,
      "loss": 0.0509,
      "step": 3040
    },
    {
      "epoch": 0.91,
      "learning_rate": 4.461789130663303e-06,
      "loss": 0.0101,
      "step": 3050
    },
    {
      "epoch": 0.92,
      "learning_rate": 4.45916114790287e-06,
      "loss": 0.0111,
      "step": 3060
    },
    {
      "epoch": 0.92,
      "learning_rate": 4.4565331651424374e-06,
      "loss": 0.0157,
      "step": 3070
    },
    {
      "epoch": 0.92,
      "learning_rate": 4.453905182382004e-06,
      "loss": 0.0131,
      "step": 3080
    },
    {
      "epoch": 0.93,
      "learning_rate": 4.451277199621571e-06,
      "loss": 0.0279,
      "step": 3090
    },
    {
      "epoch": 0.93,
      "learning_rate": 4.448649216861138e-06,
      "loss": 0.0284,
      "step": 3100
    },
    {
      "epoch": 0.93,
      "learning_rate": 4.446021234100705e-06,
      "loss": 0.0179,
      "step": 3110
    },
    {
      "epoch": 0.93,
      "learning_rate": 4.443393251340272e-06,
      "loss": 0.0051,
      "step": 3120
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.440765268579839e-06,
      "loss": 0.0403,
      "step": 3130
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.438137285819406e-06,
      "loss": 0.0046,
      "step": 3140
    },
    {
      "epoch": 0.94,
      "learning_rate": 4.435509303058973e-06,
      "loss": 0.0419,
      "step": 3150
    },
    {
      "epoch": 0.95,
      "learning_rate": 4.43288132029854e-06,
      "loss": 0.0343,
      "step": 3160
    },
    {
      "epoch": 0.95,
      "learning_rate": 4.430253337538107e-06,
      "loss": 0.0065,
      "step": 3170
    },
    {
      "epoch": 0.95,
      "learning_rate": 4.427625354777673e-06,
      "loss": 0.009,
      "step": 3180
    },
    {
      "epoch": 0.96,
      "learning_rate": 4.42499737201724e-06,
      "loss": 0.0213,
      "step": 3190
    },
    {
      "epoch": 0.96,
      "learning_rate": 4.422369389256807e-06,
      "loss": 0.0035,
      "step": 3200
    },
    {
      "epoch": 0.96,
      "eval_f1": 0.9925562042301975,
      "eval_f1_0": 0.9976930515391278,
      "eval_f1_1": 0.9978202731847592,
      "eval_f1_2": 0.9758470449256423,
      "eval_f1_3": 0.9988644472712606,
      "eval_loss": 0.01738656684756279,
      "eval_runtime": 153.1868,
      "eval_samples_per_second": 77.474,
      "eval_steps_per_second": 0.307,
      "step": 3200
    },
    {
      "epoch": 0.96,
      "learning_rate": 4.419741406496374e-06,
      "loss": 0.0339,
      "step": 3210
    },
    {
      "epoch": 0.96,
      "learning_rate": 4.417113423735941e-06,
      "loss": 0.0156,
      "step": 3220
    },
    {
      "epoch": 0.97,
      "learning_rate": 4.414485440975508e-06,
      "loss": 0.0349,
      "step": 3230
    },
    {
      "epoch": 0.97,
      "learning_rate": 4.411857458215075e-06,
      "loss": 0.0213,
      "step": 3240
    },
    {
      "epoch": 0.97,
      "learning_rate": 4.409229475454642e-06,
      "loss": 0.0423,
      "step": 3250
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.406601492694209e-06,
      "loss": 0.0252,
      "step": 3260
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.403973509933775e-06,
      "loss": 0.0048,
      "step": 3270
    },
    {
      "epoch": 0.98,
      "learning_rate": 4.401345527173342e-06,
      "loss": 0.0124,
      "step": 3280
    },
    {
      "epoch": 0.99,
      "learning_rate": 4.398717544412909e-06,
      "loss": 0.0348,
      "step": 3290
    },
    {
      "epoch": 0.99,
      "learning_rate": 4.396089561652475e-06,
      "loss": 0.0441,
      "step": 3300
    },
    {
      "epoch": 0.99,
      "learning_rate": 4.393461578892042e-06,
      "loss": 0.0357,
      "step": 3310
    },
    {
      "epoch": 0.99,
      "learning_rate": 4.390833596131609e-06,
      "loss": 0.0083,
      "step": 3320
    },
    {
      "epoch": 1.0,
      "learning_rate": 4.388205613371176e-06,
      "loss": 0.0088,
      "step": 3330
    },
    {
      "epoch": 1.0,
      "learning_rate": 4.385577630610743e-06,
      "loss": 0.0267,
      "step": 3340
    },
    {
      "epoch": 1.0,
      "learning_rate": 4.38294964785031e-06,
      "loss": 0.0085,
      "step": 3350
    },
    {
      "epoch": 1.01,
      "learning_rate": 4.380321665089877e-06,
      "loss": 0.0111,
      "step": 3360
    },
    {
      "epoch": 1.01,
      "learning_rate": 4.377693682329444e-06,
      "loss": 0.0256,
      "step": 3370
    },
    {
      "epoch": 1.01,
      "learning_rate": 4.375065699569011e-06,
      "loss": 0.0143,
      "step": 3380
    },
    {
      "epoch": 1.02,
      "learning_rate": 4.372437716808578e-06,
      "loss": 0.0104,
      "step": 3390
    },
    {
      "epoch": 1.02,
      "learning_rate": 4.3698097340481445e-06,
      "loss": 0.0056,
      "step": 3400
    },
    {
      "epoch": 1.02,
      "eval_f1": 0.9900821647690017,
      "eval_f1_0": 0.996891745919871,
      "eval_f1_1": 0.9974857484254811,
      "eval_f1_2": 0.9671803752422669,
      "eval_f1_3": 0.9987707894883877,
      "eval_loss": 0.01880444586277008,
      "eval_runtime": 153.1416,
      "eval_samples_per_second": 77.497,
      "eval_steps_per_second": 0.307,
      "step": 3400
    },
    {
      "epoch": 1.02,
      "learning_rate": 4.3671817512877115e-06,
      "loss": 0.0173,
      "step": 3410
    },
    {
      "epoch": 1.02,
      "learning_rate": 4.3645537685272785e-06,
      "loss": 0.0076,
      "step": 3420
    },
    {
      "epoch": 1.03,
      "learning_rate": 4.3619257857668456e-06,
      "loss": 0.0086,
      "step": 3430
    },
    {
      "epoch": 1.03,
      "learning_rate": 4.3592978030064126e-06,
      "loss": 0.0024,
      "step": 3440
    },
    {
      "epoch": 1.03,
      "learning_rate": 4.3566698202459796e-06,
      "loss": 0.0133,
      "step": 3450
    },
    {
      "epoch": 1.04,
      "learning_rate": 4.354041837485547e-06,
      "loss": 0.0051,
      "step": 3460
    },
    {
      "epoch": 1.04,
      "learning_rate": 4.351413854725114e-06,
      "loss": 0.0022,
      "step": 3470
    },
    {
      "epoch": 1.04,
      "learning_rate": 4.348785871964681e-06,
      "loss": 0.0277,
      "step": 3480
    },
    {
      "epoch": 1.05,
      "learning_rate": 4.346157889204248e-06,
      "loss": 0.0177,
      "step": 3490
    },
    {
      "epoch": 1.05,
      "learning_rate": 4.343529906443814e-06,
      "loss": 0.0232,
      "step": 3500
    },
    {
      "epoch": 1.05,
      "learning_rate": 4.340901923683381e-06,
      "loss": 0.017,
      "step": 3510
    },
    {
      "epoch": 1.05,
      "learning_rate": 4.338273940922948e-06,
      "loss": 0.0088,
      "step": 3520
    },
    {
      "epoch": 1.06,
      "learning_rate": 4.335645958162515e-06,
      "loss": 0.0061,
      "step": 3530
    },
    {
      "epoch": 1.06,
      "learning_rate": 4.333017975402082e-06,
      "loss": 0.019,
      "step": 3540
    },
    {
      "epoch": 1.06,
      "learning_rate": 4.330389992641649e-06,
      "loss": 0.0248,
      "step": 3550
    },
    {
      "epoch": 1.07,
      "learning_rate": 4.327762009881216e-06,
      "loss": 0.0222,
      "step": 3560
    },
    {
      "epoch": 1.07,
      "learning_rate": 4.325134027120783e-06,
      "loss": 0.0079,
      "step": 3570
    },
    {
      "epoch": 1.07,
      "learning_rate": 4.32250604436035e-06,
      "loss": 0.0168,
      "step": 3580
    },
    {
      "epoch": 1.08,
      "learning_rate": 4.319878061599916e-06,
      "loss": 0.011,
      "step": 3590
    },
    {
      "epoch": 1.08,
      "learning_rate": 4.317250078839483e-06,
      "loss": 0.0041,
      "step": 3600
    },
    {
      "epoch": 1.08,
      "eval_f1": 0.9923554131084382,
      "eval_f1_0": 0.9975622957389756,
      "eval_f1_1": 0.9968584617984346,
      "eval_f1_2": 0.9760375374160667,
      "eval_f1_3": 0.9989633574802759,
      "eval_loss": 0.016382403671741486,
      "eval_runtime": 153.1827,
      "eval_samples_per_second": 77.476,
      "eval_steps_per_second": 0.307,
      "step": 3600
    },
    {
      "epoch": 1.08,
      "learning_rate": 4.31462209607905e-06,
      "loss": 0.0037,
      "step": 3610
    },
    {
      "epoch": 1.08,
      "learning_rate": 4.311994113318617e-06,
      "loss": 0.0067,
      "step": 3620
    },
    {
      "epoch": 1.09,
      "learning_rate": 4.309366130558184e-06,
      "loss": 0.0026,
      "step": 3630
    },
    {
      "epoch": 1.09,
      "learning_rate": 4.306738147797751e-06,
      "loss": 0.043,
      "step": 3640
    },
    {
      "epoch": 1.09,
      "learning_rate": 4.304110165037318e-06,
      "loss": 0.0474,
      "step": 3650
    },
    {
      "epoch": 1.1,
      "learning_rate": 4.301482182276885e-06,
      "loss": 0.0371,
      "step": 3660
    },
    {
      "epoch": 1.1,
      "learning_rate": 4.298854199516452e-06,
      "loss": 0.0188,
      "step": 3670
    },
    {
      "epoch": 1.1,
      "learning_rate": 4.296226216756019e-06,
      "loss": 0.0068,
      "step": 3680
    },
    {
      "epoch": 1.11,
      "learning_rate": 4.293598233995585e-06,
      "loss": 0.0014,
      "step": 3690
    },
    {
      "epoch": 1.11,
      "learning_rate": 4.290970251235152e-06,
      "loss": 0.0022,
      "step": 3700
    },
    {
      "epoch": 1.11,
      "learning_rate": 4.288342268474719e-06,
      "loss": 0.0011,
      "step": 3710
    },
    {
      "epoch": 1.11,
      "learning_rate": 4.2857142857142855e-06,
      "loss": 0.0266,
      "step": 3720
    },
    {
      "epoch": 1.12,
      "learning_rate": 4.2830863029538525e-06,
      "loss": 0.0055,
      "step": 3730
    },
    {
      "epoch": 1.12,
      "learning_rate": 4.2804583201934195e-06,
      "loss": 0.004,
      "step": 3740
    },
    {
      "epoch": 1.12,
      "learning_rate": 4.2778303374329865e-06,
      "loss": 0.0155,
      "step": 3750
    },
    {
      "epoch": 1.13,
      "learning_rate": 4.2752023546725535e-06,
      "loss": 0.0435,
      "step": 3760
    },
    {
      "epoch": 1.13,
      "learning_rate": 4.2725743719121205e-06,
      "loss": 0.031,
      "step": 3770
    },
    {
      "epoch": 1.13,
      "learning_rate": 4.2699463891516875e-06,
      "loss": 0.0036,
      "step": 3780
    },
    {
      "epoch": 1.14,
      "learning_rate": 4.2673184063912545e-06,
      "loss": 0.0088,
      "step": 3790
    },
    {
      "epoch": 1.14,
      "learning_rate": 4.2646904236308215e-06,
      "loss": 0.0177,
      "step": 3800
    },
    {
      "epoch": 1.14,
      "eval_f1": 0.9917306367952623,
      "eval_f1_0": 0.9973764216025945,
      "eval_f1_1": 0.9977408367725801,
      "eval_f1_2": 0.9728820290446188,
      "eval_f1_3": 0.9989232597612554,
      "eval_loss": 0.014767622575163841,
      "eval_runtime": 153.2056,
      "eval_samples_per_second": 77.465,
      "eval_steps_per_second": 0.307,
      "step": 3800
    },
    {
      "epoch": 1.14,
      "learning_rate": 4.262062440870388e-06,
      "loss": 0.0088,
      "step": 3810
    },
    {
      "epoch": 1.14,
      "learning_rate": 4.259434458109955e-06,
      "loss": 0.0242,
      "step": 3820
    },
    {
      "epoch": 1.15,
      "learning_rate": 4.256806475349522e-06,
      "loss": 0.0069,
      "step": 3830
    },
    {
      "epoch": 1.15,
      "learning_rate": 4.254178492589089e-06,
      "loss": 0.0234,
      "step": 3840
    },
    {
      "epoch": 1.15,
      "learning_rate": 4.251550509828656e-06,
      "loss": 0.0048,
      "step": 3850
    },
    {
      "epoch": 1.16,
      "learning_rate": 4.248922527068223e-06,
      "loss": 0.002,
      "step": 3860
    },
    {
      "epoch": 1.16,
      "learning_rate": 4.24629454430779e-06,
      "loss": 0.0259,
      "step": 3870
    },
    {
      "epoch": 1.16,
      "learning_rate": 4.243666561547357e-06,
      "loss": 0.005,
      "step": 3880
    },
    {
      "epoch": 1.17,
      "learning_rate": 4.241038578786924e-06,
      "loss": 0.0109,
      "step": 3890
    },
    {
      "epoch": 1.17,
      "learning_rate": 4.238410596026491e-06,
      "loss": 0.0076,
      "step": 3900
    },
    {
      "epoch": 1.17,
      "learning_rate": 4.235782613266057e-06,
      "loss": 0.0025,
      "step": 3910
    },
    {
      "epoch": 1.17,
      "learning_rate": 4.233154630505624e-06,
      "loss": 0.0032,
      "step": 3920
    },
    {
      "epoch": 1.18,
      "learning_rate": 4.230526647745191e-06,
      "loss": 0.0047,
      "step": 3930
    },
    {
      "epoch": 1.18,
      "learning_rate": 4.227898664984758e-06,
      "loss": 0.0038,
      "step": 3940
    },
    {
      "epoch": 1.18,
      "learning_rate": 4.225270682224325e-06,
      "loss": 0.018,
      "step": 3950
    },
    {
      "epoch": 1.19,
      "learning_rate": 4.222642699463892e-06,
      "loss": 0.0013,
      "step": 3960
    },
    {
      "epoch": 1.19,
      "learning_rate": 4.220014716703459e-06,
      "loss": 0.0257,
      "step": 3970
    },
    {
      "epoch": 1.19,
      "learning_rate": 4.217386733943026e-06,
      "loss": 0.0142,
      "step": 3980
    },
    {
      "epoch": 1.2,
      "learning_rate": 4.214758751182593e-06,
      "loss": 0.0101,
      "step": 3990
    },
    {
      "epoch": 1.2,
      "learning_rate": 4.212130768422159e-06,
      "loss": 0.0183,
      "step": 4000
    },
    {
      "epoch": 1.2,
      "eval_f1": 0.9811645096843833,
      "eval_f1_0": 0.9937597363504184,
      "eval_f1_1": 0.9977700441964585,
      "eval_f1_2": 0.9342515817388692,
      "eval_f1_3": 0.9988766764517871,
      "eval_loss": 0.042360611259937286,
      "eval_runtime": 153.0928,
      "eval_samples_per_second": 77.522,
      "eval_steps_per_second": 0.307,
      "step": 4000
    },
    {
      "epoch": 1.2,
      "learning_rate": 4.209502785661726e-06,
      "loss": 0.028,
      "step": 4010
    },
    {
      "epoch": 1.2,
      "learning_rate": 4.206874802901293e-06,
      "loss": 0.0184,
      "step": 4020
    },
    {
      "epoch": 1.21,
      "learning_rate": 4.20424682014086e-06,
      "loss": 0.015,
      "step": 4030
    },
    {
      "epoch": 1.21,
      "learning_rate": 4.201618837380427e-06,
      "loss": 0.0203,
      "step": 4040
    },
    {
      "epoch": 1.21,
      "learning_rate": 4.198990854619994e-06,
      "loss": 0.0323,
      "step": 4050
    },
    {
      "epoch": 1.22,
      "learning_rate": 4.196362871859561e-06,
      "loss": 0.0032,
      "step": 4060
    },
    {
      "epoch": 1.22,
      "learning_rate": 4.193734889099128e-06,
      "loss": 0.03,
      "step": 4070
    },
    {
      "epoch": 1.22,
      "learning_rate": 4.191106906338695e-06,
      "loss": 0.0049,
      "step": 4080
    },
    {
      "epoch": 1.23,
      "learning_rate": 4.188478923578262e-06,
      "loss": 0.0201,
      "step": 4090
    },
    {
      "epoch": 1.23,
      "learning_rate": 4.1858509408178285e-06,
      "loss": 0.004,
      "step": 4100
    },
    {
      "epoch": 1.23,
      "learning_rate": 4.1832229580573955e-06,
      "loss": 0.011,
      "step": 4110
    },
    {
      "epoch": 1.23,
      "learning_rate": 4.1805949752969625e-06,
      "loss": 0.0484,
      "step": 4120
    },
    {
      "epoch": 1.24,
      "learning_rate": 4.177966992536529e-06,
      "loss": 0.0018,
      "step": 4130
    },
    {
      "epoch": 1.24,
      "learning_rate": 4.175339009776096e-06,
      "loss": 0.0382,
      "step": 4140
    },
    {
      "epoch": 1.24,
      "learning_rate": 4.172711027015663e-06,
      "loss": 0.0296,
      "step": 4150
    },
    {
      "epoch": 1.25,
      "learning_rate": 4.17008304425523e-06,
      "loss": 0.005,
      "step": 4160
    },
    {
      "epoch": 1.25,
      "learning_rate": 4.167455061494797e-06,
      "loss": 0.0112,
      "step": 4170
    },
    {
      "epoch": 1.25,
      "learning_rate": 4.164827078734364e-06,
      "loss": 0.0304,
      "step": 4180
    },
    {
      "epoch": 1.26,
      "learning_rate": 4.162199095973931e-06,
      "loss": 0.0041,
      "step": 4190
    },
    {
      "epoch": 1.26,
      "learning_rate": 4.159571113213498e-06,
      "loss": 0.0198,
      "step": 4200
    },
    {
      "epoch": 1.26,
      "eval_f1": 0.9877866699812177,
      "eval_f1_0": 0.9960761087184571,
      "eval_f1_1": 0.9979039177369216,
      "eval_f1_2": 0.9582030901134232,
      "eval_f1_3": 0.9989635633560687,
      "eval_loss": 0.02484200894832611,
      "eval_runtime": 153.1816,
      "eval_samples_per_second": 77.477,
      "eval_steps_per_second": 0.307,
      "step": 4200
    },
    {
      "epoch": 1.26,
      "learning_rate": 4.156943130453065e-06,
      "loss": 0.0019,
      "step": 4210
    },
    {
      "epoch": 1.26,
      "learning_rate": 4.154315147692632e-06,
      "loss": 0.0014,
      "step": 4220
    },
    {
      "epoch": 1.27,
      "learning_rate": 4.151687164932198e-06,
      "loss": 0.0078,
      "step": 4230
    },
    {
      "epoch": 1.27,
      "learning_rate": 4.149059182171765e-06,
      "loss": 0.017,
      "step": 4240
    },
    {
      "epoch": 1.27,
      "learning_rate": 4.146431199411332e-06,
      "loss": 0.0196,
      "step": 4250
    },
    {
      "epoch": 1.28,
      "learning_rate": 4.143803216650899e-06,
      "loss": 0.0068,
      "step": 4260
    },
    {
      "epoch": 1.28,
      "learning_rate": 4.141175233890466e-06,
      "loss": 0.0041,
      "step": 4270
    },
    {
      "epoch": 1.28,
      "learning_rate": 4.138547251130033e-06,
      "loss": 0.0166,
      "step": 4280
    },
    {
      "epoch": 1.29,
      "learning_rate": 4.1359192683696e-06,
      "loss": 0.0024,
      "step": 4290
    },
    {
      "epoch": 1.29,
      "learning_rate": 4.133291285609167e-06,
      "loss": 0.0009,
      "step": 4300
    },
    {
      "epoch": 1.29,
      "learning_rate": 4.130663302848734e-06,
      "loss": 0.0029,
      "step": 4310
    },
    {
      "epoch": 1.29,
      "learning_rate": 4.1280353200883e-06,
      "loss": 0.0208,
      "step": 4320
    },
    {
      "epoch": 1.3,
      "learning_rate": 4.125407337327867e-06,
      "loss": 0.0264,
      "step": 4330
    },
    {
      "epoch": 1.3,
      "learning_rate": 4.122779354567434e-06,
      "loss": 0.0229,
      "step": 4340
    },
    {
      "epoch": 1.3,
      "learning_rate": 4.120151371807001e-06,
      "loss": 0.0401,
      "step": 4350
    },
    {
      "epoch": 1.31,
      "learning_rate": 4.117523389046568e-06,
      "loss": 0.007,
      "step": 4360
    },
    {
      "epoch": 1.31,
      "learning_rate": 4.114895406286135e-06,
      "loss": 0.0122,
      "step": 4370
    },
    {
      "epoch": 1.31,
      "learning_rate": 4.112267423525702e-06,
      "loss": 0.0035,
      "step": 4380
    },
    {
      "epoch": 1.32,
      "learning_rate": 4.109639440765269e-06,
      "loss": 0.0368,
      "step": 4390
    },
    {
      "epoch": 1.32,
      "learning_rate": 4.107011458004836e-06,
      "loss": 0.0132,
      "step": 4400
    },
    {
      "epoch": 1.32,
      "eval_f1": 0.9830756707587374,
      "eval_f1_0": 0.9944486878150933,
      "eval_f1_1": 0.9969642565692834,
      "eval_f1_2": 0.9420131319189023,
      "eval_f1_3": 0.9988766067316703,
      "eval_loss": 0.035511914640665054,
      "eval_runtime": 153.2065,
      "eval_samples_per_second": 77.464,
      "eval_steps_per_second": 0.307,
      "step": 4400
    },
    {
      "epoch": 1.32,
      "learning_rate": 4.104383475244403e-06,
      "loss": 0.0035,
      "step": 4410
    },
    {
      "epoch": 1.32,
      "learning_rate": 4.101755492483969e-06,
      "loss": 0.0097,
      "step": 4420
    },
    {
      "epoch": 1.33,
      "learning_rate": 4.099127509723536e-06,
      "loss": 0.0144,
      "step": 4430
    },
    {
      "epoch": 1.33,
      "learning_rate": 4.096499526963103e-06,
      "loss": 0.0128,
      "step": 4440
    },
    {
      "epoch": 1.33,
      "learning_rate": 4.09387154420267e-06,
      "loss": 0.0019,
      "step": 4450
    },
    {
      "epoch": 1.34,
      "learning_rate": 4.0912435614422374e-06,
      "loss": 0.0019,
      "step": 4460
    },
    {
      "epoch": 1.34,
      "learning_rate": 4.0886155786818044e-06,
      "loss": 0.0032,
      "step": 4470
    },
    {
      "epoch": 1.34,
      "learning_rate": 4.0859875959213715e-06,
      "loss": 0.006,
      "step": 4480
    },
    {
      "epoch": 1.35,
      "learning_rate": 4.0833596131609385e-06,
      "loss": 0.0025,
      "step": 4490
    },
    {
      "epoch": 1.35,
      "learning_rate": 4.0807316304005055e-06,
      "loss": 0.0088,
      "step": 4500
    },
    {
      "epoch": 1.35,
      "learning_rate": 4.078103647640072e-06,
      "loss": 0.0329,
      "step": 4510
    },
    {
      "epoch": 1.35,
      "learning_rate": 4.075475664879639e-06,
      "loss": 0.0125,
      "step": 4520
    },
    {
      "epoch": 1.36,
      "learning_rate": 4.072847682119206e-06,
      "loss": 0.0029,
      "step": 4530
    },
    {
      "epoch": 1.36,
      "learning_rate": 4.070219699358773e-06,
      "loss": 0.0033,
      "step": 4540
    },
    {
      "epoch": 1.36,
      "learning_rate": 4.067591716598339e-06,
      "loss": 0.0233,
      "step": 4550
    },
    {
      "epoch": 1.37,
      "learning_rate": 4.064963733837906e-06,
      "loss": 0.0076,
      "step": 4560
    },
    {
      "epoch": 1.37,
      "learning_rate": 4.062335751077473e-06,
      "loss": 0.003,
      "step": 4570
    },
    {
      "epoch": 1.37,
      "learning_rate": 4.05970776831704e-06,
      "loss": 0.0207,
      "step": 4580
    },
    {
      "epoch": 1.38,
      "learning_rate": 4.057079785556607e-06,
      "loss": 0.0096,
      "step": 4590
    },
    {
      "epoch": 1.38,
      "learning_rate": 4.054451802796174e-06,
      "loss": 0.0023,
      "step": 4600
    },
    {
      "epoch": 1.38,
      "eval_f1": 0.9931970642159123,
      "eval_f1_0": 0.9978763521162372,
      "eval_f1_1": 0.997958193777955,
      "eval_f1_2": 0.9784022446005611,
      "eval_f1_3": 0.9985514663688952,
      "eval_loss": 0.014273732900619507,
      "eval_runtime": 153.1815,
      "eval_samples_per_second": 77.477,
      "eval_steps_per_second": 0.307,
      "step": 4600
    },
    {
      "epoch": 1.38,
      "learning_rate": 4.051823820035741e-06,
      "loss": 0.018,
      "step": 4610
    },
    {
      "epoch": 1.38,
      "learning_rate": 4.049195837275308e-06,
      "loss": 0.0055,
      "step": 4620
    },
    {
      "epoch": 1.39,
      "learning_rate": 4.046567854514875e-06,
      "loss": 0.003,
      "step": 4630
    },
    {
      "epoch": 1.39,
      "learning_rate": 4.043939871754441e-06,
      "loss": 0.003,
      "step": 4640
    },
    {
      "epoch": 1.39,
      "learning_rate": 4.041311888994008e-06,
      "loss": 0.0047,
      "step": 4650
    },
    {
      "epoch": 1.4,
      "learning_rate": 4.038683906233575e-06,
      "loss": 0.007,
      "step": 4660
    },
    {
      "epoch": 1.4,
      "learning_rate": 4.036055923473142e-06,
      "loss": 0.0058,
      "step": 4670
    },
    {
      "epoch": 1.4,
      "learning_rate": 4.033427940712709e-06,
      "loss": 0.0071,
      "step": 4680
    },
    {
      "epoch": 1.41,
      "learning_rate": 4.030799957952276e-06,
      "loss": 0.0025,
      "step": 4690
    },
    {
      "epoch": 1.41,
      "learning_rate": 4.028171975191843e-06,
      "loss": 0.0286,
      "step": 4700
    },
    {
      "epoch": 1.41,
      "learning_rate": 4.02554399243141e-06,
      "loss": 0.0043,
      "step": 4710
    },
    {
      "epoch": 1.41,
      "learning_rate": 4.022916009670977e-06,
      "loss": 0.0193,
      "step": 4720
    },
    {
      "epoch": 1.42,
      "learning_rate": 4.020288026910544e-06,
      "loss": 0.0266,
      "step": 4730
    },
    {
      "epoch": 1.42,
      "learning_rate": 4.01766004415011e-06,
      "loss": 0.0044,
      "step": 4740
    },
    {
      "epoch": 1.42,
      "learning_rate": 4.015032061389677e-06,
      "loss": 0.0356,
      "step": 4750
    },
    {
      "epoch": 1.43,
      "learning_rate": 4.012404078629244e-06,
      "loss": 0.0149,
      "step": 4760
    },
    {
      "epoch": 1.43,
      "learning_rate": 4.009776095868811e-06,
      "loss": 0.018,
      "step": 4770
    },
    {
      "epoch": 1.43,
      "learning_rate": 4.007148113108378e-06,
      "loss": 0.0102,
      "step": 4780
    },
    {
      "epoch": 1.43,
      "learning_rate": 4.004520130347945e-06,
      "loss": 0.0258,
      "step": 4790
    },
    {
      "epoch": 1.44,
      "learning_rate": 4.001892147587512e-06,
      "loss": 0.023,
      "step": 4800
    },
    {
      "epoch": 1.44,
      "eval_f1": 0.9880544825830188,
      "eval_f1_0": 0.9961411610030081,
      "eval_f1_1": 0.9981075603634558,
      "eval_f1_2": 0.9589777020287306,
      "eval_f1_3": 0.9989915069368808,
      "eval_loss": 0.026987778022885323,
      "eval_runtime": 153.188,
      "eval_samples_per_second": 77.473,
      "eval_steps_per_second": 0.307,
      "step": 4800
    },
    {
      "epoch": 1.44,
      "learning_rate": 3.999264164827079e-06,
      "loss": 0.0087,
      "step": 4810
    },
    {
      "epoch": 1.44,
      "learning_rate": 3.996636182066646e-06,
      "loss": 0.0044,
      "step": 4820
    },
    {
      "epoch": 1.45,
      "learning_rate": 3.9940081993062126e-06,
      "loss": 0.0106,
      "step": 4830
    },
    {
      "epoch": 1.45,
      "learning_rate": 3.99138021654578e-06,
      "loss": 0.0066,
      "step": 4840
    },
    {
      "epoch": 1.45,
      "learning_rate": 3.988752233785347e-06,
      "loss": 0.0112,
      "step": 4850
    },
    {
      "epoch": 1.46,
      "learning_rate": 3.986124251024914e-06,
      "loss": 0.0024,
      "step": 4860
    },
    {
      "epoch": 1.46,
      "learning_rate": 3.983496268264481e-06,
      "loss": 0.0477,
      "step": 4870
    },
    {
      "epoch": 1.46,
      "learning_rate": 3.980868285504048e-06,
      "loss": 0.0063,
      "step": 4880
    },
    {
      "epoch": 1.46,
      "learning_rate": 3.978240302743615e-06,
      "loss": 0.0086,
      "step": 4890
    },
    {
      "epoch": 1.47,
      "learning_rate": 3.975612319983182e-06,
      "loss": 0.0021,
      "step": 4900
    },
    {
      "epoch": 1.47,
      "learning_rate": 3.972984337222749e-06,
      "loss": 0.0055,
      "step": 4910
    },
    {
      "epoch": 1.47,
      "learning_rate": 3.970356354462316e-06,
      "loss": 0.0083,
      "step": 4920
    },
    {
      "epoch": 1.48,
      "learning_rate": 3.967728371701882e-06,
      "loss": 0.0447,
      "step": 4930
    },
    {
      "epoch": 1.48,
      "learning_rate": 3.965100388941449e-06,
      "loss": 0.004,
      "step": 4940
    },
    {
      "epoch": 1.48,
      "learning_rate": 3.962472406181016e-06,
      "loss": 0.0021,
      "step": 4950
    },
    {
      "epoch": 1.49,
      "learning_rate": 3.959844423420583e-06,
      "loss": 0.0125,
      "step": 4960
    },
    {
      "epoch": 1.49,
      "learning_rate": 3.957216440660149e-06,
      "loss": 0.0045,
      "step": 4970
    },
    {
      "epoch": 1.49,
      "learning_rate": 3.954588457899716e-06,
      "loss": 0.0166,
      "step": 4980
    },
    {
      "epoch": 1.49,
      "learning_rate": 3.951960475139283e-06,
      "loss": 0.0134,
      "step": 4990
    },
    {
      "epoch": 1.5,
      "learning_rate": 3.94933249237885e-06,
      "loss": 0.0103,
      "step": 5000
    },
    {
      "epoch": 1.5,
      "eval_f1": 0.9920083137758474,
      "eval_f1_0": 0.9974702907981972,
      "eval_f1_1": 0.9983040421287434,
      "eval_f1_2": 0.9732429083447697,
      "eval_f1_3": 0.9990160138316794,
      "eval_loss": 0.0146098081022501,
      "eval_runtime": 153.1625,
      "eval_samples_per_second": 77.486,
      "eval_steps_per_second": 0.307,
      "step": 5000
    },
    {
      "epoch": 1.5,
      "learning_rate": 3.946704509618417e-06,
      "loss": 0.0048,
      "step": 5010
    },
    {
      "epoch": 1.5,
      "learning_rate": 3.944076526857984e-06,
      "loss": 0.0076,
      "step": 5020
    },
    {
      "epoch": 1.51,
      "learning_rate": 3.941448544097551e-06,
      "loss": 0.0082,
      "step": 5030
    },
    {
      "epoch": 1.51,
      "learning_rate": 3.938820561337118e-06,
      "loss": 0.0031,
      "step": 5040
    },
    {
      "epoch": 1.51,
      "learning_rate": 3.936192578576685e-06,
      "loss": 0.0135,
      "step": 5050
    },
    {
      "epoch": 1.52,
      "learning_rate": 3.933564595816251e-06,
      "loss": 0.0029,
      "step": 5060
    },
    {
      "epoch": 1.52,
      "learning_rate": 3.930936613055818e-06,
      "loss": 0.0039,
      "step": 5070
    },
    {
      "epoch": 1.52,
      "learning_rate": 3.928308630295385e-06,
      "loss": 0.0041,
      "step": 5080
    },
    {
      "epoch": 1.52,
      "learning_rate": 3.925680647534952e-06,
      "loss": 0.0029,
      "step": 5090
    },
    {
      "epoch": 1.53,
      "learning_rate": 3.923052664774519e-06,
      "loss": 0.0045,
      "step": 5100
    },
    {
      "epoch": 1.53,
      "learning_rate": 3.920424682014086e-06,
      "loss": 0.0042,
      "step": 5110
    },
    {
      "epoch": 1.53,
      "learning_rate": 3.917796699253653e-06,
      "loss": 0.0025,
      "step": 5120
    },
    {
      "epoch": 1.54,
      "learning_rate": 3.91516871649322e-06,
      "loss": 0.0058,
      "step": 5130
    },
    {
      "epoch": 1.54,
      "learning_rate": 3.912540733732787e-06,
      "loss": 0.0165,
      "step": 5140
    },
    {
      "epoch": 1.54,
      "learning_rate": 3.9099127509723535e-06,
      "loss": 0.0098,
      "step": 5150
    },
    {
      "epoch": 1.55,
      "learning_rate": 3.9072847682119205e-06,
      "loss": 0.0109,
      "step": 5160
    },
    {
      "epoch": 1.55,
      "learning_rate": 3.9046567854514875e-06,
      "loss": 0.013,
      "step": 5170
    },
    {
      "epoch": 1.55,
      "learning_rate": 3.9020288026910545e-06,
      "loss": 0.0276,
      "step": 5180
    },
    {
      "epoch": 1.55,
      "learning_rate": 3.8994008199306215e-06,
      "loss": 0.0038,
      "step": 5190
    },
    {
      "epoch": 1.56,
      "learning_rate": 3.8967728371701886e-06,
      "loss": 0.0218,
      "step": 5200
    },
    {
      "epoch": 1.56,
      "eval_f1": 0.9919780112294924,
      "eval_f1_0": 0.9974857592459158,
      "eval_f1_1": 0.9971331899290379,
      "eval_f1_2": 0.9742953640344122,
      "eval_f1_3": 0.9989977317086037,
      "eval_loss": 0.016803942620754242,
      "eval_runtime": 153.3435,
      "eval_samples_per_second": 77.395,
      "eval_steps_per_second": 0.307,
      "step": 5200
    },
    {
      "epoch": 1.56,
      "learning_rate": 3.8941448544097556e-06,
      "loss": 0.0109,
      "step": 5210
    },
    {
      "epoch": 1.56,
      "learning_rate": 3.8915168716493226e-06,
      "loss": 0.0015,
      "step": 5220
    },
    {
      "epoch": 1.57,
      "learning_rate": 3.88888888888889e-06,
      "loss": 0.0072,
      "step": 5230
    },
    {
      "epoch": 1.57,
      "learning_rate": 3.886260906128457e-06,
      "loss": 0.0132,
      "step": 5240
    },
    {
      "epoch": 1.57,
      "learning_rate": 3.883632923368023e-06,
      "loss": 0.0261,
      "step": 5250
    },
    {
      "epoch": 1.58,
      "learning_rate": 3.88100494060759e-06,
      "loss": 0.0166,
      "step": 5260
    },
    {
      "epoch": 1.58,
      "learning_rate": 3.878376957847157e-06,
      "loss": 0.0018,
      "step": 5270
    },
    {
      "epoch": 1.58,
      "learning_rate": 3.875748975086724e-06,
      "loss": 0.0022,
      "step": 5280
    },
    {
      "epoch": 1.58,
      "learning_rate": 3.873120992326291e-06,
      "loss": 0.0232,
      "step": 5290
    },
    {
      "epoch": 1.59,
      "learning_rate": 3.870493009565858e-06,
      "loss": 0.01,
      "step": 5300
    },
    {
      "epoch": 1.59,
      "learning_rate": 3.867865026805425e-06,
      "loss": 0.0104,
      "step": 5310
    },
    {
      "epoch": 1.59,
      "learning_rate": 3.865237044044992e-06,
      "loss": 0.0419,
      "step": 5320
    },
    {
      "epoch": 1.6,
      "learning_rate": 3.862609061284559e-06,
      "loss": 0.0037,
      "step": 5330
    },
    {
      "epoch": 1.6,
      "learning_rate": 3.859981078524125e-06,
      "loss": 0.0011,
      "step": 5340
    },
    {
      "epoch": 1.6,
      "learning_rate": 3.857353095763692e-06,
      "loss": 0.0014,
      "step": 5350
    },
    {
      "epoch": 1.61,
      "learning_rate": 3.854725113003259e-06,
      "loss": 0.0666,
      "step": 5360
    },
    {
      "epoch": 1.61,
      "learning_rate": 3.852097130242826e-06,
      "loss": 0.0191,
      "step": 5370
    },
    {
      "epoch": 1.61,
      "learning_rate": 3.849469147482393e-06,
      "loss": 0.0102,
      "step": 5380
    },
    {
      "epoch": 1.61,
      "learning_rate": 3.84684116472196e-06,
      "loss": 0.0556,
      "step": 5390
    },
    {
      "epoch": 1.62,
      "learning_rate": 3.844213181961526e-06,
      "loss": 0.0048,
      "step": 5400
    },
    {
      "epoch": 1.62,
      "eval_f1": 0.9823485200918017,
      "eval_f1_0": 0.9941904301193779,
      "eval_f1_1": 0.9982555420088488,
      "eval_f1_2": 0.9379690705502648,
      "eval_f1_3": 0.9989790376887151,
      "eval_loss": 0.04433099552989006,
      "eval_runtime": 153.078,
      "eval_samples_per_second": 77.529,
      "eval_steps_per_second": 0.307,
      "step": 5400
    },
    {
      "epoch": 1.62,
      "learning_rate": 3.841585199201093e-06,
      "loss": 0.0492,
      "step": 5410
    },
    {
      "epoch": 1.62,
      "learning_rate": 3.83895721644066e-06,
      "loss": 0.0611,
      "step": 5420
    },
    {
      "epoch": 1.63,
      "learning_rate": 3.836329233680227e-06,
      "loss": 0.0226,
      "step": 5430
    },
    {
      "epoch": 1.63,
      "learning_rate": 3.833701250919794e-06,
      "loss": 0.0089,
      "step": 5440
    },
    {
      "epoch": 1.63,
      "learning_rate": 3.831073268159361e-06,
      "loss": 0.0055,
      "step": 5450
    },
    {
      "epoch": 1.64,
      "learning_rate": 3.828445285398928e-06,
      "loss": 0.0252,
      "step": 5460
    },
    {
      "epoch": 1.64,
      "learning_rate": 3.8258173026384944e-06,
      "loss": 0.0084,
      "step": 5470
    },
    {
      "epoch": 1.64,
      "learning_rate": 3.8231893198780614e-06,
      "loss": 0.0117,
      "step": 5480
    },
    {
      "epoch": 1.64,
      "learning_rate": 3.8205613371176285e-06,
      "loss": 0.0025,
      "step": 5490
    },
    {
      "epoch": 1.65,
      "learning_rate": 3.8179333543571955e-06,
      "loss": 0.0157,
      "step": 5500
    },
    {
      "epoch": 1.65,
      "learning_rate": 3.8153053715967625e-06,
      "loss": 0.0169,
      "step": 5510
    },
    {
      "epoch": 1.65,
      "learning_rate": 3.8126773888363295e-06,
      "loss": 0.0169,
      "step": 5520
    },
    {
      "epoch": 1.66,
      "learning_rate": 3.8100494060758965e-06,
      "loss": 0.0458,
      "step": 5530
    },
    {
      "epoch": 1.66,
      "learning_rate": 3.807421423315463e-06,
      "loss": 0.0331,
      "step": 5540
    },
    {
      "epoch": 1.66,
      "learning_rate": 3.80479344055503e-06,
      "loss": 0.0131,
      "step": 5550
    },
    {
      "epoch": 1.67,
      "learning_rate": 3.802165457794597e-06,
      "loss": 0.0159,
      "step": 5560
    },
    {
      "epoch": 1.67,
      "learning_rate": 3.799537475034164e-06,
      "loss": 0.0162,
      "step": 5570
    },
    {
      "epoch": 1.67,
      "learning_rate": 3.796909492273731e-06,
      "loss": 0.0138,
      "step": 5580
    },
    {
      "epoch": 1.67,
      "learning_rate": 3.7942815095132977e-06,
      "loss": 0.0168,
      "step": 5590
    },
    {
      "epoch": 1.68,
      "learning_rate": 3.7916535267528647e-06,
      "loss": 0.0066,
      "step": 5600
    },
    {
      "epoch": 1.68,
      "eval_f1": 0.990187773769687,
      "eval_f1_0": 0.9968801414078322,
      "eval_f1_1": 0.997884261630327,
      "eval_f1_2": 0.9670851157715061,
      "eval_f1_3": 0.9989015762690828,
      "eval_loss": 0.02275552973151207,
      "eval_runtime": 153.2058,
      "eval_samples_per_second": 77.464,
      "eval_steps_per_second": 0.307,
      "step": 5600
    },
    {
      "epoch": 1.68,
      "learning_rate": 3.7890255439924317e-06,
      "loss": 0.0498,
      "step": 5610
    },
    {
      "epoch": 1.68,
      "learning_rate": 3.7863975612319987e-06,
      "loss": 0.0227,
      "step": 5620
    },
    {
      "epoch": 1.69,
      "learning_rate": 3.7837695784715658e-06,
      "loss": 0.0153,
      "step": 5630
    },
    {
      "epoch": 1.69,
      "learning_rate": 3.7811415957111323e-06,
      "loss": 0.0093,
      "step": 5640
    },
    {
      "epoch": 1.69,
      "learning_rate": 3.7785136129506993e-06,
      "loss": 0.0075,
      "step": 5650
    },
    {
      "epoch": 1.7,
      "learning_rate": 3.7758856301902664e-06,
      "loss": 0.0146,
      "step": 5660
    },
    {
      "epoch": 1.7,
      "learning_rate": 3.7732576474298334e-06,
      "loss": 0.0236,
      "step": 5670
    },
    {
      "epoch": 1.7,
      "learning_rate": 3.7706296646694004e-06,
      "loss": 0.003,
      "step": 5680
    },
    {
      "epoch": 1.7,
      "learning_rate": 3.768001681908967e-06,
      "loss": 0.0385,
      "step": 5690
    },
    {
      "epoch": 1.71,
      "learning_rate": 3.765373699148534e-06,
      "loss": 0.0245,
      "step": 5700
    },
    {
      "epoch": 1.71,
      "learning_rate": 3.762745716388101e-06,
      "loss": 0.0259,
      "step": 5710
    },
    {
      "epoch": 1.71,
      "learning_rate": 3.760117733627668e-06,
      "loss": 0.0065,
      "step": 5720
    },
    {
      "epoch": 1.72,
      "learning_rate": 3.7574897508672346e-06,
      "loss": 0.0078,
      "step": 5730
    },
    {
      "epoch": 1.72,
      "learning_rate": 3.7548617681068016e-06,
      "loss": 0.0044,
      "step": 5740
    },
    {
      "epoch": 1.72,
      "learning_rate": 3.7522337853463686e-06,
      "loss": 0.0077,
      "step": 5750
    },
    {
      "epoch": 1.73,
      "learning_rate": 3.7496058025859356e-06,
      "loss": 0.0041,
      "step": 5760
    },
    {
      "epoch": 1.73,
      "learning_rate": 3.7469778198255026e-06,
      "loss": 0.0378,
      "step": 5770
    },
    {
      "epoch": 1.73,
      "learning_rate": 3.744349837065069e-06,
      "loss": 0.0052,
      "step": 5780
    },
    {
      "epoch": 1.73,
      "learning_rate": 3.7417218543046362e-06,
      "loss": 0.0069,
      "step": 5790
    },
    {
      "epoch": 1.74,
      "learning_rate": 3.7390938715442032e-06,
      "loss": 0.0364,
      "step": 5800
    },
    {
      "epoch": 1.74,
      "eval_f1": 0.9930586158488619,
      "eval_f1_0": 0.997830070247112,
      "eval_f1_1": 0.9983115974664379,
      "eval_f1_2": 0.9771260618891283,
      "eval_f1_3": 0.9989667337927696,
      "eval_loss": 0.012566142715513706,
      "eval_runtime": 153.2869,
      "eval_samples_per_second": 77.423,
      "eval_steps_per_second": 0.307,
      "step": 5800
    },
    {
      "epoch": 1.74,
      "learning_rate": 3.7364658887837702e-06,
      "loss": 0.0053,
      "step": 5810
    },
    {
      "epoch": 1.74,
      "learning_rate": 3.7338379060233372e-06,
      "loss": 0.0022,
      "step": 5820
    },
    {
      "epoch": 1.75,
      "learning_rate": 3.7312099232629034e-06,
      "loss": 0.0055,
      "step": 5830
    },
    {
      "epoch": 1.75,
      "learning_rate": 3.7285819405024704e-06,
      "loss": 0.0027,
      "step": 5840
    },
    {
      "epoch": 1.75,
      "learning_rate": 3.7259539577420374e-06,
      "loss": 0.0203,
      "step": 5850
    },
    {
      "epoch": 1.76,
      "learning_rate": 3.723325974981604e-06,
      "loss": 0.0306,
      "step": 5860
    },
    {
      "epoch": 1.76,
      "learning_rate": 3.720697992221171e-06,
      "loss": 0.0047,
      "step": 5870
    },
    {
      "epoch": 1.76,
      "learning_rate": 3.718070009460738e-06,
      "loss": 0.0309,
      "step": 5880
    },
    {
      "epoch": 1.76,
      "learning_rate": 3.715442026700305e-06,
      "loss": 0.0079,
      "step": 5890
    },
    {
      "epoch": 1.77,
      "learning_rate": 3.712814043939872e-06,
      "loss": 0.0045,
      "step": 5900
    },
    {
      "epoch": 1.77,
      "learning_rate": 3.7101860611794386e-06,
      "loss": 0.008,
      "step": 5910
    },
    {
      "epoch": 1.77,
      "learning_rate": 3.7075580784190057e-06,
      "loss": 0.0049,
      "step": 5920
    },
    {
      "epoch": 1.78,
      "learning_rate": 3.7049300956585727e-06,
      "loss": 0.0185,
      "step": 5930
    },
    {
      "epoch": 1.78,
      "learning_rate": 3.7023021128981397e-06,
      "loss": 0.0467,
      "step": 5940
    },
    {
      "epoch": 1.78,
      "learning_rate": 3.6996741301377067e-06,
      "loss": 0.0153,
      "step": 5950
    },
    {
      "epoch": 1.79,
      "learning_rate": 3.6970461473772733e-06,
      "loss": 0.0241,
      "step": 5960
    },
    {
      "epoch": 1.79,
      "learning_rate": 3.6944181646168403e-06,
      "loss": 0.0029,
      "step": 5970
    },
    {
      "epoch": 1.79,
      "learning_rate": 3.6917901818564073e-06,
      "loss": 0.0029,
      "step": 5980
    },
    {
      "epoch": 1.79,
      "learning_rate": 3.6891621990959743e-06,
      "loss": 0.0086,
      "step": 5990
    },
    {
      "epoch": 1.8,
      "learning_rate": 3.686534216335541e-06,
      "loss": 0.015,
      "step": 6000
    },
    {
      "epoch": 1.8,
      "eval_f1": 0.9935938444067491,
      "eval_f1_0": 0.9979641633032684,
      "eval_f1_1": 0.9971702174474558,
      "eval_f1_2": 0.9803455304280306,
      "eval_f1_3": 0.998895466448242,
      "eval_loss": 0.011877385899424553,
      "eval_runtime": 153.1522,
      "eval_samples_per_second": 77.492,
      "eval_steps_per_second": 0.307,
      "step": 6000
    },
    {
      "epoch": 1.8,
      "learning_rate": 3.683906233575108e-06,
      "loss": 0.0137,
      "step": 6010
    },
    {
      "epoch": 1.8,
      "learning_rate": 3.681278250814675e-06,
      "loss": 0.0158,
      "step": 6020
    },
    {
      "epoch": 1.81,
      "learning_rate": 3.678650268054242e-06,
      "loss": 0.0266,
      "step": 6030
    },
    {
      "epoch": 1.81,
      "learning_rate": 3.676022285293809e-06,
      "loss": 0.003,
      "step": 6040
    },
    {
      "epoch": 1.81,
      "learning_rate": 3.6733943025333755e-06,
      "loss": 0.0027,
      "step": 6050
    },
    {
      "epoch": 1.82,
      "learning_rate": 3.6707663197729425e-06,
      "loss": 0.0416,
      "step": 6060
    },
    {
      "epoch": 1.82,
      "learning_rate": 3.6681383370125095e-06,
      "loss": 0.0018,
      "step": 6070
    },
    {
      "epoch": 1.82,
      "learning_rate": 3.6655103542520765e-06,
      "loss": 0.0065,
      "step": 6080
    },
    {
      "epoch": 1.82,
      "learning_rate": 3.6628823714916436e-06,
      "loss": 0.0019,
      "step": 6090
    },
    {
      "epoch": 1.83,
      "learning_rate": 3.66025438873121e-06,
      "loss": 0.0046,
      "step": 6100
    },
    {
      "epoch": 1.83,
      "learning_rate": 3.657626405970777e-06,
      "loss": 0.0017,
      "step": 6110
    },
    {
      "epoch": 1.83,
      "learning_rate": 3.654998423210344e-06,
      "loss": 0.0039,
      "step": 6120
    },
    {
      "epoch": 1.84,
      "learning_rate": 3.652370440449911e-06,
      "loss": 0.0018,
      "step": 6130
    },
    {
      "epoch": 1.84,
      "learning_rate": 3.649742457689478e-06,
      "loss": 0.0054,
      "step": 6140
    },
    {
      "epoch": 1.84,
      "learning_rate": 3.6471144749290448e-06,
      "loss": 0.0075,
      "step": 6150
    },
    {
      "epoch": 1.85,
      "learning_rate": 3.6444864921686118e-06,
      "loss": 0.0112,
      "step": 6160
    },
    {
      "epoch": 1.85,
      "learning_rate": 3.641858509408179e-06,
      "loss": 0.069,
      "step": 6170
    },
    {
      "epoch": 1.85,
      "learning_rate": 3.639230526647746e-06,
      "loss": 0.002,
      "step": 6180
    },
    {
      "epoch": 1.85,
      "learning_rate": 3.6366025438873124e-06,
      "loss": 0.008,
      "step": 6190
    },
    {
      "epoch": 1.86,
      "learning_rate": 3.6339745611268794e-06,
      "loss": 0.0061,
      "step": 6200
    },
    {
      "epoch": 1.86,
      "eval_f1": 0.9917367001053987,
      "eval_f1_0": 0.9973992454549965,
      "eval_f1_1": 0.9983099239274149,
      "eval_f1_2": 0.9722678167208436,
      "eval_f1_3": 0.9989698143183398,
      "eval_loss": 0.014565565623342991,
      "eval_runtime": 153.2683,
      "eval_samples_per_second": 77.433,
      "eval_steps_per_second": 0.307,
      "step": 6200
    },
    {
      "epoch": 1.86,
      "learning_rate": 3.6313465783664464e-06,
      "loss": 0.0037,
      "step": 6210
    },
    {
      "epoch": 1.86,
      "learning_rate": 3.6287185956060134e-06,
      "loss": 0.0423,
      "step": 6220
    },
    {
      "epoch": 1.87,
      "learning_rate": 3.6260906128455804e-06,
      "loss": 0.0174,
      "step": 6230
    },
    {
      "epoch": 1.87,
      "learning_rate": 3.623462630085147e-06,
      "loss": 0.0018,
      "step": 6240
    },
    {
      "epoch": 1.87,
      "learning_rate": 3.6208346473247136e-06,
      "loss": 0.0048,
      "step": 6250
    },
    {
      "epoch": 1.88,
      "learning_rate": 3.6182066645642806e-06,
      "loss": 0.0018,
      "step": 6260
    },
    {
      "epoch": 1.88,
      "learning_rate": 3.6155786818038476e-06,
      "loss": 0.0023,
      "step": 6270
    },
    {
      "epoch": 1.88,
      "learning_rate": 3.612950699043414e-06,
      "loss": 0.0035,
      "step": 6280
    },
    {
      "epoch": 1.88,
      "learning_rate": 3.6103227162829812e-06,
      "loss": 0.0043,
      "step": 6290
    },
    {
      "epoch": 1.89,
      "learning_rate": 3.6076947335225482e-06,
      "loss": 0.0682,
      "step": 6300
    },
    {
      "epoch": 1.89,
      "learning_rate": 3.6050667507621152e-06,
      "loss": 0.0063,
      "step": 6310
    },
    {
      "epoch": 1.89,
      "learning_rate": 3.602438768001682e-06,
      "loss": 0.0073,
      "step": 6320
    },
    {
      "epoch": 1.9,
      "learning_rate": 3.599810785241249e-06,
      "loss": 0.0092,
      "step": 6330
    },
    {
      "epoch": 1.9,
      "learning_rate": 3.597182802480816e-06,
      "loss": 0.0018,
      "step": 6340
    },
    {
      "epoch": 1.9,
      "learning_rate": 3.594554819720383e-06,
      "loss": 0.012,
      "step": 6350
    },
    {
      "epoch": 1.91,
      "learning_rate": 3.59192683695995e-06,
      "loss": 0.0233,
      "step": 6360
    },
    {
      "epoch": 1.91,
      "learning_rate": 3.5892988541995165e-06,
      "loss": 0.0136,
      "step": 6370
    },
    {
      "epoch": 1.91,
      "learning_rate": 3.5866708714390835e-06,
      "loss": 0.0258,
      "step": 6380
    },
    {
      "epoch": 1.91,
      "learning_rate": 3.5840428886786505e-06,
      "loss": 0.0025,
      "step": 6390
    },
    {
      "epoch": 1.92,
      "learning_rate": 3.5814149059182175e-06,
      "loss": 0.0128,
      "step": 6400
    },
    {
      "epoch": 1.92,
      "eval_f1": 0.9914634499892494,
      "eval_f1_0": 0.9973011310432432,
      "eval_f1_1": 0.9983957680476094,
      "eval_f1_2": 0.9711716378258444,
      "eval_f1_3": 0.9989852630403009,
      "eval_loss": 0.017467861995100975,
      "eval_runtime": 153.0977,
      "eval_samples_per_second": 77.519,
      "eval_steps_per_second": 0.307,
      "step": 6400
    },
    {
      "epoch": 1.92,
      "learning_rate": 3.5787869231577845e-06,
      "loss": 0.0242,
      "step": 6410
    },
    {
      "epoch": 1.92,
      "learning_rate": 3.576158940397351e-06,
      "loss": 0.0466,
      "step": 6420
    },
    {
      "epoch": 1.93,
      "learning_rate": 3.573530957636918e-06,
      "loss": 0.0287,
      "step": 6430
    },
    {
      "epoch": 1.93,
      "learning_rate": 3.570902974876485e-06,
      "loss": 0.0118,
      "step": 6440
    },
    {
      "epoch": 1.93,
      "learning_rate": 3.568274992116052e-06,
      "loss": 0.0155,
      "step": 6450
    },
    {
      "epoch": 1.94,
      "learning_rate": 3.565647009355619e-06,
      "loss": 0.0184,
      "step": 6460
    },
    {
      "epoch": 1.94,
      "learning_rate": 3.5630190265951857e-06,
      "loss": 0.0179,
      "step": 6470
    },
    {
      "epoch": 1.94,
      "learning_rate": 3.5603910438347527e-06,
      "loss": 0.0101,
      "step": 6480
    },
    {
      "epoch": 1.94,
      "learning_rate": 3.5577630610743197e-06,
      "loss": 0.0036,
      "step": 6490
    },
    {
      "epoch": 1.95,
      "learning_rate": 3.5551350783138867e-06,
      "loss": 0.0134,
      "step": 6500
    },
    {
      "epoch": 1.95,
      "learning_rate": 3.5525070955534533e-06,
      "loss": 0.0485,
      "step": 6510
    },
    {
      "epoch": 1.95,
      "learning_rate": 3.5498791127930203e-06,
      "loss": 0.0204,
      "step": 6520
    },
    {
      "epoch": 1.96,
      "learning_rate": 3.5472511300325873e-06,
      "loss": 0.019,
      "step": 6530
    },
    {
      "epoch": 1.96,
      "learning_rate": 3.5446231472721544e-06,
      "loss": 0.0046,
      "step": 6540
    },
    {
      "epoch": 1.96,
      "learning_rate": 3.5419951645117214e-06,
      "loss": 0.0195,
      "step": 6550
    },
    {
      "epoch": 1.97,
      "learning_rate": 3.539367181751288e-06,
      "loss": 0.0052,
      "step": 6560
    },
    {
      "epoch": 1.97,
      "learning_rate": 3.536739198990855e-06,
      "loss": 0.0051,
      "step": 6570
    },
    {
      "epoch": 1.97,
      "learning_rate": 3.534111216230422e-06,
      "loss": 0.0046,
      "step": 6580
    },
    {
      "epoch": 1.97,
      "learning_rate": 3.531483233469989e-06,
      "loss": 0.0077,
      "step": 6590
    },
    {
      "epoch": 1.98,
      "learning_rate": 3.528855250709556e-06,
      "loss": 0.0131,
      "step": 6600
    },
    {
      "epoch": 1.98,
      "eval_f1": 0.9935970118232959,
      "eval_f1_0": 0.9979761564787326,
      "eval_f1_1": 0.9972816736632029,
      "eval_f1_2": 0.9800643470294387,
      "eval_f1_3": 0.9990658701218093,
      "eval_loss": 0.013104687444865704,
      "eval_runtime": 153.0821,
      "eval_samples_per_second": 77.527,
      "eval_steps_per_second": 0.307,
      "step": 6600
    },
    {
      "epoch": 1.98,
      "learning_rate": 3.5262272679491226e-06,
      "loss": 0.011,
      "step": 6610
    },
    {
      "epoch": 1.98,
      "learning_rate": 3.5235992851886896e-06,
      "loss": 0.0285,
      "step": 6620
    },
    {
      "epoch": 1.99,
      "learning_rate": 3.5209713024282566e-06,
      "loss": 0.0131,
      "step": 6630
    },
    {
      "epoch": 1.99,
      "learning_rate": 3.5183433196678236e-06,
      "loss": 0.0101,
      "step": 6640
    },
    {
      "epoch": 1.99,
      "learning_rate": 3.5157153369073906e-06,
      "loss": 0.0116,
      "step": 6650
    },
    {
      "epoch": 2.0,
      "learning_rate": 3.513087354146957e-06,
      "loss": 0.0179,
      "step": 6660
    },
    {
      "epoch": 2.0,
      "learning_rate": 3.5104593713865242e-06,
      "loss": 0.0096,
      "step": 6670
    },
    {
      "epoch": 2.0,
      "learning_rate": 3.507831388626091e-06,
      "loss": 0.0027,
      "step": 6680
    },
    {
      "epoch": 2.0,
      "learning_rate": 3.5052034058656574e-06,
      "loss": 0.003,
      "step": 6690
    },
    {
      "epoch": 2.01,
      "learning_rate": 3.5025754231052244e-06,
      "loss": 0.0027,
      "step": 6700
    },
    {
      "epoch": 2.01,
      "learning_rate": 3.4999474403447914e-06,
      "loss": 0.0021,
      "step": 6710
    },
    {
      "epoch": 2.01,
      "learning_rate": 3.4973194575843584e-06,
      "loss": 0.0018,
      "step": 6720
    },
    {
      "epoch": 2.02,
      "learning_rate": 3.4946914748239254e-06,
      "loss": 0.0017,
      "step": 6730
    },
    {
      "epoch": 2.02,
      "learning_rate": 3.492063492063492e-06,
      "loss": 0.0025,
      "step": 6740
    },
    {
      "epoch": 2.02,
      "learning_rate": 3.489435509303059e-06,
      "loss": 0.0028,
      "step": 6750
    },
    {
      "epoch": 2.03,
      "learning_rate": 3.486807526542626e-06,
      "loss": 0.0222,
      "step": 6760
    },
    {
      "epoch": 2.03,
      "learning_rate": 3.484179543782193e-06,
      "loss": 0.0037,
      "step": 6770
    },
    {
      "epoch": 2.03,
      "learning_rate": 3.4815515610217596e-06,
      "loss": 0.0015,
      "step": 6780
    },
    {
      "epoch": 2.03,
      "learning_rate": 3.4789235782613266e-06,
      "loss": 0.0218,
      "step": 6790
    },
    {
      "epoch": 2.04,
      "learning_rate": 3.4762955955008937e-06,
      "loss": 0.0037,
      "step": 6800
    },
    {
      "epoch": 2.04,
      "eval_f1": 0.9902274199895836,
      "eval_f1_0": 0.9969038168318187,
      "eval_f1_1": 0.9985555223491728,
      "eval_f1_2": 0.9666043873859351,
      "eval_f1_3": 0.9988459533914079,
      "eval_loss": 0.023619718849658966,
      "eval_runtime": 153.1993,
      "eval_samples_per_second": 77.468,
      "eval_steps_per_second": 0.307,
      "step": 6800
    },
    {
      "epoch": 2.04,
      "learning_rate": 3.4736676127404607e-06,
      "loss": 0.0031,
      "step": 6810
    },
    {
      "epoch": 2.04,
      "learning_rate": 3.4710396299800277e-06,
      "loss": 0.0013,
      "step": 6820
    },
    {
      "epoch": 2.05,
      "learning_rate": 3.4684116472195943e-06,
      "loss": 0.0019,
      "step": 6830
    },
    {
      "epoch": 2.05,
      "learning_rate": 3.4657836644591613e-06,
      "loss": 0.0015,
      "step": 6840
    },
    {
      "epoch": 2.05,
      "learning_rate": 3.4631556816987283e-06,
      "loss": 0.0188,
      "step": 6850
    },
    {
      "epoch": 2.06,
      "learning_rate": 3.4605276989382953e-06,
      "loss": 0.0024,
      "step": 6860
    },
    {
      "epoch": 2.06,
      "learning_rate": 3.4578997161778623e-06,
      "loss": 0.002,
      "step": 6870
    },
    {
      "epoch": 2.06,
      "learning_rate": 3.455271733417429e-06,
      "loss": 0.0187,
      "step": 6880
    },
    {
      "epoch": 2.06,
      "learning_rate": 3.452643750656996e-06,
      "loss": 0.0116,
      "step": 6890
    },
    {
      "epoch": 2.07,
      "learning_rate": 3.450015767896563e-06,
      "loss": 0.0061,
      "step": 6900
    },
    {
      "epoch": 2.07,
      "learning_rate": 3.44738778513613e-06,
      "loss": 0.0291,
      "step": 6910
    },
    {
      "epoch": 2.07,
      "learning_rate": 3.444759802375697e-06,
      "loss": 0.0113,
      "step": 6920
    },
    {
      "epoch": 2.08,
      "learning_rate": 3.4421318196152635e-06,
      "loss": 0.0028,
      "step": 6930
    },
    {
      "epoch": 2.08,
      "learning_rate": 3.4395038368548305e-06,
      "loss": 0.0015,
      "step": 6940
    },
    {
      "epoch": 2.08,
      "learning_rate": 3.4368758540943975e-06,
      "loss": 0.0026,
      "step": 6950
    },
    {
      "epoch": 2.09,
      "learning_rate": 3.4342478713339645e-06,
      "loss": 0.0011,
      "step": 6960
    },
    {
      "epoch": 2.09,
      "learning_rate": 3.4316198885735316e-06,
      "loss": 0.0015,
      "step": 6970
    },
    {
      "epoch": 2.09,
      "learning_rate": 3.428991905813098e-06,
      "loss": 0.0052,
      "step": 6980
    },
    {
      "epoch": 2.09,
      "learning_rate": 3.426363923052665e-06,
      "loss": 0.0015,
      "step": 6990
    },
    {
      "epoch": 2.1,
      "learning_rate": 3.423735940292232e-06,
      "loss": 0.0226,
      "step": 7000
    },
    {
      "epoch": 2.1,
      "eval_f1": 0.9915189698715074,
      "eval_f1_0": 0.9973328123383862,
      "eval_f1_1": 0.9985646253940573,
      "eval_f1_2": 0.9713880891568768,
      "eval_f1_3": 0.9987903525967098,
      "eval_loss": 0.018696604296565056,
      "eval_runtime": 153.1722,
      "eval_samples_per_second": 77.481,
      "eval_steps_per_second": 0.307,
      "step": 7000
    },
    {
      "epoch": 2.1,
      "learning_rate": 3.421107957531799e-06,
      "loss": 0.0019,
      "step": 7010
    },
    {
      "epoch": 2.1,
      "learning_rate": 3.4184799747713658e-06,
      "loss": 0.0185,
      "step": 7020
    },
    {
      "epoch": 2.11,
      "learning_rate": 3.4158519920109328e-06,
      "loss": 0.0036,
      "step": 7030
    },
    {
      "epoch": 2.11,
      "learning_rate": 3.4132240092504998e-06,
      "loss": 0.0007,
      "step": 7040
    },
    {
      "epoch": 2.11,
      "learning_rate": 3.4105960264900668e-06,
      "loss": 0.0015,
      "step": 7050
    },
    {
      "epoch": 2.12,
      "learning_rate": 3.407968043729634e-06,
      "loss": 0.002,
      "step": 7060
    },
    {
      "epoch": 2.12,
      "learning_rate": 3.4053400609692004e-06,
      "loss": 0.0016,
      "step": 7070
    },
    {
      "epoch": 2.12,
      "learning_rate": 3.4027120782087674e-06,
      "loss": 0.003,
      "step": 7080
    },
    {
      "epoch": 2.12,
      "learning_rate": 3.4000840954483344e-06,
      "loss": 0.0011,
      "step": 7090
    },
    {
      "epoch": 2.13,
      "learning_rate": 3.3974561126879014e-06,
      "loss": 0.0023,
      "step": 7100
    },
    {
      "epoch": 2.13,
      "learning_rate": 3.3948281299274676e-06,
      "loss": 0.003,
      "step": 7110
    },
    {
      "epoch": 2.13,
      "learning_rate": 3.3922001471670346e-06,
      "loss": 0.0015,
      "step": 7120
    },
    {
      "epoch": 2.14,
      "learning_rate": 3.3895721644066016e-06,
      "loss": 0.0018,
      "step": 7130
    },
    {
      "epoch": 2.14,
      "learning_rate": 3.3869441816461686e-06,
      "loss": 0.0016,
      "step": 7140
    },
    {
      "epoch": 2.14,
      "learning_rate": 3.384316198885735e-06,
      "loss": 0.0008,
      "step": 7150
    },
    {
      "epoch": 2.14,
      "learning_rate": 3.381688216125302e-06,
      "loss": 0.0018,
      "step": 7160
    },
    {
      "epoch": 2.15,
      "learning_rate": 3.379060233364869e-06,
      "loss": 0.0104,
      "step": 7170
    },
    {
      "epoch": 2.15,
      "learning_rate": 3.3764322506044362e-06,
      "loss": 0.0021,
      "step": 7180
    },
    {
      "epoch": 2.15,
      "learning_rate": 3.3738042678440032e-06,
      "loss": 0.0172,
      "step": 7190
    },
    {
      "epoch": 2.16,
      "learning_rate": 3.37117628508357e-06,
      "loss": 0.0091,
      "step": 7200
    },
    {
      "epoch": 2.16,
      "eval_f1": 0.9859817799915488,
      "eval_f1_0": 0.9954234300747538,
      "eval_f1_1": 0.998167859346792,
      "eval_f1_2": 0.9512544005545798,
      "eval_f1_3": 0.9990814299900695,
      "eval_loss": 0.03158416226506233,
      "eval_runtime": 153.0778,
      "eval_samples_per_second": 77.529,
      "eval_steps_per_second": 0.307,
      "step": 7200
    },
    {
      "epoch": 2.16,
      "learning_rate": 3.368548302323137e-06,
      "loss": 0.0019,
      "step": 7210
    },
    {
      "epoch": 2.16,
      "learning_rate": 3.365920319562704e-06,
      "loss": 0.0065,
      "step": 7220
    },
    {
      "epoch": 2.17,
      "learning_rate": 3.363292336802271e-06,
      "loss": 0.0171,
      "step": 7230
    },
    {
      "epoch": 2.17,
      "learning_rate": 3.360664354041838e-06,
      "loss": 0.0147,
      "step": 7240
    },
    {
      "epoch": 2.17,
      "learning_rate": 3.3580363712814044e-06,
      "loss": 0.009,
      "step": 7250
    },
    {
      "epoch": 2.17,
      "learning_rate": 3.3554083885209715e-06,
      "loss": 0.0302,
      "step": 7260
    },
    {
      "epoch": 2.18,
      "learning_rate": 3.3527804057605385e-06,
      "loss": 0.0097,
      "step": 7270
    },
    {
      "epoch": 2.18,
      "learning_rate": 3.3501524230001055e-06,
      "loss": 0.0026,
      "step": 7280
    },
    {
      "epoch": 2.18,
      "learning_rate": 3.347524440239672e-06,
      "loss": 0.007,
      "step": 7290
    },
    {
      "epoch": 2.19,
      "learning_rate": 3.344896457479239e-06,
      "loss": 0.0022,
      "step": 7300
    },
    {
      "epoch": 2.19,
      "learning_rate": 3.342268474718806e-06,
      "loss": 0.0019,
      "step": 7310
    },
    {
      "epoch": 2.19,
      "learning_rate": 3.339640491958373e-06,
      "loss": 0.011,
      "step": 7320
    },
    {
      "epoch": 2.2,
      "learning_rate": 3.33701250919794e-06,
      "loss": 0.0097,
      "step": 7330
    },
    {
      "epoch": 2.2,
      "learning_rate": 3.3343845264375067e-06,
      "loss": 0.0075,
      "step": 7340
    },
    {
      "epoch": 2.2,
      "learning_rate": 3.3317565436770737e-06,
      "loss": 0.0051,
      "step": 7350
    },
    {
      "epoch": 2.2,
      "learning_rate": 3.3291285609166407e-06,
      "loss": 0.0039,
      "step": 7360
    },
    {
      "epoch": 2.21,
      "learning_rate": 3.3265005781562077e-06,
      "loss": 0.0393,
      "step": 7370
    },
    {
      "epoch": 2.21,
      "learning_rate": 3.3238725953957747e-06,
      "loss": 0.0046,
      "step": 7380
    },
    {
      "epoch": 2.21,
      "learning_rate": 3.3212446126353413e-06,
      "loss": 0.015,
      "step": 7390
    },
    {
      "epoch": 2.22,
      "learning_rate": 3.3186166298749083e-06,
      "loss": 0.0102,
      "step": 7400
    },
    {
      "epoch": 2.22,
      "eval_f1": 0.9922962109513367,
      "eval_f1_0": 0.9975603361253395,
      "eval_f1_1": 0.998105116186297,
      "eval_f1_2": 0.9745372284660181,
      "eval_f1_3": 0.9989821630276926,
      "eval_loss": 0.017126647755503654,
      "eval_runtime": 153.2307,
      "eval_samples_per_second": 77.452,
      "eval_steps_per_second": 0.307,
      "step": 7400
    },
    {
      "epoch": 2.22,
      "learning_rate": 3.3159886471144753e-06,
      "loss": 0.0092,
      "step": 7410
    },
    {
      "epoch": 2.22,
      "learning_rate": 3.3133606643540423e-06,
      "loss": 0.007,
      "step": 7420
    },
    {
      "epoch": 2.23,
      "learning_rate": 3.3107326815936094e-06,
      "loss": 0.0012,
      "step": 7430
    },
    {
      "epoch": 2.23,
      "learning_rate": 3.308104698833176e-06,
      "loss": 0.0028,
      "step": 7440
    },
    {
      "epoch": 2.23,
      "learning_rate": 3.305476716072743e-06,
      "loss": 0.0121,
      "step": 7450
    },
    {
      "epoch": 2.23,
      "learning_rate": 3.30284873331231e-06,
      "loss": 0.0088,
      "step": 7460
    },
    {
      "epoch": 2.24,
      "learning_rate": 3.300220750551877e-06,
      "loss": 0.008,
      "step": 7470
    },
    {
      "epoch": 2.24,
      "learning_rate": 3.297592767791444e-06,
      "loss": 0.0092,
      "step": 7480
    },
    {
      "epoch": 2.24,
      "learning_rate": 3.2949647850310106e-06,
      "loss": 0.002,
      "step": 7490
    },
    {
      "epoch": 2.25,
      "learning_rate": 3.2923368022705776e-06,
      "loss": 0.0126,
      "step": 7500
    },
    {
      "epoch": 2.25,
      "learning_rate": 3.2897088195101446e-06,
      "loss": 0.001,
      "step": 7510
    },
    {
      "epoch": 2.25,
      "learning_rate": 3.2870808367497116e-06,
      "loss": 0.0058,
      "step": 7520
    },
    {
      "epoch": 2.26,
      "learning_rate": 3.2844528539892778e-06,
      "loss": 0.0253,
      "step": 7530
    },
    {
      "epoch": 2.26,
      "learning_rate": 3.2818248712288448e-06,
      "loss": 0.018,
      "step": 7540
    },
    {
      "epoch": 2.26,
      "learning_rate": 3.2791968884684118e-06,
      "loss": 0.0041,
      "step": 7550
    },
    {
      "epoch": 2.26,
      "learning_rate": 3.276568905707979e-06,
      "loss": 0.0022,
      "step": 7560
    },
    {
      "epoch": 2.27,
      "learning_rate": 3.2739409229475454e-06,
      "loss": 0.0013,
      "step": 7570
    },
    {
      "epoch": 2.27,
      "learning_rate": 3.2713129401871124e-06,
      "loss": 0.0343,
      "step": 7580
    },
    {
      "epoch": 2.27,
      "learning_rate": 3.2686849574266794e-06,
      "loss": 0.0043,
      "step": 7590
    },
    {
      "epoch": 2.28,
      "learning_rate": 3.2660569746662464e-06,
      "loss": 0.006,
      "step": 7600
    },
    {
      "epoch": 2.28,
      "eval_f1": 0.9939749535471507,
      "eval_f1_0": 0.9981190431394863,
      "eval_f1_1": 0.998165285358517,
      "eval_f1_2": 0.980670645733551,
      "eval_f1_3": 0.9989448399570487,
      "eval_loss": 0.013017122633755207,
      "eval_runtime": 153.0757,
      "eval_samples_per_second": 77.53,
      "eval_steps_per_second": 0.307,
      "step": 7600
    },
    {
      "epoch": 2.28,
      "learning_rate": 3.263428991905813e-06,
      "loss": 0.0015,
      "step": 7610
    },
    {
      "epoch": 2.28,
      "learning_rate": 3.26080100914538e-06,
      "loss": 0.0162,
      "step": 7620
    },
    {
      "epoch": 2.29,
      "learning_rate": 3.258173026384947e-06,
      "loss": 0.0023,
      "step": 7630
    },
    {
      "epoch": 2.29,
      "learning_rate": 3.255545043624514e-06,
      "loss": 0.0076,
      "step": 7640
    },
    {
      "epoch": 2.29,
      "learning_rate": 3.252917060864081e-06,
      "loss": 0.0348,
      "step": 7650
    },
    {
      "epoch": 2.29,
      "learning_rate": 3.2502890781036476e-06,
      "loss": 0.0012,
      "step": 7660
    },
    {
      "epoch": 2.3,
      "learning_rate": 3.2476610953432146e-06,
      "loss": 0.0051,
      "step": 7670
    },
    {
      "epoch": 2.3,
      "learning_rate": 3.2450331125827816e-06,
      "loss": 0.0044,
      "step": 7680
    },
    {
      "epoch": 2.3,
      "learning_rate": 3.2424051298223487e-06,
      "loss": 0.0166,
      "step": 7690
    },
    {
      "epoch": 2.31,
      "learning_rate": 3.2397771470619157e-06,
      "loss": 0.0024,
      "step": 7700
    },
    {
      "epoch": 2.31,
      "learning_rate": 3.2371491643014823e-06,
      "loss": 0.0626,
      "step": 7710
    },
    {
      "epoch": 2.31,
      "learning_rate": 3.2345211815410493e-06,
      "loss": 0.0298,
      "step": 7720
    },
    {
      "epoch": 2.32,
      "learning_rate": 3.2318931987806163e-06,
      "loss": 0.0191,
      "step": 7730
    },
    {
      "epoch": 2.32,
      "learning_rate": 3.2292652160201833e-06,
      "loss": 0.0024,
      "step": 7740
    },
    {
      "epoch": 2.32,
      "learning_rate": 3.2266372332597503e-06,
      "loss": 0.0124,
      "step": 7750
    },
    {
      "epoch": 2.32,
      "learning_rate": 3.224009250499317e-06,
      "loss": 0.0155,
      "step": 7760
    },
    {
      "epoch": 2.33,
      "learning_rate": 3.221381267738884e-06,
      "loss": 0.0033,
      "step": 7770
    },
    {
      "epoch": 2.33,
      "learning_rate": 3.218753284978451e-06,
      "loss": 0.0032,
      "step": 7780
    },
    {
      "epoch": 2.33,
      "learning_rate": 3.216125302218018e-06,
      "loss": 0.0024,
      "step": 7790
    },
    {
      "epoch": 2.34,
      "learning_rate": 3.2134973194575845e-06,
      "loss": 0.0014,
      "step": 7800
    },
    {
      "epoch": 2.34,
      "eval_f1": 0.9927733375726729,
      "eval_f1_0": 0.9977209199162577,
      "eval_f1_1": 0.9981627518065634,
      "eval_f1_2": 0.9762276545337066,
      "eval_f1_3": 0.9989820240341643,
      "eval_loss": 0.01505122147500515,
      "eval_runtime": 153.1341,
      "eval_samples_per_second": 77.501,
      "eval_steps_per_second": 0.307,
      "step": 7800
    },
    {
      "epoch": 2.34,
      "learning_rate": 3.2108693366971515e-06,
      "loss": 0.001,
      "step": 7810
    },
    {
      "epoch": 2.34,
      "learning_rate": 3.2082413539367185e-06,
      "loss": 0.0034,
      "step": 7820
    },
    {
      "epoch": 2.35,
      "learning_rate": 3.2056133711762855e-06,
      "loss": 0.0014,
      "step": 7830
    },
    {
      "epoch": 2.35,
      "learning_rate": 3.2029853884158525e-06,
      "loss": 0.0038,
      "step": 7840
    },
    {
      "epoch": 2.35,
      "learning_rate": 3.200357405655419e-06,
      "loss": 0.0174,
      "step": 7850
    },
    {
      "epoch": 2.35,
      "learning_rate": 3.197729422894986e-06,
      "loss": 0.0022,
      "step": 7860
    },
    {
      "epoch": 2.36,
      "learning_rate": 3.195101440134553e-06,
      "loss": 0.0082,
      "step": 7870
    },
    {
      "epoch": 2.36,
      "learning_rate": 3.19247345737412e-06,
      "loss": 0.0021,
      "step": 7880
    },
    {
      "epoch": 2.36,
      "learning_rate": 3.189845474613687e-06,
      "loss": 0.0056,
      "step": 7890
    },
    {
      "epoch": 2.37,
      "learning_rate": 3.1872174918532537e-06,
      "loss": 0.0097,
      "step": 7900
    },
    {
      "epoch": 2.37,
      "learning_rate": 3.1845895090928208e-06,
      "loss": 0.0273,
      "step": 7910
    },
    {
      "epoch": 2.37,
      "learning_rate": 3.1819615263323878e-06,
      "loss": 0.0028,
      "step": 7920
    },
    {
      "epoch": 2.38,
      "learning_rate": 3.1793335435719548e-06,
      "loss": 0.0085,
      "step": 7930
    },
    {
      "epoch": 2.38,
      "learning_rate": 3.176705560811522e-06,
      "loss": 0.0046,
      "step": 7940
    },
    {
      "epoch": 2.38,
      "learning_rate": 3.1740775780510884e-06,
      "loss": 0.0028,
      "step": 7950
    },
    {
      "epoch": 2.38,
      "learning_rate": 3.171449595290655e-06,
      "loss": 0.0014,
      "step": 7960
    },
    {
      "epoch": 2.39,
      "learning_rate": 3.168821612530222e-06,
      "loss": 0.0011,
      "step": 7970
    },
    {
      "epoch": 2.39,
      "learning_rate": 3.1661936297697886e-06,
      "loss": 0.0012,
      "step": 7980
    },
    {
      "epoch": 2.39,
      "learning_rate": 3.1635656470093556e-06,
      "loss": 0.0037,
      "step": 7990
    },
    {
      "epoch": 2.4,
      "learning_rate": 3.1609376642489226e-06,
      "loss": 0.001,
      "step": 8000
    },
    {
      "epoch": 2.4,
      "eval_f1": 0.9936892190071861,
      "eval_f1_0": 0.998020679637848,
      "eval_f1_1": 0.998313736912299,
      "eval_f1_2": 0.9794466934757172,
      "eval_f1_3": 0.9989757660028803,
      "eval_loss": 0.014697457663714886,
      "eval_runtime": 153.2338,
      "eval_samples_per_second": 77.45,
      "eval_steps_per_second": 0.307,
      "step": 8000
    },
    {
      "epoch": 2.4,
      "learning_rate": 3.1583096814884896e-06,
      "loss": 0.0013,
      "step": 8010
    },
    {
      "epoch": 2.4,
      "learning_rate": 3.1556816987280566e-06,
      "loss": 0.0014,
      "step": 8020
    },
    {
      "epoch": 2.41,
      "learning_rate": 3.153053715967623e-06,
      "loss": 0.002,
      "step": 8030
    },
    {
      "epoch": 2.41,
      "learning_rate": 3.15042573320719e-06,
      "loss": 0.0013,
      "step": 8040
    },
    {
      "epoch": 2.41,
      "learning_rate": 3.147797750446757e-06,
      "loss": 0.0021,
      "step": 8050
    },
    {
      "epoch": 2.41,
      "learning_rate": 3.1451697676863242e-06,
      "loss": 0.0083,
      "step": 8060
    },
    {
      "epoch": 2.42,
      "learning_rate": 3.1425417849258912e-06,
      "loss": 0.0014,
      "step": 8070
    },
    {
      "epoch": 2.42,
      "learning_rate": 3.139913802165458e-06,
      "loss": 0.0013,
      "step": 8080
    },
    {
      "epoch": 2.42,
      "learning_rate": 3.137285819405025e-06,
      "loss": 0.0012,
      "step": 8090
    },
    {
      "epoch": 2.43,
      "learning_rate": 3.134657836644592e-06,
      "loss": 0.002,
      "step": 8100
    },
    {
      "epoch": 2.43,
      "learning_rate": 3.132029853884159e-06,
      "loss": 0.0065,
      "step": 8110
    },
    {
      "epoch": 2.43,
      "learning_rate": 3.1294018711237254e-06,
      "loss": 0.0031,
      "step": 8120
    },
    {
      "epoch": 2.44,
      "learning_rate": 3.1267738883632924e-06,
      "loss": 0.0019,
      "step": 8130
    },
    {
      "epoch": 2.44,
      "learning_rate": 3.1241459056028594e-06,
      "loss": 0.0045,
      "step": 8140
    },
    {
      "epoch": 2.44,
      "learning_rate": 3.1215179228424265e-06,
      "loss": 0.0023,
      "step": 8150
    },
    {
      "epoch": 2.44,
      "learning_rate": 3.1188899400819935e-06,
      "loss": 0.0101,
      "step": 8160
    },
    {
      "epoch": 2.45,
      "learning_rate": 3.11626195732156e-06,
      "loss": 0.0031,
      "step": 8170
    },
    {
      "epoch": 2.45,
      "learning_rate": 3.113633974561127e-06,
      "loss": 0.0053,
      "step": 8180
    },
    {
      "epoch": 2.45,
      "learning_rate": 3.111005991800694e-06,
      "loss": 0.0093,
      "step": 8190
    },
    {
      "epoch": 2.46,
      "learning_rate": 3.108378009040261e-06,
      "loss": 0.0034,
      "step": 8200
    },
    {
      "epoch": 2.46,
      "eval_f1": 0.9929376939918741,
      "eval_f1_0": 0.9978118733899454,
      "eval_f1_1": 0.9983588957055215,
      "eval_f1_2": 0.9764769012588362,
      "eval_f1_3": 0.9991031056131934,
      "eval_loss": 0.016829997301101685,
      "eval_runtime": 153.1299,
      "eval_samples_per_second": 77.503,
      "eval_steps_per_second": 0.307,
      "step": 8200
    },
    {
      "epoch": 2.46,
      "learning_rate": 3.105750026279828e-06,
      "loss": 0.0017,
      "step": 8210
    },
    {
      "epoch": 2.46,
      "learning_rate": 3.1031220435193947e-06,
      "loss": 0.0234,
      "step": 8220
    },
    {
      "epoch": 2.47,
      "learning_rate": 3.1004940607589617e-06,
      "loss": 0.0025,
      "step": 8230
    },
    {
      "epoch": 2.47,
      "learning_rate": 3.0978660779985287e-06,
      "loss": 0.0083,
      "step": 8240
    },
    {
      "epoch": 2.47,
      "learning_rate": 3.0952380952380957e-06,
      "loss": 0.0013,
      "step": 8250
    },
    {
      "epoch": 2.47,
      "learning_rate": 3.0926101124776627e-06,
      "loss": 0.0027,
      "step": 8260
    },
    {
      "epoch": 2.48,
      "learning_rate": 3.0899821297172293e-06,
      "loss": 0.0155,
      "step": 8270
    },
    {
      "epoch": 2.48,
      "learning_rate": 3.0873541469567963e-06,
      "loss": 0.0014,
      "step": 8280
    },
    {
      "epoch": 2.48,
      "learning_rate": 3.0847261641963633e-06,
      "loss": 0.0027,
      "step": 8290
    },
    {
      "epoch": 2.49,
      "learning_rate": 3.0820981814359303e-06,
      "loss": 0.0024,
      "step": 8300
    },
    {
      "epoch": 2.49,
      "learning_rate": 3.079470198675497e-06,
      "loss": 0.0021,
      "step": 8310
    },
    {
      "epoch": 2.49,
      "learning_rate": 3.076842215915064e-06,
      "loss": 0.0066,
      "step": 8320
    },
    {
      "epoch": 2.5,
      "learning_rate": 3.074214233154631e-06,
      "loss": 0.0016,
      "step": 8330
    },
    {
      "epoch": 2.5,
      "learning_rate": 3.071586250394198e-06,
      "loss": 0.0016,
      "step": 8340
    },
    {
      "epoch": 2.5,
      "learning_rate": 3.068958267633765e-06,
      "loss": 0.0018,
      "step": 8350
    },
    {
      "epoch": 2.5,
      "learning_rate": 3.0663302848733316e-06,
      "loss": 0.001,
      "step": 8360
    },
    {
      "epoch": 2.51,
      "learning_rate": 3.0637023021128986e-06,
      "loss": 0.0014,
      "step": 8370
    },
    {
      "epoch": 2.51,
      "learning_rate": 3.0610743193524656e-06,
      "loss": 0.0018,
      "step": 8380
    },
    {
      "epoch": 2.51,
      "learning_rate": 3.0584463365920317e-06,
      "loss": 0.0078,
      "step": 8390
    },
    {
      "epoch": 2.52,
      "learning_rate": 3.0558183538315987e-06,
      "loss": 0.0059,
      "step": 8400
    },
    {
      "epoch": 2.52,
      "eval_f1": 0.9934315256501149,
      "eval_f1_0": 0.9979495558595631,
      "eval_f1_1": 0.998370917231096,
      "eval_f1_2": 0.9784080408832903,
      "eval_f1_3": 0.9989975886265102,
      "eval_loss": 0.016374990344047546,
      "eval_runtime": 153.3693,
      "eval_samples_per_second": 77.382,
      "eval_steps_per_second": 0.306,
      "step": 8400
    },
    {
      "epoch": 2.52,
      "learning_rate": 3.0531903710711658e-06,
      "loss": 0.0028,
      "step": 8410
    },
    {
      "epoch": 2.52,
      "learning_rate": 3.0505623883107328e-06,
      "loss": 0.001,
      "step": 8420
    },
    {
      "epoch": 2.53,
      "learning_rate": 3.0479344055502998e-06,
      "loss": 0.0082,
      "step": 8430
    },
    {
      "epoch": 2.53,
      "learning_rate": 3.0453064227898664e-06,
      "loss": 0.0043,
      "step": 8440
    },
    {
      "epoch": 2.53,
      "learning_rate": 3.0426784400294334e-06,
      "loss": 0.0016,
      "step": 8450
    },
    {
      "epoch": 2.53,
      "learning_rate": 3.0400504572690004e-06,
      "loss": 0.0152,
      "step": 8460
    },
    {
      "epoch": 2.54,
      "learning_rate": 3.0374224745085674e-06,
      "loss": 0.0052,
      "step": 8470
    },
    {
      "epoch": 2.54,
      "learning_rate": 3.0347944917481344e-06,
      "loss": 0.0163,
      "step": 8480
    },
    {
      "epoch": 2.54,
      "learning_rate": 3.032166508987701e-06,
      "loss": 0.0144,
      "step": 8490
    },
    {
      "epoch": 2.55,
      "learning_rate": 3.029538526227268e-06,
      "loss": 0.0254,
      "step": 8500
    },
    {
      "epoch": 2.55,
      "learning_rate": 3.026910543466835e-06,
      "loss": 0.0029,
      "step": 8510
    },
    {
      "epoch": 2.55,
      "learning_rate": 3.024282560706402e-06,
      "loss": 0.0221,
      "step": 8520
    },
    {
      "epoch": 2.56,
      "learning_rate": 3.021654577945969e-06,
      "loss": 0.0158,
      "step": 8530
    },
    {
      "epoch": 2.56,
      "learning_rate": 3.0190265951855356e-06,
      "loss": 0.0021,
      "step": 8540
    },
    {
      "epoch": 2.56,
      "learning_rate": 3.0163986124251026e-06,
      "loss": 0.0319,
      "step": 8550
    },
    {
      "epoch": 2.56,
      "learning_rate": 3.0137706296646696e-06,
      "loss": 0.0014,
      "step": 8560
    },
    {
      "epoch": 2.57,
      "learning_rate": 3.0111426469042366e-06,
      "loss": 0.0011,
      "step": 8570
    },
    {
      "epoch": 2.57,
      "learning_rate": 3.0085146641438032e-06,
      "loss": 0.0016,
      "step": 8580
    },
    {
      "epoch": 2.57,
      "learning_rate": 3.0058866813833702e-06,
      "loss": 0.0031,
      "step": 8590
    },
    {
      "epoch": 2.58,
      "learning_rate": 3.0032586986229373e-06,
      "loss": 0.0021,
      "step": 8600
    },
    {
      "epoch": 2.58,
      "eval_f1": 0.9944045209341374,
      "eval_f1_0": 0.9982423475292743,
      "eval_f1_1": 0.9983367696540941,
      "eval_f1_2": 0.9819266084672601,
      "eval_f1_3": 0.9991123580859212,
      "eval_loss": 0.014226074330508709,
      "eval_runtime": 153.198,
      "eval_samples_per_second": 77.468,
      "eval_steps_per_second": 0.307,
      "step": 8600
    },
    {
      "epoch": 2.58,
      "learning_rate": 3.0006307158625043e-06,
      "loss": 0.0163,
      "step": 8610
    },
    {
      "epoch": 2.58,
      "learning_rate": 2.9980027331020713e-06,
      "loss": 0.003,
      "step": 8620
    },
    {
      "epoch": 2.59,
      "learning_rate": 2.995374750341638e-06,
      "loss": 0.0025,
      "step": 8630
    },
    {
      "epoch": 2.59,
      "learning_rate": 2.992746767581205e-06,
      "loss": 0.0009,
      "step": 8640
    },
    {
      "epoch": 2.59,
      "learning_rate": 2.990118784820772e-06,
      "loss": 0.0018,
      "step": 8650
    },
    {
      "epoch": 2.59,
      "learning_rate": 2.987490802060339e-06,
      "loss": 0.0122,
      "step": 8660
    },
    {
      "epoch": 2.6,
      "learning_rate": 2.984862819299906e-06,
      "loss": 0.0009,
      "step": 8670
    },
    {
      "epoch": 2.6,
      "learning_rate": 2.9822348365394725e-06,
      "loss": 0.0045,
      "step": 8680
    },
    {
      "epoch": 2.6,
      "learning_rate": 2.9796068537790395e-06,
      "loss": 0.0016,
      "step": 8690
    },
    {
      "epoch": 2.61,
      "learning_rate": 2.9769788710186065e-06,
      "loss": 0.0013,
      "step": 8700
    },
    {
      "epoch": 2.61,
      "learning_rate": 2.9743508882581735e-06,
      "loss": 0.0383,
      "step": 8710
    },
    {
      "epoch": 2.61,
      "learning_rate": 2.9717229054977405e-06,
      "loss": 0.0053,
      "step": 8720
    },
    {
      "epoch": 2.62,
      "learning_rate": 2.969094922737307e-06,
      "loss": 0.0015,
      "step": 8730
    },
    {
      "epoch": 2.62,
      "learning_rate": 2.966466939976874e-06,
      "loss": 0.0139,
      "step": 8740
    },
    {
      "epoch": 2.62,
      "learning_rate": 2.963838957216441e-06,
      "loss": 0.0029,
      "step": 8750
    },
    {
      "epoch": 2.62,
      "learning_rate": 2.961210974456008e-06,
      "loss": 0.0028,
      "step": 8760
    },
    {
      "epoch": 2.63,
      "learning_rate": 2.958582991695575e-06,
      "loss": 0.0013,
      "step": 8770
    },
    {
      "epoch": 2.63,
      "learning_rate": 2.9559550089351417e-06,
      "loss": 0.003,
      "step": 8780
    },
    {
      "epoch": 2.63,
      "learning_rate": 2.9533270261747088e-06,
      "loss": 0.0106,
      "step": 8790
    },
    {
      "epoch": 2.64,
      "learning_rate": 2.9506990434142758e-06,
      "loss": 0.0052,
      "step": 8800
    },
    {
      "epoch": 2.64,
      "eval_f1": 0.9918912454619301,
      "eval_f1_0": 0.997424502378134,
      "eval_f1_1": 0.998214046181853,
      "eval_f1_2": 0.972873035606133,
      "eval_f1_3": 0.9990533976816002,
      "eval_loss": 0.0193399079144001,
      "eval_runtime": 153.415,
      "eval_samples_per_second": 77.359,
      "eval_steps_per_second": 0.306,
      "step": 8800
    },
    {
      "epoch": 2.64,
      "learning_rate": 2.948071060653842e-06,
      "loss": 0.0155,
      "step": 8810
    },
    {
      "epoch": 2.64,
      "learning_rate": 2.945443077893409e-06,
      "loss": 0.0018,
      "step": 8820
    },
    {
      "epoch": 2.65,
      "learning_rate": 2.942815095132976e-06,
      "loss": 0.0025,
      "step": 8830
    },
    {
      "epoch": 2.65,
      "learning_rate": 2.940187112372543e-06,
      "loss": 0.0015,
      "step": 8840
    },
    {
      "epoch": 2.65,
      "learning_rate": 2.93755912961211e-06,
      "loss": 0.0137,
      "step": 8850
    },
    {
      "epoch": 2.65,
      "learning_rate": 2.9349311468516766e-06,
      "loss": 0.0019,
      "step": 8860
    },
    {
      "epoch": 2.66,
      "learning_rate": 2.9323031640912436e-06,
      "loss": 0.0017,
      "step": 8870
    },
    {
      "epoch": 2.66,
      "learning_rate": 2.9296751813308106e-06,
      "loss": 0.0026,
      "step": 8880
    },
    {
      "epoch": 2.66,
      "learning_rate": 2.9270471985703776e-06,
      "loss": 0.0037,
      "step": 8890
    },
    {
      "epoch": 2.67,
      "learning_rate": 2.924419215809944e-06,
      "loss": 0.0161,
      "step": 8900
    },
    {
      "epoch": 2.67,
      "learning_rate": 2.921791233049511e-06,
      "loss": 0.002,
      "step": 8910
    },
    {
      "epoch": 2.67,
      "learning_rate": 2.919163250289078e-06,
      "loss": 0.0052,
      "step": 8920
    },
    {
      "epoch": 2.68,
      "learning_rate": 2.916535267528645e-06,
      "loss": 0.0114,
      "step": 8930
    },
    {
      "epoch": 2.68,
      "learning_rate": 2.913907284768212e-06,
      "loss": 0.0356,
      "step": 8940
    },
    {
      "epoch": 2.68,
      "learning_rate": 2.911279302007779e-06,
      "loss": 0.0127,
      "step": 8950
    },
    {
      "epoch": 2.68,
      "learning_rate": 2.908651319247346e-06,
      "loss": 0.0017,
      "step": 8960
    },
    {
      "epoch": 2.69,
      "learning_rate": 2.906023336486913e-06,
      "loss": 0.0139,
      "step": 8970
    },
    {
      "epoch": 2.69,
      "learning_rate": 2.90339535372648e-06,
      "loss": 0.0015,
      "step": 8980
    },
    {
      "epoch": 2.69,
      "learning_rate": 2.900767370966047e-06,
      "loss": 0.0227,
      "step": 8990
    },
    {
      "epoch": 2.7,
      "learning_rate": 2.8981393882056134e-06,
      "loss": 0.0014,
      "step": 9000
    },
    {
      "epoch": 2.7,
      "eval_f1": 0.9922554773188612,
      "eval_f1_0": 0.9975959459772522,
      "eval_f1_1": 0.998426265457006,
      "eval_f1_2": 0.9738997655014452,
      "eval_f1_3": 0.9990999323397414,
      "eval_loss": 0.01743851974606514,
      "eval_runtime": 153.1158,
      "eval_samples_per_second": 77.51,
      "eval_steps_per_second": 0.307,
      "step": 9000
    },
    {
      "epoch": 2.7,
      "learning_rate": 2.8955114054451804e-06,
      "loss": 0.0026,
      "step": 9010
    },
    {
      "epoch": 2.7,
      "learning_rate": 2.8928834226847474e-06,
      "loss": 0.0019,
      "step": 9020
    },
    {
      "epoch": 2.71,
      "learning_rate": 2.8902554399243145e-06,
      "loss": 0.0039,
      "step": 9030
    },
    {
      "epoch": 2.71,
      "learning_rate": 2.8876274571638815e-06,
      "loss": 0.0228,
      "step": 9040
    },
    {
      "epoch": 2.71,
      "learning_rate": 2.884999474403448e-06,
      "loss": 0.0051,
      "step": 9050
    },
    {
      "epoch": 2.71,
      "learning_rate": 2.882371491643015e-06,
      "loss": 0.0477,
      "step": 9060
    },
    {
      "epoch": 2.72,
      "learning_rate": 2.879743508882582e-06,
      "loss": 0.0023,
      "step": 9070
    },
    {
      "epoch": 2.72,
      "learning_rate": 2.877115526122149e-06,
      "loss": 0.0016,
      "step": 9080
    },
    {
      "epoch": 2.72,
      "learning_rate": 2.8744875433617157e-06,
      "loss": 0.0034,
      "step": 9090
    },
    {
      "epoch": 2.73,
      "learning_rate": 2.8718595606012827e-06,
      "loss": 0.0017,
      "step": 9100
    },
    {
      "epoch": 2.73,
      "learning_rate": 2.8692315778408497e-06,
      "loss": 0.001,
      "step": 9110
    },
    {
      "epoch": 2.73,
      "learning_rate": 2.8666035950804167e-06,
      "loss": 0.0065,
      "step": 9120
    },
    {
      "epoch": 2.74,
      "learning_rate": 2.8639756123199837e-06,
      "loss": 0.0058,
      "step": 9130
    },
    {
      "epoch": 2.74,
      "learning_rate": 2.8613476295595503e-06,
      "loss": 0.0011,
      "step": 9140
    },
    {
      "epoch": 2.74,
      "learning_rate": 2.8587196467991173e-06,
      "loss": 0.0039,
      "step": 9150
    },
    {
      "epoch": 2.74,
      "learning_rate": 2.8560916640386843e-06,
      "loss": 0.0012,
      "step": 9160
    },
    {
      "epoch": 2.75,
      "learning_rate": 2.8534636812782513e-06,
      "loss": 0.0023,
      "step": 9170
    },
    {
      "epoch": 2.75,
      "learning_rate": 2.8508356985178183e-06,
      "loss": 0.0017,
      "step": 9180
    },
    {
      "epoch": 2.75,
      "learning_rate": 2.848207715757385e-06,
      "loss": 0.0053,
      "step": 9190
    },
    {
      "epoch": 2.76,
      "learning_rate": 2.845579732996952e-06,
      "loss": 0.0051,
      "step": 9200
    },
    {
      "epoch": 2.76,
      "eval_f1": 0.9922298711940248,
      "eval_f1_0": 0.9975922583433169,
      "eval_f1_1": 0.9985417293441998,
      "eval_f1_2": 0.9736916764872768,
      "eval_f1_3": 0.9990938206013059,
      "eval_loss": 0.019912779331207275,
      "eval_runtime": 153.1079,
      "eval_samples_per_second": 77.514,
      "eval_steps_per_second": 0.307,
      "step": 9200
    },
    {
      "epoch": 2.76,
      "learning_rate": 2.842951750236519e-06,
      "loss": 0.0239,
      "step": 9210
    },
    {
      "epoch": 2.76,
      "learning_rate": 2.840323767476086e-06,
      "loss": 0.0017,
      "step": 9220
    },
    {
      "epoch": 2.77,
      "learning_rate": 2.837695784715653e-06,
      "loss": 0.0012,
      "step": 9230
    },
    {
      "epoch": 2.77,
      "learning_rate": 2.835067801955219e-06,
      "loss": 0.0028,
      "step": 9240
    },
    {
      "epoch": 2.77,
      "learning_rate": 2.832439819194786e-06,
      "loss": 0.0053,
      "step": 9250
    },
    {
      "epoch": 2.77,
      "learning_rate": 2.829811836434353e-06,
      "loss": 0.0144,
      "step": 9260
    },
    {
      "epoch": 2.78,
      "learning_rate": 2.8271838536739197e-06,
      "loss": 0.0061,
      "step": 9270
    },
    {
      "epoch": 2.78,
      "learning_rate": 2.8245558709134867e-06,
      "loss": 0.0116,
      "step": 9280
    },
    {
      "epoch": 2.78,
      "learning_rate": 2.8219278881530538e-06,
      "loss": 0.0032,
      "step": 9290
    },
    {
      "epoch": 2.79,
      "learning_rate": 2.8192999053926208e-06,
      "loss": 0.0131,
      "step": 9300
    },
    {
      "epoch": 2.79,
      "learning_rate": 2.8166719226321878e-06,
      "loss": 0.0158,
      "step": 9310
    },
    {
      "epoch": 2.79,
      "learning_rate": 2.8140439398717544e-06,
      "loss": 0.0048,
      "step": 9320
    },
    {
      "epoch": 2.8,
      "learning_rate": 2.8114159571113214e-06,
      "loss": 0.0023,
      "step": 9330
    },
    {
      "epoch": 2.8,
      "learning_rate": 2.8087879743508884e-06,
      "loss": 0.0054,
      "step": 9340
    },
    {
      "epoch": 2.8,
      "learning_rate": 2.8061599915904554e-06,
      "loss": 0.0033,
      "step": 9350
    },
    {
      "epoch": 2.8,
      "learning_rate": 2.8035320088300224e-06,
      "loss": 0.0043,
      "step": 9360
    },
    {
      "epoch": 2.81,
      "learning_rate": 2.800904026069589e-06,
      "loss": 0.0018,
      "step": 9370
    },
    {
      "epoch": 2.81,
      "learning_rate": 2.798276043309156e-06,
      "loss": 0.0026,
      "step": 9380
    },
    {
      "epoch": 2.81,
      "learning_rate": 2.795648060548723e-06,
      "loss": 0.0169,
      "step": 9390
    },
    {
      "epoch": 2.82,
      "learning_rate": 2.79302007778829e-06,
      "loss": 0.0016,
      "step": 9400
    },
    {
      "epoch": 2.82,
      "eval_f1": 0.9761104838258727,
      "eval_f1_0": 0.9918857239064715,
      "eval_f1_1": 0.998355256852138,
      "eval_f1_2": 0.9151040670242819,
      "eval_f1_3": 0.9990968875205993,
      "eval_loss": 0.06116287410259247,
      "eval_runtime": 153.0787,
      "eval_samples_per_second": 77.529,
      "eval_steps_per_second": 0.307,
      "step": 9400
    },
    {
      "epoch": 2.82,
      "learning_rate": 2.7903920950278566e-06,
      "loss": 0.0257,
      "step": 9410
    },
    {
      "epoch": 2.82,
      "learning_rate": 2.7877641122674236e-06,
      "loss": 0.0014,
      "step": 9420
    },
    {
      "epoch": 2.83,
      "learning_rate": 2.7851361295069906e-06,
      "loss": 0.0048,
      "step": 9430
    },
    {
      "epoch": 2.83,
      "learning_rate": 2.7825081467465576e-06,
      "loss": 0.0025,
      "step": 9440
    },
    {
      "epoch": 2.83,
      "learning_rate": 2.7798801639861246e-06,
      "loss": 0.0012,
      "step": 9450
    },
    {
      "epoch": 2.83,
      "learning_rate": 2.7772521812256912e-06,
      "loss": 0.0187,
      "step": 9460
    },
    {
      "epoch": 2.84,
      "learning_rate": 2.7746241984652582e-06,
      "loss": 0.0066,
      "step": 9470
    },
    {
      "epoch": 2.84,
      "learning_rate": 2.7719962157048252e-06,
      "loss": 0.0115,
      "step": 9480
    },
    {
      "epoch": 2.84,
      "learning_rate": 2.7693682329443923e-06,
      "loss": 0.0017,
      "step": 9490
    },
    {
      "epoch": 2.85,
      "learning_rate": 2.7667402501839593e-06,
      "loss": 0.0021,
      "step": 9500
    },
    {
      "epoch": 2.85,
      "learning_rate": 2.764112267423526e-06,
      "loss": 0.0012,
      "step": 9510
    },
    {
      "epoch": 2.85,
      "learning_rate": 2.761484284663093e-06,
      "loss": 0.0018,
      "step": 9520
    },
    {
      "epoch": 2.86,
      "learning_rate": 2.75885630190266e-06,
      "loss": 0.0013,
      "step": 9530
    },
    {
      "epoch": 2.86,
      "learning_rate": 2.756228319142227e-06,
      "loss": 0.0009,
      "step": 9540
    },
    {
      "epoch": 2.86,
      "learning_rate": 2.753600336381794e-06,
      "loss": 0.0077,
      "step": 9550
    },
    {
      "epoch": 2.86,
      "learning_rate": 2.7509723536213605e-06,
      "loss": 0.0008,
      "step": 9560
    },
    {
      "epoch": 2.87,
      "learning_rate": 2.7483443708609275e-06,
      "loss": 0.0066,
      "step": 9570
    },
    {
      "epoch": 2.87,
      "learning_rate": 2.7457163881004945e-06,
      "loss": 0.0204,
      "step": 9580
    },
    {
      "epoch": 2.87,
      "learning_rate": 2.7430884053400615e-06,
      "loss": 0.0016,
      "step": 9590
    },
    {
      "epoch": 2.88,
      "learning_rate": 2.740460422579628e-06,
      "loss": 0.0045,
      "step": 9600
    },
    {
      "epoch": 2.88,
      "eval_f1": 0.9937663379693042,
      "eval_f1_0": 0.9980625896221533,
      "eval_f1_1": 0.998526551767084,
      "eval_f1_2": 0.9793855017063364,
      "eval_f1_3": 0.9990907087816429,
      "eval_loss": 0.014854556880891323,
      "eval_runtime": 153.2727,
      "eval_samples_per_second": 77.431,
      "eval_steps_per_second": 0.307,
      "step": 9600
    },
    {
      "epoch": 2.88,
      "learning_rate": 2.737832439819195e-06,
      "loss": 0.0019,
      "step": 9610
    },
    {
      "epoch": 2.88,
      "learning_rate": 2.735204457058762e-06,
      "loss": 0.0123,
      "step": 9620
    },
    {
      "epoch": 2.88,
      "learning_rate": 2.732576474298329e-06,
      "loss": 0.0025,
      "step": 9630
    },
    {
      "epoch": 2.89,
      "learning_rate": 2.729948491537896e-06,
      "loss": 0.0017,
      "step": 9640
    },
    {
      "epoch": 2.89,
      "learning_rate": 2.7273205087774627e-06,
      "loss": 0.0043,
      "step": 9650
    },
    {
      "epoch": 2.89,
      "learning_rate": 2.7246925260170297e-06,
      "loss": 0.0029,
      "step": 9660
    },
    {
      "epoch": 2.9,
      "learning_rate": 2.7220645432565963e-06,
      "loss": 0.0021,
      "step": 9670
    },
    {
      "epoch": 2.9,
      "learning_rate": 2.719436560496163e-06,
      "loss": 0.0033,
      "step": 9680
    },
    {
      "epoch": 2.9,
      "learning_rate": 2.71680857773573e-06,
      "loss": 0.0033,
      "step": 9690
    },
    {
      "epoch": 2.91,
      "learning_rate": 2.714180594975297e-06,
      "loss": 0.0012,
      "step": 9700
    },
    {
      "epoch": 2.91,
      "learning_rate": 2.711552612214864e-06,
      "loss": 0.0099,
      "step": 9710
    },
    {
      "epoch": 2.91,
      "learning_rate": 2.708924629454431e-06,
      "loss": 0.0018,
      "step": 9720
    },
    {
      "epoch": 2.91,
      "learning_rate": 2.7062966466939975e-06,
      "loss": 0.0022,
      "step": 9730
    },
    {
      "epoch": 2.92,
      "learning_rate": 2.7036686639335645e-06,
      "loss": 0.0024,
      "step": 9740
    },
    {
      "epoch": 2.92,
      "learning_rate": 2.7010406811731316e-06,
      "loss": 0.0011,
      "step": 9750
    },
    {
      "epoch": 2.92,
      "learning_rate": 2.6984126984126986e-06,
      "loss": 0.0017,
      "step": 9760
    },
    {
      "epoch": 2.93,
      "learning_rate": 2.6957847156522656e-06,
      "loss": 0.0239,
      "step": 9770
    },
    {
      "epoch": 2.93,
      "learning_rate": 2.693156732891832e-06,
      "loss": 0.0018,
      "step": 9780
    },
    {
      "epoch": 2.93,
      "learning_rate": 2.690528750131399e-06,
      "loss": 0.0028,
      "step": 9790
    },
    {
      "epoch": 2.94,
      "learning_rate": 2.687900767370966e-06,
      "loss": 0.001,
      "step": 9800
    },
    {
      "epoch": 2.94,
      "eval_f1": 0.9929864600519772,
      "eval_f1_0": 0.9977926101144773,
      "eval_f1_1": 0.9985662422897187,
      "eval_f1_2": 0.976521048111115,
      "eval_f1_3": 0.9990659396925979,
      "eval_loss": 0.016506973654031754,
      "eval_runtime": 153.0798,
      "eval_samples_per_second": 77.528,
      "eval_steps_per_second": 0.307,
      "step": 9800
    },
    {
      "epoch": 2.94,
      "learning_rate": 2.685272784610533e-06,
      "loss": 0.0014,
      "step": 9810
    },
    {
      "epoch": 2.94,
      "learning_rate": 2.6826448018501e-06,
      "loss": 0.0028,
      "step": 9820
    },
    {
      "epoch": 2.94,
      "learning_rate": 2.680016819089667e-06,
      "loss": 0.0031,
      "step": 9830
    },
    {
      "epoch": 2.95,
      "learning_rate": 2.677388836329234e-06,
      "loss": 0.0037,
      "step": 9840
    },
    {
      "epoch": 2.95,
      "learning_rate": 2.674760853568801e-06,
      "loss": 0.0061,
      "step": 9850
    },
    {
      "epoch": 2.95,
      "learning_rate": 2.672132870808368e-06,
      "loss": 0.0019,
      "step": 9860
    },
    {
      "epoch": 2.96,
      "learning_rate": 2.6695048880479344e-06,
      "loss": 0.0012,
      "step": 9870
    },
    {
      "epoch": 2.96,
      "learning_rate": 2.6668769052875014e-06,
      "loss": 0.0021,
      "step": 9880
    },
    {
      "epoch": 2.96,
      "learning_rate": 2.6642489225270684e-06,
      "loss": 0.0013,
      "step": 9890
    },
    {
      "epoch": 2.97,
      "learning_rate": 2.6616209397666354e-06,
      "loss": 0.0023,
      "step": 9900
    },
    {
      "epoch": 2.97,
      "learning_rate": 2.6589929570062024e-06,
      "loss": 0.0064,
      "step": 9910
    },
    {
      "epoch": 2.97,
      "learning_rate": 2.656364974245769e-06,
      "loss": 0.0037,
      "step": 9920
    },
    {
      "epoch": 2.97,
      "learning_rate": 2.653736991485336e-06,
      "loss": 0.0036,
      "step": 9930
    },
    {
      "epoch": 2.98,
      "learning_rate": 2.651109008724903e-06,
      "loss": 0.0014,
      "step": 9940
    },
    {
      "epoch": 2.98,
      "learning_rate": 2.64848102596447e-06,
      "loss": 0.0006,
      "step": 9950
    },
    {
      "epoch": 2.98,
      "learning_rate": 2.645853043204037e-06,
      "loss": 0.0017,
      "step": 9960
    },
    {
      "epoch": 2.99,
      "learning_rate": 2.6432250604436037e-06,
      "loss": 0.0074,
      "step": 9970
    },
    {
      "epoch": 2.99,
      "learning_rate": 2.6405970776831707e-06,
      "loss": 0.0207,
      "step": 9980
    },
    {
      "epoch": 2.99,
      "learning_rate": 2.6379690949227377e-06,
      "loss": 0.0014,
      "step": 9990
    },
    {
      "epoch": 3.0,
      "learning_rate": 2.6353411121623047e-06,
      "loss": 0.0027,
      "step": 10000
    },
    {
      "epoch": 3.0,
      "eval_f1": 0.9940681360407999,
      "eval_f1_0": 0.9981445880450488,
      "eval_f1_1": 0.9983542642564972,
      "eval_f1_2": 0.9806705305827429,
      "eval_f1_3": 0.9991031612789106,
      "eval_loss": 0.013135611079633236,
      "eval_runtime": 153.0686,
      "eval_samples_per_second": 77.534,
      "eval_steps_per_second": 0.307,
      "step": 10000
    },
    {
      "epoch": 3.0,
      "learning_rate": 2.6327131294018717e-06,
      "loss": 0.0017,
      "step": 10010
    },
    {
      "epoch": 3.0,
      "learning_rate": 2.6300851466414383e-06,
      "loss": 0.0085,
      "step": 10020
    },
    {
      "epoch": 3.0,
      "learning_rate": 2.6274571638810053e-06,
      "loss": 0.002,
      "step": 10030
    },
    {
      "epoch": 3.01,
      "learning_rate": 2.6248291811205723e-06,
      "loss": 0.0156,
      "step": 10040
    },
    {
      "epoch": 3.01,
      "learning_rate": 2.6222011983601393e-06,
      "loss": 0.0121,
      "step": 10050
    },
    {
      "epoch": 3.01,
      "learning_rate": 2.6195732155997063e-06,
      "loss": 0.0009,
      "step": 10060
    },
    {
      "epoch": 3.02,
      "learning_rate": 2.616945232839273e-06,
      "loss": 0.0013,
      "step": 10070
    },
    {
      "epoch": 3.02,
      "learning_rate": 2.61431725007884e-06,
      "loss": 0.0011,
      "step": 10080
    },
    {
      "epoch": 3.02,
      "learning_rate": 2.6116892673184065e-06,
      "loss": 0.0025,
      "step": 10090
    },
    {
      "epoch": 3.03,
      "learning_rate": 2.609061284557973e-06,
      "loss": 0.0015,
      "step": 10100
    },
    {
      "epoch": 3.03,
      "learning_rate": 2.60643330179754e-06,
      "loss": 0.0012,
      "step": 10110
    },
    {
      "epoch": 3.03,
      "learning_rate": 2.603805319037107e-06,
      "loss": 0.0011,
      "step": 10120
    },
    {
      "epoch": 3.03,
      "learning_rate": 2.601177336276674e-06,
      "loss": 0.0017,
      "step": 10130
    },
    {
      "epoch": 3.04,
      "learning_rate": 2.598549353516241e-06,
      "loss": 0.001,
      "step": 10140
    },
    {
      "epoch": 3.04,
      "learning_rate": 2.5959213707558077e-06,
      "loss": 0.0013,
      "step": 10150
    },
    {
      "epoch": 3.04,
      "learning_rate": 2.5932933879953747e-06,
      "loss": 0.0068,
      "step": 10160
    },
    {
      "epoch": 3.05,
      "learning_rate": 2.5906654052349417e-06,
      "loss": 0.002,
      "step": 10170
    },
    {
      "epoch": 3.05,
      "learning_rate": 2.5880374224745088e-06,
      "loss": 0.001,
      "step": 10180
    },
    {
      "epoch": 3.05,
      "learning_rate": 2.5854094397140753e-06,
      "loss": 0.0008,
      "step": 10190
    },
    {
      "epoch": 3.06,
      "learning_rate": 2.5827814569536424e-06,
      "loss": 0.002,
      "step": 10200
    },
    {
      "epoch": 3.06,
      "eval_f1": 0.9944674225355606,
      "eval_f1_0": 0.9982657574099039,
      "eval_f1_1": 0.9985489550367745,
      "eval_f1_2": 0.981948854638505,
      "eval_f1_3": 0.9991061230570591,
      "eval_loss": 0.016152124851942062,
      "eval_runtime": 153.2353,
      "eval_samples_per_second": 77.45,
      "eval_steps_per_second": 0.307,
      "step": 10200
    },
    {
      "epoch": 3.06,
      "learning_rate": 2.5801534741932094e-06,
      "loss": 0.0012,
      "step": 10210
    },
    {
      "epoch": 3.06,
      "learning_rate": 2.5775254914327764e-06,
      "loss": 0.0009,
      "step": 10220
    },
    {
      "epoch": 3.06,
      "learning_rate": 2.5748975086723434e-06,
      "loss": 0.002,
      "step": 10230
    },
    {
      "epoch": 3.07,
      "learning_rate": 2.57226952591191e-06,
      "loss": 0.0016,
      "step": 10240
    },
    {
      "epoch": 3.07,
      "learning_rate": 2.569641543151477e-06,
      "loss": 0.0014,
      "step": 10250
    },
    {
      "epoch": 3.07,
      "learning_rate": 2.567013560391044e-06,
      "loss": 0.0023,
      "step": 10260
    },
    {
      "epoch": 3.08,
      "learning_rate": 2.564385577630611e-06,
      "loss": 0.0066,
      "step": 10270
    },
    {
      "epoch": 3.08,
      "learning_rate": 2.561757594870178e-06,
      "loss": 0.0016,
      "step": 10280
    },
    {
      "epoch": 3.08,
      "learning_rate": 2.5591296121097446e-06,
      "loss": 0.002,
      "step": 10290
    },
    {
      "epoch": 3.09,
      "learning_rate": 2.5565016293493116e-06,
      "loss": 0.0027,
      "step": 10300
    },
    {
      "epoch": 3.09,
      "learning_rate": 2.5538736465888786e-06,
      "loss": 0.0022,
      "step": 10310
    },
    {
      "epoch": 3.09,
      "learning_rate": 2.5512456638284456e-06,
      "loss": 0.0042,
      "step": 10320
    },
    {
      "epoch": 3.09,
      "learning_rate": 2.5486176810680126e-06,
      "loss": 0.0026,
      "step": 10330
    },
    {
      "epoch": 3.1,
      "learning_rate": 2.5459896983075792e-06,
      "loss": 0.0014,
      "step": 10340
    },
    {
      "epoch": 3.1,
      "learning_rate": 2.5433617155471462e-06,
      "loss": 0.0015,
      "step": 10350
    },
    {
      "epoch": 3.1,
      "learning_rate": 2.5407337327867132e-06,
      "loss": 0.0011,
      "step": 10360
    },
    {
      "epoch": 3.11,
      "learning_rate": 2.5381057500262803e-06,
      "loss": 0.001,
      "step": 10370
    },
    {
      "epoch": 3.11,
      "learning_rate": 2.535477767265847e-06,
      "loss": 0.0018,
      "step": 10380
    },
    {
      "epoch": 3.11,
      "learning_rate": 2.532849784505414e-06,
      "loss": 0.0026,
      "step": 10390
    },
    {
      "epoch": 3.12,
      "learning_rate": 2.530221801744981e-06,
      "loss": 0.0027,
      "step": 10400
    },
    {
      "epoch": 3.12,
      "eval_f1": 0.9943387857877316,
      "eval_f1_0": 0.9982231258109571,
      "eval_f1_1": 0.9984278236861782,
      "eval_f1_2": 0.9815886687876261,
      "eval_f1_3": 0.999115524866165,
      "eval_loss": 0.01668805629014969,
      "eval_runtime": 153.0651,
      "eval_samples_per_second": 77.536,
      "eval_steps_per_second": 0.307,
      "step": 10400
    },
    {
      "epoch": 3.12,
      "learning_rate": 2.527593818984548e-06,
      "loss": 0.0021,
      "step": 10410
    },
    {
      "epoch": 3.12,
      "learning_rate": 2.524965836224115e-06,
      "loss": 0.0013,
      "step": 10420
    },
    {
      "epoch": 3.12,
      "learning_rate": 2.5223378534636815e-06,
      "loss": 0.0015,
      "step": 10430
    },
    {
      "epoch": 3.13,
      "learning_rate": 2.5197098707032485e-06,
      "loss": 0.0012,
      "step": 10440
    },
    {
      "epoch": 3.13,
      "learning_rate": 2.5170818879428155e-06,
      "loss": 0.0012,
      "step": 10450
    },
    {
      "epoch": 3.13,
      "learning_rate": 2.5144539051823825e-06,
      "loss": 0.0014,
      "step": 10460
    },
    {
      "epoch": 3.14,
      "learning_rate": 2.5118259224219495e-06,
      "loss": 0.0014,
      "step": 10470
    },
    {
      "epoch": 3.14,
      "learning_rate": 2.509197939661516e-06,
      "loss": 0.0013,
      "step": 10480
    },
    {
      "epoch": 3.14,
      "learning_rate": 2.506569956901083e-06,
      "loss": 0.0018,
      "step": 10490
    },
    {
      "epoch": 3.15,
      "learning_rate": 2.50394197414065e-06,
      "loss": 0.0014,
      "step": 10500
    },
    {
      "epoch": 3.15,
      "learning_rate": 2.501313991380217e-06,
      "loss": 0.0016,
      "step": 10510
    },
    {
      "epoch": 3.15,
      "learning_rate": 2.4986860086197837e-06,
      "loss": 0.0026,
      "step": 10520
    },
    {
      "epoch": 3.15,
      "learning_rate": 2.4960580258593507e-06,
      "loss": 0.0021,
      "step": 10530
    },
    {
      "epoch": 3.16,
      "learning_rate": 2.4934300430989173e-06,
      "loss": 0.0021,
      "step": 10540
    },
    {
      "epoch": 3.16,
      "learning_rate": 2.4908020603384843e-06,
      "loss": 0.0015,
      "step": 10550
    },
    {
      "epoch": 3.16,
      "learning_rate": 2.4881740775780513e-06,
      "loss": 0.0101,
      "step": 10560
    },
    {
      "epoch": 3.17,
      "learning_rate": 2.4855460948176183e-06,
      "loss": 0.001,
      "step": 10570
    },
    {
      "epoch": 3.17,
      "learning_rate": 2.4829181120571853e-06,
      "loss": 0.002,
      "step": 10580
    },
    {
      "epoch": 3.17,
      "learning_rate": 2.480290129296752e-06,
      "loss": 0.0139,
      "step": 10590
    },
    {
      "epoch": 3.18,
      "learning_rate": 2.477662146536319e-06,
      "loss": 0.0016,
      "step": 10600
    },
    {
      "epoch": 3.18,
      "eval_f1": 0.9928868874420482,
      "eval_f1_0": 0.9977685703070324,
      "eval_f1_1": 0.9987504695321543,
      "eval_f1_2": 0.9759378237229549,
      "eval_f1_3": 0.9990906862060511,
      "eval_loss": 0.018006889149546623,
      "eval_runtime": 153.1039,
      "eval_samples_per_second": 77.516,
      "eval_steps_per_second": 0.307,
      "step": 10600
    },
    {
      "epoch": 3.18,
      "learning_rate": 2.475034163775886e-06,
      "loss": 0.013,
      "step": 10610
    },
    {
      "epoch": 3.18,
      "learning_rate": 2.472406181015453e-06,
      "loss": 0.0014,
      "step": 10620
    },
    {
      "epoch": 3.18,
      "learning_rate": 2.4697781982550195e-06,
      "loss": 0.0014,
      "step": 10630
    },
    {
      "epoch": 3.19,
      "learning_rate": 2.4671502154945866e-06,
      "loss": 0.0013,
      "step": 10640
    },
    {
      "epoch": 3.19,
      "learning_rate": 2.4645222327341536e-06,
      "loss": 0.0011,
      "step": 10650
    },
    {
      "epoch": 3.19,
      "learning_rate": 2.46189424997372e-06,
      "loss": 0.0016,
      "step": 10660
    },
    {
      "epoch": 3.2,
      "learning_rate": 2.459266267213287e-06,
      "loss": 0.0025,
      "step": 10670
    },
    {
      "epoch": 3.2,
      "learning_rate": 2.456638284452854e-06,
      "loss": 0.0011,
      "step": 10680
    },
    {
      "epoch": 3.2,
      "learning_rate": 2.454010301692421e-06,
      "loss": 0.0009,
      "step": 10690
    },
    {
      "epoch": 3.21,
      "learning_rate": 2.4513823189319878e-06,
      "loss": 0.0016,
      "step": 10700
    },
    {
      "epoch": 3.21,
      "learning_rate": 2.4487543361715548e-06,
      "loss": 0.0007,
      "step": 10710
    },
    {
      "epoch": 3.21,
      "learning_rate": 2.446126353411122e-06,
      "loss": 0.0015,
      "step": 10720
    },
    {
      "epoch": 3.21,
      "learning_rate": 2.443498370650689e-06,
      "loss": 0.005,
      "step": 10730
    },
    {
      "epoch": 3.22,
      "learning_rate": 2.440870387890256e-06,
      "loss": 0.0017,
      "step": 10740
    },
    {
      "epoch": 3.22,
      "learning_rate": 2.4382424051298224e-06,
      "loss": 0.0105,
      "step": 10750
    },
    {
      "epoch": 3.22,
      "learning_rate": 2.4356144223693894e-06,
      "loss": 0.0013,
      "step": 10760
    },
    {
      "epoch": 3.23,
      "learning_rate": 2.4329864396089564e-06,
      "loss": 0.0007,
      "step": 10770
    },
    {
      "epoch": 3.23,
      "learning_rate": 2.4303584568485234e-06,
      "loss": 0.0007,
      "step": 10780
    },
    {
      "epoch": 3.23,
      "learning_rate": 2.4277304740880904e-06,
      "loss": 0.0015,
      "step": 10790
    },
    {
      "epoch": 3.24,
      "learning_rate": 2.425102491327657e-06,
      "loss": 0.0013,
      "step": 10800
    },
    {
      "epoch": 3.24,
      "eval_f1": 0.9937175001119303,
      "eval_f1_0": 0.9980423432210683,
      "eval_f1_1": 0.9985875841556455,
      "eval_f1_2": 0.9791648037199321,
      "eval_f1_3": 0.9990752693510749,
      "eval_loss": 0.017555907368659973,
      "eval_runtime": 153.1273,
      "eval_samples_per_second": 77.504,
      "eval_steps_per_second": 0.307,
      "step": 10800
    },
    {
      "epoch": 3.24,
      "learning_rate": 2.422474508567224e-06,
      "loss": 0.0141,
      "step": 10810
    },
    {
      "epoch": 3.24,
      "learning_rate": 2.419846525806791e-06,
      "loss": 0.0086,
      "step": 10820
    },
    {
      "epoch": 3.24,
      "learning_rate": 2.417218543046358e-06,
      "loss": 0.0033,
      "step": 10830
    },
    {
      "epoch": 3.25,
      "learning_rate": 2.4145905602859246e-06,
      "loss": 0.0012,
      "step": 10840
    },
    {
      "epoch": 3.25,
      "learning_rate": 2.4119625775254917e-06,
      "loss": 0.0011,
      "step": 10850
    },
    {
      "epoch": 3.25,
      "learning_rate": 2.4093345947650582e-06,
      "loss": 0.0007,
      "step": 10860
    },
    {
      "epoch": 3.26,
      "learning_rate": 2.4067066120046253e-06,
      "loss": 0.0012,
      "step": 10870
    },
    {
      "epoch": 3.26,
      "learning_rate": 2.4040786292441923e-06,
      "loss": 0.0008,
      "step": 10880
    },
    {
      "epoch": 3.26,
      "learning_rate": 2.4014506464837593e-06,
      "loss": 0.0119,
      "step": 10890
    },
    {
      "epoch": 3.27,
      "learning_rate": 2.3988226637233263e-06,
      "loss": 0.0018,
      "step": 10900
    },
    {
      "epoch": 3.27,
      "learning_rate": 2.396194680962893e-06,
      "loss": 0.0075,
      "step": 10910
    },
    {
      "epoch": 3.27,
      "learning_rate": 2.39356669820246e-06,
      "loss": 0.0028,
      "step": 10920
    },
    {
      "epoch": 3.27,
      "learning_rate": 2.390938715442027e-06,
      "loss": 0.0009,
      "step": 10930
    },
    {
      "epoch": 3.28,
      "learning_rate": 2.388310732681594e-06,
      "loss": 0.0221,
      "step": 10940
    },
    {
      "epoch": 3.28,
      "learning_rate": 2.385682749921161e-06,
      "loss": 0.0058,
      "step": 10950
    },
    {
      "epoch": 3.28,
      "learning_rate": 2.3830547671607275e-06,
      "loss": 0.0019,
      "step": 10960
    },
    {
      "epoch": 3.29,
      "learning_rate": 2.3804267844002945e-06,
      "loss": 0.0016,
      "step": 10970
    },
    {
      "epoch": 3.29,
      "learning_rate": 2.3777988016398615e-06,
      "loss": 0.0012,
      "step": 10980
    },
    {
      "epoch": 3.29,
      "learning_rate": 2.3751708188794285e-06,
      "loss": 0.0013,
      "step": 10990
    },
    {
      "epoch": 3.3,
      "learning_rate": 2.3725428361189955e-06,
      "loss": 0.0011,
      "step": 11000
    },
    {
      "epoch": 3.3,
      "eval_f1": 0.9948161277346173,
      "eval_f1_0": 0.9983735715945335,
      "eval_f1_1": 0.9984181917535063,
      "eval_f1_2": 0.9833696308435398,
      "eval_f1_3": 0.9991031167468896,
      "eval_loss": 0.013583315536379814,
      "eval_runtime": 153.1964,
      "eval_samples_per_second": 77.469,
      "eval_steps_per_second": 0.307,
      "step": 11000
    },
    {
      "epoch": 3.3,
      "learning_rate": 2.369914853358562e-06,
      "loss": 0.0064,
      "step": 11010
    },
    {
      "epoch": 3.3,
      "learning_rate": 2.367286870598129e-06,
      "loss": 0.0013,
      "step": 11020
    },
    {
      "epoch": 3.3,
      "learning_rate": 2.364658887837696e-06,
      "loss": 0.0023,
      "step": 11030
    },
    {
      "epoch": 3.31,
      "learning_rate": 2.362030905077263e-06,
      "loss": 0.0007,
      "step": 11040
    },
    {
      "epoch": 3.31,
      "learning_rate": 2.3594029223168297e-06,
      "loss": 0.0015,
      "step": 11050
    },
    {
      "epoch": 3.31,
      "learning_rate": 2.3567749395563967e-06,
      "loss": 0.0067,
      "step": 11060
    },
    {
      "epoch": 3.32,
      "learning_rate": 2.3541469567959633e-06,
      "loss": 0.0012,
      "step": 11070
    },
    {
      "epoch": 3.32,
      "learning_rate": 2.3515189740355303e-06,
      "loss": 0.0023,
      "step": 11080
    },
    {
      "epoch": 3.32,
      "learning_rate": 2.3488909912750974e-06,
      "loss": 0.0013,
      "step": 11090
    },
    {
      "epoch": 3.33,
      "learning_rate": 2.3462630085146644e-06,
      "loss": 0.0011,
      "step": 11100
    },
    {
      "epoch": 3.33,
      "learning_rate": 2.3436350257542314e-06,
      "loss": 0.0182,
      "step": 11110
    },
    {
      "epoch": 3.33,
      "learning_rate": 2.341007042993798e-06,
      "loss": 0.001,
      "step": 11120
    },
    {
      "epoch": 3.33,
      "learning_rate": 2.338379060233365e-06,
      "loss": 0.0009,
      "step": 11130
    },
    {
      "epoch": 3.34,
      "learning_rate": 2.335751077472932e-06,
      "loss": 0.0285,
      "step": 11140
    },
    {
      "epoch": 3.34,
      "learning_rate": 2.333123094712499e-06,
      "loss": 0.0043,
      "step": 11150
    },
    {
      "epoch": 3.34,
      "learning_rate": 2.330495111952066e-06,
      "loss": 0.0118,
      "step": 11160
    },
    {
      "epoch": 3.35,
      "learning_rate": 2.3278671291916326e-06,
      "loss": 0.0015,
      "step": 11170
    },
    {
      "epoch": 3.35,
      "learning_rate": 2.3252391464311996e-06,
      "loss": 0.0293,
      "step": 11180
    },
    {
      "epoch": 3.35,
      "learning_rate": 2.3226111636707666e-06,
      "loss": 0.001,
      "step": 11190
    },
    {
      "epoch": 3.36,
      "learning_rate": 2.3199831809103336e-06,
      "loss": 0.0022,
      "step": 11200
    },
    {
      "epoch": 3.36,
      "eval_f1": 0.9914373770145668,
      "eval_f1_0": 0.9972778102568689,
      "eval_f1_1": 0.9984624468949863,
      "eval_f1_2": 0.970906156427191,
      "eval_f1_3": 0.9991030944792206,
      "eval_loss": 0.01650741696357727,
      "eval_runtime": 153.0993,
      "eval_samples_per_second": 77.518,
      "eval_steps_per_second": 0.307,
      "step": 11200
    },
    {
      "epoch": 3.36,
      "learning_rate": 2.3173551981499e-06,
      "loss": 0.0013,
      "step": 11210
    },
    {
      "epoch": 3.36,
      "learning_rate": 2.3147272153894672e-06,
      "loss": 0.0033,
      "step": 11220
    },
    {
      "epoch": 3.36,
      "learning_rate": 2.3120992326290342e-06,
      "loss": 0.0012,
      "step": 11230
    },
    {
      "epoch": 3.37,
      "learning_rate": 2.3094712498686012e-06,
      "loss": 0.0297,
      "step": 11240
    },
    {
      "epoch": 3.37,
      "learning_rate": 2.3068432671081682e-06,
      "loss": 0.0014,
      "step": 11250
    },
    {
      "epoch": 3.37,
      "learning_rate": 2.304215284347735e-06,
      "loss": 0.0018,
      "step": 11260
    },
    {
      "epoch": 3.38,
      "learning_rate": 2.301587301587302e-06,
      "loss": 0.0016,
      "step": 11270
    },
    {
      "epoch": 3.38,
      "learning_rate": 2.2989593188268684e-06,
      "loss": 0.0016,
      "step": 11280
    },
    {
      "epoch": 3.38,
      "learning_rate": 2.2963313360664354e-06,
      "loss": 0.0016,
      "step": 11290
    },
    {
      "epoch": 3.39,
      "learning_rate": 2.2937033533060024e-06,
      "loss": 0.0018,
      "step": 11300
    },
    {
      "epoch": 3.39,
      "learning_rate": 2.2910753705455695e-06,
      "loss": 0.0021,
      "step": 11310
    },
    {
      "epoch": 3.39,
      "learning_rate": 2.288447387785136e-06,
      "loss": 0.0009,
      "step": 11320
    },
    {
      "epoch": 3.39,
      "learning_rate": 2.285819405024703e-06,
      "loss": 0.0018,
      "step": 11330
    },
    {
      "epoch": 3.4,
      "learning_rate": 2.28319142226427e-06,
      "loss": 0.0019,
      "step": 11340
    },
    {
      "epoch": 3.4,
      "learning_rate": 2.280563439503837e-06,
      "loss": 0.0028,
      "step": 11350
    },
    {
      "epoch": 3.4,
      "learning_rate": 2.277935456743404e-06,
      "loss": 0.0011,
      "step": 11360
    },
    {
      "epoch": 3.41,
      "learning_rate": 2.2753074739829707e-06,
      "loss": 0.0013,
      "step": 11370
    },
    {
      "epoch": 3.41,
      "learning_rate": 2.2726794912225377e-06,
      "loss": 0.0011,
      "step": 11380
    },
    {
      "epoch": 3.41,
      "learning_rate": 2.2700515084621047e-06,
      "loss": 0.0011,
      "step": 11390
    },
    {
      "epoch": 3.42,
      "learning_rate": 2.2674235257016717e-06,
      "loss": 0.0154,
      "step": 11400
    },
    {
      "epoch": 3.42,
      "eval_f1": 0.9942353190983868,
      "eval_f1_0": 0.99818227671564,
      "eval_f1_1": 0.9985109494086917,
      "eval_f1_2": 0.9811046238507483,
      "eval_f1_3": 0.9991434264184672,
      "eval_loss": 0.014985567890107632,
      "eval_runtime": 153.1706,
      "eval_samples_per_second": 77.482,
      "eval_steps_per_second": 0.307,
      "step": 11400
    },
    {
      "epoch": 3.42,
      "learning_rate": 2.2647955429412387e-06,
      "loss": 0.0024,
      "step": 11410
    },
    {
      "epoch": 3.42,
      "learning_rate": 2.2621675601808053e-06,
      "loss": 0.0044,
      "step": 11420
    },
    {
      "epoch": 3.42,
      "learning_rate": 2.2595395774203723e-06,
      "loss": 0.0015,
      "step": 11430
    },
    {
      "epoch": 3.43,
      "learning_rate": 2.2569115946599393e-06,
      "loss": 0.0037,
      "step": 11440
    },
    {
      "epoch": 3.43,
      "learning_rate": 2.2542836118995063e-06,
      "loss": 0.0011,
      "step": 11450
    },
    {
      "epoch": 3.43,
      "learning_rate": 2.2516556291390733e-06,
      "loss": 0.0012,
      "step": 11460
    },
    {
      "epoch": 3.44,
      "learning_rate": 2.24902764637864e-06,
      "loss": 0.02,
      "step": 11470
    },
    {
      "epoch": 3.44,
      "learning_rate": 2.2463996636182065e-06,
      "loss": 0.0013,
      "step": 11480
    },
    {
      "epoch": 3.44,
      "learning_rate": 2.2437716808577735e-06,
      "loss": 0.0015,
      "step": 11490
    },
    {
      "epoch": 3.45,
      "learning_rate": 2.2411436980973405e-06,
      "loss": 0.001,
      "step": 11500
    },
    {
      "epoch": 3.45,
      "learning_rate": 2.2385157153369075e-06,
      "loss": 0.0103,
      "step": 11510
    },
    {
      "epoch": 3.45,
      "learning_rate": 2.2358877325764746e-06,
      "loss": 0.0284,
      "step": 11520
    },
    {
      "epoch": 3.45,
      "learning_rate": 2.233259749816041e-06,
      "loss": 0.0025,
      "step": 11530
    },
    {
      "epoch": 3.46,
      "learning_rate": 2.230631767055608e-06,
      "loss": 0.0209,
      "step": 11540
    },
    {
      "epoch": 3.46,
      "learning_rate": 2.228003784295175e-06,
      "loss": 0.0026,
      "step": 11550
    },
    {
      "epoch": 3.46,
      "learning_rate": 2.225375801534742e-06,
      "loss": 0.0016,
      "step": 11560
    },
    {
      "epoch": 3.47,
      "learning_rate": 2.222747818774309e-06,
      "loss": 0.0078,
      "step": 11570
    },
    {
      "epoch": 3.47,
      "learning_rate": 2.2201198360138758e-06,
      "loss": 0.0029,
      "step": 11580
    },
    {
      "epoch": 3.47,
      "learning_rate": 2.2174918532534428e-06,
      "loss": 0.0013,
      "step": 11590
    },
    {
      "epoch": 3.48,
      "learning_rate": 2.2148638704930098e-06,
      "loss": 0.002,
      "step": 11600
    },
    {
      "epoch": 3.48,
      "eval_f1": 0.9936369783837441,
      "eval_f1_0": 0.9979922839545181,
      "eval_f1_1": 0.9986300923681776,
      "eval_f1_2": 0.9788378440452727,
      "eval_f1_3": 0.999087693167008,
      "eval_loss": 0.013910142704844475,
      "eval_runtime": 153.1364,
      "eval_samples_per_second": 77.5,
      "eval_steps_per_second": 0.307,
      "step": 11600
    },
    {
      "epoch": 3.48,
      "learning_rate": 2.212235887732577e-06,
      "loss": 0.0008,
      "step": 11610
    },
    {
      "epoch": 3.48,
      "learning_rate": 2.209607904972144e-06,
      "loss": 0.0032,
      "step": 11620
    },
    {
      "epoch": 3.48,
      "learning_rate": 2.2069799222117104e-06,
      "loss": 0.004,
      "step": 11630
    },
    {
      "epoch": 3.49,
      "learning_rate": 2.2043519394512774e-06,
      "loss": 0.0033,
      "step": 11640
    },
    {
      "epoch": 3.49,
      "learning_rate": 2.2017239566908444e-06,
      "loss": 0.0008,
      "step": 11650
    },
    {
      "epoch": 3.49,
      "learning_rate": 2.1990959739304114e-06,
      "loss": 0.0032,
      "step": 11660
    },
    {
      "epoch": 3.5,
      "learning_rate": 2.196467991169978e-06,
      "loss": 0.0011,
      "step": 11670
    },
    {
      "epoch": 3.5,
      "learning_rate": 2.193840008409545e-06,
      "loss": 0.0005,
      "step": 11680
    },
    {
      "epoch": 3.5,
      "learning_rate": 2.1912120256491116e-06,
      "loss": 0.0127,
      "step": 11690
    },
    {
      "epoch": 3.51,
      "learning_rate": 2.1885840428886786e-06,
      "loss": 0.0018,
      "step": 11700
    },
    {
      "epoch": 3.51,
      "learning_rate": 2.1859560601282456e-06,
      "loss": 0.0015,
      "step": 11710
    },
    {
      "epoch": 3.51,
      "learning_rate": 2.1833280773678126e-06,
      "loss": 0.0021,
      "step": 11720
    },
    {
      "epoch": 3.51,
      "learning_rate": 2.1807000946073796e-06,
      "loss": 0.0146,
      "step": 11730
    },
    {
      "epoch": 3.52,
      "learning_rate": 2.1780721118469462e-06,
      "loss": 0.0041,
      "step": 11740
    },
    {
      "epoch": 3.52,
      "learning_rate": 2.1754441290865132e-06,
      "loss": 0.0011,
      "step": 11750
    },
    {
      "epoch": 3.52,
      "learning_rate": 2.1728161463260803e-06,
      "loss": 0.0035,
      "step": 11760
    },
    {
      "epoch": 3.53,
      "learning_rate": 2.1701881635656473e-06,
      "loss": 0.0029,
      "step": 11770
    },
    {
      "epoch": 3.53,
      "learning_rate": 2.1675601808052143e-06,
      "loss": 0.005,
      "step": 11780
    },
    {
      "epoch": 3.53,
      "learning_rate": 2.164932198044781e-06,
      "loss": 0.0064,
      "step": 11790
    },
    {
      "epoch": 3.54,
      "learning_rate": 2.162304215284348e-06,
      "loss": 0.0013,
      "step": 11800
    },
    {
      "epoch": 3.54,
      "eval_f1": 0.9910180791472074,
      "eval_f1_0": 0.9971343488734166,
      "eval_f1_1": 0.9984950182227411,
      "eval_f1_2": 0.9694358194453245,
      "eval_f1_3": 0.9990071300473475,
      "eval_loss": 0.02113513834774494,
      "eval_runtime": 153.0763,
      "eval_samples_per_second": 77.53,
      "eval_steps_per_second": 0.307,
      "step": 11800
    },
    {
      "epoch": 3.54,
      "learning_rate": 2.159676232523915e-06,
      "loss": 0.0014,
      "step": 11810
    },
    {
      "epoch": 3.54,
      "learning_rate": 2.157048249763482e-06,
      "loss": 0.0009,
      "step": 11820
    },
    {
      "epoch": 3.54,
      "learning_rate": 2.1544202670030485e-06,
      "loss": 0.0016,
      "step": 11830
    },
    {
      "epoch": 3.55,
      "learning_rate": 2.1517922842426155e-06,
      "loss": 0.0007,
      "step": 11840
    },
    {
      "epoch": 3.55,
      "learning_rate": 2.1491643014821825e-06,
      "loss": 0.001,
      "step": 11850
    },
    {
      "epoch": 3.55,
      "learning_rate": 2.1465363187217495e-06,
      "loss": 0.0012,
      "step": 11860
    },
    {
      "epoch": 3.56,
      "learning_rate": 2.1439083359613165e-06,
      "loss": 0.0021,
      "step": 11870
    },
    {
      "epoch": 3.56,
      "learning_rate": 2.141280353200883e-06,
      "loss": 0.0012,
      "step": 11880
    },
    {
      "epoch": 3.56,
      "learning_rate": 2.13865237044045e-06,
      "loss": 0.0014,
      "step": 11890
    },
    {
      "epoch": 3.57,
      "learning_rate": 2.136024387680017e-06,
      "loss": 0.0007,
      "step": 11900
    },
    {
      "epoch": 3.57,
      "learning_rate": 2.1333964049195837e-06,
      "loss": 0.0016,
      "step": 11910
    },
    {
      "epoch": 3.57,
      "learning_rate": 2.1307684221591507e-06,
      "loss": 0.0158,
      "step": 11920
    },
    {
      "epoch": 3.57,
      "learning_rate": 2.1281404393987177e-06,
      "loss": 0.0011,
      "step": 11930
    },
    {
      "epoch": 3.58,
      "learning_rate": 2.1255124566382847e-06,
      "loss": 0.0009,
      "step": 11940
    },
    {
      "epoch": 3.58,
      "learning_rate": 2.1228844738778513e-06,
      "loss": 0.0063,
      "step": 11950
    },
    {
      "epoch": 3.58,
      "learning_rate": 2.1202564911174183e-06,
      "loss": 0.0009,
      "step": 11960
    },
    {
      "epoch": 3.59,
      "learning_rate": 2.1176285083569853e-06,
      "loss": 0.0011,
      "step": 11970
    },
    {
      "epoch": 3.59,
      "learning_rate": 2.1150005255965524e-06,
      "loss": 0.0053,
      "step": 11980
    },
    {
      "epoch": 3.59,
      "learning_rate": 2.112372542836119e-06,
      "loss": 0.0019,
      "step": 11990
    },
    {
      "epoch": 3.59,
      "learning_rate": 2.109744560075686e-06,
      "loss": 0.001,
      "step": 12000
    },
    {
      "epoch": 3.59,
      "eval_f1": 0.9951547260785085,
      "eval_f1_0": 0.9984885632168076,
      "eval_f1_1": 0.9985354333123745,
      "eval_f1_2": 0.9845073845073845,
      "eval_f1_3": 0.9990875232774674,
      "eval_loss": 0.014154409058392048,
      "eval_runtime": 153.1047,
      "eval_samples_per_second": 77.516,
      "eval_steps_per_second": 0.307,
      "step": 12000
    },
    {
      "epoch": 3.6,
      "learning_rate": 2.107116577315253e-06,
      "loss": 0.0035,
      "step": 12010
    },
    {
      "epoch": 3.6,
      "learning_rate": 2.10448859455482e-06,
      "loss": 0.0013,
      "step": 12020
    },
    {
      "epoch": 3.6,
      "learning_rate": 2.101860611794387e-06,
      "loss": 0.0014,
      "step": 12030
    },
    {
      "epoch": 3.61,
      "learning_rate": 2.0992326290339536e-06,
      "loss": 0.0015,
      "step": 12040
    },
    {
      "epoch": 3.61,
      "learning_rate": 2.0966046462735206e-06,
      "loss": 0.001,
      "step": 12050
    },
    {
      "epoch": 3.61,
      "learning_rate": 2.0939766635130876e-06,
      "loss": 0.0011,
      "step": 12060
    },
    {
      "epoch": 3.62,
      "learning_rate": 2.0913486807526546e-06,
      "loss": 0.0017,
      "step": 12070
    },
    {
      "epoch": 3.62,
      "learning_rate": 2.0887206979922216e-06,
      "loss": 0.0007,
      "step": 12080
    },
    {
      "epoch": 3.62,
      "learning_rate": 2.086092715231788e-06,
      "loss": 0.0005,
      "step": 12090
    },
    {
      "epoch": 3.62,
      "learning_rate": 2.083464732471355e-06,
      "loss": 0.0015,
      "step": 12100
    },
    {
      "epoch": 3.63,
      "learning_rate": 2.0808367497109222e-06,
      "loss": 0.002,
      "step": 12110
    },
    {
      "epoch": 3.63,
      "learning_rate": 2.078208766950489e-06,
      "loss": 0.0021,
      "step": 12120
    },
    {
      "epoch": 3.63,
      "learning_rate": 2.075580784190056e-06,
      "loss": 0.0148,
      "step": 12130
    },
    {
      "epoch": 3.64,
      "learning_rate": 2.072952801429623e-06,
      "loss": 0.0014,
      "step": 12140
    },
    {
      "epoch": 3.64,
      "learning_rate": 2.0703248186691894e-06,
      "loss": 0.0024,
      "step": 12150
    },
    {
      "epoch": 3.64,
      "learning_rate": 2.0676968359087564e-06,
      "loss": 0.0016,
      "step": 12160
    },
    {
      "epoch": 3.65,
      "learning_rate": 2.0650688531483234e-06,
      "loss": 0.0008,
      "step": 12170
    },
    {
      "epoch": 3.65,
      "learning_rate": 2.0624408703878904e-06,
      "loss": 0.0007,
      "step": 12180
    },
    {
      "epoch": 3.65,
      "learning_rate": 2.0598128876274575e-06,
      "loss": 0.0024,
      "step": 12190
    },
    {
      "epoch": 3.65,
      "learning_rate": 2.057184904867024e-06,
      "loss": 0.0046,
      "step": 12200
    },
    {
      "epoch": 3.65,
      "eval_f1": 0.9947026226164652,
      "eval_f1_0": 0.9983469571822656,
      "eval_f1_1": 0.9985123555010257,
      "eval_f1_2": 0.982838841736585,
      "eval_f1_3": 0.9991123360459847,
      "eval_loss": 0.01602787896990776,
      "eval_runtime": 152.9981,
      "eval_samples_per_second": 77.57,
      "eval_steps_per_second": 0.307,
      "step": 12200
    },
    {
      "epoch": 3.66,
      "learning_rate": 2.054556922106591e-06,
      "loss": 0.0017,
      "step": 12210
    },
    {
      "epoch": 3.66,
      "learning_rate": 2.051928939346158e-06,
      "loss": 0.0024,
      "step": 12220
    },
    {
      "epoch": 3.66,
      "learning_rate": 2.049300956585725e-06,
      "loss": 0.0006,
      "step": 12230
    },
    {
      "epoch": 3.67,
      "learning_rate": 2.046672973825292e-06,
      "loss": 0.0019,
      "step": 12240
    },
    {
      "epoch": 3.67,
      "learning_rate": 2.0440449910648587e-06,
      "loss": 0.0192,
      "step": 12250
    },
    {
      "epoch": 3.67,
      "learning_rate": 2.0414170083044257e-06,
      "loss": 0.0194,
      "step": 12260
    },
    {
      "epoch": 3.68,
      "learning_rate": 2.0387890255439927e-06,
      "loss": 0.0143,
      "step": 12270
    },
    {
      "epoch": 3.68,
      "learning_rate": 2.0361610427835597e-06,
      "loss": 0.002,
      "step": 12280
    },
    {
      "epoch": 3.68,
      "learning_rate": 2.0335330600231267e-06,
      "loss": 0.0352,
      "step": 12290
    },
    {
      "epoch": 3.68,
      "learning_rate": 2.0309050772626933e-06,
      "loss": 0.0009,
      "step": 12300
    },
    {
      "epoch": 3.69,
      "learning_rate": 2.0282770945022603e-06,
      "loss": 0.0012,
      "step": 12310
    },
    {
      "epoch": 3.69,
      "learning_rate": 2.0256491117418273e-06,
      "loss": 0.0063,
      "step": 12320
    },
    {
      "epoch": 3.69,
      "learning_rate": 2.023021128981394e-06,
      "loss": 0.0013,
      "step": 12330
    },
    {
      "epoch": 3.7,
      "learning_rate": 2.020393146220961e-06,
      "loss": 0.0011,
      "step": 12340
    },
    {
      "epoch": 3.7,
      "learning_rate": 2.017765163460528e-06,
      "loss": 0.0009,
      "step": 12350
    },
    {
      "epoch": 3.7,
      "learning_rate": 2.0151371807000945e-06,
      "loss": 0.0014,
      "step": 12360
    },
    {
      "epoch": 3.71,
      "learning_rate": 2.0125091979396615e-06,
      "loss": 0.0082,
      "step": 12370
    },
    {
      "epoch": 3.71,
      "learning_rate": 2.0098812151792285e-06,
      "loss": 0.0012,
      "step": 12380
    },
    {
      "epoch": 3.71,
      "learning_rate": 2.0072532324187955e-06,
      "loss": 0.0027,
      "step": 12390
    },
    {
      "epoch": 3.71,
      "learning_rate": 2.0046252496583625e-06,
      "loss": 0.0009,
      "step": 12400
    },
    {
      "epoch": 3.71,
      "eval_f1": 0.9938454734895156,
      "eval_f1_0": 0.998058144492058,
      "eval_f1_1": 0.9984700978907289,
      "eval_f1_2": 0.9797009434999316,
      "eval_f1_3": 0.9991527080753438,
      "eval_loss": 0.013563607819378376,
      "eval_runtime": 153.2157,
      "eval_samples_per_second": 77.459,
      "eval_steps_per_second": 0.307,
      "step": 12400
    },
    {
      "epoch": 3.72,
      "learning_rate": 2.001997266897929e-06,
      "loss": 0.0016,
      "step": 12410
    },
    {
      "epoch": 3.72,
      "learning_rate": 1.999369284137496e-06,
      "loss": 0.0025,
      "step": 12420
    },
    {
      "epoch": 3.72,
      "learning_rate": 1.996741301377063e-06,
      "loss": 0.0007,
      "step": 12430
    },
    {
      "epoch": 3.73,
      "learning_rate": 1.99411331861663e-06,
      "loss": 0.0009,
      "step": 12440
    },
    {
      "epoch": 3.73,
      "learning_rate": 1.991485335856197e-06,
      "loss": 0.0067,
      "step": 12450
    },
    {
      "epoch": 3.73,
      "learning_rate": 1.9888573530957638e-06,
      "loss": 0.0032,
      "step": 12460
    },
    {
      "epoch": 3.74,
      "learning_rate": 1.9862293703353308e-06,
      "loss": 0.0011,
      "step": 12470
    },
    {
      "epoch": 3.74,
      "learning_rate": 1.9836013875748978e-06,
      "loss": 0.0014,
      "step": 12480
    },
    {
      "epoch": 3.74,
      "learning_rate": 1.980973404814465e-06,
      "loss": 0.0016,
      "step": 12490
    },
    {
      "epoch": 3.74,
      "learning_rate": 1.9783454220540314e-06,
      "loss": 0.0009,
      "step": 12500
    },
    {
      "epoch": 3.75,
      "learning_rate": 1.9757174392935984e-06,
      "loss": 0.0009,
      "step": 12510
    },
    {
      "epoch": 3.75,
      "learning_rate": 1.9730894565331654e-06,
      "loss": 0.0021,
      "step": 12520
    },
    {
      "epoch": 3.75,
      "learning_rate": 1.9704614737727324e-06,
      "loss": 0.0012,
      "step": 12530
    },
    {
      "epoch": 3.76,
      "learning_rate": 1.9678334910122994e-06,
      "loss": 0.0232,
      "step": 12540
    },
    {
      "epoch": 3.76,
      "learning_rate": 1.965205508251866e-06,
      "loss": 0.0014,
      "step": 12550
    },
    {
      "epoch": 3.76,
      "learning_rate": 1.962577525491433e-06,
      "loss": 0.0013,
      "step": 12560
    },
    {
      "epoch": 3.77,
      "learning_rate": 1.9599495427309996e-06,
      "loss": 0.0026,
      "step": 12570
    },
    {
      "epoch": 3.77,
      "learning_rate": 1.9573215599705666e-06,
      "loss": 0.0011,
      "step": 12580
    },
    {
      "epoch": 3.77,
      "learning_rate": 1.9546935772101336e-06,
      "loss": 0.001,
      "step": 12590
    },
    {
      "epoch": 3.77,
      "learning_rate": 1.9520655944497006e-06,
      "loss": 0.0033,
      "step": 12600
    },
    {
      "epoch": 3.77,
      "eval_f1": 0.9941136426031095,
      "eval_f1_0": 0.9981520899343792,
      "eval_f1_1": 0.998633683439975,
      "eval_f1_2": 0.9805408368353736,
      "eval_f1_3": 0.9991279602027104,
      "eval_loss": 0.014793042093515396,
      "eval_runtime": 153.1084,
      "eval_samples_per_second": 77.514,
      "eval_steps_per_second": 0.307,
      "step": 12600
    },
    {
      "epoch": 3.78,
      "learning_rate": 1.9494376116892672e-06,
      "loss": 0.0013,
      "step": 12610
    },
    {
      "epoch": 3.78,
      "learning_rate": 1.9468096289288342e-06,
      "loss": 0.0062,
      "step": 12620
    },
    {
      "epoch": 3.78,
      "learning_rate": 1.9441816461684012e-06,
      "loss": 0.001,
      "step": 12630
    },
    {
      "epoch": 3.79,
      "learning_rate": 1.9415536634079682e-06,
      "loss": 0.0013,
      "step": 12640
    },
    {
      "epoch": 3.79,
      "learning_rate": 1.9389256806475353e-06,
      "loss": 0.001,
      "step": 12650
    },
    {
      "epoch": 3.79,
      "learning_rate": 1.936297697887102e-06,
      "loss": 0.0013,
      "step": 12660
    },
    {
      "epoch": 3.8,
      "learning_rate": 1.933669715126669e-06,
      "loss": 0.0013,
      "step": 12670
    },
    {
      "epoch": 3.8,
      "learning_rate": 1.931041732366236e-06,
      "loss": 0.0009,
      "step": 12680
    },
    {
      "epoch": 3.8,
      "learning_rate": 1.928413749605803e-06,
      "loss": 0.0012,
      "step": 12690
    },
    {
      "epoch": 3.8,
      "learning_rate": 1.92578576684537e-06,
      "loss": 0.0016,
      "step": 12700
    },
    {
      "epoch": 3.81,
      "learning_rate": 1.9231577840849365e-06,
      "loss": 0.0013,
      "step": 12710
    },
    {
      "epoch": 3.81,
      "learning_rate": 1.9205298013245035e-06,
      "loss": 0.0018,
      "step": 12720
    },
    {
      "epoch": 3.81,
      "learning_rate": 1.9179018185640705e-06,
      "loss": 0.0036,
      "step": 12730
    },
    {
      "epoch": 3.82,
      "learning_rate": 1.9152738358036375e-06,
      "loss": 0.0012,
      "step": 12740
    },
    {
      "epoch": 3.82,
      "learning_rate": 1.9126458530432045e-06,
      "loss": 0.001,
      "step": 12750
    },
    {
      "epoch": 3.82,
      "learning_rate": 1.910017870282771e-06,
      "loss": 0.0017,
      "step": 12760
    },
    {
      "epoch": 3.83,
      "learning_rate": 1.9073898875223377e-06,
      "loss": 0.0011,
      "step": 12770
    },
    {
      "epoch": 3.83,
      "learning_rate": 1.904761904761905e-06,
      "loss": 0.0017,
      "step": 12780
    },
    {
      "epoch": 3.83,
      "learning_rate": 1.9021339220014717e-06,
      "loss": 0.005,
      "step": 12790
    },
    {
      "epoch": 3.83,
      "learning_rate": 1.8995059392410387e-06,
      "loss": 0.0008,
      "step": 12800
    },
    {
      "epoch": 3.83,
      "eval_f1": 0.9919555603950767,
      "eval_f1_0": 0.9974524093844568,
      "eval_f1_1": 0.9984359006796931,
      "eval_f1_2": 0.9728773804426739,
      "eval_f1_3": 0.9990565510734835,
      "eval_loss": 0.01904941350221634,
      "eval_runtime": 153.2291,
      "eval_samples_per_second": 77.453,
      "eval_steps_per_second": 0.307,
      "step": 12800
    },
    {
      "epoch": 3.84,
      "learning_rate": 1.8968779564806055e-06,
      "loss": 0.0015,
      "step": 12810
    },
    {
      "epoch": 3.84,
      "learning_rate": 1.8942499737201725e-06,
      "loss": 0.0008,
      "step": 12820
    },
    {
      "epoch": 3.84,
      "learning_rate": 1.8916219909597393e-06,
      "loss": 0.0012,
      "step": 12830
    },
    {
      "epoch": 3.85,
      "learning_rate": 1.8889940081993063e-06,
      "loss": 0.002,
      "step": 12840
    },
    {
      "epoch": 3.85,
      "learning_rate": 1.8863660254388733e-06,
      "loss": 0.001,
      "step": 12850
    },
    {
      "epoch": 3.85,
      "learning_rate": 1.8837380426784401e-06,
      "loss": 0.0008,
      "step": 12860
    },
    {
      "epoch": 3.86,
      "learning_rate": 1.8811100599180072e-06,
      "loss": 0.0014,
      "step": 12870
    },
    {
      "epoch": 3.86,
      "learning_rate": 1.878482077157574e-06,
      "loss": 0.0023,
      "step": 12880
    },
    {
      "epoch": 3.86,
      "learning_rate": 1.875854094397141e-06,
      "loss": 0.001,
      "step": 12890
    },
    {
      "epoch": 3.86,
      "learning_rate": 1.873226111636708e-06,
      "loss": 0.0041,
      "step": 12900
    },
    {
      "epoch": 3.87,
      "learning_rate": 1.8705981288762748e-06,
      "loss": 0.0006,
      "step": 12910
    },
    {
      "epoch": 3.87,
      "learning_rate": 1.8679701461158418e-06,
      "loss": 0.0024,
      "step": 12920
    },
    {
      "epoch": 3.87,
      "learning_rate": 1.8653421633554086e-06,
      "loss": 0.0061,
      "step": 12930
    },
    {
      "epoch": 3.88,
      "learning_rate": 1.8627141805949756e-06,
      "loss": 0.0009,
      "step": 12940
    },
    {
      "epoch": 3.88,
      "learning_rate": 1.8600861978345424e-06,
      "loss": 0.0292,
      "step": 12950
    },
    {
      "epoch": 3.88,
      "learning_rate": 1.8574582150741094e-06,
      "loss": 0.0009,
      "step": 12960
    },
    {
      "epoch": 3.89,
      "learning_rate": 1.854830232313676e-06,
      "loss": 0.0015,
      "step": 12970
    },
    {
      "epoch": 3.89,
      "learning_rate": 1.852202249553243e-06,
      "loss": 0.0015,
      "step": 12980
    },
    {
      "epoch": 3.89,
      "learning_rate": 1.8495742667928098e-06,
      "loss": 0.0031,
      "step": 12990
    },
    {
      "epoch": 3.89,
      "learning_rate": 1.8469462840323768e-06,
      "loss": 0.0013,
      "step": 13000
    },
    {
      "epoch": 3.89,
      "eval_f1": 0.993328578780528,
      "eval_f1_0": 0.9979199988261016,
      "eval_f1_1": 0.9979012876195154,
      "eval_f1_2": 0.9783837493533191,
      "eval_f1_3": 0.9991092793231764,
      "eval_loss": 0.021434780210256577,
      "eval_runtime": 153.1857,
      "eval_samples_per_second": 77.475,
      "eval_steps_per_second": 0.307,
      "step": 13000
    },
    {
      "epoch": 3.9,
      "learning_rate": 1.8443183012719438e-06,
      "loss": 0.0198,
      "step": 13010
    },
    {
      "epoch": 3.9,
      "learning_rate": 1.8416903185115106e-06,
      "loss": 0.0005,
      "step": 13020
    },
    {
      "epoch": 3.9,
      "learning_rate": 1.8390623357510776e-06,
      "loss": 0.0245,
      "step": 13030
    },
    {
      "epoch": 3.91,
      "learning_rate": 1.8364343529906444e-06,
      "loss": 0.0008,
      "step": 13040
    },
    {
      "epoch": 3.91,
      "learning_rate": 1.8338063702302114e-06,
      "loss": 0.0013,
      "step": 13050
    },
    {
      "epoch": 3.91,
      "learning_rate": 1.8311783874697782e-06,
      "loss": 0.0006,
      "step": 13060
    },
    {
      "epoch": 3.92,
      "learning_rate": 1.8285504047093452e-06,
      "loss": 0.0016,
      "step": 13070
    },
    {
      "epoch": 3.92,
      "learning_rate": 1.8259224219489122e-06,
      "loss": 0.0014,
      "step": 13080
    },
    {
      "epoch": 3.92,
      "learning_rate": 1.823294439188479e-06,
      "loss": 0.0021,
      "step": 13090
    },
    {
      "epoch": 3.92,
      "learning_rate": 1.820666456428046e-06,
      "loss": 0.0012,
      "step": 13100
    },
    {
      "epoch": 3.93,
      "learning_rate": 1.8180384736676129e-06,
      "loss": 0.0046,
      "step": 13110
    },
    {
      "epoch": 3.93,
      "learning_rate": 1.8154104909071799e-06,
      "loss": 0.0021,
      "step": 13120
    },
    {
      "epoch": 3.93,
      "learning_rate": 1.8127825081467469e-06,
      "loss": 0.0326,
      "step": 13130
    },
    {
      "epoch": 3.94,
      "learning_rate": 1.8101545253863137e-06,
      "loss": 0.0019,
      "step": 13140
    },
    {
      "epoch": 3.94,
      "learning_rate": 1.8075265426258807e-06,
      "loss": 0.0013,
      "step": 13150
    },
    {
      "epoch": 3.94,
      "learning_rate": 1.8048985598654475e-06,
      "loss": 0.0024,
      "step": 13160
    },
    {
      "epoch": 3.95,
      "learning_rate": 1.8022705771050145e-06,
      "loss": 0.0014,
      "step": 13170
    },
    {
      "epoch": 3.95,
      "learning_rate": 1.7996425943445813e-06,
      "loss": 0.0111,
      "step": 13180
    },
    {
      "epoch": 3.95,
      "learning_rate": 1.797014611584148e-06,
      "loss": 0.0015,
      "step": 13190
    },
    {
      "epoch": 3.95,
      "learning_rate": 1.7943866288237149e-06,
      "loss": 0.0012,
      "step": 13200
    },
    {
      "epoch": 3.95,
      "eval_f1": 0.9831277397299376,
      "eval_f1_0": 0.9944236829249278,
      "eval_f1_1": 0.9980741417078757,
      "eval_f1_2": 0.9409410688411816,
      "eval_f1_3": 0.9990720654457654,
      "eval_loss": 0.045238446444272995,
      "eval_runtime": 153.1564,
      "eval_samples_per_second": 77.489,
      "eval_steps_per_second": 0.307,
      "step": 13200
    },
    {
      "epoch": 3.96,
      "learning_rate": 1.791758646063282e-06,
      "loss": 0.0021,
      "step": 13210
    },
    {
      "epoch": 3.96,
      "learning_rate": 1.7891306633028487e-06,
      "loss": 0.0011,
      "step": 13220
    },
    {
      "epoch": 3.96,
      "learning_rate": 1.7865026805424157e-06,
      "loss": 0.001,
      "step": 13230
    },
    {
      "epoch": 3.97,
      "learning_rate": 1.7838746977819827e-06,
      "loss": 0.001,
      "step": 13240
    },
    {
      "epoch": 3.97,
      "learning_rate": 1.7812467150215495e-06,
      "loss": 0.001,
      "step": 13250
    },
    {
      "epoch": 3.97,
      "learning_rate": 1.7786187322611165e-06,
      "loss": 0.0146,
      "step": 13260
    },
    {
      "epoch": 3.98,
      "learning_rate": 1.7759907495006833e-06,
      "loss": 0.0006,
      "step": 13270
    },
    {
      "epoch": 3.98,
      "learning_rate": 1.7733627667402503e-06,
      "loss": 0.0009,
      "step": 13280
    },
    {
      "epoch": 3.98,
      "learning_rate": 1.7707347839798173e-06,
      "loss": 0.0034,
      "step": 13290
    },
    {
      "epoch": 3.98,
      "learning_rate": 1.7681068012193841e-06,
      "loss": 0.0012,
      "step": 13300
    },
    {
      "epoch": 3.99,
      "learning_rate": 1.7654788184589511e-06,
      "loss": 0.0018,
      "step": 13310
    },
    {
      "epoch": 3.99,
      "learning_rate": 1.762850835698518e-06,
      "loss": 0.0009,
      "step": 13320
    },
    {
      "epoch": 3.99,
      "learning_rate": 1.760222852938085e-06,
      "loss": 0.0011,
      "step": 13330
    },
    {
      "epoch": 4.0,
      "learning_rate": 1.7575948701776518e-06,
      "loss": 0.0022,
      "step": 13340
    },
    {
      "epoch": 4.0,
      "learning_rate": 1.7549668874172188e-06,
      "loss": 0.0008,
      "step": 13350
    },
    {
      "epoch": 4.0,
      "learning_rate": 1.7523389046567858e-06,
      "loss": 0.0058,
      "step": 13360
    },
    {
      "epoch": 4.01,
      "learning_rate": 1.7497109218963526e-06,
      "loss": 0.0009,
      "step": 13370
    },
    {
      "epoch": 4.01,
      "learning_rate": 1.7470829391359196e-06,
      "loss": 0.0013,
      "step": 13380
    },
    {
      "epoch": 4.01,
      "learning_rate": 1.7444549563754864e-06,
      "loss": 0.0013,
      "step": 13390
    },
    {
      "epoch": 4.01,
      "learning_rate": 1.7418269736150532e-06,
      "loss": 0.0006,
      "step": 13400
    },
    {
      "epoch": 4.01,
      "eval_f1": 0.9917532185890476,
      "eval_f1_0": 0.9973856942651312,
      "eval_f1_1": 0.9988251145657044,
      "eval_f1_2": 0.9716896523443804,
      "eval_f1_3": 0.9991124131809747,
      "eval_loss": 0.02197587490081787,
      "eval_runtime": 153.1159,
      "eval_samples_per_second": 77.51,
      "eval_steps_per_second": 0.307,
      "step": 13400
    },
    {
      "epoch": 4.02,
      "learning_rate": 1.73919899085462e-06,
      "loss": 0.0007,
      "step": 13410
    },
    {
      "epoch": 4.02,
      "learning_rate": 1.736571008094187e-06,
      "loss": 0.0013,
      "step": 13420
    },
    {
      "epoch": 4.02,
      "learning_rate": 1.7339430253337538e-06,
      "loss": 0.0015,
      "step": 13430
    },
    {
      "epoch": 4.03,
      "learning_rate": 1.7313150425733208e-06,
      "loss": 0.001,
      "step": 13440
    },
    {
      "epoch": 4.03,
      "learning_rate": 1.7286870598128878e-06,
      "loss": 0.0006,
      "step": 13450
    },
    {
      "epoch": 4.03,
      "learning_rate": 1.7260590770524546e-06,
      "loss": 0.0008,
      "step": 13460
    },
    {
      "epoch": 4.04,
      "learning_rate": 1.7234310942920216e-06,
      "loss": 0.0009,
      "step": 13470
    },
    {
      "epoch": 4.04,
      "learning_rate": 1.7208031115315884e-06,
      "loss": 0.0031,
      "step": 13480
    },
    {
      "epoch": 4.04,
      "learning_rate": 1.7181751287711554e-06,
      "loss": 0.0007,
      "step": 13490
    },
    {
      "epoch": 4.04,
      "learning_rate": 1.7155471460107222e-06,
      "loss": 0.0014,
      "step": 13500
    },
    {
      "epoch": 4.05,
      "learning_rate": 1.7129191632502892e-06,
      "loss": 0.0008,
      "step": 13510
    },
    {
      "epoch": 4.05,
      "learning_rate": 1.7102911804898562e-06,
      "loss": 0.0011,
      "step": 13520
    },
    {
      "epoch": 4.05,
      "learning_rate": 1.707663197729423e-06,
      "loss": 0.0008,
      "step": 13530
    },
    {
      "epoch": 4.06,
      "learning_rate": 1.70503521496899e-06,
      "loss": 0.0113,
      "step": 13540
    },
    {
      "epoch": 4.06,
      "learning_rate": 1.7024072322085568e-06,
      "loss": 0.0024,
      "step": 13550
    },
    {
      "epoch": 4.06,
      "learning_rate": 1.6997792494481239e-06,
      "loss": 0.0042,
      "step": 13560
    },
    {
      "epoch": 4.07,
      "learning_rate": 1.6971512666876907e-06,
      "loss": 0.001,
      "step": 13570
    },
    {
      "epoch": 4.07,
      "learning_rate": 1.6945232839272577e-06,
      "loss": 0.0012,
      "step": 13580
    },
    {
      "epoch": 4.07,
      "learning_rate": 1.6918953011668247e-06,
      "loss": 0.0012,
      "step": 13590
    },
    {
      "epoch": 4.07,
      "learning_rate": 1.6892673184063915e-06,
      "loss": 0.0011,
      "step": 13600
    },
    {
      "epoch": 4.07,
      "eval_f1": 0.9945764341532917,
      "eval_f1_0": 0.9983035493624414,
      "eval_f1_1": 0.9986811939794972,
      "eval_f1_2": 0.982208602127454,
      "eval_f1_3": 0.999112391143774,
      "eval_loss": 0.013722382485866547,
      "eval_runtime": 153.2875,
      "eval_samples_per_second": 77.423,
      "eval_steps_per_second": 0.307,
      "step": 13600
    },
    {
      "epoch": 4.08,
      "learning_rate": 1.686639335645958e-06,
      "loss": 0.0021,
      "step": 13610
    },
    {
      "epoch": 4.08,
      "learning_rate": 1.684011352885525e-06,
      "loss": 0.0009,
      "step": 13620
    },
    {
      "epoch": 4.08,
      "learning_rate": 1.681383370125092e-06,
      "loss": 0.0019,
      "step": 13630
    },
    {
      "epoch": 4.09,
      "learning_rate": 1.6787553873646589e-06,
      "loss": 0.0009,
      "step": 13640
    },
    {
      "epoch": 4.09,
      "learning_rate": 1.6761274046042259e-06,
      "loss": 0.0013,
      "step": 13650
    },
    {
      "epoch": 4.09,
      "learning_rate": 1.6734994218437927e-06,
      "loss": 0.0009,
      "step": 13660
    },
    {
      "epoch": 4.1,
      "learning_rate": 1.6708714390833597e-06,
      "loss": 0.0011,
      "step": 13670
    },
    {
      "epoch": 4.1,
      "learning_rate": 1.6682434563229267e-06,
      "loss": 0.0012,
      "step": 13680
    },
    {
      "epoch": 4.1,
      "learning_rate": 1.6656154735624935e-06,
      "loss": 0.0128,
      "step": 13690
    },
    {
      "epoch": 4.1,
      "learning_rate": 1.6629874908020605e-06,
      "loss": 0.001,
      "step": 13700
    },
    {
      "epoch": 4.11,
      "learning_rate": 1.6603595080416273e-06,
      "loss": 0.0005,
      "step": 13710
    },
    {
      "epoch": 4.11,
      "learning_rate": 1.6577315252811943e-06,
      "loss": 0.0011,
      "step": 13720
    },
    {
      "epoch": 4.11,
      "learning_rate": 1.6551035425207611e-06,
      "loss": 0.0018,
      "step": 13730
    },
    {
      "epoch": 4.12,
      "learning_rate": 1.6524755597603281e-06,
      "loss": 0.0009,
      "step": 13740
    },
    {
      "epoch": 4.12,
      "learning_rate": 1.6498475769998951e-06,
      "loss": 0.0007,
      "step": 13750
    },
    {
      "epoch": 4.12,
      "learning_rate": 1.647219594239462e-06,
      "loss": 0.0013,
      "step": 13760
    },
    {
      "epoch": 4.13,
      "learning_rate": 1.644591611479029e-06,
      "loss": 0.0011,
      "step": 13770
    },
    {
      "epoch": 4.13,
      "learning_rate": 1.6419636287185958e-06,
      "loss": 0.001,
      "step": 13780
    },
    {
      "epoch": 4.13,
      "learning_rate": 1.6393356459581628e-06,
      "loss": 0.0009,
      "step": 13790
    },
    {
      "epoch": 4.13,
      "learning_rate": 1.6367076631977298e-06,
      "loss": 0.0009,
      "step": 13800
    },
    {
      "epoch": 4.13,
      "eval_f1": 0.9950386146416905,
      "eval_f1_0": 0.9984622585356817,
      "eval_f1_1": 0.9987485410825407,
      "eval_f1_2": 0.9838281999648616,
      "eval_f1_3": 0.9991154589836779,
      "eval_loss": 0.013640536926686764,
      "eval_runtime": 153.1601,
      "eval_samples_per_second": 77.488,
      "eval_steps_per_second": 0.307,
      "step": 13800
    },
    {
      "epoch": 4.14,
      "learning_rate": 1.6340796804372966e-06,
      "loss": 0.0009,
      "step": 13810
    },
    {
      "epoch": 4.14,
      "learning_rate": 1.6314516976768636e-06,
      "loss": 0.0015,
      "step": 13820
    },
    {
      "epoch": 4.14,
      "learning_rate": 1.6288237149164302e-06,
      "loss": 0.0013,
      "step": 13830
    },
    {
      "epoch": 4.15,
      "learning_rate": 1.6261957321559972e-06,
      "loss": 0.0011,
      "step": 13840
    },
    {
      "epoch": 4.15,
      "learning_rate": 1.623567749395564e-06,
      "loss": 0.0011,
      "step": 13850
    },
    {
      "epoch": 4.15,
      "learning_rate": 1.620939766635131e-06,
      "loss": 0.0017,
      "step": 13860
    },
    {
      "epoch": 4.16,
      "learning_rate": 1.6183117838746978e-06,
      "loss": 0.0007,
      "step": 13870
    },
    {
      "epoch": 4.16,
      "learning_rate": 1.6156838011142648e-06,
      "loss": 0.001,
      "step": 13880
    },
    {
      "epoch": 4.16,
      "learning_rate": 1.6130558183538316e-06,
      "loss": 0.0014,
      "step": 13890
    },
    {
      "epoch": 4.16,
      "learning_rate": 1.6104278355933986e-06,
      "loss": 0.0014,
      "step": 13900
    },
    {
      "epoch": 4.17,
      "learning_rate": 1.6077998528329656e-06,
      "loss": 0.0013,
      "step": 13910
    },
    {
      "epoch": 4.17,
      "learning_rate": 1.6051718700725324e-06,
      "loss": 0.0007,
      "step": 13920
    },
    {
      "epoch": 4.17,
      "learning_rate": 1.6025438873120994e-06,
      "loss": 0.0008,
      "step": 13930
    },
    {
      "epoch": 4.18,
      "learning_rate": 1.5999159045516662e-06,
      "loss": 0.0008,
      "step": 13940
    },
    {
      "epoch": 4.18,
      "learning_rate": 1.5972879217912332e-06,
      "loss": 0.0011,
      "step": 13950
    },
    {
      "epoch": 4.18,
      "learning_rate": 1.5946599390308e-06,
      "loss": 0.0032,
      "step": 13960
    },
    {
      "epoch": 4.19,
      "learning_rate": 1.592031956270367e-06,
      "loss": 0.0008,
      "step": 13970
    },
    {
      "epoch": 4.19,
      "learning_rate": 1.589403973509934e-06,
      "loss": 0.0016,
      "step": 13980
    },
    {
      "epoch": 4.19,
      "learning_rate": 1.5867759907495008e-06,
      "loss": 0.0013,
      "step": 13990
    },
    {
      "epoch": 4.19,
      "learning_rate": 1.5841480079890679e-06,
      "loss": 0.0011,
      "step": 14000
    },
    {
      "epoch": 4.19,
      "eval_f1": 0.9923091616893841,
      "eval_f1_0": 0.9975497273387712,
      "eval_f1_1": 0.9982912932666216,
      "eval_f1_2": 0.9742708208984919,
      "eval_f1_3": 0.9991248052536513,
      "eval_loss": 0.023798752576112747,
      "eval_runtime": 153.0593,
      "eval_samples_per_second": 77.539,
      "eval_steps_per_second": 0.307,
      "step": 14000
    },
    {
      "epoch": 4.2,
      "learning_rate": 1.5815200252286347e-06,
      "loss": 0.0035,
      "step": 14010
    },
    {
      "epoch": 4.2,
      "learning_rate": 1.5788920424682017e-06,
      "loss": 0.0067,
      "step": 14020
    },
    {
      "epoch": 4.2,
      "learning_rate": 1.5762640597077687e-06,
      "loss": 0.0013,
      "step": 14030
    },
    {
      "epoch": 4.21,
      "learning_rate": 1.5736360769473353e-06,
      "loss": 0.0017,
      "step": 14040
    },
    {
      "epoch": 4.21,
      "learning_rate": 1.571008094186902e-06,
      "loss": 0.0012,
      "step": 14050
    },
    {
      "epoch": 4.21,
      "learning_rate": 1.568380111426469e-06,
      "loss": 0.0004,
      "step": 14060
    },
    {
      "epoch": 4.22,
      "learning_rate": 1.565752128666036e-06,
      "loss": 0.0011,
      "step": 14070
    },
    {
      "epoch": 4.22,
      "learning_rate": 1.5631241459056029e-06,
      "loss": 0.0017,
      "step": 14080
    },
    {
      "epoch": 4.22,
      "learning_rate": 1.5604961631451699e-06,
      "loss": 0.0107,
      "step": 14090
    },
    {
      "epoch": 4.22,
      "learning_rate": 1.5578681803847367e-06,
      "loss": 0.0014,
      "step": 14100
    },
    {
      "epoch": 4.23,
      "learning_rate": 1.5552401976243037e-06,
      "loss": 0.0012,
      "step": 14110
    },
    {
      "epoch": 4.23,
      "learning_rate": 1.5526122148638705e-06,
      "loss": 0.0009,
      "step": 14120
    },
    {
      "epoch": 4.23,
      "learning_rate": 1.5499842321034375e-06,
      "loss": 0.0014,
      "step": 14130
    },
    {
      "epoch": 4.24,
      "learning_rate": 1.5473562493430045e-06,
      "loss": 0.0011,
      "step": 14140
    },
    {
      "epoch": 4.24,
      "learning_rate": 1.5447282665825713e-06,
      "loss": 0.0006,
      "step": 14150
    },
    {
      "epoch": 4.24,
      "learning_rate": 1.5421002838221383e-06,
      "loss": 0.0009,
      "step": 14160
    },
    {
      "epoch": 4.25,
      "learning_rate": 1.5394723010617051e-06,
      "loss": 0.0009,
      "step": 14170
    },
    {
      "epoch": 4.25,
      "learning_rate": 1.5368443183012721e-06,
      "loss": 0.0084,
      "step": 14180
    },
    {
      "epoch": 4.25,
      "learning_rate": 1.5342163355408391e-06,
      "loss": 0.0013,
      "step": 14190
    },
    {
      "epoch": 4.25,
      "learning_rate": 1.531588352780406e-06,
      "loss": 0.001,
      "step": 14200
    },
    {
      "epoch": 4.25,
      "eval_f1": 0.995143494905595,
      "eval_f1_0": 0.998492315814845,
      "eval_f1_1": 0.9987099940004178,
      "eval_f1_2": 0.9842623517839965,
      "eval_f1_3": 0.9991093180231205,
      "eval_loss": 0.0133112333714962,
      "eval_runtime": 153.1682,
      "eval_samples_per_second": 77.483,
      "eval_steps_per_second": 0.307,
      "step": 14200
    },
    {
      "epoch": 4.26,
      "learning_rate": 1.528960370019973e-06,
      "loss": 0.0019,
      "step": 14210
    },
    {
      "epoch": 4.26,
      "learning_rate": 1.5263323872595397e-06,
      "loss": 0.0013,
      "step": 14220
    },
    {
      "epoch": 4.26,
      "learning_rate": 1.5237044044991068e-06,
      "loss": 0.0019,
      "step": 14230
    },
    {
      "epoch": 4.27,
      "learning_rate": 1.5210764217386736e-06,
      "loss": 0.0014,
      "step": 14240
    },
    {
      "epoch": 4.27,
      "learning_rate": 1.5184484389782404e-06,
      "loss": 0.0014,
      "step": 14250
    },
    {
      "epoch": 4.27,
      "learning_rate": 1.5158204562178072e-06,
      "loss": 0.0009,
      "step": 14260
    },
    {
      "epoch": 4.28,
      "learning_rate": 1.5131924734573742e-06,
      "loss": 0.0009,
      "step": 14270
    },
    {
      "epoch": 4.28,
      "learning_rate": 1.510564490696941e-06,
      "loss": 0.0211,
      "step": 14280
    },
    {
      "epoch": 4.28,
      "learning_rate": 1.507936507936508e-06,
      "loss": 0.002,
      "step": 14290
    },
    {
      "epoch": 4.28,
      "learning_rate": 1.505308525176075e-06,
      "loss": 0.0013,
      "step": 14300
    },
    {
      "epoch": 4.29,
      "learning_rate": 1.5026805424156418e-06,
      "loss": 0.0009,
      "step": 14310
    },
    {
      "epoch": 4.29,
      "learning_rate": 1.5000525596552088e-06,
      "loss": 0.0013,
      "step": 14320
    },
    {
      "epoch": 4.29,
      "learning_rate": 1.4974245768947756e-06,
      "loss": 0.0092,
      "step": 14330
    },
    {
      "epoch": 4.3,
      "learning_rate": 1.4947965941343426e-06,
      "loss": 0.0009,
      "step": 14340
    },
    {
      "epoch": 4.3,
      "learning_rate": 1.4921686113739094e-06,
      "loss": 0.0019,
      "step": 14350
    },
    {
      "epoch": 4.3,
      "learning_rate": 1.4895406286134764e-06,
      "loss": 0.0051,
      "step": 14360
    },
    {
      "epoch": 4.3,
      "learning_rate": 1.4869126458530434e-06,
      "loss": 0.0014,
      "step": 14370
    },
    {
      "epoch": 4.31,
      "learning_rate": 1.4842846630926102e-06,
      "loss": 0.002,
      "step": 14380
    },
    {
      "epoch": 4.31,
      "learning_rate": 1.4816566803321772e-06,
      "loss": 0.0009,
      "step": 14390
    },
    {
      "epoch": 4.31,
      "learning_rate": 1.479028697571744e-06,
      "loss": 0.0007,
      "step": 14400
    },
    {
      "epoch": 4.31,
      "eval_f1": 0.9958044718258009,
      "eval_f1_0": 0.9986962178379164,
      "eval_f1_1": 0.99874291452202,
      "eval_f1_2": 0.9866477372408563,
      "eval_f1_3": 0.9991310177024108,
      "eval_loss": 0.011024106293916702,
      "eval_runtime": 153.2376,
      "eval_samples_per_second": 77.448,
      "eval_steps_per_second": 0.307,
      "step": 14400
    },
    {
      "epoch": 4.32,
      "learning_rate": 1.476400714811311e-06,
      "loss": 0.0009,
      "step": 14410
    },
    {
      "epoch": 4.32,
      "learning_rate": 1.473772732050878e-06,
      "loss": 0.0044,
      "step": 14420
    },
    {
      "epoch": 4.32,
      "learning_rate": 1.4711447492904448e-06,
      "loss": 0.0007,
      "step": 14430
    },
    {
      "epoch": 4.33,
      "learning_rate": 1.4685167665300119e-06,
      "loss": 0.001,
      "step": 14440
    },
    {
      "epoch": 4.33,
      "learning_rate": 1.4658887837695787e-06,
      "loss": 0.0008,
      "step": 14450
    },
    {
      "epoch": 4.33,
      "learning_rate": 1.4632608010091457e-06,
      "loss": 0.0007,
      "step": 14460
    },
    {
      "epoch": 4.33,
      "learning_rate": 1.4606328182487122e-06,
      "loss": 0.0017,
      "step": 14470
    },
    {
      "epoch": 4.34,
      "learning_rate": 1.4580048354882793e-06,
      "loss": 0.0021,
      "step": 14480
    },
    {
      "epoch": 4.34,
      "learning_rate": 1.455376852727846e-06,
      "loss": 0.0266,
      "step": 14490
    },
    {
      "epoch": 4.34,
      "learning_rate": 1.452748869967413e-06,
      "loss": 0.0137,
      "step": 14500
    },
    {
      "epoch": 4.35,
      "learning_rate": 1.4501208872069799e-06,
      "loss": 0.0016,
      "step": 14510
    },
    {
      "epoch": 4.35,
      "learning_rate": 1.4474929044465469e-06,
      "loss": 0.0016,
      "step": 14520
    },
    {
      "epoch": 4.35,
      "learning_rate": 1.4448649216861139e-06,
      "loss": 0.0046,
      "step": 14530
    },
    {
      "epoch": 4.36,
      "learning_rate": 1.4422369389256807e-06,
      "loss": 0.0009,
      "step": 14540
    },
    {
      "epoch": 4.36,
      "learning_rate": 1.4396089561652477e-06,
      "loss": 0.0006,
      "step": 14550
    },
    {
      "epoch": 4.36,
      "learning_rate": 1.4369809734048145e-06,
      "loss": 0.0011,
      "step": 14560
    },
    {
      "epoch": 4.36,
      "learning_rate": 1.4343529906443815e-06,
      "loss": 0.001,
      "step": 14570
    },
    {
      "epoch": 4.37,
      "learning_rate": 1.4317250078839485e-06,
      "loss": 0.0014,
      "step": 14580
    },
    {
      "epoch": 4.37,
      "learning_rate": 1.4290970251235153e-06,
      "loss": 0.0009,
      "step": 14590
    },
    {
      "epoch": 4.37,
      "learning_rate": 1.4264690423630823e-06,
      "loss": 0.0007,
      "step": 14600
    },
    {
      "epoch": 4.37,
      "eval_f1": 0.9958071934678491,
      "eval_f1_0": 0.998687253085116,
      "eval_f1_1": 0.99839320159376,
      "eval_f1_2": 0.9870297264647511,
      "eval_f1_3": 0.9991185927277693,
      "eval_loss": 0.012305574491620064,
      "eval_runtime": 153.2375,
      "eval_samples_per_second": 77.448,
      "eval_steps_per_second": 0.307,
      "step": 14600
    },
    {
      "epoch": 4.38,
      "learning_rate": 1.4238410596026491e-06,
      "loss": 0.0022,
      "step": 14610
    },
    {
      "epoch": 4.38,
      "learning_rate": 1.4212130768422161e-06,
      "loss": 0.0007,
      "step": 14620
    },
    {
      "epoch": 4.38,
      "learning_rate": 1.418585094081783e-06,
      "loss": 0.0011,
      "step": 14630
    },
    {
      "epoch": 4.39,
      "learning_rate": 1.41595711132135e-06,
      "loss": 0.0009,
      "step": 14640
    },
    {
      "epoch": 4.39,
      "learning_rate": 1.413329128560917e-06,
      "loss": 0.0046,
      "step": 14650
    },
    {
      "epoch": 4.39,
      "learning_rate": 1.4107011458004837e-06,
      "loss": 0.001,
      "step": 14660
    },
    {
      "epoch": 4.39,
      "learning_rate": 1.4080731630400508e-06,
      "loss": 0.0008,
      "step": 14670
    },
    {
      "epoch": 4.4,
      "learning_rate": 1.4054451802796173e-06,
      "loss": 0.0037,
      "step": 14680
    },
    {
      "epoch": 4.4,
      "learning_rate": 1.4028171975191844e-06,
      "loss": 0.0026,
      "step": 14690
    },
    {
      "epoch": 4.4,
      "learning_rate": 1.4001892147587512e-06,
      "loss": 0.0008,
      "step": 14700
    },
    {
      "epoch": 4.41,
      "learning_rate": 1.3975612319983182e-06,
      "loss": 0.0011,
      "step": 14710
    },
    {
      "epoch": 4.41,
      "learning_rate": 1.394933249237885e-06,
      "loss": 0.0019,
      "step": 14720
    },
    {
      "epoch": 4.41,
      "learning_rate": 1.392305266477452e-06,
      "loss": 0.0012,
      "step": 14730
    },
    {
      "epoch": 4.42,
      "learning_rate": 1.389677283717019e-06,
      "loss": 0.002,
      "step": 14740
    },
    {
      "epoch": 4.42,
      "learning_rate": 1.3870493009565858e-06,
      "loss": 0.0008,
      "step": 14750
    },
    {
      "epoch": 4.42,
      "learning_rate": 1.3844213181961528e-06,
      "loss": 0.0012,
      "step": 14760
    },
    {
      "epoch": 4.42,
      "learning_rate": 1.3817933354357196e-06,
      "loss": 0.0005,
      "step": 14770
    },
    {
      "epoch": 4.43,
      "learning_rate": 1.3791653526752866e-06,
      "loss": 0.0007,
      "step": 14780
    },
    {
      "epoch": 4.43,
      "learning_rate": 1.3765373699148534e-06,
      "loss": 0.0005,
      "step": 14790
    },
    {
      "epoch": 4.43,
      "learning_rate": 1.3739093871544204e-06,
      "loss": 0.001,
      "step": 14800
    },
    {
      "epoch": 4.43,
      "eval_f1": 0.9956210234698608,
      "eval_f1_0": 0.9986354102207614,
      "eval_f1_1": 0.9986101872317422,
      "eval_f1_2": 0.9861167592664909,
      "eval_f1_3": 0.999121737160449,
      "eval_loss": 0.012135359458625317,
      "eval_runtime": 153.1317,
      "eval_samples_per_second": 77.502,
      "eval_steps_per_second": 0.307,
      "step": 14800
    },
    {
      "epoch": 4.44,
      "learning_rate": 1.3712814043939874e-06,
      "loss": 0.0017,
      "step": 14810
    },
    {
      "epoch": 4.44,
      "learning_rate": 1.3686534216335542e-06,
      "loss": 0.0044,
      "step": 14820
    },
    {
      "epoch": 4.44,
      "learning_rate": 1.3660254388731212e-06,
      "loss": 0.0014,
      "step": 14830
    },
    {
      "epoch": 4.45,
      "learning_rate": 1.363397456112688e-06,
      "loss": 0.0016,
      "step": 14840
    },
    {
      "epoch": 4.45,
      "learning_rate": 1.360769473352255e-06,
      "loss": 0.014,
      "step": 14850
    },
    {
      "epoch": 4.45,
      "learning_rate": 1.3581414905918218e-06,
      "loss": 0.0025,
      "step": 14860
    },
    {
      "epoch": 4.45,
      "learning_rate": 1.3555135078313888e-06,
      "loss": 0.0012,
      "step": 14870
    },
    {
      "epoch": 4.46,
      "learning_rate": 1.3528855250709559e-06,
      "loss": 0.0008,
      "step": 14880
    },
    {
      "epoch": 4.46,
      "learning_rate": 1.3502575423105224e-06,
      "loss": 0.001,
      "step": 14890
    },
    {
      "epoch": 4.46,
      "learning_rate": 1.3476295595500892e-06,
      "loss": 0.0009,
      "step": 14900
    },
    {
      "epoch": 4.47,
      "learning_rate": 1.3450015767896562e-06,
      "loss": 0.0012,
      "step": 14910
    },
    {
      "epoch": 4.47,
      "learning_rate": 1.3423735940292233e-06,
      "loss": 0.0008,
      "step": 14920
    },
    {
      "epoch": 4.47,
      "learning_rate": 1.33974561126879e-06,
      "loss": 0.001,
      "step": 14930
    },
    {
      "epoch": 4.48,
      "learning_rate": 1.337117628508357e-06,
      "loss": 0.0012,
      "step": 14940
    },
    {
      "epoch": 4.48,
      "learning_rate": 1.3344896457479239e-06,
      "loss": 0.0008,
      "step": 14950
    },
    {
      "epoch": 4.48,
      "learning_rate": 1.3318616629874909e-06,
      "loss": 0.0014,
      "step": 14960
    },
    {
      "epoch": 4.48,
      "learning_rate": 1.3292336802270579e-06,
      "loss": 0.0007,
      "step": 14970
    },
    {
      "epoch": 4.49,
      "learning_rate": 1.3266056974666247e-06,
      "loss": 0.0012,
      "step": 14980
    },
    {
      "epoch": 4.49,
      "learning_rate": 1.3239777147061917e-06,
      "loss": 0.0014,
      "step": 14990
    },
    {
      "epoch": 4.49,
      "learning_rate": 1.3213497319457585e-06,
      "loss": 0.0008,
      "step": 15000
    },
    {
      "epoch": 4.49,
      "eval_f1": 0.9952924326390867,
      "eval_f1_0": 0.9985425928445921,
      "eval_f1_1": 0.998687057840373,
      "eval_f1_2": 0.9848215254421179,
      "eval_f1_3": 0.999118554429264,
      "eval_loss": 0.013778653927147388,
      "eval_runtime": 153.1609,
      "eval_samples_per_second": 77.487,
      "eval_steps_per_second": 0.307,
      "step": 15000
    },
    {
      "epoch": 4.5,
      "learning_rate": 1.3187217491853255e-06,
      "loss": 0.0008,
      "step": 15010
    },
    {
      "epoch": 4.5,
      "learning_rate": 1.3160937664248923e-06,
      "loss": 0.0012,
      "step": 15020
    },
    {
      "epoch": 4.5,
      "learning_rate": 1.3134657836644593e-06,
      "loss": 0.001,
      "step": 15030
    },
    {
      "epoch": 4.51,
      "learning_rate": 1.3108378009040263e-06,
      "loss": 0.0006,
      "step": 15040
    },
    {
      "epoch": 4.51,
      "learning_rate": 1.3082098181435931e-06,
      "loss": 0.007,
      "step": 15050
    },
    {
      "epoch": 4.51,
      "learning_rate": 1.3055818353831601e-06,
      "loss": 0.001,
      "step": 15060
    },
    {
      "epoch": 4.51,
      "learning_rate": 1.302953852622727e-06,
      "loss": 0.0013,
      "step": 15070
    },
    {
      "epoch": 4.52,
      "learning_rate": 1.300325869862294e-06,
      "loss": 0.0009,
      "step": 15080
    },
    {
      "epoch": 4.52,
      "learning_rate": 1.297697887101861e-06,
      "loss": 0.0017,
      "step": 15090
    },
    {
      "epoch": 4.52,
      "learning_rate": 1.2950699043414277e-06,
      "loss": 0.0005,
      "step": 15100
    },
    {
      "epoch": 4.53,
      "learning_rate": 1.2924419215809943e-06,
      "loss": 0.0018,
      "step": 15110
    },
    {
      "epoch": 4.53,
      "learning_rate": 1.2898139388205613e-06,
      "loss": 0.0007,
      "step": 15120
    },
    {
      "epoch": 4.53,
      "learning_rate": 1.2871859560601283e-06,
      "loss": 0.0011,
      "step": 15130
    },
    {
      "epoch": 4.54,
      "learning_rate": 1.2845579732996951e-06,
      "loss": 0.0012,
      "step": 15140
    },
    {
      "epoch": 4.54,
      "learning_rate": 1.2819299905392622e-06,
      "loss": 0.0015,
      "step": 15150
    },
    {
      "epoch": 4.54,
      "learning_rate": 1.279302007778829e-06,
      "loss": 0.0014,
      "step": 15160
    },
    {
      "epoch": 4.54,
      "learning_rate": 1.276674025018396e-06,
      "loss": 0.0009,
      "step": 15170
    },
    {
      "epoch": 4.55,
      "learning_rate": 1.2740460422579628e-06,
      "loss": 0.0008,
      "step": 15180
    },
    {
      "epoch": 4.55,
      "learning_rate": 1.2714180594975298e-06,
      "loss": 0.0008,
      "step": 15190
    },
    {
      "epoch": 4.55,
      "learning_rate": 1.2687900767370968e-06,
      "loss": 0.0009,
      "step": 15200
    },
    {
      "epoch": 4.55,
      "eval_f1": 0.9950761598172075,
      "eval_f1_0": 0.9984721078783185,
      "eval_f1_1": 0.9987006814714878,
      "eval_f1_2": 0.9840070826936979,
      "eval_f1_3": 0.9991247672253258,
      "eval_loss": 0.014415456913411617,
      "eval_runtime": 153.1152,
      "eval_samples_per_second": 77.51,
      "eval_steps_per_second": 0.307,
      "step": 15200
    },
    {
      "epoch": 4.56,
      "learning_rate": 1.2661620939766636e-06,
      "loss": 0.002,
      "step": 15210
    },
    {
      "epoch": 4.56,
      "learning_rate": 1.2635341112162306e-06,
      "loss": 0.0107,
      "step": 15220
    },
    {
      "epoch": 4.56,
      "learning_rate": 1.2609061284557974e-06,
      "loss": 0.0007,
      "step": 15230
    },
    {
      "epoch": 4.57,
      "learning_rate": 1.2582781456953644e-06,
      "loss": 0.0016,
      "step": 15240
    },
    {
      "epoch": 4.57,
      "learning_rate": 1.2556501629349312e-06,
      "loss": 0.001,
      "step": 15250
    },
    {
      "epoch": 4.57,
      "learning_rate": 1.2530221801744982e-06,
      "loss": 0.001,
      "step": 15260
    },
    {
      "epoch": 4.57,
      "learning_rate": 1.2503941974140652e-06,
      "loss": 0.0015,
      "step": 15270
    },
    {
      "epoch": 4.58,
      "learning_rate": 1.247766214653632e-06,
      "loss": 0.0006,
      "step": 15280
    },
    {
      "epoch": 4.58,
      "learning_rate": 1.2451382318931988e-06,
      "loss": 0.0016,
      "step": 15290
    },
    {
      "epoch": 4.58,
      "learning_rate": 1.2425102491327658e-06,
      "loss": 0.0006,
      "step": 15300
    },
    {
      "epoch": 4.59,
      "learning_rate": 1.2398822663723326e-06,
      "loss": 0.0013,
      "step": 15310
    },
    {
      "epoch": 4.59,
      "learning_rate": 1.2372542836118996e-06,
      "loss": 0.0011,
      "step": 15320
    },
    {
      "epoch": 4.59,
      "learning_rate": 1.2346263008514664e-06,
      "loss": 0.0018,
      "step": 15330
    },
    {
      "epoch": 4.6,
      "learning_rate": 1.2319983180910334e-06,
      "loss": 0.0008,
      "step": 15340
    },
    {
      "epoch": 4.6,
      "learning_rate": 1.2293703353306005e-06,
      "loss": 0.0011,
      "step": 15350
    },
    {
      "epoch": 4.6,
      "learning_rate": 1.2267423525701673e-06,
      "loss": 0.0136,
      "step": 15360
    },
    {
      "epoch": 4.6,
      "learning_rate": 1.224114369809734e-06,
      "loss": 0.0014,
      "step": 15370
    },
    {
      "epoch": 4.61,
      "learning_rate": 1.221486387049301e-06,
      "loss": 0.0022,
      "step": 15380
    },
    {
      "epoch": 4.61,
      "learning_rate": 1.2188584042888679e-06,
      "loss": 0.001,
      "step": 15390
    },
    {
      "epoch": 4.61,
      "learning_rate": 1.2162304215284349e-06,
      "loss": 0.0011,
      "step": 15400
    },
    {
      "epoch": 4.61,
      "eval_f1": 0.995032009945664,
      "eval_f1_0": 0.9984474306158969,
      "eval_f1_1": 0.9984507657972037,
      "eval_f1_2": 0.9841639094741274,
      "eval_f1_3": 0.9990659338954281,
      "eval_loss": 0.01461731269955635,
      "eval_runtime": 153.208,
      "eval_samples_per_second": 77.463,
      "eval_steps_per_second": 0.307,
      "step": 15400
    },
    {
      "epoch": 4.62,
      "learning_rate": 1.2136024387680017e-06,
      "loss": 0.0032,
      "step": 15410
    },
    {
      "epoch": 4.62,
      "learning_rate": 1.2109744560075687e-06,
      "loss": 0.001,
      "step": 15420
    },
    {
      "epoch": 4.62,
      "learning_rate": 1.2083464732471357e-06,
      "loss": 0.0009,
      "step": 15430
    },
    {
      "epoch": 4.63,
      "learning_rate": 1.2057184904867025e-06,
      "loss": 0.0012,
      "step": 15440
    },
    {
      "epoch": 4.63,
      "learning_rate": 1.2030905077262695e-06,
      "loss": 0.0012,
      "step": 15450
    },
    {
      "epoch": 4.63,
      "learning_rate": 1.2004625249658363e-06,
      "loss": 0.001,
      "step": 15460
    },
    {
      "epoch": 4.63,
      "learning_rate": 1.1978345422054033e-06,
      "loss": 0.0013,
      "step": 15470
    },
    {
      "epoch": 4.64,
      "learning_rate": 1.19520655944497e-06,
      "loss": 0.001,
      "step": 15480
    },
    {
      "epoch": 4.64,
      "learning_rate": 1.192578576684537e-06,
      "loss": 0.0009,
      "step": 15490
    },
    {
      "epoch": 4.64,
      "learning_rate": 1.189950593924104e-06,
      "loss": 0.0006,
      "step": 15500
    },
    {
      "epoch": 4.65,
      "learning_rate": 1.187322611163671e-06,
      "loss": 0.0012,
      "step": 15510
    },
    {
      "epoch": 4.65,
      "learning_rate": 1.1846946284032377e-06,
      "loss": 0.001,
      "step": 15520
    },
    {
      "epoch": 4.65,
      "learning_rate": 1.1820666456428047e-06,
      "loss": 0.0009,
      "step": 15530
    },
    {
      "epoch": 4.66,
      "learning_rate": 1.1794386628823715e-06,
      "loss": 0.0009,
      "step": 15540
    },
    {
      "epoch": 4.66,
      "learning_rate": 1.1768106801219385e-06,
      "loss": 0.0075,
      "step": 15550
    },
    {
      "epoch": 4.66,
      "learning_rate": 1.1741826973615055e-06,
      "loss": 0.0007,
      "step": 15560
    },
    {
      "epoch": 4.66,
      "learning_rate": 1.1715547146010723e-06,
      "loss": 0.0013,
      "step": 15570
    },
    {
      "epoch": 4.67,
      "learning_rate": 1.1689267318406394e-06,
      "loss": 0.0011,
      "step": 15580
    },
    {
      "epoch": 4.67,
      "learning_rate": 1.1662987490802062e-06,
      "loss": 0.0009,
      "step": 15590
    },
    {
      "epoch": 4.67,
      "learning_rate": 1.163670766319773e-06,
      "loss": 0.0016,
      "step": 15600
    },
    {
      "epoch": 4.67,
      "eval_f1": 0.994661222330338,
      "eval_f1_0": 0.9983344600018881,
      "eval_f1_1": 0.9987661558858579,
      "eval_f1_2": 0.9824319428977768,
      "eval_f1_3": 0.9991123305358296,
      "eval_loss": 0.015577760525047779,
      "eval_runtime": 153.1847,
      "eval_samples_per_second": 77.475,
      "eval_steps_per_second": 0.307,
      "step": 15600
    },
    {
      "epoch": 4.68,
      "learning_rate": 1.16104278355934e-06,
      "loss": 0.001,
      "step": 15610
    },
    {
      "epoch": 4.68,
      "learning_rate": 1.1584148007989068e-06,
      "loss": 0.0016,
      "step": 15620
    },
    {
      "epoch": 4.68,
      "learning_rate": 1.1557868180384738e-06,
      "loss": 0.0011,
      "step": 15630
    },
    {
      "epoch": 4.69,
      "learning_rate": 1.1531588352780408e-06,
      "loss": 0.0008,
      "step": 15640
    },
    {
      "epoch": 4.69,
      "learning_rate": 1.1505308525176076e-06,
      "loss": 0.001,
      "step": 15650
    },
    {
      "epoch": 4.69,
      "learning_rate": 1.1479028697571746e-06,
      "loss": 0.0015,
      "step": 15660
    },
    {
      "epoch": 4.69,
      "learning_rate": 1.1452748869967414e-06,
      "loss": 0.004,
      "step": 15670
    },
    {
      "epoch": 4.7,
      "learning_rate": 1.1426469042363084e-06,
      "loss": 0.0009,
      "step": 15680
    },
    {
      "epoch": 4.7,
      "learning_rate": 1.1400189214758752e-06,
      "loss": 0.0009,
      "step": 15690
    },
    {
      "epoch": 4.7,
      "learning_rate": 1.137390938715442e-06,
      "loss": 0.0008,
      "step": 15700
    },
    {
      "epoch": 4.71,
      "learning_rate": 1.134762955955009e-06,
      "loss": 0.0013,
      "step": 15710
    },
    {
      "epoch": 4.71,
      "learning_rate": 1.1321349731945758e-06,
      "loss": 0.0009,
      "step": 15720
    },
    {
      "epoch": 4.71,
      "learning_rate": 1.1295069904341428e-06,
      "loss": 0.0024,
      "step": 15730
    },
    {
      "epoch": 4.72,
      "learning_rate": 1.1268790076737098e-06,
      "loss": 0.0011,
      "step": 15740
    },
    {
      "epoch": 4.72,
      "learning_rate": 1.1242510249132766e-06,
      "loss": 0.0012,
      "step": 15750
    },
    {
      "epoch": 4.72,
      "learning_rate": 1.1216230421528436e-06,
      "loss": 0.0008,
      "step": 15760
    },
    {
      "epoch": 4.72,
      "learning_rate": 1.1189950593924104e-06,
      "loss": 0.0009,
      "step": 15770
    },
    {
      "epoch": 4.73,
      "learning_rate": 1.1163670766319774e-06,
      "loss": 0.0008,
      "step": 15780
    },
    {
      "epoch": 4.73,
      "learning_rate": 1.1137390938715445e-06,
      "loss": 0.0017,
      "step": 15790
    },
    {
      "epoch": 4.73,
      "learning_rate": 1.111111111111111e-06,
      "loss": 0.0009,
      "step": 15800
    },
    {
      "epoch": 4.73,
      "eval_f1": 0.9949544347555679,
      "eval_f1_0": 0.9984277834502506,
      "eval_f1_1": 0.9987446888840763,
      "eval_f1_2": 0.9835453008271705,
      "eval_f1_3": 0.999099965860774,
      "eval_loss": 0.015532366931438446,
      "eval_runtime": 153.1944,
      "eval_samples_per_second": 77.47,
      "eval_steps_per_second": 0.307,
      "step": 15800
    },
    {
      "epoch": 4.74,
      "learning_rate": 1.108483128350678e-06,
      "loss": 0.0013,
      "step": 15810
    },
    {
      "epoch": 4.74,
      "learning_rate": 1.105855145590245e-06,
      "loss": 0.0008,
      "step": 15820
    },
    {
      "epoch": 4.74,
      "learning_rate": 1.1032271628298119e-06,
      "loss": 0.0006,
      "step": 15830
    },
    {
      "epoch": 4.75,
      "learning_rate": 1.1005991800693789e-06,
      "loss": 0.001,
      "step": 15840
    },
    {
      "epoch": 4.75,
      "learning_rate": 1.0979711973089457e-06,
      "loss": 0.0144,
      "step": 15850
    },
    {
      "epoch": 4.75,
      "learning_rate": 1.0953432145485127e-06,
      "loss": 0.0015,
      "step": 15860
    },
    {
      "epoch": 4.75,
      "learning_rate": 1.0927152317880797e-06,
      "loss": 0.0011,
      "step": 15870
    },
    {
      "epoch": 4.76,
      "learning_rate": 1.0900872490276465e-06,
      "loss": 0.0011,
      "step": 15880
    },
    {
      "epoch": 4.76,
      "learning_rate": 1.0874592662672135e-06,
      "loss": 0.0014,
      "step": 15890
    },
    {
      "epoch": 4.76,
      "learning_rate": 1.0848312835067803e-06,
      "loss": 0.0007,
      "step": 15900
    },
    {
      "epoch": 4.77,
      "learning_rate": 1.082203300746347e-06,
      "loss": 0.0026,
      "step": 15910
    },
    {
      "epoch": 4.77,
      "learning_rate": 1.079575317985914e-06,
      "loss": 0.001,
      "step": 15920
    },
    {
      "epoch": 4.77,
      "learning_rate": 1.076947335225481e-06,
      "loss": 0.0013,
      "step": 15930
    },
    {
      "epoch": 4.78,
      "learning_rate": 1.074319352465048e-06,
      "loss": 0.0015,
      "step": 15940
    },
    {
      "epoch": 4.78,
      "learning_rate": 1.071691369704615e-06,
      "loss": 0.0009,
      "step": 15950
    },
    {
      "epoch": 4.78,
      "learning_rate": 1.0690633869441817e-06,
      "loss": 0.0007,
      "step": 15960
    },
    {
      "epoch": 4.78,
      "learning_rate": 1.0664354041837487e-06,
      "loss": 0.0007,
      "step": 15970
    },
    {
      "epoch": 4.79,
      "learning_rate": 1.0638074214233155e-06,
      "loss": 0.0007,
      "step": 15980
    },
    {
      "epoch": 4.79,
      "learning_rate": 1.0611794386628825e-06,
      "loss": 0.003,
      "step": 15990
    },
    {
      "epoch": 4.79,
      "learning_rate": 1.0585514559024493e-06,
      "loss": 0.001,
      "step": 16000
    },
    {
      "epoch": 4.79,
      "eval_f1": 0.9920330423874137,
      "eval_f1_0": 0.9974704429001112,
      "eval_f1_1": 0.9985448368549305,
      "eval_f1_2": 0.9730106668717138,
      "eval_f1_3": 0.9991062229228993,
      "eval_loss": 0.020844409242272377,
      "eval_runtime": 153.1204,
      "eval_samples_per_second": 77.508,
      "eval_steps_per_second": 0.307,
      "step": 16000
    },
    {
      "epoch": 4.8,
      "learning_rate": 1.0559234731420161e-06,
      "loss": 0.0015,
      "step": 16010
    },
    {
      "epoch": 4.8,
      "learning_rate": 1.0532954903815831e-06,
      "loss": 0.0017,
      "step": 16020
    },
    {
      "epoch": 4.8,
      "learning_rate": 1.0506675076211502e-06,
      "loss": 0.0006,
      "step": 16030
    },
    {
      "epoch": 4.81,
      "learning_rate": 1.048039524860717e-06,
      "loss": 0.0007,
      "step": 16040
    },
    {
      "epoch": 4.81,
      "learning_rate": 1.045411542100284e-06,
      "loss": 0.0009,
      "step": 16050
    },
    {
      "epoch": 4.81,
      "learning_rate": 1.0427835593398508e-06,
      "loss": 0.0057,
      "step": 16060
    },
    {
      "epoch": 4.81,
      "learning_rate": 1.0401555765794178e-06,
      "loss": 0.0009,
      "step": 16070
    },
    {
      "epoch": 4.82,
      "learning_rate": 1.0375275938189846e-06,
      "loss": 0.0009,
      "step": 16080
    },
    {
      "epoch": 4.82,
      "learning_rate": 1.0348996110585516e-06,
      "loss": 0.0008,
      "step": 16090
    },
    {
      "epoch": 4.82,
      "learning_rate": 1.0322716282981186e-06,
      "loss": 0.0014,
      "step": 16100
    },
    {
      "epoch": 4.83,
      "learning_rate": 1.0296436455376854e-06,
      "loss": 0.0007,
      "step": 16110
    },
    {
      "epoch": 4.83,
      "learning_rate": 1.0270156627772522e-06,
      "loss": 0.0015,
      "step": 16120
    },
    {
      "epoch": 4.83,
      "learning_rate": 1.0243876800168192e-06,
      "loss": 0.0007,
      "step": 16130
    },
    {
      "epoch": 4.84,
      "learning_rate": 1.021759697256386e-06,
      "loss": 0.0017,
      "step": 16140
    },
    {
      "epoch": 4.84,
      "learning_rate": 1.019131714495953e-06,
      "loss": 0.0015,
      "step": 16150
    },
    {
      "epoch": 4.84,
      "learning_rate": 1.0165037317355198e-06,
      "loss": 0.0012,
      "step": 16160
    },
    {
      "epoch": 4.84,
      "learning_rate": 1.0138757489750868e-06,
      "loss": 0.0007,
      "step": 16170
    },
    {
      "epoch": 4.85,
      "learning_rate": 1.0112477662146538e-06,
      "loss": 0.0007,
      "step": 16180
    },
    {
      "epoch": 4.85,
      "learning_rate": 1.0086197834542206e-06,
      "loss": 0.0034,
      "step": 16190
    },
    {
      "epoch": 4.85,
      "learning_rate": 1.0059918006937876e-06,
      "loss": 0.0016,
      "step": 16200
    },
    {
      "epoch": 4.85,
      "eval_f1": 0.9944965177719658,
      "eval_f1_0": 0.9982769405207954,
      "eval_f1_1": 0.9986871836543824,
      "eval_f1_2": 0.9819282275617314,
      "eval_f1_3": 0.999093719350954,
      "eval_loss": 0.014544418081641197,
      "eval_runtime": 153.3038,
      "eval_samples_per_second": 77.415,
      "eval_steps_per_second": 0.307,
      "step": 16200
    },
    {
      "epoch": 4.86,
      "learning_rate": 1.0033638179333544e-06,
      "loss": 0.0022,
      "step": 16210
    },
    {
      "epoch": 4.86,
      "learning_rate": 1.0007358351729214e-06,
      "loss": 0.0012,
      "step": 16220
    },
    {
      "epoch": 4.86,
      "learning_rate": 9.981078524124882e-07,
      "loss": 0.0009,
      "step": 16230
    },
    {
      "epoch": 4.87,
      "learning_rate": 9.95479869652055e-07,
      "loss": 0.0006,
      "step": 16240
    },
    {
      "epoch": 4.87,
      "learning_rate": 9.92851886891622e-07,
      "loss": 0.0089,
      "step": 16250
    },
    {
      "epoch": 4.87,
      "learning_rate": 9.90223904131189e-07,
      "loss": 0.006,
      "step": 16260
    },
    {
      "epoch": 4.87,
      "learning_rate": 9.875959213707559e-07,
      "loss": 0.0012,
      "step": 16270
    },
    {
      "epoch": 4.88,
      "learning_rate": 9.849679386103229e-07,
      "loss": 0.0026,
      "step": 16280
    },
    {
      "epoch": 4.88,
      "learning_rate": 9.823399558498897e-07,
      "loss": 0.0008,
      "step": 16290
    },
    {
      "epoch": 4.88,
      "learning_rate": 9.797119730894567e-07,
      "loss": 0.0007,
      "step": 16300
    },
    {
      "epoch": 4.89,
      "learning_rate": 9.770839903290235e-07,
      "loss": 0.0007,
      "step": 16310
    },
    {
      "epoch": 4.89,
      "learning_rate": 9.744560075685905e-07,
      "loss": 0.008,
      "step": 16320
    },
    {
      "epoch": 4.89,
      "learning_rate": 9.718280248081573e-07,
      "loss": 0.0058,
      "step": 16330
    },
    {
      "epoch": 4.9,
      "learning_rate": 9.692000420477243e-07,
      "loss": 0.0007,
      "step": 16340
    },
    {
      "epoch": 4.9,
      "learning_rate": 9.66572059287291e-07,
      "loss": 0.0012,
      "step": 16350
    },
    {
      "epoch": 4.9,
      "learning_rate": 9.63944076526858e-07,
      "loss": 0.0015,
      "step": 16360
    },
    {
      "epoch": 4.9,
      "learning_rate": 9.61316093766425e-07,
      "loss": 0.0021,
      "step": 16370
    },
    {
      "epoch": 4.91,
      "learning_rate": 9.58688111005992e-07,
      "loss": 0.0009,
      "step": 16380
    },
    {
      "epoch": 4.91,
      "learning_rate": 9.560601282455587e-07,
      "loss": 0.0006,
      "step": 16390
    },
    {
      "epoch": 4.91,
      "learning_rate": 9.534321454851257e-07,
      "loss": 0.0008,
      "step": 16400
    },
    {
      "epoch": 4.91,
      "eval_f1": 0.9952574357684303,
      "eval_f1_0": 0.9985215018271703,
      "eval_f1_1": 0.9986774058753848,
      "eval_f1_2": 0.9847153928596434,
      "eval_f1_3": 0.9991154425115225,
      "eval_loss": 0.013253765180706978,
      "eval_runtime": 153.1517,
      "eval_samples_per_second": 77.492,
      "eval_steps_per_second": 0.307,
      "step": 16400
    },
    {
      "epoch": 4.92,
      "learning_rate": 9.508041627246926e-07,
      "loss": 0.0017,
      "step": 16410
    },
    {
      "epoch": 4.92,
      "learning_rate": 9.481761799642595e-07,
      "loss": 0.0031,
      "step": 16420
    },
    {
      "epoch": 4.92,
      "learning_rate": 9.455481972038265e-07,
      "loss": 0.001,
      "step": 16430
    },
    {
      "epoch": 4.93,
      "learning_rate": 9.429202144433932e-07,
      "loss": 0.0019,
      "step": 16440
    },
    {
      "epoch": 4.93,
      "learning_rate": 9.402922316829602e-07,
      "loss": 0.0008,
      "step": 16450
    },
    {
      "epoch": 4.93,
      "learning_rate": 9.376642489225271e-07,
      "loss": 0.0011,
      "step": 16460
    },
    {
      "epoch": 4.93,
      "learning_rate": 9.35036266162094e-07,
      "loss": 0.0013,
      "step": 16470
    },
    {
      "epoch": 4.94,
      "learning_rate": 9.324082834016609e-07,
      "loss": 0.001,
      "step": 16480
    },
    {
      "epoch": 4.94,
      "learning_rate": 9.297803006412279e-07,
      "loss": 0.0008,
      "step": 16490
    },
    {
      "epoch": 4.94,
      "learning_rate": 9.271523178807948e-07,
      "loss": 0.0009,
      "step": 16500
    },
    {
      "epoch": 4.95,
      "learning_rate": 9.245243351203618e-07,
      "loss": 0.0009,
      "step": 16510
    },
    {
      "epoch": 4.95,
      "learning_rate": 9.218963523599287e-07,
      "loss": 0.0014,
      "step": 16520
    },
    {
      "epoch": 4.95,
      "learning_rate": 9.192683695994956e-07,
      "loss": 0.0061,
      "step": 16530
    },
    {
      "epoch": 4.96,
      "learning_rate": 9.166403868390625e-07,
      "loss": 0.0017,
      "step": 16540
    },
    {
      "epoch": 4.96,
      "learning_rate": 9.140124040786293e-07,
      "loss": 0.0009,
      "step": 16550
    },
    {
      "epoch": 4.96,
      "learning_rate": 9.113844213181962e-07,
      "loss": 0.0021,
      "step": 16560
    },
    {
      "epoch": 4.96,
      "learning_rate": 9.087564385577631e-07,
      "loss": 0.0032,
      "step": 16570
    },
    {
      "epoch": 4.97,
      "learning_rate": 9.0612845579733e-07,
      "loss": 0.0005,
      "step": 16580
    },
    {
      "epoch": 4.97,
      "learning_rate": 9.03500473036897e-07,
      "loss": 0.0009,
      "step": 16590
    },
    {
      "epoch": 4.97,
      "learning_rate": 9.008724902764639e-07,
      "loss": 0.0105,
      "step": 16600
    },
    {
      "epoch": 4.97,
      "eval_f1": 0.9956387975196138,
      "eval_f1_0": 0.998639219592666,
      "eval_f1_1": 0.9987463915628702,
      "eval_f1_2": 0.986063261702769,
      "eval_f1_3": 0.9991063172201501,
      "eval_loss": 0.012624002993106842,
      "eval_runtime": 153.1353,
      "eval_samples_per_second": 77.5,
      "eval_steps_per_second": 0.307,
      "step": 16600
    },
    {
      "epoch": 4.98,
      "learning_rate": 8.982445075160308e-07,
      "loss": 0.0014,
      "step": 16610
    },
    {
      "epoch": 4.98,
      "learning_rate": 8.956165247555977e-07,
      "loss": 0.0014,
      "step": 16620
    },
    {
      "epoch": 4.98,
      "learning_rate": 8.929885419951646e-07,
      "loss": 0.0011,
      "step": 16630
    },
    {
      "epoch": 4.99,
      "learning_rate": 8.903605592347315e-07,
      "loss": 0.0006,
      "step": 16640
    },
    {
      "epoch": 4.99,
      "learning_rate": 8.877325764742983e-07,
      "loss": 0.001,
      "step": 16650
    },
    {
      "epoch": 4.99,
      "learning_rate": 8.851045937138652e-07,
      "loss": 0.0011,
      "step": 16660
    },
    {
      "epoch": 4.99,
      "learning_rate": 8.824766109534321e-07,
      "loss": 0.0008,
      "step": 16670
    },
    {
      "epoch": 5.0,
      "learning_rate": 8.798486281929991e-07,
      "loss": 0.0019,
      "step": 16680
    },
    {
      "epoch": 5.0,
      "learning_rate": 8.77220645432566e-07,
      "loss": 0.0013,
      "step": 16690
    },
    {
      "epoch": 5.0,
      "learning_rate": 8.745926626721329e-07,
      "loss": 0.0009,
      "step": 16700
    },
    {
      "epoch": 5.01,
      "learning_rate": 8.719646799116998e-07,
      "loss": 0.0009,
      "step": 16710
    },
    {
      "epoch": 5.01,
      "learning_rate": 8.693366971512668e-07,
      "loss": 0.0017,
      "step": 16720
    },
    {
      "epoch": 5.01,
      "learning_rate": 8.667087143908337e-07,
      "loss": 0.0006,
      "step": 16730
    },
    {
      "epoch": 5.01,
      "learning_rate": 8.640807316304007e-07,
      "loss": 0.0008,
      "step": 16740
    },
    {
      "epoch": 5.02,
      "learning_rate": 8.614527488699676e-07,
      "loss": 0.0008,
      "step": 16750
    },
    {
      "epoch": 5.02,
      "learning_rate": 8.588247661095344e-07,
      "loss": 0.0009,
      "step": 16760
    },
    {
      "epoch": 5.02,
      "learning_rate": 8.561967833491013e-07,
      "loss": 0.0009,
      "step": 16770
    },
    {
      "epoch": 5.03,
      "learning_rate": 8.535688005886682e-07,
      "loss": 0.0011,
      "step": 16780
    },
    {
      "epoch": 5.03,
      "learning_rate": 8.509408178282351e-07,
      "loss": 0.0017,
      "step": 16790
    },
    {
      "epoch": 5.03,
      "learning_rate": 8.48312835067802e-07,
      "loss": 0.0007,
      "step": 16800
    },
    {
      "epoch": 5.03,
      "eval_f1": 0.9952139453310066,
      "eval_f1_0": 0.9985211697171175,
      "eval_f1_1": 0.998777295254449,
      "eval_f1_2": 0.9844325273962575,
      "eval_f1_3": 0.9991247889562022,
      "eval_loss": 0.01218812633305788,
      "eval_runtime": 153.1536,
      "eval_samples_per_second": 77.491,
      "eval_steps_per_second": 0.307,
      "step": 16800
    },
    {
      "epoch": 5.04,
      "learning_rate": 8.456848523073689e-07,
      "loss": 0.0012,
      "step": 16810
    },
    {
      "epoch": 5.04,
      "learning_rate": 8.430568695469359e-07,
      "loss": 0.001,
      "step": 16820
    },
    {
      "epoch": 5.04,
      "learning_rate": 8.404288867865028e-07,
      "loss": 0.0009,
      "step": 16830
    },
    {
      "epoch": 5.04,
      "learning_rate": 8.378009040260697e-07,
      "loss": 0.0007,
      "step": 16840
    },
    {
      "epoch": 5.05,
      "learning_rate": 8.351729212656366e-07,
      "loss": 0.0016,
      "step": 16850
    },
    {
      "epoch": 5.05,
      "learning_rate": 8.325449385052035e-07,
      "loss": 0.0006,
      "step": 16860
    },
    {
      "epoch": 5.05,
      "learning_rate": 8.299169557447703e-07,
      "loss": 0.0014,
      "step": 16870
    },
    {
      "epoch": 5.06,
      "learning_rate": 8.272889729843372e-07,
      "loss": 0.0007,
      "step": 16880
    },
    {
      "epoch": 5.06,
      "learning_rate": 8.246609902239041e-07,
      "loss": 0.0008,
      "step": 16890
    },
    {
      "epoch": 5.06,
      "learning_rate": 8.220330074634711e-07,
      "loss": 0.0015,
      "step": 16900
    },
    {
      "epoch": 5.07,
      "learning_rate": 8.19405024703038e-07,
      "loss": 0.0009,
      "step": 16910
    },
    {
      "epoch": 5.07,
      "learning_rate": 8.167770419426049e-07,
      "loss": 0.001,
      "step": 16920
    },
    {
      "epoch": 5.07,
      "learning_rate": 8.141490591821718e-07,
      "loss": 0.0082,
      "step": 16930
    },
    {
      "epoch": 5.07,
      "learning_rate": 8.115210764217388e-07,
      "loss": 0.0005,
      "step": 16940
    },
    {
      "epoch": 5.08,
      "learning_rate": 8.088930936613057e-07,
      "loss": 0.001,
      "step": 16950
    },
    {
      "epoch": 5.08,
      "learning_rate": 8.062651109008727e-07,
      "loss": 0.0007,
      "step": 16960
    },
    {
      "epoch": 5.08,
      "learning_rate": 8.036371281404394e-07,
      "loss": 0.0012,
      "step": 16970
    },
    {
      "epoch": 5.09,
      "learning_rate": 8.010091453800064e-07,
      "loss": 0.0009,
      "step": 16980
    },
    {
      "epoch": 5.09,
      "learning_rate": 7.983811626195733e-07,
      "loss": 0.0012,
      "step": 16990
    },
    {
      "epoch": 5.09,
      "learning_rate": 7.957531798591402e-07,
      "loss": 0.0009,
      "step": 17000
    },
    {
      "epoch": 5.09,
      "eval_f1": 0.9945871771903947,
      "eval_f1_0": 0.9982992029336855,
      "eval_f1_1": 0.998671439006014,
      "eval_f1_2": 0.9822439160523908,
      "eval_f1_3": 0.9991341507694886,
      "eval_loss": 0.013804233632981777,
      "eval_runtime": 153.0847,
      "eval_samples_per_second": 77.526,
      "eval_steps_per_second": 0.307,
      "step": 17000
    },
    {
      "epoch": 5.1,
      "learning_rate": 7.931251970987071e-07,
      "loss": 0.0012,
      "step": 17010
    },
    {
      "epoch": 5.1,
      "learning_rate": 7.90497214338274e-07,
      "loss": 0.001,
      "step": 17020
    },
    {
      "epoch": 5.1,
      "learning_rate": 7.878692315778409e-07,
      "loss": 0.0011,
      "step": 17030
    },
    {
      "epoch": 5.1,
      "learning_rate": 7.852412488174079e-07,
      "loss": 0.0051,
      "step": 17040
    },
    {
      "epoch": 5.11,
      "learning_rate": 7.826132660569748e-07,
      "loss": 0.0009,
      "step": 17050
    },
    {
      "epoch": 5.11,
      "learning_rate": 7.799852832965417e-07,
      "loss": 0.0008,
      "step": 17060
    },
    {
      "epoch": 5.11,
      "learning_rate": 7.773573005361086e-07,
      "loss": 0.0182,
      "step": 17070
    },
    {
      "epoch": 5.12,
      "learning_rate": 7.747293177756754e-07,
      "loss": 0.001,
      "step": 17080
    },
    {
      "epoch": 5.12,
      "learning_rate": 7.721013350152423e-07,
      "loss": 0.0019,
      "step": 17090
    },
    {
      "epoch": 5.12,
      "learning_rate": 7.694733522548092e-07,
      "loss": 0.0009,
      "step": 17100
    },
    {
      "epoch": 5.13,
      "learning_rate": 7.668453694943761e-07,
      "loss": 0.0015,
      "step": 17110
    },
    {
      "epoch": 5.13,
      "learning_rate": 7.64217386733943e-07,
      "loss": 0.0018,
      "step": 17120
    },
    {
      "epoch": 5.13,
      "learning_rate": 7.6158940397351e-07,
      "loss": 0.0007,
      "step": 17130
    },
    {
      "epoch": 5.13,
      "learning_rate": 7.589614212130769e-07,
      "loss": 0.0008,
      "step": 17140
    },
    {
      "epoch": 5.14,
      "learning_rate": 7.563334384526438e-07,
      "loss": 0.0014,
      "step": 17150
    },
    {
      "epoch": 5.14,
      "learning_rate": 7.537054556922108e-07,
      "loss": 0.0014,
      "step": 17160
    },
    {
      "epoch": 5.14,
      "learning_rate": 7.510774729317777e-07,
      "loss": 0.0008,
      "step": 17170
    },
    {
      "epoch": 5.15,
      "learning_rate": 7.484494901713446e-07,
      "loss": 0.0011,
      "step": 17180
    },
    {
      "epoch": 5.15,
      "learning_rate": 7.458215074109114e-07,
      "loss": 0.0006,
      "step": 17190
    },
    {
      "epoch": 5.15,
      "learning_rate": 7.431935246504783e-07,
      "loss": 0.0012,
      "step": 17200
    },
    {
      "epoch": 5.15,
      "eval_f1": 0.9954414657636388,
      "eval_f1_0": 0.998593031247741,
      "eval_f1_1": 0.9987407110669838,
      "eval_f1_2": 0.9853259366509948,
      "eval_f1_3": 0.9991061840888353,
      "eval_loss": 0.012961289845407009,
      "eval_runtime": 153.1424,
      "eval_samples_per_second": 77.496,
      "eval_steps_per_second": 0.307,
      "step": 17200
    },
    {
      "epoch": 5.16,
      "learning_rate": 7.405655418900453e-07,
      "loss": 0.0012,
      "step": 17210
    },
    {
      "epoch": 5.16,
      "learning_rate": 7.379375591296122e-07,
      "loss": 0.0008,
      "step": 17220
    },
    {
      "epoch": 5.16,
      "learning_rate": 7.353095763691791e-07,
      "loss": 0.0032,
      "step": 17230
    },
    {
      "epoch": 5.16,
      "learning_rate": 7.32681593608746e-07,
      "loss": 0.0016,
      "step": 17240
    },
    {
      "epoch": 5.17,
      "learning_rate": 7.300536108483129e-07,
      "loss": 0.001,
      "step": 17250
    },
    {
      "epoch": 5.17,
      "learning_rate": 7.274256280878798e-07,
      "loss": 0.0143,
      "step": 17260
    },
    {
      "epoch": 5.17,
      "learning_rate": 7.247976453274468e-07,
      "loss": 0.0011,
      "step": 17270
    },
    {
      "epoch": 5.18,
      "learning_rate": 7.221696625670137e-07,
      "loss": 0.0108,
      "step": 17280
    },
    {
      "epoch": 5.18,
      "learning_rate": 7.195416798065805e-07,
      "loss": 0.0023,
      "step": 17290
    },
    {
      "epoch": 5.18,
      "learning_rate": 7.169136970461474e-07,
      "loss": 0.0007,
      "step": 17300
    },
    {
      "epoch": 5.19,
      "learning_rate": 7.142857142857143e-07,
      "loss": 0.001,
      "step": 17310
    },
    {
      "epoch": 5.19,
      "learning_rate": 7.116577315252812e-07,
      "loss": 0.001,
      "step": 17320
    },
    {
      "epoch": 5.19,
      "learning_rate": 7.090297487648481e-07,
      "loss": 0.0013,
      "step": 17330
    },
    {
      "epoch": 5.19,
      "learning_rate": 7.06401766004415e-07,
      "loss": 0.0014,
      "step": 17340
    },
    {
      "epoch": 5.2,
      "learning_rate": 7.03773783243982e-07,
      "loss": 0.0013,
      "step": 17350
    },
    {
      "epoch": 5.2,
      "learning_rate": 7.011458004835489e-07,
      "loss": 0.0009,
      "step": 17360
    },
    {
      "epoch": 5.2,
      "learning_rate": 6.985178177231158e-07,
      "loss": 0.0011,
      "step": 17370
    },
    {
      "epoch": 5.21,
      "learning_rate": 6.958898349626827e-07,
      "loss": 0.0007,
      "step": 17380
    },
    {
      "epoch": 5.21,
      "learning_rate": 6.932618522022497e-07,
      "loss": 0.0011,
      "step": 17390
    },
    {
      "epoch": 5.21,
      "learning_rate": 6.906338694418165e-07,
      "loss": 0.0009,
      "step": 17400
    },
    {
      "epoch": 5.21,
      "eval_f1": 0.9947430710226786,
      "eval_f1_0": 0.9983573068836467,
      "eval_f1_1": 0.9987637923401124,
      "eval_f1_2": 0.982729464060428,
      "eval_f1_3": 0.9991217208065272,
      "eval_loss": 0.015339343808591366,
      "eval_runtime": 153.1884,
      "eval_samples_per_second": 77.473,
      "eval_steps_per_second": 0.307,
      "step": 17400
    },
    {
      "epoch": 5.22,
      "learning_rate": 6.880058866813834e-07,
      "loss": 0.0009,
      "step": 17410
    },
    {
      "epoch": 5.22,
      "learning_rate": 6.853779039209503e-07,
      "loss": 0.0017,
      "step": 17420
    },
    {
      "epoch": 5.22,
      "learning_rate": 6.827499211605173e-07,
      "loss": 0.0009,
      "step": 17430
    },
    {
      "epoch": 5.22,
      "learning_rate": 6.801219384000842e-07,
      "loss": 0.002,
      "step": 17440
    },
    {
      "epoch": 5.23,
      "learning_rate": 6.774939556396511e-07,
      "loss": 0.0007,
      "step": 17450
    },
    {
      "epoch": 5.23,
      "learning_rate": 6.74865972879218e-07,
      "loss": 0.0007,
      "step": 17460
    },
    {
      "epoch": 5.23,
      "learning_rate": 6.722379901187849e-07,
      "loss": 0.002,
      "step": 17470
    },
    {
      "epoch": 5.24,
      "learning_rate": 6.696100073583518e-07,
      "loss": 0.0005,
      "step": 17480
    },
    {
      "epoch": 5.24,
      "learning_rate": 6.669820245979187e-07,
      "loss": 0.0013,
      "step": 17490
    },
    {
      "epoch": 5.24,
      "learning_rate": 6.643540418374857e-07,
      "loss": 0.0005,
      "step": 17500
    },
    {
      "epoch": 5.25,
      "learning_rate": 6.617260590770525e-07,
      "loss": 0.0006,
      "step": 17510
    },
    {
      "epoch": 5.25,
      "learning_rate": 6.590980763166194e-07,
      "loss": 0.001,
      "step": 17520
    },
    {
      "epoch": 5.25,
      "learning_rate": 6.564700935561863e-07,
      "loss": 0.0013,
      "step": 17530
    },
    {
      "epoch": 5.25,
      "learning_rate": 6.538421107957532e-07,
      "loss": 0.001,
      "step": 17540
    },
    {
      "epoch": 5.26,
      "learning_rate": 6.512141280353201e-07,
      "loss": 0.0008,
      "step": 17550
    },
    {
      "epoch": 5.26,
      "learning_rate": 6.48586145274887e-07,
      "loss": 0.001,
      "step": 17560
    },
    {
      "epoch": 5.26,
      "learning_rate": 6.459581625144539e-07,
      "loss": 0.0013,
      "step": 17570
    },
    {
      "epoch": 5.27,
      "learning_rate": 6.433301797540209e-07,
      "loss": 0.0008,
      "step": 17580
    },
    {
      "epoch": 5.27,
      "learning_rate": 6.407021969935878e-07,
      "loss": 0.0012,
      "step": 17590
    },
    {
      "epoch": 5.27,
      "learning_rate": 6.380742142331547e-07,
      "loss": 0.0008,
      "step": 17600
    },
    {
      "epoch": 5.27,
      "eval_f1": 0.9949769082175013,
      "eval_f1_0": 0.9984244829968855,
      "eval_f1_1": 0.9985524501937416,
      "eval_f1_2": 0.9837841617872118,
      "eval_f1_3": 0.9991465378921658,
      "eval_loss": 0.014890719205141068,
      "eval_runtime": 153.1661,
      "eval_samples_per_second": 77.485,
      "eval_steps_per_second": 0.307,
      "step": 17600
    },
    {
      "epoch": 5.28,
      "learning_rate": 6.354462314727215e-07,
      "loss": 0.0007,
      "step": 17610
    },
    {
      "epoch": 5.28,
      "learning_rate": 6.328182487122885e-07,
      "loss": 0.0006,
      "step": 17620
    },
    {
      "epoch": 5.28,
      "learning_rate": 6.301902659518554e-07,
      "loss": 0.0007,
      "step": 17630
    },
    {
      "epoch": 5.28,
      "learning_rate": 6.275622831914223e-07,
      "loss": 0.0011,
      "step": 17640
    },
    {
      "epoch": 5.29,
      "learning_rate": 6.249343004309892e-07,
      "loss": 0.0007,
      "step": 17650
    },
    {
      "epoch": 5.29,
      "learning_rate": 6.223063176705562e-07,
      "loss": 0.0009,
      "step": 17660
    },
    {
      "epoch": 5.29,
      "learning_rate": 6.196783349101231e-07,
      "loss": 0.0014,
      "step": 17670
    },
    {
      "epoch": 5.3,
      "learning_rate": 6.1705035214969e-07,
      "loss": 0.0007,
      "step": 17680
    },
    {
      "epoch": 5.3,
      "learning_rate": 6.144223693892568e-07,
      "loss": 0.0009,
      "step": 17690
    },
    {
      "epoch": 5.3,
      "learning_rate": 6.117943866288238e-07,
      "loss": 0.0007,
      "step": 17700
    },
    {
      "epoch": 5.31,
      "learning_rate": 6.091664038683907e-07,
      "loss": 0.0011,
      "step": 17710
    },
    {
      "epoch": 5.31,
      "learning_rate": 6.065384211079576e-07,
      "loss": 0.0011,
      "step": 17720
    },
    {
      "epoch": 5.31,
      "learning_rate": 6.039104383475245e-07,
      "loss": 0.001,
      "step": 17730
    },
    {
      "epoch": 5.31,
      "learning_rate": 6.012824555870914e-07,
      "loss": 0.0016,
      "step": 17740
    },
    {
      "epoch": 5.32,
      "learning_rate": 5.986544728266583e-07,
      "loss": 0.0007,
      "step": 17750
    },
    {
      "epoch": 5.32,
      "learning_rate": 5.960264900662252e-07,
      "loss": 0.0011,
      "step": 17760
    },
    {
      "epoch": 5.32,
      "learning_rate": 5.933985073057921e-07,
      "loss": 0.0008,
      "step": 17770
    },
    {
      "epoch": 5.33,
      "learning_rate": 5.90770524545359e-07,
      "loss": 0.0006,
      "step": 17780
    },
    {
      "epoch": 5.33,
      "learning_rate": 5.881425417849259e-07,
      "loss": 0.0011,
      "step": 17790
    },
    {
      "epoch": 5.33,
      "learning_rate": 5.855145590244928e-07,
      "loss": 0.001,
      "step": 17800
    },
    {
      "epoch": 5.33,
      "eval_f1": 0.9954665894094483,
      "eval_f1_0": 0.998584781766185,
      "eval_f1_1": 0.9986139574295141,
      "eval_f1_2": 0.9855117779137499,
      "eval_f1_3": 0.9991558405283445,
      "eval_loss": 0.013635880313813686,
      "eval_runtime": 153.1797,
      "eval_samples_per_second": 77.478,
      "eval_steps_per_second": 0.307,
      "step": 17800
    },
    {
      "epoch": 5.34,
      "learning_rate": 5.828865762640597e-07,
      "loss": 0.0013,
      "step": 17810
    },
    {
      "epoch": 5.34,
      "learning_rate": 5.802585935036266e-07,
      "loss": 0.0011,
      "step": 17820
    },
    {
      "epoch": 5.34,
      "learning_rate": 5.776306107431935e-07,
      "loss": 0.0011,
      "step": 17830
    },
    {
      "epoch": 5.34,
      "learning_rate": 5.750026279827606e-07,
      "loss": 0.0115,
      "step": 17840
    },
    {
      "epoch": 5.35,
      "learning_rate": 5.723746452223274e-07,
      "loss": 0.0011,
      "step": 17850
    },
    {
      "epoch": 5.35,
      "learning_rate": 5.697466624618943e-07,
      "loss": 0.0005,
      "step": 17860
    },
    {
      "epoch": 5.35,
      "learning_rate": 5.671186797014612e-07,
      "loss": 0.0007,
      "step": 17870
    },
    {
      "epoch": 5.36,
      "learning_rate": 5.644906969410282e-07,
      "loss": 0.0008,
      "step": 17880
    },
    {
      "epoch": 5.36,
      "learning_rate": 5.618627141805951e-07,
      "loss": 0.0018,
      "step": 17890
    },
    {
      "epoch": 5.36,
      "learning_rate": 5.59234731420162e-07,
      "loss": 0.0006,
      "step": 17900
    },
    {
      "epoch": 5.37,
      "learning_rate": 5.566067486597288e-07,
      "loss": 0.0008,
      "step": 17910
    },
    {
      "epoch": 5.37,
      "learning_rate": 5.539787658992958e-07,
      "loss": 0.0021,
      "step": 17920
    },
    {
      "epoch": 5.37,
      "learning_rate": 5.513507831388627e-07,
      "loss": 0.0008,
      "step": 17930
    },
    {
      "epoch": 5.37,
      "learning_rate": 5.487228003784296e-07,
      "loss": 0.0008,
      "step": 17940
    },
    {
      "epoch": 5.38,
      "learning_rate": 5.460948176179965e-07,
      "loss": 0.0017,
      "step": 17950
    },
    {
      "epoch": 5.38,
      "learning_rate": 5.434668348575634e-07,
      "loss": 0.0006,
      "step": 17960
    },
    {
      "epoch": 5.38,
      "learning_rate": 5.408388520971303e-07,
      "loss": 0.0007,
      "step": 17970
    },
    {
      "epoch": 5.39,
      "learning_rate": 5.382108693366972e-07,
      "loss": 0.0009,
      "step": 17980
    },
    {
      "epoch": 5.39,
      "learning_rate": 5.355828865762641e-07,
      "loss": 0.0014,
      "step": 17990
    },
    {
      "epoch": 5.39,
      "learning_rate": 5.32954903815831e-07,
      "loss": 0.0009,
      "step": 18000
    },
    {
      "epoch": 5.39,
      "eval_f1": 0.9945377485487029,
      "eval_f1_0": 0.9982842337181957,
      "eval_f1_1": 0.9987349633139361,
      "eval_f1_2": 0.981985264567984,
      "eval_f1_3": 0.9991465325946961,
      "eval_loss": 0.015714893117547035,
      "eval_runtime": 153.1648,
      "eval_samples_per_second": 77.485,
      "eval_steps_per_second": 0.307,
      "step": 18000
    },
    {
      "epoch": 5.4,
      "learning_rate": 5.303269210553979e-07,
      "loss": 0.0007,
      "step": 18010
    },
    {
      "epoch": 5.4,
      "learning_rate": 5.276989382949648e-07,
      "loss": 0.0009,
      "step": 18020
    },
    {
      "epoch": 5.4,
      "learning_rate": 5.250709555345317e-07,
      "loss": 0.001,
      "step": 18030
    },
    {
      "epoch": 5.4,
      "learning_rate": 5.224429727740986e-07,
      "loss": 0.0008,
      "step": 18040
    },
    {
      "epoch": 5.41,
      "learning_rate": 5.198149900136655e-07,
      "loss": 0.0006,
      "step": 18050
    },
    {
      "epoch": 5.41,
      "learning_rate": 5.171870072532324e-07,
      "loss": 0.0009,
      "step": 18060
    },
    {
      "epoch": 5.41,
      "learning_rate": 5.145590244927994e-07,
      "loss": 0.0006,
      "step": 18070
    },
    {
      "epoch": 5.42,
      "learning_rate": 5.119310417323663e-07,
      "loss": 0.0009,
      "step": 18080
    },
    {
      "epoch": 5.42,
      "learning_rate": 5.093030589719332e-07,
      "loss": 0.0009,
      "step": 18090
    },
    {
      "epoch": 5.42,
      "learning_rate": 5.066750762115001e-07,
      "loss": 0.0007,
      "step": 18100
    },
    {
      "epoch": 5.43,
      "learning_rate": 5.040470934510671e-07,
      "loss": 0.0008,
      "step": 18110
    },
    {
      "epoch": 5.43,
      "learning_rate": 5.014191106906339e-07,
      "loss": 0.0008,
      "step": 18120
    },
    {
      "epoch": 5.43,
      "learning_rate": 4.987911279302008e-07,
      "loss": 0.0008,
      "step": 18130
    },
    {
      "epoch": 5.43,
      "learning_rate": 4.961631451697677e-07,
      "loss": 0.0011,
      "step": 18140
    },
    {
      "epoch": 5.44,
      "learning_rate": 4.935351624093347e-07,
      "loss": 0.0023,
      "step": 18150
    },
    {
      "epoch": 5.44,
      "learning_rate": 4.909071796489016e-07,
      "loss": 0.0032,
      "step": 18160
    },
    {
      "epoch": 5.44,
      "learning_rate": 4.882791968884684e-07,
      "loss": 0.0009,
      "step": 18170
    },
    {
      "epoch": 5.45,
      "learning_rate": 4.856512141280353e-07,
      "loss": 0.0017,
      "step": 18180
    },
    {
      "epoch": 5.45,
      "learning_rate": 4.830232313676023e-07,
      "loss": 0.0101,
      "step": 18190
    },
    {
      "epoch": 5.45,
      "learning_rate": 4.803952486071692e-07,
      "loss": 0.0007,
      "step": 18200
    },
    {
      "epoch": 5.45,
      "eval_f1": 0.9907806831919377,
      "eval_f1_0": 0.9970540101211753,
      "eval_f1_1": 0.9987080499605131,
      "eval_f1_2": 0.9682172462675949,
      "eval_f1_3": 0.9991434264184672,
      "eval_loss": 0.02452138625085354,
      "eval_runtime": 153.1312,
      "eval_samples_per_second": 77.502,
      "eval_steps_per_second": 0.307,
      "step": 18200
    },
    {
      "epoch": 5.46,
      "learning_rate": 4.777672658467361e-07,
      "loss": 0.0009,
      "step": 18210
    },
    {
      "epoch": 5.46,
      "learning_rate": 4.75139283086303e-07,
      "loss": 0.0008,
      "step": 18220
    },
    {
      "epoch": 5.46,
      "learning_rate": 4.7251130032586987e-07,
      "loss": 0.0011,
      "step": 18230
    },
    {
      "epoch": 5.46,
      "learning_rate": 4.698833175654368e-07,
      "loss": 0.0014,
      "step": 18240
    },
    {
      "epoch": 5.47,
      "learning_rate": 4.6725533480500373e-07,
      "loss": 0.0015,
      "step": 18250
    },
    {
      "epoch": 5.47,
      "learning_rate": 4.6462735204457064e-07,
      "loss": 0.0008,
      "step": 18260
    },
    {
      "epoch": 5.47,
      "learning_rate": 4.6199936928413754e-07,
      "loss": 0.0008,
      "step": 18270
    },
    {
      "epoch": 5.48,
      "learning_rate": 4.593713865237044e-07,
      "loss": 0.001,
      "step": 18280
    },
    {
      "epoch": 5.48,
      "learning_rate": 4.5674340376327135e-07,
      "loss": 0.0005,
      "step": 18290
    },
    {
      "epoch": 5.48,
      "learning_rate": 4.5411542100283825e-07,
      "loss": 0.0005,
      "step": 18300
    },
    {
      "epoch": 5.49,
      "learning_rate": 4.5148743824240516e-07,
      "loss": 0.0007,
      "step": 18310
    },
    {
      "epoch": 5.49,
      "learning_rate": 4.488594554819721e-07,
      "loss": 0.0009,
      "step": 18320
    },
    {
      "epoch": 5.49,
      "learning_rate": 4.4623147272153897e-07,
      "loss": 0.0009,
      "step": 18330
    },
    {
      "epoch": 5.49,
      "learning_rate": 4.4360348996110587e-07,
      "loss": 0.0009,
      "step": 18340
    },
    {
      "epoch": 5.5,
      "learning_rate": 4.409755072006728e-07,
      "loss": 0.001,
      "step": 18350
    },
    {
      "epoch": 5.5,
      "learning_rate": 4.3834752444023973e-07,
      "loss": 0.0007,
      "step": 18360
    },
    {
      "epoch": 5.5,
      "learning_rate": 4.3571954167980664e-07,
      "loss": 0.0017,
      "step": 18370
    },
    {
      "epoch": 5.51,
      "learning_rate": 4.3309155891937354e-07,
      "loss": 0.001,
      "step": 18380
    },
    {
      "epoch": 5.51,
      "learning_rate": 4.304635761589404e-07,
      "loss": 0.0008,
      "step": 18390
    },
    {
      "epoch": 5.51,
      "learning_rate": 4.2783559339850735e-07,
      "loss": 0.0008,
      "step": 18400
    },
    {
      "epoch": 5.51,
      "eval_f1": 0.993857841784884,
      "eval_f1_0": 0.9980656120138868,
      "eval_f1_1": 0.998681128248776,
      "eval_f1_2": 0.9795411845083052,
      "eval_f1_3": 0.9991434423685681,
      "eval_loss": 0.01854228787124157,
      "eval_runtime": 153.1554,
      "eval_samples_per_second": 77.49,
      "eval_steps_per_second": 0.307,
      "step": 18400
    },
    {
      "epoch": 5.52,
      "learning_rate": 4.2520761063807425e-07,
      "loss": 0.0016,
      "step": 18410
    },
    {
      "epoch": 5.52,
      "learning_rate": 4.2257962787764116e-07,
      "loss": 0.0008,
      "step": 18420
    },
    {
      "epoch": 5.52,
      "learning_rate": 4.199516451172081e-07,
      "loss": 0.0006,
      "step": 18430
    },
    {
      "epoch": 5.52,
      "learning_rate": 4.1732366235677497e-07,
      "loss": 0.002,
      "step": 18440
    },
    {
      "epoch": 5.53,
      "learning_rate": 4.1469567959634187e-07,
      "loss": 0.0009,
      "step": 18450
    },
    {
      "epoch": 5.53,
      "learning_rate": 4.120676968359088e-07,
      "loss": 0.0007,
      "step": 18460
    },
    {
      "epoch": 5.53,
      "learning_rate": 4.0943971407547573e-07,
      "loss": 0.0011,
      "step": 18470
    },
    {
      "epoch": 5.54,
      "learning_rate": 4.0681173131504264e-07,
      "loss": 0.001,
      "step": 18480
    },
    {
      "epoch": 5.54,
      "learning_rate": 4.041837485546095e-07,
      "loss": 0.0006,
      "step": 18490
    },
    {
      "epoch": 5.54,
      "learning_rate": 4.015557657941764e-07,
      "loss": 0.0013,
      "step": 18500
    },
    {
      "epoch": 5.55,
      "learning_rate": 3.9892778303374335e-07,
      "loss": 0.0008,
      "step": 18510
    },
    {
      "epoch": 5.55,
      "learning_rate": 3.9629980027331025e-07,
      "loss": 0.001,
      "step": 18520
    },
    {
      "epoch": 5.55,
      "learning_rate": 3.9367181751287716e-07,
      "loss": 0.0007,
      "step": 18530
    },
    {
      "epoch": 5.55,
      "learning_rate": 3.910438347524441e-07,
      "loss": 0.0006,
      "step": 18540
    },
    {
      "epoch": 5.56,
      "learning_rate": 3.8841585199201097e-07,
      "loss": 0.0007,
      "step": 18550
    },
    {
      "epoch": 5.56,
      "learning_rate": 3.8578786923157787e-07,
      "loss": 0.001,
      "step": 18560
    },
    {
      "epoch": 5.56,
      "learning_rate": 3.8315988647114477e-07,
      "loss": 0.0008,
      "step": 18570
    },
    {
      "epoch": 5.57,
      "learning_rate": 3.8053190371071173e-07,
      "loss": 0.0008,
      "step": 18580
    },
    {
      "epoch": 5.57,
      "learning_rate": 3.7790392095027863e-07,
      "loss": 0.0008,
      "step": 18590
    },
    {
      "epoch": 5.57,
      "learning_rate": 3.752759381898455e-07,
      "loss": 0.0012,
      "step": 18600
    },
    {
      "epoch": 5.57,
      "eval_f1": 0.994690157199797,
      "eval_f1_0": 0.998336381654215,
      "eval_f1_1": 0.9987022422263926,
      "eval_f1_2": 0.9825940663663268,
      "eval_f1_3": 0.9991279385522539,
      "eval_loss": 0.016709227114915848,
      "eval_runtime": 153.1387,
      "eval_samples_per_second": 77.498,
      "eval_steps_per_second": 0.307,
      "step": 18600
    },
    {
      "epoch": 5.57,
      "step": 18600,
      "total_flos": 1.611826247266992e+18,
      "train_loss": 0.020591222444869658,
      "train_runtime": 40906.9498,
      "train_samples_per_second": 15.665,
      "train_steps_per_second": 0.49
    }
  ],
  "logging_steps": 10,
  "max_steps": 20028,
  "num_train_epochs": 6,
  "save_steps": 200,
  "total_flos": 1.611826247266992e+18,
  "trial_name": null,
  "trial_params": null
}