{
  "best_metric": 1.1161140203475952,
  "best_model_checkpoint": "square_run_age_gender/checkpoint-261",
  "epoch": 35.0,
  "eval_steps": 500,
  "global_step": 1015,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.06896551724137931,
      "grad_norm": 13.471597671508789,
      "learning_rate": 1.96078431372549e-06,
      "loss": 1.979,
      "step": 2
    },
    {
      "epoch": 0.13793103448275862,
      "grad_norm": 6.632089138031006,
      "learning_rate": 3.92156862745098e-06,
      "loss": 1.8207,
      "step": 4
    },
    {
      "epoch": 0.20689655172413793,
      "grad_norm": 10.463000297546387,
      "learning_rate": 5.882352941176471e-06,
      "loss": 1.9296,
      "step": 6
    },
    {
      "epoch": 0.27586206896551724,
      "grad_norm": 7.69188117980957,
      "learning_rate": 7.84313725490196e-06,
      "loss": 1.9443,
      "step": 8
    },
    {
      "epoch": 0.3448275862068966,
      "grad_norm": 10.529653549194336,
      "learning_rate": 9.803921568627451e-06,
      "loss": 1.9129,
      "step": 10
    },
    {
      "epoch": 0.41379310344827586,
      "grad_norm": 9.45837116241455,
      "learning_rate": 1.1764705882352942e-05,
      "loss": 2.0835,
      "step": 12
    },
    {
      "epoch": 0.4827586206896552,
      "grad_norm": 6.899144649505615,
      "learning_rate": 1.3725490196078432e-05,
      "loss": 1.905,
      "step": 14
    },
    {
      "epoch": 0.5517241379310345,
      "grad_norm": 6.275972843170166,
      "learning_rate": 1.568627450980392e-05,
      "loss": 2.0193,
      "step": 16
    },
    {
      "epoch": 0.6206896551724138,
      "grad_norm": 7.337122440338135,
      "learning_rate": 1.7647058823529414e-05,
      "loss": 1.7395,
      "step": 18
    },
    {
      "epoch": 0.6896551724137931,
      "grad_norm": 8.741500854492188,
      "learning_rate": 1.9607843137254903e-05,
      "loss": 1.8184,
      "step": 20
    },
    {
      "epoch": 0.7586206896551724,
      "grad_norm": 5.90638542175293,
      "learning_rate": 2.1568627450980395e-05,
      "loss": 1.8613,
      "step": 22
    },
    {
      "epoch": 0.8275862068965517,
      "grad_norm": 5.549325942993164,
      "learning_rate": 2.3529411764705884e-05,
      "loss": 1.8278,
      "step": 24
    },
    {
      "epoch": 0.896551724137931,
      "grad_norm": 9.570854187011719,
      "learning_rate": 2.5490196078431373e-05,
      "loss": 1.8713,
      "step": 26
    },
    {
      "epoch": 0.9655172413793104,
      "grad_norm": 5.850081920623779,
      "learning_rate": 2.7450980392156865e-05,
      "loss": 1.8891,
      "step": 28
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.25757575757575757,
      "eval_f1_macro": 0.17420690764344018,
      "eval_f1_micro": 0.25757575757575757,
      "eval_f1_weighted": 0.2100702351405982,
      "eval_loss": 1.867130160331726,
      "eval_precision_macro": 0.1681240063593005,
      "eval_precision_micro": 0.25757575757575757,
      "eval_precision_weighted": 0.20448824492942141,
      "eval_recall_macro": 0.21421012849584278,
      "eval_recall_micro": 0.25757575757575757,
      "eval_recall_weighted": 0.25757575757575757,
      "eval_runtime": 2.1698,
      "eval_samples_per_second": 60.835,
      "eval_steps_per_second": 7.835,
      "step": 29
    },
    {
      "epoch": 1.0344827586206897,
      "grad_norm": 8.4002103805542,
      "learning_rate": 2.9411764705882354e-05,
      "loss": 1.8553,
      "step": 30
    },
    {
      "epoch": 1.103448275862069,
      "grad_norm": 6.214775085449219,
      "learning_rate": 3.137254901960784e-05,
      "loss": 1.8232,
      "step": 32
    },
    {
      "epoch": 1.1724137931034484,
      "grad_norm": 5.48581600189209,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 1.9136,
      "step": 34
    },
    {
      "epoch": 1.2413793103448276,
      "grad_norm": 3.806295871734619,
      "learning_rate": 3.529411764705883e-05,
      "loss": 1.9254,
      "step": 36
    },
    {
      "epoch": 1.3103448275862069,
      "grad_norm": 5.554256439208984,
      "learning_rate": 3.725490196078432e-05,
      "loss": 1.8243,
      "step": 38
    },
    {
      "epoch": 1.3793103448275863,
      "grad_norm": 7.334174156188965,
      "learning_rate": 3.9215686274509805e-05,
      "loss": 1.9214,
      "step": 40
    },
    {
      "epoch": 1.4482758620689655,
      "grad_norm": 4.776826858520508,
      "learning_rate": 4.11764705882353e-05,
      "loss": 1.8654,
      "step": 42
    },
    {
      "epoch": 1.5172413793103448,
      "grad_norm": 10.249964714050293,
      "learning_rate": 4.313725490196079e-05,
      "loss": 1.9152,
      "step": 44
    },
    {
      "epoch": 1.5862068965517242,
      "grad_norm": 5.083812713623047,
      "learning_rate": 4.5098039215686275e-05,
      "loss": 1.9904,
      "step": 46
    },
    {
      "epoch": 1.6551724137931034,
      "grad_norm": 4.7975029945373535,
      "learning_rate": 4.705882352941177e-05,
      "loss": 1.839,
      "step": 48
    },
    {
      "epoch": 1.7241379310344827,
      "grad_norm": 4.822813987731934,
      "learning_rate": 4.901960784313725e-05,
      "loss": 1.9303,
      "step": 50
    },
    {
      "epoch": 1.793103448275862,
      "grad_norm": 6.845904350280762,
      "learning_rate": 5.0980392156862745e-05,
      "loss": 1.8255,
      "step": 52
    },
    {
      "epoch": 1.8620689655172413,
      "grad_norm": 7.084125518798828,
      "learning_rate": 5.294117647058824e-05,
      "loss": 1.871,
      "step": 54
    },
    {
      "epoch": 1.9310344827586206,
      "grad_norm": 8.454116821289062,
      "learning_rate": 5.490196078431373e-05,
      "loss": 1.817,
      "step": 56
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.273526430130005,
      "learning_rate": 5.6862745098039215e-05,
      "loss": 1.8327,
      "step": 58
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.3181818181818182,
      "eval_f1_macro": 0.15698350488823806,
      "eval_f1_micro": 0.3181818181818182,
      "eval_f1_weighted": 0.19373566841158035,
      "eval_loss": 1.8123832941055298,
      "eval_precision_macro": 0.13350340136054423,
      "eval_precision_micro": 0.3181818181818182,
      "eval_precision_weighted": 0.16110209235209236,
      "eval_recall_macro": 0.25083144368858656,
      "eval_recall_micro": 0.3181818181818182,
      "eval_recall_weighted": 0.3181818181818182,
      "eval_runtime": 2.1978,
      "eval_samples_per_second": 60.059,
      "eval_steps_per_second": 7.735,
      "step": 58
    },
    {
      "epoch": 2.0689655172413794,
      "grad_norm": 7.48805570602417,
      "learning_rate": 5.882352941176471e-05,
      "loss": 1.875,
      "step": 60
    },
    {
      "epoch": 2.1379310344827585,
      "grad_norm": 3.892385721206665,
      "learning_rate": 6.078431372549019e-05,
      "loss": 1.7235,
      "step": 62
    },
    {
      "epoch": 2.206896551724138,
      "grad_norm": 8.482718467712402,
      "learning_rate": 6.274509803921569e-05,
      "loss": 1.8003,
      "step": 64
    },
    {
      "epoch": 2.2758620689655173,
      "grad_norm": 13.920659065246582,
      "learning_rate": 6.470588235294118e-05,
      "loss": 1.984,
      "step": 66
    },
    {
      "epoch": 2.344827586206897,
      "grad_norm": 7.427146911621094,
      "learning_rate": 6.666666666666667e-05,
      "loss": 1.7298,
      "step": 68
    },
    {
      "epoch": 2.413793103448276,
      "grad_norm": 9.012772560119629,
      "learning_rate": 6.862745098039216e-05,
      "loss": 1.8282,
      "step": 70
    },
    {
      "epoch": 2.4827586206896552,
      "grad_norm": 8.024530410766602,
      "learning_rate": 7.058823529411765e-05,
      "loss": 1.8988,
      "step": 72
    },
    {
      "epoch": 2.5517241379310347,
      "grad_norm": 6.818090438842773,
      "learning_rate": 7.254901960784314e-05,
      "loss": 1.6532,
      "step": 74
    },
    {
      "epoch": 2.6206896551724137,
      "grad_norm": 10.93878173828125,
      "learning_rate": 7.450980392156864e-05,
      "loss": 2.0298,
      "step": 76
    },
    {
      "epoch": 2.689655172413793,
      "grad_norm": 9.51241397857666,
      "learning_rate": 7.647058823529411e-05,
      "loss": 2.0224,
      "step": 78
    },
    {
      "epoch": 2.7586206896551726,
      "grad_norm": 9.287165641784668,
      "learning_rate": 7.843137254901961e-05,
      "loss": 1.8984,
      "step": 80
    },
    {
      "epoch": 2.8275862068965516,
      "grad_norm": 8.898433685302734,
      "learning_rate": 8.039215686274511e-05,
      "loss": 1.746,
      "step": 82
    },
    {
      "epoch": 2.896551724137931,
      "grad_norm": 6.119718074798584,
      "learning_rate": 8.23529411764706e-05,
      "loss": 1.9194,
      "step": 84
    },
    {
      "epoch": 2.9655172413793105,
      "grad_norm": 6.862753391265869,
      "learning_rate": 8.431372549019608e-05,
      "loss": 1.9127,
      "step": 86
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.3181818181818182,
      "eval_f1_macro": 0.20846518382633952,
      "eval_f1_micro": 0.3181818181818182,
      "eval_f1_weighted": 0.25755123465797625,
      "eval_loss": 1.7830312252044678,
      "eval_precision_macro": 0.21283015309910777,
      "eval_precision_micro": 0.3181818181818182,
      "eval_precision_weighted": 0.2617880187903288,
      "eval_recall_macro": 0.26250188964474674,
      "eval_recall_micro": 0.3181818181818182,
      "eval_recall_weighted": 0.3181818181818182,
      "eval_runtime": 2.2371,
      "eval_samples_per_second": 59.004,
      "eval_steps_per_second": 7.599,
      "step": 87
    },
    {
      "epoch": 3.0344827586206895,
      "grad_norm": 10.097410202026367,
      "learning_rate": 8.627450980392158e-05,
      "loss": 1.896,
      "step": 88
    },
    {
      "epoch": 3.103448275862069,
      "grad_norm": 6.835166931152344,
      "learning_rate": 8.823529411764706e-05,
      "loss": 1.5849,
      "step": 90
    },
    {
      "epoch": 3.1724137931034484,
      "grad_norm": 7.843909740447998,
      "learning_rate": 9.019607843137255e-05,
      "loss": 1.7373,
      "step": 92
    },
    {
      "epoch": 3.2413793103448274,
      "grad_norm": 7.719568252563477,
      "learning_rate": 9.215686274509804e-05,
      "loss": 1.5069,
      "step": 94
    },
    {
      "epoch": 3.310344827586207,
      "grad_norm": 8.885810852050781,
      "learning_rate": 9.411764705882353e-05,
      "loss": 1.523,
      "step": 96
    },
    {
      "epoch": 3.3793103448275863,
      "grad_norm": 6.505782127380371,
      "learning_rate": 9.607843137254903e-05,
      "loss": 1.5585,
      "step": 98
    },
    {
      "epoch": 3.4482758620689653,
      "grad_norm": 7.679609298706055,
      "learning_rate": 9.80392156862745e-05,
      "loss": 1.5167,
      "step": 100
    },
    {
      "epoch": 3.5172413793103448,
      "grad_norm": 12.342342376708984,
      "learning_rate": 0.0001,
      "loss": 1.9155,
      "step": 102
    },
    {
      "epoch": 3.586206896551724,
      "grad_norm": 5.502551078796387,
      "learning_rate": 9.978094194961665e-05,
      "loss": 1.3553,
      "step": 104
    },
    {
      "epoch": 3.655172413793103,
      "grad_norm": 8.53254222869873,
      "learning_rate": 9.95618838992333e-05,
      "loss": 1.6346,
      "step": 106
    },
    {
      "epoch": 3.7241379310344827,
      "grad_norm": 11.95875072479248,
      "learning_rate": 9.934282584884996e-05,
      "loss": 1.5988,
      "step": 108
    },
    {
      "epoch": 3.793103448275862,
      "grad_norm": 7.445318222045898,
      "learning_rate": 9.912376779846659e-05,
      "loss": 1.613,
      "step": 110
    },
    {
      "epoch": 3.862068965517241,
      "grad_norm": 12.528891563415527,
      "learning_rate": 9.890470974808325e-05,
      "loss": 1.7571,
      "step": 112
    },
    {
      "epoch": 3.9310344827586206,
      "grad_norm": 9.875731468200684,
      "learning_rate": 9.86856516976999e-05,
      "loss": 1.53,
      "step": 114
    },
    {
      "epoch": 4.0,
      "grad_norm": 6.541798114776611,
      "learning_rate": 9.846659364731654e-05,
      "loss": 1.4498,
      "step": 116
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.38636363636363635,
      "eval_f1_macro": 0.29356560009870114,
      "eval_f1_micro": 0.38636363636363635,
      "eval_f1_weighted": 0.3437889854048391,
      "eval_loss": 1.579649806022644,
      "eval_precision_macro": 0.43422035480859006,
      "eval_precision_micro": 0.38636363636363635,
      "eval_precision_weighted": 0.4527406417112299,
      "eval_recall_macro": 0.3179440665154951,
      "eval_recall_micro": 0.38636363636363635,
      "eval_recall_weighted": 0.38636363636363635,
      "eval_runtime": 2.2188,
      "eval_samples_per_second": 59.491,
      "eval_steps_per_second": 7.662,
      "step": 116
    },
    {
      "epoch": 4.068965517241379,
      "grad_norm": 11.127625465393066,
      "learning_rate": 9.824753559693319e-05,
      "loss": 1.5055,
      "step": 118
    },
    {
      "epoch": 4.137931034482759,
      "grad_norm": 7.331289768218994,
      "learning_rate": 9.802847754654983e-05,
      "loss": 1.3358,
      "step": 120
    },
    {
      "epoch": 4.206896551724138,
      "grad_norm": 8.787720680236816,
      "learning_rate": 9.78094194961665e-05,
      "loss": 1.6528,
      "step": 122
    },
    {
      "epoch": 4.275862068965517,
      "grad_norm": 8.822704315185547,
      "learning_rate": 9.759036144578314e-05,
      "loss": 1.2185,
      "step": 124
    },
    {
      "epoch": 4.344827586206897,
      "grad_norm": 7.718049049377441,
      "learning_rate": 9.737130339539979e-05,
      "loss": 1.376,
      "step": 126
    },
    {
      "epoch": 4.413793103448276,
      "grad_norm": 6.089763641357422,
      "learning_rate": 9.715224534501643e-05,
      "loss": 1.2114,
      "step": 128
    },
    {
      "epoch": 4.482758620689655,
      "grad_norm": 11.10245418548584,
      "learning_rate": 9.693318729463309e-05,
      "loss": 1.5952,
      "step": 130
    },
    {
      "epoch": 4.551724137931035,
      "grad_norm": 9.193964958190918,
      "learning_rate": 9.671412924424972e-05,
      "loss": 1.691,
      "step": 132
    },
    {
      "epoch": 4.620689655172414,
      "grad_norm": 7.160553455352783,
      "learning_rate": 9.649507119386638e-05,
      "loss": 1.7942,
      "step": 134
    },
    {
      "epoch": 4.689655172413794,
      "grad_norm": 10.51407527923584,
      "learning_rate": 9.627601314348302e-05,
      "loss": 1.541,
      "step": 136
    },
    {
      "epoch": 4.758620689655173,
      "grad_norm": 7.315539836883545,
      "learning_rate": 9.605695509309968e-05,
      "loss": 1.4463,
      "step": 138
    },
    {
      "epoch": 4.827586206896552,
      "grad_norm": 5.069845676422119,
      "learning_rate": 9.583789704271632e-05,
      "loss": 1.2094,
      "step": 140
    },
    {
      "epoch": 4.896551724137931,
      "grad_norm": 7.61802864074707,
      "learning_rate": 9.561883899233297e-05,
      "loss": 1.3717,
      "step": 142
    },
    {
      "epoch": 4.9655172413793105,
      "grad_norm": 5.559959888458252,
      "learning_rate": 9.539978094194963e-05,
      "loss": 1.2166,
      "step": 144
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.4772727272727273,
      "eval_f1_macro": 0.3867993464710291,
      "eval_f1_micro": 0.4772727272727273,
      "eval_f1_weighted": 0.4441923804921774,
      "eval_loss": 1.3484843969345093,
      "eval_precision_macro": 0.5067572493188256,
      "eval_precision_micro": 0.4772727272727273,
      "eval_precision_weighted": 0.5372770333115161,
      "eval_recall_macro": 0.4076719576719577,
      "eval_recall_micro": 0.4772727272727273,
      "eval_recall_weighted": 0.4772727272727273,
      "eval_runtime": 2.192,
      "eval_samples_per_second": 60.219,
      "eval_steps_per_second": 7.756,
      "step": 145
    },
    {
      "epoch": 5.0344827586206895,
      "grad_norm": 6.8597941398620605,
      "learning_rate": 9.518072289156626e-05,
      "loss": 1.5412,
      "step": 146
    },
    {
      "epoch": 5.103448275862069,
      "grad_norm": 5.627894401550293,
      "learning_rate": 9.496166484118292e-05,
      "loss": 1.0841,
      "step": 148
    },
    {
      "epoch": 5.172413793103448,
      "grad_norm": 10.26051139831543,
      "learning_rate": 9.474260679079957e-05,
      "loss": 1.1118,
      "step": 150
    },
    {
      "epoch": 5.241379310344827,
      "grad_norm": 7.57983922958374,
      "learning_rate": 9.452354874041621e-05,
      "loss": 1.1301,
      "step": 152
    },
    {
      "epoch": 5.310344827586207,
      "grad_norm": 7.729267120361328,
      "learning_rate": 9.430449069003286e-05,
      "loss": 1.3092,
      "step": 154
    },
    {
      "epoch": 5.379310344827586,
      "grad_norm": 5.462944507598877,
      "learning_rate": 9.40854326396495e-05,
      "loss": 1.0817,
      "step": 156
    },
    {
      "epoch": 5.448275862068965,
      "grad_norm": 11.766180992126465,
      "learning_rate": 9.386637458926615e-05,
      "loss": 1.747,
      "step": 158
    },
    {
      "epoch": 5.517241379310345,
      "grad_norm": 8.114238739013672,
      "learning_rate": 9.364731653888281e-05,
      "loss": 1.1059,
      "step": 160
    },
    {
      "epoch": 5.586206896551724,
      "grad_norm": 7.437196254730225,
      "learning_rate": 9.342825848849946e-05,
      "loss": 1.2654,
      "step": 162
    },
    {
      "epoch": 5.655172413793103,
      "grad_norm": 9.772777557373047,
      "learning_rate": 9.32092004381161e-05,
      "loss": 1.1972,
      "step": 164
    },
    {
      "epoch": 5.724137931034483,
      "grad_norm": 5.461746692657471,
      "learning_rate": 9.299014238773275e-05,
      "loss": 1.1775,
      "step": 166
    },
    {
      "epoch": 5.793103448275862,
      "grad_norm": 6.507452964782715,
      "learning_rate": 9.27710843373494e-05,
      "loss": 1.0831,
      "step": 168
    },
    {
      "epoch": 5.862068965517241,
      "grad_norm": 10.11184024810791,
      "learning_rate": 9.255202628696606e-05,
      "loss": 1.002,
      "step": 170
    },
    {
      "epoch": 5.931034482758621,
      "grad_norm": 9.433456420898438,
      "learning_rate": 9.233296823658269e-05,
      "loss": 1.5848,
      "step": 172
    },
    {
      "epoch": 6.0,
      "grad_norm": 9.081482887268066,
      "learning_rate": 9.211391018619935e-05,
      "loss": 1.5704,
      "step": 174
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.5606060606060606,
      "eval_f1_macro": 0.48525454733832823,
      "eval_f1_micro": 0.5606060606060606,
      "eval_f1_weighted": 0.5509911571429003,
      "eval_loss": 1.2560298442840576,
      "eval_precision_macro": 0.4905962384953981,
      "eval_precision_micro": 0.5606060606060606,
      "eval_precision_weighted": 0.5678953399541635,
      "eval_recall_macro": 0.5025774754346183,
      "eval_recall_micro": 0.5606060606060606,
      "eval_recall_weighted": 0.5606060606060606,
      "eval_runtime": 2.2113,
      "eval_samples_per_second": 59.694,
      "eval_steps_per_second": 7.688,
      "step": 174
    },
    {
      "epoch": 6.068965517241379,
      "grad_norm": 7.783880710601807,
      "learning_rate": 9.1894852135816e-05,
      "loss": 1.1088,
      "step": 176
    },
    {
      "epoch": 6.137931034482759,
      "grad_norm": 8.41838550567627,
      "learning_rate": 9.167579408543264e-05,
      "loss": 1.2991,
      "step": 178
    },
    {
      "epoch": 6.206896551724138,
      "grad_norm": 7.9511799812316895,
      "learning_rate": 9.14567360350493e-05,
      "loss": 1.14,
      "step": 180
    },
    {
      "epoch": 6.275862068965517,
      "grad_norm": 8.29940128326416,
      "learning_rate": 9.123767798466593e-05,
      "loss": 1.5207,
      "step": 182
    },
    {
      "epoch": 6.344827586206897,
      "grad_norm": 7.130605220794678,
      "learning_rate": 9.10186199342826e-05,
      "loss": 1.2116,
      "step": 184
    },
    {
      "epoch": 6.413793103448276,
      "grad_norm": 6.235842227935791,
      "learning_rate": 9.079956188389924e-05,
      "loss": 0.9688,
      "step": 186
    },
    {
      "epoch": 6.482758620689655,
      "grad_norm": 4.8011980056762695,
      "learning_rate": 9.058050383351589e-05,
      "loss": 0.8892,
      "step": 188
    },
    {
      "epoch": 6.551724137931035,
      "grad_norm": 7.332155227661133,
      "learning_rate": 9.036144578313253e-05,
      "loss": 1.0801,
      "step": 190
    },
    {
      "epoch": 6.620689655172414,
      "grad_norm": 6.098062515258789,
      "learning_rate": 9.014238773274918e-05,
      "loss": 0.9725,
      "step": 192
    },
    {
      "epoch": 6.689655172413794,
      "grad_norm": 7.8977813720703125,
      "learning_rate": 8.992332968236583e-05,
      "loss": 1.1209,
      "step": 194
    },
    {
      "epoch": 6.758620689655173,
      "grad_norm": 6.769626617431641,
      "learning_rate": 8.970427163198248e-05,
      "loss": 1.305,
      "step": 196
    },
    {
      "epoch": 6.827586206896552,
      "grad_norm": 6.7080793380737305,
      "learning_rate": 8.948521358159913e-05,
      "loss": 1.097,
      "step": 198
    },
    {
      "epoch": 6.896551724137931,
      "grad_norm": 6.5601806640625,
      "learning_rate": 8.926615553121578e-05,
      "loss": 0.9768,
      "step": 200
    },
    {
      "epoch": 6.9655172413793105,
      "grad_norm": 6.294341564178467,
      "learning_rate": 8.904709748083242e-05,
      "loss": 1.2465,
      "step": 202
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.49242424242424243,
      "eval_f1_macro": 0.38536093384329645,
      "eval_f1_micro": 0.49242424242424243,
      "eval_f1_weighted": 0.4392739197478552,
      "eval_loss": 1.4968072175979614,
      "eval_precision_macro": 0.5611372180451127,
      "eval_precision_micro": 0.49242424242424243,
      "eval_precision_weighted": 0.5975304027113237,
      "eval_recall_macro": 0.4107180650037793,
      "eval_recall_micro": 0.49242424242424243,
      "eval_recall_weighted": 0.49242424242424243,
      "eval_runtime": 2.2083,
      "eval_samples_per_second": 59.774,
      "eval_steps_per_second": 7.698,
      "step": 203
    },
    {
      "epoch": 7.0344827586206895,
      "grad_norm": 6.664538383483887,
      "learning_rate": 8.882803943044907e-05,
      "loss": 1.0662,
      "step": 204
    },
    {
      "epoch": 7.103448275862069,
      "grad_norm": 8.425392150878906,
      "learning_rate": 8.860898138006573e-05,
      "loss": 1.034,
      "step": 206
    },
    {
      "epoch": 7.172413793103448,
      "grad_norm": 8.941866874694824,
      "learning_rate": 8.838992332968236e-05,
      "loss": 1.3566,
      "step": 208
    },
    {
      "epoch": 7.241379310344827,
      "grad_norm": 7.900031089782715,
      "learning_rate": 8.817086527929902e-05,
      "loss": 1.3013,
      "step": 210
    },
    {
      "epoch": 7.310344827586207,
      "grad_norm": 7.721550464630127,
      "learning_rate": 8.795180722891567e-05,
      "loss": 1.1345,
      "step": 212
    },
    {
      "epoch": 7.379310344827586,
      "grad_norm": 6.119128704071045,
      "learning_rate": 8.773274917853231e-05,
      "loss": 0.7996,
      "step": 214
    },
    {
      "epoch": 7.448275862068965,
      "grad_norm": 6.922367095947266,
      "learning_rate": 8.751369112814896e-05,
      "loss": 1.1724,
      "step": 216
    },
    {
      "epoch": 7.517241379310345,
      "grad_norm": 7.787768840789795,
      "learning_rate": 8.72946330777656e-05,
      "loss": 1.0874,
      "step": 218
    },
    {
      "epoch": 7.586206896551724,
      "grad_norm": 5.789196014404297,
      "learning_rate": 8.707557502738227e-05,
      "loss": 0.7744,
      "step": 220
    },
    {
      "epoch": 7.655172413793103,
      "grad_norm": 8.260876655578613,
      "learning_rate": 8.685651697699891e-05,
      "loss": 0.9799,
      "step": 222
    },
    {
      "epoch": 7.724137931034483,
      "grad_norm": 5.3789520263671875,
      "learning_rate": 8.663745892661556e-05,
      "loss": 0.8668,
      "step": 224
    },
    {
      "epoch": 7.793103448275862,
      "grad_norm": 10.147786140441895,
      "learning_rate": 8.64184008762322e-05,
      "loss": 1.1608,
      "step": 226
    },
    {
      "epoch": 7.862068965517241,
      "grad_norm": 5.489473342895508,
      "learning_rate": 8.619934282584885e-05,
      "loss": 0.8116,
      "step": 228
    },
    {
      "epoch": 7.931034482758621,
      "grad_norm": 7.813507080078125,
      "learning_rate": 8.59802847754655e-05,
      "loss": 1.1165,
      "step": 230
    },
    {
      "epoch": 8.0,
      "grad_norm": 9.428513526916504,
      "learning_rate": 8.576122672508216e-05,
      "loss": 1.2531,
      "step": 232
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.5,
      "eval_f1_macro": 0.4380420530832049,
      "eval_f1_micro": 0.5,
      "eval_f1_weighted": 0.48411055093350336,
      "eval_loss": 1.4662878513336182,
      "eval_precision_macro": 0.46228529523343914,
      "eval_precision_micro": 0.5,
      "eval_precision_weighted": 0.5301592857204586,
      "eval_recall_macro": 0.46928949357520783,
      "eval_recall_micro": 0.5,
      "eval_recall_weighted": 0.5,
      "eval_runtime": 2.2486,
      "eval_samples_per_second": 58.704,
      "eval_steps_per_second": 7.56,
      "step": 232
    },
    {
      "epoch": 8.068965517241379,
      "grad_norm": 8.723676681518555,
      "learning_rate": 8.55421686746988e-05,
      "loss": 0.7241,
      "step": 234
    },
    {
      "epoch": 8.137931034482758,
      "grad_norm": 5.1509904861450195,
      "learning_rate": 8.532311062431545e-05,
      "loss": 1.1178,
      "step": 236
    },
    {
      "epoch": 8.206896551724139,
      "grad_norm": 9.173816680908203,
      "learning_rate": 8.51040525739321e-05,
      "loss": 1.1048,
      "step": 238
    },
    {
      "epoch": 8.275862068965518,
      "grad_norm": 5.16646146774292,
      "learning_rate": 8.488499452354874e-05,
      "loss": 0.8407,
      "step": 240
    },
    {
      "epoch": 8.344827586206897,
      "grad_norm": 7.476856708526611,
      "learning_rate": 8.46659364731654e-05,
      "loss": 0.7104,
      "step": 242
    },
    {
      "epoch": 8.413793103448276,
      "grad_norm": 4.857934474945068,
      "learning_rate": 8.444687842278203e-05,
      "loss": 0.8153,
      "step": 244
    },
    {
      "epoch": 8.482758620689655,
      "grad_norm": 4.849685192108154,
      "learning_rate": 8.42278203723987e-05,
      "loss": 0.7941,
      "step": 246
    },
    {
      "epoch": 8.551724137931034,
      "grad_norm": 6.878391265869141,
      "learning_rate": 8.400876232201533e-05,
      "loss": 0.8408,
      "step": 248
    },
    {
      "epoch": 8.620689655172415,
      "grad_norm": 9.568788528442383,
      "learning_rate": 8.378970427163199e-05,
      "loss": 1.1011,
      "step": 250
    },
    {
      "epoch": 8.689655172413794,
      "grad_norm": 6.0624284744262695,
      "learning_rate": 8.357064622124863e-05,
      "loss": 0.6055,
      "step": 252
    },
    {
      "epoch": 8.758620689655173,
      "grad_norm": 8.931193351745605,
      "learning_rate": 8.335158817086528e-05,
      "loss": 1.1554,
      "step": 254
    },
    {
      "epoch": 8.827586206896552,
      "grad_norm": 9.992157936096191,
      "learning_rate": 8.313253012048194e-05,
      "loss": 0.9706,
      "step": 256
    },
    {
      "epoch": 8.89655172413793,
      "grad_norm": 7.536012649536133,
      "learning_rate": 8.291347207009858e-05,
      "loss": 0.9864,
      "step": 258
    },
    {
      "epoch": 8.96551724137931,
      "grad_norm": 5.046841144561768,
      "learning_rate": 8.269441401971523e-05,
      "loss": 0.5318,
      "step": 260
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.5909090909090909,
      "eval_f1_macro": 0.4938130613497124,
      "eval_f1_micro": 0.5909090909090909,
      "eval_f1_weighted": 0.564608679657,
      "eval_loss": 1.1161140203475952,
      "eval_precision_macro": 0.48919183057838517,
      "eval_precision_micro": 0.5909090909090909,
      "eval_precision_weighted": 0.5594657793187205,
      "eval_recall_macro": 0.5175661375661376,
      "eval_recall_micro": 0.5909090909090909,
      "eval_recall_weighted": 0.5909090909090909,
      "eval_runtime": 2.2385,
      "eval_samples_per_second": 58.969,
      "eval_steps_per_second": 7.594,
      "step": 261
    },
    {
      "epoch": 9.03448275862069,
      "grad_norm": 8.074467658996582,
      "learning_rate": 8.247535596933188e-05,
      "loss": 0.9298,
      "step": 262
    },
    {
      "epoch": 9.10344827586207,
      "grad_norm": 5.22785758972168,
      "learning_rate": 8.225629791894852e-05,
      "loss": 0.7831,
      "step": 264
    },
    {
      "epoch": 9.172413793103448,
      "grad_norm": 9.326375007629395,
      "learning_rate": 8.203723986856517e-05,
      "loss": 0.8289,
      "step": 266
    },
    {
      "epoch": 9.241379310344827,
      "grad_norm": 5.424740791320801,
      "learning_rate": 8.181818181818183e-05,
      "loss": 0.5332,
      "step": 268
    },
    {
      "epoch": 9.310344827586206,
      "grad_norm": 8.164321899414062,
      "learning_rate": 8.159912376779846e-05,
      "loss": 0.7783,
      "step": 270
    },
    {
      "epoch": 9.379310344827585,
      "grad_norm": 7.742315769195557,
      "learning_rate": 8.138006571741512e-05,
      "loss": 0.7159,
      "step": 272
    },
    {
      "epoch": 9.448275862068966,
      "grad_norm": 6.30488920211792,
      "learning_rate": 8.116100766703177e-05,
      "loss": 0.9866,
      "step": 274
    },
    {
      "epoch": 9.517241379310345,
      "grad_norm": 7.696253776550293,
      "learning_rate": 8.094194961664841e-05,
      "loss": 0.521,
      "step": 276
    },
    {
      "epoch": 9.586206896551724,
      "grad_norm": 4.019304275512695,
      "learning_rate": 8.072289156626507e-05,
      "loss": 0.4281,
      "step": 278
    },
    {
      "epoch": 9.655172413793103,
      "grad_norm": 4.379205703735352,
      "learning_rate": 8.05038335158817e-05,
      "loss": 0.3542,
      "step": 280
    },
    {
      "epoch": 9.724137931034482,
      "grad_norm": 7.670277118682861,
      "learning_rate": 8.028477546549837e-05,
      "loss": 0.9465,
      "step": 282
    },
    {
      "epoch": 9.793103448275861,
      "grad_norm": 8.019712448120117,
      "learning_rate": 8.0065717415115e-05,
      "loss": 1.087,
      "step": 284
    },
    {
      "epoch": 9.862068965517242,
      "grad_norm": 8.645779609680176,
      "learning_rate": 7.984665936473166e-05,
      "loss": 0.88,
      "step": 286
    },
    {
      "epoch": 9.931034482758621,
      "grad_norm": 5.542499542236328,
      "learning_rate": 7.96276013143483e-05,
      "loss": 0.7297,
      "step": 288
    },
    {
      "epoch": 10.0,
      "grad_norm": 5.367166042327881,
      "learning_rate": 7.940854326396495e-05,
      "loss": 0.6824,
      "step": 290
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.5909090909090909,
      "eval_f1_macro": 0.48022039225046736,
      "eval_f1_micro": 0.5909090909090909,
      "eval_f1_weighted": 0.5515227462595883,
      "eval_loss": 1.1811466217041016,
      "eval_precision_macro": 0.4813612313612314,
      "eval_precision_micro": 0.5909090909090909,
      "eval_precision_weighted": 0.549845041322314,
      "eval_recall_macro": 0.5147770219198791,
      "eval_recall_micro": 0.5909090909090909,
      "eval_recall_weighted": 0.5909090909090909,
      "eval_runtime": 2.1897,
      "eval_samples_per_second": 60.283,
      "eval_steps_per_second": 7.764,
      "step": 290
    },
    {
      "epoch": 10.068965517241379,
      "grad_norm": 8.408239364624023,
      "learning_rate": 7.918948521358161e-05,
      "loss": 0.5506,
      "step": 292
    },
    {
      "epoch": 10.137931034482758,
      "grad_norm": 4.473087787628174,
      "learning_rate": 7.897042716319824e-05,
      "loss": 0.4722,
      "step": 294
    },
    {
      "epoch": 10.206896551724139,
      "grad_norm": 5.755477428436279,
      "learning_rate": 7.87513691128149e-05,
      "loss": 0.6369,
      "step": 296
    },
    {
      "epoch": 10.275862068965518,
      "grad_norm": 9.0516939163208,
      "learning_rate": 7.853231106243155e-05,
      "loss": 0.6167,
      "step": 298
    },
    {
      "epoch": 10.344827586206897,
      "grad_norm": 5.995102405548096,
      "learning_rate": 7.83132530120482e-05,
      "loss": 0.6051,
      "step": 300
    },
    {
      "epoch": 10.413793103448276,
      "grad_norm": 7.3448805809021,
      "learning_rate": 7.809419496166484e-05,
      "loss": 0.5321,
      "step": 302
    },
    {
      "epoch": 10.482758620689655,
      "grad_norm": 8.903775215148926,
      "learning_rate": 7.78751369112815e-05,
      "loss": 0.6208,
      "step": 304
    },
    {
      "epoch": 10.551724137931034,
      "grad_norm": 9.240314483642578,
      "learning_rate": 7.765607886089813e-05,
      "loss": 0.9838,
      "step": 306
    },
    {
      "epoch": 10.620689655172415,
      "grad_norm": 10.112192153930664,
      "learning_rate": 7.74370208105148e-05,
      "loss": 0.905,
      "step": 308
    },
    {
      "epoch": 10.689655172413794,
      "grad_norm": 9.252533912658691,
      "learning_rate": 7.721796276013144e-05,
      "loss": 1.002,
      "step": 310
    },
    {
      "epoch": 10.758620689655173,
      "grad_norm": 7.741162300109863,
      "learning_rate": 7.699890470974809e-05,
      "loss": 1.0869,
      "step": 312
    },
    {
      "epoch": 10.827586206896552,
      "grad_norm": 9.742755889892578,
      "learning_rate": 7.677984665936475e-05,
      "loss": 0.5421,
      "step": 314
    },
    {
      "epoch": 10.89655172413793,
      "grad_norm": 8.84914493560791,
      "learning_rate": 7.656078860898138e-05,
      "loss": 0.523,
      "step": 316
    },
    {
      "epoch": 10.96551724137931,
      "grad_norm": 7.173616409301758,
      "learning_rate": 7.634173055859804e-05,
      "loss": 0.6324,
      "step": 318
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.5757575757575758,
      "eval_f1_macro": 0.4926929392446634,
      "eval_f1_micro": 0.5757575757575758,
      "eval_f1_weighted": 0.5506095437129921,
      "eval_loss": 1.2358123064041138,
      "eval_precision_macro": 0.5015354104024055,
      "eval_precision_micro": 0.5757575757575758,
      "eval_precision_weighted": 0.5689625015643824,
      "eval_recall_macro": 0.5226228269085412,
      "eval_recall_micro": 0.5757575757575758,
      "eval_recall_weighted": 0.5757575757575758,
      "eval_runtime": 2.2118,
      "eval_samples_per_second": 59.681,
      "eval_steps_per_second": 7.686,
      "step": 319
    },
    {
      "epoch": 11.03448275862069,
      "grad_norm": 8.598217964172363,
      "learning_rate": 7.612267250821467e-05,
      "loss": 0.703,
      "step": 320
    },
    {
      "epoch": 11.10344827586207,
      "grad_norm": 4.415513038635254,
      "learning_rate": 7.590361445783133e-05,
      "loss": 0.5108,
      "step": 322
    },
    {
      "epoch": 11.172413793103448,
      "grad_norm": 6.3496479988098145,
      "learning_rate": 7.568455640744798e-05,
      "loss": 0.673,
      "step": 324
    },
    {
      "epoch": 11.241379310344827,
      "grad_norm": 5.767419338226318,
      "learning_rate": 7.546549835706462e-05,
      "loss": 0.3173,
      "step": 326
    },
    {
      "epoch": 11.310344827586206,
      "grad_norm": 5.924855709075928,
      "learning_rate": 7.524644030668127e-05,
      "loss": 0.4236,
      "step": 328
    },
    {
      "epoch": 11.379310344827585,
      "grad_norm": 6.807033538818359,
      "learning_rate": 7.502738225629792e-05,
      "loss": 0.7664,
      "step": 330
    },
    {
      "epoch": 11.448275862068966,
      "grad_norm": 11.941972732543945,
      "learning_rate": 7.480832420591458e-05,
      "loss": 0.8078,
      "step": 332
    },
    {
      "epoch": 11.517241379310345,
      "grad_norm": 5.140421390533447,
      "learning_rate": 7.458926615553122e-05,
      "loss": 0.4366,
      "step": 334
    },
    {
      "epoch": 11.586206896551724,
      "grad_norm": 4.931862831115723,
      "learning_rate": 7.437020810514787e-05,
      "loss": 0.552,
      "step": 336
    },
    {
      "epoch": 11.655172413793103,
      "grad_norm": 6.9343647956848145,
      "learning_rate": 7.415115005476451e-05,
      "loss": 0.5526,
      "step": 338
    },
    {
      "epoch": 11.724137931034482,
      "grad_norm": 4.292028903961182,
      "learning_rate": 7.393209200438116e-05,
      "loss": 0.5248,
      "step": 340
    },
    {
      "epoch": 11.793103448275861,
      "grad_norm": 6.613484859466553,
      "learning_rate": 7.371303395399781e-05,
      "loss": 0.7224,
      "step": 342
    },
    {
      "epoch": 11.862068965517242,
      "grad_norm": 5.9594502449035645,
      "learning_rate": 7.349397590361447e-05,
      "loss": 0.4696,
      "step": 344
    },
    {
      "epoch": 11.931034482758621,
      "grad_norm": 5.859204292297363,
      "learning_rate": 7.327491785323111e-05,
      "loss": 0.3449,
      "step": 346
    },
    {
      "epoch": 12.0,
      "grad_norm": 5.6179046630859375,
      "learning_rate": 7.305585980284776e-05,
      "loss": 0.4145,
      "step": 348
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.6742424242424242,
      "eval_f1_macro": 0.5845780796908616,
      "eval_f1_micro": 0.6742424242424242,
      "eval_f1_weighted": 0.6643483452693979,
      "eval_loss": 1.160757064819336,
      "eval_precision_macro": 0.5822360668405294,
      "eval_precision_micro": 0.6742424242424242,
      "eval_precision_weighted": 0.6680857766304014,
      "eval_recall_macro": 0.6004686318972033,
      "eval_recall_micro": 0.6742424242424242,
      "eval_recall_weighted": 0.6742424242424242,
      "eval_runtime": 2.2477,
      "eval_samples_per_second": 58.726,
      "eval_steps_per_second": 7.563,
      "step": 348
    },
    {
      "epoch": 12.068965517241379,
      "grad_norm": 8.443059921264648,
      "learning_rate": 7.28368017524644e-05,
      "loss": 0.5175,
      "step": 350
    },
    {
      "epoch": 12.137931034482758,
      "grad_norm": 9.789414405822754,
      "learning_rate": 7.261774370208105e-05,
      "loss": 0.8298,
      "step": 352
    },
    {
      "epoch": 12.206896551724139,
      "grad_norm": 4.579267978668213,
      "learning_rate": 7.239868565169771e-05,
      "loss": 0.372,
      "step": 354
    },
    {
      "epoch": 12.275862068965518,
      "grad_norm": 7.095308303833008,
      "learning_rate": 7.217962760131434e-05,
      "loss": 0.4208,
      "step": 356
    },
    {
      "epoch": 12.344827586206897,
      "grad_norm": 2.6553964614868164,
      "learning_rate": 7.1960569550931e-05,
      "loss": 0.2939,
      "step": 358
    },
    {
      "epoch": 12.413793103448276,
      "grad_norm": 6.320093631744385,
      "learning_rate": 7.174151150054765e-05,
      "loss": 0.556,
      "step": 360
    },
    {
      "epoch": 12.482758620689655,
      "grad_norm": 8.005858421325684,
      "learning_rate": 7.15224534501643e-05,
      "loss": 0.4923,
      "step": 362
    },
    {
      "epoch": 12.551724137931034,
      "grad_norm": 4.577536106109619,
      "learning_rate": 7.130339539978094e-05,
      "loss": 0.2823,
      "step": 364
    },
    {
      "epoch": 12.620689655172415,
      "grad_norm": 7.0326008796691895,
      "learning_rate": 7.108433734939759e-05,
      "loss": 0.3633,
      "step": 366
    },
    {
      "epoch": 12.689655172413794,
      "grad_norm": 8.876154899597168,
      "learning_rate": 7.086527929901425e-05,
      "loss": 0.5113,
      "step": 368
    },
    {
      "epoch": 12.758620689655173,
      "grad_norm": 9.319496154785156,
      "learning_rate": 7.06462212486309e-05,
      "loss": 0.9363,
      "step": 370
    },
    {
      "epoch": 12.827586206896552,
      "grad_norm": 4.129659175872803,
      "learning_rate": 7.042716319824754e-05,
      "loss": 0.43,
      "step": 372
    },
    {
      "epoch": 12.89655172413793,
      "grad_norm": 8.008423805236816,
      "learning_rate": 7.020810514786419e-05,
      "loss": 0.4344,
      "step": 374
    },
    {
      "epoch": 12.96551724137931,
      "grad_norm": 6.894300937652588,
      "learning_rate": 6.998904709748083e-05,
      "loss": 0.4805,
      "step": 376
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.5757575757575758,
      "eval_f1_macro": 0.527595781401402,
      "eval_f1_micro": 0.5757575757575758,
      "eval_f1_weighted": 0.5689098612906363,
      "eval_loss": 1.319955587387085,
      "eval_precision_macro": 0.5767229968910641,
      "eval_precision_micro": 0.5757575757575758,
      "eval_precision_weighted": 0.6137522608110844,
      "eval_recall_macro": 0.5268707482993198,
      "eval_recall_micro": 0.5757575757575758,
      "eval_recall_weighted": 0.5757575757575758,
      "eval_runtime": 2.206,
      "eval_samples_per_second": 59.836,
      "eval_steps_per_second": 7.706,
      "step": 377
    },
    {
      "epoch": 13.03448275862069,
      "grad_norm": 7.305329322814941,
      "learning_rate": 6.976998904709748e-05,
      "loss": 0.4888,
      "step": 378
    },
    {
      "epoch": 13.10344827586207,
      "grad_norm": 7.0207624435424805,
      "learning_rate": 6.955093099671414e-05,
      "loss": 0.4489,
      "step": 380
    },
    {
      "epoch": 13.172413793103448,
      "grad_norm": 3.134613513946533,
      "learning_rate": 6.933187294633077e-05,
      "loss": 0.2369,
      "step": 382
    },
    {
      "epoch": 13.241379310344827,
      "grad_norm": 4.9292097091674805,
      "learning_rate": 6.911281489594743e-05,
      "loss": 0.4839,
      "step": 384
    },
    {
      "epoch": 13.310344827586206,
      "grad_norm": 2.2589919567108154,
      "learning_rate": 6.889375684556408e-05,
      "loss": 0.222,
      "step": 386
    },
    {
      "epoch": 13.379310344827585,
      "grad_norm": 4.867913246154785,
      "learning_rate": 6.867469879518072e-05,
      "loss": 0.2502,
      "step": 388
    },
    {
      "epoch": 13.448275862068966,
      "grad_norm": 3.433598756790161,
      "learning_rate": 6.845564074479738e-05,
      "loss": 0.2846,
      "step": 390
    },
    {
      "epoch": 13.517241379310345,
      "grad_norm": 4.033895492553711,
      "learning_rate": 6.823658269441402e-05,
      "loss": 0.2156,
      "step": 392
    },
    {
      "epoch": 13.586206896551724,
      "grad_norm": 6.298670768737793,
      "learning_rate": 6.801752464403068e-05,
      "loss": 0.2056,
      "step": 394
    },
    {
      "epoch": 13.655172413793103,
      "grad_norm": 5.606608867645264,
      "learning_rate": 6.779846659364732e-05,
      "loss": 0.5755,
      "step": 396
    },
    {
      "epoch": 13.724137931034482,
      "grad_norm": 4.751099109649658,
      "learning_rate": 6.757940854326397e-05,
      "loss": 0.3081,
      "step": 398
    },
    {
      "epoch": 13.793103448275861,
      "grad_norm": 6.851717472076416,
      "learning_rate": 6.736035049288061e-05,
      "loss": 0.512,
      "step": 400
    },
    {
      "epoch": 13.862068965517242,
      "grad_norm": 6.983868598937988,
      "learning_rate": 6.714129244249726e-05,
      "loss": 0.5849,
      "step": 402
    },
    {
      "epoch": 13.931034482758621,
      "grad_norm": 9.133752822875977,
      "learning_rate": 6.692223439211392e-05,
      "loss": 0.7721,
      "step": 404
    },
    {
      "epoch": 14.0,
      "grad_norm": 9.328068733215332,
      "learning_rate": 6.670317634173057e-05,
      "loss": 0.6232,
      "step": 406
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.5757575757575758,
      "eval_f1_macro": 0.4789696951253122,
      "eval_f1_micro": 0.5757575757575758,
      "eval_f1_weighted": 0.5516716249691459,
      "eval_loss": 1.319008231163025,
      "eval_precision_macro": 0.502492644655116,
      "eval_precision_micro": 0.5757575757575758,
      "eval_precision_weighted": 0.5734135715543037,
      "eval_recall_macro": 0.5006122448979592,
      "eval_recall_micro": 0.5757575757575758,
      "eval_recall_weighted": 0.5757575757575758,
      "eval_runtime": 2.1818,
      "eval_samples_per_second": 60.499,
      "eval_steps_per_second": 7.792,
      "step": 406
    },
    {
      "epoch": 14.068965517241379,
      "grad_norm": 3.8055107593536377,
      "learning_rate": 6.648411829134721e-05,
      "loss": 0.2276,
      "step": 408
    },
    {
      "epoch": 14.137931034482758,
      "grad_norm": 3.0821352005004883,
      "learning_rate": 6.626506024096386e-05,
      "loss": 0.2451,
      "step": 410
    },
    {
      "epoch": 14.206896551724139,
      "grad_norm": 7.605597972869873,
      "learning_rate": 6.60460021905805e-05,
      "loss": 0.3332,
      "step": 412
    },
    {
      "epoch": 14.275862068965518,
      "grad_norm": 7.357143402099609,
      "learning_rate": 6.582694414019715e-05,
      "loss": 0.5178,
      "step": 414
    },
    {
      "epoch": 14.344827586206897,
      "grad_norm": 2.5872600078582764,
      "learning_rate": 6.560788608981381e-05,
      "loss": 0.1075,
      "step": 416
    },
    {
      "epoch": 14.413793103448276,
      "grad_norm": 5.9071879386901855,
      "learning_rate": 6.538882803943044e-05,
      "loss": 0.2012,
      "step": 418
    },
    {
      "epoch": 14.482758620689655,
      "grad_norm": 6.262528419494629,
      "learning_rate": 6.51697699890471e-05,
      "loss": 0.219,
      "step": 420
    },
    {
      "epoch": 14.551724137931034,
      "grad_norm": 4.72699499130249,
      "learning_rate": 6.495071193866375e-05,
      "loss": 0.4705,
      "step": 422
    },
    {
      "epoch": 14.620689655172415,
      "grad_norm": 2.8275880813598633,
      "learning_rate": 6.47316538882804e-05,
      "loss": 0.259,
      "step": 424
    },
    {
      "epoch": 14.689655172413794,
      "grad_norm": 4.1800312995910645,
      "learning_rate": 6.451259583789706e-05,
      "loss": 0.2478,
      "step": 426
    },
    {
      "epoch": 14.758620689655173,
      "grad_norm": 6.540757179260254,
      "learning_rate": 6.429353778751369e-05,
      "loss": 0.3005,
      "step": 428
    },
    {
      "epoch": 14.827586206896552,
      "grad_norm": 3.0680577754974365,
      "learning_rate": 6.407447973713035e-05,
      "loss": 0.3351,
      "step": 430
    },
    {
      "epoch": 14.89655172413793,
      "grad_norm": 12.751289367675781,
      "learning_rate": 6.385542168674698e-05,
      "loss": 0.4988,
      "step": 432
    },
    {
      "epoch": 14.96551724137931,
      "grad_norm": 7.108068466186523,
      "learning_rate": 6.363636363636364e-05,
      "loss": 0.3475,
      "step": 434
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.696969696969697,
      "eval_f1_macro": 0.630347810119719,
      "eval_f1_micro": 0.696969696969697,
      "eval_f1_weighted": 0.6894476798984056,
      "eval_loss": 1.185251235961914,
      "eval_precision_macro": 0.6716845878136201,
      "eval_precision_micro": 0.696969696969697,
      "eval_precision_weighted": 0.7087732160312806,
      "eval_recall_macro": 0.6311791383219955,
      "eval_recall_micro": 0.696969696969697,
      "eval_recall_weighted": 0.696969696969697,
      "eval_runtime": 2.1666,
      "eval_samples_per_second": 60.925,
      "eval_steps_per_second": 7.846,
      "step": 435
    },
    {
      "epoch": 15.03448275862069,
      "grad_norm": 6.197813510894775,
      "learning_rate": 6.341730558598029e-05,
      "loss": 0.162,
      "step": 436
    },
    {
      "epoch": 15.10344827586207,
      "grad_norm": 3.9454376697540283,
      "learning_rate": 6.319824753559693e-05,
      "loss": 0.3396,
      "step": 438
    },
    {
      "epoch": 15.172413793103448,
      "grad_norm": 8.980201721191406,
      "learning_rate": 6.297918948521358e-05,
      "loss": 0.2316,
      "step": 440
    },
    {
      "epoch": 15.241379310344827,
      "grad_norm": 4.091892719268799,
      "learning_rate": 6.276013143483024e-05,
      "loss": 0.277,
      "step": 442
    },
    {
      "epoch": 15.310344827586206,
      "grad_norm": 7.498462200164795,
      "learning_rate": 6.254107338444689e-05,
      "loss": 0.3305,
      "step": 444
    },
    {
      "epoch": 15.379310344827585,
      "grad_norm": 6.023470401763916,
      "learning_rate": 6.232201533406353e-05,
      "loss": 0.1605,
      "step": 446
    },
    {
      "epoch": 15.448275862068966,
      "grad_norm": 4.88850212097168,
      "learning_rate": 6.210295728368018e-05,
      "loss": 0.1803,
      "step": 448
    },
    {
      "epoch": 15.517241379310345,
      "grad_norm": 2.798743724822998,
      "learning_rate": 6.188389923329682e-05,
      "loss": 0.1585,
      "step": 450
    },
    {
      "epoch": 15.586206896551724,
      "grad_norm": 6.272281646728516,
      "learning_rate": 6.166484118291348e-05,
      "loss": 0.1494,
      "step": 452
    },
    {
      "epoch": 15.655172413793103,
      "grad_norm": 7.970227241516113,
      "learning_rate": 6.144578313253012e-05,
      "loss": 0.3169,
      "step": 454
    },
    {
      "epoch": 15.724137931034482,
      "grad_norm": 6.0759406089782715,
      "learning_rate": 6.122672508214678e-05,
      "loss": 0.3508,
      "step": 456
    },
    {
      "epoch": 15.793103448275861,
      "grad_norm": 4.981871128082275,
      "learning_rate": 6.1007667031763415e-05,
      "loss": 0.1469,
      "step": 458
    },
    {
      "epoch": 15.862068965517242,
      "grad_norm": 8.259228706359863,
      "learning_rate": 6.078860898138007e-05,
      "loss": 0.3808,
      "step": 460
    },
    {
      "epoch": 15.931034482758621,
      "grad_norm": 5.493587017059326,
      "learning_rate": 6.056955093099672e-05,
      "loss": 0.218,
      "step": 462
    },
    {
      "epoch": 16.0,
      "grad_norm": 5.321525573730469,
      "learning_rate": 6.035049288061336e-05,
      "loss": 0.1956,
      "step": 464
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.5151515151515151,
      "eval_f1_macro": 0.4323315041705846,
      "eval_f1_micro": 0.5151515151515151,
      "eval_f1_weighted": 0.4974051721657085,
      "eval_loss": 1.569486141204834,
      "eval_precision_macro": 0.47551801581876774,
      "eval_precision_micro": 0.5151515151515151,
      "eval_precision_weighted": 0.5333931937281219,
      "eval_recall_macro": 0.4357898715041572,
      "eval_recall_micro": 0.5151515151515151,
      "eval_recall_weighted": 0.5151515151515151,
      "eval_runtime": 2.1474,
      "eval_samples_per_second": 61.468,
      "eval_steps_per_second": 7.916,
      "step": 464
    },
    {
      "epoch": 16.06896551724138,
      "grad_norm": 7.035810947418213,
      "learning_rate": 6.0131434830230014e-05,
      "loss": 0.4266,
      "step": 466
    },
    {
      "epoch": 16.137931034482758,
      "grad_norm": 3.2283682823181152,
      "learning_rate": 5.991237677984666e-05,
      "loss": 0.2042,
      "step": 468
    },
    {
      "epoch": 16.20689655172414,
      "grad_norm": 3.6779544353485107,
      "learning_rate": 5.969331872946331e-05,
      "loss": 0.1058,
      "step": 470
    },
    {
      "epoch": 16.275862068965516,
      "grad_norm": 1.8620399236679077,
      "learning_rate": 5.9474260679079966e-05,
      "loss": 0.1272,
      "step": 472
    },
    {
      "epoch": 16.344827586206897,
      "grad_norm": 2.111825942993164,
      "learning_rate": 5.9255202628696605e-05,
      "loss": 0.1298,
      "step": 474
    },
    {
      "epoch": 16.413793103448278,
      "grad_norm": 6.74976110458374,
      "learning_rate": 5.903614457831326e-05,
      "loss": 0.3262,
      "step": 476
    },
    {
      "epoch": 16.482758620689655,
      "grad_norm": 5.992347240447998,
      "learning_rate": 5.88170865279299e-05,
      "loss": 0.3271,
      "step": 478
    },
    {
      "epoch": 16.551724137931036,
      "grad_norm": 2.5913877487182617,
      "learning_rate": 5.859802847754655e-05,
      "loss": 0.1947,
      "step": 480
    },
    {
      "epoch": 16.620689655172413,
      "grad_norm": 7.1807403564453125,
      "learning_rate": 5.8378970427163204e-05,
      "loss": 0.1701,
      "step": 482
    },
    {
      "epoch": 16.689655172413794,
      "grad_norm": 5.666691303253174,
      "learning_rate": 5.815991237677984e-05,
      "loss": 0.2304,
      "step": 484
    },
    {
      "epoch": 16.75862068965517,
      "grad_norm": 6.325366973876953,
      "learning_rate": 5.7940854326396496e-05,
      "loss": 0.3751,
      "step": 486
    },
    {
      "epoch": 16.82758620689655,
      "grad_norm": 4.312324523925781,
      "learning_rate": 5.772179627601315e-05,
      "loss": 0.16,
      "step": 488
    },
    {
      "epoch": 16.896551724137932,
      "grad_norm": 4.738943576812744,
      "learning_rate": 5.7502738225629795e-05,
      "loss": 0.2339,
      "step": 490
    },
    {
      "epoch": 16.96551724137931,
      "grad_norm": 4.70164155960083,
      "learning_rate": 5.728368017524645e-05,
      "loss": 0.1519,
      "step": 492
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.6439393939393939,
      "eval_f1_macro": 0.5818818031106167,
      "eval_f1_micro": 0.6439393939393939,
      "eval_f1_weighted": 0.6317482833372663,
      "eval_loss": 1.440421223640442,
      "eval_precision_macro": 0.6438369250139081,
      "eval_precision_micro": 0.6439393939393939,
      "eval_precision_weighted": 0.657660361816567,
      "eval_recall_macro": 0.5705744520030234,
      "eval_recall_micro": 0.6439393939393939,
      "eval_recall_weighted": 0.6439393939393939,
      "eval_runtime": 2.213,
      "eval_samples_per_second": 59.648,
      "eval_steps_per_second": 7.682,
      "step": 493
    },
    {
      "epoch": 17.03448275862069,
      "grad_norm": 5.552275657653809,
      "learning_rate": 5.706462212486309e-05,
      "loss": 0.1605,
      "step": 494
    },
    {
      "epoch": 17.103448275862068,
      "grad_norm": 1.6765620708465576,
      "learning_rate": 5.684556407447974e-05,
      "loss": 0.057,
      "step": 496
    },
    {
      "epoch": 17.17241379310345,
      "grad_norm": 2.917738437652588,
      "learning_rate": 5.6626506024096394e-05,
      "loss": 0.0525,
      "step": 498
    },
    {
      "epoch": 17.24137931034483,
      "grad_norm": 4.772071838378906,
      "learning_rate": 5.640744797371303e-05,
      "loss": 0.0594,
      "step": 500
    },
    {
      "epoch": 17.310344827586206,
      "grad_norm": 5.168885231018066,
      "learning_rate": 5.6188389923329686e-05,
      "loss": 0.1819,
      "step": 502
    },
    {
      "epoch": 17.379310344827587,
      "grad_norm": 6.547173976898193,
      "learning_rate": 5.596933187294633e-05,
      "loss": 0.1747,
      "step": 504
    },
    {
      "epoch": 17.448275862068964,
      "grad_norm": 2.393808364868164,
      "learning_rate": 5.575027382256298e-05,
      "loss": 0.1172,
      "step": 506
    },
    {
      "epoch": 17.517241379310345,
      "grad_norm": 6.183032512664795,
      "learning_rate": 5.553121577217963e-05,
      "loss": 0.1184,
      "step": 508
    },
    {
      "epoch": 17.586206896551722,
      "grad_norm": 12.154343605041504,
      "learning_rate": 5.531215772179628e-05,
      "loss": 0.2882,
      "step": 510
    },
    {
      "epoch": 17.655172413793103,
      "grad_norm": 7.199910640716553,
      "learning_rate": 5.509309967141293e-05,
      "loss": 0.3635,
      "step": 512
    },
    {
      "epoch": 17.724137931034484,
      "grad_norm": 1.0473498106002808,
      "learning_rate": 5.487404162102957e-05,
      "loss": 0.0773,
      "step": 514
    },
    {
      "epoch": 17.79310344827586,
      "grad_norm": 1.043884038925171,
      "learning_rate": 5.465498357064622e-05,
      "loss": 0.0349,
      "step": 516
    },
    {
      "epoch": 17.862068965517242,
      "grad_norm": 0.591170072555542,
      "learning_rate": 5.4435925520262876e-05,
      "loss": 0.1192,
      "step": 518
    },
    {
      "epoch": 17.93103448275862,
      "grad_norm": 4.3712477684021,
      "learning_rate": 5.4216867469879516e-05,
      "loss": 0.1702,
      "step": 520
    },
    {
      "epoch": 18.0,
      "grad_norm": 5.553340911865234,
      "learning_rate": 5.399780941949617e-05,
      "loss": 0.1031,
      "step": 522
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.6136363636363636,
      "eval_f1_macro": 0.5370450788240546,
      "eval_f1_micro": 0.6136363636363636,
      "eval_f1_weighted": 0.6040564132330857,
      "eval_loss": 1.4877225160598755,
      "eval_precision_macro": 0.5351284054291573,
      "eval_precision_micro": 0.6136363636363636,
      "eval_precision_weighted": 0.5975074566581743,
      "eval_recall_macro": 0.5421919879062737,
      "eval_recall_micro": 0.6136363636363636,
      "eval_recall_weighted": 0.6136363636363636,
      "eval_runtime": 2.2122,
      "eval_samples_per_second": 59.668,
      "eval_steps_per_second": 7.685,
      "step": 522
    },
    {
      "epoch": 18.06896551724138,
      "grad_norm": 2.231707811355591,
      "learning_rate": 5.3778751369112815e-05,
      "loss": 0.0562,
      "step": 524
    },
    {
      "epoch": 18.137931034482758,
      "grad_norm": 1.9797624349594116,
      "learning_rate": 5.355969331872947e-05,
      "loss": 0.1513,
      "step": 526
    },
    {
      "epoch": 18.20689655172414,
      "grad_norm": 4.362570285797119,
      "learning_rate": 5.334063526834612e-05,
      "loss": 0.1637,
      "step": 528
    },
    {
      "epoch": 18.275862068965516,
      "grad_norm": 5.458191871643066,
      "learning_rate": 5.312157721796276e-05,
      "loss": 0.1761,
      "step": 530
    },
    {
      "epoch": 18.344827586206897,
      "grad_norm": 12.664368629455566,
      "learning_rate": 5.290251916757941e-05,
      "loss": 0.2171,
      "step": 532
    },
    {
      "epoch": 18.413793103448278,
      "grad_norm": 4.849126815795898,
      "learning_rate": 5.2683461117196066e-05,
      "loss": 0.1213,
      "step": 534
    },
    {
      "epoch": 18.482758620689655,
      "grad_norm": 1.9513343572616577,
      "learning_rate": 5.2464403066812705e-05,
      "loss": 0.0647,
      "step": 536
    },
    {
      "epoch": 18.551724137931036,
      "grad_norm": 5.6937642097473145,
      "learning_rate": 5.224534501642936e-05,
      "loss": 0.1924,
      "step": 538
    },
    {
      "epoch": 18.620689655172413,
      "grad_norm": 6.157546043395996,
      "learning_rate": 5.2026286966046e-05,
      "loss": 0.1621,
      "step": 540
    },
    {
      "epoch": 18.689655172413794,
      "grad_norm": 3.375688076019287,
      "learning_rate": 5.180722891566265e-05,
      "loss": 0.0725,
      "step": 542
    },
    {
      "epoch": 18.75862068965517,
      "grad_norm": 1.283026099205017,
      "learning_rate": 5.1588170865279304e-05,
      "loss": 0.1705,
      "step": 544
    },
    {
      "epoch": 18.82758620689655,
      "grad_norm": 6.894308090209961,
      "learning_rate": 5.136911281489595e-05,
      "loss": 0.2579,
      "step": 546
    },
    {
      "epoch": 18.896551724137932,
      "grad_norm": 7.978748321533203,
      "learning_rate": 5.11500547645126e-05,
      "loss": 0.1522,
      "step": 548
    },
    {
      "epoch": 18.96551724137931,
      "grad_norm": 3.8156979084014893,
      "learning_rate": 5.093099671412924e-05,
      "loss": 0.0615,
      "step": 550
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.6060606060606061,
      "eval_f1_macro": 0.6012825511436246,
      "eval_f1_micro": 0.6060606060606061,
      "eval_f1_weighted": 0.6106316401527286,
      "eval_loss": 1.4801414012908936,
      "eval_precision_macro": 0.6475544200111578,
      "eval_precision_micro": 0.6060606060606061,
      "eval_precision_weighted": 0.6581095440160177,
      "eval_recall_macro": 0.5951398337112623,
      "eval_recall_micro": 0.6060606060606061,
      "eval_recall_weighted": 0.6060606060606061,
      "eval_runtime": 2.2056,
      "eval_samples_per_second": 59.847,
      "eval_steps_per_second": 7.708,
      "step": 551
    },
    {
      "epoch": 19.03448275862069,
      "grad_norm": 1.505656361579895,
      "learning_rate": 5.0711938663745895e-05,
      "loss": 0.0365,
      "step": 552
    },
    {
      "epoch": 19.103448275862068,
      "grad_norm": 1.1916121244430542,
      "learning_rate": 5.049288061336255e-05,
      "loss": 0.099,
      "step": 554
    },
    {
      "epoch": 19.17241379310345,
      "grad_norm": 3.222411632537842,
      "learning_rate": 5.027382256297919e-05,
      "loss": 0.0374,
      "step": 556
    },
    {
      "epoch": 19.24137931034483,
      "grad_norm": 4.7354536056518555,
      "learning_rate": 5.005476451259584e-05,
      "loss": 0.0901,
      "step": 558
    },
    {
      "epoch": 19.310344827586206,
      "grad_norm": 0.37637993693351746,
      "learning_rate": 4.983570646221249e-05,
      "loss": 0.0087,
      "step": 560
    },
    {
      "epoch": 19.379310344827587,
      "grad_norm": 1.4076848030090332,
      "learning_rate": 4.961664841182913e-05,
      "loss": 0.2459,
      "step": 562
    },
    {
      "epoch": 19.448275862068964,
      "grad_norm": 7.020608901977539,
      "learning_rate": 4.9397590361445786e-05,
      "loss": 0.1859,
      "step": 564
    },
    {
      "epoch": 19.517241379310345,
      "grad_norm": 1.6740795373916626,
      "learning_rate": 4.917853231106244e-05,
      "loss": 0.0443,
      "step": 566
    },
    {
      "epoch": 19.586206896551722,
      "grad_norm": 1.2484346628189087,
      "learning_rate": 4.8959474260679085e-05,
      "loss": 0.026,
      "step": 568
    },
    {
      "epoch": 19.655172413793103,
      "grad_norm": 0.44467589259147644,
      "learning_rate": 4.874041621029573e-05,
      "loss": 0.0704,
      "step": 570
    },
    {
      "epoch": 19.724137931034484,
      "grad_norm": 1.164262056350708,
      "learning_rate": 4.852135815991238e-05,
      "loss": 0.0843,
      "step": 572
    },
    {
      "epoch": 19.79310344827586,
      "grad_norm": 2.4461233615875244,
      "learning_rate": 4.8302300109529024e-05,
      "loss": 0.1391,
      "step": 574
    },
    {
      "epoch": 19.862068965517242,
      "grad_norm": 0.4338299334049225,
      "learning_rate": 4.808324205914568e-05,
      "loss": 0.0174,
      "step": 576
    },
    {
      "epoch": 19.93103448275862,
      "grad_norm": 14.353382110595703,
      "learning_rate": 4.786418400876232e-05,
      "loss": 0.0887,
      "step": 578
    },
    {
      "epoch": 20.0,
      "grad_norm": 0.43623942136764526,
      "learning_rate": 4.764512595837897e-05,
      "loss": 0.0249,
      "step": 580
    },
    {
      "epoch": 20.0,
      "eval_accuracy": 0.5909090909090909,
      "eval_f1_macro": 0.5197787455591448,
      "eval_f1_micro": 0.5909090909090909,
      "eval_f1_weighted": 0.5825078945882032,
      "eval_loss": 1.6081513166427612,
      "eval_precision_macro": 0.5148994878087059,
      "eval_precision_micro": 0.5909090909090909,
      "eval_precision_weighted": 0.5769802287329502,
      "eval_recall_macro": 0.5272184429327286,
      "eval_recall_micro": 0.5909090909090909,
      "eval_recall_weighted": 0.5909090909090909,
      "eval_runtime": 2.1745,
      "eval_samples_per_second": 60.703,
      "eval_steps_per_second": 7.818,
      "step": 580
    },
    {
      "epoch": 20.06896551724138,
      "grad_norm": 0.3680793046951294,
      "learning_rate": 4.742606790799562e-05,
      "loss": 0.0216,
      "step": 582
    },
    {
      "epoch": 20.137931034482758,
      "grad_norm": 2.0422375202178955,
      "learning_rate": 4.7207009857612275e-05,
      "loss": 0.0177,
      "step": 584
    },
    {
      "epoch": 20.20689655172414,
      "grad_norm": 6.626030445098877,
      "learning_rate": 4.698795180722892e-05,
      "loss": 0.2056,
      "step": 586
    },
    {
      "epoch": 20.275862068965516,
      "grad_norm": 0.7436681389808655,
      "learning_rate": 4.676889375684557e-05,
      "loss": 0.0327,
      "step": 588
    },
    {
      "epoch": 20.344827586206897,
      "grad_norm": 0.9783719182014465,
      "learning_rate": 4.6549835706462214e-05,
      "loss": 0.044,
      "step": 590
    },
    {
      "epoch": 20.413793103448278,
      "grad_norm": 0.8457818627357483,
      "learning_rate": 4.633077765607886e-05,
      "loss": 0.1102,
      "step": 592
    },
    {
      "epoch": 20.482758620689655,
      "grad_norm": 3.060871124267578,
      "learning_rate": 4.611171960569551e-05,
      "loss": 0.0726,
      "step": 594
    },
    {
      "epoch": 20.551724137931036,
      "grad_norm": 7.481118679046631,
      "learning_rate": 4.589266155531216e-05,
      "loss": 0.1447,
      "step": 596
    },
    {
      "epoch": 20.620689655172413,
      "grad_norm": 8.65415096282959,
      "learning_rate": 4.5673603504928806e-05,
      "loss": 0.2099,
      "step": 598
    },
    {
      "epoch": 20.689655172413794,
      "grad_norm": 3.2042698860168457,
      "learning_rate": 4.545454545454546e-05,
      "loss": 0.0497,
      "step": 600
    },
    {
      "epoch": 20.75862068965517,
      "grad_norm": 0.5125285983085632,
      "learning_rate": 4.5235487404162105e-05,
      "loss": 0.069,
      "step": 602
    },
    {
      "epoch": 20.82758620689655,
      "grad_norm": 0.8691998720169067,
      "learning_rate": 4.501642935377876e-05,
      "loss": 0.0354,
      "step": 604
    },
    {
      "epoch": 20.896551724137932,
      "grad_norm": 10.247215270996094,
      "learning_rate": 4.4797371303395404e-05,
      "loss": 0.1541,
      "step": 606
    },
    {
      "epoch": 20.96551724137931,
      "grad_norm": 11.587034225463867,
      "learning_rate": 4.457831325301205e-05,
      "loss": 0.374,
      "step": 608
    },
    {
      "epoch": 21.0,
      "eval_accuracy": 0.6287878787878788,
      "eval_f1_macro": 0.6084137522037308,
      "eval_f1_micro": 0.6287878787878788,
      "eval_f1_weighted": 0.6185060346144132,
      "eval_loss": 1.7593897581100464,
      "eval_precision_macro": 0.6711527035056447,
      "eval_precision_micro": 0.6287878787878788,
      "eval_precision_weighted": 0.6679164641063037,
      "eval_recall_macro": 0.6049433106575963,
      "eval_recall_micro": 0.6287878787878788,
      "eval_recall_weighted": 0.6287878787878788,
      "eval_runtime": 2.1955,
      "eval_samples_per_second": 60.123,
      "eval_steps_per_second": 7.743,
      "step": 609
    },
    {
      "epoch": 21.03448275862069,
      "grad_norm": 1.38335120677948,
      "learning_rate": 4.4359255202628696e-05,
      "loss": 0.079,
      "step": 610
    },
    {
      "epoch": 21.103448275862068,
      "grad_norm": 5.99662446975708,
      "learning_rate": 4.414019715224535e-05,
      "loss": 0.0648,
      "step": 612
    },
    {
      "epoch": 21.17241379310345,
      "grad_norm": 1.0241988897323608,
      "learning_rate": 4.3921139101861996e-05,
      "loss": 0.1807,
      "step": 614
    },
    {
      "epoch": 21.24137931034483,
      "grad_norm": 0.5548591017723083,
      "learning_rate": 4.370208105147864e-05,
      "loss": 0.0375,
      "step": 616
    },
    {
      "epoch": 21.310344827586206,
      "grad_norm": 0.7137009501457214,
      "learning_rate": 4.348302300109529e-05,
      "loss": 0.0694,
      "step": 618
    },
    {
      "epoch": 21.379310344827587,
      "grad_norm": 7.560571193695068,
      "learning_rate": 4.326396495071194e-05,
      "loss": 0.2715,
      "step": 620
    },
    {
      "epoch": 21.448275862068964,
      "grad_norm": 7.067291736602783,
      "learning_rate": 4.3044906900328594e-05,
      "loss": 0.1016,
      "step": 622
    },
    {
      "epoch": 21.517241379310345,
      "grad_norm": 4.622091770172119,
      "learning_rate": 4.282584884994524e-05,
      "loss": 0.0621,
      "step": 624
    },
    {
      "epoch": 21.586206896551722,
      "grad_norm": 5.788636207580566,
      "learning_rate": 4.2606790799561886e-05,
      "loss": 0.1775,
      "step": 626
    },
    {
      "epoch": 21.655172413793103,
      "grad_norm": 3.3069419860839844,
      "learning_rate": 4.238773274917853e-05,
      "loss": 0.0586,
      "step": 628
    },
    {
      "epoch": 21.724137931034484,
      "grad_norm": 0.65139240026474,
      "learning_rate": 4.2168674698795186e-05,
      "loss": 0.0672,
      "step": 630
    },
    {
      "epoch": 21.79310344827586,
      "grad_norm": 2.4793200492858887,
      "learning_rate": 4.194961664841183e-05,
      "loss": 0.1428,
      "step": 632
    },
    {
      "epoch": 21.862068965517242,
      "grad_norm": 2.988377809524536,
      "learning_rate": 4.173055859802848e-05,
      "loss": 0.1759,
      "step": 634
    },
    {
      "epoch": 21.93103448275862,
      "grad_norm": 5.487617015838623,
      "learning_rate": 4.1511500547645124e-05,
      "loss": 0.0849,
      "step": 636
    },
    {
      "epoch": 22.0,
      "grad_norm": 2.8238141536712646,
      "learning_rate": 4.129244249726178e-05,
      "loss": 0.025,
      "step": 638
    },
    {
      "epoch": 22.0,
      "eval_accuracy": 0.6515151515151515,
      "eval_f1_macro": 0.6445815393183814,
      "eval_f1_micro": 0.6515151515151515,
      "eval_f1_weighted": 0.6520235479565623,
      "eval_loss": 1.4723178148269653,
      "eval_precision_macro": 0.6542847694633409,
      "eval_precision_micro": 0.6515151515151515,
      "eval_precision_weighted": 0.6660361050986052,
      "eval_recall_macro": 0.6478760393046107,
      "eval_recall_micro": 0.6515151515151515,
      "eval_recall_weighted": 0.6515151515151515,
      "eval_runtime": 2.2232,
      "eval_samples_per_second": 59.375,
      "eval_steps_per_second": 7.647,
      "step": 638
    },
    {
      "epoch": 22.06896551724138,
      "grad_norm": 6.143444061279297,
      "learning_rate": 4.107338444687843e-05,
      "loss": 0.0913,
      "step": 640
    },
    {
      "epoch": 22.137931034482758,
      "grad_norm": 2.971240997314453,
      "learning_rate": 4.0854326396495076e-05,
      "loss": 0.0312,
      "step": 642
    },
    {
      "epoch": 22.20689655172414,
      "grad_norm": 0.27099546790122986,
      "learning_rate": 4.063526834611172e-05,
      "loss": 0.045,
      "step": 644
    },
    {
      "epoch": 22.275862068965516,
      "grad_norm": 0.35845986008644104,
      "learning_rate": 4.041621029572837e-05,
      "loss": 0.013,
      "step": 646
    },
    {
      "epoch": 22.344827586206897,
      "grad_norm": 2.0845632553100586,
      "learning_rate": 4.019715224534502e-05,
      "loss": 0.0523,
      "step": 648
    },
    {
      "epoch": 22.413793103448278,
      "grad_norm": 3.686854362487793,
      "learning_rate": 3.997809419496167e-05,
      "loss": 0.0292,
      "step": 650
    },
    {
      "epoch": 22.482758620689655,
      "grad_norm": 0.846224844455719,
      "learning_rate": 3.9759036144578314e-05,
      "loss": 0.1901,
      "step": 652
    },
    {
      "epoch": 22.551724137931036,
      "grad_norm": 0.3240630626678467,
      "learning_rate": 3.953997809419496e-05,
      "loss": 0.0187,
      "step": 654
    },
    {
      "epoch": 22.620689655172413,
      "grad_norm": 7.635501861572266,
      "learning_rate": 3.9320920043811607e-05,
      "loss": 0.1124,
      "step": 656
    },
    {
      "epoch": 22.689655172413794,
      "grad_norm": 2.2201285362243652,
      "learning_rate": 3.910186199342826e-05,
      "loss": 0.03,
      "step": 658
    },
    {
      "epoch": 22.75862068965517,
      "grad_norm": 8.953709602355957,
      "learning_rate": 3.888280394304491e-05,
      "loss": 0.0588,
      "step": 660
    },
    {
      "epoch": 22.82758620689655,
      "grad_norm": 7.417150497436523,
      "learning_rate": 3.866374589266156e-05,
      "loss": 0.0751,
      "step": 662
    },
    {
      "epoch": 22.896551724137932,
      "grad_norm": 1.5134751796722412,
      "learning_rate": 3.8444687842278205e-05,
      "loss": 0.0166,
      "step": 664
    },
    {
      "epoch": 22.96551724137931,
      "grad_norm": 0.537891685962677,
      "learning_rate": 3.822562979189485e-05,
      "loss": 0.0096,
      "step": 666
    },
    {
      "epoch": 23.0,
      "eval_accuracy": 0.6136363636363636,
      "eval_f1_macro": 0.5899262553677856,
      "eval_f1_micro": 0.6136363636363636,
      "eval_f1_weighted": 0.6088674363985942,
      "eval_loss": 1.5689215660095215,
      "eval_precision_macro": 0.616981329954019,
      "eval_precision_micro": 0.6136363636363636,
      "eval_precision_weighted": 0.6315426797963563,
      "eval_recall_macro": 0.5878231292517008,
      "eval_recall_micro": 0.6136363636363636,
      "eval_recall_weighted": 0.6136363636363636,
      "eval_runtime": 2.2085,
      "eval_samples_per_second": 59.769,
      "eval_steps_per_second": 7.697,
      "step": 667
    },
    {
      "epoch": 23.03448275862069,
      "grad_norm": 0.5641638040542603,
      "learning_rate": 3.8006571741511504e-05,
      "loss": 0.0089,
      "step": 668
    },
    {
      "epoch": 23.103448275862068,
      "grad_norm": 3.1353189945220947,
      "learning_rate": 3.778751369112815e-05,
      "loss": 0.0292,
      "step": 670
    },
    {
      "epoch": 23.17241379310345,
      "grad_norm": 0.7373493313789368,
      "learning_rate": 3.7568455640744796e-05,
      "loss": 0.0612,
      "step": 672
    },
    {
      "epoch": 23.24137931034483,
      "grad_norm": 2.668566942214966,
      "learning_rate": 3.734939759036144e-05,
      "loss": 0.0416,
      "step": 674
    },
    {
      "epoch": 23.310344827586206,
      "grad_norm": 4.210921287536621,
      "learning_rate": 3.7130339539978096e-05,
      "loss": 0.0405,
      "step": 676
    },
    {
      "epoch": 23.379310344827587,
      "grad_norm": 0.31117522716522217,
      "learning_rate": 3.691128148959475e-05,
      "loss": 0.0162,
      "step": 678
    },
    {
      "epoch": 23.448275862068964,
      "grad_norm": 8.15129280090332,
      "learning_rate": 3.6692223439211395e-05,
      "loss": 0.0723,
      "step": 680
    },
    {
      "epoch": 23.517241379310345,
      "grad_norm": 2.1367807388305664,
      "learning_rate": 3.647316538882804e-05,
      "loss": 0.0501,
      "step": 682
    },
    {
      "epoch": 23.586206896551722,
      "grad_norm": 1.1246554851531982,
      "learning_rate": 3.625410733844469e-05,
      "loss": 0.0115,
      "step": 684
    },
    {
      "epoch": 23.655172413793103,
      "grad_norm": 1.3772636651992798,
      "learning_rate": 3.603504928806134e-05,
      "loss": 0.033,
      "step": 686
    },
    {
      "epoch": 23.724137931034484,
      "grad_norm": 0.15142899751663208,
      "learning_rate": 3.5815991237677986e-05,
      "loss": 0.0613,
      "step": 688
    },
    {
      "epoch": 23.79310344827586,
      "grad_norm": 13.712115287780762,
      "learning_rate": 3.559693318729463e-05,
      "loss": 0.2608,
      "step": 690
    },
    {
      "epoch": 23.862068965517242,
      "grad_norm": 6.292361259460449,
      "learning_rate": 3.537787513691128e-05,
      "loss": 0.1134,
      "step": 692
    },
    {
      "epoch": 23.93103448275862,
      "grad_norm": 0.6719773411750793,
      "learning_rate": 3.515881708652793e-05,
      "loss": 0.0106,
      "step": 694
    },
    {
      "epoch": 24.0,
      "grad_norm": 1.0674413442611694,
      "learning_rate": 3.4939759036144585e-05,
      "loss": 0.0661,
      "step": 696
    },
    {
      "epoch": 24.0,
      "eval_accuracy": 0.6666666666666666,
      "eval_f1_macro": 0.6056024708734068,
      "eval_f1_micro": 0.6666666666666666,
      "eval_f1_weighted": 0.657565805841668,
      "eval_loss": 1.6276419162750244,
      "eval_precision_macro": 0.6690476190476191,
      "eval_precision_micro": 0.6666666666666666,
      "eval_precision_weighted": 0.6866965105601469,
      "eval_recall_macro": 0.5948677248677248,
      "eval_recall_micro": 0.6666666666666666,
      "eval_recall_weighted": 0.6666666666666666,
      "eval_runtime": 2.2477,
      "eval_samples_per_second": 58.726,
      "eval_steps_per_second": 7.563,
      "step": 696
    },
    {
      "epoch": 24.06896551724138,
      "grad_norm": 0.15591685473918915,
      "learning_rate": 3.472070098576123e-05,
      "loss": 0.0109,
      "step": 698
    },
    {
      "epoch": 24.137931034482758,
      "grad_norm": 1.411007046699524,
      "learning_rate": 3.450164293537788e-05,
      "loss": 0.0806,
      "step": 700
    },
    {
      "epoch": 24.20689655172414,
      "grad_norm": 6.958545684814453,
      "learning_rate": 3.4282584884994523e-05,
      "loss": 0.2285,
      "step": 702
    },
    {
      "epoch": 24.275862068965516,
      "grad_norm": 0.38558292388916016,
      "learning_rate": 3.4063526834611176e-05,
      "loss": 0.0268,
      "step": 704
    },
    {
      "epoch": 24.344827586206897,
      "grad_norm": 6.778842926025391,
      "learning_rate": 3.384446878422782e-05,
      "loss": 0.1081,
      "step": 706
    },
    {
      "epoch": 24.413793103448278,
      "grad_norm": 0.2550676465034485,
      "learning_rate": 3.362541073384447e-05,
      "loss": 0.0058,
      "step": 708
    },
    {
      "epoch": 24.482758620689655,
      "grad_norm": 0.24779938161373138,
      "learning_rate": 3.3406352683461115e-05,
      "loss": 0.0252,
      "step": 710
    },
    {
      "epoch": 24.551724137931036,
      "grad_norm": 0.1385107785463333,
      "learning_rate": 3.318729463307776e-05,
      "loss": 0.0057,
      "step": 712
    },
    {
      "epoch": 24.620689655172413,
      "grad_norm": 3.3009445667266846,
      "learning_rate": 3.2968236582694414e-05,
      "loss": 0.0338,
      "step": 714
    },
    {
      "epoch": 24.689655172413794,
      "grad_norm": 0.6270205974578857,
      "learning_rate": 3.274917853231107e-05,
      "loss": 0.0112,
      "step": 716
    },
    {
      "epoch": 24.75862068965517,
      "grad_norm": 0.24541209638118744,
      "learning_rate": 3.253012048192771e-05,
      "loss": 0.0098,
      "step": 718
    },
    {
      "epoch": 24.82758620689655,
      "grad_norm": 0.5051412582397461,
      "learning_rate": 3.231106243154436e-05,
      "loss": 0.0616,
      "step": 720
    },
    {
      "epoch": 24.896551724137932,
      "grad_norm": 0.21808616816997528,
      "learning_rate": 3.209200438116101e-05,
      "loss": 0.0238,
      "step": 722
    },
    {
      "epoch": 24.96551724137931,
      "grad_norm": 0.19809569418430328,
      "learning_rate": 3.187294633077766e-05,
      "loss": 0.0463,
      "step": 724
    },
    {
      "epoch": 25.0,
      "eval_accuracy": 0.6136363636363636,
      "eval_f1_macro": 0.5591332103178793,
      "eval_f1_micro": 0.6136363636363636,
      "eval_f1_weighted": 0.6084641064500635,
      "eval_loss": 1.6760780811309814,
      "eval_precision_macro": 0.6192834056699603,
      "eval_precision_micro": 0.6136363636363636,
      "eval_precision_weighted": 0.6400907915613798,
      "eval_recall_macro": 0.5521088435374149,
      "eval_recall_micro": 0.6136363636363636,
      "eval_recall_weighted": 0.6136363636363636,
      "eval_runtime": 2.1953,
      "eval_samples_per_second": 60.128,
      "eval_steps_per_second": 7.744,
      "step": 725
    },
    {
      "epoch": 25.03448275862069,
      "grad_norm": 0.9460155367851257,
      "learning_rate": 3.1653888280394305e-05,
      "loss": 0.0328,
      "step": 726
    },
    {
      "epoch": 25.103448275862068,
      "grad_norm": 0.34770432114601135,
      "learning_rate": 3.143483023001095e-05,
      "loss": 0.0169,
      "step": 728
    },
    {
      "epoch": 25.17241379310345,
      "grad_norm": 0.6745150089263916,
      "learning_rate": 3.12157721796276e-05,
      "loss": 0.0292,
      "step": 730
    },
    {
      "epoch": 25.24137931034483,
      "grad_norm": 0.14288195967674255,
      "learning_rate": 3.099671412924425e-05,
      "loss": 0.0672,
      "step": 732
    },
    {
      "epoch": 25.310344827586206,
      "grad_norm": 0.1784912347793579,
      "learning_rate": 3.07776560788609e-05,
      "loss": 0.0046,
      "step": 734
    },
    {
      "epoch": 25.379310344827587,
      "grad_norm": 0.7752932906150818,
      "learning_rate": 3.055859802847755e-05,
      "loss": 0.0089,
      "step": 736
    },
    {
      "epoch": 25.448275862068964,
      "grad_norm": 8.310676574707031,
      "learning_rate": 3.0339539978094196e-05,
      "loss": 0.0854,
      "step": 738
    },
    {
      "epoch": 25.517241379310345,
      "grad_norm": 1.2783715724945068,
      "learning_rate": 3.012048192771085e-05,
      "loss": 0.0091,
      "step": 740
    },
    {
      "epoch": 25.586206896551722,
      "grad_norm": 1.2155754566192627,
      "learning_rate": 2.9901423877327495e-05,
      "loss": 0.0182,
      "step": 742
    },
    {
      "epoch": 25.655172413793103,
      "grad_norm": 0.10511256754398346,
      "learning_rate": 2.968236582694414e-05,
      "loss": 0.0043,
      "step": 744
    },
    {
      "epoch": 25.724137931034484,
      "grad_norm": 0.1467219889163971,
      "learning_rate": 2.9463307776560787e-05,
      "loss": 0.0041,
      "step": 746
    },
    {
      "epoch": 25.79310344827586,
      "grad_norm": 0.06411899626255035,
      "learning_rate": 2.9244249726177437e-05,
      "loss": 0.0043,
      "step": 748
    },
    {
      "epoch": 25.862068965517242,
      "grad_norm": 9.776043891906738,
      "learning_rate": 2.902519167579409e-05,
      "loss": 0.0456,
      "step": 750
    },
    {
      "epoch": 25.93103448275862,
      "grad_norm": 0.1743546575307846,
      "learning_rate": 2.8806133625410736e-05,
      "loss": 0.0029,
      "step": 752
    },
    {
      "epoch": 26.0,
      "grad_norm": 0.9783799648284912,
      "learning_rate": 2.8587075575027382e-05,
      "loss": 0.0118,
      "step": 754
    },
    {
      "epoch": 26.0,
      "eval_accuracy": 0.6287878787878788,
      "eval_f1_macro": 0.5353365735453567,
      "eval_f1_micro": 0.6287878787878788,
      "eval_f1_weighted": 0.6074711236094882,
      "eval_loss": 1.6210349798202515,
      "eval_precision_macro": 0.5715752748253354,
      "eval_precision_micro": 0.6287878787878788,
      "eval_precision_weighted": 0.6263481846840905,
      "eval_recall_macro": 0.5410279667422525,
      "eval_recall_micro": 0.6287878787878788,
      "eval_recall_weighted": 0.6287878787878788,
      "eval_runtime": 2.2013,
      "eval_samples_per_second": 59.964,
      "eval_steps_per_second": 7.723,
      "step": 754
    },
    {
      "epoch": 26.06896551724138,
      "grad_norm": 0.2862379252910614,
      "learning_rate": 2.8368017524644032e-05,
      "loss": 0.0041,
      "step": 756
    },
    {
      "epoch": 26.137931034482758,
      "grad_norm": 1.7093660831451416,
      "learning_rate": 2.8148959474260678e-05,
      "loss": 0.0129,
      "step": 758
    },
    {
      "epoch": 26.20689655172414,
      "grad_norm": 2.0235061645507812,
      "learning_rate": 2.792990142387733e-05,
      "loss": 0.0107,
      "step": 760
    },
    {
      "epoch": 26.275862068965516,
      "grad_norm": 0.19022098183631897,
      "learning_rate": 2.7710843373493977e-05,
      "loss": 0.0044,
      "step": 762
    },
    {
      "epoch": 26.344827586206897,
      "grad_norm": 0.09240903705358505,
      "learning_rate": 2.7491785323110624e-05,
      "loss": 0.0023,
      "step": 764
    },
    {
      "epoch": 26.413793103448278,
      "grad_norm": 0.08767610788345337,
      "learning_rate": 2.7272727272727273e-05,
      "loss": 0.0026,
      "step": 766
    },
    {
      "epoch": 26.482758620689655,
      "grad_norm": 0.3399060368537903,
      "learning_rate": 2.7053669222343926e-05,
      "loss": 0.0129,
      "step": 768
    },
    {
      "epoch": 26.551724137931036,
      "grad_norm": 0.16420547664165497,
      "learning_rate": 2.6834611171960572e-05,
      "loss": 0.0315,
      "step": 770
    },
    {
      "epoch": 26.620689655172413,
      "grad_norm": 0.07277621328830719,
      "learning_rate": 2.661555312157722e-05,
      "loss": 0.1677,
      "step": 772
    },
    {
      "epoch": 26.689655172413794,
      "grad_norm": 0.0779278352856636,
      "learning_rate": 2.6396495071193865e-05,
      "loss": 0.0034,
      "step": 774
    },
    {
      "epoch": 26.75862068965517,
      "grad_norm": 0.030221056193113327,
      "learning_rate": 2.6177437020810514e-05,
      "loss": 0.009,
      "step": 776
    },
    {
      "epoch": 26.82758620689655,
      "grad_norm": 0.7204201221466064,
      "learning_rate": 2.5958378970427167e-05,
      "loss": 0.0242,
      "step": 778
    },
    {
      "epoch": 26.896551724137932,
      "grad_norm": 2.2107677459716797,
      "learning_rate": 2.5739320920043813e-05,
      "loss": 0.0818,
      "step": 780
    },
    {
      "epoch": 26.96551724137931,
      "grad_norm": 0.04545823484659195,
      "learning_rate": 2.552026286966046e-05,
      "loss": 0.0018,
      "step": 782
    },
    {
      "epoch": 27.0,
      "eval_accuracy": 0.6742424242424242,
      "eval_f1_macro": 0.5860085994600535,
      "eval_f1_micro": 0.6742424242424242,
      "eval_f1_weighted": 0.6574843706054311,
      "eval_loss": 1.607276201248169,
      "eval_precision_macro": 0.5955862562810968,
      "eval_precision_micro": 0.6742424242424242,
      "eval_precision_weighted": 0.6586732219548587,
      "eval_recall_macro": 0.5929327286470143,
      "eval_recall_micro": 0.6742424242424242,
      "eval_recall_weighted": 0.6742424242424242,
      "eval_runtime": 2.1629,
      "eval_samples_per_second": 61.028,
      "eval_steps_per_second": 7.86,
      "step": 783
    },
    {
      "epoch": 27.03448275862069,
      "grad_norm": 1.2520081996917725,
      "learning_rate": 2.530120481927711e-05,
      "loss": 0.0145,
      "step": 784
    },
    {
      "epoch": 27.103448275862068,
      "grad_norm": 0.4600828289985657,
      "learning_rate": 2.5082146768893762e-05,
      "loss": 0.0133,
      "step": 786
    },
    {
      "epoch": 27.17241379310345,
      "grad_norm": 4.692933082580566,
      "learning_rate": 2.486308871851041e-05,
      "loss": 0.0382,
      "step": 788
    },
    {
      "epoch": 27.24137931034483,
      "grad_norm": 0.3261309862136841,
      "learning_rate": 2.4644030668127055e-05,
      "loss": 0.0035,
      "step": 790
    },
    {
      "epoch": 27.310344827586206,
      "grad_norm": 0.028574170544743538,
      "learning_rate": 2.44249726177437e-05,
      "loss": 0.0084,
      "step": 792
    },
    {
      "epoch": 27.379310344827587,
      "grad_norm": 0.4913921356201172,
      "learning_rate": 2.420591456736035e-05,
      "loss": 0.0183,
      "step": 794
    },
    {
      "epoch": 27.448275862068964,
      "grad_norm": 1.5067977905273438,
      "learning_rate": 2.3986856516977e-05,
      "loss": 0.0387,
      "step": 796
    },
    {
      "epoch": 27.517241379310345,
      "grad_norm": 0.8277406096458435,
      "learning_rate": 2.376779846659365e-05,
      "loss": 0.0233,
      "step": 798
    },
    {
      "epoch": 27.586206896551722,
      "grad_norm": 5.168019771575928,
      "learning_rate": 2.3548740416210296e-05,
      "loss": 0.0222,
      "step": 800
    },
    {
      "epoch": 27.655172413793103,
      "grad_norm": 0.5925205945968628,
      "learning_rate": 2.3329682365826945e-05,
      "loss": 0.0066,
      "step": 802
    },
    {
      "epoch": 27.724137931034484,
      "grad_norm": 0.7455288767814636,
      "learning_rate": 2.3110624315443595e-05,
      "loss": 0.0044,
      "step": 804
    },
    {
      "epoch": 27.79310344827586,
      "grad_norm": 0.029589757323265076,
      "learning_rate": 2.289156626506024e-05,
      "loss": 0.0055,
      "step": 806
    },
    {
      "epoch": 27.862068965517242,
      "grad_norm": 10.534521102905273,
      "learning_rate": 2.267250821467689e-05,
      "loss": 0.0515,
      "step": 808
    },
    {
      "epoch": 27.93103448275862,
      "grad_norm": 0.19806796312332153,
      "learning_rate": 2.2453450164293537e-05,
      "loss": 0.0157,
      "step": 810
    },
    {
      "epoch": 28.0,
      "grad_norm": 5.914359092712402,
      "learning_rate": 2.2234392113910187e-05,
      "loss": 0.0336,
      "step": 812
    },
    {
      "epoch": 28.0,
      "eval_accuracy": 0.6439393939393939,
      "eval_f1_macro": 0.6085667254819397,
      "eval_f1_micro": 0.6439393939393939,
      "eval_f1_weighted": 0.6411146413787409,
      "eval_loss": 1.5964038372039795,
      "eval_precision_macro": 0.6379142750217496,
      "eval_precision_micro": 0.6439393939393939,
      "eval_precision_weighted": 0.6565570652257958,
      "eval_recall_macro": 0.5978533635676493,
      "eval_recall_micro": 0.6439393939393939,
      "eval_recall_weighted": 0.6439393939393939,
      "eval_runtime": 2.2198,
      "eval_samples_per_second": 59.466,
      "eval_steps_per_second": 7.659,
      "step": 812
    },
    {
      "epoch": 28.06896551724138,
      "grad_norm": 1.2526508569717407,
      "learning_rate": 2.2015334063526836e-05,
      "loss": 0.0304,
      "step": 814
    },
    {
      "epoch": 28.137931034482758,
      "grad_norm": 1.441461443901062,
      "learning_rate": 2.1796276013143486e-05,
      "loss": 0.0071,
      "step": 816
    },
    {
      "epoch": 28.20689655172414,
      "grad_norm": 0.2004363089799881,
      "learning_rate": 2.1577217962760132e-05,
      "loss": 0.0261,
      "step": 818
    },
    {
      "epoch": 28.275862068965516,
      "grad_norm": 0.16825991868972778,
      "learning_rate": 2.1358159912376778e-05,
      "loss": 0.0297,
      "step": 820
    },
    {
      "epoch": 28.344827586206897,
      "grad_norm": 0.8127052783966064,
      "learning_rate": 2.1139101861993428e-05,
      "loss": 0.005,
      "step": 822
    },
    {
      "epoch": 28.413793103448278,
      "grad_norm": 0.2261103391647339,
      "learning_rate": 2.0920043811610077e-05,
      "loss": 0.0056,
      "step": 824
    },
    {
      "epoch": 28.482758620689655,
      "grad_norm": 0.04766825586557388,
      "learning_rate": 2.0700985761226727e-05,
      "loss": 0.0013,
      "step": 826
    },
    {
      "epoch": 28.551724137931036,
      "grad_norm": 0.036670394241809845,
      "learning_rate": 2.0481927710843373e-05,
      "loss": 0.0028,
      "step": 828
    },
    {
      "epoch": 28.620689655172413,
      "grad_norm": 0.41730597615242004,
      "learning_rate": 2.0262869660460023e-05,
      "loss": 0.0028,
      "step": 830
    },
    {
      "epoch": 28.689655172413794,
      "grad_norm": 0.04215677082538605,
      "learning_rate": 2.0043811610076672e-05,
      "loss": 0.0018,
      "step": 832
    },
    {
      "epoch": 28.75862068965517,
      "grad_norm": 0.08167728036642075,
      "learning_rate": 1.9824753559693322e-05,
      "loss": 0.0016,
      "step": 834
    },
    {
      "epoch": 28.82758620689655,
      "grad_norm": 0.031280118972063065,
      "learning_rate": 1.9605695509309968e-05,
      "loss": 0.002,
      "step": 836
    },
    {
      "epoch": 28.896551724137932,
      "grad_norm": 1.7285773754119873,
      "learning_rate": 1.9386637458926614e-05,
      "loss": 0.0117,
      "step": 838
    },
    {
      "epoch": 28.96551724137931,
      "grad_norm": 0.06211957335472107,
      "learning_rate": 1.9167579408543264e-05,
      "loss": 0.0014,
      "step": 840
    },
    {
      "epoch": 29.0,
      "eval_accuracy": 0.7121212121212122,
      "eval_f1_macro": 0.6872675353596543,
      "eval_f1_micro": 0.7121212121212122,
      "eval_f1_weighted": 0.7082990442199542,
      "eval_loss": 1.5290158987045288,
      "eval_precision_macro": 0.7262781667691,
      "eval_precision_micro": 0.7121212121212122,
      "eval_precision_weighted": 0.7308177925367624,
      "eval_recall_macro": 0.6733560090702948,
      "eval_recall_micro": 0.7121212121212122,
      "eval_recall_weighted": 0.7121212121212122,
      "eval_runtime": 2.1608,
      "eval_samples_per_second": 61.088,
      "eval_steps_per_second": 7.867,
      "step": 841
    },
    {
      "epoch": 29.03448275862069,
      "grad_norm": 0.01278562843799591,
      "learning_rate": 1.8948521358159914e-05,
      "loss": 0.003,
      "step": 842
    },
    {
      "epoch": 29.103448275862068,
      "grad_norm": 0.06935442239046097,
      "learning_rate": 1.8729463307776563e-05,
      "loss": 0.0014,
      "step": 844
    },
    {
      "epoch": 29.17241379310345,
      "grad_norm": 0.6586639285087585,
      "learning_rate": 1.851040525739321e-05,
      "loss": 0.0023,
      "step": 846
    },
    {
      "epoch": 29.24137931034483,
      "grad_norm": 3.5995774269104004,
      "learning_rate": 1.829134720700986e-05,
      "loss": 0.018,
      "step": 848
    },
    {
      "epoch": 29.310344827586206,
      "grad_norm": 0.08816396445035934,
      "learning_rate": 1.8072289156626505e-05,
      "loss": 0.0031,
      "step": 850
    },
    {
      "epoch": 29.379310344827587,
      "grad_norm": 1.209425926208496,
      "learning_rate": 1.7853231106243155e-05,
      "loss": 0.0282,
      "step": 852
    },
    {
      "epoch": 29.448275862068964,
      "grad_norm": 3.262197732925415,
      "learning_rate": 1.7634173055859804e-05,
      "loss": 0.0246,
      "step": 854
    },
    {
      "epoch": 29.517241379310345,
      "grad_norm": 0.7129732966423035,
      "learning_rate": 1.741511500547645e-05,
      "loss": 0.0085,
      "step": 856
    },
    {
      "epoch": 29.586206896551722,
      "grad_norm": 0.15869493782520294,
      "learning_rate": 1.71960569550931e-05,
      "loss": 0.0015,
      "step": 858
    },
    {
      "epoch": 29.655172413793103,
      "grad_norm": 0.07819876074790955,
      "learning_rate": 1.697699890470975e-05,
      "loss": 0.0476,
      "step": 860
    },
    {
      "epoch": 29.724137931034484,
      "grad_norm": 0.12180998921394348,
      "learning_rate": 1.67579408543264e-05,
      "loss": 0.0032,
      "step": 862
    },
    {
      "epoch": 29.79310344827586,
      "grad_norm": 0.034297507256269455,
      "learning_rate": 1.6538882803943046e-05,
      "loss": 0.0008,
      "step": 864
    },
    {
      "epoch": 29.862068965517242,
      "grad_norm": 0.14563943445682526,
      "learning_rate": 1.6319824753559695e-05,
      "loss": 0.0087,
      "step": 866
    },
    {
      "epoch": 29.93103448275862,
      "grad_norm": 0.23122666776180267,
      "learning_rate": 1.610076670317634e-05,
      "loss": 0.0416,
      "step": 868
    },
    {
      "epoch": 30.0,
      "grad_norm": 0.06973911821842194,
      "learning_rate": 1.588170865279299e-05,
      "loss": 0.021,
      "step": 870
    },
    {
      "epoch": 30.0,
      "eval_accuracy": 0.696969696969697,
      "eval_f1_macro": 0.6982068677202545,
      "eval_f1_micro": 0.696969696969697,
      "eval_f1_weighted": 0.6973740805478152,
      "eval_loss": 1.5439778566360474,
      "eval_precision_macro": 0.7076152020847177,
      "eval_precision_micro": 0.696969696969697,
      "eval_precision_weighted": 0.7169868679432659,
      "eval_recall_macro": 0.7086167800453513,
      "eval_recall_micro": 0.696969696969697,
      "eval_recall_weighted": 0.696969696969697,
      "eval_runtime": 2.1633,
      "eval_samples_per_second": 61.018,
      "eval_steps_per_second": 7.858,
      "step": 870
    },
    {
      "epoch": 30.06896551724138,
      "grad_norm": 1.7453641891479492,
      "learning_rate": 1.566265060240964e-05,
      "loss": 0.0083,
      "step": 872
    },
    {
      "epoch": 30.137931034482758,
      "grad_norm": 0.3179946541786194,
      "learning_rate": 1.5443592552026287e-05,
      "loss": 0.0024,
      "step": 874
    },
    {
      "epoch": 30.20689655172414,
      "grad_norm": 1.7078912258148193,
      "learning_rate": 1.5224534501642936e-05,
      "loss": 0.0082,
      "step": 876
    },
    {
      "epoch": 30.275862068965516,
      "grad_norm": 0.32421720027923584,
      "learning_rate": 1.5005476451259584e-05,
      "loss": 0.0032,
      "step": 878
    },
    {
      "epoch": 30.344827586206897,
      "grad_norm": 0.04044501855969429,
      "learning_rate": 1.4786418400876234e-05,
      "loss": 0.0444,
      "step": 880
    },
    {
      "epoch": 30.413793103448278,
      "grad_norm": 0.06957350671291351,
      "learning_rate": 1.4567360350492882e-05,
      "loss": 0.0226,
      "step": 882
    },
    {
      "epoch": 30.482758620689655,
      "grad_norm": 0.5221211314201355,
      "learning_rate": 1.4348302300109528e-05,
      "loss": 0.0041,
      "step": 884
    },
    {
      "epoch": 30.551724137931036,
      "grad_norm": 0.017598647624254227,
      "learning_rate": 1.412924424972618e-05,
      "loss": 0.0013,
      "step": 886
    },
    {
      "epoch": 30.620689655172413,
      "grad_norm": 0.47180604934692383,
      "learning_rate": 1.3910186199342825e-05,
      "loss": 0.003,
      "step": 888
    },
    {
      "epoch": 30.689655172413794,
      "grad_norm": 0.03941981866955757,
      "learning_rate": 1.3691128148959475e-05,
      "loss": 0.0112,
      "step": 890
    },
    {
      "epoch": 30.75862068965517,
      "grad_norm": 0.023555099964141846,
      "learning_rate": 1.3472070098576123e-05,
      "loss": 0.03,
      "step": 892
    },
    {
      "epoch": 30.82758620689655,
      "grad_norm": 0.48139652609825134,
      "learning_rate": 1.3253012048192772e-05,
      "loss": 0.0052,
      "step": 894
    },
    {
      "epoch": 30.896551724137932,
      "grad_norm": 0.1581326723098755,
      "learning_rate": 1.303395399780942e-05,
      "loss": 0.0156,
      "step": 896
    },
    {
      "epoch": 30.96551724137931,
      "grad_norm": 1.283683180809021,
      "learning_rate": 1.2814895947426067e-05,
      "loss": 0.0065,
      "step": 898
    },
    {
      "epoch": 31.0,
      "eval_accuracy": 0.696969696969697,
      "eval_f1_macro": 0.6868812120235886,
      "eval_f1_micro": 0.696969696969697,
      "eval_f1_weighted": 0.6914990595967736,
      "eval_loss": 1.6575924158096313,
      "eval_precision_macro": 0.7429775738046415,
      "eval_precision_micro": 0.696969696969697,
      "eval_precision_weighted": 0.7269597892803633,
      "eval_recall_macro": 0.6698866213151928,
      "eval_recall_micro": 0.696969696969697,
      "eval_recall_weighted": 0.696969696969697,
      "eval_runtime": 2.1493,
      "eval_samples_per_second": 61.416,
      "eval_steps_per_second": 7.91,
      "step": 899
    },
    {
      "epoch": 31.03448275862069,
      "grad_norm": 0.018120741471648216,
      "learning_rate": 1.2595837897042718e-05,
      "loss": 0.0011,
      "step": 900
    },
    {
      "epoch": 31.103448275862068,
      "grad_norm": 0.1496172994375229,
      "learning_rate": 1.2376779846659366e-05,
      "loss": 0.0031,
      "step": 902
    },
    {
      "epoch": 31.17241379310345,
      "grad_norm": 1.2407957315444946,
      "learning_rate": 1.2157721796276014e-05,
      "loss": 0.0278,
      "step": 904
    },
    {
      "epoch": 31.24137931034483,
      "grad_norm": 0.14974364638328552,
      "learning_rate": 1.1938663745892662e-05,
      "loss": 0.0236,
      "step": 906
    },
    {
      "epoch": 31.310344827586206,
      "grad_norm": 4.202882766723633,
      "learning_rate": 1.171960569550931e-05,
      "loss": 0.0241,
      "step": 908
    },
    {
      "epoch": 31.379310344827587,
      "grad_norm": 0.05061774700880051,
      "learning_rate": 1.1500547645125959e-05,
      "loss": 0.001,
      "step": 910
    },
    {
      "epoch": 31.448275862068964,
      "grad_norm": 0.019295161589980125,
      "learning_rate": 1.1281489594742607e-05,
      "loss": 0.0012,
      "step": 912
    },
    {
      "epoch": 31.517241379310345,
      "grad_norm": 0.1430915743112564,
      "learning_rate": 1.1062431544359257e-05,
      "loss": 0.0041,
      "step": 914
    },
    {
      "epoch": 31.586206896551722,
      "grad_norm": 0.03306346759200096,
      "learning_rate": 1.0843373493975904e-05,
      "loss": 0.0013,
      "step": 916
    },
    {
      "epoch": 31.655172413793103,
      "grad_norm": 0.42486900091171265,
      "learning_rate": 1.0624315443592552e-05,
      "loss": 0.006,
      "step": 918
    },
    {
      "epoch": 31.724137931034484,
      "grad_norm": 0.058433897793293,
      "learning_rate": 1.0405257393209202e-05,
      "loss": 0.0018,
      "step": 920
    },
    {
      "epoch": 31.79310344827586,
      "grad_norm": 0.027252651751041412,
      "learning_rate": 1.0186199342825848e-05,
      "loss": 0.004,
      "step": 922
    },
    {
      "epoch": 31.862068965517242,
      "grad_norm": 0.13943073153495789,
      "learning_rate": 9.967141292442498e-06,
      "loss": 0.0016,
      "step": 924
    },
    {
      "epoch": 31.93103448275862,
      "grad_norm": 0.048901163041591644,
      "learning_rate": 9.748083242059146e-06,
      "loss": 0.0019,
      "step": 926
    },
    {
      "epoch": 32.0,
      "grad_norm": 0.019549880176782608,
      "learning_rate": 9.529025191675795e-06,
      "loss": 0.0013,
      "step": 928
    },
    {
      "epoch": 32.0,
      "eval_accuracy": 0.7196969696969697,
      "eval_f1_macro": 0.7124096518979722,
      "eval_f1_micro": 0.7196969696969697,
      "eval_f1_weighted": 0.7172944138815308,
      "eval_loss": 1.560258388519287,
      "eval_precision_macro": 0.750803957946815,
      "eval_precision_micro": 0.7196969696969697,
      "eval_precision_weighted": 0.7410763478945297,
      "eval_recall_macro": 0.6987226001511715,
      "eval_recall_micro": 0.7196969696969697,
      "eval_recall_weighted": 0.7196969696969697,
      "eval_runtime": 2.1728,
      "eval_samples_per_second": 60.752,
      "eval_steps_per_second": 7.824,
      "step": 928
    },
    {
      "epoch": 32.06896551724138,
      "grad_norm": 0.05375111103057861,
      "learning_rate": 9.309967141292443e-06,
      "loss": 0.0024,
      "step": 930
    },
    {
      "epoch": 32.13793103448276,
      "grad_norm": 0.3470950424671173,
      "learning_rate": 9.090909090909091e-06,
      "loss": 0.0035,
      "step": 932
    },
    {
      "epoch": 32.206896551724135,
      "grad_norm": 0.02533532679080963,
      "learning_rate": 8.87185104052574e-06,
      "loss": 0.001,
      "step": 934
    },
    {
      "epoch": 32.275862068965516,
      "grad_norm": 1.6475239992141724,
      "learning_rate": 8.652792990142389e-06,
      "loss": 0.0343,
      "step": 936
    },
    {
      "epoch": 32.3448275862069,
      "grad_norm": 0.13403227925300598,
      "learning_rate": 8.433734939759036e-06,
      "loss": 0.0019,
      "step": 938
    },
    {
      "epoch": 32.41379310344828,
      "grad_norm": 0.13201530277729034,
      "learning_rate": 8.214676889375684e-06,
      "loss": 0.0019,
      "step": 940
    },
    {
      "epoch": 32.48275862068966,
      "grad_norm": 2.441126823425293,
      "learning_rate": 7.995618838992334e-06,
      "loss": 0.0152,
      "step": 942
    },
    {
      "epoch": 32.55172413793103,
      "grad_norm": 0.3257850408554077,
      "learning_rate": 7.776560788608982e-06,
      "loss": 0.0019,
      "step": 944
    },
    {
      "epoch": 32.62068965517241,
      "grad_norm": 0.10473517328500748,
      "learning_rate": 7.5575027382256306e-06,
      "loss": 0.0027,
      "step": 946
    },
    {
      "epoch": 32.689655172413794,
      "grad_norm": 0.04300970956683159,
      "learning_rate": 7.3384446878422785e-06,
      "loss": 0.0008,
      "step": 948
    },
    {
      "epoch": 32.758620689655174,
      "grad_norm": 0.12258446961641312,
      "learning_rate": 7.119386637458927e-06,
      "loss": 0.0028,
      "step": 950
    },
    {
      "epoch": 32.827586206896555,
      "grad_norm": 0.14553672075271606,
      "learning_rate": 6.900328587075576e-06,
      "loss": 0.0013,
      "step": 952
    },
    {
      "epoch": 32.89655172413793,
      "grad_norm": 1.198081612586975,
      "learning_rate": 6.681270536692223e-06,
      "loss": 0.0276,
      "step": 954
    },
    {
      "epoch": 32.96551724137931,
      "grad_norm": 0.4895022511482239,
      "learning_rate": 6.462212486308872e-06,
      "loss": 0.0129,
      "step": 956
    },
    {
      "epoch": 33.0,
      "eval_accuracy": 0.6893939393939394,
      "eval_f1_macro": 0.6841929992352647,
      "eval_f1_micro": 0.6893939393939394,
      "eval_f1_weighted": 0.6870473377924375,
      "eval_loss": 1.6027860641479492,
      "eval_precision_macro": 0.7152604691775198,
      "eval_precision_micro": 0.6893939393939394,
      "eval_precision_weighted": 0.7059007626456307,
      "eval_recall_macro": 0.673061224489796,
      "eval_recall_micro": 0.6893939393939394,
      "eval_recall_weighted": 0.6893939393939394,
      "eval_runtime": 2.1875,
      "eval_samples_per_second": 60.343,
      "eval_steps_per_second": 7.771,
      "step": 957
    },
    {
      "epoch": 33.03448275862069,
      "grad_norm": 0.18283292651176453,
      "learning_rate": 6.2431544359255205e-06,
      "loss": 0.0023,
      "step": 958
    },
    {
      "epoch": 33.10344827586207,
      "grad_norm": 0.09138727933168411,
      "learning_rate": 6.024096385542169e-06,
      "loss": 0.0018,
      "step": 960
    },
    {
      "epoch": 33.172413793103445,
      "grad_norm": 0.27659812569618225,
      "learning_rate": 5.805038335158817e-06,
      "loss": 0.004,
      "step": 962
    },
    {
      "epoch": 33.241379310344826,
      "grad_norm": 1.0702749490737915,
      "learning_rate": 5.585980284775466e-06,
      "loss": 0.0228,
      "step": 964
    },
    {
      "epoch": 33.310344827586206,
      "grad_norm": 0.10491228103637695,
      "learning_rate": 5.366922234392114e-06,
      "loss": 0.0023,
      "step": 966
    },
    {
      "epoch": 33.37931034482759,
      "grad_norm": 0.33777573704719543,
      "learning_rate": 5.1478641840087625e-06,
      "loss": 0.0034,
      "step": 968
    },
    {
      "epoch": 33.44827586206897,
      "grad_norm": 0.06301871687173843,
      "learning_rate": 4.928806133625411e-06,
      "loss": 0.0023,
      "step": 970
    },
    {
      "epoch": 33.51724137931034,
      "grad_norm": 0.09340860694646835,
      "learning_rate": 4.70974808324206e-06,
      "loss": 0.0205,
      "step": 972
    },
    {
      "epoch": 33.58620689655172,
      "grad_norm": 0.020821426063776016,
      "learning_rate": 4.490690032858708e-06,
      "loss": 0.0009,
      "step": 974
    },
    {
      "epoch": 33.6551724137931,
      "grad_norm": 0.04694080352783203,
      "learning_rate": 4.271631982475356e-06,
      "loss": 0.001,
      "step": 976
    },
    {
      "epoch": 33.724137931034484,
      "grad_norm": 0.056120615452528,
      "learning_rate": 4.0525739320920046e-06,
      "loss": 0.0018,
      "step": 978
    },
    {
      "epoch": 33.793103448275865,
      "grad_norm": 1.5992101430892944,
      "learning_rate": 3.8335158817086525e-06,
      "loss": 0.0073,
      "step": 980
    },
    {
      "epoch": 33.86206896551724,
      "grad_norm": 0.044718772172927856,
      "learning_rate": 3.614457831325301e-06,
      "loss": 0.012,
      "step": 982
    },
    {
      "epoch": 33.93103448275862,
      "grad_norm": 0.019480116665363312,
      "learning_rate": 3.39539978094195e-06,
      "loss": 0.0012,
      "step": 984
    },
    {
      "epoch": 34.0,
      "grad_norm": 0.01623496413230896,
      "learning_rate": 3.1763417305585983e-06,
      "loss": 0.0006,
      "step": 986
    },
    {
      "epoch": 34.0,
      "eval_accuracy": 0.6818181818181818,
      "eval_f1_macro": 0.6786724695679507,
      "eval_f1_micro": 0.6818181818181818,
      "eval_f1_weighted": 0.6800052243915973,
      "eval_loss": 1.6074531078338623,
      "eval_precision_macro": 0.7093953665382237,
      "eval_precision_micro": 0.6818181818181818,
      "eval_precision_weighted": 0.6991099809281627,
      "eval_recall_macro": 0.6677702191987906,
      "eval_recall_micro": 0.6818181818181818,
      "eval_recall_weighted": 0.6818181818181818,
      "eval_runtime": 2.1756,
      "eval_samples_per_second": 60.674,
      "eval_steps_per_second": 7.814,
      "step": 986
    },
    {
      "epoch": 34.06896551724138,
      "grad_norm": 0.02141761966049671,
      "learning_rate": 2.9572836801752466e-06,
      "loss": 0.0015,
      "step": 988
    },
    {
      "epoch": 34.13793103448276,
      "grad_norm": 0.03435864299535751,
      "learning_rate": 2.738225629791895e-06,
      "loss": 0.0009,
      "step": 990
    },
    {
      "epoch": 34.206896551724135,
      "grad_norm": 0.03004680573940277,
      "learning_rate": 2.5191675794085432e-06,
      "loss": 0.0011,
      "step": 992
    },
    {
      "epoch": 34.275862068965516,
      "grad_norm": 0.027880065143108368,
      "learning_rate": 2.3001095290251916e-06,
      "loss": 0.0008,
      "step": 994
    },
    {
      "epoch": 34.3448275862069,
      "grad_norm": 1.3690009117126465,
      "learning_rate": 2.0810514786418403e-06,
      "loss": 0.0308,
      "step": 996
    },
    {
      "epoch": 34.41379310344828,
      "grad_norm": 0.04672781005501747,
      "learning_rate": 1.8619934282584884e-06,
      "loss": 0.0012,
      "step": 998
    },
    {
      "epoch": 34.48275862068966,
      "grad_norm": 0.06204487010836601,
      "learning_rate": 1.642935377875137e-06,
      "loss": 0.0017,
      "step": 1000
    },
    {
      "epoch": 34.55172413793103,
      "grad_norm": 0.03130810335278511,
      "learning_rate": 1.4238773274917855e-06,
      "loss": 0.0015,
      "step": 1002
    },
    {
      "epoch": 34.62068965517241,
      "grad_norm": 0.06150972098112106,
      "learning_rate": 1.2048192771084338e-06,
      "loss": 0.0026,
      "step": 1004
    },
    {
      "epoch": 34.689655172413794,
      "grad_norm": 0.1301676630973816,
      "learning_rate": 9.857612267250823e-07,
      "loss": 0.0023,
      "step": 1006
    },
    {
      "epoch": 34.758620689655174,
      "grad_norm": 0.11791616678237915,
      "learning_rate": 7.667031763417306e-07,
      "loss": 0.0019,
      "step": 1008
    },
    {
      "epoch": 34.827586206896555,
      "grad_norm": 2.598999500274658,
      "learning_rate": 5.47645125958379e-07,
      "loss": 0.0082,
      "step": 1010
    },
    {
      "epoch": 34.89655172413793,
      "grad_norm": 1.0025254487991333,
      "learning_rate": 3.285870755750274e-07,
      "loss": 0.0207,
      "step": 1012
    },
    {
      "epoch": 34.96551724137931,
      "grad_norm": 0.543045699596405,
      "learning_rate": 1.095290251916758e-07,
      "loss": 0.0022,
      "step": 1014
    },
    {
      "epoch": 35.0,
      "eval_accuracy": 0.6893939393939394,
      "eval_f1_macro": 0.6848257838882342,
      "eval_f1_micro": 0.6893939393939394,
      "eval_f1_weighted": 0.6869347739708745,
      "eval_loss": 1.6008917093276978,
      "eval_precision_macro": 0.7170539138281073,
      "eval_precision_micro": 0.6893939393939394,
      "eval_precision_weighted": 0.7061795242880288,
      "eval_recall_macro": 0.673061224489796,
      "eval_recall_micro": 0.6893939393939394,
      "eval_recall_weighted": 0.6893939393939394,
      "eval_runtime": 2.1921,
      "eval_samples_per_second": 60.216,
      "eval_steps_per_second": 7.755,
      "step": 1015
    },
    {
      "epoch": 35.0,
      "step": 1015,
      "total_flos": 1.2531016253190758e+18,
      "train_loss": 0.5009635013656627,
      "train_runtime": 1007.7292,
      "train_samples_per_second": 16.046,
      "train_steps_per_second": 1.007
    }
  ],
  "logging_steps": 2,
  "max_steps": 1015,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 35,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.2531016253190758e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}