{
  "best_global_step": 1000,
  "best_metric": 0.6724504812400831,
  "best_model_checkpoint": "training/fourier-spectral-norm-classifier/checkpoint-1000",
  "epoch": 1.5353121801432958,
  "eval_steps": 500,
  "global_step": 1500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "SWA": "started",
      "epoch": 0,
      "step": 0
    },
    {
      "epoch": 0.00511770726714432,
      "grad_norm": 1.7937116622924805,
      "learning_rate": 8.19672131147541e-09,
      "loss": 0.8149,
      "step": 5
    },
    {
      "epoch": 0.01023541453428864,
      "grad_norm": 1.8986879587173462,
      "learning_rate": 1.844262295081967e-08,
      "loss": 0.8145,
      "step": 10
    },
    {
      "epoch": 0.015353121801432957,
      "grad_norm": 1.8692522048950195,
      "learning_rate": 2.8688524590163933e-08,
      "loss": 0.8031,
      "step": 15
    },
    {
      "epoch": 0.02047082906857728,
      "grad_norm": 1.6589646339416504,
      "learning_rate": 3.8934426229508196e-08,
      "loss": 0.8208,
      "step": 20
    },
    {
      "epoch": 0.0255885363357216,
      "grad_norm": 2.377978563308716,
      "learning_rate": 4.918032786885246e-08,
      "loss": 0.8054,
      "step": 25
    },
    {
      "epoch": 0.030706243602865915,
      "grad_norm": 2.000364065170288,
      "learning_rate": 5.9426229508196716e-08,
      "loss": 0.8064,
      "step": 30
    },
    {
      "epoch": 0.03582395087001024,
      "grad_norm": 1.8844542503356934,
      "learning_rate": 6.967213114754098e-08,
      "loss": 0.8047,
      "step": 35
    },
    {
      "epoch": 0.04094165813715456,
      "grad_norm": 2.0933573246002197,
      "learning_rate": 7.991803278688524e-08,
      "loss": 0.8156,
      "step": 40
    },
    {
      "epoch": 0.04605936540429888,
      "grad_norm": 1.8126033544540405,
      "learning_rate": 9.01639344262295e-08,
      "loss": 0.8074,
      "step": 45
    },
    {
      "epoch": 0.0511770726714432,
      "grad_norm": 2.5709195137023926,
      "learning_rate": 1.0040983606557377e-07,
      "loss": 0.8124,
      "step": 50
    },
    {
      "epoch": 0.05629477993858751,
      "grad_norm": 2.1875293254852295,
      "learning_rate": 1.1065573770491803e-07,
      "loss": 0.8143,
      "step": 55
    },
    {
      "epoch": 0.06141248720573183,
      "grad_norm": 2.0810351371765137,
      "learning_rate": 1.209016393442623e-07,
      "loss": 0.8149,
      "step": 60
    },
    {
      "epoch": 0.06653019447287616,
      "grad_norm": 1.7912037372589111,
      "learning_rate": 1.3114754098360656e-07,
      "loss": 0.8022,
      "step": 65
    },
    {
      "epoch": 0.07164790174002048,
      "grad_norm": 1.7301534414291382,
      "learning_rate": 1.413934426229508e-07,
      "loss": 0.8149,
      "step": 70
    },
    {
      "epoch": 0.0767656090071648,
      "grad_norm": 1.9520158767700195,
      "learning_rate": 1.5163934426229508e-07,
      "loss": 0.8201,
      "step": 75
    },
    {
      "epoch": 0.08188331627430911,
      "grad_norm": 2.11938214302063,
      "learning_rate": 1.6188524590163935e-07,
      "loss": 0.8079,
      "step": 80
    },
    {
      "epoch": 0.08700102354145343,
      "grad_norm": 2.1483607292175293,
      "learning_rate": 1.7213114754098358e-07,
      "loss": 0.8084,
      "step": 85
    },
    {
      "epoch": 0.09211873080859775,
      "grad_norm": 2.1716372966766357,
      "learning_rate": 1.8237704918032787e-07,
      "loss": 0.8188,
      "step": 90
    },
    {
      "epoch": 0.09723643807574207,
      "grad_norm": 2.3327996730804443,
      "learning_rate": 1.926229508196721e-07,
      "loss": 0.8153,
      "step": 95
    },
    {
      "epoch": 0.1023541453428864,
      "grad_norm": 1.762168526649475,
      "learning_rate": 2.028688524590164e-07,
      "loss": 0.8064,
      "step": 100
    },
    {
      "epoch": 0.10747185261003071,
      "grad_norm": 1.7200757265090942,
      "learning_rate": 2.1311475409836064e-07,
      "loss": 0.8063,
      "step": 105
    },
    {
      "epoch": 0.11258955987717502,
      "grad_norm": 2.490513324737549,
      "learning_rate": 2.233606557377049e-07,
      "loss": 0.8192,
      "step": 110
    },
    {
      "epoch": 0.11770726714431934,
      "grad_norm": 2.244020938873291,
      "learning_rate": 2.336065573770492e-07,
      "loss": 0.8153,
      "step": 115
    },
    {
      "epoch": 0.12282497441146366,
      "grad_norm": 2.1315150260925293,
      "learning_rate": 2.438524590163934e-07,
      "loss": 0.807,
      "step": 120
    },
    {
      "epoch": 0.12794268167860798,
      "grad_norm": 2.320936918258667,
      "learning_rate": 2.540983606557377e-07,
      "loss": 0.8163,
      "step": 125
    },
    {
      "epoch": 0.1330603889457523,
      "grad_norm": 2.7143912315368652,
      "learning_rate": 2.643442622950819e-07,
      "loss": 0.8166,
      "step": 130
    },
    {
      "epoch": 0.13817809621289662,
      "grad_norm": 1.649880290031433,
      "learning_rate": 2.7459016393442624e-07,
      "loss": 0.8113,
      "step": 135
    },
    {
      "epoch": 0.14329580348004095,
      "grad_norm": 2.171790361404419,
      "learning_rate": 2.848360655737705e-07,
      "loss": 0.805,
      "step": 140
    },
    {
      "epoch": 0.14841351074718526,
      "grad_norm": 2.093440294265747,
      "learning_rate": 2.950819672131147e-07,
      "loss": 0.8118,
      "step": 145
    },
    {
      "epoch": 0.1535312180143296,
      "grad_norm": 1.9067059755325317,
      "learning_rate": 3.05327868852459e-07,
      "loss": 0.8047,
      "step": 150
    },
    {
      "epoch": 0.1586489252814739,
      "grad_norm": 1.9988980293273926,
      "learning_rate": 3.155737704918033e-07,
      "loss": 0.8091,
      "step": 155
    },
    {
      "epoch": 0.16376663254861823,
      "grad_norm": 1.696977972984314,
      "learning_rate": 3.258196721311475e-07,
      "loss": 0.8101,
      "step": 160
    },
    {
      "epoch": 0.16888433981576254,
      "grad_norm": 2.098017454147339,
      "learning_rate": 3.3606557377049177e-07,
      "loss": 0.81,
      "step": 165
    },
    {
      "epoch": 0.17400204708290687,
      "grad_norm": 2.0255584716796875,
      "learning_rate": 3.463114754098361e-07,
      "loss": 0.814,
      "step": 170
    },
    {
      "epoch": 0.17911975435005117,
      "grad_norm": 1.8376339673995972,
      "learning_rate": 3.565573770491803e-07,
      "loss": 0.8053,
      "step": 175
    },
    {
      "epoch": 0.1842374616171955,
      "grad_norm": 1.9230207204818726,
      "learning_rate": 3.6680327868852456e-07,
      "loss": 0.8022,
      "step": 180
    },
    {
      "epoch": 0.18935516888433981,
      "grad_norm": 1.939705729484558,
      "learning_rate": 3.770491803278688e-07,
      "loss": 0.8075,
      "step": 185
    },
    {
      "epoch": 0.19447287615148415,
      "grad_norm": 1.6276813745498657,
      "learning_rate": 3.8729508196721314e-07,
      "loss": 0.8097,
      "step": 190
    },
    {
      "epoch": 0.19959058341862845,
      "grad_norm": 1.7544569969177246,
      "learning_rate": 3.9754098360655735e-07,
      "loss": 0.8046,
      "step": 195
    },
    {
      "epoch": 0.2047082906857728,
      "grad_norm": 1.7406467199325562,
      "learning_rate": 4.077868852459016e-07,
      "loss": 0.8149,
      "step": 200
    },
    {
      "epoch": 0.2098259979529171,
      "grad_norm": 1.7330560684204102,
      "learning_rate": 4.180327868852459e-07,
      "loss": 0.8077,
      "step": 205
    },
    {
      "epoch": 0.21494370522006143,
      "grad_norm": 1.417546033859253,
      "learning_rate": 4.2827868852459014e-07,
      "loss": 0.807,
      "step": 210
    },
    {
      "epoch": 0.22006141248720573,
      "grad_norm": 2.1064000129699707,
      "learning_rate": 4.385245901639344e-07,
      "loss": 0.8041,
      "step": 215
    },
    {
      "epoch": 0.22517911975435004,
      "grad_norm": 1.637609601020813,
      "learning_rate": 4.487704918032787e-07,
      "loss": 0.7992,
      "step": 220
    },
    {
      "epoch": 0.23029682702149437,
      "grad_norm": 1.659397840499878,
      "learning_rate": 4.590163934426229e-07,
      "loss": 0.802,
      "step": 225
    },
    {
      "epoch": 0.23541453428863868,
      "grad_norm": 1.6912051439285278,
      "learning_rate": 4.692622950819672e-07,
      "loss": 0.8005,
      "step": 230
    },
    {
      "epoch": 0.240532241555783,
      "grad_norm": 1.9433246850967407,
      "learning_rate": 4.795081967213115e-07,
      "loss": 0.8079,
      "step": 235
    },
    {
      "epoch": 0.24564994882292732,
      "grad_norm": 1.9640270471572876,
      "learning_rate": 4.897540983606557e-07,
      "loss": 0.8127,
      "step": 240
    },
    {
      "epoch": 0.2507676560900716,
      "grad_norm": 2.3167271614074707,
      "learning_rate": 5e-07,
      "loss": 0.8058,
      "step": 245
    },
    {
      "epoch": 0.25588536335721596,
      "grad_norm": 1.6469106674194336,
      "learning_rate": 5.102459016393442e-07,
      "loss": 0.8011,
      "step": 250
    },
    {
      "epoch": 0.2610030706243603,
      "grad_norm": 1.5691314935684204,
      "learning_rate": 5.204918032786885e-07,
      "loss": 0.7968,
      "step": 255
    },
    {
      "epoch": 0.2661207778915046,
      "grad_norm": 1.663665533065796,
      "learning_rate": 5.307377049180327e-07,
      "loss": 0.8018,
      "step": 260
    },
    {
      "epoch": 0.2712384851586489,
      "grad_norm": 1.99347984790802,
      "learning_rate": 5.40983606557377e-07,
      "loss": 0.8006,
      "step": 265
    },
    {
      "epoch": 0.27635619242579323,
      "grad_norm": 1.4906947612762451,
      "learning_rate": 5.512295081967213e-07,
      "loss": 0.7977,
      "step": 270
    },
    {
      "epoch": 0.28147389969293757,
      "grad_norm": 1.786527395248413,
      "learning_rate": 5.614754098360656e-07,
      "loss": 0.8041,
      "step": 275
    },
    {
      "epoch": 0.2865916069600819,
      "grad_norm": 1.9175364971160889,
      "learning_rate": 5.717213114754098e-07,
      "loss": 0.8079,
      "step": 280
    },
    {
      "epoch": 0.2917093142272262,
      "grad_norm": 1.678741216659546,
      "learning_rate": 5.819672131147541e-07,
      "loss": 0.7974,
      "step": 285
    },
    {
      "epoch": 0.2968270214943705,
      "grad_norm": 2.0347344875335693,
      "learning_rate": 5.922131147540983e-07,
      "loss": 0.8011,
      "step": 290
    },
    {
      "epoch": 0.30194472876151485,
      "grad_norm": 1.8914201259613037,
      "learning_rate": 6.024590163934425e-07,
      "loss": 0.8026,
      "step": 295
    },
    {
      "epoch": 0.3070624360286592,
      "grad_norm": 1.6236293315887451,
      "learning_rate": 6.127049180327869e-07,
      "loss": 0.7981,
      "step": 300
    },
    {
      "epoch": 0.31218014329580346,
      "grad_norm": 1.4731358289718628,
      "learning_rate": 6.229508196721311e-07,
      "loss": 0.7972,
      "step": 305
    },
    {
      "epoch": 0.3172978505629478,
      "grad_norm": 1.7494508028030396,
      "learning_rate": 6.331967213114754e-07,
      "loss": 0.797,
      "step": 310
    },
    {
      "epoch": 0.3224155578300921,
      "grad_norm": 1.696869134902954,
      "learning_rate": 6.434426229508197e-07,
      "loss": 0.7972,
      "step": 315
    },
    {
      "epoch": 0.32753326509723646,
      "grad_norm": 1.5431866645812988,
      "learning_rate": 6.536885245901639e-07,
      "loss": 0.7919,
      "step": 320
    },
    {
      "epoch": 0.33265097236438074,
      "grad_norm": 1.6396448612213135,
      "learning_rate": 6.639344262295081e-07,
      "loss": 0.7986,
      "step": 325
    },
    {
      "epoch": 0.33776867963152507,
      "grad_norm": 1.7315205335617065,
      "learning_rate": 6.741803278688525e-07,
      "loss": 0.7966,
      "step": 330
    },
    {
      "epoch": 0.3428863868986694,
      "grad_norm": 1.6142867803573608,
      "learning_rate": 6.844262295081967e-07,
      "loss": 0.7964,
      "step": 335
    },
    {
      "epoch": 0.34800409416581374,
      "grad_norm": 1.332783818244934,
      "learning_rate": 6.94672131147541e-07,
      "loss": 0.7969,
      "step": 340
    },
    {
      "epoch": 0.353121801432958,
      "grad_norm": 1.434688687324524,
      "learning_rate": 7.049180327868852e-07,
      "loss": 0.8015,
      "step": 345
    },
    {
      "epoch": 0.35823950870010235,
      "grad_norm": 1.7243021726608276,
      "learning_rate": 7.151639344262295e-07,
      "loss": 0.791,
      "step": 350
    },
    {
      "epoch": 0.3633572159672467,
      "grad_norm": 1.603244662284851,
      "learning_rate": 7.254098360655737e-07,
      "loss": 0.7926,
      "step": 355
    },
    {
      "epoch": 0.368474923234391,
      "grad_norm": 1.645308256149292,
      "learning_rate": 7.356557377049179e-07,
      "loss": 0.7988,
      "step": 360
    },
    {
      "epoch": 0.3735926305015353,
      "grad_norm": 1.3321951627731323,
      "learning_rate": 7.459016393442623e-07,
      "loss": 0.7923,
      "step": 365
    },
    {
      "epoch": 0.37871033776867963,
      "grad_norm": 2.1083521842956543,
      "learning_rate": 7.561475409836066e-07,
      "loss": 0.7935,
      "step": 370
    },
    {
      "epoch": 0.38382804503582396,
      "grad_norm": 1.3414019346237183,
      "learning_rate": 7.663934426229508e-07,
      "loss": 0.7894,
      "step": 375
    },
    {
      "epoch": 0.3889457523029683,
      "grad_norm": 1.8279671669006348,
      "learning_rate": 7.766393442622951e-07,
      "loss": 0.7916,
      "step": 380
    },
    {
      "epoch": 0.3940634595701126,
      "grad_norm": 1.6233114004135132,
      "learning_rate": 7.868852459016393e-07,
      "loss": 0.7886,
      "step": 385
    },
    {
      "epoch": 0.3991811668372569,
      "grad_norm": 1.4336532354354858,
      "learning_rate": 7.971311475409835e-07,
      "loss": 0.7884,
      "step": 390
    },
    {
      "epoch": 0.40429887410440124,
      "grad_norm": 1.597020149230957,
      "learning_rate": 8.073770491803278e-07,
      "loss": 0.7904,
      "step": 395
    },
    {
      "epoch": 0.4094165813715456,
      "grad_norm": 1.3191157579421997,
      "learning_rate": 8.176229508196721e-07,
      "loss": 0.787,
      "step": 400
    },
    {
      "epoch": 0.41453428863868985,
      "grad_norm": 1.6425617933273315,
      "learning_rate": 8.278688524590164e-07,
      "loss": 0.7887,
      "step": 405
    },
    {
      "epoch": 0.4196519959058342,
      "grad_norm": 1.3924281597137451,
      "learning_rate": 8.381147540983607e-07,
      "loss": 0.7976,
      "step": 410
    },
    {
      "epoch": 0.4247697031729785,
      "grad_norm": 1.2975757122039795,
      "learning_rate": 8.483606557377049e-07,
      "loss": 0.7895,
      "step": 415
    },
    {
      "epoch": 0.42988741044012285,
      "grad_norm": 1.3045737743377686,
      "learning_rate": 8.586065573770491e-07,
      "loss": 0.7894,
      "step": 420
    },
    {
      "epoch": 0.43500511770726713,
      "grad_norm": 1.9618183374404907,
      "learning_rate": 8.688524590163933e-07,
      "loss": 0.7865,
      "step": 425
    },
    {
      "epoch": 0.44012282497441146,
      "grad_norm": 1.3976588249206543,
      "learning_rate": 8.790983606557376e-07,
      "loss": 0.7896,
      "step": 430
    },
    {
      "epoch": 0.4452405322415558,
      "grad_norm": 1.1260899305343628,
      "learning_rate": 8.89344262295082e-07,
      "loss": 0.7861,
      "step": 435
    },
    {
      "epoch": 0.4503582395087001,
      "grad_norm": 1.293816089630127,
      "learning_rate": 8.995901639344262e-07,
      "loss": 0.7826,
      "step": 440
    },
    {
      "epoch": 0.4554759467758444,
      "grad_norm": 1.4861347675323486,
      "learning_rate": 9.098360655737705e-07,
      "loss": 0.7822,
      "step": 445
    },
    {
      "epoch": 0.46059365404298874,
      "grad_norm": 1.378319501876831,
      "learning_rate": 9.200819672131147e-07,
      "loss": 0.778,
      "step": 450
    },
    {
      "epoch": 0.4657113613101331,
      "grad_norm": 1.2947815656661987,
      "learning_rate": 9.303278688524589e-07,
      "loss": 0.7853,
      "step": 455
    },
    {
      "epoch": 0.47082906857727735,
      "grad_norm": 0.9865773916244507,
      "learning_rate": 9.405737704918032e-07,
      "loss": 0.7797,
      "step": 460
    },
    {
      "epoch": 0.4759467758444217,
      "grad_norm": 1.4883133172988892,
      "learning_rate": 9.508196721311474e-07,
      "loss": 0.7804,
      "step": 465
    },
    {
      "epoch": 0.481064483111566,
      "grad_norm": 1.1394942998886108,
      "learning_rate": 9.610655737704918e-07,
      "loss": 0.7818,
      "step": 470
    },
    {
      "epoch": 0.48618219037871035,
      "grad_norm": 1.104995846748352,
      "learning_rate": 9.71311475409836e-07,
      "loss": 0.7775,
      "step": 475
    },
    {
      "epoch": 0.49129989764585463,
      "grad_norm": 1.258623719215393,
      "learning_rate": 9.815573770491803e-07,
      "loss": 0.7731,
      "step": 480
    },
    {
      "epoch": 0.49641760491299897,
      "grad_norm": 1.4409220218658447,
      "learning_rate": 9.918032786885245e-07,
      "loss": 0.7811,
      "step": 485
    },
    {
      "epoch": 0.5015353121801432,
      "grad_norm": 0.9952474236488342,
      "learning_rate": 9.999994895105863e-07,
      "loss": 0.7821,
      "step": 490
    },
    {
      "epoch": 0.5066530194472876,
      "grad_norm": 1.2250083684921265,
      "learning_rate": 9.99981622490561e-07,
      "loss": 0.7822,
      "step": 495
    },
    {
      "epoch": 0.5117707267144319,
      "grad_norm": 1.1539254188537598,
      "learning_rate": 9.999382320422427e-07,
      "loss": 0.776,
      "step": 500
    },
    {
      "epoch": 0.5117707267144319,
      "eval_accuracy": 0.59523,
      "eval_loss": 0.6936843991279602,
      "eval_macro_f1": 0.5690192634397302,
      "eval_precision": 0.6518208624514151,
      "eval_recall": 0.6078906162164894,
      "eval_runtime": 73.7478,
      "eval_samples_per_second": 1355.972,
      "eval_steps_per_second": 1.329,
      "step": 500
    },
    {
      "epoch": 0.5168884339815762,
      "grad_norm": 1.2244267463684082,
      "learning_rate": 9.998693203806588e-07,
      "loss": 0.7771,
      "step": 505
    },
    {
      "epoch": 0.5220061412487206,
      "grad_norm": 1.1900156736373901,
      "learning_rate": 9.997748910236623e-07,
      "loss": 0.7815,
      "step": 510
    },
    {
      "epoch": 0.5271238485158649,
      "grad_norm": 1.2272601127624512,
      "learning_rate": 9.996549487917522e-07,
      "loss": 0.7829,
      "step": 515
    },
    {
      "epoch": 0.5322415557830092,
      "grad_norm": 1.160675287246704,
      "learning_rate": 9.995094998078276e-07,
      "loss": 0.7785,
      "step": 520
    },
    {
      "epoch": 0.5373592630501536,
      "grad_norm": 1.2759345769882202,
      "learning_rate": 9.993385514968745e-07,
      "loss": 0.7755,
      "step": 525
    },
    {
      "epoch": 0.5424769703172978,
      "grad_norm": 1.0531632900238037,
      "learning_rate": 9.99142112585588e-07,
      "loss": 0.7781,
      "step": 530
    },
    {
      "epoch": 0.5475946775844421,
      "grad_norm": 1.0040606260299683,
      "learning_rate": 9.989201931019251e-07,
      "loss": 0.7744,
      "step": 535
    },
    {
      "epoch": 0.5527123848515865,
      "grad_norm": 1.2468197345733643,
      "learning_rate": 9.98672804374595e-07,
      "loss": 0.7712,
      "step": 540
    },
    {
      "epoch": 0.5578300921187308,
      "grad_norm": 1.1564112901687622,
      "learning_rate": 9.983999590324778e-07,
      "loss": 0.7797,
      "step": 545
    },
    {
      "epoch": 0.5629477993858751,
      "grad_norm": 0.8854450583457947,
      "learning_rate": 9.981016710039832e-07,
      "loss": 0.7723,
      "step": 550
    },
    {
      "epoch": 0.5680655066530195,
      "grad_norm": 1.142919659614563,
      "learning_rate": 9.977779555163369e-07,
      "loss": 0.7739,
      "step": 555
    },
    {
      "epoch": 0.5731832139201638,
      "grad_norm": 1.058153748512268,
      "learning_rate": 9.974288290948042e-07,
      "loss": 0.774,
      "step": 560
    },
    {
      "epoch": 0.5783009211873081,
      "grad_norm": 1.1157392263412476,
      "learning_rate": 9.970543095618468e-07,
      "loss": 0.7742,
      "step": 565
    },
    {
      "epoch": 0.5834186284544524,
      "grad_norm": 1.0850578546524048,
      "learning_rate": 9.96654416036212e-07,
      "loss": 0.7734,
      "step": 570
    },
    {
      "epoch": 0.5885363357215967,
      "grad_norm": 0.9722121953964233,
      "learning_rate": 9.96229168931958e-07,
      "loss": 0.77,
      "step": 575
    },
    {
      "epoch": 0.593654042988741,
      "grad_norm": 1.332795262336731,
      "learning_rate": 9.957785899574102e-07,
      "loss": 0.7725,
      "step": 580
    },
    {
      "epoch": 0.5987717502558854,
      "grad_norm": 0.8639675378799438,
      "learning_rate": 9.953027021140543e-07,
      "loss": 0.7646,
      "step": 585
    },
    {
      "epoch": 0.6038894575230297,
      "grad_norm": 0.9253244400024414,
      "learning_rate": 9.948015296953623e-07,
      "loss": 0.7743,
      "step": 590
    },
    {
      "epoch": 0.609007164790174,
      "grad_norm": 0.8843643069267273,
      "learning_rate": 9.942750982855503e-07,
      "loss": 0.7717,
      "step": 595
    },
    {
      "epoch": 0.6141248720573184,
      "grad_norm": 1.046048879623413,
      "learning_rate": 9.937234347582753e-07,
      "loss": 0.7721,
      "step": 600
    },
    {
      "epoch": 0.6192425793244627,
      "grad_norm": 0.8906111717224121,
      "learning_rate": 9.931465672752613e-07,
      "loss": 0.7657,
      "step": 605
    },
    {
      "epoch": 0.6243602865916069,
      "grad_norm": 0.9637787342071533,
      "learning_rate": 9.925445252848621e-07,
      "loss": 0.7666,
      "step": 610
    },
    {
      "epoch": 0.6294779938587513,
      "grad_norm": 0.9004104733467102,
      "learning_rate": 9.919173395205584e-07,
      "loss": 0.7664,
      "step": 615
    },
    {
      "epoch": 0.6345957011258956,
      "grad_norm": 1.4724570512771606,
      "learning_rate": 9.912650419993893e-07,
      "loss": 0.7679,
      "step": 620
    },
    {
      "epoch": 0.6397134083930399,
      "grad_norm": 0.8644343614578247,
      "learning_rate": 9.905876660203161e-07,
      "loss": 0.7671,
      "step": 625
    },
    {
      "epoch": 0.6448311156601843,
      "grad_norm": 0.8368955254554749,
      "learning_rate": 9.898852461625245e-07,
      "loss": 0.7717,
      "step": 630
    },
    {
      "epoch": 0.6499488229273286,
      "grad_norm": 0.9413282871246338,
      "learning_rate": 9.891578182836583e-07,
      "loss": 0.7693,
      "step": 635
    },
    {
      "epoch": 0.6550665301944729,
      "grad_norm": 0.9777762293815613,
      "learning_rate": 9.884054195179886e-07,
      "loss": 0.7656,
      "step": 640
    },
    {
      "epoch": 0.6601842374616171,
      "grad_norm": 0.8983454704284668,
      "learning_rate": 9.876280882745193e-07,
      "loss": 0.7605,
      "step": 645
    },
    {
      "epoch": 0.6653019447287615,
      "grad_norm": 0.8708799481391907,
      "learning_rate": 9.868258642350254e-07,
      "loss": 0.7673,
      "step": 650
    },
    {
      "epoch": 0.6704196519959058,
      "grad_norm": 0.8354130387306213,
      "learning_rate": 9.859987883520275e-07,
      "loss": 0.767,
      "step": 655
    },
    {
      "epoch": 0.6755373592630501,
      "grad_norm": 0.868485152721405,
      "learning_rate": 9.851469028467015e-07,
      "loss": 0.7647,
      "step": 660
    },
    {
      "epoch": 0.6806550665301945,
      "grad_norm": 0.9445936679840088,
      "learning_rate": 9.84270251206723e-07,
      "loss": 0.7605,
      "step": 665
    },
    {
      "epoch": 0.6857727737973388,
      "grad_norm": 0.7952156662940979,
      "learning_rate": 9.833688781840475e-07,
      "loss": 0.7664,
      "step": 670
    },
    {
      "epoch": 0.6908904810644831,
      "grad_norm": 1.1992422342300415,
      "learning_rate": 9.824428297926254e-07,
      "loss": 0.7617,
      "step": 675
    },
    {
      "epoch": 0.6960081883316275,
      "grad_norm": 0.8914986252784729,
      "learning_rate": 9.81492153306054e-07,
      "loss": 0.764,
      "step": 680
    },
    {
      "epoch": 0.7011258955987717,
      "grad_norm": 0.7945632338523865,
      "learning_rate": 9.80516897255163e-07,
      "loss": 0.7617,
      "step": 685
    },
    {
      "epoch": 0.706243602865916,
      "grad_norm": 0.7822641134262085,
      "learning_rate": 9.795171114255384e-07,
      "loss": 0.7613,
      "step": 690
    },
    {
      "epoch": 0.7113613101330604,
      "grad_norm": 0.7989721298217773,
      "learning_rate": 9.784928468549793e-07,
      "loss": 0.7615,
      "step": 695
    },
    {
      "epoch": 0.7164790174002047,
      "grad_norm": 0.7325178980827332,
      "learning_rate": 9.77444155830895e-07,
      "loss": 0.7572,
      "step": 700
    },
    {
      "epoch": 0.721596724667349,
      "grad_norm": 0.8934036493301392,
      "learning_rate": 9.763710918876329e-07,
      "loss": 0.7589,
      "step": 705
    },
    {
      "epoch": 0.7267144319344934,
      "grad_norm": 0.7769590616226196,
      "learning_rate": 9.752737098037477e-07,
      "loss": 0.7573,
      "step": 710
    },
    {
      "epoch": 0.7318321392016377,
      "grad_norm": 1.0458475351333618,
      "learning_rate": 9.741520655992047e-07,
      "loss": 0.759,
      "step": 715
    },
    {
      "epoch": 0.736949846468782,
      "grad_norm": 0.649872899055481,
      "learning_rate": 9.730062165325185e-07,
      "loss": 0.7607,
      "step": 720
    },
    {
      "epoch": 0.7420675537359263,
      "grad_norm": 0.7517932057380676,
      "learning_rate": 9.718362210978329e-07,
      "loss": 0.7567,
      "step": 725
    },
    {
      "epoch": 0.7471852610030706,
      "grad_norm": 0.9947759509086609,
      "learning_rate": 9.706421390219315e-07,
      "loss": 0.7593,
      "step": 730
    },
    {
      "epoch": 0.7523029682702149,
      "grad_norm": 0.719109833240509,
      "learning_rate": 9.694240312611917e-07,
      "loss": 0.7615,
      "step": 735
    },
    {
      "epoch": 0.7574206755373593,
      "grad_norm": 1.0175235271453857,
      "learning_rate": 9.681819599984712e-07,
      "loss": 0.7555,
      "step": 740
    },
    {
      "epoch": 0.7625383828045036,
      "grad_norm": 0.8200032711029053,
      "learning_rate": 9.66915988639934e-07,
      "loss": 0.7565,
      "step": 745
    },
    {
      "epoch": 0.7676560900716479,
      "grad_norm": 0.926680326461792,
      "learning_rate": 9.656261818118139e-07,
      "loss": 0.7628,
      "step": 750
    },
    {
      "epoch": 0.7727737973387923,
      "grad_norm": 0.6904947757720947,
      "learning_rate": 9.64312605357115e-07,
      "loss": 0.7584,
      "step": 755
    },
    {
      "epoch": 0.7778915046059366,
      "grad_norm": 0.7391018867492676,
      "learning_rate": 9.62975326332251e-07,
      "loss": 0.7582,
      "step": 760
    },
    {
      "epoch": 0.7830092118730808,
      "grad_norm": 0.7193120121955872,
      "learning_rate": 9.616144130036214e-07,
      "loss": 0.7557,
      "step": 765
    },
    {
      "epoch": 0.7881269191402251,
      "grad_norm": 0.8275336623191833,
      "learning_rate": 9.602299348441277e-07,
      "loss": 0.7575,
      "step": 770
    },
    {
      "epoch": 0.7932446264073695,
      "grad_norm": 0.9943181276321411,
      "learning_rate": 9.58821962529625e-07,
      "loss": 0.7568,
      "step": 775
    },
    {
      "epoch": 0.7983623336745138,
      "grad_norm": 0.7646188139915466,
      "learning_rate": 9.573905679353166e-07,
      "loss": 0.752,
      "step": 780
    },
    {
      "epoch": 0.8034800409416581,
      "grad_norm": 0.7356329560279846,
      "learning_rate": 9.55935824132082e-07,
      "loss": 0.7552,
      "step": 785
    },
    {
      "epoch": 0.8085977482088025,
      "grad_norm": 0.795838475227356,
      "learning_rate": 9.544578053827495e-07,
      "loss": 0.7543,
      "step": 790
    },
    {
      "epoch": 0.8137154554759468,
      "grad_norm": 0.9953216314315796,
      "learning_rate": 9.529565871383034e-07,
      "loss": 0.7558,
      "step": 795
    },
    {
      "epoch": 0.8188331627430911,
      "grad_norm": 0.797937273979187,
      "learning_rate": 9.514322460340329e-07,
      "loss": 0.7542,
      "step": 800
    },
    {
      "epoch": 0.8239508700102354,
      "grad_norm": 0.7371375560760498,
      "learning_rate": 9.498848598856198e-07,
      "loss": 0.7532,
      "step": 805
    },
    {
      "epoch": 0.8290685772773797,
      "grad_norm": 0.8336758613586426,
      "learning_rate": 9.48314507685166e-07,
      "loss": 0.756,
      "step": 810
    },
    {
      "epoch": 0.834186284544524,
      "grad_norm": 0.7204869389533997,
      "learning_rate": 9.467212695971619e-07,
      "loss": 0.7564,
      "step": 815
    },
    {
      "epoch": 0.8393039918116684,
      "grad_norm": 0.6758232712745667,
      "learning_rate": 9.451052269543929e-07,
      "loss": 0.7548,
      "step": 820
    },
    {
      "epoch": 0.8444216990788127,
      "grad_norm": 0.7348074913024902,
      "learning_rate": 9.434664622537883e-07,
      "loss": 0.7535,
      "step": 825
    },
    {
      "epoch": 0.849539406345957,
      "grad_norm": 0.747559130191803,
      "learning_rate": 9.418050591522093e-07,
      "loss": 0.752,
      "step": 830
    },
    {
      "epoch": 0.8546571136131014,
      "grad_norm": 0.7392817735671997,
      "learning_rate": 9.401211024621792e-07,
      "loss": 0.7492,
      "step": 835
    },
    {
      "epoch": 0.8597748208802457,
      "grad_norm": 0.6318978071212769,
      "learning_rate": 9.384146781475533e-07,
      "loss": 0.7577,
      "step": 840
    },
    {
      "epoch": 0.8648925281473899,
      "grad_norm": 0.5832816362380981,
      "learning_rate": 9.366858733191307e-07,
      "loss": 0.7506,
      "step": 845
    },
    {
      "epoch": 0.8700102354145343,
      "grad_norm": 0.6932022571563721,
      "learning_rate": 9.349347762302071e-07,
      "loss": 0.7523,
      "step": 850
    },
    {
      "epoch": 0.8751279426816786,
      "grad_norm": 0.7047157287597656,
      "learning_rate": 9.331614762720703e-07,
      "loss": 0.7487,
      "step": 855
    },
    {
      "epoch": 0.8802456499488229,
      "grad_norm": 0.6591235995292664,
      "learning_rate": 9.313660639694358e-07,
      "loss": 0.7538,
      "step": 860
    },
    {
      "epoch": 0.8853633572159673,
      "grad_norm": 0.66665118932724,
      "learning_rate": 9.295486309758269e-07,
      "loss": 0.7518,
      "step": 865
    },
    {
      "epoch": 0.8904810644831116,
      "grad_norm": 0.6165961027145386,
      "learning_rate": 9.277092700688951e-07,
      "loss": 0.7495,
      "step": 870
    },
    {
      "epoch": 0.8955987717502559,
      "grad_norm": 0.7449588179588318,
      "learning_rate": 9.258480751456838e-07,
      "loss": 0.7515,
      "step": 875
    },
    {
      "epoch": 0.9007164790174002,
      "grad_norm": 0.7553215622901917,
      "learning_rate": 9.239651412178357e-07,
      "loss": 0.7534,
      "step": 880
    },
    {
      "epoch": 0.9058341862845445,
      "grad_norm": 0.747010350227356,
      "learning_rate": 9.220605644067419e-07,
      "loss": 0.7548,
      "step": 885
    },
    {
      "epoch": 0.9109518935516888,
      "grad_norm": 0.7272236347198486,
      "learning_rate": 9.20134441938635e-07,
      "loss": 0.7531,
      "step": 890
    },
    {
      "epoch": 0.9160696008188332,
      "grad_norm": 0.8726323246955872,
      "learning_rate": 9.181868721396266e-07,
      "loss": 0.7479,
      "step": 895
    },
    {
      "epoch": 0.9211873080859775,
      "grad_norm": 0.7914009094238281,
      "learning_rate": 9.16217954430687e-07,
      "loss": 0.7522,
      "step": 900
    },
    {
      "epoch": 0.9263050153531218,
      "grad_norm": 0.6367310285568237,
      "learning_rate": 9.142277893225708e-07,
      "loss": 0.7497,
      "step": 905
    },
    {
      "epoch": 0.9314227226202662,
      "grad_norm": 0.8285405039787292,
      "learning_rate": 9.122164784106842e-07,
      "loss": 0.753,
      "step": 910
    },
    {
      "epoch": 0.9365404298874105,
      "grad_norm": 0.7742036581039429,
      "learning_rate": 9.101841243699015e-07,
      "loss": 0.7534,
      "step": 915
    },
    {
      "epoch": 0.9416581371545547,
      "grad_norm": 0.7512480020523071,
      "learning_rate": 9.081308309493209e-07,
      "loss": 0.747,
      "step": 920
    },
    {
      "epoch": 0.946775844421699,
      "grad_norm": 0.5556691288948059,
      "learning_rate": 9.060567029669699e-07,
      "loss": 0.7465,
      "step": 925
    },
    {
      "epoch": 0.9518935516888434,
      "grad_norm": 1.0232101678848267,
      "learning_rate": 9.039618463044536e-07,
      "loss": 0.7485,
      "step": 930
    },
    {
      "epoch": 0.9570112589559877,
      "grad_norm": 0.8321600556373596,
      "learning_rate": 9.018463679015505e-07,
      "loss": 0.7488,
      "step": 935
    },
    {
      "epoch": 0.962128966223132,
      "grad_norm": 0.7009038329124451,
      "learning_rate": 8.997103757507521e-07,
      "loss": 0.7483,
      "step": 940
    },
    {
      "epoch": 0.9672466734902764,
      "grad_norm": 0.6939564347267151,
      "learning_rate": 8.975539788917514e-07,
      "loss": 0.7485,
      "step": 945
    },
    {
      "epoch": 0.9723643807574207,
      "grad_norm": 0.7738851308822632,
      "learning_rate": 8.953772874058757e-07,
      "loss": 0.7479,
      "step": 950
    },
    {
      "epoch": 0.977482088024565,
      "grad_norm": 0.5913597941398621,
      "learning_rate": 8.931804124104672e-07,
      "loss": 0.7473,
      "step": 955
    },
    {
      "epoch": 0.9825997952917093,
      "grad_norm": 0.8486027717590332,
      "learning_rate": 8.909634660532106e-07,
      "loss": 0.7479,
      "step": 960
    },
    {
      "epoch": 0.9877175025588536,
      "grad_norm": 0.6463382840156555,
      "learning_rate": 8.887265615064083e-07,
      "loss": 0.7486,
      "step": 965
    },
    {
      "epoch": 0.9928352098259979,
      "grad_norm": 0.6264991164207458,
      "learning_rate": 8.864698129612031e-07,
      "loss": 0.7467,
      "step": 970
    },
    {
      "epoch": 0.9979529170931423,
      "grad_norm": 0.7566510438919067,
      "learning_rate": 8.841933356217488e-07,
      "loss": 0.7463,
      "step": 975
    },
    {
      "epoch": 1.0030706243602865,
      "grad_norm": 0.7290503978729248,
      "learning_rate": 8.818972456993288e-07,
      "loss": 0.7504,
      "step": 980
    },
    {
      "epoch": 1.008188331627431,
      "grad_norm": 0.8277891874313354,
      "learning_rate": 8.795816604064241e-07,
      "loss": 0.7472,
      "step": 985
    },
    {
      "epoch": 1.0133060388945752,
      "grad_norm": 0.6427952647209167,
      "learning_rate": 8.772466979507302e-07,
      "loss": 0.7487,
      "step": 990
    },
    {
      "epoch": 1.0184237461617196,
      "grad_norm": 0.6775041818618774,
      "learning_rate": 8.748924775291216e-07,
      "loss": 0.745,
      "step": 995
    },
    {
      "epoch": 1.0235414534288638,
      "grad_norm": 0.6815404891967773,
      "learning_rate": 8.725191193215675e-07,
      "loss": 0.7485,
      "step": 1000
    },
    {
      "epoch": 1.0235414534288638,
      "eval_accuracy": 0.67557,
      "eval_loss": 0.6936712265014648,
      "eval_macro_f1": 0.6724504812400831,
      "eval_precision": 0.6760463081581009,
      "eval_recall": 0.6725003053739838,
      "eval_runtime": 73.7408,
      "eval_samples_per_second": 1356.102,
      "eval_steps_per_second": 1.329,
      "step": 1000
    },
    {
      "epoch": 1.0286591606960083,
      "grad_norm": 0.8586804866790771,
      "learning_rate": 8.701267444849974e-07,
      "loss": 0.7457,
      "step": 1005
    },
    {
      "epoch": 1.0337768679631525,
      "grad_norm": 0.5989358425140381,
      "learning_rate": 8.677154751471152e-07,
      "loss": 0.7443,
      "step": 1010
    },
    {
      "epoch": 1.0388945752302967,
      "grad_norm": 0.6888963580131531,
      "learning_rate": 8.65285434400165e-07,
      "loss": 0.7458,
      "step": 1015
    },
    {
      "epoch": 1.0440122824974412,
      "grad_norm": 0.6407850384712219,
      "learning_rate": 8.628367462946482e-07,
      "loss": 0.7493,
      "step": 1020
    },
    {
      "epoch": 1.0491299897645854,
      "grad_norm": 0.6202091574668884,
      "learning_rate": 8.603695358329896e-07,
      "loss": 0.7471,
      "step": 1025
    },
    {
      "epoch": 1.0542476970317298,
      "grad_norm": 0.7456187605857849,
      "learning_rate": 8.57883928963157e-07,
      "loss": 0.7431,
      "step": 1030
    },
    {
      "epoch": 1.059365404298874,
      "grad_norm": 0.6171067357063293,
      "learning_rate": 8.553800525722317e-07,
      "loss": 0.7435,
      "step": 1035
    },
    {
      "epoch": 1.0644831115660185,
      "grad_norm": 0.8527712821960449,
      "learning_rate": 8.528580344799305e-07,
      "loss": 0.7453,
      "step": 1040
    },
    {
      "epoch": 1.0696008188331627,
      "grad_norm": 0.6724162697792053,
      "learning_rate": 8.503180034320816e-07,
      "loss": 0.7467,
      "step": 1045
    },
    {
      "epoch": 1.0747185261003072,
      "grad_norm": 0.581979513168335,
      "learning_rate": 8.477600890940513e-07,
      "loss": 0.7508,
      "step": 1050
    },
    {
      "epoch": 1.0798362333674514,
      "grad_norm": 0.6551439166069031,
      "learning_rate": 8.451844220441253e-07,
      "loss": 0.7469,
      "step": 1055
    },
    {
      "epoch": 1.0849539406345956,
      "grad_norm": 0.6437426209449768,
      "learning_rate": 8.42591133766843e-07,
      "loss": 0.7468,
      "step": 1060
    },
    {
      "epoch": 1.09007164790174,
      "grad_norm": 0.5788704752922058,
      "learning_rate": 8.39980356646285e-07,
      "loss": 0.7424,
      "step": 1065
    },
    {
      "epoch": 1.0951893551688843,
      "grad_norm": 0.5575606226921082,
      "learning_rate": 8.373522239593149e-07,
      "loss": 0.7396,
      "step": 1070
    },
    {
      "epoch": 1.1003070624360287,
      "grad_norm": 0.737180769443512,
      "learning_rate": 8.347068698687765e-07,
      "loss": 0.744,
      "step": 1075
    },
    {
      "epoch": 1.105424769703173,
      "grad_norm": 0.592766284942627,
      "learning_rate": 8.320444294166439e-07,
      "loss": 0.7469,
      "step": 1080
    },
    {
      "epoch": 1.1105424769703174,
      "grad_norm": 0.63823401927948,
      "learning_rate": 8.293650385171287e-07,
      "loss": 0.7447,
      "step": 1085
    },
    {
      "epoch": 1.1156601842374616,
      "grad_norm": 0.6114454865455627,
      "learning_rate": 8.266688339497412e-07,
      "loss": 0.7475,
      "step": 1090
    },
    {
      "epoch": 1.120777891504606,
      "grad_norm": 0.53263258934021,
      "learning_rate": 8.239559533523082e-07,
      "loss": 0.7455,
      "step": 1095
    },
    {
      "epoch": 1.1258955987717503,
      "grad_norm": 0.7016158699989319,
      "learning_rate": 8.212265352139466e-07,
      "loss": 0.742,
      "step": 1100
    },
    {
      "epoch": 1.1310133060388945,
      "grad_norm": 0.6125472784042358,
      "learning_rate": 8.184807188679939e-07,
      "loss": 0.7383,
      "step": 1105
    },
    {
      "epoch": 1.136131013306039,
      "grad_norm": 0.6008788347244263,
      "learning_rate": 8.157186444848952e-07,
      "loss": 0.7435,
      "step": 1110
    },
    {
      "epoch": 1.1412487205731832,
      "grad_norm": 0.6357280015945435,
      "learning_rate": 8.129404530650479e-07,
      "loss": 0.7443,
      "step": 1115
    },
    {
      "epoch": 1.1463664278403276,
      "grad_norm": 0.6422165036201477,
      "learning_rate": 8.101462864316038e-07,
      "loss": 0.7449,
      "step": 1120
    },
    {
      "epoch": 1.1514841351074718,
      "grad_norm": 0.6852079629898071,
      "learning_rate": 8.07336287223229e-07,
      "loss": 0.7428,
      "step": 1125
    },
    {
      "epoch": 1.156601842374616,
      "grad_norm": 0.5539452433586121,
      "learning_rate": 8.045105988868224e-07,
      "loss": 0.7455,
      "step": 1130
    },
    {
      "epoch": 1.1617195496417605,
      "grad_norm": 0.5939313173294067,
      "learning_rate": 8.016693656701931e-07,
      "loss": 0.7376,
      "step": 1135
    },
    {
      "epoch": 1.1668372569089047,
      "grad_norm": 0.7522106766700745,
      "learning_rate": 7.98812732614697e-07,
      "loss": 0.7464,
      "step": 1140
    },
    {
      "epoch": 1.1719549641760492,
      "grad_norm": 0.6572809815406799,
      "learning_rate": 7.959408455478313e-07,
      "loss": 0.7448,
      "step": 1145
    },
    {
      "epoch": 1.1770726714431934,
      "grad_norm": 0.5842403173446655,
      "learning_rate": 7.93053851075792e-07,
      "loss": 0.7396,
      "step": 1150
    },
    {
      "epoch": 1.1821903787103378,
      "grad_norm": 0.5845000147819519,
      "learning_rate": 7.901518965759888e-07,
      "loss": 0.7438,
      "step": 1155
    },
    {
      "epoch": 1.187308085977482,
      "grad_norm": 0.5873178839683533,
      "learning_rate": 7.872351301895217e-07,
      "loss": 0.7421,
      "step": 1160
    },
    {
      "epoch": 1.1924257932446265,
      "grad_norm": 0.6385728120803833,
      "learning_rate": 7.843037008136189e-07,
      "loss": 0.7431,
      "step": 1165
    },
    {
      "epoch": 1.1975435005117707,
      "grad_norm": 0.5818535685539246,
      "learning_rate": 7.813577580940356e-07,
      "loss": 0.7416,
      "step": 1170
    },
    {
      "epoch": 1.202661207778915,
      "grad_norm": 0.5611526370048523,
      "learning_rate": 7.783974524174149e-07,
      "loss": 0.743,
      "step": 1175
    },
    {
      "epoch": 1.2077789150460594,
      "grad_norm": 0.6002296805381775,
      "learning_rate": 7.754229349036102e-07,
      "loss": 0.7407,
      "step": 1180
    },
    {
      "epoch": 1.2128966223132036,
      "grad_norm": 0.6006008982658386,
      "learning_rate": 7.724343573979718e-07,
      "loss": 0.7437,
      "step": 1185
    },
    {
      "epoch": 1.218014329580348,
      "grad_norm": 0.6336845755577087,
      "learning_rate": 7.694318724635945e-07,
      "loss": 0.7405,
      "step": 1190
    },
    {
      "epoch": 1.2231320368474923,
      "grad_norm": 0.6916839480400085,
      "learning_rate": 7.664156333735293e-07,
      "loss": 0.7468,
      "step": 1195
    },
    {
      "epoch": 1.2282497441146367,
      "grad_norm": 0.5944891571998596,
      "learning_rate": 7.633857941029602e-07,
      "loss": 0.7485,
      "step": 1200
    },
    {
      "epoch": 1.233367451381781,
      "grad_norm": 0.5755409598350525,
      "learning_rate": 7.603425093213429e-07,
      "loss": 0.7418,
      "step": 1205
    },
    {
      "epoch": 1.2384851586489254,
      "grad_norm": 0.6128578186035156,
      "learning_rate": 7.572859343845092e-07,
      "loss": 0.7396,
      "step": 1210
    },
    {
      "epoch": 1.2436028659160696,
      "grad_norm": 0.6123960614204407,
      "learning_rate": 7.542162253267363e-07,
      "loss": 0.7363,
      "step": 1215
    },
    {
      "epoch": 1.2487205731832138,
      "grad_norm": 0.6969608664512634,
      "learning_rate": 7.511335388527822e-07,
      "loss": 0.7406,
      "step": 1220
    },
    {
      "epoch": 1.2538382804503583,
      "grad_norm": 0.6491796970367432,
      "learning_rate": 7.480380323298851e-07,
      "loss": 0.7429,
      "step": 1225
    },
    {
      "epoch": 1.2589559877175025,
      "grad_norm": 0.5883914828300476,
      "learning_rate": 7.449298637797309e-07,
      "loss": 0.7375,
      "step": 1230
    },
    {
      "epoch": 1.264073694984647,
      "grad_norm": 0.6160842776298523,
      "learning_rate": 7.418091918703854e-07,
      "loss": 0.7393,
      "step": 1235
    },
    {
      "epoch": 1.2691914022517912,
      "grad_norm": 0.5568389892578125,
      "learning_rate": 7.386761759081954e-07,
      "loss": 0.7387,
      "step": 1240
    },
    {
      "epoch": 1.2743091095189354,
      "grad_norm": 0.532599151134491,
      "learning_rate": 7.35530975829656e-07,
      "loss": 0.741,
      "step": 1245
    },
    {
      "epoch": 1.2794268167860798,
      "grad_norm": 0.5400995016098022,
      "learning_rate": 7.323737521932457e-07,
      "loss": 0.7367,
      "step": 1250
    },
    {
      "epoch": 1.2845445240532243,
      "grad_norm": 0.5307775735855103,
      "learning_rate": 7.292046661712307e-07,
      "loss": 0.7399,
      "step": 1255
    },
    {
      "epoch": 1.2896622313203685,
      "grad_norm": 0.5908007621765137,
      "learning_rate": 7.260238795414366e-07,
      "loss": 0.74,
      "step": 1260
    },
    {
      "epoch": 1.2947799385875127,
      "grad_norm": 0.5410370826721191,
      "learning_rate": 7.228315546789907e-07,
      "loss": 0.7388,
      "step": 1265
    },
    {
      "epoch": 1.2998976458546572,
      "grad_norm": 0.5406989455223083,
      "learning_rate": 7.19627854548032e-07,
      "loss": 0.7337,
      "step": 1270
    },
    {
      "epoch": 1.3050153531218014,
      "grad_norm": 0.589767575263977,
      "learning_rate": 7.164129426933927e-07,
      "loss": 0.7426,
      "step": 1275
    },
    {
      "epoch": 1.3101330603889458,
      "grad_norm": 0.5926154255867004,
      "learning_rate": 7.131869832322496e-07,
      "loss": 0.7374,
      "step": 1280
    },
    {
      "epoch": 1.31525076765609,
      "grad_norm": 0.7507414817810059,
      "learning_rate": 7.099501408457452e-07,
      "loss": 0.7375,
      "step": 1285
    },
    {
      "epoch": 1.3203684749232343,
      "grad_norm": 0.6162967681884766,
      "learning_rate": 7.06702580770582e-07,
      "loss": 0.7381,
      "step": 1290
    },
    {
      "epoch": 1.3254861821903787,
      "grad_norm": 0.5118803977966309,
      "learning_rate": 7.034444687905868e-07,
      "loss": 0.7344,
      "step": 1295
    },
    {
      "epoch": 1.330603889457523,
      "grad_norm": 0.5982370972633362,
      "learning_rate": 7.001759712282478e-07,
      "loss": 0.7382,
      "step": 1300
    },
    {
      "epoch": 1.3357215967246674,
      "grad_norm": 0.6339845657348633,
      "learning_rate": 6.968972549362238e-07,
      "loss": 0.7386,
      "step": 1305
    },
    {
      "epoch": 1.3408393039918116,
      "grad_norm": 0.5755071043968201,
      "learning_rate": 6.936084872888271e-07,
      "loss": 0.7349,
      "step": 1310
    },
    {
      "epoch": 1.345957011258956,
      "grad_norm": 0.6089357137680054,
      "learning_rate": 6.90309836173479e-07,
      "loss": 0.7377,
      "step": 1315
    },
    {
      "epoch": 1.3510747185261003,
      "grad_norm": 0.6137183308601379,
      "learning_rate": 6.87001469982139e-07,
      "loss": 0.7417,
      "step": 1320
    },
    {
      "epoch": 1.3561924257932447,
      "grad_norm": 0.6864479184150696,
      "learning_rate": 6.836835576027093e-07,
      "loss": 0.7321,
      "step": 1325
    },
    {
      "epoch": 1.361310133060389,
      "grad_norm": 0.5657494068145752,
      "learning_rate": 6.803562684104125e-07,
      "loss": 0.7411,
      "step": 1330
    },
    {
      "epoch": 1.3664278403275332,
      "grad_norm": 0.6047109365463257,
      "learning_rate": 6.770197722591456e-07,
      "loss": 0.7399,
      "step": 1335
    },
    {
      "epoch": 1.3715455475946776,
      "grad_norm": 0.5772355198860168,
      "learning_rate": 6.736742394728097e-07,
      "loss": 0.7374,
      "step": 1340
    },
    {
      "epoch": 1.3766632548618218,
      "grad_norm": 0.7158586382865906,
      "learning_rate": 6.703198408366142e-07,
      "loss": 0.739,
      "step": 1345
    },
    {
      "epoch": 1.3817809621289663,
      "grad_norm": 0.5718494057655334,
      "learning_rate": 6.669567475883592e-07,
      "loss": 0.7435,
      "step": 1350
    },
    {
      "epoch": 1.3868986693961105,
      "grad_norm": 0.6494776606559753,
      "learning_rate": 6.635851314096935e-07,
      "loss": 0.7358,
      "step": 1355
    },
    {
      "epoch": 1.3920163766632547,
      "grad_norm": 0.5958154201507568,
      "learning_rate": 6.602051644173509e-07,
      "loss": 0.7375,
      "step": 1360
    },
    {
      "epoch": 1.3971340839303992,
      "grad_norm": 0.5509739518165588,
      "learning_rate": 6.568170191543634e-07,
      "loss": 0.7412,
      "step": 1365
    },
    {
      "epoch": 1.4022517911975436,
      "grad_norm": 0.5368937253952026,
      "learning_rate": 6.534208685812536e-07,
      "loss": 0.7393,
      "step": 1370
    },
    {
      "epoch": 1.4073694984646878,
      "grad_norm": 0.5369133353233337,
      "learning_rate": 6.500168860672047e-07,
      "loss": 0.7398,
      "step": 1375
    },
    {
      "epoch": 1.412487205731832,
      "grad_norm": 0.5789251327514648,
      "learning_rate": 6.466052453812111e-07,
      "loss": 0.7371,
      "step": 1380
    },
    {
      "epoch": 1.4176049129989765,
      "grad_norm": 0.5568552017211914,
      "learning_rate": 6.431861206832069e-07,
      "loss": 0.7363,
      "step": 1385
    },
    {
      "epoch": 1.4227226202661207,
      "grad_norm": 0.5325226783752441,
      "learning_rate": 6.397596865151752e-07,
      "loss": 0.7348,
      "step": 1390
    },
    {
      "epoch": 1.4278403275332652,
      "grad_norm": 0.5849957466125488,
      "learning_rate": 6.363261177922388e-07,
      "loss": 0.7363,
      "step": 1395
    },
    {
      "epoch": 1.4329580348004094,
      "grad_norm": 0.6208518743515015,
      "learning_rate": 6.328855897937303e-07,
      "loss": 0.7365,
      "step": 1400
    },
    {
      "epoch": 1.4380757420675536,
      "grad_norm": 0.5599240064620972,
      "learning_rate": 6.294382781542445e-07,
      "loss": 0.7371,
      "step": 1405
    },
    {
      "epoch": 1.443193449334698,
      "grad_norm": 0.5623425841331482,
      "learning_rate": 6.25984358854672e-07,
      "loss": 0.74,
      "step": 1410
    },
    {
      "epoch": 1.4483111566018425,
      "grad_norm": 0.6866716146469116,
      "learning_rate": 6.225240082132172e-07,
      "loss": 0.7383,
      "step": 1415
    },
    {
      "epoch": 1.4534288638689867,
      "grad_norm": 0.5852178931236267,
      "learning_rate": 6.190574028763952e-07,
      "loss": 0.7381,
      "step": 1420
    },
    {
      "epoch": 1.458546571136131,
      "grad_norm": 0.5319634079933167,
      "learning_rate": 6.15584719810016e-07,
      "loss": 0.7349,
      "step": 1425
    },
    {
      "epoch": 1.4636642784032754,
      "grad_norm": 0.5798255205154419,
      "learning_rate": 6.121061362901498e-07,
      "loss": 0.7331,
      "step": 1430
    },
    {
      "epoch": 1.4687819856704196,
      "grad_norm": 0.4803605079650879,
      "learning_rate": 6.086218298940778e-07,
      "loss": 0.7356,
      "step": 1435
    },
    {
      "epoch": 1.473899692937564,
      "grad_norm": 0.7146285772323608,
      "learning_rate": 6.051319784912261e-07,
      "loss": 0.7384,
      "step": 1440
    },
    {
      "epoch": 1.4790174002047083,
      "grad_norm": 0.47007301449775696,
      "learning_rate": 6.016367602340868e-07,
      "loss": 0.7332,
      "step": 1445
    },
    {
      "epoch": 1.4841351074718525,
      "grad_norm": 0.6568506956100464,
      "learning_rate": 5.981363535491233e-07,
      "loss": 0.7378,
      "step": 1450
    },
    {
      "epoch": 1.489252814738997,
      "grad_norm": 0.5178249478340149,
      "learning_rate": 5.946309371276614e-07,
      "loss": 0.7338,
      "step": 1455
    },
    {
      "epoch": 1.4943705220061412,
      "grad_norm": 0.5785830616950989,
      "learning_rate": 5.911206899167676e-07,
      "loss": 0.7392,
      "step": 1460
    },
    {
      "epoch": 1.4994882292732856,
      "grad_norm": 0.5021066665649414,
      "learning_rate": 5.87605791110114e-07,
      "loss": 0.7342,
      "step": 1465
    },
    {
      "epoch": 1.5046059365404298,
      "grad_norm": 0.5594333410263062,
      "learning_rate": 5.840864201388312e-07,
      "loss": 0.7351,
      "step": 1470
    },
    {
      "epoch": 1.509723643807574,
      "grad_norm": 0.5204704999923706,
      "learning_rate": 5.805627566623475e-07,
      "loss": 0.7375,
      "step": 1475
    },
    {
      "epoch": 1.5148413510747185,
      "grad_norm": 0.6187242865562439,
      "learning_rate": 5.770349805592185e-07,
      "loss": 0.7351,
      "step": 1480
    },
    {
      "epoch": 1.519959058341863,
      "grad_norm": 0.5294100046157837,
      "learning_rate": 5.735032719179443e-07,
      "loss": 0.7383,
      "step": 1485
    },
    {
      "epoch": 1.5250767656090072,
      "grad_norm": 0.5450606942176819,
      "learning_rate": 5.699678110277762e-07,
      "loss": 0.7365,
      "step": 1490
    },
    {
      "epoch": 1.5301944728761514,
      "grad_norm": 0.5091442465782166,
      "learning_rate": 5.664287783695122e-07,
      "loss": 0.7343,
      "step": 1495
    },
    {
      "epoch": 1.5353121801432958,
      "grad_norm": 0.557119607925415,
      "learning_rate": 5.628863546062856e-07,
      "loss": 0.7298,
      "step": 1500
    },
    {
      "epoch": 1.5353121801432958,
      "eval_accuracy": 0.67304,
      "eval_loss": 0.6938837766647339,
      "eval_macro_f1": 0.6609359830000188,
      "eval_precision": 0.685850518502884,
      "eval_recall": 0.6657447133221994,
      "eval_runtime": 73.8645,
      "eval_samples_per_second": 1353.83,
      "eval_steps_per_second": 1.327,
      "step": 1500
    }
  ],
  "logging_steps": 5,
  "max_steps": 4885,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 3,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 1
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.0201035364007936e+17,
  "train_batch_size": 512,
  "trial_name": null,
  "trial_params": null
}