{
  "best_metric": 0.0,
  "best_model_checkpoint": "./results/checkpoint-500",
  "epoch": 0.5128205128205128,
  "eval_steps": 500,
  "global_step": 1500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.003418803418803419,
      "grad_norm": 2.3258378505706787,
      "learning_rate": 4.9943019943019945e-05,
      "loss": 0.6681,
      "step": 10
    },
    {
      "epoch": 0.006837606837606838,
      "grad_norm": 0.7698261737823486,
      "learning_rate": 4.988603988603989e-05,
      "loss": 0.6451,
      "step": 20
    },
    {
      "epoch": 0.010256410256410256,
      "grad_norm": 1.6664257049560547,
      "learning_rate": 4.982905982905983e-05,
      "loss": 0.6485,
      "step": 30
    },
    {
      "epoch": 0.013675213675213675,
      "grad_norm": 0.6200563907623291,
      "learning_rate": 4.9772079772079774e-05,
      "loss": 0.6453,
      "step": 40
    },
    {
      "epoch": 0.017094017094017096,
      "grad_norm": 0.5258885622024536,
      "learning_rate": 4.971509971509972e-05,
      "loss": 0.6569,
      "step": 50
    },
    {
      "epoch": 0.020512820512820513,
      "grad_norm": 0.5715610384941101,
      "learning_rate": 4.965811965811966e-05,
      "loss": 0.6508,
      "step": 60
    },
    {
      "epoch": 0.023931623931623933,
      "grad_norm": 0.5744765400886536,
      "learning_rate": 4.96011396011396e-05,
      "loss": 0.6029,
      "step": 70
    },
    {
      "epoch": 0.02735042735042735,
      "grad_norm": 0.9320403337478638,
      "learning_rate": 4.9544159544159546e-05,
      "loss": 0.6644,
      "step": 80
    },
    {
      "epoch": 0.03076923076923077,
      "grad_norm": 0.5994309186935425,
      "learning_rate": 4.948717948717949e-05,
      "loss": 0.6757,
      "step": 90
    },
    {
      "epoch": 0.03418803418803419,
      "grad_norm": 0.4685361385345459,
      "learning_rate": 4.943019943019943e-05,
      "loss": 0.6372,
      "step": 100
    },
    {
      "epoch": 0.037606837606837605,
      "grad_norm": 0.6897755265235901,
      "learning_rate": 4.9373219373219375e-05,
      "loss": 0.6395,
      "step": 110
    },
    {
      "epoch": 0.041025641025641026,
      "grad_norm": 0.5714218616485596,
      "learning_rate": 4.931623931623932e-05,
      "loss": 0.6323,
      "step": 120
    },
    {
      "epoch": 0.044444444444444446,
      "grad_norm": 0.6862583160400391,
      "learning_rate": 4.925925925925926e-05,
      "loss": 0.6307,
      "step": 130
    },
    {
      "epoch": 0.04786324786324787,
      "grad_norm": 1.1985986232757568,
      "learning_rate": 4.9202279202279204e-05,
      "loss": 0.6353,
      "step": 140
    },
    {
      "epoch": 0.05128205128205128,
      "grad_norm": 0.4656996428966522,
      "learning_rate": 4.9145299145299147e-05,
      "loss": 0.6552,
      "step": 150
    },
    {
      "epoch": 0.0547008547008547,
      "grad_norm": 1.3551446199417114,
      "learning_rate": 4.908831908831909e-05,
      "loss": 0.6484,
      "step": 160
    },
    {
      "epoch": 0.05811965811965812,
      "grad_norm": 1.137487769126892,
      "learning_rate": 4.903133903133903e-05,
      "loss": 0.5905,
      "step": 170
    },
    {
      "epoch": 0.06153846153846154,
      "grad_norm": 0.6064645051956177,
      "learning_rate": 4.8974358974358975e-05,
      "loss": 0.6157,
      "step": 180
    },
    {
      "epoch": 0.06495726495726496,
      "grad_norm": 2.0975794792175293,
      "learning_rate": 4.891737891737892e-05,
      "loss": 0.6701,
      "step": 190
    },
    {
      "epoch": 0.06837606837606838,
      "grad_norm": 0.48940032720565796,
      "learning_rate": 4.886039886039887e-05,
      "loss": 0.6342,
      "step": 200
    },
    {
      "epoch": 0.07179487179487179,
      "grad_norm": 1.2511190176010132,
      "learning_rate": 4.8803418803418804e-05,
      "loss": 0.6521,
      "step": 210
    },
    {
      "epoch": 0.07521367521367521,
      "grad_norm": 0.7074885964393616,
      "learning_rate": 4.874643874643875e-05,
      "loss": 0.6548,
      "step": 220
    },
    {
      "epoch": 0.07863247863247863,
      "grad_norm": 1.152065396308899,
      "learning_rate": 4.868945868945869e-05,
      "loss": 0.6589,
      "step": 230
    },
    {
      "epoch": 0.08205128205128205,
      "grad_norm": 0.39897221326828003,
      "learning_rate": 4.863247863247863e-05,
      "loss": 0.6595,
      "step": 240
    },
    {
      "epoch": 0.08547008547008547,
      "grad_norm": 0.5259735584259033,
      "learning_rate": 4.8575498575498576e-05,
      "loss": 0.665,
      "step": 250
    },
    {
      "epoch": 0.08888888888888889,
      "grad_norm": 0.5097119808197021,
      "learning_rate": 4.851851851851852e-05,
      "loss": 0.6498,
      "step": 260
    },
    {
      "epoch": 0.09230769230769231,
      "grad_norm": 0.48037877678871155,
      "learning_rate": 4.846153846153846e-05,
      "loss": 0.5882,
      "step": 270
    },
    {
      "epoch": 0.09572649572649573,
      "grad_norm": 0.6850088834762573,
      "learning_rate": 4.840455840455841e-05,
      "loss": 0.6329,
      "step": 280
    },
    {
      "epoch": 0.09914529914529914,
      "grad_norm": 0.6092679500579834,
      "learning_rate": 4.834757834757835e-05,
      "loss": 0.6246,
      "step": 290
    },
    {
      "epoch": 0.10256410256410256,
      "grad_norm": 1.0922237634658813,
      "learning_rate": 4.829059829059829e-05,
      "loss": 0.6144,
      "step": 300
    },
    {
      "epoch": 0.10598290598290598,
      "grad_norm": 1.4150214195251465,
      "learning_rate": 4.823361823361824e-05,
      "loss": 0.643,
      "step": 310
    },
    {
      "epoch": 0.1094017094017094,
      "grad_norm": 1.516169548034668,
      "learning_rate": 4.817663817663818e-05,
      "loss": 0.6046,
      "step": 320
    },
    {
      "epoch": 0.11282051282051282,
      "grad_norm": 0.5234593749046326,
      "learning_rate": 4.8119658119658126e-05,
      "loss": 0.6193,
      "step": 330
    },
    {
      "epoch": 0.11623931623931624,
      "grad_norm": 0.6485182046890259,
      "learning_rate": 4.806267806267806e-05,
      "loss": 0.6314,
      "step": 340
    },
    {
      "epoch": 0.11965811965811966,
      "grad_norm": 0.9457536935806274,
      "learning_rate": 4.8005698005698006e-05,
      "loss": 0.5802,
      "step": 350
    },
    {
      "epoch": 0.12307692307692308,
      "grad_norm": 1.2444144487380981,
      "learning_rate": 4.7948717948717955e-05,
      "loss": 0.5927,
      "step": 360
    },
    {
      "epoch": 0.1264957264957265,
      "grad_norm": 0.499647855758667,
      "learning_rate": 4.789173789173789e-05,
      "loss": 0.6358,
      "step": 370
    },
    {
      "epoch": 0.12991452991452992,
      "grad_norm": 2.130183696746826,
      "learning_rate": 4.7834757834757834e-05,
      "loss": 0.6324,
      "step": 380
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.6378350257873535,
      "learning_rate": 4.7777777777777784e-05,
      "loss": 0.6061,
      "step": 390
    },
    {
      "epoch": 0.13675213675213677,
      "grad_norm": 0.39135029911994934,
      "learning_rate": 4.772079772079772e-05,
      "loss": 0.6329,
      "step": 400
    },
    {
      "epoch": 0.14017094017094017,
      "grad_norm": 0.5480381846427917,
      "learning_rate": 4.766381766381767e-05,
      "loss": 0.6607,
      "step": 410
    },
    {
      "epoch": 0.14358974358974358,
      "grad_norm": 0.4431852400302887,
      "learning_rate": 4.7606837606837606e-05,
      "loss": 0.6233,
      "step": 420
    },
    {
      "epoch": 0.147008547008547,
      "grad_norm": 0.4828330874443054,
      "learning_rate": 4.754985754985755e-05,
      "loss": 0.6437,
      "step": 430
    },
    {
      "epoch": 0.15042735042735042,
      "grad_norm": 0.5272857546806335,
      "learning_rate": 4.74928774928775e-05,
      "loss": 0.6671,
      "step": 440
    },
    {
      "epoch": 0.15384615384615385,
      "grad_norm": 1.4251387119293213,
      "learning_rate": 4.7435897435897435e-05,
      "loss": 0.658,
      "step": 450
    },
    {
      "epoch": 0.15726495726495726,
      "grad_norm": 0.8041712641716003,
      "learning_rate": 4.737891737891738e-05,
      "loss": 0.6487,
      "step": 460
    },
    {
      "epoch": 0.1606837606837607,
      "grad_norm": 0.7019796371459961,
      "learning_rate": 4.732193732193733e-05,
      "loss": 0.6019,
      "step": 470
    },
    {
      "epoch": 0.1641025641025641,
      "grad_norm": 0.8561422228813171,
      "learning_rate": 4.7264957264957264e-05,
      "loss": 0.6897,
      "step": 480
    },
    {
      "epoch": 0.1675213675213675,
      "grad_norm": 1.0677204132080078,
      "learning_rate": 4.7207977207977214e-05,
      "loss": 0.6848,
      "step": 490
    },
    {
      "epoch": 0.17094017094017094,
      "grad_norm": 0.4762294590473175,
      "learning_rate": 4.7150997150997157e-05,
      "loss": 0.6527,
      "step": 500
    },
    {
      "epoch": 0.17094017094017094,
      "eval_accuracy": 0.661082143772972,
      "eval_f1": 0.0,
      "eval_loss": 0.6433083415031433,
      "eval_precision": 0.0,
      "eval_recall": 0.0,
      "eval_roc_auc": 0.4981741909669265,
      "eval_runtime": 36.622,
      "eval_samples_per_second": 319.453,
      "eval_steps_per_second": 19.988,
      "step": 500
    },
    {
      "epoch": 0.17435897435897435,
      "grad_norm": 0.4656302034854889,
      "learning_rate": 4.709401709401709e-05,
      "loss": 0.6506,
      "step": 510
    },
    {
      "epoch": 0.17777777777777778,
      "grad_norm": 0.6288455724716187,
      "learning_rate": 4.703703703703704e-05,
      "loss": 0.6422,
      "step": 520
    },
    {
      "epoch": 0.1811965811965812,
      "grad_norm": 0.39913907647132874,
      "learning_rate": 4.698005698005698e-05,
      "loss": 0.6146,
      "step": 530
    },
    {
      "epoch": 0.18461538461538463,
      "grad_norm": 0.40889817476272583,
      "learning_rate": 4.692307692307693e-05,
      "loss": 0.6272,
      "step": 540
    },
    {
      "epoch": 0.18803418803418803,
      "grad_norm": 0.9223109483718872,
      "learning_rate": 4.686609686609687e-05,
      "loss": 0.6391,
      "step": 550
    },
    {
      "epoch": 0.19145299145299147,
      "grad_norm": 0.43170908093452454,
      "learning_rate": 4.680911680911681e-05,
      "loss": 0.6613,
      "step": 560
    },
    {
      "epoch": 0.19487179487179487,
      "grad_norm": 0.6207427978515625,
      "learning_rate": 4.675213675213676e-05,
      "loss": 0.6471,
      "step": 570
    },
    {
      "epoch": 0.19829059829059828,
      "grad_norm": 0.7672275304794312,
      "learning_rate": 4.66951566951567e-05,
      "loss": 0.6629,
      "step": 580
    },
    {
      "epoch": 0.20170940170940171,
      "grad_norm": 0.4669424891471863,
      "learning_rate": 4.6638176638176636e-05,
      "loss": 0.6588,
      "step": 590
    },
    {
      "epoch": 0.20512820512820512,
      "grad_norm": 0.6726049184799194,
      "learning_rate": 4.6581196581196586e-05,
      "loss": 0.6258,
      "step": 600
    },
    {
      "epoch": 0.20854700854700856,
      "grad_norm": 0.7948060035705566,
      "learning_rate": 4.652421652421652e-05,
      "loss": 0.5705,
      "step": 610
    },
    {
      "epoch": 0.21196581196581196,
      "grad_norm": 0.419849693775177,
      "learning_rate": 4.646723646723647e-05,
      "loss": 0.6468,
      "step": 620
    },
    {
      "epoch": 0.2153846153846154,
      "grad_norm": 1.0143113136291504,
      "learning_rate": 4.6410256410256415e-05,
      "loss": 0.6297,
      "step": 630
    },
    {
      "epoch": 0.2188034188034188,
      "grad_norm": 0.7109899520874023,
      "learning_rate": 4.635327635327635e-05,
      "loss": 0.673,
      "step": 640
    },
    {
      "epoch": 0.2222222222222222,
      "grad_norm": 0.760080099105835,
      "learning_rate": 4.62962962962963e-05,
      "loss": 0.6227,
      "step": 650
    },
    {
      "epoch": 0.22564102564102564,
      "grad_norm": 0.7442237138748169,
      "learning_rate": 4.6239316239316244e-05,
      "loss": 0.5715,
      "step": 660
    },
    {
      "epoch": 0.22905982905982905,
      "grad_norm": 0.39145609736442566,
      "learning_rate": 4.618233618233619e-05,
      "loss": 0.6727,
      "step": 670
    },
    {
      "epoch": 0.23247863247863249,
      "grad_norm": 0.868276059627533,
      "learning_rate": 4.612535612535613e-05,
      "loss": 0.6344,
      "step": 680
    },
    {
      "epoch": 0.2358974358974359,
      "grad_norm": 0.6120406985282898,
      "learning_rate": 4.6068376068376066e-05,
      "loss": 0.5954,
      "step": 690
    },
    {
      "epoch": 0.23931623931623933,
      "grad_norm": 0.5536867380142212,
      "learning_rate": 4.6011396011396016e-05,
      "loss": 0.6476,
      "step": 700
    },
    {
      "epoch": 0.24273504273504273,
      "grad_norm": 0.4315416216850281,
      "learning_rate": 4.595441595441596e-05,
      "loss": 0.6215,
      "step": 710
    },
    {
      "epoch": 0.24615384615384617,
      "grad_norm": 0.517528235912323,
      "learning_rate": 4.5897435897435895e-05,
      "loss": 0.6258,
      "step": 720
    },
    {
      "epoch": 0.24957264957264957,
      "grad_norm": 1.3188592195510864,
      "learning_rate": 4.5840455840455844e-05,
      "loss": 0.6469,
      "step": 730
    },
    {
      "epoch": 0.252991452991453,
      "grad_norm": 1.2717797756195068,
      "learning_rate": 4.578347578347579e-05,
      "loss": 0.5683,
      "step": 740
    },
    {
      "epoch": 0.2564102564102564,
      "grad_norm": 1.0561293363571167,
      "learning_rate": 4.572649572649573e-05,
      "loss": 0.6769,
      "step": 750
    },
    {
      "epoch": 0.25982905982905985,
      "grad_norm": 1.4157183170318604,
      "learning_rate": 4.566951566951567e-05,
      "loss": 0.6901,
      "step": 760
    },
    {
      "epoch": 0.26324786324786326,
      "grad_norm": 0.4029109477996826,
      "learning_rate": 4.5612535612535616e-05,
      "loss": 0.593,
      "step": 770
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 1.0039498805999756,
      "learning_rate": 4.555555555555556e-05,
      "loss": 0.6798,
      "step": 780
    },
    {
      "epoch": 0.27008547008547007,
      "grad_norm": 0.6905536651611328,
      "learning_rate": 4.54985754985755e-05,
      "loss": 0.6352,
      "step": 790
    },
    {
      "epoch": 0.27350427350427353,
      "grad_norm": 0.8582714796066284,
      "learning_rate": 4.544159544159544e-05,
      "loss": 0.6438,
      "step": 800
    },
    {
      "epoch": 0.27692307692307694,
      "grad_norm": 0.4063926339149475,
      "learning_rate": 4.538461538461539e-05,
      "loss": 0.6503,
      "step": 810
    },
    {
      "epoch": 0.28034188034188035,
      "grad_norm": 1.0651031732559204,
      "learning_rate": 4.532763532763533e-05,
      "loss": 0.6296,
      "step": 820
    },
    {
      "epoch": 0.28376068376068375,
      "grad_norm": 0.618545651435852,
      "learning_rate": 4.5270655270655274e-05,
      "loss": 0.6695,
      "step": 830
    },
    {
      "epoch": 0.28717948717948716,
      "grad_norm": 1.4270812273025513,
      "learning_rate": 4.521367521367522e-05,
      "loss": 0.588,
      "step": 840
    },
    {
      "epoch": 0.2905982905982906,
      "grad_norm": 1.277422547340393,
      "learning_rate": 4.515669515669516e-05,
      "loss": 0.6822,
      "step": 850
    },
    {
      "epoch": 0.294017094017094,
      "grad_norm": 0.44470494985580444,
      "learning_rate": 4.50997150997151e-05,
      "loss": 0.6401,
      "step": 860
    },
    {
      "epoch": 0.29743589743589743,
      "grad_norm": 0.6381728053092957,
      "learning_rate": 4.5042735042735046e-05,
      "loss": 0.693,
      "step": 870
    },
    {
      "epoch": 0.30085470085470084,
      "grad_norm": 0.4355703294277191,
      "learning_rate": 4.498575498575499e-05,
      "loss": 0.6083,
      "step": 880
    },
    {
      "epoch": 0.30427350427350425,
      "grad_norm": 1.0187709331512451,
      "learning_rate": 4.492877492877493e-05,
      "loss": 0.5236,
      "step": 890
    },
    {
      "epoch": 0.3076923076923077,
      "grad_norm": 0.7143679261207581,
      "learning_rate": 4.4871794871794874e-05,
      "loss": 0.6413,
      "step": 900
    },
    {
      "epoch": 0.3111111111111111,
      "grad_norm": 1.0808229446411133,
      "learning_rate": 4.481481481481482e-05,
      "loss": 0.6026,
      "step": 910
    },
    {
      "epoch": 0.3145299145299145,
      "grad_norm": 0.796187698841095,
      "learning_rate": 4.475783475783476e-05,
      "loss": 0.6812,
      "step": 920
    },
    {
      "epoch": 0.31794871794871793,
      "grad_norm": 0.5163740515708923,
      "learning_rate": 4.47008547008547e-05,
      "loss": 0.6537,
      "step": 930
    },
    {
      "epoch": 0.3213675213675214,
      "grad_norm": 0.7213220596313477,
      "learning_rate": 4.4643874643874646e-05,
      "loss": 0.6765,
      "step": 940
    },
    {
      "epoch": 0.3247863247863248,
      "grad_norm": 0.44362661242485046,
      "learning_rate": 4.458689458689459e-05,
      "loss": 0.6249,
      "step": 950
    },
    {
      "epoch": 0.3282051282051282,
      "grad_norm": 0.4917695224285126,
      "learning_rate": 4.452991452991453e-05,
      "loss": 0.63,
      "step": 960
    },
    {
      "epoch": 0.3316239316239316,
      "grad_norm": 0.709846556186676,
      "learning_rate": 4.4472934472934475e-05,
      "loss": 0.5544,
      "step": 970
    },
    {
      "epoch": 0.335042735042735,
      "grad_norm": 1.065099835395813,
      "learning_rate": 4.441595441595442e-05,
      "loss": 0.6338,
      "step": 980
    },
    {
      "epoch": 0.3384615384615385,
      "grad_norm": 0.42223694920539856,
      "learning_rate": 4.435897435897436e-05,
      "loss": 0.5828,
      "step": 990
    },
    {
      "epoch": 0.3418803418803419,
      "grad_norm": 1.5173028707504272,
      "learning_rate": 4.4301994301994304e-05,
      "loss": 0.6229,
      "step": 1000
    },
    {
      "epoch": 0.3418803418803419,
      "eval_accuracy": 0.661082143772972,
      "eval_f1": 0.0,
      "eval_loss": 0.6458322405815125,
      "eval_precision": 0.0,
      "eval_recall": 0.0,
      "eval_roc_auc": 0.5011399036892176,
      "eval_runtime": 36.5197,
      "eval_samples_per_second": 320.347,
      "eval_steps_per_second": 20.044,
      "step": 1000
    },
    {
      "epoch": 0.3452991452991453,
      "grad_norm": 0.8043766617774963,
      "learning_rate": 4.424501424501425e-05,
      "loss": 0.6463,
      "step": 1010
    },
    {
      "epoch": 0.3487179487179487,
      "grad_norm": 0.6817493438720703,
      "learning_rate": 4.418803418803419e-05,
      "loss": 0.6266,
      "step": 1020
    },
    {
      "epoch": 0.35213675213675216,
      "grad_norm": 0.6765307784080505,
      "learning_rate": 4.413105413105413e-05,
      "loss": 0.6203,
      "step": 1030
    },
    {
      "epoch": 0.35555555555555557,
      "grad_norm": 0.6116905808448792,
      "learning_rate": 4.4074074074074076e-05,
      "loss": 0.5933,
      "step": 1040
    },
    {
      "epoch": 0.358974358974359,
      "grad_norm": 0.3634931445121765,
      "learning_rate": 4.401709401709402e-05,
      "loss": 0.6612,
      "step": 1050
    },
    {
      "epoch": 0.3623931623931624,
      "grad_norm": 0.8377366065979004,
      "learning_rate": 4.396011396011396e-05,
      "loss": 0.6933,
      "step": 1060
    },
    {
      "epoch": 0.3658119658119658,
      "grad_norm": 0.7808057069778442,
      "learning_rate": 4.3903133903133905e-05,
      "loss": 0.6101,
      "step": 1070
    },
    {
      "epoch": 0.36923076923076925,
      "grad_norm": 0.5020534992218018,
      "learning_rate": 4.384615384615385e-05,
      "loss": 0.6333,
      "step": 1080
    },
    {
      "epoch": 0.37264957264957266,
      "grad_norm": 0.9217988848686218,
      "learning_rate": 4.378917378917379e-05,
      "loss": 0.652,
      "step": 1090
    },
    {
      "epoch": 0.37606837606837606,
      "grad_norm": 0.426917165517807,
      "learning_rate": 4.3732193732193733e-05,
      "loss": 0.6776,
      "step": 1100
    },
    {
      "epoch": 0.37948717948717947,
      "grad_norm": 1.00786292552948,
      "learning_rate": 4.3675213675213676e-05,
      "loss": 0.6308,
      "step": 1110
    },
    {
      "epoch": 0.38290598290598293,
      "grad_norm": 0.5222122669219971,
      "learning_rate": 4.361823361823362e-05,
      "loss": 0.5881,
      "step": 1120
    },
    {
      "epoch": 0.38632478632478634,
      "grad_norm": 1.309751272201538,
      "learning_rate": 4.356125356125356e-05,
      "loss": 0.6988,
      "step": 1130
    },
    {
      "epoch": 0.38974358974358975,
      "grad_norm": 0.5627844929695129,
      "learning_rate": 4.3504273504273505e-05,
      "loss": 0.6396,
      "step": 1140
    },
    {
      "epoch": 0.39316239316239315,
      "grad_norm": 0.40362900495529175,
      "learning_rate": 4.344729344729345e-05,
      "loss": 0.639,
      "step": 1150
    },
    {
      "epoch": 0.39658119658119656,
      "grad_norm": 0.632331371307373,
      "learning_rate": 4.339031339031339e-05,
      "loss": 0.6187,
      "step": 1160
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1355897188186646,
      "learning_rate": 4.3333333333333334e-05,
      "loss": 0.6317,
      "step": 1170
    },
    {
      "epoch": 0.40341880341880343,
      "grad_norm": 0.8610725998878479,
      "learning_rate": 4.327635327635328e-05,
      "loss": 0.631,
      "step": 1180
    },
    {
      "epoch": 0.40683760683760684,
      "grad_norm": 0.6825465559959412,
      "learning_rate": 4.321937321937322e-05,
      "loss": 0.6825,
      "step": 1190
    },
    {
      "epoch": 0.41025641025641024,
      "grad_norm": 1.3887457847595215,
      "learning_rate": 4.316239316239317e-05,
      "loss": 0.6221,
      "step": 1200
    },
    {
      "epoch": 0.41367521367521365,
      "grad_norm": 0.5809090733528137,
      "learning_rate": 4.3105413105413106e-05,
      "loss": 0.6117,
      "step": 1210
    },
    {
      "epoch": 0.4170940170940171,
      "grad_norm": 0.4157603681087494,
      "learning_rate": 4.304843304843305e-05,
      "loss": 0.613,
      "step": 1220
    },
    {
      "epoch": 0.4205128205128205,
      "grad_norm": 0.4386206269264221,
      "learning_rate": 4.2991452991453e-05,
      "loss": 0.6458,
      "step": 1230
    },
    {
      "epoch": 0.4239316239316239,
      "grad_norm": 1.4249426126480103,
      "learning_rate": 4.2934472934472935e-05,
      "loss": 0.66,
      "step": 1240
    },
    {
      "epoch": 0.42735042735042733,
      "grad_norm": 1.3717528581619263,
      "learning_rate": 4.287749287749288e-05,
      "loss": 0.6497,
      "step": 1250
    },
    {
      "epoch": 0.4307692307692308,
      "grad_norm": 0.6880800724029541,
      "learning_rate": 4.282051282051282e-05,
      "loss": 0.6231,
      "step": 1260
    },
    {
      "epoch": 0.4341880341880342,
      "grad_norm": 0.9455773234367371,
      "learning_rate": 4.2763532763532764e-05,
      "loss": 0.6524,
      "step": 1270
    },
    {
      "epoch": 0.4376068376068376,
      "grad_norm": 1.2795006036758423,
      "learning_rate": 4.270655270655271e-05,
      "loss": 0.6039,
      "step": 1280
    },
    {
      "epoch": 0.441025641025641,
      "grad_norm": 0.4846753776073456,
      "learning_rate": 4.264957264957265e-05,
      "loss": 0.6066,
      "step": 1290
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": 0.49425560235977173,
      "learning_rate": 4.259259259259259e-05,
      "loss": 0.6545,
      "step": 1300
    },
    {
      "epoch": 0.4478632478632479,
      "grad_norm": 0.924453854560852,
      "learning_rate": 4.253561253561254e-05,
      "loss": 0.6406,
      "step": 1310
    },
    {
      "epoch": 0.4512820512820513,
      "grad_norm": 0.46777766942977905,
      "learning_rate": 4.247863247863248e-05,
      "loss": 0.6275,
      "step": 1320
    },
    {
      "epoch": 0.4547008547008547,
      "grad_norm": 0.7829861044883728,
      "learning_rate": 4.242165242165243e-05,
      "loss": 0.6445,
      "step": 1330
    },
    {
      "epoch": 0.4581196581196581,
      "grad_norm": 0.6596978306770325,
      "learning_rate": 4.2364672364672364e-05,
      "loss": 0.648,
      "step": 1340
    },
    {
      "epoch": 0.46153846153846156,
      "grad_norm": 0.9732853770256042,
      "learning_rate": 4.230769230769231e-05,
      "loss": 0.6738,
      "step": 1350
    },
    {
      "epoch": 0.46495726495726497,
      "grad_norm": 0.4845993220806122,
      "learning_rate": 4.225071225071226e-05,
      "loss": 0.6464,
      "step": 1360
    },
    {
      "epoch": 0.4683760683760684,
      "grad_norm": 0.40009310841560364,
      "learning_rate": 4.219373219373219e-05,
      "loss": 0.6193,
      "step": 1370
    },
    {
      "epoch": 0.4717948717948718,
      "grad_norm": 1.296000361442566,
      "learning_rate": 4.2136752136752136e-05,
      "loss": 0.608,
      "step": 1380
    },
    {
      "epoch": 0.4752136752136752,
      "grad_norm": 0.3851681351661682,
      "learning_rate": 4.2079772079772086e-05,
      "loss": 0.636,
      "step": 1390
    },
    {
      "epoch": 0.47863247863247865,
      "grad_norm": 1.5586471557617188,
      "learning_rate": 4.202279202279202e-05,
      "loss": 0.652,
      "step": 1400
    },
    {
      "epoch": 0.48205128205128206,
      "grad_norm": 1.1093754768371582,
      "learning_rate": 4.196581196581197e-05,
      "loss": 0.6397,
      "step": 1410
    },
    {
      "epoch": 0.48547008547008547,
      "grad_norm": 0.6494556665420532,
      "learning_rate": 4.190883190883191e-05,
      "loss": 0.6691,
      "step": 1420
    },
    {
      "epoch": 0.4888888888888889,
      "grad_norm": 0.6842040419578552,
      "learning_rate": 4.185185185185185e-05,
      "loss": 0.653,
      "step": 1430
    },
    {
      "epoch": 0.49230769230769234,
      "grad_norm": 0.39208441972732544,
      "learning_rate": 4.17948717948718e-05,
      "loss": 0.6303,
      "step": 1440
    },
    {
      "epoch": 0.49572649572649574,
      "grad_norm": 0.3755127787590027,
      "learning_rate": 4.1737891737891737e-05,
      "loss": 0.6619,
      "step": 1450
    },
    {
      "epoch": 0.49914529914529915,
      "grad_norm": 0.3358234167098999,
      "learning_rate": 4.168091168091168e-05,
      "loss": 0.6782,
      "step": 1460
    },
    {
      "epoch": 0.5025641025641026,
      "grad_norm": 0.30498063564300537,
      "learning_rate": 4.162393162393163e-05,
      "loss": 0.6582,
      "step": 1470
    },
    {
      "epoch": 0.505982905982906,
      "grad_norm": 0.7140593528747559,
      "learning_rate": 4.1566951566951565e-05,
      "loss": 0.6749,
      "step": 1480
    },
    {
      "epoch": 0.5094017094017094,
      "grad_norm": 0.4288971424102783,
      "learning_rate": 4.1509971509971515e-05,
      "loss": 0.6355,
      "step": 1490
    },
    {
      "epoch": 0.5128205128205128,
      "grad_norm": 0.8717936277389526,
      "learning_rate": 4.145299145299146e-05,
      "loss": 0.6258,
      "step": 1500
    },
    {
      "epoch": 0.5128205128205128,
      "eval_accuracy": 0.661082143772972,
      "eval_f1": 0.0,
      "eval_loss": 0.6402843594551086,
      "eval_precision": 0.0,
      "eval_recall": 0.0,
      "eval_roc_auc": 0.5119639749280213,
      "eval_runtime": 35.8008,
      "eval_samples_per_second": 326.78,
      "eval_steps_per_second": 20.446,
      "step": 1500
    }
  ],
  "logging_steps": 10,
  "max_steps": 8775,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 3,
        "early_stopping_threshold": 0.001
      },
      "attributes": {
        "early_stopping_patience_counter": 2
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 794804391936000.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}