{
  "best_metric": 0.8978955572876072,
  "best_model_checkpoint": "./results/finetunes/20250205-121158__microsoft_Phi-3.5-mini-instruct__ft/checkpoint-1792",
  "epoch": 0.13208520675167687,
  "eval_steps": 16,
  "global_step": 1792,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0001474165253924965,
      "grad_norm": 112.13977813720703,
      "learning_rate": 0.00012128399488167067,
      "loss": 2.0334,
      "step": 2
    },
    {
      "epoch": 0.000294833050784993,
      "grad_norm": 47.18525695800781,
      "learning_rate": 0.00012128399457682722,
      "loss": 0.4295,
      "step": 4
    },
    {
      "epoch": 0.0004422495761774895,
      "grad_norm": 46.89369583129883,
      "learning_rate": 0.0001212839940687548,
      "loss": 1.793,
      "step": 6
    },
    {
      "epoch": 0.000589666101569986,
      "grad_norm": 90.68251037597656,
      "learning_rate": 0.00012128399335745342,
      "loss": 1.582,
      "step": 8
    },
    {
      "epoch": 0.0007370826269624825,
      "grad_norm": 10.48133373260498,
      "learning_rate": 0.00012128399244292309,
      "loss": 1.152,
      "step": 10
    },
    {
      "epoch": 0.000884499152354979,
      "grad_norm": 57.58028030395508,
      "learning_rate": 0.00012128399132516379,
      "loss": 0.8417,
      "step": 12
    },
    {
      "epoch": 0.0010319156777474755,
      "grad_norm": 24.7613468170166,
      "learning_rate": 0.00012128399000417552,
      "loss": 0.6337,
      "step": 14
    },
    {
      "epoch": 0.001179332203139972,
      "grad_norm": 5.995689868927002,
      "learning_rate": 0.00012128398847995831,
      "loss": 0.29,
      "step": 16
    },
    {
      "epoch": 0.001179332203139972,
      "eval_1_ratio_diff": -0.12081060015588468,
      "eval_accuracy": 0.6360093530787218,
      "eval_f1": 0.5856255545696539,
      "eval_loss": 0.7121835350990295,
      "eval_precision": 0.6790123456790124,
      "eval_recall": 0.514820592823713,
      "eval_runtime": 1440.0319,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 16
    },
    {
      "epoch": 0.0013267487285324685,
      "grad_norm": 20.756057739257812,
      "learning_rate": 0.00012128398675251216,
      "loss": 0.4541,
      "step": 18
    },
    {
      "epoch": 0.001474165253924965,
      "grad_norm": 49.25767135620117,
      "learning_rate": 0.00012128398482183706,
      "loss": 1.1751,
      "step": 20
    },
    {
      "epoch": 0.0016215817793174615,
      "grad_norm": 10.73904037475586,
      "learning_rate": 0.00012128398268793303,
      "loss": 0.2334,
      "step": 22
    },
    {
      "epoch": 0.001768998304709958,
      "grad_norm": 3.5153348445892334,
      "learning_rate": 0.00012128398035080009,
      "loss": 0.8965,
      "step": 24
    },
    {
      "epoch": 0.0019164148301024544,
      "grad_norm": 117.84137725830078,
      "learning_rate": 0.0001212839778104382,
      "loss": 2.9108,
      "step": 26
    },
    {
      "epoch": 0.002063831355494951,
      "grad_norm": 108.86376190185547,
      "learning_rate": 0.00012128397506684742,
      "loss": 2.1317,
      "step": 28
    },
    {
      "epoch": 0.0022112478808874476,
      "grad_norm": 19.305322647094727,
      "learning_rate": 0.00012128397212002774,
      "loss": 0.2653,
      "step": 30
    },
    {
      "epoch": 0.002358664406279944,
      "grad_norm": 46.865966796875,
      "learning_rate": 0.00012128396896997918,
      "loss": 2.2461,
      "step": 32
    },
    {
      "epoch": 0.002358664406279944,
      "eval_1_ratio_diff": -0.49961028838659394,
      "eval_accuracy": 0.5003897116134061,
      "eval_f1": 0.0,
      "eval_loss": 1.7971160411834717,
      "eval_precision": 0.0,
      "eval_recall": 0.0,
      "eval_runtime": 1438.1269,
      "eval_samples_per_second": 0.892,
      "eval_steps_per_second": 0.446,
      "step": 32
    },
    {
      "epoch": 0.0025060809316724405,
      "grad_norm": 55.90218734741211,
      "learning_rate": 0.00012128396561670172,
      "loss": 1.0773,
      "step": 34
    },
    {
      "epoch": 0.002653497457064937,
      "grad_norm": 8.257821083068848,
      "learning_rate": 0.0001212839620601954,
      "loss": 0.7481,
      "step": 36
    },
    {
      "epoch": 0.0028009139824574335,
      "grad_norm": 11.776910781860352,
      "learning_rate": 0.00012128395830046022,
      "loss": 0.0906,
      "step": 38
    },
    {
      "epoch": 0.00294833050784993,
      "grad_norm": 115.57841491699219,
      "learning_rate": 0.00012128395433749618,
      "loss": 3.0851,
      "step": 40
    },
    {
      "epoch": 0.0030957470332424264,
      "grad_norm": 5.130585193634033,
      "learning_rate": 0.00012128395017130333,
      "loss": 0.9399,
      "step": 42
    },
    {
      "epoch": 0.003243163558634923,
      "grad_norm": 43.877689361572266,
      "learning_rate": 0.00012128394580188166,
      "loss": 0.9284,
      "step": 44
    },
    {
      "epoch": 0.0033905800840274194,
      "grad_norm": 48.76664733886719,
      "learning_rate": 0.00012128394122923118,
      "loss": 0.5431,
      "step": 46
    },
    {
      "epoch": 0.003537996609419916,
      "grad_norm": 33.9229736328125,
      "learning_rate": 0.00012128393645335193,
      "loss": 0.6688,
      "step": 48
    },
    {
      "epoch": 0.003537996609419916,
      "eval_1_ratio_diff": -0.09353078721745911,
      "eval_accuracy": 0.764614185502728,
      "eval_f1": 0.7401032702237521,
      "eval_loss": 0.49912577867507935,
      "eval_precision": 0.8253358925143954,
      "eval_recall": 0.6708268330733229,
      "eval_runtime": 1439.1521,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 48
    },
    {
      "epoch": 0.0036854131348124123,
      "grad_norm": 20.783430099487305,
      "learning_rate": 0.00012128393147424389,
      "loss": 0.7502,
      "step": 50
    },
    {
      "epoch": 0.003832829660204909,
      "grad_norm": 28.81708335876465,
      "learning_rate": 0.0001212839262919071,
      "loss": 0.8271,
      "step": 52
    },
    {
      "epoch": 0.003980246185597405,
      "grad_norm": 58.47079086303711,
      "learning_rate": 0.00012128392090634156,
      "loss": 1.0213,
      "step": 54
    },
    {
      "epoch": 0.004127662710989902,
      "grad_norm": 107.4663314819336,
      "learning_rate": 0.00012128391531754733,
      "loss": 1.6449,
      "step": 56
    },
    {
      "epoch": 0.004275079236382398,
      "grad_norm": 21.926761627197266,
      "learning_rate": 0.00012128390952552436,
      "loss": 1.5282,
      "step": 58
    },
    {
      "epoch": 0.004422495761774895,
      "grad_norm": 108.13206481933594,
      "learning_rate": 0.00012128390353027275,
      "loss": 1.2688,
      "step": 60
    },
    {
      "epoch": 0.004569912287167391,
      "grad_norm": 85.27387237548828,
      "learning_rate": 0.00012128389733179246,
      "loss": 1.4725,
      "step": 62
    },
    {
      "epoch": 0.004717328812559888,
      "grad_norm": 3.8993313312530518,
      "learning_rate": 0.00012128389093008353,
      "loss": 0.1737,
      "step": 64
    },
    {
      "epoch": 0.004717328812559888,
      "eval_1_ratio_diff": 0.05378020265003891,
      "eval_accuracy": 0.7809820732657833,
      "eval_f1": 0.7920059215396003,
      "eval_loss": 0.4972352981567383,
      "eval_precision": 0.7535211267605634,
      "eval_recall": 0.8346333853354134,
      "eval_runtime": 1439.2432,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 64
    },
    {
      "epoch": 0.004864745337952384,
      "grad_norm": 1.8932548761367798,
      "learning_rate": 0.00012128388432514599,
      "loss": 0.1574,
      "step": 66
    },
    {
      "epoch": 0.005012161863344881,
      "grad_norm": 31.92827606201172,
      "learning_rate": 0.00012128387751697984,
      "loss": 0.2239,
      "step": 68
    },
    {
      "epoch": 0.005159578388737377,
      "grad_norm": 57.11052703857422,
      "learning_rate": 0.00012128387050558512,
      "loss": 1.4278,
      "step": 70
    },
    {
      "epoch": 0.005306994914129874,
      "grad_norm": 0.45575767755508423,
      "learning_rate": 0.00012128386329096184,
      "loss": 2.7855,
      "step": 72
    },
    {
      "epoch": 0.00545441143952237,
      "grad_norm": 71.60086059570312,
      "learning_rate": 0.00012128385587311005,
      "loss": 1.4066,
      "step": 74
    },
    {
      "epoch": 0.005601827964914867,
      "grad_norm": 0.1034606546163559,
      "learning_rate": 0.00012128384825202977,
      "loss": 2.1198,
      "step": 76
    },
    {
      "epoch": 0.005749244490307364,
      "grad_norm": 0.3067642152309418,
      "learning_rate": 0.00012128384042772098,
      "loss": 0.0126,
      "step": 78
    },
    {
      "epoch": 0.00589666101569986,
      "grad_norm": 63.32870101928711,
      "learning_rate": 0.00012128383240018376,
      "loss": 1.4007,
      "step": 80
    },
    {
      "epoch": 0.00589666101569986,
      "eval_1_ratio_diff": 0.04130943102104445,
      "eval_accuracy": 0.7653936087295401,
      "eval_f1": 0.7745318352059926,
      "eval_loss": 1.208424687385559,
      "eval_precision": 0.7449567723342939,
      "eval_recall": 0.8065522620904836,
      "eval_runtime": 1438.9869,
      "eval_samples_per_second": 0.892,
      "eval_steps_per_second": 0.446,
      "step": 80
    },
    {
      "epoch": 0.006044077541092357,
      "grad_norm": 0.002626498695462942,
      "learning_rate": 0.00012128382416941812,
      "loss": 0.003,
      "step": 82
    },
    {
      "epoch": 0.006191494066484853,
      "grad_norm": 78.83605194091797,
      "learning_rate": 0.00012128381573542408,
      "loss": 1.7103,
      "step": 84
    },
    {
      "epoch": 0.00633891059187735,
      "grad_norm": 0.04237201437354088,
      "learning_rate": 0.00012128380709820168,
      "loss": 0.0184,
      "step": 86
    },
    {
      "epoch": 0.006486327117269846,
      "grad_norm": 57.11608123779297,
      "learning_rate": 0.00012128379825775094,
      "loss": 0.3886,
      "step": 88
    },
    {
      "epoch": 0.006633743642662343,
      "grad_norm": 71.66314697265625,
      "learning_rate": 0.00012128378921407189,
      "loss": 1.0122,
      "step": 90
    },
    {
      "epoch": 0.006781160168054839,
      "grad_norm": 60.63711166381836,
      "learning_rate": 0.00012128377996716456,
      "loss": 2.2072,
      "step": 92
    },
    {
      "epoch": 0.006928576693447336,
      "grad_norm": 64.88410186767578,
      "learning_rate": 0.00012128377051702896,
      "loss": 1.7641,
      "step": 94
    },
    {
      "epoch": 0.007075993218839832,
      "grad_norm": 15.290694236755371,
      "learning_rate": 0.00012128376086366519,
      "loss": 0.2084,
      "step": 96
    },
    {
      "epoch": 0.007075993218839832,
      "eval_1_ratio_diff": -0.07794232268121593,
      "eval_accuracy": 0.764614185502728,
      "eval_f1": 0.7445008460236887,
      "eval_loss": 0.6278901100158691,
      "eval_precision": 0.8133086876155268,
      "eval_recall": 0.6864274570982839,
      "eval_runtime": 1439.7986,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 96
    },
    {
      "epoch": 0.007223409744232329,
      "grad_norm": 4.278674125671387,
      "learning_rate": 0.00012128375100707322,
      "loss": 0.0205,
      "step": 98
    },
    {
      "epoch": 0.007370826269624825,
      "grad_norm": 12.730552673339844,
      "learning_rate": 0.00012128374094725308,
      "loss": 0.0596,
      "step": 100
    },
    {
      "epoch": 0.007518242795017322,
      "grad_norm": 0.03387758880853653,
      "learning_rate": 0.00012128373068420486,
      "loss": 1.1734,
      "step": 102
    },
    {
      "epoch": 0.007665659320409818,
      "grad_norm": 0.002689527813345194,
      "learning_rate": 0.00012128372021792852,
      "loss": 0.016,
      "step": 104
    },
    {
      "epoch": 0.007813075845802315,
      "grad_norm": 46.29806900024414,
      "learning_rate": 0.00012128370954842415,
      "loss": 3.8453,
      "step": 106
    },
    {
      "epoch": 0.00796049237119481,
      "grad_norm": 65.56766510009766,
      "learning_rate": 0.00012128369867569178,
      "loss": 3.0592,
      "step": 108
    },
    {
      "epoch": 0.008107908896587307,
      "grad_norm": 67.830322265625,
      "learning_rate": 0.00012128368759973141,
      "loss": 1.5232,
      "step": 110
    },
    {
      "epoch": 0.008255325421979804,
      "grad_norm": 1.828292965888977,
      "learning_rate": 0.00012128367632054312,
      "loss": 0.899,
      "step": 112
    },
    {
      "epoch": 0.008255325421979804,
      "eval_1_ratio_diff": -0.24707716289945442,
      "eval_accuracy": 0.6952455183164459,
      "eval_f1": 0.5948186528497409,
      "eval_loss": 1.2687604427337646,
      "eval_precision": 0.8858024691358025,
      "eval_recall": 0.44773790951638065,
      "eval_runtime": 1440.6646,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 112
    },
    {
      "epoch": 0.0084027419473723,
      "grad_norm": 2.445478916168213,
      "learning_rate": 0.00012128366483812693,
      "loss": 1.3983,
      "step": 114
    },
    {
      "epoch": 0.008550158472764796,
      "grad_norm": 0.8839952349662781,
      "learning_rate": 0.00012128365315248287,
      "loss": 2.515,
      "step": 116
    },
    {
      "epoch": 0.008697574998157294,
      "grad_norm": 20.67784881591797,
      "learning_rate": 0.000121283641263611,
      "loss": 1.5722,
      "step": 118
    },
    {
      "epoch": 0.00884499152354979,
      "grad_norm": 1.1078622341156006,
      "learning_rate": 0.00012128362917151136,
      "loss": 0.0058,
      "step": 120
    },
    {
      "epoch": 0.008992408048942286,
      "grad_norm": 52.540367126464844,
      "learning_rate": 0.00012128361687618396,
      "loss": 2.8601,
      "step": 122
    },
    {
      "epoch": 0.009139824574334782,
      "grad_norm": 40.01364517211914,
      "learning_rate": 0.00012128360437762885,
      "loss": 0.6845,
      "step": 124
    },
    {
      "epoch": 0.00928724109972728,
      "grad_norm": 4.011626243591309,
      "learning_rate": 0.00012128359167584609,
      "loss": 0.6806,
      "step": 126
    },
    {
      "epoch": 0.009434657625119776,
      "grad_norm": 12.99624252319336,
      "learning_rate": 0.00012128357877083573,
      "loss": 0.8965,
      "step": 128
    },
    {
      "epoch": 0.009434657625119776,
      "eval_1_ratio_diff": 0.33982852689010135,
      "eval_accuracy": 0.6492595479345284,
      "eval_f1": 0.7380675203725262,
      "eval_loss": 0.9785400629043579,
      "eval_precision": 0.5886722376973074,
      "eval_recall": 0.9890795631825273,
      "eval_runtime": 1440.0679,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 128
    },
    {
      "epoch": 0.009582074150512272,
      "grad_norm": 34.23851013183594,
      "learning_rate": 0.00012128356566259777,
      "loss": 0.3434,
      "step": 130
    },
    {
      "epoch": 0.009729490675904768,
      "grad_norm": 66.7353286743164,
      "learning_rate": 0.0001212835523511323,
      "loss": 0.475,
      "step": 132
    },
    {
      "epoch": 0.009876907201297266,
      "grad_norm": 56.82964324951172,
      "learning_rate": 0.00012128353883643935,
      "loss": 0.7709,
      "step": 134
    },
    {
      "epoch": 0.010024323726689762,
      "grad_norm": 34.38500213623047,
      "learning_rate": 0.00012128352511851894,
      "loss": 0.7302,
      "step": 136
    },
    {
      "epoch": 0.010171740252082258,
      "grad_norm": 106.88589477539062,
      "learning_rate": 0.00012128351119737116,
      "loss": 1.332,
      "step": 138
    },
    {
      "epoch": 0.010319156777474754,
      "grad_norm": 85.7337875366211,
      "learning_rate": 0.00012128349707299602,
      "loss": 1.6342,
      "step": 140
    },
    {
      "epoch": 0.010466573302867252,
      "grad_norm": 4.05411958694458,
      "learning_rate": 0.00012128348274539358,
      "loss": 0.0673,
      "step": 142
    },
    {
      "epoch": 0.010613989828259748,
      "grad_norm": 2.334378719329834,
      "learning_rate": 0.0001212834682145639,
      "loss": 0.0332,
      "step": 144
    },
    {
      "epoch": 0.010613989828259748,
      "eval_1_ratio_diff": -0.2346063912704599,
      "eval_accuracy": 0.7014809041309431,
      "eval_f1": 0.6095820591233435,
      "eval_loss": 1.218570351600647,
      "eval_precision": 0.8794117647058823,
      "eval_recall": 0.4664586583463339,
      "eval_runtime": 1440.6194,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 144
    },
    {
      "epoch": 0.010761406353652244,
      "grad_norm": 1.3649911880493164,
      "learning_rate": 0.00012128345348050701,
      "loss": 0.985,
      "step": 146
    },
    {
      "epoch": 0.01090882287904474,
      "grad_norm": 6.569690227508545,
      "learning_rate": 0.00012128343854322297,
      "loss": 0.0316,
      "step": 148
    },
    {
      "epoch": 0.011056239404437238,
      "grad_norm": 50.96843719482422,
      "learning_rate": 0.00012128342340271183,
      "loss": 2.5112,
      "step": 150
    },
    {
      "epoch": 0.011203655929829734,
      "grad_norm": 46.42570877075195,
      "learning_rate": 0.00012128340805897364,
      "loss": 2.5907,
      "step": 152
    },
    {
      "epoch": 0.01135107245522223,
      "grad_norm": 35.919315338134766,
      "learning_rate": 0.00012128339251200845,
      "loss": 0.5731,
      "step": 154
    },
    {
      "epoch": 0.011498488980614728,
      "grad_norm": 0.33857831358909607,
      "learning_rate": 0.0001212833767618163,
      "loss": 0.0029,
      "step": 156
    },
    {
      "epoch": 0.011645905506007224,
      "grad_norm": 0.6119909286499023,
      "learning_rate": 0.00012128336080839724,
      "loss": 0.0036,
      "step": 158
    },
    {
      "epoch": 0.01179332203139972,
      "grad_norm": 34.078514099121094,
      "learning_rate": 0.00012128334465175136,
      "loss": 3.0454,
      "step": 160
    },
    {
      "epoch": 0.01179332203139972,
      "eval_1_ratio_diff": -0.05222135619641466,
      "eval_accuracy": 0.8106001558846454,
      "eval_f1": 0.8,
      "eval_loss": 0.9759823083877563,
      "eval_precision": 0.8466898954703833,
      "eval_recall": 0.7581903276131046,
      "eval_runtime": 1440.5068,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 160
    },
    {
      "epoch": 0.011940738556792216,
      "grad_norm": 0.10960781574249268,
      "learning_rate": 0.0001212833282918787,
      "loss": 0.0036,
      "step": 162
    },
    {
      "epoch": 0.012088155082184714,
      "grad_norm": 0.12220565974712372,
      "learning_rate": 0.0001212833117287793,
      "loss": 0.0025,
      "step": 164
    },
    {
      "epoch": 0.01223557160757721,
      "grad_norm": 127.77825164794922,
      "learning_rate": 0.00012128329496245321,
      "loss": 2.7251,
      "step": 166
    },
    {
      "epoch": 0.012382988132969706,
      "grad_norm": 65.698486328125,
      "learning_rate": 0.0001212832779929005,
      "loss": 0.4867,
      "step": 168
    },
    {
      "epoch": 0.012530404658362202,
      "grad_norm": 37.85614013671875,
      "learning_rate": 0.00012128326082012124,
      "loss": 0.2097,
      "step": 170
    },
    {
      "epoch": 0.0126778211837547,
      "grad_norm": 12.939319610595703,
      "learning_rate": 0.00012128324344411546,
      "loss": 1.4561,
      "step": 172
    },
    {
      "epoch": 0.012825237709147196,
      "grad_norm": 81.24678039550781,
      "learning_rate": 0.00012128322586488326,
      "loss": 1.1304,
      "step": 174
    },
    {
      "epoch": 0.012972654234539692,
      "grad_norm": 58.61750030517578,
      "learning_rate": 0.00012128320808242463,
      "loss": 0.9005,
      "step": 176
    },
    {
      "epoch": 0.012972654234539692,
      "eval_1_ratio_diff": 0.2533125487139517,
      "eval_accuracy": 0.7186282151208107,
      "eval_f1": 0.7753578095830741,
      "eval_loss": 0.8996144533157349,
      "eval_precision": 0.644927536231884,
      "eval_recall": 0.9719188767550702,
      "eval_runtime": 1439.76,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 176
    },
    {
      "epoch": 0.013120070759932188,
      "grad_norm": 60.69062805175781,
      "learning_rate": 0.00012128319009673968,
      "loss": 1.4957,
      "step": 178
    },
    {
      "epoch": 0.013267487285324685,
      "grad_norm": 6.7324652671813965,
      "learning_rate": 0.00012128317190782848,
      "loss": 0.2882,
      "step": 180
    },
    {
      "epoch": 0.013414903810717181,
      "grad_norm": 0.18422821164131165,
      "learning_rate": 0.00012128315351569106,
      "loss": 0.5841,
      "step": 182
    },
    {
      "epoch": 0.013562320336109678,
      "grad_norm": 106.35135650634766,
      "learning_rate": 0.00012128313492032748,
      "loss": 1.3522,
      "step": 184
    },
    {
      "epoch": 0.013709736861502174,
      "grad_norm": 35.63379669189453,
      "learning_rate": 0.00012128311612173782,
      "loss": 1.237,
      "step": 186
    },
    {
      "epoch": 0.013857153386894671,
      "grad_norm": 83.5736312866211,
      "learning_rate": 0.00012128309711992214,
      "loss": 1.3351,
      "step": 188
    },
    {
      "epoch": 0.014004569912287167,
      "grad_norm": 97.8160400390625,
      "learning_rate": 0.0001212830779148805,
      "loss": 1.6019,
      "step": 190
    },
    {
      "epoch": 0.014151986437679663,
      "grad_norm": 2.5867555141448975,
      "learning_rate": 0.00012128305850661298,
      "loss": 0.0897,
      "step": 192
    },
    {
      "epoch": 0.014151986437679663,
      "eval_1_ratio_diff": 0.24863600935307872,
      "eval_accuracy": 0.7295401402961809,
      "eval_f1": 0.783260462211118,
      "eval_loss": 1.138918161392212,
      "eval_precision": 0.653125,
      "eval_recall": 0.9781591263650546,
      "eval_runtime": 1440.7407,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 192
    },
    {
      "epoch": 0.014299402963072161,
      "grad_norm": 71.02184295654297,
      "learning_rate": 0.00012128303889511963,
      "loss": 1.3708,
      "step": 194
    },
    {
      "epoch": 0.014446819488464657,
      "grad_norm": 0.5830493569374084,
      "learning_rate": 0.0001212830190804005,
      "loss": 3.0855,
      "step": 196
    },
    {
      "epoch": 0.014594236013857153,
      "grad_norm": 63.9030876159668,
      "learning_rate": 0.00012128299906245568,
      "loss": 1.6675,
      "step": 198
    },
    {
      "epoch": 0.01474165253924965,
      "grad_norm": 0.18025726079940796,
      "learning_rate": 0.00012128297884128523,
      "loss": 0.1379,
      "step": 200
    },
    {
      "epoch": 0.014889069064642147,
      "grad_norm": 0.8397954702377319,
      "learning_rate": 0.00012128295841688921,
      "loss": 1.528,
      "step": 202
    },
    {
      "epoch": 0.015036485590034643,
      "grad_norm": 78.28919219970703,
      "learning_rate": 0.0001212829377892677,
      "loss": 1.2677,
      "step": 204
    },
    {
      "epoch": 0.01518390211542714,
      "grad_norm": 5.996486186981201,
      "learning_rate": 0.00012128291695842078,
      "loss": 1.205,
      "step": 206
    },
    {
      "epoch": 0.015331318640819635,
      "grad_norm": 1.2115447521209717,
      "learning_rate": 0.0001212828959243485,
      "loss": 0.0076,
      "step": 208
    },
    {
      "epoch": 0.015331318640819635,
      "eval_1_ratio_diff": 0.03351519875292286,
      "eval_accuracy": 0.8402182385035074,
      "eval_f1": 0.8452830188679246,
      "eval_loss": 0.5696436166763306,
      "eval_precision": 0.8187134502923976,
      "eval_recall": 0.8736349453978159,
      "eval_runtime": 1440.7431,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 208
    },
    {
      "epoch": 0.015478735166212133,
      "grad_norm": 41.47733688354492,
      "learning_rate": 0.00012128287468705092,
      "loss": 1.0424,
      "step": 210
    },
    {
      "epoch": 0.01562615169160463,
      "grad_norm": 13.133481979370117,
      "learning_rate": 0.00012128285324652816,
      "loss": 0.0602,
      "step": 212
    },
    {
      "epoch": 0.015773568216997127,
      "grad_norm": 14.336326599121094,
      "learning_rate": 0.00012128283160278022,
      "loss": 0.0887,
      "step": 214
    },
    {
      "epoch": 0.01592098474238962,
      "grad_norm": 2.6840479373931885,
      "learning_rate": 0.00012128280975580723,
      "loss": 0.0105,
      "step": 216
    },
    {
      "epoch": 0.01606840126778212,
      "grad_norm": 0.026224393397569656,
      "learning_rate": 0.00012128278770560924,
      "loss": 0.0006,
      "step": 218
    },
    {
      "epoch": 0.016215817793174613,
      "grad_norm": 0.0356808602809906,
      "learning_rate": 0.00012128276545218633,
      "loss": 1.6274,
      "step": 220
    },
    {
      "epoch": 0.01636323431856711,
      "grad_norm": 0.03703249245882034,
      "learning_rate": 0.00012128274299553858,
      "loss": 1.6564,
      "step": 222
    },
    {
      "epoch": 0.01651065084395961,
      "grad_norm": 0.23091621696949005,
      "learning_rate": 0.00012128272033566606,
      "loss": 0.0017,
      "step": 224
    },
    {
      "epoch": 0.01651065084395961,
      "eval_1_ratio_diff": 0.10210444271239283,
      "eval_accuracy": 0.8106001558846454,
      "eval_f1": 0.8280254777070064,
      "eval_loss": 1.4256943464279175,
      "eval_precision": 0.7577720207253886,
      "eval_recall": 0.9126365054602185,
      "eval_runtime": 1440.6468,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 224
    },
    {
      "epoch": 0.016658067369352103,
      "grad_norm": 0.2899627983570099,
      "learning_rate": 0.00012128269747256883,
      "loss": 0.0048,
      "step": 226
    },
    {
      "epoch": 0.0168054838947446,
      "grad_norm": 138.98680114746094,
      "learning_rate": 0.00012128267440624699,
      "loss": 7.0607,
      "step": 228
    },
    {
      "epoch": 0.0169529004201371,
      "grad_norm": 64.21833801269531,
      "learning_rate": 0.0001212826511367006,
      "loss": 2.4323,
      "step": 230
    },
    {
      "epoch": 0.017100316945529593,
      "grad_norm": 69.21852111816406,
      "learning_rate": 0.00012128262766392974,
      "loss": 3.8941,
      "step": 232
    },
    {
      "epoch": 0.01724773347092209,
      "grad_norm": 0.6788825988769531,
      "learning_rate": 0.00012128260398793452,
      "loss": 0.0033,
      "step": 234
    },
    {
      "epoch": 0.01739514999631459,
      "grad_norm": 0.5503783822059631,
      "learning_rate": 0.000121282580108715,
      "loss": 0.0089,
      "step": 236
    },
    {
      "epoch": 0.017542566521707083,
      "grad_norm": 1.4736528396606445,
      "learning_rate": 0.00012128255602627122,
      "loss": 0.6923,
      "step": 238
    },
    {
      "epoch": 0.01768998304709958,
      "grad_norm": 0.052145253866910934,
      "learning_rate": 0.0001212825317406033,
      "loss": 0.003,
      "step": 240
    },
    {
      "epoch": 0.01768998304709958,
      "eval_1_ratio_diff": 0.05689789555728764,
      "eval_accuracy": 0.8667186282151208,
      "eval_f1": 0.8738007380073801,
      "eval_loss": 0.5649486184120178,
      "eval_precision": 0.8291316526610645,
      "eval_recall": 0.9235569422776911,
      "eval_runtime": 1440.858,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.446,
      "step": 240
    },
    {
      "epoch": 0.017837399572492075,
      "grad_norm": 33.907466888427734,
      "learning_rate": 0.00012128250725171133,
      "loss": 1.0754,
      "step": 242
    },
    {
      "epoch": 0.017984816097884573,
      "grad_norm": 1.5523881912231445,
      "learning_rate": 0.00012128248255959539,
      "loss": 2.2872,
      "step": 244
    },
    {
      "epoch": 0.01813223262327707,
      "grad_norm": 0.45814594626426697,
      "learning_rate": 0.00012128245766425553,
      "loss": 0.0082,
      "step": 246
    },
    {
      "epoch": 0.018279649148669565,
      "grad_norm": 63.94032669067383,
      "learning_rate": 0.00012128243256569185,
      "loss": 1.7641,
      "step": 248
    },
    {
      "epoch": 0.018427065674062063,
      "grad_norm": 0.17571286857128143,
      "learning_rate": 0.00012128240726390445,
      "loss": 0.0017,
      "step": 250
    },
    {
      "epoch": 0.01857448219945456,
      "grad_norm": 0.08677598834037781,
      "learning_rate": 0.0001212823817588934,
      "loss": 2.0446,
      "step": 252
    },
    {
      "epoch": 0.018721898724847055,
      "grad_norm": 0.06298824399709702,
      "learning_rate": 0.00012128235605065879,
      "loss": 0.0031,
      "step": 254
    },
    {
      "epoch": 0.018869315250239552,
      "grad_norm": 0.04490824043750763,
      "learning_rate": 0.00012128233013920071,
      "loss": 0.0016,
      "step": 256
    },
    {
      "epoch": 0.018869315250239552,
      "eval_1_ratio_diff": 0.26032735775526106,
      "eval_accuracy": 0.7272018706157444,
      "eval_f1": 0.7834158415841584,
      "eval_loss": 1.7306467294692993,
      "eval_precision": 0.6492307692307693,
      "eval_recall": 0.9875195007800313,
      "eval_runtime": 1441.1243,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 256
    },
    {
      "epoch": 0.019016731775632047,
      "grad_norm": 64.88382720947266,
      "learning_rate": 0.00012128230402451925,
      "loss": 1.4818,
      "step": 258
    },
    {
      "epoch": 0.019164148301024544,
      "grad_norm": 0.04304850101470947,
      "learning_rate": 0.00012128227770661447,
      "loss": 0.0006,
      "step": 260
    },
    {
      "epoch": 0.019311564826417042,
      "grad_norm": 99.55477142333984,
      "learning_rate": 0.00012128225118548648,
      "loss": 1.3041,
      "step": 262
    },
    {
      "epoch": 0.019458981351809537,
      "grad_norm": 64.24674987792969,
      "learning_rate": 0.00012128222446113537,
      "loss": 3.4221,
      "step": 264
    },
    {
      "epoch": 0.019606397877202034,
      "grad_norm": 1.130561351776123,
      "learning_rate": 0.00012128219753356123,
      "loss": 0.0047,
      "step": 266
    },
    {
      "epoch": 0.019753814402594532,
      "grad_norm": 60.320674896240234,
      "learning_rate": 0.00012128217040276413,
      "loss": 0.7215,
      "step": 268
    },
    {
      "epoch": 0.019901230927987026,
      "grad_norm": 56.348636627197266,
      "learning_rate": 0.0001212821430687442,
      "loss": 3.0486,
      "step": 270
    },
    {
      "epoch": 0.020048647453379524,
      "grad_norm": 4.682687759399414,
      "learning_rate": 0.0001212821155315015,
      "loss": 0.0195,
      "step": 272
    },
    {
      "epoch": 0.020048647453379524,
      "eval_1_ratio_diff": -0.07170693686671864,
      "eval_accuracy": 0.8035853468433359,
      "eval_f1": 0.788235294117647,
      "eval_loss": 0.7957486510276794,
      "eval_precision": 0.8542805100182149,
      "eval_recall": 0.7316692667706708,
      "eval_runtime": 1438.4097,
      "eval_samples_per_second": 0.892,
      "eval_steps_per_second": 0.446,
      "step": 272
    },
    {
      "epoch": 0.020196063978772022,
      "grad_norm": 0.11813419312238693,
      "learning_rate": 0.00012128208779103613,
      "loss": 0.1104,
      "step": 274
    },
    {
      "epoch": 0.020343480504164516,
      "grad_norm": 61.332427978515625,
      "learning_rate": 0.0001212820598473482,
      "loss": 0.8622,
      "step": 276
    },
    {
      "epoch": 0.020490897029557014,
      "grad_norm": 9.628612518310547,
      "learning_rate": 0.00012128203170043776,
      "loss": 0.0682,
      "step": 278
    },
    {
      "epoch": 0.02063831355494951,
      "grad_norm": 59.6220703125,
      "learning_rate": 0.00012128200335030495,
      "loss": 0.7833,
      "step": 280
    },
    {
      "epoch": 0.020785730080342006,
      "grad_norm": 1.084692358970642,
      "learning_rate": 0.00012128197479694983,
      "loss": 1.5881,
      "step": 282
    },
    {
      "epoch": 0.020933146605734504,
      "grad_norm": 0.44916099309921265,
      "learning_rate": 0.00012128194604037253,
      "loss": 0.0187,
      "step": 284
    },
    {
      "epoch": 0.021080563131126998,
      "grad_norm": 0.11146622151136398,
      "learning_rate": 0.00012128191708057311,
      "loss": 0.0025,
      "step": 286
    },
    {
      "epoch": 0.021227979656519496,
      "grad_norm": 0.05726571008563042,
      "learning_rate": 0.00012128188791755172,
      "loss": 0.0004,
      "step": 288
    },
    {
      "epoch": 0.021227979656519496,
      "eval_1_ratio_diff": 0.09119251753702262,
      "eval_accuracy": 0.8277474668745128,
      "eval_f1": 0.8420300214438885,
      "eval_loss": 1.1355745792388916,
      "eval_precision": 0.7770448548812665,
      "eval_recall": 0.9188767550702028,
      "eval_runtime": 1440.4727,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 288
    },
    {
      "epoch": 0.021375396181911994,
      "grad_norm": 63.95652770996094,
      "learning_rate": 0.0001212818585513084,
      "loss": 2.2186,
      "step": 290
    },
    {
      "epoch": 0.021522812707304488,
      "grad_norm": 0.041420936584472656,
      "learning_rate": 0.00012128182898184326,
      "loss": 2.2755,
      "step": 292
    },
    {
      "epoch": 0.021670229232696986,
      "grad_norm": 0.19315005838871002,
      "learning_rate": 0.00012128179920915643,
      "loss": 1.7156,
      "step": 294
    },
    {
      "epoch": 0.02181764575808948,
      "grad_norm": 0.06642986834049225,
      "learning_rate": 0.00012128176923324799,
      "loss": 0.0021,
      "step": 296
    },
    {
      "epoch": 0.021965062283481978,
      "grad_norm": 0.22619064152240753,
      "learning_rate": 0.00012128173905411805,
      "loss": 1.2636,
      "step": 298
    },
    {
      "epoch": 0.022112478808874476,
      "grad_norm": 0.30320611596107483,
      "learning_rate": 0.00012128170867176669,
      "loss": 0.0031,
      "step": 300
    },
    {
      "epoch": 0.02225989533426697,
      "grad_norm": 62.3597412109375,
      "learning_rate": 0.00012128167808619403,
      "loss": 1.3432,
      "step": 302
    },
    {
      "epoch": 0.022407311859659468,
      "grad_norm": 63.980323791503906,
      "learning_rate": 0.00012128164729740015,
      "loss": 0.8526,
      "step": 304
    },
    {
      "epoch": 0.022407311859659468,
      "eval_1_ratio_diff": 0.15354637568199536,
      "eval_accuracy": 0.8028059236165238,
      "eval_f1": 0.8289384719405003,
      "eval_loss": 0.781088650226593,
      "eval_precision": 0.7315035799522673,
      "eval_recall": 0.9563182527301092,
      "eval_runtime": 1439.8087,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 304
    },
    {
      "epoch": 0.022554728385051966,
      "grad_norm": 0.5441477298736572,
      "learning_rate": 0.0001212816163053852,
      "loss": 0.023,
      "step": 306
    },
    {
      "epoch": 0.02270214491044446,
      "grad_norm": 60.2026252746582,
      "learning_rate": 0.00012128158511014924,
      "loss": 0.4811,
      "step": 308
    },
    {
      "epoch": 0.022849561435836958,
      "grad_norm": 3.5183231830596924,
      "learning_rate": 0.00012128155371169238,
      "loss": 0.0164,
      "step": 310
    },
    {
      "epoch": 0.022996977961229455,
      "grad_norm": 49.883365631103516,
      "learning_rate": 0.00012128152211001475,
      "loss": 2.6559,
      "step": 312
    },
    {
      "epoch": 0.02314439448662195,
      "grad_norm": 0.21442897617816925,
      "learning_rate": 0.00012128149030511643,
      "loss": 1.0737,
      "step": 314
    },
    {
      "epoch": 0.023291811012014448,
      "grad_norm": 66.95639038085938,
      "learning_rate": 0.00012128145829699753,
      "loss": 2.2649,
      "step": 316
    },
    {
      "epoch": 0.023439227537406942,
      "grad_norm": 41.275150299072266,
      "learning_rate": 0.00012128142608565818,
      "loss": 1.4307,
      "step": 318
    },
    {
      "epoch": 0.02358664406279944,
      "grad_norm": 60.39665603637695,
      "learning_rate": 0.00012128139367109845,
      "loss": 0.8912,
      "step": 320
    },
    {
      "epoch": 0.02358664406279944,
      "eval_1_ratio_diff": 0.15666406858924398,
      "eval_accuracy": 0.7903351519875292,
      "eval_f1": 0.8186109238031019,
      "eval_loss": 0.6988638043403625,
      "eval_precision": 0.7209026128266033,
      "eval_recall": 0.9469578783151326,
      "eval_runtime": 1440.1147,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 320
    },
    {
      "epoch": 0.023734060588191937,
      "grad_norm": 0.26957735419273376,
      "learning_rate": 0.0001212813610533185,
      "loss": 0.0109,
      "step": 322
    },
    {
      "epoch": 0.02388147711358443,
      "grad_norm": 1.1442532539367676,
      "learning_rate": 0.00012128132823231837,
      "loss": 0.8164,
      "step": 324
    },
    {
      "epoch": 0.02402889363897693,
      "grad_norm": 2.7633121013641357,
      "learning_rate": 0.00012128129520809825,
      "loss": 0.0146,
      "step": 326
    },
    {
      "epoch": 0.024176310164369427,
      "grad_norm": 103.85281372070312,
      "learning_rate": 0.00012128126198065819,
      "loss": 2.8926,
      "step": 328
    },
    {
      "epoch": 0.02432372668976192,
      "grad_norm": 4.870635032653809,
      "learning_rate": 0.00012128122854999832,
      "loss": 0.0289,
      "step": 330
    },
    {
      "epoch": 0.02447114321515442,
      "grad_norm": 0.17178401350975037,
      "learning_rate": 0.00012128119491611876,
      "loss": 0.7425,
      "step": 332
    },
    {
      "epoch": 0.024618559740546914,
      "grad_norm": 37.24171447753906,
      "learning_rate": 0.00012128116107901961,
      "loss": 3.577,
      "step": 334
    },
    {
      "epoch": 0.02476597626593941,
      "grad_norm": 12.520587921142578,
      "learning_rate": 0.00012128112703870099,
      "loss": 0.0673,
      "step": 336
    },
    {
      "epoch": 0.02476597626593941,
      "eval_1_ratio_diff": -0.025720966484801266,
      "eval_accuracy": 0.857365549493375,
      "eval_f1": 0.8534827862289832,
      "eval_loss": 0.4316674470901489,
      "eval_precision": 0.8766447368421053,
      "eval_recall": 0.8315132605304212,
      "eval_runtime": 1440.3285,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 336
    },
    {
      "epoch": 0.02491339279133191,
      "grad_norm": 41.28479766845703,
      "learning_rate": 0.00012128109279516303,
      "loss": 0.2896,
      "step": 338
    },
    {
      "epoch": 0.025060809316724404,
      "grad_norm": 6.806232452392578,
      "learning_rate": 0.00012128105834840581,
      "loss": 0.0378,
      "step": 340
    },
    {
      "epoch": 0.0252082258421169,
      "grad_norm": 2.091874361038208,
      "learning_rate": 0.00012128102369842947,
      "loss": 0.0118,
      "step": 342
    },
    {
      "epoch": 0.0253556423675094,
      "grad_norm": 57.055580139160156,
      "learning_rate": 0.00012128098884523412,
      "loss": 0.6633,
      "step": 344
    },
    {
      "epoch": 0.025503058892901893,
      "grad_norm": 59.19140625,
      "learning_rate": 0.00012128095378881987,
      "loss": 0.4166,
      "step": 346
    },
    {
      "epoch": 0.02565047541829439,
      "grad_norm": 0.08690566569566727,
      "learning_rate": 0.00012128091852918686,
      "loss": 0.0041,
      "step": 348
    },
    {
      "epoch": 0.02579789194368689,
      "grad_norm": 0.4953851103782654,
      "learning_rate": 0.00012128088306633519,
      "loss": 0.0058,
      "step": 350
    },
    {
      "epoch": 0.025945308469079383,
      "grad_norm": 0.8310350179672241,
      "learning_rate": 0.00012128084740026497,
      "loss": 0.0115,
      "step": 352
    },
    {
      "epoch": 0.025945308469079383,
      "eval_1_ratio_diff": -0.05455962587685115,
      "eval_accuracy": 0.8659392049883087,
      "eval_f1": 0.858085808580858,
      "eval_loss": 0.6554389595985413,
      "eval_precision": 0.9106830122591943,
      "eval_recall": 0.8112324492979719,
      "eval_runtime": 1441.1917,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 352
    },
    {
      "epoch": 0.02609272499447188,
      "grad_norm": 75.97391510009766,
      "learning_rate": 0.00012128081153097633,
      "loss": 1.0946,
      "step": 354
    },
    {
      "epoch": 0.026240141519864375,
      "grad_norm": 0.1318621188402176,
      "learning_rate": 0.0001212807754584694,
      "loss": 0.0013,
      "step": 356
    },
    {
      "epoch": 0.026387558045256873,
      "grad_norm": 0.07249584794044495,
      "learning_rate": 0.0001212807391827443,
      "loss": 0.2854,
      "step": 358
    },
    {
      "epoch": 0.02653497457064937,
      "grad_norm": 23.931421279907227,
      "learning_rate": 0.00012128070270380113,
      "loss": 0.0587,
      "step": 360
    },
    {
      "epoch": 0.026682391096041865,
      "grad_norm": 228.77931213378906,
      "learning_rate": 0.00012128066602164004,
      "loss": 0.6358,
      "step": 362
    },
    {
      "epoch": 0.026829807621434363,
      "grad_norm": 0.020578529685735703,
      "learning_rate": 0.00012128062913626113,
      "loss": 0.0003,
      "step": 364
    },
    {
      "epoch": 0.02697722414682686,
      "grad_norm": 0.044141389429569244,
      "learning_rate": 0.00012128059204766453,
      "loss": 0.0003,
      "step": 366
    },
    {
      "epoch": 0.027124640672219355,
      "grad_norm": 35.83491516113281,
      "learning_rate": 0.00012128055475585035,
      "loss": 2.1523,
      "step": 368
    },
    {
      "epoch": 0.027124640672219355,
      "eval_1_ratio_diff": -0.044427123928293066,
      "eval_accuracy": 0.8604832424006236,
      "eval_f1": 0.8538775510204082,
      "eval_loss": 1.1068644523620605,
      "eval_precision": 0.8955479452054794,
      "eval_recall": 0.8159126365054602,
      "eval_runtime": 1440.348,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 368
    },
    {
      "epoch": 0.027272057197611853,
      "grad_norm": 0.004144140053540468,
      "learning_rate": 0.00012128051726081876,
      "loss": 0.0,
      "step": 370
    },
    {
      "epoch": 0.027419473723004347,
      "grad_norm": 0.0015425934689119458,
      "learning_rate": 0.00012128047956256984,
      "loss": 0.0002,
      "step": 372
    },
    {
      "epoch": 0.027566890248396845,
      "grad_norm": 36.42764663696289,
      "learning_rate": 0.00012128044166110374,
      "loss": 2.8486,
      "step": 374
    },
    {
      "epoch": 0.027714306773789343,
      "grad_norm": 0.6206398010253906,
      "learning_rate": 0.00012128040355642058,
      "loss": 2.924,
      "step": 376
    },
    {
      "epoch": 0.027861723299181837,
      "grad_norm": 97.60330963134766,
      "learning_rate": 0.00012128036524852049,
      "loss": 1.9209,
      "step": 378
    },
    {
      "epoch": 0.028009139824574335,
      "grad_norm": 2.1615848541259766,
      "learning_rate": 0.0001212803267374036,
      "loss": 0.0215,
      "step": 380
    },
    {
      "epoch": 0.028156556349966833,
      "grad_norm": 41.35491180419922,
      "learning_rate": 0.00012128028802307003,
      "loss": 0.8105,
      "step": 382
    },
    {
      "epoch": 0.028303972875359327,
      "grad_norm": 39.422916412353516,
      "learning_rate": 0.00012128024910551992,
      "loss": 1.131,
      "step": 384
    },
    {
      "epoch": 0.028303972875359327,
      "eval_1_ratio_diff": -0.3904910366328917,
      "eval_accuracy": 0.5876851130163678,
      "eval_f1": 0.322663252240717,
      "eval_loss": 1.1657379865646362,
      "eval_precision": 0.9,
      "eval_recall": 0.19656786271450857,
      "eval_runtime": 1441.4939,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 384
    },
    {
      "epoch": 0.028451389400751825,
      "grad_norm": 1.7290548086166382,
      "learning_rate": 0.0001212802099847534,
      "loss": 0.0986,
      "step": 386
    },
    {
      "epoch": 0.028598805926144322,
      "grad_norm": 40.167484283447266,
      "learning_rate": 0.00012128017066077058,
      "loss": 1.1352,
      "step": 388
    },
    {
      "epoch": 0.028746222451536817,
      "grad_norm": 36.6862678527832,
      "learning_rate": 0.00012128013113357162,
      "loss": 2.6405,
      "step": 390
    },
    {
      "epoch": 0.028893638976929314,
      "grad_norm": 1.1684958934783936,
      "learning_rate": 0.00012128009140315665,
      "loss": 1.1565,
      "step": 392
    },
    {
      "epoch": 0.02904105550232181,
      "grad_norm": 28.306957244873047,
      "learning_rate": 0.00012128005146952578,
      "loss": 1.6548,
      "step": 394
    },
    {
      "epoch": 0.029188472027714307,
      "grad_norm": 18.64267349243164,
      "learning_rate": 0.00012128001133267917,
      "loss": 1.1205,
      "step": 396
    },
    {
      "epoch": 0.029335888553106804,
      "grad_norm": 7.279528617858887,
      "learning_rate": 0.00012127997099261693,
      "loss": 0.6742,
      "step": 398
    },
    {
      "epoch": 0.0294833050784993,
      "grad_norm": 41.569854736328125,
      "learning_rate": 0.00012127993044933921,
      "loss": 0.6977,
      "step": 400
    },
    {
      "epoch": 0.0294833050784993,
      "eval_1_ratio_diff": -0.2704598597038192,
      "eval_accuracy": 0.6344505066250974,
      "eval_f1": 0.4983957219251337,
      "eval_loss": 0.6263108849525452,
      "eval_precision": 0.7925170068027211,
      "eval_recall": 0.36349453978159124,
      "eval_runtime": 1441.3891,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 400
    },
    {
      "epoch": 0.029630721603891796,
      "grad_norm": 14.647398948669434,
      "learning_rate": 0.00012127988970284616,
      "loss": 0.4508,
      "step": 402
    },
    {
      "epoch": 0.029778138129284294,
      "grad_norm": 21.75971221923828,
      "learning_rate": 0.00012127984875313788,
      "loss": 0.6282,
      "step": 404
    },
    {
      "epoch": 0.02992555465467679,
      "grad_norm": 32.292236328125,
      "learning_rate": 0.00012127980760021456,
      "loss": 1.0279,
      "step": 406
    },
    {
      "epoch": 0.030072971180069286,
      "grad_norm": 59.10111999511719,
      "learning_rate": 0.00012127976624407626,
      "loss": 1.7322,
      "step": 408
    },
    {
      "epoch": 0.03022038770546178,
      "grad_norm": 56.45620346069336,
      "learning_rate": 0.00012127972468472319,
      "loss": 2.3399,
      "step": 410
    },
    {
      "epoch": 0.03036780423085428,
      "grad_norm": 33.3152961730957,
      "learning_rate": 0.00012127968292215546,
      "loss": 1.1374,
      "step": 412
    },
    {
      "epoch": 0.030515220756246776,
      "grad_norm": 9.003528594970703,
      "learning_rate": 0.00012127964095637322,
      "loss": 0.531,
      "step": 414
    },
    {
      "epoch": 0.03066263728163927,
      "grad_norm": 11.181624412536621,
      "learning_rate": 0.00012127959878737659,
      "loss": 0.167,
      "step": 416
    },
    {
      "epoch": 0.03066263728163927,
      "eval_1_ratio_diff": -0.49961028838659394,
      "eval_accuracy": 0.5003897116134061,
      "eval_f1": 0.0,
      "eval_loss": 0.9164891839027405,
      "eval_precision": 0.0,
      "eval_recall": 0.0,
      "eval_runtime": 1441.9045,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 416
    },
    {
      "epoch": 0.030810053807031768,
      "grad_norm": 81.1378173828125,
      "learning_rate": 0.00012127955641516573,
      "loss": 1.5427,
      "step": 418
    },
    {
      "epoch": 0.030957470332424266,
      "grad_norm": 40.89067840576172,
      "learning_rate": 0.00012127951383974079,
      "loss": 0.8105,
      "step": 420
    },
    {
      "epoch": 0.03110488685781676,
      "grad_norm": 0.7650836706161499,
      "learning_rate": 0.00012127947106110188,
      "loss": 0.8716,
      "step": 422
    },
    {
      "epoch": 0.03125230338320926,
      "grad_norm": 41.49223709106445,
      "learning_rate": 0.00012127942807924917,
      "loss": 3.4998,
      "step": 424
    },
    {
      "epoch": 0.031399719908601756,
      "grad_norm": 0.12294773012399673,
      "learning_rate": 0.00012127938489418281,
      "loss": 1.8698,
      "step": 426
    },
    {
      "epoch": 0.031547136433994254,
      "grad_norm": 35.12305450439453,
      "learning_rate": 0.00012127934150590295,
      "loss": 1.6532,
      "step": 428
    },
    {
      "epoch": 0.031694552959386744,
      "grad_norm": 27.799177169799805,
      "learning_rate": 0.00012127929791440968,
      "loss": 0.5514,
      "step": 430
    },
    {
      "epoch": 0.03184196948477924,
      "grad_norm": 24.18194580078125,
      "learning_rate": 0.00012127925411970319,
      "loss": 0.6588,
      "step": 432
    },
    {
      "epoch": 0.03184196948477924,
      "eval_1_ratio_diff": 0.0615744349181605,
      "eval_accuracy": 0.8074824629773967,
      "eval_f1": 0.8185157972079353,
      "eval_loss": 0.46238815784454346,
      "eval_precision": 0.7736111111111111,
      "eval_recall": 0.8689547581903276,
      "eval_runtime": 1441.3065,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 432
    },
    {
      "epoch": 0.03198938601017174,
      "grad_norm": 39.476436614990234,
      "learning_rate": 0.00012127921012178362,
      "loss": 0.5056,
      "step": 434
    },
    {
      "epoch": 0.03213680253556424,
      "grad_norm": 17.45188331604004,
      "learning_rate": 0.00012127916592065112,
      "loss": 1.9197,
      "step": 436
    },
    {
      "epoch": 0.032284219060956736,
      "grad_norm": 37.614906311035156,
      "learning_rate": 0.00012127912151630586,
      "loss": 1.4371,
      "step": 438
    },
    {
      "epoch": 0.032431635586349226,
      "grad_norm": 6.937824726104736,
      "learning_rate": 0.00012127907690874794,
      "loss": 0.1527,
      "step": 440
    },
    {
      "epoch": 0.032579052111741724,
      "grad_norm": 1.9573392868041992,
      "learning_rate": 0.00012127903209797754,
      "loss": 0.0619,
      "step": 442
    },
    {
      "epoch": 0.03272646863713422,
      "grad_norm": 5.234042167663574,
      "learning_rate": 0.00012127898708399481,
      "loss": 0.0308,
      "step": 444
    },
    {
      "epoch": 0.03287388516252672,
      "grad_norm": 19.76664161682129,
      "learning_rate": 0.00012127894186679988,
      "loss": 2.5914,
      "step": 446
    },
    {
      "epoch": 0.03302130168791922,
      "grad_norm": 48.643428802490234,
      "learning_rate": 0.00012127889644639293,
      "loss": 3.5738,
      "step": 448
    },
    {
      "epoch": 0.03302130168791922,
      "eval_1_ratio_diff": -0.4964925954793453,
      "eval_accuracy": 0.5035074045206547,
      "eval_f1": 0.012403100775193798,
      "eval_loss": 2.0848419666290283,
      "eval_precision": 1.0,
      "eval_recall": 0.0062402496099844,
      "eval_runtime": 1441.7896,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 448
    },
    {
      "epoch": 0.033168718213311715,
      "grad_norm": 41.91992950439453,
      "learning_rate": 0.0001212788508227741,
      "loss": 3.656,
      "step": 450
    },
    {
      "epoch": 0.033316134738704206,
      "grad_norm": 58.21712112426758,
      "learning_rate": 0.00012127880499594355,
      "loss": 2.5973,
      "step": 452
    },
    {
      "epoch": 0.033463551264096704,
      "grad_norm": 14.196877479553223,
      "learning_rate": 0.00012127875896590141,
      "loss": 0.9817,
      "step": 454
    },
    {
      "epoch": 0.0336109677894892,
      "grad_norm": 21.982349395751953,
      "learning_rate": 0.00012127871273264783,
      "loss": 0.6516,
      "step": 456
    },
    {
      "epoch": 0.0337583843148817,
      "grad_norm": 26.360563278198242,
      "learning_rate": 0.00012127866629618302,
      "loss": 0.5606,
      "step": 458
    },
    {
      "epoch": 0.0339058008402742,
      "grad_norm": 15.224770545959473,
      "learning_rate": 0.00012127861965650708,
      "loss": 0.4791,
      "step": 460
    },
    {
      "epoch": 0.03405321736566669,
      "grad_norm": 40.95515441894531,
      "learning_rate": 0.0001212785728136202,
      "loss": 0.8481,
      "step": 462
    },
    {
      "epoch": 0.034200633891059186,
      "grad_norm": 0.4365566670894623,
      "learning_rate": 0.00012127852576752252,
      "loss": 0.2475,
      "step": 464
    },
    {
      "epoch": 0.034200633891059186,
      "eval_1_ratio_diff": 0.2938425565081839,
      "eval_accuracy": 0.6890101325019485,
      "eval_f1": 0.759493670886076,
      "eval_loss": 0.8622868061065674,
      "eval_precision": 0.618860510805501,
      "eval_recall": 0.982839313572543,
      "eval_runtime": 1441.2401,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 464
    },
    {
      "epoch": 0.034348050416451684,
      "grad_norm": 15.40101432800293,
      "learning_rate": 0.0001212784785182142,
      "loss": 0.6156,
      "step": 466
    },
    {
      "epoch": 0.03449546694184418,
      "grad_norm": 5.0568013191223145,
      "learning_rate": 0.00012127843106569541,
      "loss": 0.4877,
      "step": 468
    },
    {
      "epoch": 0.03464288346723668,
      "grad_norm": 0.277358740568161,
      "learning_rate": 0.00012127838340996629,
      "loss": 0.6857,
      "step": 470
    },
    {
      "epoch": 0.03479029999262918,
      "grad_norm": 0.04443424195051193,
      "learning_rate": 0.00012127833555102701,
      "loss": 0.0286,
      "step": 472
    },
    {
      "epoch": 0.03493771651802167,
      "grad_norm": 35.34669876098633,
      "learning_rate": 0.00012127828748887773,
      "loss": 1.7842,
      "step": 474
    },
    {
      "epoch": 0.035085133043414166,
      "grad_norm": 0.08662135899066925,
      "learning_rate": 0.00012127823922351861,
      "loss": 0.0011,
      "step": 476
    },
    {
      "epoch": 0.03523254956880666,
      "grad_norm": 0.021065138280391693,
      "learning_rate": 0.00012127819075494979,
      "loss": 0.0013,
      "step": 478
    },
    {
      "epoch": 0.03537996609419916,
      "grad_norm": 39.31500244140625,
      "learning_rate": 0.00012127814208317148,
      "loss": 1.3799,
      "step": 480
    },
    {
      "epoch": 0.03537996609419916,
      "eval_1_ratio_diff": 0.03975058456742009,
      "eval_accuracy": 0.838659392049883,
      "eval_f1": 0.8447111777944486,
      "eval_loss": 0.967132568359375,
      "eval_precision": 0.8135838150289018,
      "eval_recall": 0.8783151326053042,
      "eval_runtime": 1441.5685,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 480
    },
    {
      "epoch": 0.03552738261959166,
      "grad_norm": 0.021114541217684746,
      "learning_rate": 0.0001212780932081838,
      "loss": 0.0022,
      "step": 482
    },
    {
      "epoch": 0.03567479914498415,
      "grad_norm": 0.15021076798439026,
      "learning_rate": 0.00012127804412998695,
      "loss": 0.0023,
      "step": 484
    },
    {
      "epoch": 0.03582221567037665,
      "grad_norm": 0.017235957086086273,
      "learning_rate": 0.00012127799484858106,
      "loss": 0.0157,
      "step": 486
    },
    {
      "epoch": 0.035969632195769145,
      "grad_norm": 0.07619292289018631,
      "learning_rate": 0.00012127794536396632,
      "loss": 0.0006,
      "step": 488
    },
    {
      "epoch": 0.03611704872116164,
      "grad_norm": 0.35548681020736694,
      "learning_rate": 0.0001212778956761429,
      "loss": 0.0025,
      "step": 490
    },
    {
      "epoch": 0.03626446524655414,
      "grad_norm": 0.019310960546135902,
      "learning_rate": 0.00012127784578511092,
      "loss": 0.0006,
      "step": 492
    },
    {
      "epoch": 0.03641188177194664,
      "grad_norm": 0.0059149437583982944,
      "learning_rate": 0.00012127779569087061,
      "loss": 0.0222,
      "step": 494
    },
    {
      "epoch": 0.03655929829733913,
      "grad_norm": 0.0023440527729690075,
      "learning_rate": 0.00012127774539342209,
      "loss": 2.0713,
      "step": 496
    },
    {
      "epoch": 0.03655929829733913,
      "eval_1_ratio_diff": 0.0615744349181605,
      "eval_accuracy": 0.848012470771629,
      "eval_f1": 0.8567229977957385,
      "eval_loss": 1.1258606910705566,
      "eval_precision": 0.8097222222222222,
      "eval_recall": 0.9095163806552262,
      "eval_runtime": 1442.1776,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 496
    },
    {
      "epoch": 0.03670671482273163,
      "grad_norm": 0.4357898235321045,
      "learning_rate": 0.00012127769489276555,
      "loss": 0.0017,
      "step": 498
    },
    {
      "epoch": 0.036854131348124125,
      "grad_norm": 0.0051942430436611176,
      "learning_rate": 0.00012127764418890117,
      "loss": 0.0001,
      "step": 500
    },
    {
      "epoch": 0.03700154787351662,
      "grad_norm": 0.048877667635679245,
      "learning_rate": 0.0001212775932818291,
      "loss": 1.0276,
      "step": 502
    },
    {
      "epoch": 0.03714896439890912,
      "grad_norm": 0.030356034636497498,
      "learning_rate": 0.00012127754217154949,
      "loss": 2.3301,
      "step": 504
    },
    {
      "epoch": 0.03729638092430161,
      "grad_norm": 0.06719710677862167,
      "learning_rate": 0.00012127749085806257,
      "loss": 0.0008,
      "step": 506
    },
    {
      "epoch": 0.03744379744969411,
      "grad_norm": 0.8071137070655823,
      "learning_rate": 0.00012127743934136846,
      "loss": 0.0034,
      "step": 508
    },
    {
      "epoch": 0.03759121397508661,
      "grad_norm": 66.58085632324219,
      "learning_rate": 0.00012127738762146735,
      "loss": 2.0918,
      "step": 510
    },
    {
      "epoch": 0.037738630500479105,
      "grad_norm": 0.5617576241493225,
      "learning_rate": 0.00012127733569835943,
      "loss": 0.004,
      "step": 512
    },
    {
      "epoch": 0.037738630500479105,
      "eval_1_ratio_diff": 0.13795791114575218,
      "eval_accuracy": 0.8152766952455183,
      "eval_f1": 0.8375599725839616,
      "eval_loss": 1.003125548362732,
      "eval_precision": 0.7469437652811736,
      "eval_recall": 0.953198127925117,
      "eval_runtime": 1441.8288,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 512
    },
    {
      "epoch": 0.0378860470258716,
      "grad_norm": 0.019583938643336296,
      "learning_rate": 0.00012127728357204487,
      "loss": 0.0029,
      "step": 514
    },
    {
      "epoch": 0.03803346355126409,
      "grad_norm": 66.44640350341797,
      "learning_rate": 0.00012127723124252383,
      "loss": 1.346,
      "step": 516
    },
    {
      "epoch": 0.03818088007665659,
      "grad_norm": 0.05073532462120056,
      "learning_rate": 0.00012127717870979647,
      "loss": 1.726,
      "step": 518
    },
    {
      "epoch": 0.03832829660204909,
      "grad_norm": 0.008476372808218002,
      "learning_rate": 0.000121277125973863,
      "loss": 0.0002,
      "step": 520
    },
    {
      "epoch": 0.03847571312744159,
      "grad_norm": 78.07063293457031,
      "learning_rate": 0.00012127707303472356,
      "loss": 3.8118,
      "step": 522
    },
    {
      "epoch": 0.038623129652834085,
      "grad_norm": 37.921451568603516,
      "learning_rate": 0.00012127701989237836,
      "loss": 3.374,
      "step": 524
    },
    {
      "epoch": 0.03877054617822658,
      "grad_norm": 38.97615432739258,
      "learning_rate": 0.0001212769665468276,
      "loss": 1.849,
      "step": 526
    },
    {
      "epoch": 0.03891796270361907,
      "grad_norm": 1.3990278244018555,
      "learning_rate": 0.0001212769129980714,
      "loss": 0.2307,
      "step": 528
    },
    {
      "epoch": 0.03891796270361907,
      "eval_1_ratio_diff": -0.002338269680436489,
      "eval_accuracy": 0.8511301636788776,
      "eval_f1": 0.8506645817044566,
      "eval_loss": 0.5836467742919922,
      "eval_precision": 0.8526645768025078,
      "eval_recall": 0.8486739469578783,
      "eval_runtime": 1442.6344,
      "eval_samples_per_second": 0.889,
      "eval_steps_per_second": 0.445,
      "step": 528
    },
    {
      "epoch": 0.03906537922901157,
      "grad_norm": 0.5216283798217773,
      "learning_rate": 0.00012127685924610997,
      "loss": 0.0092,
      "step": 530
    },
    {
      "epoch": 0.03921279575440407,
      "grad_norm": 0.716465950012207,
      "learning_rate": 0.00012127680529094349,
      "loss": 0.0057,
      "step": 532
    },
    {
      "epoch": 0.039360212279796566,
      "grad_norm": 0.17090915143489838,
      "learning_rate": 0.00012127675113257214,
      "loss": 0.0031,
      "step": 534
    },
    {
      "epoch": 0.039507628805189064,
      "grad_norm": 62.14753723144531,
      "learning_rate": 0.00012127669677099608,
      "loss": 1.6501,
      "step": 536
    },
    {
      "epoch": 0.039655045330581555,
      "grad_norm": 35.18620681762695,
      "learning_rate": 0.00012127664220621553,
      "loss": 0.8287,
      "step": 538
    },
    {
      "epoch": 0.03980246185597405,
      "grad_norm": 34.50994873046875,
      "learning_rate": 0.00012127658743823064,
      "loss": 2.5161,
      "step": 540
    },
    {
      "epoch": 0.03994987838136655,
      "grad_norm": 0.9479020237922668,
      "learning_rate": 0.00012127653246704162,
      "loss": 0.0155,
      "step": 542
    },
    {
      "epoch": 0.04009729490675905,
      "grad_norm": 0.040624819695949554,
      "learning_rate": 0.00012127647729264862,
      "loss": 1.536,
      "step": 544
    },
    {
      "epoch": 0.04009729490675905,
      "eval_1_ratio_diff": -0.008573655494933774,
      "eval_accuracy": 0.8791893998441154,
      "eval_f1": 0.8780487804878049,
      "eval_loss": 0.49514248967170715,
      "eval_precision": 0.8857142857142857,
      "eval_recall": 0.8705148205928237,
      "eval_runtime": 1441.6693,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 544
    },
    {
      "epoch": 0.040244711432151546,
      "grad_norm": 0.08040345460176468,
      "learning_rate": 0.00012127642191505187,
      "loss": 0.0205,
      "step": 546
    },
    {
      "epoch": 0.040392127957544044,
      "grad_norm": 58.783809661865234,
      "learning_rate": 0.00012127636633425152,
      "loss": 1.1192,
      "step": 548
    },
    {
      "epoch": 0.040539544482936535,
      "grad_norm": 0.25617870688438416,
      "learning_rate": 0.00012127631055024779,
      "loss": 1.0263,
      "step": 550
    },
    {
      "epoch": 0.04068696100832903,
      "grad_norm": 46.056339263916016,
      "learning_rate": 0.00012127625456304081,
      "loss": 1.1183,
      "step": 552
    },
    {
      "epoch": 0.04083437753372153,
      "grad_norm": 0.17480018734931946,
      "learning_rate": 0.00012127619837263082,
      "loss": 0.0055,
      "step": 554
    },
    {
      "epoch": 0.04098179405911403,
      "grad_norm": 0.37528491020202637,
      "learning_rate": 0.000121276141979018,
      "loss": 0.0032,
      "step": 556
    },
    {
      "epoch": 0.041129210584506526,
      "grad_norm": 0.35542991757392883,
      "learning_rate": 0.00012127608538220252,
      "loss": 0.9512,
      "step": 558
    },
    {
      "epoch": 0.04127662710989902,
      "grad_norm": 0.08831676840782166,
      "learning_rate": 0.00012127602858218457,
      "loss": 0.0184,
      "step": 560
    },
    {
      "epoch": 0.04127662710989902,
      "eval_1_ratio_diff": 0.12860483242400622,
      "eval_accuracy": 0.8402182385035074,
      "eval_f1": 0.8583275742916379,
      "eval_loss": 1.0018821954727173,
      "eval_precision": 0.7704714640198511,
      "eval_recall": 0.968798751950078,
      "eval_runtime": 1442.4789,
      "eval_samples_per_second": 0.889,
      "eval_steps_per_second": 0.445,
      "step": 560
    },
    {
      "epoch": 0.041424043635291515,
      "grad_norm": 46.25735092163086,
      "learning_rate": 0.00012127597157896437,
      "loss": 0.6495,
      "step": 562
    },
    {
      "epoch": 0.04157146016068401,
      "grad_norm": 58.521575927734375,
      "learning_rate": 0.00012127591437254209,
      "loss": 1.4757,
      "step": 564
    },
    {
      "epoch": 0.04171887668607651,
      "grad_norm": 0.3296540379524231,
      "learning_rate": 0.0001212758569629179,
      "loss": 2.2725,
      "step": 566
    },
    {
      "epoch": 0.04186629321146901,
      "grad_norm": 0.03395453095436096,
      "learning_rate": 0.00012127579935009204,
      "loss": 0.0006,
      "step": 568
    },
    {
      "epoch": 0.042013709736861506,
      "grad_norm": 0.02328958362340927,
      "learning_rate": 0.00012127574153406467,
      "loss": 0.0004,
      "step": 570
    },
    {
      "epoch": 0.042161126262253996,
      "grad_norm": 58.99131774902344,
      "learning_rate": 0.000121275683514836,
      "loss": 2.0081,
      "step": 572
    },
    {
      "epoch": 0.042308542787646494,
      "grad_norm": 0.9085908532142639,
      "learning_rate": 0.0001212756252924062,
      "loss": 0.006,
      "step": 574
    },
    {
      "epoch": 0.04245595931303899,
      "grad_norm": 0.5718927383422852,
      "learning_rate": 0.00012127556686677549,
      "loss": 2.0144,
      "step": 576
    },
    {
      "epoch": 0.04245595931303899,
      "eval_1_ratio_diff": 0.22291504286827746,
      "eval_accuracy": 0.7443491816056118,
      "eval_f1": 0.7908163265306123,
      "eval_loss": 0.9025093913078308,
      "eval_precision": 0.668824163969795,
      "eval_recall": 0.9672386895475819,
      "eval_runtime": 1442.0314,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 576
    },
    {
      "epoch": 0.04260337583843149,
      "grad_norm": 0.4269089698791504,
      "learning_rate": 0.00012127550823794406,
      "loss": 1.8595,
      "step": 578
    },
    {
      "epoch": 0.04275079236382399,
      "grad_norm": 1.5817714929580688,
      "learning_rate": 0.00012127544940591211,
      "loss": 0.4153,
      "step": 580
    },
    {
      "epoch": 0.04289820888921648,
      "grad_norm": 56.673728942871094,
      "learning_rate": 0.00012127539037067981,
      "loss": 1.8132,
      "step": 582
    },
    {
      "epoch": 0.043045625414608976,
      "grad_norm": 4.291464805603027,
      "learning_rate": 0.0001212753311322474,
      "loss": 0.3818,
      "step": 584
    },
    {
      "epoch": 0.043193041940001474,
      "grad_norm": 18.92963981628418,
      "learning_rate": 0.00012127527169061505,
      "loss": 0.0941,
      "step": 586
    },
    {
      "epoch": 0.04334045846539397,
      "grad_norm": 27.108686447143555,
      "learning_rate": 0.00012127521204578297,
      "loss": 0.1314,
      "step": 588
    },
    {
      "epoch": 0.04348787499078647,
      "grad_norm": 33.73942184448242,
      "learning_rate": 0.00012127515219775134,
      "loss": 0.1772,
      "step": 590
    },
    {
      "epoch": 0.04363529151617896,
      "grad_norm": 52.08650588989258,
      "learning_rate": 0.00012127509214652041,
      "loss": 0.4505,
      "step": 592
    },
    {
      "epoch": 0.04363529151617896,
      "eval_1_ratio_diff": -0.1184723304754482,
      "eval_accuracy": 0.798908807482463,
      "eval_f1": 0.7716814159292036,
      "eval_loss": 0.7536761164665222,
      "eval_precision": 0.8916155419222904,
      "eval_recall": 0.6801872074882995,
      "eval_runtime": 1442.1268,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 592
    },
    {
      "epoch": 0.04378270804157146,
      "grad_norm": 0.05625031143426895,
      "learning_rate": 0.00012127503189209032,
      "loss": 0.3175,
      "step": 594
    },
    {
      "epoch": 0.043930124566963956,
      "grad_norm": 0.10953383892774582,
      "learning_rate": 0.0001212749714344613,
      "loss": 0.0059,
      "step": 596
    },
    {
      "epoch": 0.044077541092356454,
      "grad_norm": 71.34505462646484,
      "learning_rate": 0.00012127491077363357,
      "loss": 0.5113,
      "step": 598
    },
    {
      "epoch": 0.04422495761774895,
      "grad_norm": 0.012292311526834965,
      "learning_rate": 0.00012127484990960732,
      "loss": 0.0008,
      "step": 600
    },
    {
      "epoch": 0.04437237414314145,
      "grad_norm": 0.010139914229512215,
      "learning_rate": 0.00012127478884238274,
      "loss": 0.0002,
      "step": 602
    },
    {
      "epoch": 0.04451979066853394,
      "grad_norm": 58.99741744995117,
      "learning_rate": 0.00012127472757196004,
      "loss": 3.6273,
      "step": 604
    },
    {
      "epoch": 0.04466720719392644,
      "grad_norm": 56.25634765625,
      "learning_rate": 0.00012127466609833943,
      "loss": 3.663,
      "step": 606
    },
    {
      "epoch": 0.044814623719318936,
      "grad_norm": 56.98939895629883,
      "learning_rate": 0.00012127460442152114,
      "loss": 1.6247,
      "step": 608
    },
    {
      "epoch": 0.044814623719318936,
      "eval_1_ratio_diff": -0.03273577552611068,
      "eval_accuracy": 0.8456742010911925,
      "eval_f1": 0.8403225806451613,
      "eval_loss": 0.6838305592536926,
      "eval_precision": 0.8697829716193656,
      "eval_recall": 0.8127925117004681,
      "eval_runtime": 1441.7869,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 608
    },
    {
      "epoch": 0.04496204024471143,
      "grad_norm": 41.00777053833008,
      "learning_rate": 0.00012127454254150532,
      "loss": 3.2637,
      "step": 610
    },
    {
      "epoch": 0.04510945677010393,
      "grad_norm": 15.958291053771973,
      "learning_rate": 0.00012127448045829223,
      "loss": 0.0749,
      "step": 612
    },
    {
      "epoch": 0.04525687329549642,
      "grad_norm": 52.62068176269531,
      "learning_rate": 0.00012127441817188204,
      "loss": 1.1452,
      "step": 614
    },
    {
      "epoch": 0.04540428982088892,
      "grad_norm": 0.8104878067970276,
      "learning_rate": 0.00012127435568227499,
      "loss": 0.0086,
      "step": 616
    },
    {
      "epoch": 0.04555170634628142,
      "grad_norm": 6.7712883949279785,
      "learning_rate": 0.00012127429298947129,
      "loss": 0.035,
      "step": 618
    },
    {
      "epoch": 0.045699122871673915,
      "grad_norm": 1.2900152206420898,
      "learning_rate": 0.00012127423009347112,
      "loss": 0.0133,
      "step": 620
    },
    {
      "epoch": 0.04584653939706641,
      "grad_norm": 0.5468306541442871,
      "learning_rate": 0.00012127416699427471,
      "loss": 0.0066,
      "step": 622
    },
    {
      "epoch": 0.04599395592245891,
      "grad_norm": 0.16869762539863586,
      "learning_rate": 0.00012127410369188226,
      "loss": 0.0026,
      "step": 624
    },
    {
      "epoch": 0.04599395592245891,
      "eval_1_ratio_diff": 0.015588464536243185,
      "eval_accuracy": 0.8862042088854248,
      "eval_f1": 0.8878648233486943,
      "eval_loss": 0.570717990398407,
      "eval_precision": 0.8744326777609682,
      "eval_recall": 0.9017160686427457,
      "eval_runtime": 1441.498,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 624
    },
    {
      "epoch": 0.0461413724478514,
      "grad_norm": 0.20163878798484802,
      "learning_rate": 0.00012127404018629401,
      "loss": 0.0013,
      "step": 626
    },
    {
      "epoch": 0.0462887889732439,
      "grad_norm": 0.1430014669895172,
      "learning_rate": 0.00012127397647751014,
      "loss": 0.0016,
      "step": 628
    },
    {
      "epoch": 0.0464362054986364,
      "grad_norm": 60.50364303588867,
      "learning_rate": 0.00012127391256553088,
      "loss": 1.6526,
      "step": 630
    },
    {
      "epoch": 0.046583622024028895,
      "grad_norm": 0.009336289949715137,
      "learning_rate": 0.00012127384845035646,
      "loss": 0.0005,
      "step": 632
    },
    {
      "epoch": 0.04673103854942139,
      "grad_norm": 0.02924017794430256,
      "learning_rate": 0.00012127378413198706,
      "loss": 2.0099,
      "step": 634
    },
    {
      "epoch": 0.046878455074813884,
      "grad_norm": 0.1369701325893402,
      "learning_rate": 0.00012127371961042292,
      "loss": 1.9002,
      "step": 636
    },
    {
      "epoch": 0.04702587160020638,
      "grad_norm": 77.09698486328125,
      "learning_rate": 0.00012127365488566423,
      "loss": 1.0021,
      "step": 638
    },
    {
      "epoch": 0.04717328812559888,
      "grad_norm": 4.486428260803223,
      "learning_rate": 0.00012127358995771124,
      "loss": 1.8971,
      "step": 640
    },
    {
      "epoch": 0.04717328812559888,
      "eval_1_ratio_diff": -0.17225253312548716,
      "eval_accuracy": 0.7669524551831645,
      "eval_f1": 0.7181903864278982,
      "eval_loss": 1.282883644104004,
      "eval_precision": 0.9071428571428571,
      "eval_recall": 0.594383775351014,
      "eval_runtime": 1441.6631,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 640
    },
    {
      "epoch": 0.04732070465099138,
      "grad_norm": 0.3835877478122711,
      "learning_rate": 0.00012127352482656414,
      "loss": 1.5125,
      "step": 642
    },
    {
      "epoch": 0.047468121176383875,
      "grad_norm": 0.3453172445297241,
      "learning_rate": 0.00012127345949222316,
      "loss": 1.4256,
      "step": 644
    },
    {
      "epoch": 0.04761553770177637,
      "grad_norm": 56.087467193603516,
      "learning_rate": 0.00012127339395468855,
      "loss": 1.389,
      "step": 646
    },
    {
      "epoch": 0.04776295422716886,
      "grad_norm": 39.20930099487305,
      "learning_rate": 0.00012127332821396047,
      "loss": 2.2849,
      "step": 648
    },
    {
      "epoch": 0.04791037075256136,
      "grad_norm": 2.4249165058135986,
      "learning_rate": 0.00012127326227003918,
      "loss": 0.0286,
      "step": 650
    },
    {
      "epoch": 0.04805778727795386,
      "grad_norm": 1.4587557315826416,
      "learning_rate": 0.0001212731961229249,
      "loss": 0.775,
      "step": 652
    },
    {
      "epoch": 0.04820520380334636,
      "grad_norm": 45.33637237548828,
      "learning_rate": 0.00012127312977261783,
      "loss": 0.2852,
      "step": 654
    },
    {
      "epoch": 0.048352620328738855,
      "grad_norm": 0.07065322250127792,
      "learning_rate": 0.0001212730632191182,
      "loss": 0.7127,
      "step": 656
    },
    {
      "epoch": 0.048352620328738855,
      "eval_1_ratio_diff": -0.05455962587685115,
      "eval_accuracy": 0.8487918939984411,
      "eval_f1": 0.8399339933993399,
      "eval_loss": 0.5940015316009521,
      "eval_precision": 0.8914185639229422,
      "eval_recall": 0.7940717628705148,
      "eval_runtime": 1441.517,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 656
    },
    {
      "epoch": 0.048500036854131345,
      "grad_norm": 35.70323181152344,
      "learning_rate": 0.00012127299646242624,
      "loss": 0.6816,
      "step": 658
    },
    {
      "epoch": 0.04864745337952384,
      "grad_norm": 1.4870625734329224,
      "learning_rate": 0.00012127292950254218,
      "loss": 0.1488,
      "step": 660
    },
    {
      "epoch": 0.04879486990491634,
      "grad_norm": 0.6423426866531372,
      "learning_rate": 0.00012127286233946625,
      "loss": 0.0136,
      "step": 662
    },
    {
      "epoch": 0.04894228643030884,
      "grad_norm": 0.3320056200027466,
      "learning_rate": 0.00012127279497319864,
      "loss": 0.0058,
      "step": 664
    },
    {
      "epoch": 0.049089702955701336,
      "grad_norm": 4.33368444442749,
      "learning_rate": 0.00012127272740373959,
      "loss": 0.5196,
      "step": 666
    },
    {
      "epoch": 0.04923711948109383,
      "grad_norm": 71.66387939453125,
      "learning_rate": 0.00012127265963108935,
      "loss": 2.7961,
      "step": 668
    },
    {
      "epoch": 0.049384536006486325,
      "grad_norm": 94.96151733398438,
      "learning_rate": 0.00012127259165524814,
      "loss": 3.8152,
      "step": 670
    },
    {
      "epoch": 0.04953195253187882,
      "grad_norm": 39.40300369262695,
      "learning_rate": 0.00012127252347621616,
      "loss": 1.1659,
      "step": 672
    },
    {
      "epoch": 0.04953195253187882,
      "eval_1_ratio_diff": -0.11301636788776309,
      "eval_accuracy": 0.779423226812159,
      "eval_f1": 0.751099384344767,
      "eval_loss": 1.093988060951233,
      "eval_precision": 0.8608870967741935,
      "eval_recall": 0.6661466458658346,
      "eval_runtime": 1441.6444,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 672
    },
    {
      "epoch": 0.04967936905727132,
      "grad_norm": 142.39564514160156,
      "learning_rate": 0.00012127245509399365,
      "loss": 1.9772,
      "step": 674
    },
    {
      "epoch": 0.04982678558266382,
      "grad_norm": 0.43099793791770935,
      "learning_rate": 0.00012127238650858088,
      "loss": 0.0056,
      "step": 676
    },
    {
      "epoch": 0.049974202108056316,
      "grad_norm": 0.22017613053321838,
      "learning_rate": 0.00012127231771997801,
      "loss": 0.0026,
      "step": 678
    },
    {
      "epoch": 0.05012161863344881,
      "grad_norm": 0.06024312227964401,
      "learning_rate": 0.00012127224872818532,
      "loss": 1.4556,
      "step": 680
    },
    {
      "epoch": 0.050269035158841305,
      "grad_norm": 30.382848739624023,
      "learning_rate": 0.00012127217953320302,
      "loss": 0.959,
      "step": 682
    },
    {
      "epoch": 0.0504164516842338,
      "grad_norm": 0.12178266048431396,
      "learning_rate": 0.00012127211013503136,
      "loss": 0.0025,
      "step": 684
    },
    {
      "epoch": 0.0505638682096263,
      "grad_norm": 0.2670276165008545,
      "learning_rate": 0.00012127204053367056,
      "loss": 0.0059,
      "step": 686
    },
    {
      "epoch": 0.0507112847350188,
      "grad_norm": 0.7420686483383179,
      "learning_rate": 0.00012127197072912085,
      "loss": 0.0205,
      "step": 688
    },
    {
      "epoch": 0.0507112847350188,
      "eval_1_ratio_diff": -0.05300077942322684,
      "eval_accuracy": 0.828526890101325,
      "eval_f1": 0.8187808896210873,
      "eval_loss": 0.5867729783058167,
      "eval_precision": 0.8673647469458988,
      "eval_recall": 0.7753510140405616,
      "eval_runtime": 1441.426,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 688
    },
    {
      "epoch": 0.05085870126041129,
      "grad_norm": 69.81874084472656,
      "learning_rate": 0.00012127190072138247,
      "loss": 0.853,
      "step": 690
    },
    {
      "epoch": 0.05100611778580379,
      "grad_norm": 0.51251220703125,
      "learning_rate": 0.00012127183051045567,
      "loss": 0.037,
      "step": 692
    },
    {
      "epoch": 0.051153534311196285,
      "grad_norm": 32.83553695678711,
      "learning_rate": 0.00012127176009634066,
      "loss": 1.7711,
      "step": 694
    },
    {
      "epoch": 0.05130095083658878,
      "grad_norm": 0.029091738164424896,
      "learning_rate": 0.00012127168947903768,
      "loss": 0.0006,
      "step": 696
    },
    {
      "epoch": 0.05144836736198128,
      "grad_norm": 59.94422912597656,
      "learning_rate": 0.00012127161865854698,
      "loss": 1.6607,
      "step": 698
    },
    {
      "epoch": 0.05159578388737378,
      "grad_norm": 60.350067138671875,
      "learning_rate": 0.00012127154763486877,
      "loss": 2.055,
      "step": 700
    },
    {
      "epoch": 0.05174320041276627,
      "grad_norm": 0.08221148699522018,
      "learning_rate": 0.00012127147640800332,
      "loss": 1.6475,
      "step": 702
    },
    {
      "epoch": 0.051890616938158766,
      "grad_norm": 39.905357360839844,
      "learning_rate": 0.00012127140497795086,
      "loss": 1.2104,
      "step": 704
    },
    {
      "epoch": 0.051890616938158766,
      "eval_1_ratio_diff": -0.0919719407638348,
      "eval_accuracy": 0.8316445830085737,
      "eval_f1": 0.8144329896907216,
      "eval_loss": 0.7349568605422974,
      "eval_precision": 0.9063097514340345,
      "eval_recall": 0.7394695787831513,
      "eval_runtime": 1441.7333,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 704
    },
    {
      "epoch": 0.052038033463551264,
      "grad_norm": 4.226317882537842,
      "learning_rate": 0.00012127133334471161,
      "loss": 0.4275,
      "step": 706
    },
    {
      "epoch": 0.05218544998894376,
      "grad_norm": 0.05035168305039406,
      "learning_rate": 0.00012127126150828585,
      "loss": 1.3166,
      "step": 708
    },
    {
      "epoch": 0.05233286651433626,
      "grad_norm": 0.25760674476623535,
      "learning_rate": 0.00012127118946867378,
      "loss": 0.0081,
      "step": 710
    },
    {
      "epoch": 0.05248028303972875,
      "grad_norm": 36.74332809448242,
      "learning_rate": 0.00012127111722587565,
      "loss": 1.1506,
      "step": 712
    },
    {
      "epoch": 0.05262769956512125,
      "grad_norm": 36.16116714477539,
      "learning_rate": 0.00012127104477989172,
      "loss": 1.2632,
      "step": 714
    },
    {
      "epoch": 0.052775116090513746,
      "grad_norm": 37.083343505859375,
      "learning_rate": 0.00012127097213072223,
      "loss": 1.8408,
      "step": 716
    },
    {
      "epoch": 0.052922532615906244,
      "grad_norm": 3.0497827529907227,
      "learning_rate": 0.0001212708992783674,
      "loss": 0.0247,
      "step": 718
    },
    {
      "epoch": 0.05306994914129874,
      "grad_norm": 4.117802619934082,
      "learning_rate": 0.00012127082622282751,
      "loss": 0.0342,
      "step": 720
    },
    {
      "epoch": 0.05306994914129874,
      "eval_1_ratio_diff": -0.08183943881527672,
      "eval_accuracy": 0.8121590023382697,
      "eval_f1": 0.7952421410365336,
      "eval_loss": 0.5786097645759583,
      "eval_precision": 0.8731343283582089,
      "eval_recall": 0.7301092043681747,
      "eval_runtime": 1442.0276,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 720
    },
    {
      "epoch": 0.05321736566669124,
      "grad_norm": 0.633588969707489,
      "learning_rate": 0.00012127075296410277,
      "loss": 0.0056,
      "step": 722
    },
    {
      "epoch": 0.05336478219208373,
      "grad_norm": 36.505218505859375,
      "learning_rate": 0.00012127067950219344,
      "loss": 0.7263,
      "step": 724
    },
    {
      "epoch": 0.05351219871747623,
      "grad_norm": 0.6716632843017578,
      "learning_rate": 0.00012127060583709976,
      "loss": 0.0045,
      "step": 726
    },
    {
      "epoch": 0.053659615242868726,
      "grad_norm": 36.19940948486328,
      "learning_rate": 0.000121270531968822,
      "loss": 0.377,
      "step": 728
    },
    {
      "epoch": 0.053807031768261224,
      "grad_norm": 81.25736236572266,
      "learning_rate": 0.00012127045789736038,
      "loss": 0.6006,
      "step": 730
    },
    {
      "epoch": 0.05395444829365372,
      "grad_norm": 29.044986724853516,
      "learning_rate": 0.00012127038362271517,
      "loss": 1.1609,
      "step": 732
    },
    {
      "epoch": 0.05410186481904621,
      "grad_norm": 0.1593562811613083,
      "learning_rate": 0.0001212703091448866,
      "loss": 0.0055,
      "step": 734
    },
    {
      "epoch": 0.05424928134443871,
      "grad_norm": 7.988092422485352,
      "learning_rate": 0.00012127023446387492,
      "loss": 0.0238,
      "step": 736
    },
    {
      "epoch": 0.05424928134443871,
      "eval_1_ratio_diff": -0.07092751363990646,
      "eval_accuracy": 0.838659392049883,
      "eval_f1": 0.8261964735516373,
      "eval_loss": 0.6887457370758057,
      "eval_precision": 0.8945454545454545,
      "eval_recall": 0.7675507020280812,
      "eval_runtime": 1441.3319,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 736
    },
    {
      "epoch": 0.05439669786983121,
      "grad_norm": 58.56552505493164,
      "learning_rate": 0.00012127015957968041,
      "loss": 2.3194,
      "step": 738
    },
    {
      "epoch": 0.054544114395223706,
      "grad_norm": 0.37152421474456787,
      "learning_rate": 0.00012127008449230329,
      "loss": 0.0029,
      "step": 740
    },
    {
      "epoch": 0.0546915309206162,
      "grad_norm": 33.52932357788086,
      "learning_rate": 0.00012127000920174381,
      "loss": 1.1549,
      "step": 742
    },
    {
      "epoch": 0.054838947446008694,
      "grad_norm": 0.02616913430392742,
      "learning_rate": 0.00012126993370800224,
      "loss": 0.0021,
      "step": 744
    },
    {
      "epoch": 0.05498636397140119,
      "grad_norm": 36.83317565917969,
      "learning_rate": 0.00012126985801107882,
      "loss": 1.2016,
      "step": 746
    },
    {
      "epoch": 0.05513378049679369,
      "grad_norm": 0.006011671852320433,
      "learning_rate": 0.00012126978211097381,
      "loss": 2.834,
      "step": 748
    },
    {
      "epoch": 0.05528119702218619,
      "grad_norm": 58.966102600097656,
      "learning_rate": 0.00012126970600768747,
      "loss": 2.0661,
      "step": 750
    },
    {
      "epoch": 0.055428613547578685,
      "grad_norm": 57.80133819580078,
      "learning_rate": 0.00012126962970122005,
      "loss": 1.2417,
      "step": 752
    },
    {
      "epoch": 0.055428613547578685,
      "eval_1_ratio_diff": 0.09508963367108336,
      "eval_accuracy": 0.8503507404520655,
      "eval_f1": 0.8632478632478633,
      "eval_loss": 0.7459388375282288,
      "eval_precision": 0.7942332896461337,
      "eval_recall": 0.9453978159126365,
      "eval_runtime": 1440.976,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.446,
      "step": 752
    },
    {
      "epoch": 0.05557603007297118,
      "grad_norm": 0.10538947582244873,
      "learning_rate": 0.00012126955319157181,
      "loss": 1.5568,
      "step": 754
    },
    {
      "epoch": 0.055723446598363674,
      "grad_norm": 0.3577294647693634,
      "learning_rate": 0.000121269476478743,
      "loss": 1.3633,
      "step": 756
    },
    {
      "epoch": 0.05587086312375617,
      "grad_norm": 111.04033660888672,
      "learning_rate": 0.00012126939956273387,
      "loss": 1.5691,
      "step": 758
    },
    {
      "epoch": 0.05601827964914867,
      "grad_norm": 8.450987815856934,
      "learning_rate": 0.00012126932244354469,
      "loss": 0.6036,
      "step": 760
    },
    {
      "epoch": 0.05616569617454117,
      "grad_norm": 6.646569728851318,
      "learning_rate": 0.00012126924512117572,
      "loss": 0.0554,
      "step": 762
    },
    {
      "epoch": 0.056313112699933665,
      "grad_norm": 10.05777359008789,
      "learning_rate": 0.00012126916759562719,
      "loss": 0.0507,
      "step": 764
    },
    {
      "epoch": 0.056460529225326156,
      "grad_norm": 1.5429670810699463,
      "learning_rate": 0.00012126908986689941,
      "loss": 0.5476,
      "step": 766
    },
    {
      "epoch": 0.056607945750718654,
      "grad_norm": 0.7471988201141357,
      "learning_rate": 0.0001212690119349926,
      "loss": 0.0357,
      "step": 768
    },
    {
      "epoch": 0.056607945750718654,
      "eval_1_ratio_diff": -0.03273577552611068,
      "eval_accuracy": 0.8534684333593141,
      "eval_f1": 0.8483870967741935,
      "eval_loss": 0.5041674971580505,
      "eval_precision": 0.8781302170283807,
      "eval_recall": 0.8205928237129485,
      "eval_runtime": 1441.5634,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 768
    },
    {
      "epoch": 0.05675536227611115,
      "grad_norm": 25.423622131347656,
      "learning_rate": 0.00012126893379990705,
      "loss": 0.0991,
      "step": 770
    },
    {
      "epoch": 0.05690277880150365,
      "grad_norm": 8.131854057312012,
      "learning_rate": 0.00012126885546164299,
      "loss": 0.0467,
      "step": 772
    },
    {
      "epoch": 0.05705019532689615,
      "grad_norm": 0.7007619738578796,
      "learning_rate": 0.00012126877692020069,
      "loss": 0.0319,
      "step": 774
    },
    {
      "epoch": 0.057197611852288645,
      "grad_norm": 0.0242279302328825,
      "learning_rate": 0.00012126869817558045,
      "loss": 0.5106,
      "step": 776
    },
    {
      "epoch": 0.057345028377681136,
      "grad_norm": 1.126301646232605,
      "learning_rate": 0.00012126861922778249,
      "loss": 0.0068,
      "step": 778
    },
    {
      "epoch": 0.05749244490307363,
      "grad_norm": 2.2255496978759766,
      "learning_rate": 0.0001212685400768071,
      "loss": 0.0125,
      "step": 780
    },
    {
      "epoch": 0.05763986142846613,
      "grad_norm": 53.08203125,
      "learning_rate": 0.00012126846072265453,
      "loss": 3.4784,
      "step": 782
    },
    {
      "epoch": 0.05778727795385863,
      "grad_norm": 53.75185012817383,
      "learning_rate": 0.00012126838116532506,
      "loss": 5.3382,
      "step": 784
    },
    {
      "epoch": 0.05778727795385863,
      "eval_1_ratio_diff": 0.024162120031176904,
      "eval_accuracy": 0.8074824629773967,
      "eval_f1": 0.8118811881188119,
      "eval_loss": 1.1864495277404785,
      "eval_precision": 0.7931547619047619,
      "eval_recall": 0.8315132605304212,
      "eval_runtime": 1441.6478,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 784
    },
    {
      "epoch": 0.05793469447925113,
      "grad_norm": 20.95121955871582,
      "learning_rate": 0.00012126830140481893,
      "loss": 3.3432,
      "step": 786
    },
    {
      "epoch": 0.05808211100464362,
      "grad_norm": 49.42118453979492,
      "learning_rate": 0.00012126822144113646,
      "loss": 0.762,
      "step": 788
    },
    {
      "epoch": 0.058229527530036115,
      "grad_norm": 16.03618812561035,
      "learning_rate": 0.00012126814127427784,
      "loss": 0.1045,
      "step": 790
    },
    {
      "epoch": 0.05837694405542861,
      "grad_norm": 34.1168212890625,
      "learning_rate": 0.00012126806090424342,
      "loss": 3.1091,
      "step": 792
    },
    {
      "epoch": 0.05852436058082111,
      "grad_norm": 34.757083892822266,
      "learning_rate": 0.00012126798033103342,
      "loss": 2.0632,
      "step": 794
    },
    {
      "epoch": 0.05867177710621361,
      "grad_norm": 1.412405014038086,
      "learning_rate": 0.00012126789955464813,
      "loss": 0.2568,
      "step": 796
    },
    {
      "epoch": 0.058819193631606106,
      "grad_norm": 55.76416015625,
      "learning_rate": 0.00012126781857508779,
      "loss": 0.497,
      "step": 798
    },
    {
      "epoch": 0.0589666101569986,
      "grad_norm": 0.3345389664173126,
      "learning_rate": 0.00012126773739235272,
      "loss": 0.0121,
      "step": 800
    },
    {
      "epoch": 0.0589666101569986,
      "eval_1_ratio_diff": 0.06703039750584561,
      "eval_accuracy": 0.8363211223694466,
      "eval_f1": 0.8464912280701754,
      "eval_loss": 0.7451047897338867,
      "eval_precision": 0.796423658872077,
      "eval_recall": 0.9032761310452418,
      "eval_runtime": 1440.5179,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 800
    },
    {
      "epoch": 0.059114026682391095,
      "grad_norm": 0.15297777950763702,
      "learning_rate": 0.00012126765600644314,
      "loss": 0.0082,
      "step": 802
    },
    {
      "epoch": 0.05926144320778359,
      "grad_norm": 0.19080302119255066,
      "learning_rate": 0.00012126757441735937,
      "loss": 0.0026,
      "step": 804
    },
    {
      "epoch": 0.05940885973317609,
      "grad_norm": 0.43317776918411255,
      "learning_rate": 0.00012126749262510164,
      "loss": 0.0055,
      "step": 806
    },
    {
      "epoch": 0.05955627625856859,
      "grad_norm": 6.4003984334704e-06,
      "learning_rate": 0.00012126741062967027,
      "loss": 0.0031,
      "step": 808
    },
    {
      "epoch": 0.05970369278396108,
      "grad_norm": 0.03450751677155495,
      "learning_rate": 0.00012126732843106551,
      "loss": 0.0052,
      "step": 810
    },
    {
      "epoch": 0.05985110930935358,
      "grad_norm": 52.02117156982422,
      "learning_rate": 0.00012126724602928764,
      "loss": 5.0919,
      "step": 812
    },
    {
      "epoch": 0.059998525834746075,
      "grad_norm": 50.249900817871094,
      "learning_rate": 0.00012126716342433692,
      "loss": 4.0749,
      "step": 814
    },
    {
      "epoch": 0.06014594236013857,
      "grad_norm": 0.0067368014715611935,
      "learning_rate": 0.00012126708061621366,
      "loss": 0.0001,
      "step": 816
    },
    {
      "epoch": 0.06014594236013857,
      "eval_1_ratio_diff": 0.06469212782540923,
      "eval_accuracy": 0.8651597817614964,
      "eval_f1": 0.8732600732600733,
      "eval_loss": 0.9449532628059387,
      "eval_precision": 0.8232044198895028,
      "eval_recall": 0.9297971918876755,
      "eval_runtime": 1440.6727,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 816
    },
    {
      "epoch": 0.06029335888553107,
      "grad_norm": 44.037471771240234,
      "learning_rate": 0.00012126699760491808,
      "loss": 2.1184,
      "step": 818
    },
    {
      "epoch": 0.06044077541092356,
      "grad_norm": 31.20966148376465,
      "learning_rate": 0.00012126691439045052,
      "loss": 2.3532,
      "step": 820
    },
    {
      "epoch": 0.06058819193631606,
      "grad_norm": 1.108382225036621,
      "learning_rate": 0.00012126683097281125,
      "loss": 0.0093,
      "step": 822
    },
    {
      "epoch": 0.06073560846170856,
      "grad_norm": 1.2753050327301025,
      "learning_rate": 0.0001212667473520005,
      "loss": 0.011,
      "step": 824
    },
    {
      "epoch": 0.060883024987101055,
      "grad_norm": 4.512105941772461,
      "learning_rate": 0.00012126666352801861,
      "loss": 0.0212,
      "step": 826
    },
    {
      "epoch": 0.06103044151249355,
      "grad_norm": 0.3488874137401581,
      "learning_rate": 0.00012126657950086582,
      "loss": 1.2435,
      "step": 828
    },
    {
      "epoch": 0.06117785803788605,
      "grad_norm": 0.11297665536403656,
      "learning_rate": 0.00012126649527054243,
      "loss": 0.0027,
      "step": 830
    },
    {
      "epoch": 0.06132527456327854,
      "grad_norm": 0.07631942629814148,
      "learning_rate": 0.00012126641083704874,
      "loss": 0.0032,
      "step": 832
    },
    {
      "epoch": 0.06132527456327854,
      "eval_1_ratio_diff": 0.08885424785658613,
      "eval_accuracy": 0.8799688230709275,
      "eval_f1": 0.8896848137535817,
      "eval_loss": 0.7254036068916321,
      "eval_precision": 0.8225165562913908,
      "eval_recall": 0.968798751950078,
      "eval_runtime": 1440.5593,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 832
    },
    {
      "epoch": 0.06147269108867104,
      "grad_norm": 41.37874984741211,
      "learning_rate": 0.00012126632620038498,
      "loss": 1.3108,
      "step": 834
    },
    {
      "epoch": 0.061620107614063536,
      "grad_norm": 55.71513366699219,
      "learning_rate": 0.00012126624136055149,
      "loss": 1.7068,
      "step": 836
    },
    {
      "epoch": 0.061767524139456034,
      "grad_norm": 1.5174663066864014,
      "learning_rate": 0.0001212661563175485,
      "loss": 0.0173,
      "step": 838
    },
    {
      "epoch": 0.06191494066484853,
      "grad_norm": 0.10353035479784012,
      "learning_rate": 0.00012126607107137636,
      "loss": 1.2081,
      "step": 840
    },
    {
      "epoch": 0.06206235719024102,
      "grad_norm": 0.05997217819094658,
      "learning_rate": 0.00012126598562203531,
      "loss": 1.8296,
      "step": 842
    },
    {
      "epoch": 0.06220977371563352,
      "grad_norm": 0.17887941002845764,
      "learning_rate": 0.00012126589996952563,
      "loss": 0.0016,
      "step": 844
    },
    {
      "epoch": 0.06235719024102602,
      "grad_norm": 0.08932141214609146,
      "learning_rate": 0.00012126581411384764,
      "loss": 1.5849,
      "step": 846
    },
    {
      "epoch": 0.06250460676641852,
      "grad_norm": 41.82356643676758,
      "learning_rate": 0.0001212657280550016,
      "loss": 1.2425,
      "step": 848
    },
    {
      "epoch": 0.06250460676641852,
      "eval_1_ratio_diff": 0.09586905689789549,
      "eval_accuracy": 0.8542478565861262,
      "eval_f1": 0.8669039145907473,
      "eval_loss": 0.6706948280334473,
      "eval_precision": 0.7971204188481675,
      "eval_recall": 0.9500780031201248,
      "eval_runtime": 1441.8264,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 848
    },
    {
      "epoch": 0.06265202329181101,
      "grad_norm": 45.45724105834961,
      "learning_rate": 0.00012126564179298783,
      "loss": 0.7189,
      "step": 850
    },
    {
      "epoch": 0.06279943981720351,
      "grad_norm": 1.7170765399932861,
      "learning_rate": 0.00012126555532780658,
      "loss": 0.014,
      "step": 852
    },
    {
      "epoch": 0.062946856342596,
      "grad_norm": 1.8296376466751099,
      "learning_rate": 0.00012126546865945818,
      "loss": 0.0249,
      "step": 854
    },
    {
      "epoch": 0.06309427286798851,
      "grad_norm": 28.392093658447266,
      "learning_rate": 0.00012126538178794288,
      "loss": 2.1082,
      "step": 856
    },
    {
      "epoch": 0.063241689393381,
      "grad_norm": 0.024955546483397484,
      "learning_rate": 0.00012126529471326101,
      "loss": 0.0026,
      "step": 858
    },
    {
      "epoch": 0.06338910591877349,
      "grad_norm": 29.141136169433594,
      "learning_rate": 0.00012126520743541283,
      "loss": 1.5827,
      "step": 860
    },
    {
      "epoch": 0.063536522444166,
      "grad_norm": 0.3031620383262634,
      "learning_rate": 0.00012126511995439865,
      "loss": 1.4029,
      "step": 862
    },
    {
      "epoch": 0.06368393896955848,
      "grad_norm": 0.2821040451526642,
      "learning_rate": 0.00012126503227021874,
      "loss": 1.3931,
      "step": 864
    },
    {
      "epoch": 0.06368393896955848,
      "eval_1_ratio_diff": -0.04053000779423227,
      "eval_accuracy": 0.8581449727201871,
      "eval_f1": 0.8520325203252033,
      "eval_loss": 0.5900216102600098,
      "eval_precision": 0.8896434634974533,
      "eval_recall": 0.8174726989079563,
      "eval_runtime": 1439.3591,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 864
    },
    {
      "epoch": 0.06383135549495099,
      "grad_norm": 4.8987860679626465,
      "learning_rate": 0.00012126494438287343,
      "loss": 0.0265,
      "step": 866
    },
    {
      "epoch": 0.06397877202034348,
      "grad_norm": 0.27837908267974854,
      "learning_rate": 0.000121264856292363,
      "loss": 0.0093,
      "step": 868
    },
    {
      "epoch": 0.06412618854573597,
      "grad_norm": 0.5379538536071777,
      "learning_rate": 0.00012126476799868773,
      "loss": 0.0095,
      "step": 870
    },
    {
      "epoch": 0.06427360507112848,
      "grad_norm": 23.87804412841797,
      "learning_rate": 0.00012126467950184793,
      "loss": 0.8342,
      "step": 872
    },
    {
      "epoch": 0.06442102159652097,
      "grad_norm": 1.2284973859786987,
      "learning_rate": 0.0001212645908018439,
      "loss": 0.0162,
      "step": 874
    },
    {
      "epoch": 0.06456843812191347,
      "grad_norm": 36.555442810058594,
      "learning_rate": 0.00012126450189867592,
      "loss": 2.2561,
      "step": 876
    },
    {
      "epoch": 0.06471585464730596,
      "grad_norm": 24.54311180114746,
      "learning_rate": 0.00012126441279234432,
      "loss": 3.1743,
      "step": 878
    },
    {
      "epoch": 0.06486327117269845,
      "grad_norm": 0.13615825772285461,
      "learning_rate": 0.00012126432348284936,
      "loss": 0.0021,
      "step": 880
    },
    {
      "epoch": 0.06486327117269845,
      "eval_1_ratio_diff": -0.2899454403741232,
      "eval_accuracy": 0.6975837879968823,
      "eval_f1": 0.5736263736263736,
      "eval_loss": 1.3224732875823975,
      "eval_precision": 0.9702602230483272,
      "eval_recall": 0.40717628705148207,
      "eval_runtime": 1440.3311,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 880
    },
    {
      "epoch": 0.06501068769809096,
      "grad_norm": 3.8478543758392334,
      "learning_rate": 0.00012126423397019136,
      "loss": 0.021,
      "step": 882
    },
    {
      "epoch": 0.06515810422348345,
      "grad_norm": 0.08823257684707642,
      "learning_rate": 0.00012126414425437062,
      "loss": 0.0016,
      "step": 884
    },
    {
      "epoch": 0.06530552074887595,
      "grad_norm": 27.02589988708496,
      "learning_rate": 0.00012126405433538744,
      "loss": 2.9462,
      "step": 886
    },
    {
      "epoch": 0.06545293727426844,
      "grad_norm": 24.244503021240234,
      "learning_rate": 0.00012126396421324212,
      "loss": 0.8423,
      "step": 888
    },
    {
      "epoch": 0.06560035379966095,
      "grad_norm": 0.3652421236038208,
      "learning_rate": 0.00012126387388793495,
      "loss": 0.0081,
      "step": 890
    },
    {
      "epoch": 0.06574777032505344,
      "grad_norm": 22.919225692749023,
      "learning_rate": 0.00012126378335946625,
      "loss": 1.1268,
      "step": 892
    },
    {
      "epoch": 0.06589518685044593,
      "grad_norm": 0.18866397440433502,
      "learning_rate": 0.00012126369262783633,
      "loss": 1.8645,
      "step": 894
    },
    {
      "epoch": 0.06604260337583844,
      "grad_norm": 2.1540791988372803,
      "learning_rate": 0.00012126360169304547,
      "loss": 0.036,
      "step": 896
    },
    {
      "epoch": 0.06604260337583844,
      "eval_1_ratio_diff": 0.017147310989867437,
      "eval_accuracy": 0.8862042088854248,
      "eval_f1": 0.8880368098159509,
      "eval_loss": 0.49060943722724915,
      "eval_precision": 0.8733031674208145,
      "eval_recall": 0.9032761310452418,
      "eval_runtime": 1439.5517,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 896
    },
    {
      "epoch": 0.06619001990123093,
      "grad_norm": 0.7136353850364685,
      "learning_rate": 0.00012126351055509399,
      "loss": 1.4136,
      "step": 898
    },
    {
      "epoch": 0.06633743642662343,
      "grad_norm": 1.6063231229782104,
      "learning_rate": 0.00012126341921398221,
      "loss": 0.0358,
      "step": 900
    },
    {
      "epoch": 0.06648485295201592,
      "grad_norm": 4.673253536224365,
      "learning_rate": 0.00012126332766971038,
      "loss": 0.0494,
      "step": 902
    },
    {
      "epoch": 0.06663226947740841,
      "grad_norm": 0.21607956290245056,
      "learning_rate": 0.00012126323592227886,
      "loss": 0.0053,
      "step": 904
    },
    {
      "epoch": 0.06677968600280092,
      "grad_norm": 32.70335006713867,
      "learning_rate": 0.00012126314397168796,
      "loss": 1.5106,
      "step": 906
    },
    {
      "epoch": 0.06692710252819341,
      "grad_norm": 38.56415557861328,
      "learning_rate": 0.00012126305181793794,
      "loss": 0.8798,
      "step": 908
    },
    {
      "epoch": 0.06707451905358591,
      "grad_norm": 0.018692007288336754,
      "learning_rate": 0.00012126295946102917,
      "loss": 0.0004,
      "step": 910
    },
    {
      "epoch": 0.0672219355789784,
      "grad_norm": 22.49344825744629,
      "learning_rate": 0.00012126286690096191,
      "loss": 0.9364,
      "step": 912
    },
    {
      "epoch": 0.0672219355789784,
      "eval_1_ratio_diff": -0.18706157443491817,
      "eval_accuracy": 0.7802026500389712,
      "eval_f1": 0.7293666026871402,
      "eval_loss": 1.4581658840179443,
      "eval_precision": 0.9476309226932669,
      "eval_recall": 0.592823712948518,
      "eval_runtime": 1440.0947,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 912
    },
    {
      "epoch": 0.0673693521043709,
      "grad_norm": 182.47938537597656,
      "learning_rate": 0.00012126277413773649,
      "loss": 1.0293,
      "step": 914
    },
    {
      "epoch": 0.0675167686297634,
      "grad_norm": 4.0591816902160645,
      "learning_rate": 0.00012126268117135323,
      "loss": 0.0308,
      "step": 916
    },
    {
      "epoch": 0.06766418515515589,
      "grad_norm": 6.380730628967285,
      "learning_rate": 0.00012126258800181242,
      "loss": 1.2327,
      "step": 918
    },
    {
      "epoch": 0.0678116016805484,
      "grad_norm": 31.462488174438477,
      "learning_rate": 0.00012126249462911438,
      "loss": 0.8761,
      "step": 920
    },
    {
      "epoch": 0.06795901820594089,
      "grad_norm": 0.0057801539078354836,
      "learning_rate": 0.00012126240105325944,
      "loss": 0.0077,
      "step": 922
    },
    {
      "epoch": 0.06810643473133338,
      "grad_norm": 1.9855010509490967,
      "learning_rate": 0.0001212623072742479,
      "loss": 0.0239,
      "step": 924
    },
    {
      "epoch": 0.06825385125672588,
      "grad_norm": 0.4254453480243683,
      "learning_rate": 0.00012126221329208006,
      "loss": 0.0032,
      "step": 926
    },
    {
      "epoch": 0.06840126778211837,
      "grad_norm": 0.502257227897644,
      "learning_rate": 0.00012126211910675626,
      "loss": 0.0103,
      "step": 928
    },
    {
      "epoch": 0.06840126778211837,
      "eval_1_ratio_diff": 0.026500389711613392,
      "eval_accuracy": 0.8768511301636789,
      "eval_f1": 0.8799392097264438,
      "eval_loss": 0.7347307205200195,
      "eval_precision": 0.8577777777777778,
      "eval_recall": 0.9032761310452418,
      "eval_runtime": 1440.0126,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 928
    },
    {
      "epoch": 0.06854868430751088,
      "grad_norm": 0.6557896733283997,
      "learning_rate": 0.00012126202471827679,
      "loss": 0.003,
      "step": 930
    },
    {
      "epoch": 0.06869610083290337,
      "grad_norm": 0.020085789263248444,
      "learning_rate": 0.00012126193012664201,
      "loss": 0.0004,
      "step": 932
    },
    {
      "epoch": 0.06884351735829586,
      "grad_norm": 0.006013574078679085,
      "learning_rate": 0.00012126183533185218,
      "loss": 0.0001,
      "step": 934
    },
    {
      "epoch": 0.06899093388368836,
      "grad_norm": 252.07472229003906,
      "learning_rate": 0.00012126174033390767,
      "loss": 0.8075,
      "step": 936
    },
    {
      "epoch": 0.06913835040908085,
      "grad_norm": 0.002460025018081069,
      "learning_rate": 0.00012126164513280875,
      "loss": 0.0011,
      "step": 938
    },
    {
      "epoch": 0.06928576693447336,
      "grad_norm": 0.01136123575270176,
      "learning_rate": 0.00012126154972855578,
      "loss": 0.0003,
      "step": 940
    },
    {
      "epoch": 0.06943318345986585,
      "grad_norm": 37.112640380859375,
      "learning_rate": 0.00012126145412114907,
      "loss": 2.9468,
      "step": 942
    },
    {
      "epoch": 0.06958059998525835,
      "grad_norm": 0.006933971308171749,
      "learning_rate": 0.00012126135831058891,
      "loss": 0.0001,
      "step": 944
    },
    {
      "epoch": 0.06958059998525835,
      "eval_1_ratio_diff": 0.2478565861262666,
      "eval_accuracy": 0.7443491816056118,
      "eval_f1": 0.795,
      "eval_loss": 2.4577670097351074,
      "eval_precision": 0.6631908237747653,
      "eval_recall": 0.9921996879875195,
      "eval_runtime": 1439.5508,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 944
    },
    {
      "epoch": 0.06972801651065084,
      "grad_norm": 36.87862777709961,
      "learning_rate": 0.00012126126229687566,
      "loss": 5.0295,
      "step": 946
    },
    {
      "epoch": 0.06987543303604334,
      "grad_norm": 70.17023468017578,
      "learning_rate": 0.00012126116608000961,
      "loss": 4.0308,
      "step": 948
    },
    {
      "epoch": 0.07002284956143584,
      "grad_norm": 37.03538513183594,
      "learning_rate": 0.00012126106965999112,
      "loss": 1.8733,
      "step": 950
    },
    {
      "epoch": 0.07017026608682833,
      "grad_norm": 66.47712707519531,
      "learning_rate": 0.00012126097303682048,
      "loss": 4.2016,
      "step": 952
    },
    {
      "epoch": 0.07031768261222084,
      "grad_norm": 29.390884399414062,
      "learning_rate": 0.00012126087621049803,
      "loss": 1.9788,
      "step": 954
    },
    {
      "epoch": 0.07046509913761333,
      "grad_norm": 10.997523307800293,
      "learning_rate": 0.00012126077918102409,
      "loss": 0.1381,
      "step": 956
    },
    {
      "epoch": 0.07061251566300582,
      "grad_norm": 38.46750259399414,
      "learning_rate": 0.00012126068194839898,
      "loss": 0.8822,
      "step": 958
    },
    {
      "epoch": 0.07075993218839832,
      "grad_norm": 18.62594985961914,
      "learning_rate": 0.00012126058451262304,
      "loss": 0.3758,
      "step": 960
    },
    {
      "epoch": 0.07075993218839832,
      "eval_1_ratio_diff": -0.4505066250974279,
      "eval_accuracy": 0.5494933749025721,
      "eval_f1": 0.17897727272727273,
      "eval_loss": 0.5460181832313538,
      "eval_precision": 1.0,
      "eval_recall": 0.09828393135725429,
      "eval_runtime": 1440.4539,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 960
    },
    {
      "epoch": 0.07090734871379081,
      "grad_norm": 21.68712615966797,
      "learning_rate": 0.00012126048687369658,
      "loss": 0.3891,
      "step": 962
    },
    {
      "epoch": 0.07105476523918332,
      "grad_norm": 7.1598124504089355,
      "learning_rate": 0.00012126038903161995,
      "loss": 0.3555,
      "step": 964
    },
    {
      "epoch": 0.07120218176457581,
      "grad_norm": 28.80471420288086,
      "learning_rate": 0.00012126029098639344,
      "loss": 0.9078,
      "step": 966
    },
    {
      "epoch": 0.0713495982899683,
      "grad_norm": 18.606401443481445,
      "learning_rate": 0.00012126019273801743,
      "loss": 0.2927,
      "step": 968
    },
    {
      "epoch": 0.0714970148153608,
      "grad_norm": 21.51089859008789,
      "learning_rate": 0.0001212600942864922,
      "loss": 0.6348,
      "step": 970
    },
    {
      "epoch": 0.0716444313407533,
      "grad_norm": 4.713807582855225,
      "learning_rate": 0.00012125999563181809,
      "loss": 0.5351,
      "step": 972
    },
    {
      "epoch": 0.0717918478661458,
      "grad_norm": 11.428181648254395,
      "learning_rate": 0.00012125989677399546,
      "loss": 0.2465,
      "step": 974
    },
    {
      "epoch": 0.07193926439153829,
      "grad_norm": 13.697668075561523,
      "learning_rate": 0.00012125979771302464,
      "loss": 0.1411,
      "step": 976
    },
    {
      "epoch": 0.07193926439153829,
      "eval_1_ratio_diff": 0.03897116134060796,
      "eval_accuracy": 0.8846453624318005,
      "eval_f1": 0.8888888888888888,
      "eval_loss": 0.38700371980667114,
      "eval_precision": 0.8567293777134588,
      "eval_recall": 0.9235569422776911,
      "eval_runtime": 1440.5564,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 976
    },
    {
      "epoch": 0.07208668091693078,
      "grad_norm": 3.2123868465423584,
      "learning_rate": 0.0001212596984489059,
      "loss": 0.0295,
      "step": 978
    },
    {
      "epoch": 0.07223409744232329,
      "grad_norm": 0.026355383917689323,
      "learning_rate": 0.00012125959898163965,
      "loss": 0.0005,
      "step": 980
    },
    {
      "epoch": 0.07238151396771578,
      "grad_norm": 0.10228274017572403,
      "learning_rate": 0.00012125949931122618,
      "loss": 0.002,
      "step": 982
    },
    {
      "epoch": 0.07252893049310828,
      "grad_norm": 0.031520161777734756,
      "learning_rate": 0.00012125939943766583,
      "loss": 0.0008,
      "step": 984
    },
    {
      "epoch": 0.07267634701850077,
      "grad_norm": 0.1047026515007019,
      "learning_rate": 0.00012125929936095894,
      "loss": 0.0009,
      "step": 986
    },
    {
      "epoch": 0.07282376354389328,
      "grad_norm": 30.88459587097168,
      "learning_rate": 0.00012125919908110585,
      "loss": 2.267,
      "step": 988
    },
    {
      "epoch": 0.07297118006928577,
      "grad_norm": 0.029362376779317856,
      "learning_rate": 0.0001212590985981069,
      "loss": 0.0003,
      "step": 990
    },
    {
      "epoch": 0.07311859659467826,
      "grad_norm": 0.2791018784046173,
      "learning_rate": 0.0001212589979119624,
      "loss": 0.0017,
      "step": 992
    },
    {
      "epoch": 0.07311859659467826,
      "eval_1_ratio_diff": 0.05378020265003891,
      "eval_accuracy": 0.877630553390491,
      "eval_f1": 0.8837897853441895,
      "eval_loss": 0.7231972813606262,
      "eval_precision": 0.8408450704225352,
      "eval_recall": 0.9313572542901716,
      "eval_runtime": 1440.0578,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 992
    },
    {
      "epoch": 0.07326601312007076,
      "grad_norm": 0.056903205811977386,
      "learning_rate": 0.00012125889702267272,
      "loss": 0.0007,
      "step": 994
    },
    {
      "epoch": 0.07341342964546325,
      "grad_norm": 0.015094200149178505,
      "learning_rate": 0.00012125879593023818,
      "loss": 0.0002,
      "step": 996
    },
    {
      "epoch": 0.07356084617085576,
      "grad_norm": 0.6008047461509705,
      "learning_rate": 0.00012125869463465912,
      "loss": 0.0045,
      "step": 998
    },
    {
      "epoch": 0.07370826269624825,
      "grad_norm": 0.6626961827278137,
      "learning_rate": 0.00012125859313593587,
      "loss": 0.004,
      "step": 1000
    },
    {
      "epoch": 0.07385567922164074,
      "grad_norm": 0.009313930757343769,
      "learning_rate": 0.0001212584914340688,
      "loss": 0.0002,
      "step": 1002
    },
    {
      "epoch": 0.07400309574703325,
      "grad_norm": 0.01076335646212101,
      "learning_rate": 0.00012125838952905822,
      "loss": 0.0004,
      "step": 1004
    },
    {
      "epoch": 0.07415051227242574,
      "grad_norm": 0.008014670573174953,
      "learning_rate": 0.00012125828742090447,
      "loss": 0.0001,
      "step": 1006
    },
    {
      "epoch": 0.07429792879781824,
      "grad_norm": 33.344932556152344,
      "learning_rate": 0.00012125818510960795,
      "loss": 2.0841,
      "step": 1008
    },
    {
      "epoch": 0.07429792879781824,
      "eval_1_ratio_diff": 0.08261886204208879,
      "eval_accuracy": 0.8643803585346843,
      "eval_f1": 0.8746397694524496,
      "eval_loss": 0.954525887966156,
      "eval_precision": 0.8125836680053548,
      "eval_recall": 0.9469578783151326,
      "eval_runtime": 1439.8312,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1008
    },
    {
      "epoch": 0.07444534532321073,
      "grad_norm": 0.009119726717472076,
      "learning_rate": 0.00012125808259516893,
      "loss": 2.2253,
      "step": 1010
    },
    {
      "epoch": 0.07459276184860322,
      "grad_norm": 0.08696369081735611,
      "learning_rate": 0.00012125797987758778,
      "loss": 0.0009,
      "step": 1012
    },
    {
      "epoch": 0.07474017837399573,
      "grad_norm": 26.136661529541016,
      "learning_rate": 0.00012125787695686484,
      "loss": 1.5774,
      "step": 1014
    },
    {
      "epoch": 0.07488759489938822,
      "grad_norm": 32.24976348876953,
      "learning_rate": 0.00012125777383300048,
      "loss": 1.1735,
      "step": 1016
    },
    {
      "epoch": 0.07503501142478072,
      "grad_norm": 0.5457736253738403,
      "learning_rate": 0.00012125767050599501,
      "loss": 0.0112,
      "step": 1018
    },
    {
      "epoch": 0.07518242795017321,
      "grad_norm": 0.7166759967803955,
      "learning_rate": 0.0001212575669758488,
      "loss": 0.2859,
      "step": 1020
    },
    {
      "epoch": 0.0753298444755657,
      "grad_norm": 0.32718005776405334,
      "learning_rate": 0.00012125746324256221,
      "loss": 1.5148,
      "step": 1022
    },
    {
      "epoch": 0.07547726100095821,
      "grad_norm": 88.85284423828125,
      "learning_rate": 0.00012125735930613554,
      "loss": 2.6444,
      "step": 1024
    },
    {
      "epoch": 0.07547726100095821,
      "eval_1_ratio_diff": 0.024162120031176904,
      "eval_accuracy": 0.8838659392049883,
      "eval_f1": 0.8865194211728865,
      "eval_loss": 0.48203912377357483,
      "eval_precision": 0.8660714285714286,
      "eval_recall": 0.9079563182527302,
      "eval_runtime": 1439.7938,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1024
    },
    {
      "epoch": 0.0756246775263507,
      "grad_norm": 0.2224024385213852,
      "learning_rate": 0.00012125725516656918,
      "loss": 0.0068,
      "step": 1026
    },
    {
      "epoch": 0.0757720940517432,
      "grad_norm": 0.2110309898853302,
      "learning_rate": 0.00012125715082386346,
      "loss": 0.0036,
      "step": 1028
    },
    {
      "epoch": 0.0759195105771357,
      "grad_norm": 0.20480689406394958,
      "learning_rate": 0.00012125704627801874,
      "loss": 0.0101,
      "step": 1030
    },
    {
      "epoch": 0.07606692710252819,
      "grad_norm": 24.321718215942383,
      "learning_rate": 0.00012125694152903538,
      "loss": 2.3569,
      "step": 1032
    },
    {
      "epoch": 0.07621434362792069,
      "grad_norm": 0.3324243426322937,
      "learning_rate": 0.00012125683657691368,
      "loss": 0.0101,
      "step": 1034
    },
    {
      "epoch": 0.07636176015331318,
      "grad_norm": 1.0518757104873657,
      "learning_rate": 0.00012125673142165406,
      "loss": 0.013,
      "step": 1036
    },
    {
      "epoch": 0.07650917667870569,
      "grad_norm": 25.96786880493164,
      "learning_rate": 0.00012125662606325683,
      "loss": 1.3031,
      "step": 1038
    },
    {
      "epoch": 0.07665659320409818,
      "grad_norm": 0.12808893620967865,
      "learning_rate": 0.00012125652050172236,
      "loss": 0.0051,
      "step": 1040
    },
    {
      "epoch": 0.07665659320409818,
      "eval_1_ratio_diff": -0.05689789555728764,
      "eval_accuracy": 0.8698363211223694,
      "eval_f1": 0.8618693134822167,
      "eval_loss": 0.5904788970947266,
      "eval_precision": 0.9172535211267606,
      "eval_recall": 0.8127925117004681,
      "eval_runtime": 1440.2519,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1040
    },
    {
      "epoch": 0.07680400972949068,
      "grad_norm": 30.74445343017578,
      "learning_rate": 0.00012125641473705098,
      "loss": 1.479,
      "step": 1042
    },
    {
      "epoch": 0.07695142625488317,
      "grad_norm": 0.33330148458480835,
      "learning_rate": 0.00012125630876924309,
      "loss": 2.7544,
      "step": 1044
    },
    {
      "epoch": 0.07709884278027566,
      "grad_norm": 0.4779714047908783,
      "learning_rate": 0.00012125620259829898,
      "loss": 0.0059,
      "step": 1046
    },
    {
      "epoch": 0.07724625930566817,
      "grad_norm": 0.4376041889190674,
      "learning_rate": 0.00012125609622421907,
      "loss": 0.0273,
      "step": 1048
    },
    {
      "epoch": 0.07739367583106066,
      "grad_norm": 0.14147210121154785,
      "learning_rate": 0.00012125598964700367,
      "loss": 1.3617,
      "step": 1050
    },
    {
      "epoch": 0.07754109235645316,
      "grad_norm": 20.751298904418945,
      "learning_rate": 0.00012125588286665319,
      "loss": 2.4864,
      "step": 1052
    },
    {
      "epoch": 0.07768850888184566,
      "grad_norm": 0.3589191138744354,
      "learning_rate": 0.00012125577588316793,
      "loss": 0.0102,
      "step": 1054
    },
    {
      "epoch": 0.07783592540723815,
      "grad_norm": 31.519622802734375,
      "learning_rate": 0.00012125566869654828,
      "loss": 1.8161,
      "step": 1056
    },
    {
      "epoch": 0.07783592540723815,
      "eval_1_ratio_diff": -0.05455962587685115,
      "eval_accuracy": 0.8472330475448169,
      "eval_f1": 0.8382838283828383,
      "eval_loss": 0.5423593521118164,
      "eval_precision": 0.8896672504378283,
      "eval_recall": 0.7925117004680188,
      "eval_runtime": 1440.6162,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1056
    },
    {
      "epoch": 0.07798334193263065,
      "grad_norm": 29.618946075439453,
      "learning_rate": 0.00012125556130679457,
      "loss": 0.9249,
      "step": 1058
    },
    {
      "epoch": 0.07813075845802314,
      "grad_norm": 24.92931365966797,
      "learning_rate": 0.0001212554537139072,
      "loss": 1.3237,
      "step": 1060
    },
    {
      "epoch": 0.07827817498341565,
      "grad_norm": 6.922366142272949,
      "learning_rate": 0.00012125534591788653,
      "loss": 0.0954,
      "step": 1062
    },
    {
      "epoch": 0.07842559150880814,
      "grad_norm": 1.4033849239349365,
      "learning_rate": 0.00012125523791873287,
      "loss": 0.1059,
      "step": 1064
    },
    {
      "epoch": 0.07857300803420063,
      "grad_norm": 0.5430750846862793,
      "learning_rate": 0.00012125512971644664,
      "loss": 0.0167,
      "step": 1066
    },
    {
      "epoch": 0.07872042455959313,
      "grad_norm": 25.31169319152832,
      "learning_rate": 0.00012125502131102817,
      "loss": 1.4498,
      "step": 1068
    },
    {
      "epoch": 0.07886784108498562,
      "grad_norm": 24.96006965637207,
      "learning_rate": 0.00012125491270247783,
      "loss": 1.3258,
      "step": 1070
    },
    {
      "epoch": 0.07901525761037813,
      "grad_norm": 1.3635300397872925,
      "learning_rate": 0.000121254803890796,
      "loss": 0.0339,
      "step": 1072
    },
    {
      "epoch": 0.07901525761037813,
      "eval_1_ratio_diff": -0.029618082618862063,
      "eval_accuracy": 0.8581449727201871,
      "eval_f1": 0.8536977491961415,
      "eval_loss": 0.6108663082122803,
      "eval_precision": 0.8805970149253731,
      "eval_recall": 0.828393135725429,
      "eval_runtime": 1440.3267,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1072
    },
    {
      "epoch": 0.07916267413577062,
      "grad_norm": 41.34056091308594,
      "learning_rate": 0.00012125469487598301,
      "loss": 1.665,
      "step": 1074
    },
    {
      "epoch": 0.07931009066116311,
      "grad_norm": 0.8467972278594971,
      "learning_rate": 0.00012125458565803925,
      "loss": 0.0102,
      "step": 1076
    },
    {
      "epoch": 0.07945750718655561,
      "grad_norm": 0.09642868489027023,
      "learning_rate": 0.00012125447623696508,
      "loss": 0.0053,
      "step": 1078
    },
    {
      "epoch": 0.0796049237119481,
      "grad_norm": 0.06861916184425354,
      "learning_rate": 0.00012125436661276089,
      "loss": 0.5701,
      "step": 1080
    },
    {
      "epoch": 0.07975234023734061,
      "grad_norm": 22.139467239379883,
      "learning_rate": 0.000121254256785427,
      "loss": 1.088,
      "step": 1082
    },
    {
      "epoch": 0.0798997567627331,
      "grad_norm": 0.037754353135824203,
      "learning_rate": 0.00012125414675496381,
      "loss": 0.0046,
      "step": 1084
    },
    {
      "epoch": 0.08004717328812559,
      "grad_norm": 32.785037994384766,
      "learning_rate": 0.00012125403652137169,
      "loss": 0.956,
      "step": 1086
    },
    {
      "epoch": 0.0801945898135181,
      "grad_norm": 21.96536636352539,
      "learning_rate": 0.000121253926084651,
      "loss": 3.1959,
      "step": 1088
    },
    {
      "epoch": 0.0801945898135181,
      "eval_1_ratio_diff": -0.04364770070148094,
      "eval_accuracy": 0.8659392049883087,
      "eval_f1": 0.8597063621533442,
      "eval_loss": 0.6232408285140991,
      "eval_precision": 0.9008547008547009,
      "eval_recall": 0.8221528861154446,
      "eval_runtime": 1440.7525,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1088
    },
    {
      "epoch": 0.08034200633891059,
      "grad_norm": 0.09767896682024002,
      "learning_rate": 0.00012125381544480211,
      "loss": 1.9769,
      "step": 1090
    },
    {
      "epoch": 0.08048942286430309,
      "grad_norm": 4.43467378616333,
      "learning_rate": 0.0001212537046018254,
      "loss": 1.8357,
      "step": 1092
    },
    {
      "epoch": 0.08063683938969558,
      "grad_norm": 22.267379760742188,
      "learning_rate": 0.00012125359355572121,
      "loss": 0.9555,
      "step": 1094
    },
    {
      "epoch": 0.08078425591508809,
      "grad_norm": 0.7281066179275513,
      "learning_rate": 0.00012125348230648997,
      "loss": 0.0391,
      "step": 1096
    },
    {
      "epoch": 0.08093167244048058,
      "grad_norm": 0.4542294442653656,
      "learning_rate": 0.000121253370854132,
      "loss": 0.9409,
      "step": 1098
    },
    {
      "epoch": 0.08107908896587307,
      "grad_norm": 22.38312339782715,
      "learning_rate": 0.0001212532591986477,
      "loss": 1.0271,
      "step": 1100
    },
    {
      "epoch": 0.08122650549126557,
      "grad_norm": 26.339080810546875,
      "learning_rate": 0.00012125314734003743,
      "loss": 1.4919,
      "step": 1102
    },
    {
      "epoch": 0.08137392201665807,
      "grad_norm": 3.4797956943511963,
      "learning_rate": 0.00012125303527830157,
      "loss": 0.0342,
      "step": 1104
    },
    {
      "epoch": 0.08137392201665807,
      "eval_1_ratio_diff": -0.15354637568199536,
      "eval_accuracy": 0.7887763055339049,
      "eval_f1": 0.7502304147465437,
      "eval_loss": 0.8048840761184692,
      "eval_precision": 0.9166666666666666,
      "eval_recall": 0.6349453978159126,
      "eval_runtime": 1440.2595,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1104
    },
    {
      "epoch": 0.08152133854205057,
      "grad_norm": 27.387937545776367,
      "learning_rate": 0.0001212529230134405,
      "loss": 2.2878,
      "step": 1106
    },
    {
      "epoch": 0.08166875506744306,
      "grad_norm": 0.27098074555397034,
      "learning_rate": 0.00012125281054545459,
      "loss": 0.0115,
      "step": 1108
    },
    {
      "epoch": 0.08181617159283555,
      "grad_norm": 0.17622074484825134,
      "learning_rate": 0.00012125269787434425,
      "loss": 0.9066,
      "step": 1110
    },
    {
      "epoch": 0.08196358811822806,
      "grad_norm": 13.168516159057617,
      "learning_rate": 0.00012125258500010979,
      "loss": 1.0468,
      "step": 1112
    },
    {
      "epoch": 0.08211100464362055,
      "grad_norm": 15.512298583984375,
      "learning_rate": 0.00012125247192275165,
      "loss": 0.1845,
      "step": 1114
    },
    {
      "epoch": 0.08225842116901305,
      "grad_norm": 31.888328552246094,
      "learning_rate": 0.00012125235864227018,
      "loss": 0.3136,
      "step": 1116
    },
    {
      "epoch": 0.08240583769440554,
      "grad_norm": 9.891843795776367,
      "learning_rate": 0.00012125224515866574,
      "loss": 0.8436,
      "step": 1118
    },
    {
      "epoch": 0.08255325421979803,
      "grad_norm": 46.16787338256836,
      "learning_rate": 0.00012125213147193877,
      "loss": 2.5811,
      "step": 1120
    },
    {
      "epoch": 0.08255325421979803,
      "eval_1_ratio_diff": 0.07560405300077944,
      "eval_accuracy": 0.848012470771629,
      "eval_f1": 0.8585931834662799,
      "eval_loss": 0.6410078406333923,
      "eval_precision": 0.8021680216802168,
      "eval_recall": 0.9235569422776911,
      "eval_runtime": 1440.0548,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1120
    },
    {
      "epoch": 0.08270067074519054,
      "grad_norm": 7.604285717010498,
      "learning_rate": 0.00012125201758208962,
      "loss": 1.1177,
      "step": 1122
    },
    {
      "epoch": 0.08284808727058303,
      "grad_norm": 0.39338427782058716,
      "learning_rate": 0.00012125190348911864,
      "loss": 1.5911,
      "step": 1124
    },
    {
      "epoch": 0.08299550379597553,
      "grad_norm": 36.94788360595703,
      "learning_rate": 0.00012125178919302626,
      "loss": 1.3629,
      "step": 1126
    },
    {
      "epoch": 0.08314292032136802,
      "grad_norm": 0.8372169137001038,
      "learning_rate": 0.00012125167469381283,
      "loss": 0.0102,
      "step": 1128
    },
    {
      "epoch": 0.08329033684676052,
      "grad_norm": 0.12225531786680222,
      "learning_rate": 0.00012125155999147876,
      "loss": 0.0043,
      "step": 1130
    },
    {
      "epoch": 0.08343775337215302,
      "grad_norm": 62.011695861816406,
      "learning_rate": 0.0001212514450860244,
      "loss": 1.6697,
      "step": 1132
    },
    {
      "epoch": 0.08358516989754551,
      "grad_norm": 0.02834857441484928,
      "learning_rate": 0.00012125132997745018,
      "loss": 0.0044,
      "step": 1134
    },
    {
      "epoch": 0.08373258642293802,
      "grad_norm": 0.007508635055273771,
      "learning_rate": 0.00012125121466575647,
      "loss": 0.0067,
      "step": 1136
    },
    {
      "epoch": 0.08373258642293802,
      "eval_1_ratio_diff": -0.059236165237724125,
      "eval_accuracy": 0.8534684333593141,
      "eval_f1": 0.8441127694859039,
      "eval_loss": 0.8524520993232727,
      "eval_precision": 0.9008849557522124,
      "eval_recall": 0.7940717628705148,
      "eval_runtime": 1440.1118,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1136
    },
    {
      "epoch": 0.0838800029483305,
      "grad_norm": 70.38623046875,
      "learning_rate": 0.00012125109915094362,
      "loss": 2.694,
      "step": 1138
    },
    {
      "epoch": 0.08402741947372301,
      "grad_norm": 1.548732042312622,
      "learning_rate": 0.00012125098343301206,
      "loss": 0.0213,
      "step": 1140
    },
    {
      "epoch": 0.0841748359991155,
      "grad_norm": 1.2770323753356934,
      "learning_rate": 0.00012125086751196217,
      "loss": 0.0099,
      "step": 1142
    },
    {
      "epoch": 0.08432225252450799,
      "grad_norm": 30.610591888427734,
      "learning_rate": 0.00012125075138779432,
      "loss": 2.0352,
      "step": 1144
    },
    {
      "epoch": 0.0844696690499005,
      "grad_norm": 0.8128361701965332,
      "learning_rate": 0.0001212506350605089,
      "loss": 1.0719,
      "step": 1146
    },
    {
      "epoch": 0.08461708557529299,
      "grad_norm": 1.6853057146072388,
      "learning_rate": 0.00012125051853010634,
      "loss": 0.0092,
      "step": 1148
    },
    {
      "epoch": 0.0847645021006855,
      "grad_norm": 39.670047760009766,
      "learning_rate": 0.000121250401796587,
      "loss": 1.7653,
      "step": 1150
    },
    {
      "epoch": 0.08491191862607798,
      "grad_norm": 36.04311752319336,
      "learning_rate": 0.00012125028485995127,
      "loss": 1.3473,
      "step": 1152
    },
    {
      "epoch": 0.08491191862607798,
      "eval_1_ratio_diff": 0.03897116134060796,
      "eval_accuracy": 0.8737334372564303,
      "eval_f1": 0.8783783783783784,
      "eval_loss": 0.6749188899993896,
      "eval_precision": 0.8465991316931982,
      "eval_recall": 0.9126365054602185,
      "eval_runtime": 1440.4215,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1152
    },
    {
      "epoch": 0.08505933515147047,
      "grad_norm": 0.17764577269554138,
      "learning_rate": 0.00012125016772019952,
      "loss": 0.0023,
      "step": 1154
    },
    {
      "epoch": 0.08520675167686298,
      "grad_norm": 0.3527587652206421,
      "learning_rate": 0.0001212500503773322,
      "loss": 0.0055,
      "step": 1156
    },
    {
      "epoch": 0.08535416820225547,
      "grad_norm": 0.1379138082265854,
      "learning_rate": 0.00012124993283134963,
      "loss": 1.6429,
      "step": 1158
    },
    {
      "epoch": 0.08550158472764798,
      "grad_norm": 0.14264832437038422,
      "learning_rate": 0.0001212498150822523,
      "loss": 0.0089,
      "step": 1160
    },
    {
      "epoch": 0.08564900125304047,
      "grad_norm": 30.086095809936523,
      "learning_rate": 0.00012124969713004051,
      "loss": 2.4261,
      "step": 1162
    },
    {
      "epoch": 0.08579641777843296,
      "grad_norm": 0.26527953147888184,
      "learning_rate": 0.00012124957897471469,
      "loss": 0.6917,
      "step": 1164
    },
    {
      "epoch": 0.08594383430382546,
      "grad_norm": 8.70952320098877,
      "learning_rate": 0.00012124946061627526,
      "loss": 0.0826,
      "step": 1166
    },
    {
      "epoch": 0.08609125082921795,
      "grad_norm": 0.031940966844558716,
      "learning_rate": 0.0001212493420547226,
      "loss": 0.0008,
      "step": 1168
    },
    {
      "epoch": 0.08609125082921795,
      "eval_1_ratio_diff": -0.010132501948558081,
      "eval_accuracy": 0.8636009353078722,
      "eval_f1": 0.8620961386918834,
      "eval_loss": 0.5565428137779236,
      "eval_precision": 0.8710191082802548,
      "eval_recall": 0.8533541341653667,
      "eval_runtime": 1440.6772,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1168
    },
    {
      "epoch": 0.08623866735461046,
      "grad_norm": 1.1032943725585938,
      "learning_rate": 0.0001212492232900571,
      "loss": 0.0135,
      "step": 1170
    },
    {
      "epoch": 0.08638608388000295,
      "grad_norm": 0.6731190085411072,
      "learning_rate": 0.00012124910432227916,
      "loss": 0.0145,
      "step": 1172
    },
    {
      "epoch": 0.08653350040539544,
      "grad_norm": 0.2941815257072449,
      "learning_rate": 0.00012124898515138918,
      "loss": 0.005,
      "step": 1174
    },
    {
      "epoch": 0.08668091693078794,
      "grad_norm": 0.060058582574129105,
      "learning_rate": 0.00012124886577738757,
      "loss": 0.0024,
      "step": 1176
    },
    {
      "epoch": 0.08682833345618043,
      "grad_norm": 0.029819436371326447,
      "learning_rate": 0.0001212487462002747,
      "loss": 0.0015,
      "step": 1178
    },
    {
      "epoch": 0.08697574998157294,
      "grad_norm": 0.1549704670906067,
      "learning_rate": 0.000121248626420051,
      "loss": 0.0023,
      "step": 1180
    },
    {
      "epoch": 0.08712316650696543,
      "grad_norm": 1.1005401611328125,
      "learning_rate": 0.00012124850643671686,
      "loss": 0.0065,
      "step": 1182
    },
    {
      "epoch": 0.08727058303235792,
      "grad_norm": 200.2630157470703,
      "learning_rate": 0.00012124838625027271,
      "loss": 0.7416,
      "step": 1184
    },
    {
      "epoch": 0.08727058303235792,
      "eval_1_ratio_diff": 0.04520654715510519,
      "eval_accuracy": 0.8752922837100545,
      "eval_f1": 0.8805970149253731,
      "eval_loss": 0.8647755980491638,
      "eval_precision": 0.844062947067239,
      "eval_recall": 0.9204368174726989,
      "eval_runtime": 1441.0897,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 1184
    },
    {
      "epoch": 0.08741799955775043,
      "grad_norm": 0.012469271197915077,
      "learning_rate": 0.0001212482658607189,
      "loss": 0.0003,
      "step": 1186
    },
    {
      "epoch": 0.08756541608314292,
      "grad_norm": 0.017095841467380524,
      "learning_rate": 0.00012124814526805586,
      "loss": 0.0003,
      "step": 1188
    },
    {
      "epoch": 0.08771283260853542,
      "grad_norm": 23.186222076416016,
      "learning_rate": 0.00012124802447228401,
      "loss": 2.0149,
      "step": 1190
    },
    {
      "epoch": 0.08786024913392791,
      "grad_norm": 0.010486994870007038,
      "learning_rate": 0.00012124790347340374,
      "loss": 0.0006,
      "step": 1192
    },
    {
      "epoch": 0.08800766565932042,
      "grad_norm": 40.754051208496094,
      "learning_rate": 0.00012124778227141545,
      "loss": 2.8077,
      "step": 1194
    },
    {
      "epoch": 0.08815508218471291,
      "grad_norm": 0.08611409366130829,
      "learning_rate": 0.00012124766086631955,
      "loss": 0.0013,
      "step": 1196
    },
    {
      "epoch": 0.0883024987101054,
      "grad_norm": 0.28396108746528625,
      "learning_rate": 0.00012124753925811646,
      "loss": 2.2785,
      "step": 1198
    },
    {
      "epoch": 0.0884499152354979,
      "grad_norm": 0.03215723857283592,
      "learning_rate": 0.00012124741744680656,
      "loss": 0.0026,
      "step": 1200
    },
    {
      "epoch": 0.0884499152354979,
      "eval_1_ratio_diff": 0.04598597038191732,
      "eval_accuracy": 0.877630553390491,
      "eval_f1": 0.8829231916480239,
      "eval_loss": 0.7880816459655762,
      "eval_precision": 0.8457142857142858,
      "eval_recall": 0.9235569422776911,
      "eval_runtime": 1441.3958,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 1200
    },
    {
      "epoch": 0.0885973317608904,
      "grad_norm": 0.03621472418308258,
      "learning_rate": 0.00012124729543239029,
      "loss": 0.7748,
      "step": 1202
    },
    {
      "epoch": 0.0887447482862829,
      "grad_norm": 0.09097783267498016,
      "learning_rate": 0.00012124717321486803,
      "loss": 1.8821,
      "step": 1204
    },
    {
      "epoch": 0.08889216481167539,
      "grad_norm": 0.3395259976387024,
      "learning_rate": 0.00012124705079424022,
      "loss": 0.0073,
      "step": 1206
    },
    {
      "epoch": 0.08903958133706788,
      "grad_norm": 0.04736631363630295,
      "learning_rate": 0.00012124692817050723,
      "loss": 1.567,
      "step": 1208
    },
    {
      "epoch": 0.08918699786246038,
      "grad_norm": 0.08807298541069031,
      "learning_rate": 0.00012124680534366952,
      "loss": 0.0014,
      "step": 1210
    },
    {
      "epoch": 0.08933441438785288,
      "grad_norm": 0.05549991875886917,
      "learning_rate": 0.00012124668231372745,
      "loss": 0.0021,
      "step": 1212
    },
    {
      "epoch": 0.08948183091324538,
      "grad_norm": 0.06815358251333237,
      "learning_rate": 0.00012124655908068146,
      "loss": 0.9174,
      "step": 1214
    },
    {
      "epoch": 0.08962924743863787,
      "grad_norm": 0.03639994189143181,
      "learning_rate": 0.00012124643564453199,
      "loss": 0.0199,
      "step": 1216
    },
    {
      "epoch": 0.08962924743863787,
      "eval_1_ratio_diff": 0.020265003897116163,
      "eval_accuracy": 0.8628215120810601,
      "eval_f1": 0.8654434250764526,
      "eval_loss": 0.648876965045929,
      "eval_precision": 0.848575712143928,
      "eval_recall": 0.8829953198127926,
      "eval_runtime": 1441.2405,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 1216
    },
    {
      "epoch": 0.08977666396403036,
      "grad_norm": 23.13437271118164,
      "learning_rate": 0.00012124631200527941,
      "loss": 1.6889,
      "step": 1218
    },
    {
      "epoch": 0.08992408048942287,
      "grad_norm": 0.2734740674495697,
      "learning_rate": 0.00012124618816292414,
      "loss": 0.0059,
      "step": 1220
    },
    {
      "epoch": 0.09007149701481536,
      "grad_norm": 12.39369010925293,
      "learning_rate": 0.00012124606411746661,
      "loss": 0.0533,
      "step": 1222
    },
    {
      "epoch": 0.09021891354020786,
      "grad_norm": 0.036048658192157745,
      "learning_rate": 0.00012124593986890722,
      "loss": 0.0011,
      "step": 1224
    },
    {
      "epoch": 0.09036633006560035,
      "grad_norm": 0.3171124756336212,
      "learning_rate": 0.00012124581541724642,
      "loss": 1.5207,
      "step": 1226
    },
    {
      "epoch": 0.09051374659099284,
      "grad_norm": 4.317696571350098,
      "learning_rate": 0.00012124569076248459,
      "loss": 1.5358,
      "step": 1228
    },
    {
      "epoch": 0.09066116311638535,
      "grad_norm": 0.12044669687747955,
      "learning_rate": 0.00012124556590462215,
      "loss": 0.0053,
      "step": 1230
    },
    {
      "epoch": 0.09080857964177784,
      "grad_norm": 0.21298988163471222,
      "learning_rate": 0.00012124544084365953,
      "loss": 0.0081,
      "step": 1232
    },
    {
      "epoch": 0.09080857964177784,
      "eval_1_ratio_diff": 0.009353078721745844,
      "eval_accuracy": 0.8222915042868277,
      "eval_f1": 0.8238021638330757,
      "eval_loss": 0.7862046360969543,
      "eval_precision": 0.8162327718223583,
      "eval_recall": 0.8315132605304212,
      "eval_runtime": 1439.2896,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1232
    },
    {
      "epoch": 0.09095599616717034,
      "grad_norm": 20.541194915771484,
      "learning_rate": 0.00012124531557959717,
      "loss": 1.194,
      "step": 1234
    },
    {
      "epoch": 0.09110341269256284,
      "grad_norm": 0.2897285223007202,
      "learning_rate": 0.00012124519011243545,
      "loss": 0.8952,
      "step": 1236
    },
    {
      "epoch": 0.09125082921795533,
      "grad_norm": 0.08111666887998581,
      "learning_rate": 0.0001212450644421748,
      "loss": 0.006,
      "step": 1238
    },
    {
      "epoch": 0.09139824574334783,
      "grad_norm": 0.4867294430732727,
      "learning_rate": 0.00012124493856881568,
      "loss": 1.7795,
      "step": 1240
    },
    {
      "epoch": 0.09154566226874032,
      "grad_norm": 0.9198406934738159,
      "learning_rate": 0.00012124481249235846,
      "loss": 0.0259,
      "step": 1242
    },
    {
      "epoch": 0.09169307879413283,
      "grad_norm": 0.08149991929531097,
      "learning_rate": 0.0001212446862128036,
      "loss": 1.2016,
      "step": 1244
    },
    {
      "epoch": 0.09184049531952532,
      "grad_norm": 0.1457146853208542,
      "learning_rate": 0.0001212445597301515,
      "loss": 0.9302,
      "step": 1246
    },
    {
      "epoch": 0.09198791184491782,
      "grad_norm": 0.24497820436954498,
      "learning_rate": 0.00012124443304440259,
      "loss": 0.0051,
      "step": 1248
    },
    {
      "epoch": 0.09198791184491782,
      "eval_1_ratio_diff": 0.02260327357755254,
      "eval_accuracy": 0.8339828526890102,
      "eval_f1": 0.8375286041189931,
      "eval_loss": 0.747604489326477,
      "eval_precision": 0.8194029850746268,
      "eval_recall": 0.8564742589703588,
      "eval_runtime": 1440.6099,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1248
    },
    {
      "epoch": 0.09213532837031031,
      "grad_norm": 0.10772482305765152,
      "learning_rate": 0.0001212443061555573,
      "loss": 0.0032,
      "step": 1250
    },
    {
      "epoch": 0.0922827448957028,
      "grad_norm": 3.8056480884552,
      "learning_rate": 0.00012124417906361605,
      "loss": 0.838,
      "step": 1252
    },
    {
      "epoch": 0.09243016142109531,
      "grad_norm": 21.590364456176758,
      "learning_rate": 0.00012124405176857927,
      "loss": 2.5474,
      "step": 1254
    },
    {
      "epoch": 0.0925775779464878,
      "grad_norm": 21.33682632446289,
      "learning_rate": 0.00012124392427044737,
      "loss": 2.7454,
      "step": 1256
    },
    {
      "epoch": 0.0927249944718803,
      "grad_norm": 0.21534398198127747,
      "learning_rate": 0.00012124379656922081,
      "loss": 0.0068,
      "step": 1258
    },
    {
      "epoch": 0.0928724109972728,
      "grad_norm": 20.76007843017578,
      "learning_rate": 0.0001212436686649,
      "loss": 1.2547,
      "step": 1260
    },
    {
      "epoch": 0.09301982752266529,
      "grad_norm": 20.636024475097656,
      "learning_rate": 0.00012124354055748535,
      "loss": 1.5976,
      "step": 1262
    },
    {
      "epoch": 0.09316724404805779,
      "grad_norm": 2.3518083095550537,
      "learning_rate": 0.00012124341224697731,
      "loss": 0.0369,
      "step": 1264
    },
    {
      "epoch": 0.09316724404805779,
      "eval_1_ratio_diff": -0.03117692907248637,
      "eval_accuracy": 0.8565861262665627,
      "eval_f1": 0.8518518518518519,
      "eval_loss": 0.43984636664390564,
      "eval_precision": 0.8801996672212978,
      "eval_recall": 0.8252730109204368,
      "eval_runtime": 1440.9991,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.446,
      "step": 1264
    },
    {
      "epoch": 0.09331466057345028,
      "grad_norm": 1.4304808378219604,
      "learning_rate": 0.0001212432837333763,
      "loss": 0.03,
      "step": 1266
    },
    {
      "epoch": 0.09346207709884279,
      "grad_norm": 0.6885532736778259,
      "learning_rate": 0.00012124315501668278,
      "loss": 0.7603,
      "step": 1268
    },
    {
      "epoch": 0.09360949362423528,
      "grad_norm": 0.5777420997619629,
      "learning_rate": 0.00012124302609689715,
      "loss": 1.1026,
      "step": 1270
    },
    {
      "epoch": 0.09375691014962777,
      "grad_norm": 1.5885238647460938,
      "learning_rate": 0.00012124289697401986,
      "loss": 0.041,
      "step": 1272
    },
    {
      "epoch": 0.09390432667502027,
      "grad_norm": 0.37640276551246643,
      "learning_rate": 0.00012124276764805132,
      "loss": 0.0182,
      "step": 1274
    },
    {
      "epoch": 0.09405174320041276,
      "grad_norm": 25.54754066467285,
      "learning_rate": 0.00012124263811899196,
      "loss": 1.2952,
      "step": 1276
    },
    {
      "epoch": 0.09419915972580527,
      "grad_norm": 41.04960632324219,
      "learning_rate": 0.00012124250838684226,
      "loss": 2.126,
      "step": 1278
    },
    {
      "epoch": 0.09434657625119776,
      "grad_norm": 0.16556452214717865,
      "learning_rate": 0.00012124237845160263,
      "loss": 0.0078,
      "step": 1280
    },
    {
      "epoch": 0.09434657625119776,
      "eval_1_ratio_diff": -0.08573655494933752,
      "eval_accuracy": 0.8487918939984411,
      "eval_f1": 0.8344709897610921,
      "eval_loss": 0.6657168865203857,
      "eval_precision": 0.9209039548022598,
      "eval_recall": 0.7628705148205929,
      "eval_runtime": 1440.6129,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1280
    },
    {
      "epoch": 0.09449399277659025,
      "grad_norm": 17.6622314453125,
      "learning_rate": 0.00012124224831327347,
      "loss": 0.1561,
      "step": 1282
    },
    {
      "epoch": 0.09464140930198275,
      "grad_norm": 0.15980716049671173,
      "learning_rate": 0.00012124211797185528,
      "loss": 0.0042,
      "step": 1284
    },
    {
      "epoch": 0.09478882582737524,
      "grad_norm": 0.04221845418214798,
      "learning_rate": 0.00012124198742734845,
      "loss": 1.4535,
      "step": 1286
    },
    {
      "epoch": 0.09493624235276775,
      "grad_norm": 0.056126296520233154,
      "learning_rate": 0.00012124185667975342,
      "loss": 0.0031,
      "step": 1288
    },
    {
      "epoch": 0.09508365887816024,
      "grad_norm": 0.08041621744632721,
      "learning_rate": 0.00012124172572907067,
      "loss": 0.0018,
      "step": 1290
    },
    {
      "epoch": 0.09523107540355275,
      "grad_norm": 28.64826011657715,
      "learning_rate": 0.00012124159457530059,
      "loss": 1.6516,
      "step": 1292
    },
    {
      "epoch": 0.09537849192894524,
      "grad_norm": 0.31489408016204834,
      "learning_rate": 0.00012124146321844365,
      "loss": 0.0038,
      "step": 1294
    },
    {
      "epoch": 0.09552590845433773,
      "grad_norm": 1.7656670808792114,
      "learning_rate": 0.00012124133165850026,
      "loss": 0.0131,
      "step": 1296
    },
    {
      "epoch": 0.09552590845433773,
      "eval_1_ratio_diff": 0.04832424006235381,
      "eval_accuracy": 0.8176149649259548,
      "eval_f1": 0.8258928571428571,
      "eval_loss": 0.8926898241043091,
      "eval_precision": 0.7894736842105263,
      "eval_recall": 0.8658346333853354,
      "eval_runtime": 1440.8824,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.446,
      "step": 1296
    },
    {
      "epoch": 0.09567332497973023,
      "grad_norm": 0.3228819668292999,
      "learning_rate": 0.00012124119989547089,
      "loss": 0.8356,
      "step": 1298
    },
    {
      "epoch": 0.09582074150512272,
      "grad_norm": 58.03204345703125,
      "learning_rate": 0.00012124106792935597,
      "loss": 0.5161,
      "step": 1300
    },
    {
      "epoch": 0.09596815803051523,
      "grad_norm": 0.094666488468647,
      "learning_rate": 0.00012124093576015595,
      "loss": 0.0014,
      "step": 1302
    },
    {
      "epoch": 0.09611557455590772,
      "grad_norm": 0.054852358996868134,
      "learning_rate": 0.00012124080338787127,
      "loss": 0.0025,
      "step": 1304
    },
    {
      "epoch": 0.09626299108130021,
      "grad_norm": 2.4614083766937256,
      "learning_rate": 0.00012124067081250235,
      "loss": 0.0231,
      "step": 1306
    },
    {
      "epoch": 0.09641040760669271,
      "grad_norm": 0.13067440688610077,
      "learning_rate": 0.00012124053803404966,
      "loss": 0.0019,
      "step": 1308
    },
    {
      "epoch": 0.0965578241320852,
      "grad_norm": 0.05831296741962433,
      "learning_rate": 0.00012124040505251365,
      "loss": 1.1599,
      "step": 1310
    },
    {
      "epoch": 0.09670524065747771,
      "grad_norm": 22.675302505493164,
      "learning_rate": 0.00012124027186789477,
      "loss": 1.7971,
      "step": 1312
    },
    {
      "epoch": 0.09670524065747771,
      "eval_1_ratio_diff": -0.07638347622759162,
      "eval_accuracy": 0.8207326578332035,
      "eval_f1": 0.8057432432432432,
      "eval_loss": 0.9711058735847473,
      "eval_precision": 0.8784530386740331,
      "eval_recall": 0.7441497659906396,
      "eval_runtime": 1440.5355,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1312
    },
    {
      "epoch": 0.0968526571828702,
      "grad_norm": 245.76840209960938,
      "learning_rate": 0.00012124013848019342,
      "loss": 2.4617,
      "step": 1314
    },
    {
      "epoch": 0.09700007370826269,
      "grad_norm": 21.968021392822266,
      "learning_rate": 0.00012124000488941008,
      "loss": 1.4503,
      "step": 1316
    },
    {
      "epoch": 0.0971474902336552,
      "grad_norm": 0.03653848171234131,
      "learning_rate": 0.00012123987109554522,
      "loss": 0.0015,
      "step": 1318
    },
    {
      "epoch": 0.09729490675904769,
      "grad_norm": 0.16115568578243256,
      "learning_rate": 0.00012123973709859925,
      "loss": 0.0201,
      "step": 1320
    },
    {
      "epoch": 0.09744232328444019,
      "grad_norm": 34.74784851074219,
      "learning_rate": 0.00012123960289857264,
      "loss": 1.092,
      "step": 1322
    },
    {
      "epoch": 0.09758973980983268,
      "grad_norm": 17.326068878173828,
      "learning_rate": 0.00012123946849546582,
      "loss": 0.0826,
      "step": 1324
    },
    {
      "epoch": 0.09773715633522517,
      "grad_norm": 22.532522201538086,
      "learning_rate": 0.00012123933388927926,
      "loss": 2.0905,
      "step": 1326
    },
    {
      "epoch": 0.09788457286061768,
      "grad_norm": 0.09820098429918289,
      "learning_rate": 0.0001212391990800134,
      "loss": 0.002,
      "step": 1328
    },
    {
      "epoch": 0.09788457286061768,
      "eval_1_ratio_diff": 0.05689789555728764,
      "eval_accuracy": 0.8106001558846454,
      "eval_f1": 0.8206642066420664,
      "eval_loss": 0.7345473170280457,
      "eval_precision": 0.7787114845938375,
      "eval_recall": 0.8673946957878315,
      "eval_runtime": 1439.7279,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1328
    },
    {
      "epoch": 0.09803198938601017,
      "grad_norm": 0.11757276207208633,
      "learning_rate": 0.00012123906406766871,
      "loss": 0.0079,
      "step": 1330
    },
    {
      "epoch": 0.09817940591140267,
      "grad_norm": 24.76763153076172,
      "learning_rate": 0.00012123892885224563,
      "loss": 1.3389,
      "step": 1332
    },
    {
      "epoch": 0.09832682243679516,
      "grad_norm": 0.0959400087594986,
      "learning_rate": 0.0001212387934337446,
      "loss": 0.9421,
      "step": 1334
    },
    {
      "epoch": 0.09847423896218765,
      "grad_norm": 0.3935282826423645,
      "learning_rate": 0.00012123865781216609,
      "loss": 0.0104,
      "step": 1336
    },
    {
      "epoch": 0.09862165548758016,
      "grad_norm": 22.505558013916016,
      "learning_rate": 0.00012123852198751054,
      "loss": 0.7555,
      "step": 1338
    },
    {
      "epoch": 0.09876907201297265,
      "grad_norm": 1.3673774003982544,
      "learning_rate": 0.00012123838595977844,
      "loss": 0.0409,
      "step": 1340
    },
    {
      "epoch": 0.09891648853836515,
      "grad_norm": 0.6889051198959351,
      "learning_rate": 0.0001212382497289702,
      "loss": 0.0269,
      "step": 1342
    },
    {
      "epoch": 0.09906390506375765,
      "grad_norm": 0.2218835949897766,
      "learning_rate": 0.0001212381132950863,
      "loss": 0.9572,
      "step": 1344
    },
    {
      "epoch": 0.09906390506375765,
      "eval_1_ratio_diff": 0.07560405300077944,
      "eval_accuracy": 0.8277474668745128,
      "eval_f1": 0.8397389412617839,
      "eval_loss": 0.7541435360908508,
      "eval_precision": 0.7845528455284553,
      "eval_recall": 0.9032761310452418,
      "eval_runtime": 1440.149,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1344
    },
    {
      "epoch": 0.09921132158915015,
      "grad_norm": 0.08860000967979431,
      "learning_rate": 0.0001212379766581272,
      "loss": 0.0038,
      "step": 1346
    },
    {
      "epoch": 0.09935873811454264,
      "grad_norm": 0.1549777388572693,
      "learning_rate": 0.00012123783981809338,
      "loss": 0.6904,
      "step": 1348
    },
    {
      "epoch": 0.09950615463993513,
      "grad_norm": 0.4857753813266754,
      "learning_rate": 0.00012123770277498524,
      "loss": 0.005,
      "step": 1350
    },
    {
      "epoch": 0.09965357116532764,
      "grad_norm": 0.5475670099258423,
      "learning_rate": 0.00012123756552880328,
      "loss": 0.0057,
      "step": 1352
    },
    {
      "epoch": 0.09980098769072013,
      "grad_norm": 0.8644952178001404,
      "learning_rate": 0.00012123742807954794,
      "loss": 2.7045,
      "step": 1354
    },
    {
      "epoch": 0.09994840421611263,
      "grad_norm": 0.15051943063735962,
      "learning_rate": 0.0001212372904272197,
      "loss": 0.7707,
      "step": 1356
    },
    {
      "epoch": 0.10009582074150512,
      "grad_norm": 0.04434569925069809,
      "learning_rate": 0.00012123715257181902,
      "loss": 0.0007,
      "step": 1358
    },
    {
      "epoch": 0.10024323726689761,
      "grad_norm": 0.03767779842019081,
      "learning_rate": 0.00012123701451334634,
      "loss": 1.7987,
      "step": 1360
    },
    {
      "epoch": 0.10024323726689761,
      "eval_1_ratio_diff": 0.10054559625876847,
      "eval_accuracy": 0.8589243959469992,
      "eval_f1": 0.8717221828490432,
      "eval_loss": 0.7392542958259583,
      "eval_precision": 0.7987012987012987,
      "eval_recall": 0.9594383775351014,
      "eval_runtime": 1439.9484,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1360
    },
    {
      "epoch": 0.10039065379229012,
      "grad_norm": 0.032404810190200806,
      "learning_rate": 0.00012123687625180216,
      "loss": 1.3724,
      "step": 1362
    },
    {
      "epoch": 0.10053807031768261,
      "grad_norm": 0.02649116888642311,
      "learning_rate": 0.00012123673778718691,
      "loss": 1.3162,
      "step": 1364
    },
    {
      "epoch": 0.10068548684307511,
      "grad_norm": 0.120023712515831,
      "learning_rate": 0.00012123659911950106,
      "loss": 0.0026,
      "step": 1366
    },
    {
      "epoch": 0.1008329033684676,
      "grad_norm": 0.28818804025650024,
      "learning_rate": 0.00012123646024874507,
      "loss": 0.0048,
      "step": 1368
    },
    {
      "epoch": 0.1009803198938601,
      "grad_norm": 0.5911560654640198,
      "learning_rate": 0.00012123632117491944,
      "loss": 0.0142,
      "step": 1370
    },
    {
      "epoch": 0.1011277364192526,
      "grad_norm": 22.85379409790039,
      "learning_rate": 0.00012123618189802459,
      "loss": 1.8439,
      "step": 1372
    },
    {
      "epoch": 0.10127515294464509,
      "grad_norm": 0.37168049812316895,
      "learning_rate": 0.00012123604241806102,
      "loss": 0.0065,
      "step": 1374
    },
    {
      "epoch": 0.1014225694700376,
      "grad_norm": 0.10927151888608932,
      "learning_rate": 0.00012123590273502919,
      "loss": 1.1801,
      "step": 1376
    },
    {
      "epoch": 0.1014225694700376,
      "eval_1_ratio_diff": 0.021823850350740415,
      "eval_accuracy": 0.8862042088854248,
      "eval_f1": 0.8885496183206106,
      "eval_loss": 0.5426926612854004,
      "eval_precision": 0.8699551569506726,
      "eval_recall": 0.9079563182527302,
      "eval_runtime": 1440.2334,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1376
    },
    {
      "epoch": 0.10156998599543009,
      "grad_norm": 0.038460321724414825,
      "learning_rate": 0.00012123576284892955,
      "loss": 0.0101,
      "step": 1378
    },
    {
      "epoch": 0.10171740252082258,
      "grad_norm": 25.498838424682617,
      "learning_rate": 0.00012123562275976258,
      "loss": 1.3981,
      "step": 1380
    },
    {
      "epoch": 0.10186481904621508,
      "grad_norm": 159.9862060546875,
      "learning_rate": 0.00012123548246752878,
      "loss": 1.2495,
      "step": 1382
    },
    {
      "epoch": 0.10201223557160757,
      "grad_norm": 0.06094611436128616,
      "learning_rate": 0.00012123534197222857,
      "loss": 0.0046,
      "step": 1384
    },
    {
      "epoch": 0.10215965209700008,
      "grad_norm": 26.12101173400879,
      "learning_rate": 0.00012123520127386245,
      "loss": 1.3714,
      "step": 1386
    },
    {
      "epoch": 0.10230706862239257,
      "grad_norm": 48.13339614868164,
      "learning_rate": 0.00012123506037243086,
      "loss": 0.0869,
      "step": 1388
    },
    {
      "epoch": 0.10245448514778506,
      "grad_norm": 0.5880022644996643,
      "learning_rate": 0.00012123491926793433,
      "loss": 0.6204,
      "step": 1390
    },
    {
      "epoch": 0.10260190167317756,
      "grad_norm": 24.889034271240234,
      "learning_rate": 0.00012123477796037328,
      "loss": 0.9381,
      "step": 1392
    },
    {
      "epoch": 0.10260190167317756,
      "eval_1_ratio_diff": 0.09664848012470773,
      "eval_accuracy": 0.8487918939984411,
      "eval_f1": 0.8620199146514936,
      "eval_loss": 0.5980536937713623,
      "eval_precision": 0.792156862745098,
      "eval_recall": 0.9453978159126365,
      "eval_runtime": 1440.6605,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1392
    },
    {
      "epoch": 0.10274931819857006,
      "grad_norm": 23.767898559570312,
      "learning_rate": 0.00012123463644974822,
      "loss": 1.3434,
      "step": 1394
    },
    {
      "epoch": 0.10289673472396256,
      "grad_norm": 0.05240378528833389,
      "learning_rate": 0.0001212344947360596,
      "loss": 0.006,
      "step": 1396
    },
    {
      "epoch": 0.10304415124935505,
      "grad_norm": 0.05574984475970268,
      "learning_rate": 0.00012123435281930789,
      "loss": 0.0062,
      "step": 1398
    },
    {
      "epoch": 0.10319156777474756,
      "grad_norm": 25.049999237060547,
      "learning_rate": 0.00012123421069949359,
      "loss": 0.7515,
      "step": 1400
    },
    {
      "epoch": 0.10333898430014005,
      "grad_norm": 0.6514810919761658,
      "learning_rate": 0.00012123406837661717,
      "loss": 0.0286,
      "step": 1402
    },
    {
      "epoch": 0.10348640082553254,
      "grad_norm": 25.315319061279297,
      "learning_rate": 0.00012123392585067908,
      "loss": 0.6189,
      "step": 1404
    },
    {
      "epoch": 0.10363381735092504,
      "grad_norm": 24.714847564697266,
      "learning_rate": 0.00012123378312167983,
      "loss": 0.7992,
      "step": 1406
    },
    {
      "epoch": 0.10378123387631753,
      "grad_norm": 21.79236602783203,
      "learning_rate": 0.00012123364018961989,
      "loss": 1.8653,
      "step": 1408
    },
    {
      "epoch": 0.10378123387631753,
      "eval_1_ratio_diff": -0.018706157443491855,
      "eval_accuracy": 0.8752922837100545,
      "eval_f1": 0.8728139904610492,
      "eval_loss": 0.573785662651062,
      "eval_precision": 0.8897893030794165,
      "eval_recall": 0.8564742589703588,
      "eval_runtime": 1440.8628,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.446,
      "step": 1408
    },
    {
      "epoch": 0.10392865040171004,
      "grad_norm": 21.346384048461914,
      "learning_rate": 0.00012123349705449974,
      "loss": 1.923,
      "step": 1410
    },
    {
      "epoch": 0.10407606692710253,
      "grad_norm": 10.506868362426758,
      "learning_rate": 0.00012123335371631985,
      "loss": 0.5301,
      "step": 1412
    },
    {
      "epoch": 0.10422348345249502,
      "grad_norm": 1.1288862228393555,
      "learning_rate": 0.00012123321017508069,
      "loss": 0.0411,
      "step": 1414
    },
    {
      "epoch": 0.10437089997788752,
      "grad_norm": 0.11825437843799591,
      "learning_rate": 0.00012123306643078279,
      "loss": 0.0026,
      "step": 1416
    },
    {
      "epoch": 0.10451831650328001,
      "grad_norm": 0.14662548899650574,
      "learning_rate": 0.00012123292248342657,
      "loss": 1.3863,
      "step": 1418
    },
    {
      "epoch": 0.10466573302867252,
      "grad_norm": 1.1349258422851562,
      "learning_rate": 0.00012123277833301255,
      "loss": 0.0148,
      "step": 1420
    },
    {
      "epoch": 0.10481314955406501,
      "grad_norm": 20.21559715270996,
      "learning_rate": 0.00012123263397954121,
      "loss": 2.3576,
      "step": 1422
    },
    {
      "epoch": 0.1049605660794575,
      "grad_norm": 27.789064407348633,
      "learning_rate": 0.00012123248942301302,
      "loss": 1.3553,
      "step": 1424
    },
    {
      "epoch": 0.1049605660794575,
      "eval_1_ratio_diff": -0.18082618862042088,
      "eval_accuracy": 0.7833203429462198,
      "eval_f1": 0.7352380952380952,
      "eval_loss": 0.8213497400283813,
      "eval_precision": 0.9437652811735942,
      "eval_recall": 0.6021840873634945,
      "eval_runtime": 1440.567,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1424
    },
    {
      "epoch": 0.10510798260485,
      "grad_norm": 0.472825288772583,
      "learning_rate": 0.00012123234466342849,
      "loss": 0.0161,
      "step": 1426
    },
    {
      "epoch": 0.1052553991302425,
      "grad_norm": 44.982635498046875,
      "learning_rate": 0.00012123219970078806,
      "loss": 0.216,
      "step": 1428
    },
    {
      "epoch": 0.105402815655635,
      "grad_norm": 20.85587501525879,
      "learning_rate": 0.00012123205453509228,
      "loss": 1.7555,
      "step": 1430
    },
    {
      "epoch": 0.10555023218102749,
      "grad_norm": 19.432729721069336,
      "learning_rate": 0.00012123190916634158,
      "loss": 0.9614,
      "step": 1432
    },
    {
      "epoch": 0.10569764870641998,
      "grad_norm": 1.2885982990264893,
      "learning_rate": 0.00012123176359453646,
      "loss": 0.7221,
      "step": 1434
    },
    {
      "epoch": 0.10584506523181249,
      "grad_norm": 39.255924224853516,
      "learning_rate": 0.00012123161781967742,
      "loss": 0.7135,
      "step": 1436
    },
    {
      "epoch": 0.10599248175720498,
      "grad_norm": 1.8398678302764893,
      "learning_rate": 0.00012123147184176495,
      "loss": 1.7681,
      "step": 1438
    },
    {
      "epoch": 0.10613989828259748,
      "grad_norm": 0.04480309039354324,
      "learning_rate": 0.00012123132566079952,
      "loss": 0.0198,
      "step": 1440
    },
    {
      "epoch": 0.10613989828259748,
      "eval_1_ratio_diff": 0.013250194855806696,
      "eval_accuracy": 0.8495713172252534,
      "eval_f1": 0.8514241724403387,
      "eval_loss": 0.5520654916763306,
      "eval_precision": 0.8404255319148937,
      "eval_recall": 0.8627145085803433,
      "eval_runtime": 1441.2669,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 1440
    },
    {
      "epoch": 0.10628731480798997,
      "grad_norm": 0.10228992253541946,
      "learning_rate": 0.00012123117927678164,
      "loss": 0.0767,
      "step": 1442
    },
    {
      "epoch": 0.10643473133338248,
      "grad_norm": 0.14043979346752167,
      "learning_rate": 0.0001212310326897118,
      "loss": 0.062,
      "step": 1444
    },
    {
      "epoch": 0.10658214785877497,
      "grad_norm": 18.650835037231445,
      "learning_rate": 0.00012123088589959048,
      "loss": 0.5735,
      "step": 1446
    },
    {
      "epoch": 0.10672956438416746,
      "grad_norm": 18.65635871887207,
      "learning_rate": 0.00012123073890641816,
      "loss": 0.697,
      "step": 1448
    },
    {
      "epoch": 0.10687698090955997,
      "grad_norm": 24.889253616333008,
      "learning_rate": 0.00012123059171019538,
      "loss": 1.1449,
      "step": 1450
    },
    {
      "epoch": 0.10702439743495246,
      "grad_norm": 0.32461315393447876,
      "learning_rate": 0.00012123044431092258,
      "loss": 0.0108,
      "step": 1452
    },
    {
      "epoch": 0.10717181396034496,
      "grad_norm": 0.195255309343338,
      "learning_rate": 0.00012123029670860029,
      "loss": 0.0082,
      "step": 1454
    },
    {
      "epoch": 0.10731923048573745,
      "grad_norm": 0.3942672312259674,
      "learning_rate": 0.00012123014890322897,
      "loss": 0.0278,
      "step": 1456
    },
    {
      "epoch": 0.10731923048573745,
      "eval_1_ratio_diff": -0.05455962587685115,
      "eval_accuracy": 0.8487918939984411,
      "eval_f1": 0.8399339933993399,
      "eval_loss": 0.6235100626945496,
      "eval_precision": 0.8914185639229422,
      "eval_recall": 0.7940717628705148,
      "eval_runtime": 1441.051,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.446,
      "step": 1456
    },
    {
      "epoch": 0.10746664701112994,
      "grad_norm": 20.8675537109375,
      "learning_rate": 0.00012123000089480917,
      "loss": 2.0488,
      "step": 1458
    },
    {
      "epoch": 0.10761406353652245,
      "grad_norm": 19.674894332885742,
      "learning_rate": 0.00012122985268334132,
      "loss": 0.9135,
      "step": 1460
    },
    {
      "epoch": 0.10776148006191494,
      "grad_norm": 0.16670210659503937,
      "learning_rate": 0.00012122970426882597,
      "loss": 0.0074,
      "step": 1462
    },
    {
      "epoch": 0.10790889658730744,
      "grad_norm": 20.293106079101562,
      "learning_rate": 0.00012122955565126358,
      "loss": 1.0217,
      "step": 1464
    },
    {
      "epoch": 0.10805631311269993,
      "grad_norm": 0.6973972916603088,
      "learning_rate": 0.00012122940683065467,
      "loss": 0.9069,
      "step": 1466
    },
    {
      "epoch": 0.10820372963809242,
      "grad_norm": 25.440162658691406,
      "learning_rate": 0.00012122925780699975,
      "loss": 1.5865,
      "step": 1468
    },
    {
      "epoch": 0.10835114616348493,
      "grad_norm": 4.310685157775879,
      "learning_rate": 0.00012122910858029928,
      "loss": 0.4176,
      "step": 1470
    },
    {
      "epoch": 0.10849856268887742,
      "grad_norm": 0.3989110291004181,
      "learning_rate": 0.00012122895915055379,
      "loss": 1.2954,
      "step": 1472
    },
    {
      "epoch": 0.10849856268887742,
      "eval_1_ratio_diff": 0.021823850350740415,
      "eval_accuracy": 0.8581449727201871,
      "eval_f1": 0.8610687022900764,
      "eval_loss": 0.4833138585090637,
      "eval_precision": 0.8430493273542601,
      "eval_recall": 0.8798751950078003,
      "eval_runtime": 1440.7462,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1472
    },
    {
      "epoch": 0.10864597921426992,
      "grad_norm": 0.3485046923160553,
      "learning_rate": 0.00012122880951776379,
      "loss": 0.0092,
      "step": 1474
    },
    {
      "epoch": 0.10879339573966242,
      "grad_norm": 31.38138198852539,
      "learning_rate": 0.00012122865968192974,
      "loss": 2.2038,
      "step": 1476
    },
    {
      "epoch": 0.1089408122650549,
      "grad_norm": 0.1756962537765503,
      "learning_rate": 0.00012122850964305218,
      "loss": 0.0039,
      "step": 1478
    },
    {
      "epoch": 0.10908822879044741,
      "grad_norm": 0.4892203211784363,
      "learning_rate": 0.0001212283594011316,
      "loss": 1.2883,
      "step": 1480
    },
    {
      "epoch": 0.1092356453158399,
      "grad_norm": 0.38502997159957886,
      "learning_rate": 0.00012122820895616849,
      "loss": 0.015,
      "step": 1482
    },
    {
      "epoch": 0.1093830618412324,
      "grad_norm": 0.3273461163043976,
      "learning_rate": 0.00012122805830816339,
      "loss": 0.0328,
      "step": 1484
    },
    {
      "epoch": 0.1095304783666249,
      "grad_norm": 53.52883529663086,
      "learning_rate": 0.00012122790745711678,
      "loss": 1.4843,
      "step": 1486
    },
    {
      "epoch": 0.10967789489201739,
      "grad_norm": 0.2854032814502716,
      "learning_rate": 0.00012122775640302914,
      "loss": 0.0227,
      "step": 1488
    },
    {
      "epoch": 0.10967789489201739,
      "eval_1_ratio_diff": 0.014809041309431059,
      "eval_accuracy": 0.8448947778643804,
      "eval_f1": 0.8470407378939278,
      "eval_loss": 0.6297035217285156,
      "eval_precision": 0.8348484848484848,
      "eval_recall": 0.859594383775351,
      "eval_runtime": 1441.3865,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 1488
    },
    {
      "epoch": 0.1098253114174099,
      "grad_norm": 0.2311754673719406,
      "learning_rate": 0.00012122760514590104,
      "loss": 0.0063,
      "step": 1490
    },
    {
      "epoch": 0.10997272794280238,
      "grad_norm": 21.77858543395996,
      "learning_rate": 0.00012122745368573293,
      "loss": 1.6042,
      "step": 1492
    },
    {
      "epoch": 0.11012014446819489,
      "grad_norm": 0.12185559421777725,
      "learning_rate": 0.00012122730202252534,
      "loss": 0.0054,
      "step": 1494
    },
    {
      "epoch": 0.11026756099358738,
      "grad_norm": 0.07674361765384674,
      "learning_rate": 0.00012122715015627879,
      "loss": 1.2277,
      "step": 1496
    },
    {
      "epoch": 0.11041497751897988,
      "grad_norm": 1.0588175058364868,
      "learning_rate": 0.00012122699808699376,
      "loss": 0.0121,
      "step": 1498
    },
    {
      "epoch": 0.11056239404437238,
      "grad_norm": 148.854248046875,
      "learning_rate": 0.00012122684581467078,
      "loss": 1.6651,
      "step": 1500
    },
    {
      "epoch": 0.11070981056976487,
      "grad_norm": 0.07673851400613785,
      "learning_rate": 0.00012122669333931036,
      "loss": 0.0037,
      "step": 1502
    },
    {
      "epoch": 0.11085722709515737,
      "grad_norm": 0.14825621247291565,
      "learning_rate": 0.00012122654066091301,
      "loss": 0.0033,
      "step": 1504
    },
    {
      "epoch": 0.11085722709515737,
      "eval_1_ratio_diff": 0.0,
      "eval_accuracy": 0.8394388152766953,
      "eval_f1": 0.8393135725429017,
      "eval_loss": 0.7106738686561584,
      "eval_precision": 0.8393135725429017,
      "eval_recall": 0.8393135725429017,
      "eval_runtime": 1440.7668,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.446,
      "step": 1504
    },
    {
      "epoch": 0.11100464362054986,
      "grad_norm": 0.3325727880001068,
      "learning_rate": 0.00012122638777947923,
      "loss": 0.0043,
      "step": 1506
    },
    {
      "epoch": 0.11115206014594237,
      "grad_norm": 0.16898727416992188,
      "learning_rate": 0.00012122623469500956,
      "loss": 1.3778,
      "step": 1508
    },
    {
      "epoch": 0.11129947667133486,
      "grad_norm": 24.855741500854492,
      "learning_rate": 0.00012122608140750447,
      "loss": 1.1577,
      "step": 1510
    },
    {
      "epoch": 0.11144689319672735,
      "grad_norm": 0.15268811583518982,
      "learning_rate": 0.0001212259279169645,
      "loss": 0.0057,
      "step": 1512
    },
    {
      "epoch": 0.11159430972211985,
      "grad_norm": 37.5292854309082,
      "learning_rate": 0.00012122577422339017,
      "loss": 2.6301,
      "step": 1514
    },
    {
      "epoch": 0.11174172624751234,
      "grad_norm": 0.23876796662807465,
      "learning_rate": 0.000121225620326782,
      "loss": 0.0067,
      "step": 1516
    },
    {
      "epoch": 0.11188914277290485,
      "grad_norm": 0.14355158805847168,
      "learning_rate": 0.00012122546622714046,
      "loss": 0.0082,
      "step": 1518
    },
    {
      "epoch": 0.11203655929829734,
      "grad_norm": 0.14837191998958588,
      "learning_rate": 0.00012122531192446613,
      "loss": 1.1954,
      "step": 1520
    },
    {
      "epoch": 0.11203655929829734,
      "eval_1_ratio_diff": -0.006235385814497285,
      "eval_accuracy": 0.8456742010911925,
      "eval_f1": 0.8445839874411303,
      "eval_loss": 0.5836101174354553,
      "eval_precision": 0.8499210110584519,
      "eval_recall": 0.8393135725429017,
      "eval_runtime": 1440.5652,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1520
    },
    {
      "epoch": 0.11218397582368983,
      "grad_norm": 1.0671629905700684,
      "learning_rate": 0.0001212251574187595,
      "loss": 0.0128,
      "step": 1522
    },
    {
      "epoch": 0.11233139234908233,
      "grad_norm": 22.311914443969727,
      "learning_rate": 0.00012122500271002106,
      "loss": 1.1378,
      "step": 1524
    },
    {
      "epoch": 0.11247880887447483,
      "grad_norm": 24.98206329345703,
      "learning_rate": 0.00012122484779825135,
      "loss": 1.4429,
      "step": 1526
    },
    {
      "epoch": 0.11262622539986733,
      "grad_norm": 0.10400061309337616,
      "learning_rate": 0.00012122469268345093,
      "loss": 0.8205,
      "step": 1528
    },
    {
      "epoch": 0.11277364192525982,
      "grad_norm": 0.1311234086751938,
      "learning_rate": 0.00012122453736562024,
      "loss": 0.0052,
      "step": 1530
    },
    {
      "epoch": 0.11292105845065231,
      "grad_norm": 24.459693908691406,
      "learning_rate": 0.00012122438184475986,
      "loss": 0.8169,
      "step": 1532
    },
    {
      "epoch": 0.11306847497604482,
      "grad_norm": 0.6599878072738647,
      "learning_rate": 0.0001212242261208703,
      "loss": 0.0172,
      "step": 1534
    },
    {
      "epoch": 0.11321589150143731,
      "grad_norm": 0.7011798024177551,
      "learning_rate": 0.00012122407019395205,
      "loss": 0.0101,
      "step": 1536
    },
    {
      "epoch": 0.11321589150143731,
      "eval_1_ratio_diff": -0.011691348402182389,
      "eval_accuracy": 0.852689010132502,
      "eval_f1": 0.850828729281768,
      "eval_loss": 0.616263747215271,
      "eval_precision": 0.8610223642172524,
      "eval_recall": 0.8408736349453978,
      "eval_runtime": 1440.4808,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1536
    },
    {
      "epoch": 0.11336330802682981,
      "grad_norm": 0.11136188358068466,
      "learning_rate": 0.00012122391406400568,
      "loss": 0.0043,
      "step": 1538
    },
    {
      "epoch": 0.1135107245522223,
      "grad_norm": 0.09410673379898071,
      "learning_rate": 0.00012122375773103169,
      "loss": 0.0029,
      "step": 1540
    },
    {
      "epoch": 0.1136581410776148,
      "grad_norm": 0.0886264443397522,
      "learning_rate": 0.00012122360119503061,
      "loss": 0.0027,
      "step": 1542
    },
    {
      "epoch": 0.1138055576030073,
      "grad_norm": 0.06019139662384987,
      "learning_rate": 0.00012122344445600295,
      "loss": 0.0012,
      "step": 1544
    },
    {
      "epoch": 0.11395297412839979,
      "grad_norm": 24.27945327758789,
      "learning_rate": 0.00012122328751394924,
      "loss": 1.2476,
      "step": 1546
    },
    {
      "epoch": 0.1141003906537923,
      "grad_norm": 0.07040827721357346,
      "learning_rate": 0.00012122313036887001,
      "loss": 1.05,
      "step": 1548
    },
    {
      "epoch": 0.11424780717918478,
      "grad_norm": 21.743165969848633,
      "learning_rate": 0.00012122297302076579,
      "loss": 3.2561,
      "step": 1550
    },
    {
      "epoch": 0.11439522370457729,
      "grad_norm": 0.21815018355846405,
      "learning_rate": 0.00012122281546963711,
      "loss": 0.0085,
      "step": 1552
    },
    {
      "epoch": 0.11439522370457729,
      "eval_1_ratio_diff": 0.05845674201091189,
      "eval_accuracy": 0.8620420888542478,
      "eval_f1": 0.8695652173913043,
      "eval_loss": 0.5588727593421936,
      "eval_precision": 0.8240223463687151,
      "eval_recall": 0.9204368174726989,
      "eval_runtime": 1440.4266,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1552
    },
    {
      "epoch": 0.11454264022996978,
      "grad_norm": 0.3978158235549927,
      "learning_rate": 0.0001212226577154845,
      "loss": 0.0087,
      "step": 1554
    },
    {
      "epoch": 0.11469005675536227,
      "grad_norm": 0.07042258977890015,
      "learning_rate": 0.00012122249975830848,
      "loss": 0.0021,
      "step": 1556
    },
    {
      "epoch": 0.11483747328075478,
      "grad_norm": 0.16607695817947388,
      "learning_rate": 0.00012122234159810957,
      "loss": 0.0024,
      "step": 1558
    },
    {
      "epoch": 0.11498488980614727,
      "grad_norm": 0.11605281382799149,
      "learning_rate": 0.00012122218323488832,
      "loss": 0.0026,
      "step": 1560
    },
    {
      "epoch": 0.11513230633153977,
      "grad_norm": 24.77876091003418,
      "learning_rate": 0.00012122202466864525,
      "loss": 1.4127,
      "step": 1562
    },
    {
      "epoch": 0.11527972285693226,
      "grad_norm": 0.17567309737205505,
      "learning_rate": 0.00012122186589938088,
      "loss": 0.0037,
      "step": 1564
    },
    {
      "epoch": 0.11542713938232475,
      "grad_norm": 0.19481156766414642,
      "learning_rate": 0.00012122170692709576,
      "loss": 0.6267,
      "step": 1566
    },
    {
      "epoch": 0.11557455590771726,
      "grad_norm": 24.115211486816406,
      "learning_rate": 0.00012122154775179043,
      "loss": 0.8964,
      "step": 1568
    },
    {
      "epoch": 0.11557455590771726,
      "eval_1_ratio_diff": 0.03975058456742009,
      "eval_accuracy": 0.8713951675759938,
      "eval_f1": 0.8762190547636909,
      "eval_loss": 0.5382638573646545,
      "eval_precision": 0.8439306358381503,
      "eval_recall": 0.9110764430577223,
      "eval_runtime": 1441.1253,
      "eval_samples_per_second": 0.89,
      "eval_steps_per_second": 0.445,
      "step": 1568
    },
    {
      "epoch": 0.11572197243310975,
      "grad_norm": 0.140619158744812,
      "learning_rate": 0.0001212213883734654,
      "loss": 0.0054,
      "step": 1570
    },
    {
      "epoch": 0.11586938895850225,
      "grad_norm": 0.12547695636749268,
      "learning_rate": 0.00012122122879212122,
      "loss": 0.3549,
      "step": 1572
    },
    {
      "epoch": 0.11601680548389474,
      "grad_norm": 0.12592053413391113,
      "learning_rate": 0.00012122106900775843,
      "loss": 0.0105,
      "step": 1574
    },
    {
      "epoch": 0.11616422200928724,
      "grad_norm": 0.11613775789737701,
      "learning_rate": 0.00012122090902037755,
      "loss": 0.0044,
      "step": 1576
    },
    {
      "epoch": 0.11631163853467974,
      "grad_norm": 0.06327944993972778,
      "learning_rate": 0.00012122074882997911,
      "loss": 0.0052,
      "step": 1578
    },
    {
      "epoch": 0.11645905506007223,
      "grad_norm": 0.26552170515060425,
      "learning_rate": 0.00012122058843656367,
      "loss": 0.0049,
      "step": 1580
    },
    {
      "epoch": 0.11660647158546474,
      "grad_norm": 0.05181106925010681,
      "learning_rate": 0.00012122042784013175,
      "loss": 0.8965,
      "step": 1582
    },
    {
      "epoch": 0.11675388811085723,
      "grad_norm": 0.07022108882665634,
      "learning_rate": 0.0001212202670406839,
      "loss": 1.4149,
      "step": 1584
    },
    {
      "epoch": 0.11675388811085723,
      "eval_1_ratio_diff": 0.014029618082618822,
      "eval_accuracy": 0.8565861262665627,
      "eval_f1": 0.8584615384615385,
      "eval_loss": 0.6103407144546509,
      "eval_precision": 0.8467374810318664,
      "eval_recall": 0.8705148205928237,
      "eval_runtime": 1439.8898,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1584
    },
    {
      "epoch": 0.11690130463624972,
      "grad_norm": 0.20126762986183167,
      "learning_rate": 0.00012122010603822065,
      "loss": 0.0077,
      "step": 1586
    },
    {
      "epoch": 0.11704872116164222,
      "grad_norm": 0.09971367567777634,
      "learning_rate": 0.00012121994483274255,
      "loss": 0.0049,
      "step": 1588
    },
    {
      "epoch": 0.11719613768703471,
      "grad_norm": 0.06467089802026749,
      "learning_rate": 0.00012121978342425012,
      "loss": 0.005,
      "step": 1590
    },
    {
      "epoch": 0.11734355421242722,
      "grad_norm": 0.06981782615184784,
      "learning_rate": 0.00012121962181274392,
      "loss": 0.0028,
      "step": 1592
    },
    {
      "epoch": 0.11749097073781971,
      "grad_norm": 0.12012193351984024,
      "learning_rate": 0.00012121945999822448,
      "loss": 0.0022,
      "step": 1594
    },
    {
      "epoch": 0.11763838726321221,
      "grad_norm": 24.71665382385254,
      "learning_rate": 0.00012121929798069236,
      "loss": 1.756,
      "step": 1596
    },
    {
      "epoch": 0.1177858037886047,
      "grad_norm": 0.31951653957366943,
      "learning_rate": 0.0001212191357601481,
      "loss": 0.004,
      "step": 1598
    },
    {
      "epoch": 0.1179332203139972,
      "grad_norm": 0.03907225281000137,
      "learning_rate": 0.0001212189733365922,
      "loss": 0.0018,
      "step": 1600
    },
    {
      "epoch": 0.1179332203139972,
      "eval_1_ratio_diff": 0.003117692907248615,
      "eval_accuracy": 0.8628215120810601,
      "eval_f1": 0.8631415241057543,
      "eval_loss": 0.6979319453239441,
      "eval_precision": 0.8604651162790697,
      "eval_recall": 0.8658346333853354,
      "eval_runtime": 1440.2188,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1600
    },
    {
      "epoch": 0.1180806368393897,
      "grad_norm": 0.14489419758319855,
      "learning_rate": 0.00012121881071002525,
      "loss": 0.004,
      "step": 1602
    },
    {
      "epoch": 0.11822805336478219,
      "grad_norm": 0.02964833378791809,
      "learning_rate": 0.00012121864788044781,
      "loss": 0.0014,
      "step": 1604
    },
    {
      "epoch": 0.1183754698901747,
      "grad_norm": 0.1308467835187912,
      "learning_rate": 0.00012121848484786039,
      "loss": 1.2428,
      "step": 1606
    },
    {
      "epoch": 0.11852288641556719,
      "grad_norm": 0.012196216732263565,
      "learning_rate": 0.00012121832161226353,
      "loss": 0.0039,
      "step": 1608
    },
    {
      "epoch": 0.11867030294095968,
      "grad_norm": 26.82729721069336,
      "learning_rate": 0.0001212181581736578,
      "loss": 0.9557,
      "step": 1610
    },
    {
      "epoch": 0.11881771946635218,
      "grad_norm": 55.06840515136719,
      "learning_rate": 0.00012121799453204374,
      "loss": 1.341,
      "step": 1612
    },
    {
      "epoch": 0.11896513599174467,
      "grad_norm": 0.10571928322315216,
      "learning_rate": 0.0001212178306874219,
      "loss": 0.0018,
      "step": 1614
    },
    {
      "epoch": 0.11911255251713718,
      "grad_norm": 23.6888427734375,
      "learning_rate": 0.00012121766663979284,
      "loss": 2.8349,
      "step": 1616
    },
    {
      "epoch": 0.11911255251713718,
      "eval_1_ratio_diff": 0.001558846453624252,
      "eval_accuracy": 0.8612626656274357,
      "eval_f1": 0.8613707165109035,
      "eval_loss": 0.6912267804145813,
      "eval_precision": 0.8600311041990669,
      "eval_recall": 0.8627145085803433,
      "eval_runtime": 1439.8805,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1616
    },
    {
      "epoch": 0.11925996904252967,
      "grad_norm": 0.013893804512917995,
      "learning_rate": 0.00012121750238915708,
      "loss": 0.0039,
      "step": 1618
    },
    {
      "epoch": 0.11940738556792216,
      "grad_norm": 0.0326993353664875,
      "learning_rate": 0.00012121733793551521,
      "loss": 0.0071,
      "step": 1620
    },
    {
      "epoch": 0.11955480209331466,
      "grad_norm": 0.021896235644817352,
      "learning_rate": 0.00012121717327886775,
      "loss": 0.4694,
      "step": 1622
    },
    {
      "epoch": 0.11970221861870715,
      "grad_norm": 2.5759835243225098,
      "learning_rate": 0.00012121700841921524,
      "loss": 0.8411,
      "step": 1624
    },
    {
      "epoch": 0.11984963514409966,
      "grad_norm": 6.512516021728516,
      "learning_rate": 0.00012121684335655828,
      "loss": 1.2897,
      "step": 1626
    },
    {
      "epoch": 0.11999705166949215,
      "grad_norm": 1.0826752185821533,
      "learning_rate": 0.00012121667809089738,
      "loss": 0.067,
      "step": 1628
    },
    {
      "epoch": 0.12014446819488464,
      "grad_norm": 0.5020477771759033,
      "learning_rate": 0.00012121651262223313,
      "loss": 0.0061,
      "step": 1630
    },
    {
      "epoch": 0.12029188472027715,
      "grad_norm": 1.0385483503341675,
      "learning_rate": 0.00012121634695056605,
      "loss": 0.0162,
      "step": 1632
    },
    {
      "epoch": 0.12029188472027715,
      "eval_1_ratio_diff": 0.024162120031176904,
      "eval_accuracy": 0.8854247856586126,
      "eval_f1": 0.8880426504188881,
      "eval_loss": 0.4667970538139343,
      "eval_precision": 0.8675595238095238,
      "eval_recall": 0.9095163806552262,
      "eval_runtime": 1440.04,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1632
    },
    {
      "epoch": 0.12043930124566964,
      "grad_norm": 0.3257231116294861,
      "learning_rate": 0.00012121618107589671,
      "loss": 0.0073,
      "step": 1634
    },
    {
      "epoch": 0.12058671777106214,
      "grad_norm": 0.17591340839862823,
      "learning_rate": 0.00012121601499822568,
      "loss": 0.7197,
      "step": 1636
    },
    {
      "epoch": 0.12073413429645463,
      "grad_norm": 20.77132797241211,
      "learning_rate": 0.0001212158487175535,
      "loss": 1.5072,
      "step": 1638
    },
    {
      "epoch": 0.12088155082184712,
      "grad_norm": 0.013665467500686646,
      "learning_rate": 0.00012121568223388071,
      "loss": 0.0014,
      "step": 1640
    },
    {
      "epoch": 0.12102896734723963,
      "grad_norm": 0.368145614862442,
      "learning_rate": 0.00012121551554720792,
      "loss": 1.0871,
      "step": 1642
    },
    {
      "epoch": 0.12117638387263212,
      "grad_norm": 0.2764877378940582,
      "learning_rate": 0.00012121534865753563,
      "loss": 0.0044,
      "step": 1644
    },
    {
      "epoch": 0.12132380039802462,
      "grad_norm": 0.15803444385528564,
      "learning_rate": 0.00012121518156486446,
      "loss": 0.0058,
      "step": 1646
    },
    {
      "epoch": 0.12147121692341711,
      "grad_norm": 21.269418716430664,
      "learning_rate": 0.0001212150142691949,
      "loss": 1.5637,
      "step": 1648
    },
    {
      "epoch": 0.12147121692341711,
      "eval_1_ratio_diff": -0.03117692907248637,
      "eval_accuracy": 0.8877630553390491,
      "eval_f1": 0.8840579710144928,
      "eval_loss": 0.5637651681900024,
      "eval_precision": 0.913477537437604,
      "eval_recall": 0.8564742589703588,
      "eval_runtime": 1440.5567,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1648
    },
    {
      "epoch": 0.12161863344880962,
      "grad_norm": 21.965253829956055,
      "learning_rate": 0.00012121484677052757,
      "loss": 0.9775,
      "step": 1650
    },
    {
      "epoch": 0.12176604997420211,
      "grad_norm": 5.706968307495117,
      "learning_rate": 0.000121214679068863,
      "loss": 1.2593,
      "step": 1652
    },
    {
      "epoch": 0.1219134664995946,
      "grad_norm": 78.91386413574219,
      "learning_rate": 0.00012121451116420174,
      "loss": 1.8529,
      "step": 1654
    },
    {
      "epoch": 0.1220608830249871,
      "grad_norm": 20.03242301940918,
      "learning_rate": 0.00012121434305654442,
      "loss": 3.822,
      "step": 1656
    },
    {
      "epoch": 0.1222082995503796,
      "grad_norm": 18.92554473876953,
      "learning_rate": 0.00012121417474589151,
      "loss": 1.7478,
      "step": 1658
    },
    {
      "epoch": 0.1223557160757721,
      "grad_norm": 18.513463973999023,
      "learning_rate": 0.00012121400623224365,
      "loss": 0.9207,
      "step": 1660
    },
    {
      "epoch": 0.12250313260116459,
      "grad_norm": 2.1414077281951904,
      "learning_rate": 0.00012121383751560137,
      "loss": 0.0559,
      "step": 1662
    },
    {
      "epoch": 0.12265054912655708,
      "grad_norm": 1.9082714319229126,
      "learning_rate": 0.00012121366859596523,
      "loss": 0.0867,
      "step": 1664
    },
    {
      "epoch": 0.12265054912655708,
      "eval_1_ratio_diff": -0.11223694466095091,
      "eval_accuracy": 0.8316445830085737,
      "eval_f1": 0.8101933216168717,
      "eval_loss": 0.46373099088668823,
      "eval_precision": 0.9275653923541247,
      "eval_recall": 0.719188767550702,
      "eval_runtime": 1439.8045,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.446,
      "step": 1664
    },
    {
      "epoch": 0.12279796565194959,
      "grad_norm": 17.66658592224121,
      "learning_rate": 0.0001212134994733358,
      "loss": 0.694,
      "step": 1666
    },
    {
      "epoch": 0.12294538217734208,
      "grad_norm": 0.5736209750175476,
      "learning_rate": 0.00012121333014771369,
      "loss": 0.5414,
      "step": 1668
    },
    {
      "epoch": 0.12309279870273458,
      "grad_norm": 16.726125717163086,
      "learning_rate": 0.0001212131606190994,
      "loss": 2.7414,
      "step": 1670
    },
    {
      "epoch": 0.12324021522812707,
      "grad_norm": 1.1649620532989502,
      "learning_rate": 0.00012121299088749353,
      "loss": 0.0285,
      "step": 1672
    },
    {
      "epoch": 0.12338763175351956,
      "grad_norm": 18.4560604095459,
      "learning_rate": 0.00012121282095289665,
      "loss": 0.9068,
      "step": 1674
    },
    {
      "epoch": 0.12353504827891207,
      "grad_norm": 0.3899083137512207,
      "learning_rate": 0.00012121265081530934,
      "loss": 0.0192,
      "step": 1676
    },
    {
      "epoch": 0.12368246480430456,
      "grad_norm": 0.6309532523155212,
      "learning_rate": 0.00012121248047473215,
      "loss": 0.0398,
      "step": 1678
    },
    {
      "epoch": 0.12382988132969706,
      "grad_norm": 25.81404685974121,
      "learning_rate": 0.00012121230993116564,
      "loss": 0.9268,
      "step": 1680
    },
    {
      "epoch": 0.12382988132969706,
      "eval_1_ratio_diff": -0.05222135619641466,
      "eval_accuracy": 0.8620420888542478,
      "eval_f1": 0.854320987654321,
      "eval_loss": 0.49660980701446533,
      "eval_precision": 0.9041811846689896,
      "eval_recall": 0.8096723868954758,
      "eval_runtime": 1439.1088,
      "eval_samples_per_second": 0.892,
      "eval_steps_per_second": 0.446,
      "step": 1680
    },
    {
      "epoch": 0.12397729785508955,
      "grad_norm": 0.17194198071956635,
      "learning_rate": 0.00012121213918461043,
      "loss": 0.0091,
      "step": 1682
    },
    {
      "epoch": 0.12412471438048205,
      "grad_norm": 0.1233774870634079,
      "learning_rate": 0.00012121196823506704,
      "loss": 0.033,
      "step": 1684
    },
    {
      "epoch": 0.12427213090587455,
      "grad_norm": 0.12911829352378845,
      "learning_rate": 0.00012121179708253609,
      "loss": 0.9894,
      "step": 1686
    },
    {
      "epoch": 0.12441954743126704,
      "grad_norm": 12.796908378601074,
      "learning_rate": 0.00012121162572701811,
      "loss": 0.2167,
      "step": 1688
    },
    {
      "epoch": 0.12456696395665955,
      "grad_norm": 19.411853790283203,
      "learning_rate": 0.0001212114541685137,
      "loss": 1.1343,
      "step": 1690
    },
    {
      "epoch": 0.12471438048205204,
      "grad_norm": 2.125748872756958,
      "learning_rate": 0.00012121128240702341,
      "loss": 0.0167,
      "step": 1692
    },
    {
      "epoch": 0.12486179700744453,
      "grad_norm": 0.23534013330936432,
      "learning_rate": 0.00012121111044254785,
      "loss": 0.0099,
      "step": 1694
    },
    {
      "epoch": 0.12500921353283703,
      "grad_norm": 0.2723231911659241,
      "learning_rate": 0.00012121093827508758,
      "loss": 0.0222,
      "step": 1696
    },
    {
      "epoch": 0.12500921353283703,
      "eval_1_ratio_diff": -0.05144193296960253,
      "eval_accuracy": 0.8721745908028059,
      "eval_f1": 0.8651315789473685,
      "eval_loss": 0.608511209487915,
      "eval_precision": 0.9147826086956522,
      "eval_recall": 0.8205928237129485,
      "eval_runtime": 1438.9329,
      "eval_samples_per_second": 0.892,
      "eval_steps_per_second": 0.446,
      "step": 1696
    },
    {
      "epoch": 0.12515663005822952,
      "grad_norm": 0.1575896292924881,
      "learning_rate": 0.00012121076590464316,
      "loss": 0.0045,
      "step": 1698
    },
    {
      "epoch": 0.12530404658362201,
      "grad_norm": 25.341609954833984,
      "learning_rate": 0.00012121059333121521,
      "loss": 2.9943,
      "step": 1700
    },
    {
      "epoch": 0.12545146310901453,
      "grad_norm": 0.13375264406204224,
      "learning_rate": 0.00012121042055480427,
      "loss": 0.0033,
      "step": 1702
    },
    {
      "epoch": 0.12559887963440702,
      "grad_norm": 0.06750854849815369,
      "learning_rate": 0.00012121024757541094,
      "loss": 0.0024,
      "step": 1704
    },
    {
      "epoch": 0.12574629615979951,
      "grad_norm": 0.05674993619322777,
      "learning_rate": 0.00012121007439303577,
      "loss": 1.2325,
      "step": 1706
    },
    {
      "epoch": 0.125893712685192,
      "grad_norm": 0.06746107339859009,
      "learning_rate": 0.00012120990100767938,
      "loss": 0.0016,
      "step": 1708
    },
    {
      "epoch": 0.1260411292105845,
      "grad_norm": 18.890642166137695,
      "learning_rate": 0.00012120972741934233,
      "loss": 1.5509,
      "step": 1710
    },
    {
      "epoch": 0.12618854573597701,
      "grad_norm": 0.0601690337061882,
      "learning_rate": 0.00012120955362802522,
      "loss": 0.0042,
      "step": 1712
    },
    {
      "epoch": 0.12618854573597701,
      "eval_1_ratio_diff": -0.21278254091971943,
      "eval_accuracy": 0.7575993764614185,
      "eval_f1": 0.6917740336967294,
      "eval_loss": 1.260048747062683,
      "eval_precision": 0.9483695652173914,
      "eval_recall": 0.5444617784711389,
      "eval_runtime": 1438.8451,
      "eval_samples_per_second": 0.892,
      "eval_steps_per_second": 0.446,
      "step": 1712
    },
    {
      "epoch": 0.1263359622613695,
      "grad_norm": 31.62714385986328,
      "learning_rate": 0.00012120937963372859,
      "loss": 2.3397,
      "step": 1714
    },
    {
      "epoch": 0.126483378786762,
      "grad_norm": 0.09423007071018219,
      "learning_rate": 0.00012120920543645306,
      "loss": 0.0056,
      "step": 1716
    },
    {
      "epoch": 0.1266307953121545,
      "grad_norm": 18.73729133605957,
      "learning_rate": 0.0001212090310361992,
      "loss": 1.3417,
      "step": 1718
    },
    {
      "epoch": 0.12677821183754698,
      "grad_norm": 0.16277751326560974,
      "learning_rate": 0.0001212088564329676,
      "loss": 0.0088,
      "step": 1720
    },
    {
      "epoch": 0.1269256283629395,
      "grad_norm": 18.30181884765625,
      "learning_rate": 0.00012120868162675886,
      "loss": 0.966,
      "step": 1722
    },
    {
      "epoch": 0.127073044888332,
      "grad_norm": 0.3613678812980652,
      "learning_rate": 0.00012120850661757353,
      "loss": 1.0053,
      "step": 1724
    },
    {
      "epoch": 0.12722046141372448,
      "grad_norm": 0.7345402836799622,
      "learning_rate": 0.00012120833140541222,
      "loss": 1.4195,
      "step": 1726
    },
    {
      "epoch": 0.12736787793911697,
      "grad_norm": 1.3485078811645508,
      "learning_rate": 0.00012120815599027552,
      "loss": 0.0247,
      "step": 1728
    },
    {
      "epoch": 0.12736787793911697,
      "eval_1_ratio_diff": -0.04130943102104445,
      "eval_accuracy": 0.8651597817614964,
      "eval_f1": 0.8592351505288853,
      "eval_loss": 0.4965825080871582,
      "eval_precision": 0.8979591836734694,
      "eval_recall": 0.8237129485179407,
      "eval_runtime": 1438.3328,
      "eval_samples_per_second": 0.892,
      "eval_steps_per_second": 0.446,
      "step": 1728
    },
    {
      "epoch": 0.12751529446450946,
      "grad_norm": 17.94972801208496,
      "learning_rate": 0.000121207980372164,
      "loss": 0.7518,
      "step": 1730
    },
    {
      "epoch": 0.12766271098990198,
      "grad_norm": 1.6150920391082764,
      "learning_rate": 0.00012120780455107827,
      "loss": 0.0328,
      "step": 1732
    },
    {
      "epoch": 0.12781012751529447,
      "grad_norm": 0.22876843810081482,
      "learning_rate": 0.00012120762852701892,
      "loss": 0.0105,
      "step": 1734
    },
    {
      "epoch": 0.12795754404068696,
      "grad_norm": 0.1126691922545433,
      "learning_rate": 0.0001212074522999865,
      "loss": 0.0038,
      "step": 1736
    },
    {
      "epoch": 0.12810496056607945,
      "grad_norm": 0.5277115702629089,
      "learning_rate": 0.00012120727586998164,
      "loss": 0.0094,
      "step": 1738
    },
    {
      "epoch": 0.12825237709147194,
      "grad_norm": 0.11928611248731613,
      "learning_rate": 0.00012120709923700492,
      "loss": 0.0054,
      "step": 1740
    },
    {
      "epoch": 0.12839979361686446,
      "grad_norm": 22.84393310546875,
      "learning_rate": 0.00012120692240105693,
      "loss": 1.7358,
      "step": 1742
    },
    {
      "epoch": 0.12854721014225695,
      "grad_norm": 0.08426441997289658,
      "learning_rate": 0.0001212067453621383,
      "loss": 0.0029,
      "step": 1744
    },
    {
      "epoch": 0.12854721014225695,
      "eval_1_ratio_diff": -0.014029618082618878,
      "eval_accuracy": 0.8784099766173032,
      "eval_f1": 0.8765822784810127,
      "eval_loss": 0.6492618322372437,
      "eval_precision": 0.8892455858747994,
      "eval_recall": 0.8642745709828393,
      "eval_runtime": 1438.7827,
      "eval_samples_per_second": 0.892,
      "eval_steps_per_second": 0.446,
      "step": 1744
    },
    {
      "epoch": 0.12869462666764944,
      "grad_norm": 22.079143524169922,
      "learning_rate": 0.00012120656812024955,
      "loss": 1.2809,
      "step": 1746
    },
    {
      "epoch": 0.12884204319304193,
      "grad_norm": 21.899768829345703,
      "learning_rate": 0.00012120639067539131,
      "loss": 3.0657,
      "step": 1748
    },
    {
      "epoch": 0.12898945971843442,
      "grad_norm": 0.1824941784143448,
      "learning_rate": 0.0001212062130275642,
      "loss": 0.0032,
      "step": 1750
    },
    {
      "epoch": 0.12913687624382694,
      "grad_norm": 0.1769951432943344,
      "learning_rate": 0.00012120603517676877,
      "loss": 1.2614,
      "step": 1752
    },
    {
      "epoch": 0.12928429276921943,
      "grad_norm": 21.305864334106445,
      "learning_rate": 0.00012120585712300566,
      "loss": 1.0725,
      "step": 1754
    },
    {
      "epoch": 0.12943170929461192,
      "grad_norm": 0.44233354926109314,
      "learning_rate": 0.00012120567886627544,
      "loss": 0.9641,
      "step": 1756
    },
    {
      "epoch": 0.12957912582000441,
      "grad_norm": 0.2779258191585541,
      "learning_rate": 0.00012120550040657871,
      "loss": 0.0096,
      "step": 1758
    },
    {
      "epoch": 0.1297265423453969,
      "grad_norm": 22.293994903564453,
      "learning_rate": 0.00012120532174391606,
      "loss": 0.9558,
      "step": 1760
    },
    {
      "epoch": 0.1297265423453969,
      "eval_1_ratio_diff": 0.031956352299298496,
      "eval_accuracy": 0.8901013250194856,
      "eval_f1": 0.8934240362811792,
      "eval_loss": 0.45321086049079895,
      "eval_precision": 0.8665689149560117,
      "eval_recall": 0.921996879875195,
      "eval_runtime": 1438.3028,
      "eval_samples_per_second": 0.892,
      "eval_steps_per_second": 0.446,
      "step": 1760
    },
    {
      "epoch": 0.12987395887078942,
      "grad_norm": 0.15532580018043518,
      "learning_rate": 0.00012120514287828811,
      "loss": 0.0082,
      "step": 1762
    },
    {
      "epoch": 0.13002137539618192,
      "grad_norm": 27.137800216674805,
      "learning_rate": 0.00012120496380969545,
      "loss": 0.8253,
      "step": 1764
    },
    {
      "epoch": 0.1301687919215744,
      "grad_norm": 0.12127237766981125,
      "learning_rate": 0.00012120478453813868,
      "loss": 0.007,
      "step": 1766
    },
    {
      "epoch": 0.1303162084469669,
      "grad_norm": 0.12471210211515427,
      "learning_rate": 0.00012120460506361839,
      "loss": 0.0118,
      "step": 1768
    },
    {
      "epoch": 0.1304636249723594,
      "grad_norm": 45.0229377746582,
      "learning_rate": 0.0001212044253861352,
      "loss": 3.5846,
      "step": 1770
    },
    {
      "epoch": 0.1306110414977519,
      "grad_norm": 0.4128153622150421,
      "learning_rate": 0.0001212042455056897,
      "loss": 0.0073,
      "step": 1772
    },
    {
      "epoch": 0.1307584580231444,
      "grad_norm": 0.40481987595558167,
      "learning_rate": 0.0001212040654222825,
      "loss": 0.0072,
      "step": 1774
    },
    {
      "epoch": 0.1309058745485369,
      "grad_norm": 0.11055589467287064,
      "learning_rate": 0.00012120388513591419,
      "loss": 1.0826,
      "step": 1776
    },
    {
      "epoch": 0.1309058745485369,
      "eval_1_ratio_diff": 0.1200311769290725,
      "eval_accuracy": 0.8332034294621979,
      "eval_f1": 0.850974930362117,
      "eval_loss": 0.6285108923912048,
      "eval_precision": 0.7685534591194969,
      "eval_recall": 0.953198127925117,
      "eval_runtime": 1438.3285,
      "eval_samples_per_second": 0.892,
      "eval_steps_per_second": 0.446,
      "step": 1776
    },
    {
      "epoch": 0.13105329107392938,
      "grad_norm": 0.12451104074716568,
      "learning_rate": 0.0001212037046465854,
      "loss": 1.0074,
      "step": 1778
    },
    {
      "epoch": 0.1312007075993219,
      "grad_norm": 0.27884507179260254,
      "learning_rate": 0.0001212035239542967,
      "loss": 0.0129,
      "step": 1780
    },
    {
      "epoch": 0.1313481241247144,
      "grad_norm": 0.992557168006897,
      "learning_rate": 0.00012120334305904872,
      "loss": 1.4174,
      "step": 1782
    },
    {
      "epoch": 0.13149554065010688,
      "grad_norm": 0.9067917466163635,
      "learning_rate": 0.00012120316196084206,
      "loss": 1.435,
      "step": 1784
    },
    {
      "epoch": 0.13164295717549937,
      "grad_norm": 20.08501625061035,
      "learning_rate": 0.00012120298065967733,
      "loss": 1.7277,
      "step": 1786
    },
    {
      "epoch": 0.13179037370089186,
      "grad_norm": 0.20194768905639648,
      "learning_rate": 0.00012120279915555515,
      "loss": 0.005,
      "step": 1788
    },
    {
      "epoch": 0.13193779022628438,
      "grad_norm": 0.29110512137413025,
      "learning_rate": 0.0001212026174484761,
      "loss": 0.0065,
      "step": 1790
    },
    {
      "epoch": 0.13208520675167687,
      "grad_norm": 0.3067338764667511,
      "learning_rate": 0.00012120243553844079,
      "loss": 0.006,
      "step": 1792
    },
    {
      "epoch": 0.13208520675167687,
      "eval_1_ratio_diff": -0.002338269680436489,
      "eval_accuracy": 0.8978955572876072,
      "eval_f1": 0.8975762314308053,
      "eval_loss": 0.42508459091186523,
      "eval_precision": 0.8996865203761756,
      "eval_recall": 0.8954758190327613,
      "eval_runtime": 1439.0957,
      "eval_samples_per_second": 0.892,
      "eval_steps_per_second": 0.446,
      "step": 1792
    }
  ],
  "logging_steps": 2,
  "max_steps": 108536,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 8,
  "save_steps": 64,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 1000,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.5936070605815808e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}