{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.1,
  "eval_steps": 500,
  "global_step": 9650,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00016666666666666666,
      "grad_norm": 14.297810554504395,
      "learning_rate": 1.3499999999999998e-06,
      "loss": 11.175775146484375,
      "step": 10
    },
    {
      "epoch": 0.0003333333333333333,
      "grad_norm": 8.92794418334961,
      "learning_rate": 2.85e-06,
      "loss": 10.527365112304688,
      "step": 20
    },
    {
      "epoch": 0.0005,
      "grad_norm": 3.7201273441314697,
      "learning_rate": 4.35e-06,
      "loss": 9.680557250976562,
      "step": 30
    },
    {
      "epoch": 0.0006666666666666666,
      "grad_norm": 3.4802424907684326,
      "learning_rate": 5.85e-06,
      "loss": 9.302367401123046,
      "step": 40
    },
    {
      "epoch": 0.0008333333333333334,
      "grad_norm": 3.940255880355835,
      "learning_rate": 7.35e-06,
      "loss": 8.909403991699218,
      "step": 50
    },
    {
      "epoch": 0.001,
      "grad_norm": 2.993356704711914,
      "learning_rate": 8.849999999999998e-06,
      "loss": 8.356079864501954,
      "step": 60
    },
    {
      "epoch": 0.0011666666666666668,
      "grad_norm": 2.9796433448791504,
      "learning_rate": 1.035e-05,
      "loss": 7.9435173034667965,
      "step": 70
    },
    {
      "epoch": 0.0013333333333333333,
      "grad_norm": 3.0474584102630615,
      "learning_rate": 1.1849999999999998e-05,
      "loss": 7.6440284729003904,
      "step": 80
    },
    {
      "epoch": 0.0015,
      "grad_norm": 2.147731304168701,
      "learning_rate": 1.3349999999999998e-05,
      "loss": 7.392823791503906,
      "step": 90
    },
    {
      "epoch": 0.0016666666666666668,
      "grad_norm": 2.9777767658233643,
      "learning_rate": 1.485e-05,
      "loss": 7.160243225097656,
      "step": 100
    },
    {
      "epoch": 0.0018333333333333333,
      "grad_norm": 3.442213535308838,
      "learning_rate": 1.6349999999999998e-05,
      "loss": 6.910230255126953,
      "step": 110
    },
    {
      "epoch": 0.002,
      "grad_norm": 1.9802011251449585,
      "learning_rate": 1.7849999999999997e-05,
      "loss": 6.733470916748047,
      "step": 120
    },
    {
      "epoch": 0.0021666666666666666,
      "grad_norm": 3.293522357940674,
      "learning_rate": 1.935e-05,
      "loss": 6.564137268066406,
      "step": 130
    },
    {
      "epoch": 0.0023333333333333335,
      "grad_norm": 2.318138599395752,
      "learning_rate": 2.085e-05,
      "loss": 6.410511779785156,
      "step": 140
    },
    {
      "epoch": 0.0025,
      "grad_norm": 1.8537381887435913,
      "learning_rate": 2.2349999999999998e-05,
      "loss": 6.195587539672852,
      "step": 150
    },
    {
      "epoch": 0.0026666666666666666,
      "grad_norm": 2.452784538269043,
      "learning_rate": 2.3849999999999997e-05,
      "loss": 6.022871398925782,
      "step": 160
    },
    {
      "epoch": 0.0028333333333333335,
      "grad_norm": 2.760226011276245,
      "learning_rate": 2.535e-05,
      "loss": 5.868363952636718,
      "step": 170
    },
    {
      "epoch": 0.003,
      "grad_norm": 2.2246060371398926,
      "learning_rate": 2.6849999999999995e-05,
      "loss": 5.678731918334961,
      "step": 180
    },
    {
      "epoch": 0.0031666666666666666,
      "grad_norm": 2.437960386276245,
      "learning_rate": 2.8349999999999998e-05,
      "loss": 5.5810894012451175,
      "step": 190
    },
    {
      "epoch": 0.0033333333333333335,
      "grad_norm": 2.2690577507019043,
      "learning_rate": 2.985e-05,
      "loss": 5.393305969238281,
      "step": 200
    },
    {
      "epoch": 0.0035,
      "grad_norm": 2.249206066131592,
      "learning_rate": 3.1349999999999996e-05,
      "loss": 5.256457901000976,
      "step": 210
    },
    {
      "epoch": 0.0036666666666666666,
      "grad_norm": 2.175391435623169,
      "learning_rate": 3.285e-05,
      "loss": 5.130535507202149,
      "step": 220
    },
    {
      "epoch": 0.003833333333333333,
      "grad_norm": 3.0227811336517334,
      "learning_rate": 3.435e-05,
      "loss": 5.026712036132812,
      "step": 230
    },
    {
      "epoch": 0.004,
      "grad_norm": 3.269705057144165,
      "learning_rate": 3.585e-05,
      "loss": 4.898946762084961,
      "step": 240
    },
    {
      "epoch": 0.004166666666666667,
      "grad_norm": 3.4760587215423584,
      "learning_rate": 3.735e-05,
      "loss": 4.815313720703125,
      "step": 250
    },
    {
      "epoch": 0.004333333333333333,
      "grad_norm": 3.678823471069336,
      "learning_rate": 3.8849999999999996e-05,
      "loss": 4.687419128417969,
      "step": 260
    },
    {
      "epoch": 0.0045,
      "grad_norm": 2.79219913482666,
      "learning_rate": 4.035e-05,
      "loss": 4.555228042602539,
      "step": 270
    },
    {
      "epoch": 0.004666666666666667,
      "grad_norm": 3.8011438846588135,
      "learning_rate": 4.185e-05,
      "loss": 4.465290832519531,
      "step": 280
    },
    {
      "epoch": 0.004833333333333334,
      "grad_norm": 3.286940813064575,
      "learning_rate": 4.334999999999999e-05,
      "loss": 4.359551239013672,
      "step": 290
    },
    {
      "epoch": 0.005,
      "grad_norm": 4.136998176574707,
      "learning_rate": 4.484999999999999e-05,
      "loss": 4.275360107421875,
      "step": 300
    },
    {
      "epoch": 0.005166666666666667,
      "grad_norm": 3.4878525733947754,
      "learning_rate": 4.6349999999999995e-05,
      "loss": 4.186351013183594,
      "step": 310
    },
    {
      "epoch": 0.005333333333333333,
      "grad_norm": 3.2811970710754395,
      "learning_rate": 4.785e-05,
      "loss": 4.137750625610352,
      "step": 320
    },
    {
      "epoch": 0.0055,
      "grad_norm": 3.300088882446289,
      "learning_rate": 4.935e-05,
      "loss": 4.083171463012695,
      "step": 330
    },
    {
      "epoch": 0.005666666666666667,
      "grad_norm": 2.9177348613739014,
      "learning_rate": 5.0849999999999996e-05,
      "loss": 3.978733444213867,
      "step": 340
    },
    {
      "epoch": 0.005833333333333334,
      "grad_norm": 2.957092523574829,
      "learning_rate": 5.234999999999999e-05,
      "loss": 3.9336376190185547,
      "step": 350
    },
    {
      "epoch": 0.006,
      "grad_norm": 2.75334095954895,
      "learning_rate": 5.3849999999999994e-05,
      "loss": 3.8648487091064454,
      "step": 360
    },
    {
      "epoch": 0.006166666666666667,
      "grad_norm": 3.36582612991333,
      "learning_rate": 5.535e-05,
      "loss": 3.8383750915527344,
      "step": 370
    },
    {
      "epoch": 0.006333333333333333,
      "grad_norm": 3.27022123336792,
      "learning_rate": 5.684999999999999e-05,
      "loss": 3.8231891632080077,
      "step": 380
    },
    {
      "epoch": 0.0065,
      "grad_norm": 2.8231465816497803,
      "learning_rate": 5.8349999999999995e-05,
      "loss": 3.7710498809814452,
      "step": 390
    },
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 2.8562817573547363,
      "learning_rate": 5.985e-05,
      "loss": 3.703901672363281,
      "step": 400
    },
    {
      "epoch": 0.006833333333333334,
      "grad_norm": 2.708444118499756,
      "learning_rate": 6.134999999999999e-05,
      "loss": 3.690731430053711,
      "step": 410
    },
    {
      "epoch": 0.007,
      "grad_norm": 2.327440023422241,
      "learning_rate": 6.285e-05,
      "loss": 3.64001350402832,
      "step": 420
    },
    {
      "epoch": 0.007166666666666667,
      "grad_norm": 2.3135883808135986,
      "learning_rate": 6.434999999999999e-05,
      "loss": 3.63990478515625,
      "step": 430
    },
    {
      "epoch": 0.007333333333333333,
      "grad_norm": 2.6845688819885254,
      "learning_rate": 6.584999999999999e-05,
      "loss": 3.602303314208984,
      "step": 440
    },
    {
      "epoch": 0.0075,
      "grad_norm": 2.0262644290924072,
      "learning_rate": 6.735e-05,
      "loss": 3.5283145904541016,
      "step": 450
    },
    {
      "epoch": 0.007666666666666666,
      "grad_norm": 2.0807831287384033,
      "learning_rate": 6.884999999999999e-05,
      "loss": 3.5422496795654297,
      "step": 460
    },
    {
      "epoch": 0.007833333333333333,
      "grad_norm": 2.4081315994262695,
      "learning_rate": 7.034999999999999e-05,
      "loss": 3.4911945343017576,
      "step": 470
    },
    {
      "epoch": 0.008,
      "grad_norm": 1.836987853050232,
      "learning_rate": 7.184999999999998e-05,
      "loss": 3.4667892456054688,
      "step": 480
    },
    {
      "epoch": 0.008166666666666666,
      "grad_norm": 2.355318546295166,
      "learning_rate": 7.335e-05,
      "loss": 3.4672470092773438,
      "step": 490
    },
    {
      "epoch": 0.008333333333333333,
      "grad_norm": 2.058490037918091,
      "learning_rate": 7.484999999999999e-05,
      "loss": 3.393095779418945,
      "step": 500
    },
    {
      "epoch": 0.0085,
      "grad_norm": 2.053673505783081,
      "learning_rate": 7.635e-05,
      "loss": 3.391928863525391,
      "step": 510
    },
    {
      "epoch": 0.008666666666666666,
      "grad_norm": 1.780815601348877,
      "learning_rate": 7.785e-05,
      "loss": 3.407213592529297,
      "step": 520
    },
    {
      "epoch": 0.008833333333333334,
      "grad_norm": 1.8663444519042969,
      "learning_rate": 7.934999999999999e-05,
      "loss": 3.3710628509521485,
      "step": 530
    },
    {
      "epoch": 0.009,
      "grad_norm": 1.9582051038742065,
      "learning_rate": 8.085e-05,
      "loss": 3.3235591888427733,
      "step": 540
    },
    {
      "epoch": 0.009166666666666667,
      "grad_norm": 1.972941279411316,
      "learning_rate": 8.235e-05,
      "loss": 3.288467788696289,
      "step": 550
    },
    {
      "epoch": 0.009333333333333334,
      "grad_norm": 1.9734792709350586,
      "learning_rate": 8.385e-05,
      "loss": 3.278826904296875,
      "step": 560
    },
    {
      "epoch": 0.0095,
      "grad_norm": 1.7474493980407715,
      "learning_rate": 8.534999999999999e-05,
      "loss": 3.269306182861328,
      "step": 570
    },
    {
      "epoch": 0.009666666666666667,
      "grad_norm": 1.6593666076660156,
      "learning_rate": 8.684999999999998e-05,
      "loss": 3.2291339874267577,
      "step": 580
    },
    {
      "epoch": 0.009833333333333333,
      "grad_norm": 1.6678528785705566,
      "learning_rate": 8.834999999999999e-05,
      "loss": 3.19910888671875,
      "step": 590
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.7990621328353882,
      "learning_rate": 8.984999999999999e-05,
      "loss": 3.2183486938476564,
      "step": 600
    },
    {
      "epoch": 0.010166666666666666,
      "grad_norm": 1.7901487350463867,
      "learning_rate": 9.134999999999998e-05,
      "loss": 3.1689579010009767,
      "step": 610
    },
    {
      "epoch": 0.010333333333333333,
      "grad_norm": 1.7504736185073853,
      "learning_rate": 9.285e-05,
      "loss": 3.166044235229492,
      "step": 620
    },
    {
      "epoch": 0.0105,
      "grad_norm": 1.5876473188400269,
      "learning_rate": 9.434999999999999e-05,
      "loss": 3.132395362854004,
      "step": 630
    },
    {
      "epoch": 0.010666666666666666,
      "grad_norm": 1.4617185592651367,
      "learning_rate": 9.585e-05,
      "loss": 3.137837791442871,
      "step": 640
    },
    {
      "epoch": 0.010833333333333334,
      "grad_norm": 1.510992407798767,
      "learning_rate": 9.735e-05,
      "loss": 3.134562110900879,
      "step": 650
    },
    {
      "epoch": 0.011,
      "grad_norm": 1.5073765516281128,
      "learning_rate": 9.884999999999999e-05,
      "loss": 3.1096372604370117,
      "step": 660
    },
    {
      "epoch": 0.011166666666666667,
      "grad_norm": 1.5816830396652222,
      "learning_rate": 0.00010035,
      "loss": 3.0559246063232424,
      "step": 670
    },
    {
      "epoch": 0.011333333333333334,
      "grad_norm": 1.6063289642333984,
      "learning_rate": 0.00010185,
      "loss": 3.0526498794555663,
      "step": 680
    },
    {
      "epoch": 0.0115,
      "grad_norm": 1.3957390785217285,
      "learning_rate": 0.00010334999999999998,
      "loss": 3.047122764587402,
      "step": 690
    },
    {
      "epoch": 0.011666666666666667,
      "grad_norm": 1.5005953311920166,
      "learning_rate": 0.00010484999999999999,
      "loss": 3.0388126373291016,
      "step": 700
    },
    {
      "epoch": 0.011833333333333333,
      "grad_norm": 1.596427083015442,
      "learning_rate": 0.00010634999999999998,
      "loss": 3.022883415222168,
      "step": 710
    },
    {
      "epoch": 0.012,
      "grad_norm": 1.3984756469726562,
      "learning_rate": 0.00010784999999999999,
      "loss": 2.978668212890625,
      "step": 720
    },
    {
      "epoch": 0.012166666666666666,
      "grad_norm": 1.2459074258804321,
      "learning_rate": 0.00010934999999999999,
      "loss": 2.9714258193969725,
      "step": 730
    },
    {
      "epoch": 0.012333333333333333,
      "grad_norm": 1.3867474794387817,
      "learning_rate": 0.00011084999999999998,
      "loss": 2.9811878204345703,
      "step": 740
    },
    {
      "epoch": 0.0125,
      "grad_norm": 1.3084795475006104,
      "learning_rate": 0.00011235,
      "loss": 2.9637191772460936,
      "step": 750
    },
    {
      "epoch": 0.012666666666666666,
      "grad_norm": 1.2939265966415405,
      "learning_rate": 0.00011384999999999999,
      "loss": 2.940631103515625,
      "step": 760
    },
    {
      "epoch": 0.012833333333333334,
      "grad_norm": 1.3884607553482056,
      "learning_rate": 0.00011535,
      "loss": 2.898904800415039,
      "step": 770
    },
    {
      "epoch": 0.013,
      "grad_norm": 1.10460364818573,
      "learning_rate": 0.00011685,
      "loss": 2.914503288269043,
      "step": 780
    },
    {
      "epoch": 0.013166666666666667,
      "grad_norm": 1.2655820846557617,
      "learning_rate": 0.00011834999999999999,
      "loss": 2.895877456665039,
      "step": 790
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 1.1122198104858398,
      "learning_rate": 0.00011985,
      "loss": 2.904026985168457,
      "step": 800
    },
    {
      "epoch": 0.0135,
      "grad_norm": 1.2572715282440186,
      "learning_rate": 0.00012135,
      "loss": 2.8351789474487306,
      "step": 810
    },
    {
      "epoch": 0.013666666666666667,
      "grad_norm": 1.3550209999084473,
      "learning_rate": 0.00012284999999999998,
      "loss": 2.8636459350585937,
      "step": 820
    },
    {
      "epoch": 0.013833333333333333,
      "grad_norm": 0.92742520570755,
      "learning_rate": 0.00012435,
      "loss": 2.8171138763427734,
      "step": 830
    },
    {
      "epoch": 0.014,
      "grad_norm": 1.07759428024292,
      "learning_rate": 0.00012585,
      "loss": 2.8060197830200195,
      "step": 840
    },
    {
      "epoch": 0.014166666666666666,
      "grad_norm": 1.1448051929473877,
      "learning_rate": 0.00012734999999999998,
      "loss": 2.795998382568359,
      "step": 850
    },
    {
      "epoch": 0.014333333333333333,
      "grad_norm": 0.9354196190834045,
      "learning_rate": 0.00012885,
      "loss": 2.768997001647949,
      "step": 860
    },
    {
      "epoch": 0.0145,
      "grad_norm": 1.0693879127502441,
      "learning_rate": 0.00013035,
      "loss": 2.7732864379882813,
      "step": 870
    },
    {
      "epoch": 0.014666666666666666,
      "grad_norm": 0.9721701145172119,
      "learning_rate": 0.00013184999999999998,
      "loss": 2.759377288818359,
      "step": 880
    },
    {
      "epoch": 0.014833333333333334,
      "grad_norm": 1.0717929601669312,
      "learning_rate": 0.00013335,
      "loss": 2.7331707000732424,
      "step": 890
    },
    {
      "epoch": 0.015,
      "grad_norm": 1.0174472332000732,
      "learning_rate": 0.00013485,
      "loss": 2.7001853942871095,
      "step": 900
    },
    {
      "epoch": 0.015166666666666667,
      "grad_norm": 1.0769199132919312,
      "learning_rate": 0.00013634999999999998,
      "loss": 2.7025869369506834,
      "step": 910
    },
    {
      "epoch": 0.015333333333333332,
      "grad_norm": 1.1206380128860474,
      "learning_rate": 0.00013785,
      "loss": 2.694252586364746,
      "step": 920
    },
    {
      "epoch": 0.0155,
      "grad_norm": 0.9890035390853882,
      "learning_rate": 0.00013935,
      "loss": 2.681113433837891,
      "step": 930
    },
    {
      "epoch": 0.015666666666666666,
      "grad_norm": 1.035932183265686,
      "learning_rate": 0.00014084999999999998,
      "loss": 2.682352828979492,
      "step": 940
    },
    {
      "epoch": 0.015833333333333335,
      "grad_norm": 0.9429165124893188,
      "learning_rate": 0.00014235,
      "loss": 2.6295612335205076,
      "step": 950
    },
    {
      "epoch": 0.016,
      "grad_norm": 0.8270607590675354,
      "learning_rate": 0.00014384999999999997,
      "loss": 2.6640741348266603,
      "step": 960
    },
    {
      "epoch": 0.016166666666666666,
      "grad_norm": 1.1936181783676147,
      "learning_rate": 0.00014534999999999998,
      "loss": 2.6394475936889648,
      "step": 970
    },
    {
      "epoch": 0.01633333333333333,
      "grad_norm": 1.0914827585220337,
      "learning_rate": 0.00014685,
      "loss": 2.6144994735717773,
      "step": 980
    },
    {
      "epoch": 0.0165,
      "grad_norm": 0.8323391675949097,
      "learning_rate": 0.00014834999999999997,
      "loss": 2.5976608276367186,
      "step": 990
    },
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 0.817717969417572,
      "learning_rate": 0.00014984999999999998,
      "loss": 2.5982643127441407,
      "step": 1000
    },
    {
      "epoch": 0.016833333333333332,
      "grad_norm": 1.0404084920883179,
      "learning_rate": 0.00015134999999999997,
      "loss": 2.5767370223999024,
      "step": 1010
    },
    {
      "epoch": 0.017,
      "grad_norm": 0.9311416745185852,
      "learning_rate": 0.00015284999999999997,
      "loss": 2.565751838684082,
      "step": 1020
    },
    {
      "epoch": 0.017166666666666667,
      "grad_norm": 0.9678856134414673,
      "learning_rate": 0.00015434999999999998,
      "loss": 2.5317737579345705,
      "step": 1030
    },
    {
      "epoch": 0.017333333333333333,
      "grad_norm": 0.9805819392204285,
      "learning_rate": 0.00015584999999999997,
      "loss": 2.5258121490478516,
      "step": 1040
    },
    {
      "epoch": 0.0175,
      "grad_norm": 0.7922776341438293,
      "learning_rate": 0.00015734999999999998,
      "loss": 2.5400224685668946,
      "step": 1050
    },
    {
      "epoch": 0.017666666666666667,
      "grad_norm": 0.8440002202987671,
      "learning_rate": 0.00015884999999999999,
      "loss": 2.5049901962280274,
      "step": 1060
    },
    {
      "epoch": 0.017833333333333333,
      "grad_norm": 0.8814069032669067,
      "learning_rate": 0.00016034999999999997,
      "loss": 2.500185012817383,
      "step": 1070
    },
    {
      "epoch": 0.018,
      "grad_norm": 0.7535040378570557,
      "learning_rate": 0.00016184999999999998,
      "loss": 2.487553596496582,
      "step": 1080
    },
    {
      "epoch": 0.018166666666666668,
      "grad_norm": 1.007371187210083,
      "learning_rate": 0.00016334999999999999,
      "loss": 2.50408821105957,
      "step": 1090
    },
    {
      "epoch": 0.018333333333333333,
      "grad_norm": 0.7742697596549988,
      "learning_rate": 0.00016485,
      "loss": 2.5046213150024412,
      "step": 1100
    },
    {
      "epoch": 0.0185,
      "grad_norm": 0.8482025265693665,
      "learning_rate": 0.00016634999999999998,
      "loss": 2.493575096130371,
      "step": 1110
    },
    {
      "epoch": 1.0000666666666667,
      "grad_norm": 0.7820495963096619,
      "learning_rate": 0.00016785,
      "loss": 2.706912040710449,
      "step": 1120
    },
    {
      "epoch": 1.0002333333333333,
      "grad_norm": 0.7099973559379578,
      "learning_rate": 0.00016935,
      "loss": 2.4309906005859374,
      "step": 1130
    },
    {
      "epoch": 1.0004,
      "grad_norm": 0.6877136826515198,
      "learning_rate": 0.00017084999999999998,
      "loss": 2.449149322509766,
      "step": 1140
    },
    {
      "epoch": 1.0005666666666666,
      "grad_norm": 0.8360202312469482,
      "learning_rate": 0.00017235,
      "loss": 2.4464847564697267,
      "step": 1150
    },
    {
      "epoch": 1.0007333333333333,
      "grad_norm": 0.7134903073310852,
      "learning_rate": 0.00017385,
      "loss": 2.430519866943359,
      "step": 1160
    },
    {
      "epoch": 1.0009,
      "grad_norm": 0.9075033664703369,
      "learning_rate": 0.00017534999999999998,
      "loss": 2.40509033203125,
      "step": 1170
    },
    {
      "epoch": 1.0010666666666668,
      "grad_norm": 0.8332974314689636,
      "learning_rate": 0.00017685,
      "loss": 2.4284109115600585,
      "step": 1180
    },
    {
      "epoch": 1.0012333333333334,
      "grad_norm": 0.6970870494842529,
      "learning_rate": 0.00017835,
      "loss": 2.4098472595214844,
      "step": 1190
    },
    {
      "epoch": 1.0014,
      "grad_norm": 0.6665694713592529,
      "learning_rate": 0.00017984999999999998,
      "loss": 2.395026206970215,
      "step": 1200
    },
    {
      "epoch": 1.0015666666666667,
      "grad_norm": 0.6687540411949158,
      "learning_rate": 0.00018135,
      "loss": 2.3692419052124025,
      "step": 1210
    },
    {
      "epoch": 1.0017333333333334,
      "grad_norm": 0.8831247687339783,
      "learning_rate": 0.00018285,
      "loss": 2.3781986236572266,
      "step": 1220
    },
    {
      "epoch": 1.0019,
      "grad_norm": 0.6402927041053772,
      "learning_rate": 0.00018435,
      "loss": 2.361619567871094,
      "step": 1230
    },
    {
      "epoch": 1.0020666666666667,
      "grad_norm": 0.7041394710540771,
      "learning_rate": 0.00018585,
      "loss": 2.353261184692383,
      "step": 1240
    },
    {
      "epoch": 1.0022333333333333,
      "grad_norm": 0.7513797283172607,
      "learning_rate": 0.00018735,
      "loss": 2.3699949264526365,
      "step": 1250
    },
    {
      "epoch": 1.0024,
      "grad_norm": 0.6802843809127808,
      "learning_rate": 0.00018884999999999996,
      "loss": 2.355624198913574,
      "step": 1260
    },
    {
      "epoch": 1.0025666666666666,
      "grad_norm": 0.6382043361663818,
      "learning_rate": 0.00019034999999999996,
      "loss": 2.3294889450073244,
      "step": 1270
    },
    {
      "epoch": 1.0027333333333333,
      "grad_norm": 0.7075265645980835,
      "learning_rate": 0.00019184999999999997,
      "loss": 2.3211458206176756,
      "step": 1280
    },
    {
      "epoch": 1.0029,
      "grad_norm": 0.6168259382247925,
      "learning_rate": 0.00019334999999999998,
      "loss": 2.303839683532715,
      "step": 1290
    },
    {
      "epoch": 1.0030666666666668,
      "grad_norm": 0.6752699017524719,
      "learning_rate": 0.00019484999999999997,
      "loss": 2.331635856628418,
      "step": 1300
    },
    {
      "epoch": 1.0032333333333334,
      "grad_norm": 0.7414150238037109,
      "learning_rate": 0.00019634999999999998,
      "loss": 2.333931541442871,
      "step": 1310
    },
    {
      "epoch": 1.0034,
      "grad_norm": 0.5768128633499146,
      "learning_rate": 0.00019784999999999998,
      "loss": 2.309197998046875,
      "step": 1320
    },
    {
      "epoch": 1.0035666666666667,
      "grad_norm": 0.7151084542274475,
      "learning_rate": 0.00019934999999999997,
      "loss": 2.288164520263672,
      "step": 1330
    },
    {
      "epoch": 1.0037333333333334,
      "grad_norm": 0.6732338666915894,
      "learning_rate": 0.00020084999999999998,
      "loss": 2.295826530456543,
      "step": 1340
    },
    {
      "epoch": 1.0039,
      "grad_norm": 0.6337047219276428,
      "learning_rate": 0.00020234999999999999,
      "loss": 2.281715965270996,
      "step": 1350
    },
    {
      "epoch": 1.0040666666666667,
      "grad_norm": 0.6295289993286133,
      "learning_rate": 0.00020384999999999997,
      "loss": 2.2805261611938477,
      "step": 1360
    },
    {
      "epoch": 1.0042333333333333,
      "grad_norm": 0.5674924254417419,
      "learning_rate": 0.00020534999999999998,
      "loss": 2.276862907409668,
      "step": 1370
    },
    {
      "epoch": 1.0044,
      "grad_norm": 0.8244264721870422,
      "learning_rate": 0.00020684999999999999,
      "loss": 2.2846065521240235,
      "step": 1380
    },
    {
      "epoch": 1.0045666666666666,
      "grad_norm": 0.5457371473312378,
      "learning_rate": 0.00020835,
      "loss": 2.2605510711669923,
      "step": 1390
    },
    {
      "epoch": 1.0047333333333333,
      "grad_norm": 0.8645628690719604,
      "learning_rate": 0.00020984999999999998,
      "loss": 2.2508319854736327,
      "step": 1400
    },
    {
      "epoch": 1.0049,
      "grad_norm": 0.5244976878166199,
      "learning_rate": 0.00021135,
      "loss": 2.2424762725830076,
      "step": 1410
    },
    {
      "epoch": 1.0050666666666668,
      "grad_norm": 0.6354586482048035,
      "learning_rate": 0.00021285,
      "loss": 2.2320966720581055,
      "step": 1420
    },
    {
      "epoch": 1.0052333333333334,
      "grad_norm": 0.6979833841323853,
      "learning_rate": 0.00021434999999999998,
      "loss": 2.2552522659301757,
      "step": 1430
    },
    {
      "epoch": 1.0054,
      "grad_norm": 0.5455880165100098,
      "learning_rate": 0.00021585,
      "loss": 2.2437259674072267,
      "step": 1440
    },
    {
      "epoch": 1.0055666666666667,
      "grad_norm": 0.8435111045837402,
      "learning_rate": 0.00021735,
      "loss": 2.249082565307617,
      "step": 1450
    },
    {
      "epoch": 1.0057333333333334,
      "grad_norm": 0.6287665367126465,
      "learning_rate": 0.00021884999999999998,
      "loss": 2.229854393005371,
      "step": 1460
    },
    {
      "epoch": 1.0059,
      "grad_norm": 0.4953818917274475,
      "learning_rate": 0.00022035,
      "loss": 2.229512023925781,
      "step": 1470
    },
    {
      "epoch": 1.0060666666666667,
      "grad_norm": 0.5459710955619812,
      "learning_rate": 0.00022185,
      "loss": 2.207718086242676,
      "step": 1480
    },
    {
      "epoch": 1.0062333333333333,
      "grad_norm": 0.5606301426887512,
      "learning_rate": 0.00022335,
      "loss": 2.213382911682129,
      "step": 1490
    },
    {
      "epoch": 1.0064,
      "grad_norm": 0.535137951374054,
      "learning_rate": 0.00022485,
      "loss": 2.2047290802001953,
      "step": 1500
    },
    {
      "epoch": 1.0065666666666666,
      "grad_norm": 0.7108746767044067,
      "learning_rate": 0.00022634999999999997,
      "loss": 2.2026611328125,
      "step": 1510
    },
    {
      "epoch": 1.0067333333333333,
      "grad_norm": 0.5354933738708496,
      "learning_rate": 0.00022784999999999995,
      "loss": 2.1966262817382813,
      "step": 1520
    },
    {
      "epoch": 1.0069,
      "grad_norm": 0.5238562822341919,
      "learning_rate": 0.00022934999999999996,
      "loss": 2.192904472351074,
      "step": 1530
    },
    {
      "epoch": 1.0070666666666668,
      "grad_norm": 0.5200198888778687,
      "learning_rate": 0.00023084999999999997,
      "loss": 2.1925033569335937,
      "step": 1540
    },
    {
      "epoch": 1.0072333333333334,
      "grad_norm": 0.5277844071388245,
      "learning_rate": 0.00023234999999999998,
      "loss": 2.1947145462036133,
      "step": 1550
    },
    {
      "epoch": 1.0074,
      "grad_norm": 0.4872555434703827,
      "learning_rate": 0.00023384999999999997,
      "loss": 2.1701236724853517,
      "step": 1560
    },
    {
      "epoch": 1.0075666666666667,
      "grad_norm": 0.4913088083267212,
      "learning_rate": 0.00023534999999999997,
      "loss": 2.184732437133789,
      "step": 1570
    },
    {
      "epoch": 1.0077333333333334,
      "grad_norm": 0.5435949563980103,
      "learning_rate": 0.00023684999999999998,
      "loss": 2.1729846954345704,
      "step": 1580
    },
    {
      "epoch": 1.0079,
      "grad_norm": 0.6295453906059265,
      "learning_rate": 0.00023834999999999997,
      "loss": 2.192562294006348,
      "step": 1590
    },
    {
      "epoch": 1.0080666666666667,
      "grad_norm": 0.4600837230682373,
      "learning_rate": 0.00023984999999999998,
      "loss": 2.1549304962158202,
      "step": 1600
    },
    {
      "epoch": 1.0082333333333333,
      "grad_norm": 0.4506412446498871,
      "learning_rate": 0.00024134999999999998,
      "loss": 2.158854293823242,
      "step": 1610
    },
    {
      "epoch": 1.0084,
      "grad_norm": 0.5208119750022888,
      "learning_rate": 0.00024284999999999997,
      "loss": 2.1459197998046875,
      "step": 1620
    },
    {
      "epoch": 1.0085666666666666,
      "grad_norm": 0.4893856942653656,
      "learning_rate": 0.00024435,
      "loss": 2.148777198791504,
      "step": 1630
    },
    {
      "epoch": 1.0087333333333333,
      "grad_norm": 0.4930168688297272,
      "learning_rate": 0.00024585,
      "loss": 2.125368118286133,
      "step": 1640
    },
    {
      "epoch": 1.0089,
      "grad_norm": 0.4652084410190582,
      "learning_rate": 0.00024734999999999997,
      "loss": 2.1323593139648436,
      "step": 1650
    },
    {
      "epoch": 1.0090666666666666,
      "grad_norm": 0.5389001965522766,
      "learning_rate": 0.00024885,
      "loss": 2.135792350769043,
      "step": 1660
    },
    {
      "epoch": 1.0092333333333334,
      "grad_norm": 0.457022100687027,
      "learning_rate": 0.00025035,
      "loss": 2.1415658950805665,
      "step": 1670
    },
    {
      "epoch": 1.0094,
      "grad_norm": 0.4299754500389099,
      "learning_rate": 0.00025184999999999997,
      "loss": 2.122327995300293,
      "step": 1680
    },
    {
      "epoch": 1.0095666666666667,
      "grad_norm": 0.4978894889354706,
      "learning_rate": 0.00025335,
      "loss": 2.1148754119873048,
      "step": 1690
    },
    {
      "epoch": 1.0097333333333334,
      "grad_norm": 0.429126501083374,
      "learning_rate": 0.00025485,
      "loss": 2.0946537017822267,
      "step": 1700
    },
    {
      "epoch": 1.0099,
      "grad_norm": 0.4430970549583435,
      "learning_rate": 0.00025634999999999997,
      "loss": 2.113183784484863,
      "step": 1710
    },
    {
      "epoch": 1.0100666666666667,
      "grad_norm": 0.5041225552558899,
      "learning_rate": 0.00025785,
      "loss": 2.1197893142700197,
      "step": 1720
    },
    {
      "epoch": 1.0102333333333333,
      "grad_norm": 0.44492107629776,
      "learning_rate": 0.00025935,
      "loss": 2.083152961730957,
      "step": 1730
    },
    {
      "epoch": 1.0104,
      "grad_norm": 0.5288322567939758,
      "learning_rate": 0.00026084999999999997,
      "loss": 2.099713897705078,
      "step": 1740
    },
    {
      "epoch": 1.0105666666666666,
      "grad_norm": 0.41168212890625,
      "learning_rate": 0.00026235,
      "loss": 2.0932744979858398,
      "step": 1750
    },
    {
      "epoch": 1.0107333333333333,
      "grad_norm": 0.5603193044662476,
      "learning_rate": 0.00026384999999999994,
      "loss": 2.094789505004883,
      "step": 1760
    },
    {
      "epoch": 1.0109,
      "grad_norm": 0.5161806344985962,
      "learning_rate": 0.00026534999999999997,
      "loss": 2.1284894943237305,
      "step": 1770
    },
    {
      "epoch": 1.0110666666666666,
      "grad_norm": 0.41853898763656616,
      "learning_rate": 0.00026684999999999995,
      "loss": 2.0773319244384765,
      "step": 1780
    },
    {
      "epoch": 1.0112333333333334,
      "grad_norm": 0.5440929532051086,
      "learning_rate": 0.00026835,
      "loss": 2.084604835510254,
      "step": 1790
    },
    {
      "epoch": 1.0114,
      "grad_norm": 0.40722721815109253,
      "learning_rate": 0.00026984999999999997,
      "loss": 2.0671564102172852,
      "step": 1800
    },
    {
      "epoch": 1.0115666666666667,
      "grad_norm": 0.41399574279785156,
      "learning_rate": 0.00027134999999999995,
      "loss": 2.0832889556884764,
      "step": 1810
    },
    {
      "epoch": 1.0117333333333334,
      "grad_norm": 0.49388933181762695,
      "learning_rate": 0.00027285,
      "loss": 2.075506591796875,
      "step": 1820
    },
    {
      "epoch": 1.0119,
      "grad_norm": 0.4293297827243805,
      "learning_rate": 0.00027435,
      "loss": 2.0805021286010743,
      "step": 1830
    },
    {
      "epoch": 1.0120666666666667,
      "grad_norm": 0.40732425451278687,
      "learning_rate": 0.00027584999999999996,
      "loss": 2.049145317077637,
      "step": 1840
    },
    {
      "epoch": 1.0122333333333333,
      "grad_norm": 0.3965112268924713,
      "learning_rate": 0.00027735,
      "loss": 2.0812307357788087,
      "step": 1850
    },
    {
      "epoch": 1.0124,
      "grad_norm": 0.4156767725944519,
      "learning_rate": 0.00027885,
      "loss": 2.062709999084473,
      "step": 1860
    },
    {
      "epoch": 1.0125666666666666,
      "grad_norm": 0.471309632062912,
      "learning_rate": 0.00028034999999999996,
      "loss": 2.068245506286621,
      "step": 1870
    },
    {
      "epoch": 1.0127333333333333,
      "grad_norm": 0.4497111439704895,
      "learning_rate": 0.00028185,
      "loss": 2.0558444976806642,
      "step": 1880
    },
    {
      "epoch": 1.0129,
      "grad_norm": 0.4482715129852295,
      "learning_rate": 0.00028335,
      "loss": 2.0624961853027344,
      "step": 1890
    },
    {
      "epoch": 1.0130666666666666,
      "grad_norm": 0.41347697377204895,
      "learning_rate": 0.00028484999999999996,
      "loss": 2.0406215667724608,
      "step": 1900
    },
    {
      "epoch": 1.0132333333333334,
      "grad_norm": 0.6128464341163635,
      "learning_rate": 0.00028635,
      "loss": 2.0728612899780274,
      "step": 1910
    },
    {
      "epoch": 1.0134,
      "grad_norm": 0.38494449853897095,
      "learning_rate": 0.00028785,
      "loss": 2.0554380416870117,
      "step": 1920
    },
    {
      "epoch": 1.0135666666666667,
      "grad_norm": 0.427548885345459,
      "learning_rate": 0.00028934999999999996,
      "loss": 2.034651756286621,
      "step": 1930
    },
    {
      "epoch": 1.0137333333333334,
      "grad_norm": 0.43239572644233704,
      "learning_rate": 0.00029085,
      "loss": 2.026533317565918,
      "step": 1940
    },
    {
      "epoch": 1.0139,
      "grad_norm": 0.3870188891887665,
      "learning_rate": 0.00029235,
      "loss": 2.03892822265625,
      "step": 1950
    },
    {
      "epoch": 1.0140666666666667,
      "grad_norm": 0.406421422958374,
      "learning_rate": 0.00029384999999999996,
      "loss": 2.0305675506591796,
      "step": 1960
    },
    {
      "epoch": 1.0142333333333333,
      "grad_norm": 0.3901691138744354,
      "learning_rate": 0.00029535,
      "loss": 2.0243934631347655,
      "step": 1970
    },
    {
      "epoch": 1.0144,
      "grad_norm": 0.3800658881664276,
      "learning_rate": 0.00029685,
      "loss": 2.023728942871094,
      "step": 1980
    },
    {
      "epoch": 1.0145666666666666,
      "grad_norm": 0.5150614380836487,
      "learning_rate": 0.00029835,
      "loss": 2.0288442611694335,
      "step": 1990
    },
    {
      "epoch": 1.0147333333333333,
      "grad_norm": 0.3727407455444336,
      "learning_rate": 0.00029985,
      "loss": 2.025221824645996,
      "step": 2000
    },
    {
      "epoch": 1.0149,
      "grad_norm": 0.4141431152820587,
      "learning_rate": 0.0002999999821766214,
      "loss": 2.0167604446411134,
      "step": 2010
    },
    {
      "epoch": 1.0150666666666666,
      "grad_norm": 0.37171122431755066,
      "learning_rate": 0.0002999999205649478,
      "loss": 1.9933094024658202,
      "step": 2020
    },
    {
      "epoch": 1.0152333333333334,
      "grad_norm": 0.3756411671638489,
      "learning_rate": 0.0002999998149449555,
      "loss": 2.0210105895996096,
      "step": 2030
    },
    {
      "epoch": 1.0154,
      "grad_norm": 0.3639385402202606,
      "learning_rate": 0.00029999966531667557,
      "loss": 2.0091827392578123,
      "step": 2040
    },
    {
      "epoch": 1.0155666666666667,
      "grad_norm": 0.8484693765640259,
      "learning_rate": 0.0002999994716801518,
      "loss": 2.0151844024658203,
      "step": 2050
    },
    {
      "epoch": 1.0157333333333334,
      "grad_norm": 0.4140762388706207,
      "learning_rate": 0.0002999992340354411,
      "loss": 2.024458885192871,
      "step": 2060
    },
    {
      "epoch": 1.0159,
      "grad_norm": 0.3462969660758972,
      "learning_rate": 0.00029999895238261314,
      "loss": 2.0107778549194335,
      "step": 2070
    },
    {
      "epoch": 1.0160666666666667,
      "grad_norm": 0.3533947765827179,
      "learning_rate": 0.0002999986267217506,
      "loss": 2.009040641784668,
      "step": 2080
    },
    {
      "epoch": 1.0162333333333333,
      "grad_norm": 0.3650343120098114,
      "learning_rate": 0.00029999825705294896,
      "loss": 1.992868995666504,
      "step": 2090
    },
    {
      "epoch": 1.0164,
      "grad_norm": 0.3732404410839081,
      "learning_rate": 0.0002999978433763167,
      "loss": 1.9918212890625,
      "step": 2100
    },
    {
      "epoch": 1.0165666666666666,
      "grad_norm": 0.3752574920654297,
      "learning_rate": 0.0002999973856919752,
      "loss": 1.99306640625,
      "step": 2110
    },
    {
      "epoch": 1.0167333333333333,
      "grad_norm": 0.3408653438091278,
      "learning_rate": 0.0002999968840000588,
      "loss": 1.982255744934082,
      "step": 2120
    },
    {
      "epoch": 1.0169,
      "grad_norm": 0.40709778666496277,
      "learning_rate": 0.0002999963383007145,
      "loss": 1.9962303161621093,
      "step": 2130
    },
    {
      "epoch": 1.0170666666666666,
      "grad_norm": 0.45272234082221985,
      "learning_rate": 0.0002999957485941026,
      "loss": 1.9663330078125,
      "step": 2140
    },
    {
      "epoch": 1.0172333333333334,
      "grad_norm": 0.3251003921031952,
      "learning_rate": 0.00029999511488039605,
      "loss": 1.9691213607788085,
      "step": 2150
    },
    {
      "epoch": 1.0174,
      "grad_norm": 0.4428218603134155,
      "learning_rate": 0.0002999944371597808,
      "loss": 1.958636474609375,
      "step": 2160
    },
    {
      "epoch": 1.0175666666666667,
      "grad_norm": 0.46182894706726074,
      "learning_rate": 0.0002999937154324556,
      "loss": 1.9858266830444335,
      "step": 2170
    },
    {
      "epoch": 1.0177333333333334,
      "grad_norm": 0.8355538845062256,
      "learning_rate": 0.00029999294969863225,
      "loss": 1.9517662048339843,
      "step": 2180
    },
    {
      "epoch": 1.0179,
      "grad_norm": 0.3260430097579956,
      "learning_rate": 0.00029999213995853544,
      "loss": 1.978273582458496,
      "step": 2190
    },
    {
      "epoch": 1.0180666666666667,
      "grad_norm": 0.32824161648750305,
      "learning_rate": 0.0002999912862124027,
      "loss": 1.9533300399780273,
      "step": 2200
    },
    {
      "epoch": 1.0182333333333333,
      "grad_norm": 0.43425774574279785,
      "learning_rate": 0.00029999038846048446,
      "loss": 1.9833160400390626,
      "step": 2210
    },
    {
      "epoch": 1.0184,
      "grad_norm": 0.4289158284664154,
      "learning_rate": 0.0002999894467030442,
      "loss": 1.9894195556640626,
      "step": 2220
    },
    {
      "epoch": 1.0185666666666666,
      "grad_norm": 0.33242323994636536,
      "learning_rate": 0.0002999884609403582,
      "loss": 1.9739130020141602,
      "step": 2230
    },
    {
      "epoch": 2.0001333333333333,
      "grad_norm": 0.3483293354511261,
      "learning_rate": 0.0002999874311727157,
      "loss": 2.1391387939453126,
      "step": 2240
    },
    {
      "epoch": 2.0003,
      "grad_norm": 0.4419577717781067,
      "learning_rate": 0.0002999863574004187,
      "loss": 1.9526805877685547,
      "step": 2250
    },
    {
      "epoch": 2.0004666666666666,
      "grad_norm": 0.32892906665802,
      "learning_rate": 0.00029998523962378236,
      "loss": 1.9603885650634765,
      "step": 2260
    },
    {
      "epoch": 2.0006333333333335,
      "grad_norm": 0.3562873303890228,
      "learning_rate": 0.0002999840778431346,
      "loss": 1.9467247009277344,
      "step": 2270
    },
    {
      "epoch": 2.0008,
      "grad_norm": 0.3505720794200897,
      "learning_rate": 0.00029998287205881623,
      "loss": 1.9456769943237304,
      "step": 2280
    },
    {
      "epoch": 2.000966666666667,
      "grad_norm": 0.4977933466434479,
      "learning_rate": 0.000299981622271181,
      "loss": 1.9312908172607421,
      "step": 2290
    },
    {
      "epoch": 2.001133333333333,
      "grad_norm": 0.35553523898124695,
      "learning_rate": 0.0002999803284805956,
      "loss": 1.9541061401367188,
      "step": 2300
    },
    {
      "epoch": 2.0013,
      "grad_norm": 0.3140776753425598,
      "learning_rate": 0.0002999789906874397,
      "loss": 1.9477697372436524,
      "step": 2310
    },
    {
      "epoch": 2.0014666666666665,
      "grad_norm": 0.3130316138267517,
      "learning_rate": 0.0002999776088921058,
      "loss": 1.9310338973999024,
      "step": 2320
    },
    {
      "epoch": 2.0016333333333334,
      "grad_norm": 0.31942018866539,
      "learning_rate": 0.0002999761830949991,
      "loss": 1.918303871154785,
      "step": 2330
    },
    {
      "epoch": 2.0018,
      "grad_norm": 0.33003127574920654,
      "learning_rate": 0.0002999747132965381,
      "loss": 1.9304985046386718,
      "step": 2340
    },
    {
      "epoch": 2.0019666666666667,
      "grad_norm": 0.3321942389011383,
      "learning_rate": 0.0002999731994971539,
      "loss": 1.911811065673828,
      "step": 2350
    },
    {
      "epoch": 2.0021333333333335,
      "grad_norm": 0.3409428000450134,
      "learning_rate": 0.00029997164169729074,
      "loss": 1.9200147628784179,
      "step": 2360
    },
    {
      "epoch": 2.0023,
      "grad_norm": 0.3252435624599457,
      "learning_rate": 0.0002999700398974057,
      "loss": 1.935724639892578,
      "step": 2370
    },
    {
      "epoch": 2.002466666666667,
      "grad_norm": 0.31721359491348267,
      "learning_rate": 0.00029996839409796857,
      "loss": 1.9181198120117187,
      "step": 2380
    },
    {
      "epoch": 2.0026333333333333,
      "grad_norm": 0.3215249180793762,
      "learning_rate": 0.00029996670429946226,
      "loss": 1.8987350463867188,
      "step": 2390
    },
    {
      "epoch": 2.0028,
      "grad_norm": 0.40686535835266113,
      "learning_rate": 0.0002999649705023826,
      "loss": 1.9019346237182617,
      "step": 2400
    },
    {
      "epoch": 2.0029666666666666,
      "grad_norm": 0.39925655722618103,
      "learning_rate": 0.0002999631927072383,
      "loss": 1.902694320678711,
      "step": 2410
    },
    {
      "epoch": 2.0031333333333334,
      "grad_norm": 0.31708091497421265,
      "learning_rate": 0.00029996137091455077,
      "loss": 1.919948196411133,
      "step": 2420
    },
    {
      "epoch": 2.0033,
      "grad_norm": 0.30797794461250305,
      "learning_rate": 0.0002999595051248547,
      "loss": 1.9114618301391602,
      "step": 2430
    },
    {
      "epoch": 2.0034666666666667,
      "grad_norm": 0.34483590722084045,
      "learning_rate": 0.00029995759533869734,
      "loss": 1.9047100067138671,
      "step": 2440
    },
    {
      "epoch": 2.003633333333333,
      "grad_norm": 0.3035229742527008,
      "learning_rate": 0.0002999556415566391,
      "loss": 1.9036048889160155,
      "step": 2450
    },
    {
      "epoch": 2.0038,
      "grad_norm": 0.31910640001296997,
      "learning_rate": 0.00029995364377925315,
      "loss": 1.8925201416015625,
      "step": 2460
    },
    {
      "epoch": 2.0039666666666665,
      "grad_norm": 0.31238090991973877,
      "learning_rate": 0.00029995160200712564,
      "loss": 1.8917516708374023,
      "step": 2470
    },
    {
      "epoch": 2.0041333333333333,
      "grad_norm": 0.33110883831977844,
      "learning_rate": 0.00029994951624085566,
      "loss": 1.9027652740478516,
      "step": 2480
    },
    {
      "epoch": 2.0043,
      "grad_norm": 0.3299698233604431,
      "learning_rate": 0.000299947386481055,
      "loss": 1.901352882385254,
      "step": 2490
    },
    {
      "epoch": 2.0044666666666666,
      "grad_norm": 0.31205272674560547,
      "learning_rate": 0.0002999452127283486,
      "loss": 1.8980585098266602,
      "step": 2500
    },
    {
      "epoch": 2.0046333333333335,
      "grad_norm": 0.29499128460884094,
      "learning_rate": 0.0002999429949833742,
      "loss": 1.8852500915527344,
      "step": 2510
    },
    {
      "epoch": 2.0048,
      "grad_norm": 0.3277484178543091,
      "learning_rate": 0.00029994073324678247,
      "loss": 1.88719482421875,
      "step": 2520
    },
    {
      "epoch": 2.004966666666667,
      "grad_norm": 0.3019053637981415,
      "learning_rate": 0.000299938427519237,
      "loss": 1.8691232681274415,
      "step": 2530
    },
    {
      "epoch": 2.005133333333333,
      "grad_norm": 0.2999207079410553,
      "learning_rate": 0.0002999360778014143,
      "loss": 1.8811899185180665,
      "step": 2540
    },
    {
      "epoch": 2.0053,
      "grad_norm": 0.309031218290329,
      "learning_rate": 0.00029993368409400356,
      "loss": 1.8907697677612305,
      "step": 2550
    },
    {
      "epoch": 2.0054666666666665,
      "grad_norm": 0.30694296956062317,
      "learning_rate": 0.0002999312463977073,
      "loss": 1.8924570083618164,
      "step": 2560
    },
    {
      "epoch": 2.0056333333333334,
      "grad_norm": 0.2894775867462158,
      "learning_rate": 0.00029992876471324057,
      "loss": 1.8695192337036133,
      "step": 2570
    },
    {
      "epoch": 2.0058,
      "grad_norm": 0.2997623085975647,
      "learning_rate": 0.00029992623904133154,
      "loss": 1.8780364990234375,
      "step": 2580
    },
    {
      "epoch": 2.0059666666666667,
      "grad_norm": 0.33627018332481384,
      "learning_rate": 0.00029992366938272114,
      "loss": 1.8802318572998047,
      "step": 2590
    },
    {
      "epoch": 2.0061333333333335,
      "grad_norm": 0.305471271276474,
      "learning_rate": 0.00029992105573816336,
      "loss": 1.8689495086669923,
      "step": 2600
    },
    {
      "epoch": 2.0063,
      "grad_norm": 0.3067426085472107,
      "learning_rate": 0.000299918398108425,
      "loss": 1.8797239303588866,
      "step": 2610
    },
    {
      "epoch": 2.006466666666667,
      "grad_norm": 0.30758461356163025,
      "learning_rate": 0.00029991569649428574,
      "loss": 1.8528533935546876,
      "step": 2620
    },
    {
      "epoch": 2.0066333333333333,
      "grad_norm": 0.39458268880844116,
      "learning_rate": 0.00029991295089653827,
      "loss": 1.8724189758300782,
      "step": 2630
    },
    {
      "epoch": 2.0068,
      "grad_norm": 0.33424311876296997,
      "learning_rate": 0.000299910161315988,
      "loss": 1.8637022018432616,
      "step": 2640
    },
    {
      "epoch": 2.0069666666666666,
      "grad_norm": 0.3854370415210724,
      "learning_rate": 0.0002999073277534534,
      "loss": 1.8546772003173828,
      "step": 2650
    },
    {
      "epoch": 2.0071333333333334,
      "grad_norm": 0.3321525752544403,
      "learning_rate": 0.00029990445020976593,
      "loss": 1.8813508987426757,
      "step": 2660
    },
    {
      "epoch": 2.0073,
      "grad_norm": 0.5437219142913818,
      "learning_rate": 0.00029990152868576974,
      "loss": 1.8557924270629882,
      "step": 2670
    },
    {
      "epoch": 2.0074666666666667,
      "grad_norm": 0.29385554790496826,
      "learning_rate": 0.00029989856318232195,
      "loss": 1.8538352966308593,
      "step": 2680
    },
    {
      "epoch": 2.007633333333333,
      "grad_norm": 0.28902414441108704,
      "learning_rate": 0.0002998955537002926,
      "loss": 1.867183303833008,
      "step": 2690
    },
    {
      "epoch": 2.0078,
      "grad_norm": 0.3079817593097687,
      "learning_rate": 0.0002998925002405647,
      "loss": 1.8617700576782226,
      "step": 2700
    },
    {
      "epoch": 2.0079666666666665,
      "grad_norm": 0.31161582469940186,
      "learning_rate": 0.00029988940280403407,
      "loss": 1.850856399536133,
      "step": 2710
    },
    {
      "epoch": 2.0081333333333333,
      "grad_norm": 0.2734602689743042,
      "learning_rate": 0.00029988626139160944,
      "loss": 1.8329235076904298,
      "step": 2720
    },
    {
      "epoch": 2.0083,
      "grad_norm": 0.29510024189949036,
      "learning_rate": 0.00029988307600421245,
      "loss": 1.8493413925170898,
      "step": 2730
    },
    {
      "epoch": 2.0084666666666666,
      "grad_norm": 0.3101499676704407,
      "learning_rate": 0.00029987984664277777,
      "loss": 1.837864875793457,
      "step": 2740
    },
    {
      "epoch": 2.0086333333333335,
      "grad_norm": 0.29377278685569763,
      "learning_rate": 0.0002998765733082528,
      "loss": 1.8344387054443358,
      "step": 2750
    },
    {
      "epoch": 2.0088,
      "grad_norm": 0.367495596408844,
      "learning_rate": 0.0002998732560015978,
      "loss": 1.8256048202514648,
      "step": 2760
    },
    {
      "epoch": 2.008966666666667,
      "grad_norm": 0.8747866749763489,
      "learning_rate": 0.00029986989472378613,
      "loss": 1.8315084457397461,
      "step": 2770
    },
    {
      "epoch": 2.009133333333333,
      "grad_norm": 0.3131991922855377,
      "learning_rate": 0.000299866489475804,
      "loss": 1.8437740325927734,
      "step": 2780
    },
    {
      "epoch": 2.0093,
      "grad_norm": 0.30495911836624146,
      "learning_rate": 0.00029986304025865035,
      "loss": 1.8268943786621095,
      "step": 2790
    },
    {
      "epoch": 2.0094666666666665,
      "grad_norm": 0.2781303822994232,
      "learning_rate": 0.00029985954707333724,
      "loss": 1.8243549346923829,
      "step": 2800
    },
    {
      "epoch": 2.0096333333333334,
      "grad_norm": 0.31482452154159546,
      "learning_rate": 0.00029985600992088945,
      "loss": 1.8155588150024413,
      "step": 2810
    },
    {
      "epoch": 2.0098,
      "grad_norm": 0.3138728141784668,
      "learning_rate": 0.00029985242880234484,
      "loss": 1.811925506591797,
      "step": 2820
    },
    {
      "epoch": 2.0099666666666667,
      "grad_norm": 0.2919290065765381,
      "learning_rate": 0.00029984880371875395,
      "loss": 1.8293731689453125,
      "step": 2830
    },
    {
      "epoch": 2.0101333333333335,
      "grad_norm": 0.2963739335536957,
      "learning_rate": 0.00029984513467118043,
      "loss": 1.8097396850585938,
      "step": 2840
    },
    {
      "epoch": 2.0103,
      "grad_norm": 0.2968748211860657,
      "learning_rate": 0.00029984142166070073,
      "loss": 1.8181087493896484,
      "step": 2850
    },
    {
      "epoch": 2.010466666666667,
      "grad_norm": 0.32753726840019226,
      "learning_rate": 0.0002998376646884042,
      "loss": 1.8085901260375976,
      "step": 2860
    },
    {
      "epoch": 2.0106333333333333,
      "grad_norm": 0.332154244184494,
      "learning_rate": 0.00029983386375539306,
      "loss": 1.8173376083374024,
      "step": 2870
    },
    {
      "epoch": 2.0108,
      "grad_norm": 0.30764803290367126,
      "learning_rate": 0.0002998300188627825,
      "loss": 1.8258855819702149,
      "step": 2880
    },
    {
      "epoch": 2.0109666666666666,
      "grad_norm": 0.2808578312397003,
      "learning_rate": 0.0002998261300117005,
      "loss": 1.824087905883789,
      "step": 2890
    },
    {
      "epoch": 2.0111333333333334,
      "grad_norm": 0.2978729009628296,
      "learning_rate": 0.00029982219720328814,
      "loss": 1.7921815872192384,
      "step": 2900
    },
    {
      "epoch": 2.0113,
      "grad_norm": 0.2905280292034149,
      "learning_rate": 0.0002998182204386991,
      "loss": 1.8095476150512695,
      "step": 2910
    },
    {
      "epoch": 2.0114666666666667,
      "grad_norm": 0.2959212064743042,
      "learning_rate": 0.0002998141997191003,
      "loss": 1.8007658004760743,
      "step": 2920
    },
    {
      "epoch": 2.011633333333333,
      "grad_norm": 0.29560765624046326,
      "learning_rate": 0.0002998101350456712,
      "loss": 1.8038867950439452,
      "step": 2930
    },
    {
      "epoch": 2.0118,
      "grad_norm": 0.35846570134162903,
      "learning_rate": 0.0002998060264196044,
      "loss": 1.8145381927490234,
      "step": 2940
    },
    {
      "epoch": 2.0119666666666665,
      "grad_norm": 0.2926178276538849,
      "learning_rate": 0.00029980187384210543,
      "loss": 1.7917072296142578,
      "step": 2950
    },
    {
      "epoch": 2.0121333333333333,
      "grad_norm": 0.3068349063396454,
      "learning_rate": 0.00029979767731439243,
      "loss": 1.7924629211425782,
      "step": 2960
    },
    {
      "epoch": 2.0123,
      "grad_norm": 0.2997657358646393,
      "learning_rate": 0.0002997934368376967,
      "loss": 1.8075037002563477,
      "step": 2970
    },
    {
      "epoch": 2.0124666666666666,
      "grad_norm": 0.30741429328918457,
      "learning_rate": 0.0002997891524132623,
      "loss": 1.7943035125732423,
      "step": 2980
    },
    {
      "epoch": 2.0126333333333335,
      "grad_norm": 0.2987091541290283,
      "learning_rate": 0.0002997848240423464,
      "loss": 1.8019412994384765,
      "step": 2990
    },
    {
      "epoch": 2.0128,
      "grad_norm": 0.30597877502441406,
      "learning_rate": 0.0002997804517262187,
      "loss": 1.7804391860961915,
      "step": 3000
    },
    {
      "epoch": 2.012966666666667,
      "grad_norm": 0.30425113439559937,
      "learning_rate": 0.00029977603546616204,
      "loss": 1.7919233322143555,
      "step": 3010
    },
    {
      "epoch": 2.013133333333333,
      "grad_norm": 0.29537034034729004,
      "learning_rate": 0.0002997715752634722,
      "loss": 1.7906463623046875,
      "step": 3020
    },
    {
      "epoch": 2.0133,
      "grad_norm": 0.31160587072372437,
      "learning_rate": 0.00029976707111945765,
      "loss": 1.8006792068481445,
      "step": 3030
    },
    {
      "epoch": 2.0134666666666665,
      "grad_norm": 0.2768838107585907,
      "learning_rate": 0.00029976252303543985,
      "loss": 1.7734039306640625,
      "step": 3040
    },
    {
      "epoch": 2.0136333333333334,
      "grad_norm": 0.34434473514556885,
      "learning_rate": 0.0002997579310127532,
      "loss": 1.790645217895508,
      "step": 3050
    },
    {
      "epoch": 2.0138,
      "grad_norm": 0.3175096809864044,
      "learning_rate": 0.000299753295052745,
      "loss": 1.776620101928711,
      "step": 3060
    },
    {
      "epoch": 2.0139666666666667,
      "grad_norm": 0.27720019221305847,
      "learning_rate": 0.00029974861515677525,
      "loss": 1.7714349746704101,
      "step": 3070
    },
    {
      "epoch": 2.0141333333333336,
      "grad_norm": 0.3595098853111267,
      "learning_rate": 0.00029974389132621715,
      "loss": 1.7710906982421875,
      "step": 3080
    },
    {
      "epoch": 2.0143,
      "grad_norm": 0.33949705958366394,
      "learning_rate": 0.0002997391235624565,
      "loss": 1.7787233352661134,
      "step": 3090
    },
    {
      "epoch": 2.014466666666667,
      "grad_norm": 0.29317399859428406,
      "learning_rate": 0.0002997343118668921,
      "loss": 1.7712892532348632,
      "step": 3100
    },
    {
      "epoch": 2.0146333333333333,
      "grad_norm": 0.29205620288848877,
      "learning_rate": 0.0002997294562409357,
      "loss": 1.7849128723144532,
      "step": 3110
    },
    {
      "epoch": 2.0148,
      "grad_norm": 0.3042508065700531,
      "learning_rate": 0.00029972455668601187,
      "loss": 1.7632179260253906,
      "step": 3120
    },
    {
      "epoch": 2.0149666666666666,
      "grad_norm": 0.2817091941833496,
      "learning_rate": 0.0002997196132035581,
      "loss": 1.7586166381835937,
      "step": 3130
    },
    {
      "epoch": 2.0151333333333334,
      "grad_norm": 0.2994356155395508,
      "learning_rate": 0.00029971462579502477,
      "loss": 1.765203094482422,
      "step": 3140
    },
    {
      "epoch": 2.0153,
      "grad_norm": 0.34546980261802673,
      "learning_rate": 0.00029970959446187507,
      "loss": 1.7686321258544921,
      "step": 3150
    },
    {
      "epoch": 2.0154666666666667,
      "grad_norm": 0.29304182529449463,
      "learning_rate": 0.0002997045192055852,
      "loss": 1.7579254150390624,
      "step": 3160
    },
    {
      "epoch": 2.015633333333333,
      "grad_norm": 0.2991744577884674,
      "learning_rate": 0.00029969940002764415,
      "loss": 1.7774200439453125,
      "step": 3170
    },
    {
      "epoch": 2.0158,
      "grad_norm": 0.2959384024143219,
      "learning_rate": 0.0002996942369295538,
      "loss": 1.7614059448242188,
      "step": 3180
    },
    {
      "epoch": 2.0159666666666665,
      "grad_norm": 0.27773720026016235,
      "learning_rate": 0.000299689029912829,
      "loss": 1.7697029113769531,
      "step": 3190
    },
    {
      "epoch": 2.0161333333333333,
      "grad_norm": 0.32048192620277405,
      "learning_rate": 0.0002996837789789975,
      "loss": 1.7673730850219727,
      "step": 3200
    },
    {
      "epoch": 2.0163,
      "grad_norm": 0.29490071535110474,
      "learning_rate": 0.0002996784841295997,
      "loss": 1.754742431640625,
      "step": 3210
    },
    {
      "epoch": 2.0164666666666666,
      "grad_norm": 0.30989086627960205,
      "learning_rate": 0.0002996731453661891,
      "loss": 1.7523395538330078,
      "step": 3220
    },
    {
      "epoch": 2.0166333333333335,
      "grad_norm": 0.28182804584503174,
      "learning_rate": 0.0002996677626903321,
      "loss": 1.761356735229492,
      "step": 3230
    },
    {
      "epoch": 2.0168,
      "grad_norm": 0.3071010112762451,
      "learning_rate": 0.0002996623361036079,
      "loss": 1.7489625930786132,
      "step": 3240
    },
    {
      "epoch": 2.016966666666667,
      "grad_norm": 0.3243575096130371,
      "learning_rate": 0.0002996568656076085,
      "loss": 1.7530878067016602,
      "step": 3250
    },
    {
      "epoch": 2.0171333333333332,
      "grad_norm": 0.30851274728775024,
      "learning_rate": 0.0002996513512039391,
      "loss": 1.7365777969360352,
      "step": 3260
    },
    {
      "epoch": 2.0173,
      "grad_norm": 0.31781646609306335,
      "learning_rate": 0.0002996457928942173,
      "loss": 1.7379327774047852,
      "step": 3270
    },
    {
      "epoch": 2.0174666666666665,
      "grad_norm": 0.30550727248191833,
      "learning_rate": 0.0002996401906800741,
      "loss": 1.748966598510742,
      "step": 3280
    },
    {
      "epoch": 2.0176333333333334,
      "grad_norm": 0.30173051357269287,
      "learning_rate": 0.0002996345445631529,
      "loss": 1.7401952743530273,
      "step": 3290
    },
    {
      "epoch": 2.0178,
      "grad_norm": 0.29951369762420654,
      "learning_rate": 0.0002996288545451103,
      "loss": 1.7343709945678711,
      "step": 3300
    },
    {
      "epoch": 2.0179666666666667,
      "grad_norm": 0.27360084652900696,
      "learning_rate": 0.0002996231206276158,
      "loss": 1.7397294998168946,
      "step": 3310
    },
    {
      "epoch": 2.018133333333333,
      "grad_norm": 0.30762919783592224,
      "learning_rate": 0.00029961734281235155,
      "loss": 1.7346086502075195,
      "step": 3320
    },
    {
      "epoch": 2.0183,
      "grad_norm": 0.30437207221984863,
      "learning_rate": 0.0002996115211010127,
      "loss": 1.7656745910644531,
      "step": 3330
    },
    {
      "epoch": 2.018466666666667,
      "grad_norm": 0.2910079061985016,
      "learning_rate": 0.0002996056554953073,
      "loss": 1.7637361526489257,
      "step": 3340
    },
    {
      "epoch": 3.0000333333333336,
      "grad_norm": 0.5841907858848572,
      "learning_rate": 0.00029959974599695616,
      "loss": 1.8916559219360352,
      "step": 3350
    },
    {
      "epoch": 3.0002,
      "grad_norm": 0.30715465545654297,
      "learning_rate": 0.00029959379260769325,
      "loss": 1.734269905090332,
      "step": 3360
    },
    {
      "epoch": 3.000366666666667,
      "grad_norm": 0.2890932559967041,
      "learning_rate": 0.00029958779532926504,
      "loss": 1.737888717651367,
      "step": 3370
    },
    {
      "epoch": 3.0005333333333333,
      "grad_norm": 0.2667240500450134,
      "learning_rate": 0.00029958175416343124,
      "loss": 1.7341463088989257,
      "step": 3380
    },
    {
      "epoch": 3.0007,
      "grad_norm": 0.28347086906433105,
      "learning_rate": 0.00029957566911196414,
      "loss": 1.7401607513427735,
      "step": 3390
    },
    {
      "epoch": 3.0008666666666666,
      "grad_norm": 0.29408538341522217,
      "learning_rate": 0.00029956954017664903,
      "loss": 1.7225614547729493,
      "step": 3400
    },
    {
      "epoch": 3.0010333333333334,
      "grad_norm": 0.30668047070503235,
      "learning_rate": 0.0002995633673592841,
      "loss": 1.7230432510375977,
      "step": 3410
    },
    {
      "epoch": 3.0012,
      "grad_norm": 0.2996319830417633,
      "learning_rate": 0.00029955715066168044,
      "loss": 1.7335132598876952,
      "step": 3420
    },
    {
      "epoch": 3.0013666666666667,
      "grad_norm": 0.2857902944087982,
      "learning_rate": 0.00029955089008566185,
      "loss": 1.7325157165527343,
      "step": 3430
    },
    {
      "epoch": 3.001533333333333,
      "grad_norm": 0.3037016987800598,
      "learning_rate": 0.0002995445856330652,
      "loss": 1.7197406768798829,
      "step": 3440
    },
    {
      "epoch": 3.0017,
      "grad_norm": 0.2963092029094696,
      "learning_rate": 0.0002995382373057401,
      "loss": 1.722641372680664,
      "step": 3450
    },
    {
      "epoch": 3.0018666666666665,
      "grad_norm": 0.3075854182243347,
      "learning_rate": 0.0002995318451055492,
      "loss": 1.7070884704589844,
      "step": 3460
    },
    {
      "epoch": 3.0020333333333333,
      "grad_norm": 0.334443062543869,
      "learning_rate": 0.0002995254090343677,
      "loss": 1.7077157974243165,
      "step": 3470
    },
    {
      "epoch": 3.0022,
      "grad_norm": 0.3198912441730499,
      "learning_rate": 0.0002995189290940839,
      "loss": 1.730832290649414,
      "step": 3480
    },
    {
      "epoch": 3.0023666666666666,
      "grad_norm": 0.29788824915885925,
      "learning_rate": 0.00029951240528659914,
      "loss": 1.717129898071289,
      "step": 3490
    },
    {
      "epoch": 3.0025333333333335,
      "grad_norm": 0.31315430998802185,
      "learning_rate": 0.0002995058376138273,
      "loss": 1.7042694091796875,
      "step": 3500
    },
    {
      "epoch": 3.0027,
      "grad_norm": 0.2997714579105377,
      "learning_rate": 0.00029949922607769525,
      "loss": 1.6981151580810547,
      "step": 3510
    },
    {
      "epoch": 3.002866666666667,
      "grad_norm": 0.49318060278892517,
      "learning_rate": 0.00029949257068014273,
      "loss": 1.6965030670166015,
      "step": 3520
    },
    {
      "epoch": 3.003033333333333,
      "grad_norm": 0.302224338054657,
      "learning_rate": 0.0002994858714231224,
      "loss": 1.716214942932129,
      "step": 3530
    },
    {
      "epoch": 3.0032,
      "grad_norm": 0.33403024077415466,
      "learning_rate": 0.00029947912830859976,
      "loss": 1.7219301223754884,
      "step": 3540
    },
    {
      "epoch": 3.0033666666666665,
      "grad_norm": 0.3228297233581543,
      "learning_rate": 0.0002994723413385531,
      "loss": 1.7075923919677733,
      "step": 3550
    },
    {
      "epoch": 3.0035333333333334,
      "grad_norm": 0.2840413749217987,
      "learning_rate": 0.0002994655105149737,
      "loss": 1.7017856597900392,
      "step": 3560
    },
    {
      "epoch": 3.0037,
      "grad_norm": 0.2929494380950928,
      "learning_rate": 0.00029945863583986563,
      "loss": 1.7047229766845704,
      "step": 3570
    },
    {
      "epoch": 3.0038666666666667,
      "grad_norm": 0.2888146638870239,
      "learning_rate": 0.0002994517173152459,
      "loss": 1.696831512451172,
      "step": 3580
    },
    {
      "epoch": 3.004033333333333,
      "grad_norm": 0.3097553849220276,
      "learning_rate": 0.00029944475494314424,
      "loss": 1.6922567367553711,
      "step": 3590
    },
    {
      "epoch": 3.0042,
      "grad_norm": 0.2964254915714264,
      "learning_rate": 0.0002994377487256034,
      "loss": 1.7038848876953125,
      "step": 3600
    },
    {
      "epoch": 3.004366666666667,
      "grad_norm": 0.33456939458847046,
      "learning_rate": 0.00029943069866467884,
      "loss": 1.716048240661621,
      "step": 3610
    },
    {
      "epoch": 3.0045333333333333,
      "grad_norm": 0.315708190202713,
      "learning_rate": 0.00029942360476243907,
      "loss": 1.699909782409668,
      "step": 3620
    },
    {
      "epoch": 3.0047,
      "grad_norm": 0.31560301780700684,
      "learning_rate": 0.0002994164670209653,
      "loss": 1.6968250274658203,
      "step": 3630
    },
    {
      "epoch": 3.0048666666666666,
      "grad_norm": 0.30578115582466125,
      "learning_rate": 0.0002994092854423517,
      "loss": 1.6915258407592773,
      "step": 3640
    },
    {
      "epoch": 3.0050333333333334,
      "grad_norm": 0.295392781496048,
      "learning_rate": 0.0002994020600287052,
      "loss": 1.6869081497192382,
      "step": 3650
    },
    {
      "epoch": 0.00016666666666666666,
      "grad_norm": 1.5778170824050903,
      "learning_rate": 0.00029849904372022663,
      "loss": 3.774449920654297,
      "step": 3660
    },
    {
      "epoch": 0.0003333333333333333,
      "grad_norm": 0.7220685482025146,
      "learning_rate": 0.000298487751905002,
      "loss": 3.307727813720703,
      "step": 3670
    },
    {
      "epoch": 0.0005,
      "grad_norm": 0.6823899149894714,
      "learning_rate": 0.00029847641798936566,
      "loss": 3.308191680908203,
      "step": 3680
    },
    {
      "epoch": 0.0006666666666666666,
      "grad_norm": 0.7152085304260254,
      "learning_rate": 0.00029846504197653096,
      "loss": 3.309762191772461,
      "step": 3690
    },
    {
      "epoch": 0.0008333333333333334,
      "grad_norm": 0.6293660998344421,
      "learning_rate": 0.0002984536238697233,
      "loss": 3.3758075714111326,
      "step": 3700
    },
    {
      "epoch": 0.001,
      "grad_norm": 0.7295067310333252,
      "learning_rate": 0.0002984421636721801,
      "loss": 3.3281707763671875,
      "step": 3710
    },
    {
      "epoch": 0.0011666666666666668,
      "grad_norm": 0.6338008642196655,
      "learning_rate": 0.00029843066138715064,
      "loss": 3.3392311096191407,
      "step": 3720
    },
    {
      "epoch": 0.0013333333333333333,
      "grad_norm": 0.6514250636100769,
      "learning_rate": 0.0002984191170178961,
      "loss": 3.232216644287109,
      "step": 3730
    },
    {
      "epoch": 0.0015,
      "grad_norm": 0.6614907383918762,
      "learning_rate": 0.00029840753056768965,
      "loss": 3.2421695709228517,
      "step": 3740
    },
    {
      "epoch": 0.0016666666666666668,
      "grad_norm": 0.639617919921875,
      "learning_rate": 0.00029839590203981645,
      "loss": 3.2931827545166015,
      "step": 3750
    },
    {
      "epoch": 0.0018333333333333333,
      "grad_norm": 0.5634158253669739,
      "learning_rate": 0.0002983842314375733,
      "loss": 3.185129737854004,
      "step": 3760
    },
    {
      "epoch": 0.002,
      "grad_norm": 0.6283559799194336,
      "learning_rate": 0.00029837251876426937,
      "loss": 3.244803237915039,
      "step": 3770
    },
    {
      "epoch": 0.0021666666666666666,
      "grad_norm": 0.5802392959594727,
      "learning_rate": 0.00029836076402322545,
      "loss": 3.0983781814575195,
      "step": 3780
    },
    {
      "epoch": 0.0023333333333333335,
      "grad_norm": 0.5623877644538879,
      "learning_rate": 0.0002983489672177743,
      "loss": 2.968458557128906,
      "step": 3790
    },
    {
      "epoch": 0.0025,
      "grad_norm": 0.547167181968689,
      "learning_rate": 0.00029833712835126064,
      "loss": 2.9178205490112306,
      "step": 3800
    },
    {
      "epoch": 0.0026666666666666666,
      "grad_norm": 0.5496246218681335,
      "learning_rate": 0.0002983252474270411,
      "loss": 3.0116304397583007,
      "step": 3810
    },
    {
      "epoch": 0.0028333333333333335,
      "grad_norm": 0.6299962997436523,
      "learning_rate": 0.0002983133244484844,
      "loss": 3.1483575820922853,
      "step": 3820
    },
    {
      "epoch": 0.003,
      "grad_norm": 0.6428859233856201,
      "learning_rate": 0.0002983013594189709,
      "loss": 3.208842086791992,
      "step": 3830
    },
    {
      "epoch": 0.0031666666666666666,
      "grad_norm": 0.5592418909072876,
      "learning_rate": 0.00029828935234189294,
      "loss": 3.186692810058594,
      "step": 3840
    },
    {
      "epoch": 0.0033333333333333335,
      "grad_norm": 0.6330075860023499,
      "learning_rate": 0.0002982773032206551,
      "loss": 3.142811393737793,
      "step": 3850
    },
    {
      "epoch": 0.0035,
      "grad_norm": 0.5640964508056641,
      "learning_rate": 0.00029826521205867344,
      "loss": 3.191600036621094,
      "step": 3860
    },
    {
      "epoch": 0.0036666666666666666,
      "grad_norm": 0.5621790885925293,
      "learning_rate": 0.00029825307885937623,
      "loss": 3.1665826797485352,
      "step": 3870
    },
    {
      "epoch": 0.003833333333333333,
      "grad_norm": 0.555362343788147,
      "learning_rate": 0.00029824090362620356,
      "loss": 3.2408042907714845,
      "step": 3880
    },
    {
      "epoch": 0.004,
      "grad_norm": 0.5904632210731506,
      "learning_rate": 0.0002982286863626075,
      "loss": 3.3447166442871095,
      "step": 3890
    },
    {
      "epoch": 0.004166666666666667,
      "grad_norm": 0.5641190409660339,
      "learning_rate": 0.00029821642707205184,
      "loss": 3.256772994995117,
      "step": 3900
    },
    {
      "epoch": 0.004333333333333333,
      "grad_norm": 0.57473224401474,
      "learning_rate": 0.00029820412575801256,
      "loss": 3.270028305053711,
      "step": 3910
    },
    {
      "epoch": 0.0045,
      "grad_norm": 0.5857067108154297,
      "learning_rate": 0.00029819178242397734,
      "loss": 3.238531494140625,
      "step": 3920
    },
    {
      "epoch": 0.004666666666666667,
      "grad_norm": 0.5126656293869019,
      "learning_rate": 0.00029817939707344593,
      "loss": 3.300303268432617,
      "step": 3930
    },
    {
      "epoch": 0.004833333333333334,
      "grad_norm": 0.5652568340301514,
      "learning_rate": 0.00029816696970992986,
      "loss": 3.2070068359375,
      "step": 3940
    },
    {
      "epoch": 0.005,
      "grad_norm": 0.4956953227519989,
      "learning_rate": 0.0002981545003369527,
      "loss": 3.2531665802001952,
      "step": 3950
    },
    {
      "epoch": 0.005166666666666667,
      "grad_norm": 0.5084554553031921,
      "learning_rate": 0.0002981419889580498,
      "loss": 3.066339874267578,
      "step": 3960
    },
    {
      "epoch": 0.005333333333333333,
      "grad_norm": 0.5247703790664673,
      "learning_rate": 0.00029812943557676856,
      "loss": 3.1590555191040037,
      "step": 3970
    },
    {
      "epoch": 0.0055,
      "grad_norm": 0.5014616250991821,
      "learning_rate": 0.0002981168401966681,
      "loss": 3.192496490478516,
      "step": 3980
    },
    {
      "epoch": 0.005666666666666667,
      "grad_norm": 0.5336611866950989,
      "learning_rate": 0.0002981042028213197,
      "loss": 3.323842239379883,
      "step": 3990
    },
    {
      "epoch": 0.005833333333333334,
      "grad_norm": 0.5619737505912781,
      "learning_rate": 0.00029809152345430627,
      "loss": 3.190663719177246,
      "step": 4000
    },
    {
      "epoch": 0.006,
      "grad_norm": 0.5566272139549255,
      "learning_rate": 0.00029807880209922283,
      "loss": 3.083289909362793,
      "step": 4010
    },
    {
      "epoch": 0.006166666666666667,
      "grad_norm": 0.5660613179206848,
      "learning_rate": 0.0002980660387596763,
      "loss": 3.2430679321289064,
      "step": 4020
    },
    {
      "epoch": 0.006333333333333333,
      "grad_norm": 0.5177736282348633,
      "learning_rate": 0.0002980532334392853,
      "loss": 3.178599548339844,
      "step": 4030
    },
    {
      "epoch": 0.0065,
      "grad_norm": 0.5329192280769348,
      "learning_rate": 0.0002980403861416806,
      "loss": 3.1674598693847655,
      "step": 4040
    },
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 0.6663591265678406,
      "learning_rate": 0.0002980274968705048,
      "loss": 3.0155174255371096,
      "step": 4050
    },
    {
      "epoch": 0.006833333333333334,
      "grad_norm": 0.4993612766265869,
      "learning_rate": 0.00029801456562941227,
      "loss": 3.066207695007324,
      "step": 4060
    },
    {
      "epoch": 0.007,
      "grad_norm": 0.5428812503814697,
      "learning_rate": 0.00029800159242206935,
      "loss": 3.10704345703125,
      "step": 4070
    },
    {
      "epoch": 0.007166666666666667,
      "grad_norm": 0.513583242893219,
      "learning_rate": 0.00029798857725215445,
      "loss": 3.184256172180176,
      "step": 4080
    },
    {
      "epoch": 0.007333333333333333,
      "grad_norm": 0.5102922320365906,
      "learning_rate": 0.0002979755201233576,
      "loss": 3.0215587615966797,
      "step": 4090
    },
    {
      "epoch": 0.0075,
      "grad_norm": 0.521461009979248,
      "learning_rate": 0.00029796242103938096,
      "loss": 3.1003379821777344,
      "step": 4100
    },
    {
      "epoch": 0.007666666666666666,
      "grad_norm": 0.4812868535518646,
      "learning_rate": 0.00029794928000393843,
      "loss": 3.1397796630859376,
      "step": 4110
    },
    {
      "epoch": 0.007833333333333333,
      "grad_norm": 0.5282142758369446,
      "learning_rate": 0.0002979360970207558,
      "loss": 3.193585968017578,
      "step": 4120
    },
    {
      "epoch": 0.008,
      "grad_norm": 0.5009388327598572,
      "learning_rate": 0.00029792287209357097,
      "loss": 3.1340686798095705,
      "step": 4130
    },
    {
      "epoch": 0.008166666666666666,
      "grad_norm": 0.6340370774269104,
      "learning_rate": 0.00029790960522613343,
      "loss": 3.0806493759155273,
      "step": 4140
    },
    {
      "epoch": 0.008333333333333333,
      "grad_norm": 0.5030133128166199,
      "learning_rate": 0.0002978962964222048,
      "loss": 3.170300102233887,
      "step": 4150
    },
    {
      "epoch": 0.0085,
      "grad_norm": 0.5144831538200378,
      "learning_rate": 0.0002978829456855584,
      "loss": 3.3535289764404297,
      "step": 4160
    },
    {
      "epoch": 0.008666666666666666,
      "grad_norm": 0.5370882153511047,
      "learning_rate": 0.0002978695530199796,
      "loss": 3.2686225891113283,
      "step": 4170
    },
    {
      "epoch": 0.008833333333333334,
      "grad_norm": 0.5093417167663574,
      "learning_rate": 0.0002978561184292656,
      "loss": 3.142299270629883,
      "step": 4180
    },
    {
      "epoch": 0.009,
      "grad_norm": 0.5327890515327454,
      "learning_rate": 0.0002978426419172255,
      "loss": 3.1478483200073244,
      "step": 4190
    },
    {
      "epoch": 0.009166666666666667,
      "grad_norm": 0.5170514583587646,
      "learning_rate": 0.0002978291234876802,
      "loss": 3.2556007385253904,
      "step": 4200
    },
    {
      "epoch": 0.009333333333333334,
      "grad_norm": 0.5124508142471313,
      "learning_rate": 0.00029781556314446264,
      "loss": 3.3029640197753904,
      "step": 4210
    },
    {
      "epoch": 0.0095,
      "grad_norm": 0.577273428440094,
      "learning_rate": 0.0002978019608914175,
      "loss": 3.2595043182373047,
      "step": 4220
    },
    {
      "epoch": 0.009666666666666667,
      "grad_norm": 0.5103987455368042,
      "learning_rate": 0.00029778831673240127,
      "loss": 3.243117904663086,
      "step": 4230
    },
    {
      "epoch": 0.009833333333333333,
      "grad_norm": 0.5025808215141296,
      "learning_rate": 0.00029777463067128267,
      "loss": 3.060438537597656,
      "step": 4240
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.44690072536468506,
      "learning_rate": 0.000297760902711942,
      "loss": 3.0471775054931642,
      "step": 4250
    },
    {
      "epoch": 0.010166666666666666,
      "grad_norm": 0.467395544052124,
      "learning_rate": 0.00029774713285827143,
      "loss": 2.98464298248291,
      "step": 4260
    },
    {
      "epoch": 0.010333333333333333,
      "grad_norm": 0.5547831058502197,
      "learning_rate": 0.00029773332111417524,
      "loss": 3.1703718185424803,
      "step": 4270
    },
    {
      "epoch": 0.0105,
      "grad_norm": 0.5768072009086609,
      "learning_rate": 0.0002977194674835693,
      "loss": 3.301234817504883,
      "step": 4280
    },
    {
      "epoch": 0.010666666666666666,
      "grad_norm": 0.45032358169555664,
      "learning_rate": 0.00029770557197038164,
      "loss": 3.2695812225341796,
      "step": 4290
    },
    {
      "epoch": 0.010833333333333334,
      "grad_norm": 0.46786898374557495,
      "learning_rate": 0.0002976916345785519,
      "loss": 3.2581401824951173,
      "step": 4300
    },
    {
      "epoch": 0.011,
      "grad_norm": 0.4445962905883789,
      "learning_rate": 0.0002976776553120319,
      "loss": 3.285322570800781,
      "step": 4310
    },
    {
      "epoch": 0.011166666666666667,
      "grad_norm": 0.47308477759361267,
      "learning_rate": 0.00029766363417478494,
      "loss": 3.2954906463623046,
      "step": 4320
    },
    {
      "epoch": 0.011333333333333334,
      "grad_norm": 0.48444363474845886,
      "learning_rate": 0.0002976495711707865,
      "loss": 3.3107620239257813,
      "step": 4330
    },
    {
      "epoch": 0.0115,
      "grad_norm": 0.5089991092681885,
      "learning_rate": 0.00029763546630402386,
      "loss": 3.2996601104736327,
      "step": 4340
    },
    {
      "epoch": 0.011666666666666667,
      "grad_norm": 0.46392160654067993,
      "learning_rate": 0.000297621319578496,
      "loss": 3.358951950073242,
      "step": 4350
    },
    {
      "epoch": 0.011833333333333333,
      "grad_norm": 0.47319114208221436,
      "learning_rate": 0.00029760713099821415,
      "loss": 3.215884780883789,
      "step": 4360
    },
    {
      "epoch": 0.012,
      "grad_norm": 0.4464090168476105,
      "learning_rate": 0.00029759290056720095,
      "loss": 2.9921100616455076,
      "step": 4370
    },
    {
      "epoch": 0.012166666666666666,
      "grad_norm": 0.4325127601623535,
      "learning_rate": 0.00029757862828949124,
      "loss": 2.7973331451416015,
      "step": 4380
    },
    {
      "epoch": 0.012333333333333333,
      "grad_norm": 0.46863001585006714,
      "learning_rate": 0.00029756431416913157,
      "loss": 2.923106384277344,
      "step": 4390
    },
    {
      "epoch": 0.0125,
      "grad_norm": 0.4626036286354065,
      "learning_rate": 0.00029754995821018045,
      "loss": 3.0310813903808596,
      "step": 4400
    },
    {
      "epoch": 0.012666666666666666,
      "grad_norm": 0.4916419982910156,
      "learning_rate": 0.0002975355604167081,
      "loss": 3.093164825439453,
      "step": 4410
    },
    {
      "epoch": 0.012833333333333334,
      "grad_norm": 0.4526589810848236,
      "learning_rate": 0.0002975211207927967,
      "loss": 3.295928955078125,
      "step": 4420
    },
    {
      "epoch": 0.013,
      "grad_norm": 0.4669049084186554,
      "learning_rate": 0.00029750663934254034,
      "loss": 3.2381587982177735,
      "step": 4430
    },
    {
      "epoch": 0.013166666666666667,
      "grad_norm": 0.46921107172966003,
      "learning_rate": 0.0002974921160700449,
      "loss": 3.1719486236572267,
      "step": 4440
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 0.5220564007759094,
      "learning_rate": 0.0002974775509794282,
      "loss": 3.2720565795898438,
      "step": 4450
    },
    {
      "epoch": 0.0135,
      "grad_norm": 0.4780034124851227,
      "learning_rate": 0.0002974629440748197,
      "loss": 3.291085433959961,
      "step": 4460
    },
    {
      "epoch": 0.013666666666666667,
      "grad_norm": 0.4605162739753723,
      "learning_rate": 0.00029744829536036097,
      "loss": 3.2416168212890626,
      "step": 4470
    },
    {
      "epoch": 0.013833333333333333,
      "grad_norm": 0.4649753272533417,
      "learning_rate": 0.0002974336048402053,
      "loss": 3.183604049682617,
      "step": 4480
    },
    {
      "epoch": 0.014,
      "grad_norm": 0.444002240896225,
      "learning_rate": 0.00029741887251851786,
      "loss": 3.1085399627685546,
      "step": 4490
    },
    {
      "epoch": 0.014166666666666666,
      "grad_norm": 0.4448355436325073,
      "learning_rate": 0.00029740409839947566,
      "loss": 3.116347885131836,
      "step": 4500
    },
    {
      "epoch": 0.014333333333333333,
      "grad_norm": 0.4390920102596283,
      "learning_rate": 0.00029738928248726764,
      "loss": 3.1324329376220703,
      "step": 4510
    },
    {
      "epoch": 0.0145,
      "grad_norm": 0.4476589858531952,
      "learning_rate": 0.0002973744247860944,
      "loss": 3.1119213104248047,
      "step": 4520
    },
    {
      "epoch": 0.014666666666666666,
      "grad_norm": 0.4517284035682678,
      "learning_rate": 0.0002973595253001687,
      "loss": 3.0000232696533202,
      "step": 4530
    },
    {
      "epoch": 0.014833333333333334,
      "grad_norm": 0.4266926646232605,
      "learning_rate": 0.00029734458403371473,
      "loss": 3.0543354034423826,
      "step": 4540
    },
    {
      "epoch": 0.015,
      "grad_norm": 0.465181440114975,
      "learning_rate": 0.00029732960099096894,
      "loss": 3.1297534942626952,
      "step": 4550
    },
    {
      "epoch": 0.015166666666666667,
      "grad_norm": 0.44289475679397583,
      "learning_rate": 0.0002973145761761793,
      "loss": 3.1308570861816407,
      "step": 4560
    },
    {
      "epoch": 0.015333333333333332,
      "grad_norm": 0.45259231328964233,
      "learning_rate": 0.00029729950959360587,
      "loss": 3.113242340087891,
      "step": 4570
    },
    {
      "epoch": 0.0155,
      "grad_norm": 0.49212995171546936,
      "learning_rate": 0.00029728440124752043,
      "loss": 3.1158754348754885,
      "step": 4580
    },
    {
      "epoch": 0.015666666666666666,
      "grad_norm": 0.44125884771347046,
      "learning_rate": 0.00029726925114220655,
      "loss": 3.074172782897949,
      "step": 4590
    },
    {
      "epoch": 0.015833333333333335,
      "grad_norm": 0.445905864238739,
      "learning_rate": 0.0002972540592819598,
      "loss": 3.08502140045166,
      "step": 4600
    },
    {
      "epoch": 0.016,
      "grad_norm": 0.4353269934654236,
      "learning_rate": 0.00029723882567108745,
      "loss": 2.9679975509643555,
      "step": 4610
    },
    {
      "epoch": 0.016166666666666666,
      "grad_norm": 0.4166252315044403,
      "learning_rate": 0.0002972235503139086,
      "loss": 2.9368864059448243,
      "step": 4620
    },
    {
      "epoch": 0.01633333333333333,
      "grad_norm": 0.4455665946006775,
      "learning_rate": 0.0002972082332147543,
      "loss": 3.0976829528808594,
      "step": 4630
    },
    {
      "epoch": 0.0165,
      "grad_norm": 0.4223819673061371,
      "learning_rate": 0.0002971928743779674,
      "loss": 3.026397132873535,
      "step": 4640
    },
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 0.441989541053772,
      "learning_rate": 0.0002971774738079025,
      "loss": 3.0403167724609377,
      "step": 4650
    },
    {
      "epoch": 0.016833333333333332,
      "grad_norm": 0.435830295085907,
      "learning_rate": 0.0002971620315089261,
      "loss": 3.1183338165283203,
      "step": 4660
    },
    {
      "epoch": 0.017,
      "grad_norm": 0.4655296802520752,
      "learning_rate": 0.00029714654748541657,
      "loss": 3.1077341079711913,
      "step": 4670
    },
    {
      "epoch": 0.017166666666666667,
      "grad_norm": 0.4390181601047516,
      "learning_rate": 0.000297131021741764,
      "loss": 3.0585168838500976,
      "step": 4680
    },
    {
      "epoch": 0.017333333333333333,
      "grad_norm": 0.46241506934165955,
      "learning_rate": 0.0002971154542823704,
      "loss": 3.0429901123046874,
      "step": 4690
    },
    {
      "epoch": 0.0175,
      "grad_norm": 0.42871007323265076,
      "learning_rate": 0.00029709984511164955,
      "loss": 3.0659711837768553,
      "step": 4700
    },
    {
      "epoch": 0.017666666666666667,
      "grad_norm": 0.4105594754219055,
      "learning_rate": 0.00029708419423402717,
      "loss": 3.0605178833007813,
      "step": 4710
    },
    {
      "epoch": 0.017833333333333333,
      "grad_norm": 0.45519882440567017,
      "learning_rate": 0.0002970685016539406,
      "loss": 3.048724365234375,
      "step": 4720
    },
    {
      "epoch": 0.018,
      "grad_norm": 0.42550894618034363,
      "learning_rate": 0.0002970527673758392,
      "loss": 2.9582677841186524,
      "step": 4730
    },
    {
      "epoch": 0.018166666666666668,
      "grad_norm": 0.4230113923549652,
      "learning_rate": 0.00029703699140418404,
      "loss": 3.0614328384399414,
      "step": 4740
    },
    {
      "epoch": 0.018333333333333333,
      "grad_norm": 0.474998414516449,
      "learning_rate": 0.0002970211737434481,
      "loss": 3.1223560333251954,
      "step": 4750
    },
    {
      "epoch": 0.0185,
      "grad_norm": 0.41748204827308655,
      "learning_rate": 0.00029700531439811603,
      "loss": 3.1135513305664064,
      "step": 4760
    },
    {
      "epoch": 0.018666666666666668,
      "grad_norm": 0.48395001888275146,
      "learning_rate": 0.0002969894133726845,
      "loss": 2.9970415115356444,
      "step": 4770
    },
    {
      "epoch": 0.018833333333333334,
      "grad_norm": 0.45481327176094055,
      "learning_rate": 0.0002969734706716618,
      "loss": 3.071116828918457,
      "step": 4780
    },
    {
      "epoch": 0.019,
      "grad_norm": 0.4932529926300049,
      "learning_rate": 0.0002969574862995683,
      "loss": 2.951759147644043,
      "step": 4790
    },
    {
      "epoch": 0.019166666666666665,
      "grad_norm": 0.45772960782051086,
      "learning_rate": 0.0002969414602609358,
      "loss": 2.9374309539794923,
      "step": 4800
    },
    {
      "epoch": 0.019333333333333334,
      "grad_norm": 0.40841713547706604,
      "learning_rate": 0.0002969253925603083,
      "loss": 2.9139503479003905,
      "step": 4810
    },
    {
      "epoch": 0.0195,
      "grad_norm": 0.422498494386673,
      "learning_rate": 0.00029690928320224127,
      "loss": 3.0036170959472654,
      "step": 4820
    },
    {
      "epoch": 0.019666666666666666,
      "grad_norm": 0.41859570145606995,
      "learning_rate": 0.0002968931321913023,
      "loss": 3.030325698852539,
      "step": 4830
    },
    {
      "epoch": 0.019833333333333335,
      "grad_norm": 0.4252321720123291,
      "learning_rate": 0.0002968769395320706,
      "loss": 2.9996585845947266,
      "step": 4840
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.39273467659950256,
      "learning_rate": 0.00029686070522913727,
      "loss": 3.0428844451904298,
      "step": 4850
    },
    {
      "epoch": 0.020166666666666666,
      "grad_norm": 0.4008473753929138,
      "learning_rate": 0.0002968444292871051,
      "loss": 3.038602828979492,
      "step": 4860
    },
    {
      "epoch": 0.02033333333333333,
      "grad_norm": 0.39325961470603943,
      "learning_rate": 0.00029682811171058887,
      "loss": 3.0508377075195314,
      "step": 4870
    },
    {
      "epoch": 0.0205,
      "grad_norm": 0.42926836013793945,
      "learning_rate": 0.0002968117525042151,
      "loss": 2.9267642974853514,
      "step": 4880
    },
    {
      "epoch": 0.020666666666666667,
      "grad_norm": 0.3997902572154999,
      "learning_rate": 0.00029679535167262194,
      "loss": 2.908608627319336,
      "step": 4890
    },
    {
      "epoch": 0.020833333333333332,
      "grad_norm": 0.39283305406570435,
      "learning_rate": 0.00029677890922045954,
      "loss": 2.8062005996704102,
      "step": 4900
    },
    {
      "epoch": 0.021,
      "grad_norm": 0.5050291419029236,
      "learning_rate": 0.00029676242515238986,
      "loss": 2.977495574951172,
      "step": 4910
    },
    {
      "epoch": 0.021166666666666667,
      "grad_norm": 0.4664459228515625,
      "learning_rate": 0.0002967458994730865,
      "loss": 3.0423885345458985,
      "step": 4920
    },
    {
      "epoch": 0.021333333333333333,
      "grad_norm": 0.4809158742427826,
      "learning_rate": 0.000296729332187235,
      "loss": 2.9984725952148437,
      "step": 4930
    },
    {
      "epoch": 0.0215,
      "grad_norm": 0.4519208073616028,
      "learning_rate": 0.00029671272329953266,
      "loss": 2.9846240997314455,
      "step": 4940
    },
    {
      "epoch": 0.021666666666666667,
      "grad_norm": 0.4372696578502655,
      "learning_rate": 0.0002966960728146885,
      "loss": 3.0425092697143556,
      "step": 4950
    },
    {
      "epoch": 0.021833333333333333,
      "grad_norm": 0.42301109433174133,
      "learning_rate": 0.00029667938073742346,
      "loss": 2.9889686584472654,
      "step": 4960
    },
    {
      "epoch": 0.022,
      "grad_norm": 0.3952590525150299,
      "learning_rate": 0.0002966626470724702,
      "loss": 2.9601165771484377,
      "step": 4970
    },
    {
      "epoch": 0.022166666666666668,
      "grad_norm": 0.4400894343852997,
      "learning_rate": 0.0002966458718245732,
      "loss": 2.9297361373901367,
      "step": 4980
    },
    {
      "epoch": 0.022333333333333334,
      "grad_norm": 0.3968198001384735,
      "learning_rate": 0.0002966290549984886,
      "loss": 2.923467445373535,
      "step": 4990
    },
    {
      "epoch": 0.0225,
      "grad_norm": 0.4230905771255493,
      "learning_rate": 0.0002966121965989845,
      "loss": 2.8356529235839845,
      "step": 5000
    },
    {
      "epoch": 0.02266666666666667,
      "grad_norm": 0.4638538658618927,
      "learning_rate": 0.0002965952966308408,
      "loss": 2.751129913330078,
      "step": 5010
    },
    {
      "epoch": 0.022833333333333334,
      "grad_norm": 0.4058930277824402,
      "learning_rate": 0.000296578355098849,
      "loss": 2.8753490447998047,
      "step": 5020
    },
    {
      "epoch": 0.023,
      "grad_norm": 0.4356415271759033,
      "learning_rate": 0.0002965613720078126,
      "loss": 2.9448657989501954,
      "step": 5030
    },
    {
      "epoch": 0.023166666666666665,
      "grad_norm": 0.4432661533355713,
      "learning_rate": 0.0002965443473625467,
      "loss": 3.0600040435791014,
      "step": 5040
    },
    {
      "epoch": 0.023333333333333334,
      "grad_norm": 0.40705952048301697,
      "learning_rate": 0.0002965272811678783,
      "loss": 3.039891815185547,
      "step": 5050
    },
    {
      "epoch": 0.0235,
      "grad_norm": 0.4108118712902069,
      "learning_rate": 0.0002965101734286461,
      "loss": 3.0408308029174806,
      "step": 5060
    },
    {
      "epoch": 0.023666666666666666,
      "grad_norm": 0.41265869140625,
      "learning_rate": 0.0002964930241497007,
      "loss": 3.060531806945801,
      "step": 5070
    },
    {
      "epoch": 0.023833333333333335,
      "grad_norm": 0.3892955780029297,
      "learning_rate": 0.0002964758333359043,
      "loss": 2.961796188354492,
      "step": 5080
    },
    {
      "epoch": 0.024,
      "grad_norm": 0.38490405678749084,
      "learning_rate": 0.000296458600992131,
      "loss": 3.079538917541504,
      "step": 5090
    },
    {
      "epoch": 0.024166666666666666,
      "grad_norm": 0.39841511845588684,
      "learning_rate": 0.0002964413271232667,
      "loss": 2.9802776336669923,
      "step": 5100
    },
    {
      "epoch": 0.024333333333333332,
      "grad_norm": 0.4207797944545746,
      "learning_rate": 0.000296424011734209,
      "loss": 2.8793426513671876,
      "step": 5110
    },
    {
      "epoch": 0.0245,
      "grad_norm": 0.4052133858203888,
      "learning_rate": 0.0002964066548298673,
      "loss": 2.856357765197754,
      "step": 5120
    },
    {
      "epoch": 0.024666666666666667,
      "grad_norm": 0.3816324472427368,
      "learning_rate": 0.0002963892564151627,
      "loss": 2.9858179092407227,
      "step": 5130
    },
    {
      "epoch": 0.024833333333333332,
      "grad_norm": 0.47515869140625,
      "learning_rate": 0.0002963718164950282,
      "loss": 3.1763587951660157,
      "step": 5140
    },
    {
      "epoch": 0.025,
      "grad_norm": 0.40806320309638977,
      "learning_rate": 0.0002963543350744085,
      "loss": 3.151714324951172,
      "step": 5150
    },
    {
      "epoch": 0.025166666666666667,
      "grad_norm": 0.5163785219192505,
      "learning_rate": 0.00029633681215826004,
      "loss": 2.945247459411621,
      "step": 5160
    },
    {
      "epoch": 0.025333333333333333,
      "grad_norm": 0.4207831919193268,
      "learning_rate": 0.0002963192477515511,
      "loss": 3.0415407180786134,
      "step": 5170
    },
    {
      "epoch": 0.0255,
      "grad_norm": 0.40855222940444946,
      "learning_rate": 0.00029630164185926166,
      "loss": 3.1059539794921873,
      "step": 5180
    },
    {
      "epoch": 0.025666666666666667,
      "grad_norm": 0.3957916498184204,
      "learning_rate": 0.0002962839944863835,
      "loss": 3.0001821517944336,
      "step": 5190
    },
    {
      "epoch": 0.025833333333333333,
      "grad_norm": 0.39638176560401917,
      "learning_rate": 0.0002962663056379201,
      "loss": 3.1186132431030273,
      "step": 5200
    },
    {
      "epoch": 0.026,
      "grad_norm": 0.3970320224761963,
      "learning_rate": 0.0002962485753188867,
      "loss": 3.1292917251586916,
      "step": 5210
    },
    {
      "epoch": 0.026166666666666668,
      "grad_norm": 0.46836334466934204,
      "learning_rate": 0.00029623080353431046,
      "loss": 3.1594337463378905,
      "step": 5220
    },
    {
      "epoch": 0.026333333333333334,
      "grad_norm": 0.41316238045692444,
      "learning_rate": 0.0002962129902892301,
      "loss": 3.108985710144043,
      "step": 5230
    },
    {
      "epoch": 0.0265,
      "grad_norm": 0.38777822256088257,
      "learning_rate": 0.0002961951355886961,
      "loss": 3.050784873962402,
      "step": 5240
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 0.39757364988327026,
      "learning_rate": 0.00029617723943777094,
      "loss": 3.0273033142089845,
      "step": 5250
    },
    {
      "epoch": 0.026833333333333334,
      "grad_norm": 0.3906317949295044,
      "learning_rate": 0.00029615930184152855,
      "loss": 3.077456474304199,
      "step": 5260
    },
    {
      "epoch": 0.027,
      "grad_norm": 0.4051954746246338,
      "learning_rate": 0.00029614132280505475,
      "loss": 3.0868051528930662,
      "step": 5270
    },
    {
      "epoch": 0.027166666666666665,
      "grad_norm": 0.3984355032444,
      "learning_rate": 0.00029612330233344715,
      "loss": 3.0292882919311523,
      "step": 5280
    },
    {
      "epoch": 0.027333333333333334,
      "grad_norm": 0.46807315945625305,
      "learning_rate": 0.00029610524043181504,
      "loss": 3.0543338775634767,
      "step": 5290
    },
    {
      "epoch": 0.0275,
      "grad_norm": 0.4327753782272339,
      "learning_rate": 0.00029608713710527944,
      "loss": 3.0852005004882814,
      "step": 5300
    },
    {
      "epoch": 0.027666666666666666,
      "grad_norm": 0.4260406792163849,
      "learning_rate": 0.0002960689923589732,
      "loss": 3.109157180786133,
      "step": 5310
    },
    {
      "epoch": 0.027833333333333335,
      "grad_norm": 0.41041651368141174,
      "learning_rate": 0.00029605080619804074,
      "loss": 3.025878143310547,
      "step": 5320
    },
    {
      "epoch": 0.028,
      "grad_norm": 0.41694915294647217,
      "learning_rate": 0.0002960325786276385,
      "loss": 3.0681831359863283,
      "step": 5330
    },
    {
      "epoch": 0.028166666666666666,
      "grad_norm": 0.3778274655342102,
      "learning_rate": 0.0002960143096529344,
      "loss": 3.064166259765625,
      "step": 5340
    },
    {
      "epoch": 0.028333333333333332,
      "grad_norm": 0.3917562961578369,
      "learning_rate": 0.00029599599927910826,
      "loss": 3.0182376861572267,
      "step": 5350
    },
    {
      "epoch": 0.0285,
      "grad_norm": 0.42189955711364746,
      "learning_rate": 0.0002959776475113515,
      "loss": 3.016231155395508,
      "step": 5360
    },
    {
      "epoch": 0.028666666666666667,
      "grad_norm": 0.4121429920196533,
      "learning_rate": 0.00029595925435486745,
      "loss": 3.0514553070068358,
      "step": 5370
    },
    {
      "epoch": 0.028833333333333332,
      "grad_norm": 0.42146554589271545,
      "learning_rate": 0.000295940819814871,
      "loss": 3.052465629577637,
      "step": 5380
    },
    {
      "epoch": 0.029,
      "grad_norm": 0.377998948097229,
      "learning_rate": 0.000295922343896589,
      "loss": 2.8454496383666994,
      "step": 5390
    },
    {
      "epoch": 0.029166666666666667,
      "grad_norm": 0.39422616362571716,
      "learning_rate": 0.0002959038266052597,
      "loss": 2.6665836334228517,
      "step": 5400
    },
    {
      "epoch": 0.029333333333333333,
      "grad_norm": 0.3714645802974701,
      "learning_rate": 0.00029588526794613334,
      "loss": 2.6556703567504885,
      "step": 5410
    },
    {
      "epoch": 0.0295,
      "grad_norm": 0.39717552065849304,
      "learning_rate": 0.00029586666792447185,
      "loss": 2.736180305480957,
      "step": 5420
    },
    {
      "epoch": 0.029666666666666668,
      "grad_norm": 0.4036571979522705,
      "learning_rate": 0.0002958480265455489,
      "loss": 2.7086135864257814,
      "step": 5430
    },
    {
      "epoch": 0.029833333333333333,
      "grad_norm": 0.3743681013584137,
      "learning_rate": 0.0002958293438146497,
      "loss": 2.941759490966797,
      "step": 5440
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.40706613659858704,
      "learning_rate": 0.0002958106197370714,
      "loss": 2.948502540588379,
      "step": 5450
    },
    {
      "epoch": 0.030166666666666668,
      "grad_norm": 0.4117063879966736,
      "learning_rate": 0.00029579185431812286,
      "loss": 2.9798656463623048,
      "step": 5460
    },
    {
      "epoch": 0.030333333333333334,
      "grad_norm": 0.4454329311847687,
      "learning_rate": 0.0002957730475631245,
      "loss": 2.9249732971191404,
      "step": 5470
    },
    {
      "epoch": 0.0305,
      "grad_norm": 0.39523670077323914,
      "learning_rate": 0.0002957541994774086,
      "loss": 2.8878499984741213,
      "step": 5480
    },
    {
      "epoch": 0.030666666666666665,
      "grad_norm": 0.36399638652801514,
      "learning_rate": 0.00029573531006631907,
      "loss": 2.9448997497558596,
      "step": 5490
    },
    {
      "epoch": 0.030833333333333334,
      "grad_norm": 0.4440824091434479,
      "learning_rate": 0.00029571637933521164,
      "loss": 2.878627395629883,
      "step": 5500
    },
    {
      "epoch": 0.031,
      "grad_norm": 0.4278319180011749,
      "learning_rate": 0.0002956974072894537,
      "loss": 2.9515048980712892,
      "step": 5510
    },
    {
      "epoch": 0.031166666666666665,
      "grad_norm": 0.40986528992652893,
      "learning_rate": 0.00029567839393442437,
      "loss": 2.9613771438598633,
      "step": 5520
    },
    {
      "epoch": 0.03133333333333333,
      "grad_norm": 0.3902529776096344,
      "learning_rate": 0.00029565933927551435,
      "loss": 2.923776054382324,
      "step": 5530
    },
    {
      "epoch": 0.0315,
      "grad_norm": 0.41012078523635864,
      "learning_rate": 0.0002956402433181263,
      "loss": 2.975874328613281,
      "step": 5540
    },
    {
      "epoch": 0.03166666666666667,
      "grad_norm": 0.40504106879234314,
      "learning_rate": 0.0002956211060676744,
      "loss": 2.909282112121582,
      "step": 5550
    },
    {
      "epoch": 0.03183333333333333,
      "grad_norm": 0.4037550091743469,
      "learning_rate": 0.0002956019275295846,
      "loss": 2.9982988357543947,
      "step": 5560
    },
    {
      "epoch": 0.032,
      "grad_norm": 0.3706510663032532,
      "learning_rate": 0.00029558270770929456,
      "loss": 2.942987060546875,
      "step": 5570
    },
    {
      "epoch": 0.03216666666666667,
      "grad_norm": 0.3897784650325775,
      "learning_rate": 0.00029556344661225357,
      "loss": 2.9039384841918947,
      "step": 5580
    },
    {
      "epoch": 0.03233333333333333,
      "grad_norm": 0.4270058870315552,
      "learning_rate": 0.0002955441442439228,
      "loss": 2.9499792098999023,
      "step": 5590
    },
    {
      "epoch": 0.0325,
      "grad_norm": 0.39148110151290894,
      "learning_rate": 0.0002955248006097749,
      "loss": 3.0189350128173826,
      "step": 5600
    },
    {
      "epoch": 0.03266666666666666,
      "grad_norm": 0.3739214241504669,
      "learning_rate": 0.00029550541571529443,
      "loss": 2.86805419921875,
      "step": 5610
    },
    {
      "epoch": 0.03283333333333333,
      "grad_norm": 0.37678641080856323,
      "learning_rate": 0.00029548598956597745,
      "loss": 2.8048625946044923,
      "step": 5620
    },
    {
      "epoch": 0.033,
      "grad_norm": 0.38853731751441956,
      "learning_rate": 0.00029546652216733187,
      "loss": 2.921887969970703,
      "step": 5630
    },
    {
      "epoch": 0.033166666666666664,
      "grad_norm": 0.40962421894073486,
      "learning_rate": 0.0002954470135248772,
      "loss": 2.859710121154785,
      "step": 5640
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 0.4202129542827606,
      "learning_rate": 0.0002954274636441448,
      "loss": 2.8912075042724608,
      "step": 5650
    },
    {
      "epoch": 0.0335,
      "grad_norm": 0.3784216642379761,
      "learning_rate": 0.00029540787253067746,
      "loss": 2.8085119247436525,
      "step": 5660
    },
    {
      "epoch": 0.033666666666666664,
      "grad_norm": 0.3924359977245331,
      "learning_rate": 0.0002953882401900298,
      "loss": 2.913351821899414,
      "step": 5670
    },
    {
      "epoch": 0.03383333333333333,
      "grad_norm": 0.40623074769973755,
      "learning_rate": 0.00029536856662776826,
      "loss": 2.944149398803711,
      "step": 5680
    },
    {
      "epoch": 0.034,
      "grad_norm": 0.4099932014942169,
      "learning_rate": 0.00029534885184947076,
      "loss": 2.875970649719238,
      "step": 5690
    },
    {
      "epoch": 0.034166666666666665,
      "grad_norm": 0.36651095747947693,
      "learning_rate": 0.00029532909586072706,
      "loss": 2.841335105895996,
      "step": 5700
    },
    {
      "epoch": 0.034333333333333334,
      "grad_norm": 0.3954033851623535,
      "learning_rate": 0.00029530929866713844,
      "loss": 2.87349910736084,
      "step": 5710
    },
    {
      "epoch": 0.0345,
      "grad_norm": 0.3759227395057678,
      "learning_rate": 0.00029528946027431797,
      "loss": 2.8565431594848634,
      "step": 5720
    },
    {
      "epoch": 0.034666666666666665,
      "grad_norm": 0.35877352952957153,
      "learning_rate": 0.0002952695806878905,
      "loss": 2.806620407104492,
      "step": 5730
    },
    {
      "epoch": 0.034833333333333334,
      "grad_norm": 0.3754509389400482,
      "learning_rate": 0.00029524965991349226,
      "loss": 2.7679475784301757,
      "step": 5740
    },
    {
      "epoch": 0.035,
      "grad_norm": 0.34031248092651367,
      "learning_rate": 0.00029522969795677147,
      "loss": 2.670439910888672,
      "step": 5750
    },
    {
      "epoch": 0.035166666666666666,
      "grad_norm": 0.36299699544906616,
      "learning_rate": 0.0002952096948233879,
      "loss": 2.76367073059082,
      "step": 5760
    },
    {
      "epoch": 0.035333333333333335,
      "grad_norm": 0.3920454680919647,
      "learning_rate": 0.00029518965051901296,
      "loss": 2.814274215698242,
      "step": 5770
    },
    {
      "epoch": 0.0355,
      "grad_norm": 0.36294087767601013,
      "learning_rate": 0.0002951695650493298,
      "loss": 2.7482378005981447,
      "step": 5780
    },
    {
      "epoch": 0.035666666666666666,
      "grad_norm": 0.36339011788368225,
      "learning_rate": 0.00029514943842003316,
      "loss": 2.7880197525024415,
      "step": 5790
    },
    {
      "epoch": 0.035833333333333335,
      "grad_norm": 0.3664824962615967,
      "learning_rate": 0.0002951292706368295,
      "loss": 2.74920539855957,
      "step": 5800
    },
    {
      "epoch": 0.036,
      "grad_norm": 0.37298399209976196,
      "learning_rate": 0.0002951090617054371,
      "loss": 2.7620262145996093,
      "step": 5810
    },
    {
      "epoch": 0.036166666666666666,
      "grad_norm": 0.5309566259384155,
      "learning_rate": 0.0002950888116315855,
      "loss": 2.880209732055664,
      "step": 5820
    },
    {
      "epoch": 0.036333333333333336,
      "grad_norm": 0.3781473636627197,
      "learning_rate": 0.00029506852042101634,
      "loss": 2.832257080078125,
      "step": 5830
    },
    {
      "epoch": 0.0365,
      "grad_norm": 0.3755476474761963,
      "learning_rate": 0.0002950481880794827,
      "loss": 2.72965145111084,
      "step": 5840
    },
    {
      "epoch": 0.03666666666666667,
      "grad_norm": 0.3585830628871918,
      "learning_rate": 0.0002950278146127493,
      "loss": 2.7756679534912108,
      "step": 5850
    },
    {
      "epoch": 0.036833333333333336,
      "grad_norm": 0.378136545419693,
      "learning_rate": 0.0002950074000265927,
      "loss": 2.8998336791992188,
      "step": 5860
    },
    {
      "epoch": 0.037,
      "grad_norm": 0.3947715759277344,
      "learning_rate": 0.0002949869443268009,
      "loss": 2.9380889892578126,
      "step": 5870
    },
    {
      "epoch": 0.03716666666666667,
      "grad_norm": 0.40435487031936646,
      "learning_rate": 0.00029496644751917376,
      "loss": 2.7399545669555665,
      "step": 5880
    },
    {
      "epoch": 0.037333333333333336,
      "grad_norm": 0.37711283564567566,
      "learning_rate": 0.00029494590960952265,
      "loss": 2.588311195373535,
      "step": 5890
    },
    {
      "epoch": 0.0375,
      "grad_norm": 0.4344159960746765,
      "learning_rate": 0.0002949253306036706,
      "loss": 2.574771499633789,
      "step": 5900
    },
    {
      "epoch": 0.03766666666666667,
      "grad_norm": 0.4346453547477722,
      "learning_rate": 0.0002949047105074524,
      "loss": 2.50732364654541,
      "step": 5910
    },
    {
      "epoch": 0.03783333333333333,
      "grad_norm": 0.37476930022239685,
      "learning_rate": 0.00029488404932671435,
      "loss": 2.601269340515137,
      "step": 5920
    },
    {
      "epoch": 0.038,
      "grad_norm": 0.41381752490997314,
      "learning_rate": 0.0002948633470673145,
      "loss": 2.5921453475952148,
      "step": 5930
    },
    {
      "epoch": 0.03816666666666667,
      "grad_norm": 0.39000943303108215,
      "learning_rate": 0.0002948426037351225,
      "loss": 2.6637712478637696,
      "step": 5940
    },
    {
      "epoch": 0.03833333333333333,
      "grad_norm": 0.37929767370224,
      "learning_rate": 0.00029482181933601973,
      "loss": 2.811085319519043,
      "step": 5950
    },
    {
      "epoch": 0.0385,
      "grad_norm": 0.3917810618877411,
      "learning_rate": 0.00029480099387589907,
      "loss": 2.6634618759155275,
      "step": 5960
    },
    {
      "epoch": 0.03866666666666667,
      "grad_norm": 0.3915526866912842,
      "learning_rate": 0.00029478012736066517,
      "loss": 2.778007698059082,
      "step": 5970
    },
    {
      "epoch": 0.03883333333333333,
      "grad_norm": 0.369268000125885,
      "learning_rate": 0.00029475921979623423,
      "loss": 2.696705627441406,
      "step": 5980
    },
    {
      "epoch": 0.039,
      "grad_norm": 0.40467938780784607,
      "learning_rate": 0.00029473827118853415,
      "loss": 2.8099590301513673,
      "step": 5990
    },
    {
      "epoch": 0.03916666666666667,
      "grad_norm": 0.3687494099140167,
      "learning_rate": 0.00029471728154350444,
      "loss": 2.881623649597168,
      "step": 6000
    },
    {
      "epoch": 0.03933333333333333,
      "grad_norm": 0.3854578137397766,
      "learning_rate": 0.00029469625086709625,
      "loss": 2.7410490036010744,
      "step": 6010
    },
    {
      "epoch": 0.0395,
      "grad_norm": 0.383655309677124,
      "learning_rate": 0.00029467517916527235,
      "loss": 2.7792194366455076,
      "step": 6020
    },
    {
      "epoch": 0.03966666666666667,
      "grad_norm": 0.3862553834915161,
      "learning_rate": 0.00029465406644400713,
      "loss": 2.7575822830200196,
      "step": 6030
    },
    {
      "epoch": 0.03983333333333333,
      "grad_norm": 0.39918553829193115,
      "learning_rate": 0.00029463291270928675,
      "loss": 2.9260843276977537,
      "step": 6040
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.38666027784347534,
      "learning_rate": 0.0002946117179671087,
      "loss": 2.838565635681152,
      "step": 6050
    },
    {
      "epoch": 0.04016666666666667,
      "grad_norm": 0.3723886013031006,
      "learning_rate": 0.0002945904822234824,
      "loss": 2.836383819580078,
      "step": 6060
    },
    {
      "epoch": 0.04033333333333333,
      "grad_norm": 0.4081844985485077,
      "learning_rate": 0.0002945692054844288,
      "loss": 2.949822425842285,
      "step": 6070
    },
    {
      "epoch": 0.0405,
      "grad_norm": 0.3790690302848816,
      "learning_rate": 0.00029454788775598037,
      "loss": 3.035497856140137,
      "step": 6080
    },
    {
      "epoch": 0.04066666666666666,
      "grad_norm": 0.37471655011177063,
      "learning_rate": 0.00029452652904418127,
      "loss": 3.0849964141845705,
      "step": 6090
    },
    {
      "epoch": 0.04083333333333333,
      "grad_norm": 0.39325064420700073,
      "learning_rate": 0.0002945051293550874,
      "loss": 3.193227767944336,
      "step": 6100
    },
    {
      "epoch": 0.041,
      "grad_norm": 0.42698314785957336,
      "learning_rate": 0.00029448368869476604,
      "loss": 3.1598060607910154,
      "step": 6110
    },
    {
      "epoch": 0.041166666666666664,
      "grad_norm": 0.40960320830345154,
      "learning_rate": 0.0002944622070692963,
      "loss": 3.2183509826660157,
      "step": 6120
    },
    {
      "epoch": 0.04133333333333333,
      "grad_norm": 0.3762412965297699,
      "learning_rate": 0.0002944406844847688,
      "loss": 3.1716684341430663,
      "step": 6130
    },
    {
      "epoch": 0.0415,
      "grad_norm": 0.4189164340496063,
      "learning_rate": 0.00029441912094728574,
      "loss": 3.1513088226318358,
      "step": 6140
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 0.4057857394218445,
      "learning_rate": 0.00029439751646296106,
      "loss": 3.0799839019775392,
      "step": 6150
    },
    {
      "epoch": 0.041833333333333333,
      "grad_norm": 0.4074974060058594,
      "learning_rate": 0.00029437587103792016,
      "loss": 2.9888477325439453,
      "step": 6160
    },
    {
      "epoch": 0.042,
      "grad_norm": 0.371817409992218,
      "learning_rate": 0.0002943541846783002,
      "loss": 2.948713684082031,
      "step": 6170
    },
    {
      "epoch": 0.042166666666666665,
      "grad_norm": 0.37995588779449463,
      "learning_rate": 0.0002943324573902498,
      "loss": 2.8891929626464843,
      "step": 6180
    },
    {
      "epoch": 0.042333333333333334,
      "grad_norm": 0.3674244284629822,
      "learning_rate": 0.0002943106891799293,
      "loss": 2.796030807495117,
      "step": 6190
    },
    {
      "epoch": 0.0425,
      "grad_norm": 0.36154231429100037,
      "learning_rate": 0.0002942888800535105,
      "loss": 2.850292778015137,
      "step": 6200
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 0.38896098732948303,
      "learning_rate": 0.0002942670300171771,
      "loss": 2.7989007949829103,
      "step": 6210
    },
    {
      "epoch": 0.042833333333333334,
      "grad_norm": 0.3838213384151459,
      "learning_rate": 0.00029424513907712395,
      "loss": 2.896153450012207,
      "step": 6220
    },
    {
      "epoch": 0.043,
      "grad_norm": 0.40118804574012756,
      "learning_rate": 0.0002942232072395579,
      "loss": 3.0006587982177733,
      "step": 6230
    },
    {
      "epoch": 0.043166666666666666,
      "grad_norm": 0.38531655073165894,
      "learning_rate": 0.0002942012345106971,
      "loss": 2.9570644378662108,
      "step": 6240
    },
    {
      "epoch": 0.043333333333333335,
      "grad_norm": 0.38946714997291565,
      "learning_rate": 0.0002941792208967716,
      "loss": 2.946304702758789,
      "step": 6250
    },
    {
      "epoch": 0.0435,
      "grad_norm": 0.39669328927993774,
      "learning_rate": 0.00029415716640402275,
      "loss": 2.962474822998047,
      "step": 6260
    },
    {
      "epoch": 0.043666666666666666,
      "grad_norm": 0.3736763298511505,
      "learning_rate": 0.0002941350710387037,
      "loss": 3.041091728210449,
      "step": 6270
    },
    {
      "epoch": 0.043833333333333335,
      "grad_norm": 0.37087109684944153,
      "learning_rate": 0.000294112934807079,
      "loss": 2.9812034606933593,
      "step": 6280
    },
    {
      "epoch": 0.044,
      "grad_norm": 0.3676629066467285,
      "learning_rate": 0.00029409075771542496,
      "loss": 2.827647590637207,
      "step": 6290
    },
    {
      "epoch": 0.04416666666666667,
      "grad_norm": 0.3785516619682312,
      "learning_rate": 0.0002940685397700294,
      "loss": 2.8037031173706053,
      "step": 6300
    },
    {
      "epoch": 0.044333333333333336,
      "grad_norm": 0.3679490089416504,
      "learning_rate": 0.00029404628097719166,
      "loss": 2.806118965148926,
      "step": 6310
    },
    {
      "epoch": 0.0445,
      "grad_norm": 0.37308770418167114,
      "learning_rate": 0.0002940239813432228,
      "loss": 2.797303581237793,
      "step": 6320
    },
    {
      "epoch": 0.04466666666666667,
      "grad_norm": 0.3598901033401489,
      "learning_rate": 0.00029400164087444537,
      "loss": 2.756656455993652,
      "step": 6330
    },
    {
      "epoch": 0.044833333333333336,
      "grad_norm": 0.3724973797798157,
      "learning_rate": 0.0002939792595771935,
      "loss": 2.9482675552368165,
      "step": 6340
    },
    {
      "epoch": 0.045,
      "grad_norm": 0.4032357931137085,
      "learning_rate": 0.0002939568374578129,
      "loss": 2.929281997680664,
      "step": 6350
    },
    {
      "epoch": 0.04516666666666667,
      "grad_norm": 0.3482721447944641,
      "learning_rate": 0.00029393437452266097,
      "loss": 2.8269603729248045,
      "step": 6360
    },
    {
      "epoch": 0.04533333333333334,
      "grad_norm": 0.36250752210617065,
      "learning_rate": 0.0002939118707781064,
      "loss": 2.826327323913574,
      "step": 6370
    },
    {
      "epoch": 0.0455,
      "grad_norm": 0.38788485527038574,
      "learning_rate": 0.00029388932623052976,
      "loss": 2.940120315551758,
      "step": 6380
    },
    {
      "epoch": 0.04566666666666667,
      "grad_norm": 0.34600749611854553,
      "learning_rate": 0.000293866740886323,
      "loss": 2.942264747619629,
      "step": 6390
    },
    {
      "epoch": 0.04583333333333333,
      "grad_norm": 0.4335802495479584,
      "learning_rate": 0.0002938441147518897,
      "loss": 2.9643169403076173,
      "step": 6400
    },
    {
      "epoch": 0.046,
      "grad_norm": 0.38085460662841797,
      "learning_rate": 0.00029382144783364505,
      "loss": 2.8335092544555662,
      "step": 6410
    },
    {
      "epoch": 0.04616666666666667,
      "grad_norm": 0.3866496682167053,
      "learning_rate": 0.0002937987401380157,
      "loss": 2.8184886932373048,
      "step": 6420
    },
    {
      "epoch": 0.04633333333333333,
      "grad_norm": 0.3690461814403534,
      "learning_rate": 0.0002937759916714399,
      "loss": 2.7712963104248045,
      "step": 6430
    },
    {
      "epoch": 0.0465,
      "grad_norm": 0.3848920464515686,
      "learning_rate": 0.00029375320244036753,
      "loss": 2.613561248779297,
      "step": 6440
    },
    {
      "epoch": 0.04666666666666667,
      "grad_norm": 0.3725181221961975,
      "learning_rate": 0.00029373037245125996,
      "loss": 2.7794801712036135,
      "step": 6450
    },
    {
      "epoch": 0.04683333333333333,
      "grad_norm": 0.38816165924072266,
      "learning_rate": 0.00029370750171059005,
      "loss": 2.70468692779541,
      "step": 6460
    },
    {
      "epoch": 0.047,
      "grad_norm": 0.36018455028533936,
      "learning_rate": 0.0002936845902248424,
      "loss": 2.8430145263671873,
      "step": 6470
    },
    {
      "epoch": 0.04716666666666667,
      "grad_norm": 0.3817792236804962,
      "learning_rate": 0.00029366163800051295,
      "loss": 2.9502981185913084,
      "step": 6480
    },
    {
      "epoch": 0.04733333333333333,
      "grad_norm": 0.3806685209274292,
      "learning_rate": 0.0002936386450441094,
      "loss": 3.0032901763916016,
      "step": 6490
    },
    {
      "epoch": 0.0475,
      "grad_norm": 0.3631237745285034,
      "learning_rate": 0.00029361561136215085,
      "loss": 3.043329429626465,
      "step": 6500
    },
    {
      "epoch": 0.04766666666666667,
      "grad_norm": 0.34963342547416687,
      "learning_rate": 0.00029359253696116793,
      "loss": 2.730146026611328,
      "step": 6510
    },
    {
      "epoch": 0.04783333333333333,
      "grad_norm": 0.3734063506126404,
      "learning_rate": 0.00029356942184770296,
      "loss": 2.919230079650879,
      "step": 6520
    },
    {
      "epoch": 0.048,
      "grad_norm": 0.3652487099170685,
      "learning_rate": 0.00029354626602830973,
      "loss": 2.7738105773925783,
      "step": 6530
    },
    {
      "epoch": 0.04816666666666667,
      "grad_norm": 0.3984633684158325,
      "learning_rate": 0.00029352306950955346,
      "loss": 2.832376480102539,
      "step": 6540
    },
    {
      "epoch": 0.04833333333333333,
      "grad_norm": 0.40588605403900146,
      "learning_rate": 0.00029349983229801107,
      "loss": 3.0197357177734374,
      "step": 6550
    },
    {
      "epoch": 0.0485,
      "grad_norm": 0.37554314732551575,
      "learning_rate": 0.00029347655440027095,
      "loss": 2.992153549194336,
      "step": 6560
    },
    {
      "epoch": 0.048666666666666664,
      "grad_norm": 0.36801284551620483,
      "learning_rate": 0.00029345323582293306,
      "loss": 2.919198989868164,
      "step": 6570
    },
    {
      "epoch": 0.04883333333333333,
      "grad_norm": 0.3883112072944641,
      "learning_rate": 0.0002934298765726088,
      "loss": 2.9609262466430666,
      "step": 6580
    },
    {
      "epoch": 0.049,
      "grad_norm": 0.42965978384017944,
      "learning_rate": 0.00029340647665592124,
      "loss": 3.070623779296875,
      "step": 6590
    },
    {
      "epoch": 0.049166666666666664,
      "grad_norm": 0.3925585448741913,
      "learning_rate": 0.00029338303607950487,
      "loss": 3.0677051544189453,
      "step": 6600
    },
    {
      "epoch": 0.04933333333333333,
      "grad_norm": 0.4007953107357025,
      "learning_rate": 0.00029335955485000577,
      "loss": 3.0510555267333985,
      "step": 6610
    },
    {
      "epoch": 0.0495,
      "grad_norm": 0.38611555099487305,
      "learning_rate": 0.00029333603297408147,
      "loss": 2.9069192886352537,
      "step": 6620
    },
    {
      "epoch": 0.049666666666666665,
      "grad_norm": 0.5704911351203918,
      "learning_rate": 0.0002933124704584011,
      "loss": 3.010939598083496,
      "step": 6630
    },
    {
      "epoch": 0.049833333333333334,
      "grad_norm": 0.5911468863487244,
      "learning_rate": 0.00029328886730964533,
      "loss": 2.9140695571899413,
      "step": 6640
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.387665331363678,
      "learning_rate": 0.00029326522353450625,
      "loss": 2.7545188903808593,
      "step": 6650
    },
    {
      "epoch": 0.050166666666666665,
      "grad_norm": 0.398221492767334,
      "learning_rate": 0.00029324153913968756,
      "loss": 2.9847917556762695,
      "step": 6660
    },
    {
      "epoch": 0.050333333333333334,
      "grad_norm": 0.38730916380882263,
      "learning_rate": 0.00029321781413190444,
      "loss": 3.0818609237670898,
      "step": 6670
    },
    {
      "epoch": 0.0505,
      "grad_norm": 0.39305347204208374,
      "learning_rate": 0.00029319404851788365,
      "loss": 3.169163703918457,
      "step": 6680
    },
    {
      "epoch": 0.050666666666666665,
      "grad_norm": 0.40305784344673157,
      "learning_rate": 0.0002931702423043633,
      "loss": 3.0836387634277345,
      "step": 6690
    },
    {
      "epoch": 0.050833333333333335,
      "grad_norm": 0.4043393135070801,
      "learning_rate": 0.00029314639549809314,
      "loss": 3.086305046081543,
      "step": 6700
    },
    {
      "epoch": 0.051,
      "grad_norm": 0.40028905868530273,
      "learning_rate": 0.00029312250810583447,
      "loss": 3.1011959075927735,
      "step": 6710
    },
    {
      "epoch": 0.051166666666666666,
      "grad_norm": 0.3988712728023529,
      "learning_rate": 0.0002930985801343599,
      "loss": 3.0316585540771483,
      "step": 6720
    },
    {
      "epoch": 0.051333333333333335,
      "grad_norm": 0.3803875744342804,
      "learning_rate": 0.0002930746115904539,
      "loss": 2.7931013107299805,
      "step": 6730
    },
    {
      "epoch": 0.0515,
      "grad_norm": 0.3882600963115692,
      "learning_rate": 0.00029305060248091194,
      "loss": 2.8900781631469727,
      "step": 6740
    },
    {
      "epoch": 0.051666666666666666,
      "grad_norm": 0.3673243820667267,
      "learning_rate": 0.0002930265528125415,
      "loss": 2.9202960968017577,
      "step": 6750
    },
    {
      "epoch": 0.051833333333333335,
      "grad_norm": 0.3509467542171478,
      "learning_rate": 0.00029300246259216124,
      "loss": 2.9142375946044923,
      "step": 6760
    },
    {
      "epoch": 0.052,
      "grad_norm": 0.37516164779663086,
      "learning_rate": 0.0002929783318266014,
      "loss": 2.9687660217285154,
      "step": 6770
    },
    {
      "epoch": 0.05216666666666667,
      "grad_norm": 0.3723934590816498,
      "learning_rate": 0.0002929541605227037,
      "loss": 2.9943012237548827,
      "step": 6780
    },
    {
      "epoch": 0.052333333333333336,
      "grad_norm": 0.4237174093723297,
      "learning_rate": 0.00029292994868732145,
      "loss": 3.1001874923706056,
      "step": 6790
    },
    {
      "epoch": 0.0525,
      "grad_norm": 0.4308694303035736,
      "learning_rate": 0.0002929056963273193,
      "loss": 3.090090751647949,
      "step": 6800
    },
    {
      "epoch": 0.05266666666666667,
      "grad_norm": 0.3867776095867157,
      "learning_rate": 0.0002928814034495736,
      "loss": 3.0016979217529296,
      "step": 6810
    },
    {
      "epoch": 0.052833333333333336,
      "grad_norm": 0.39471495151519775,
      "learning_rate": 0.0002928570700609719,
      "loss": 3.146613883972168,
      "step": 6820
    },
    {
      "epoch": 0.053,
      "grad_norm": 0.3749244213104248,
      "learning_rate": 0.0002928326961684134,
      "loss": 3.1620513916015627,
      "step": 6830
    },
    {
      "epoch": 0.05316666666666667,
      "grad_norm": 0.39891645312309265,
      "learning_rate": 0.000292808281778809,
      "loss": 3.103597640991211,
      "step": 6840
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 0.3882020115852356,
      "learning_rate": 0.00029278382689908053,
      "loss": 3.1575523376464845,
      "step": 6850
    },
    {
      "epoch": 0.0535,
      "grad_norm": 0.405156672000885,
      "learning_rate": 0.0002927593315361619,
      "loss": 3.105808067321777,
      "step": 6860
    },
    {
      "epoch": 0.05366666666666667,
      "grad_norm": 0.3829409182071686,
      "learning_rate": 0.0002927347956969981,
      "loss": 3.0567110061645506,
      "step": 6870
    },
    {
      "epoch": 0.05383333333333333,
      "grad_norm": 0.38465431332588196,
      "learning_rate": 0.0002927102193885457,
      "loss": 3.0914487838745117,
      "step": 6880
    },
    {
      "epoch": 0.054,
      "grad_norm": 0.401638925075531,
      "learning_rate": 0.0002926856026177729,
      "loss": 3.0777496337890624,
      "step": 6890
    },
    {
      "epoch": 0.05416666666666667,
      "grad_norm": 0.3893527388572693,
      "learning_rate": 0.0002926609453916591,
      "loss": 3.020836067199707,
      "step": 6900
    },
    {
      "epoch": 0.05433333333333333,
      "grad_norm": 0.3911438286304474,
      "learning_rate": 0.00029263624771719537,
      "loss": 2.996641731262207,
      "step": 6910
    },
    {
      "epoch": 0.0545,
      "grad_norm": 0.40074771642684937,
      "learning_rate": 0.00029261150960138417,
      "loss": 3.094496726989746,
      "step": 6920
    },
    {
      "epoch": 0.05466666666666667,
      "grad_norm": 0.3768022954463959,
      "learning_rate": 0.0002925867310512395,
      "loss": 3.0974607467651367,
      "step": 6930
    },
    {
      "epoch": 0.05483333333333333,
      "grad_norm": 1.0672612190246582,
      "learning_rate": 0.0002925619120737867,
      "loss": 2.986092758178711,
      "step": 6940
    },
    {
      "epoch": 0.055,
      "grad_norm": 0.39106905460357666,
      "learning_rate": 0.00029253705267606267,
      "loss": 3.122268867492676,
      "step": 6950
    },
    {
      "epoch": 0.05516666666666667,
      "grad_norm": 0.3796605169773102,
      "learning_rate": 0.00029251215286511573,
      "loss": 3.091052436828613,
      "step": 6960
    },
    {
      "epoch": 0.05533333333333333,
      "grad_norm": 0.3792901337146759,
      "learning_rate": 0.00029248721264800567,
      "loss": 3.083469200134277,
      "step": 6970
    },
    {
      "epoch": 0.0555,
      "grad_norm": 0.40256309509277344,
      "learning_rate": 0.00029246223203180377,
      "loss": 3.1180984497070314,
      "step": 6980
    },
    {
      "epoch": 0.05566666666666667,
      "grad_norm": 0.4001685082912445,
      "learning_rate": 0.00029243721102359274,
      "loss": 3.1026607513427735,
      "step": 6990
    },
    {
      "epoch": 0.05583333333333333,
      "grad_norm": 0.40601831674575806,
      "learning_rate": 0.00029241214963046663,
      "loss": 3.1589757919311525,
      "step": 7000
    },
    {
      "epoch": 0.056,
      "grad_norm": 0.3928051292896271,
      "learning_rate": 0.00029238704785953113,
      "loss": 3.149326705932617,
      "step": 7010
    },
    {
      "epoch": 0.05616666666666666,
      "grad_norm": 0.4036010205745697,
      "learning_rate": 0.0002923619057179033,
      "loss": 3.137180137634277,
      "step": 7020
    },
    {
      "epoch": 0.05633333333333333,
      "grad_norm": 0.41541367769241333,
      "learning_rate": 0.0002923367232127116,
      "loss": 3.155481147766113,
      "step": 7030
    },
    {
      "epoch": 0.0565,
      "grad_norm": 0.3809373378753662,
      "learning_rate": 0.00029231150035109596,
      "loss": 3.114410400390625,
      "step": 7040
    },
    {
      "epoch": 0.056666666666666664,
      "grad_norm": 0.3731016218662262,
      "learning_rate": 0.0002922862371402078,
      "loss": 3.105120849609375,
      "step": 7050
    },
    {
      "epoch": 0.05683333333333333,
      "grad_norm": 0.38785654306411743,
      "learning_rate": 0.0002922609335872099,
      "loss": 3.043816566467285,
      "step": 7060
    },
    {
      "epoch": 0.057,
      "grad_norm": 0.4262470602989197,
      "learning_rate": 0.00029223558969927656,
      "loss": 3.1006845474243163,
      "step": 7070
    },
    {
      "epoch": 0.057166666666666664,
      "grad_norm": 0.38110196590423584,
      "learning_rate": 0.00029221020548359346,
      "loss": 3.0751932144165037,
      "step": 7080
    },
    {
      "epoch": 0.05733333333333333,
      "grad_norm": 0.3852882385253906,
      "learning_rate": 0.0002921847809473578,
      "loss": 3.1745590209960937,
      "step": 7090
    },
    {
      "epoch": 0.0575,
      "grad_norm": 0.3707679212093353,
      "learning_rate": 0.000292159316097778,
      "loss": 3.1158437728881836,
      "step": 7100
    },
    {
      "epoch": 0.057666666666666665,
      "grad_norm": 0.3930973410606384,
      "learning_rate": 0.00029213381094207416,
      "loss": 3.1524255752563475,
      "step": 7110
    },
    {
      "epoch": 0.057833333333333334,
      "grad_norm": 0.3957115113735199,
      "learning_rate": 0.0002921082654874777,
      "loss": 3.17779541015625,
      "step": 7120
    },
    {
      "epoch": 0.058,
      "grad_norm": 0.3818974792957306,
      "learning_rate": 0.00029208267974123144,
      "loss": 3.180965614318848,
      "step": 7130
    },
    {
      "epoch": 0.058166666666666665,
      "grad_norm": 0.4084106981754303,
      "learning_rate": 0.00029205705371058966,
      "loss": 3.189291763305664,
      "step": 7140
    },
    {
      "epoch": 0.058333333333333334,
      "grad_norm": 0.37610405683517456,
      "learning_rate": 0.000292031387402818,
      "loss": 2.9906883239746094,
      "step": 7150
    },
    {
      "epoch": 0.0585,
      "grad_norm": 0.36395132541656494,
      "learning_rate": 0.00029200568082519366,
      "loss": 2.816435432434082,
      "step": 7160
    },
    {
      "epoch": 0.058666666666666666,
      "grad_norm": 0.3990066349506378,
      "learning_rate": 0.00029197993398500516,
      "loss": 2.733071136474609,
      "step": 7170
    },
    {
      "epoch": 0.058833333333333335,
      "grad_norm": 0.37727782130241394,
      "learning_rate": 0.0002919541468895524,
      "loss": 2.7273191452026366,
      "step": 7180
    },
    {
      "epoch": 0.059,
      "grad_norm": 0.40415671467781067,
      "learning_rate": 0.0002919283195461467,
      "loss": 2.8836151123046876,
      "step": 7190
    },
    {
      "epoch": 0.059166666666666666,
      "grad_norm": 0.37808772921562195,
      "learning_rate": 0.000291902451962111,
      "loss": 2.766579246520996,
      "step": 7200
    },
    {
      "epoch": 0.059333333333333335,
      "grad_norm": 0.3718058168888092,
      "learning_rate": 0.0002918765441447793,
      "loss": 2.7563850402832033,
      "step": 7210
    },
    {
      "epoch": 0.0595,
      "grad_norm": 0.365247517824173,
      "learning_rate": 0.0002918505961014973,
      "loss": 2.736806869506836,
      "step": 7220
    },
    {
      "epoch": 0.059666666666666666,
      "grad_norm": 0.34523555636405945,
      "learning_rate": 0.0002918246078396219,
      "loss": 2.7504671096801756,
      "step": 7230
    },
    {
      "epoch": 0.059833333333333336,
      "grad_norm": 0.37109723687171936,
      "learning_rate": 0.00029179857936652157,
      "loss": 2.695194625854492,
      "step": 7240
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.3737955391407013,
      "learning_rate": 0.00029177251068957606,
      "loss": 2.621052932739258,
      "step": 7250
    },
    {
      "epoch": 0.06016666666666667,
      "grad_norm": 0.3929753303527832,
      "learning_rate": 0.00029174640181617664,
      "loss": 2.6446352005004883,
      "step": 7260
    },
    {
      "epoch": 0.060333333333333336,
      "grad_norm": 0.3471451699733734,
      "learning_rate": 0.0002917202527537258,
      "loss": 2.620621109008789,
      "step": 7270
    },
    {
      "epoch": 0.0605,
      "grad_norm": 0.42746540904045105,
      "learning_rate": 0.0002916940635096376,
      "loss": 2.6797019958496096,
      "step": 7280
    },
    {
      "epoch": 0.06066666666666667,
      "grad_norm": 0.35947850346565247,
      "learning_rate": 0.0002916678340913374,
      "loss": 2.633715057373047,
      "step": 7290
    },
    {
      "epoch": 0.060833333333333336,
      "grad_norm": 0.36535149812698364,
      "learning_rate": 0.000291641564506262,
      "loss": 2.5058975219726562,
      "step": 7300
    },
    {
      "epoch": 0.061,
      "grad_norm": 0.38358670473098755,
      "learning_rate": 0.00029161525476185945,
      "loss": 2.5962581634521484,
      "step": 7310
    },
    {
      "epoch": 0.06116666666666667,
      "grad_norm": 0.3580729365348816,
      "learning_rate": 0.0002915889048655894,
      "loss": 2.473897171020508,
      "step": 7320
    },
    {
      "epoch": 0.06133333333333333,
      "grad_norm": 0.363400936126709,
      "learning_rate": 0.0002915625148249228,
      "loss": 2.6062271118164064,
      "step": 7330
    },
    {
      "epoch": 0.0615,
      "grad_norm": 0.3609282672405243,
      "learning_rate": 0.0002915360846473419,
      "loss": 2.629804229736328,
      "step": 7340
    },
    {
      "epoch": 0.06166666666666667,
      "grad_norm": 0.3657326102256775,
      "learning_rate": 0.0002915096143403404,
      "loss": 2.5113271713256835,
      "step": 7350
    },
    {
      "epoch": 0.06183333333333333,
      "grad_norm": 0.358372300863266,
      "learning_rate": 0.00029148310391142334,
      "loss": 2.599112892150879,
      "step": 7360
    },
    {
      "epoch": 0.062,
      "grad_norm": 0.35465332865715027,
      "learning_rate": 0.0002914565533681072,
      "loss": 2.658061408996582,
      "step": 7370
    },
    {
      "epoch": 0.06216666666666667,
      "grad_norm": 0.3702649474143982,
      "learning_rate": 0.0002914299627179198,
      "loss": 2.5538434982299805,
      "step": 7380
    },
    {
      "epoch": 0.06233333333333333,
      "grad_norm": 0.3724445700645447,
      "learning_rate": 0.00029140333196840033,
      "loss": 2.6205028533935546,
      "step": 7390
    },
    {
      "epoch": 0.0625,
      "grad_norm": 0.3595244586467743,
      "learning_rate": 0.00029137666112709934,
      "loss": 2.5793956756591796,
      "step": 7400
    },
    {
      "epoch": 0.06266666666666666,
      "grad_norm": 0.34365132451057434,
      "learning_rate": 0.0002913499502015788,
      "loss": 2.4857330322265625,
      "step": 7410
    },
    {
      "epoch": 0.06283333333333334,
      "grad_norm": 0.3451862335205078,
      "learning_rate": 0.0002913231991994119,
      "loss": 2.47800235748291,
      "step": 7420
    },
    {
      "epoch": 0.063,
      "grad_norm": 0.3589513301849365,
      "learning_rate": 0.0002912964081281834,
      "loss": 2.502494239807129,
      "step": 7430
    },
    {
      "epoch": 0.06316666666666666,
      "grad_norm": 0.36998748779296875,
      "learning_rate": 0.0002912695769954893,
      "loss": 2.4787002563476563,
      "step": 7440
    },
    {
      "epoch": 0.06333333333333334,
      "grad_norm": 0.32939860224723816,
      "learning_rate": 0.0002912427058089369,
      "loss": 2.658931922912598,
      "step": 7450
    },
    {
      "epoch": 0.0635,
      "grad_norm": 0.38151815533638,
      "learning_rate": 0.00029121579457614495,
      "loss": 2.903098297119141,
      "step": 7460
    },
    {
      "epoch": 0.06366666666666666,
      "grad_norm": 0.4199788570404053,
      "learning_rate": 0.0002911888433047436,
      "loss": 2.873810958862305,
      "step": 7470
    },
    {
      "epoch": 0.06383333333333334,
      "grad_norm": 0.3544920086860657,
      "learning_rate": 0.0002911618520023742,
      "loss": 2.917632293701172,
      "step": 7480
    },
    {
      "epoch": 0.064,
      "grad_norm": 0.39268478751182556,
      "learning_rate": 0.0002911348206766896,
      "loss": 2.9814647674560546,
      "step": 7490
    },
    {
      "epoch": 0.06416666666666666,
      "grad_norm": 0.3877812325954437,
      "learning_rate": 0.00029110774933535394,
      "loss": 2.9182886123657226,
      "step": 7500
    },
    {
      "epoch": 0.06433333333333334,
      "grad_norm": 0.39261719584465027,
      "learning_rate": 0.0002910806379860426,
      "loss": 2.9275138854980467,
      "step": 7510
    },
    {
      "epoch": 0.0645,
      "grad_norm": 0.3577132821083069,
      "learning_rate": 0.00029105348663644256,
      "loss": 2.992527198791504,
      "step": 7520
    },
    {
      "epoch": 0.06466666666666666,
      "grad_norm": 0.3782998025417328,
      "learning_rate": 0.00029102629529425183,
      "loss": 2.9435182571411134,
      "step": 7530
    },
    {
      "epoch": 0.06483333333333334,
      "grad_norm": 0.36852407455444336,
      "learning_rate": 0.00029099906396718003,
      "loss": 2.949845886230469,
      "step": 7540
    },
    {
      "epoch": 0.065,
      "grad_norm": 0.3805658519268036,
      "learning_rate": 0.0002909717926629479,
      "loss": 2.9669191360473635,
      "step": 7550
    },
    {
      "epoch": 0.06516666666666666,
      "grad_norm": 0.3757810592651367,
      "learning_rate": 0.0002909444813892877,
      "loss": 2.9397300720214843,
      "step": 7560
    },
    {
      "epoch": 0.06533333333333333,
      "grad_norm": 0.3829989433288574,
      "learning_rate": 0.00029091713015394293,
      "loss": 2.986714553833008,
      "step": 7570
    },
    {
      "epoch": 0.0655,
      "grad_norm": 0.36800798773765564,
      "learning_rate": 0.0002908897389646683,
      "loss": 2.959121513366699,
      "step": 7580
    },
    {
      "epoch": 0.06566666666666666,
      "grad_norm": 0.38914063572883606,
      "learning_rate": 0.0002908623078292301,
      "loss": 2.9379350662231447,
      "step": 7590
    },
    {
      "epoch": 0.06583333333333333,
      "grad_norm": 0.3821718990802765,
      "learning_rate": 0.00029083483675540586,
      "loss": 2.9452192306518556,
      "step": 7600
    },
    {
      "epoch": 0.066,
      "grad_norm": 0.3927645981311798,
      "learning_rate": 0.00029080732575098426,
      "loss": 2.966671371459961,
      "step": 7610
    },
    {
      "epoch": 0.06616666666666667,
      "grad_norm": 0.38456544280052185,
      "learning_rate": 0.00029077977482376555,
      "loss": 2.9977581024169924,
      "step": 7620
    },
    {
      "epoch": 0.06633333333333333,
      "grad_norm": 0.40700915455818176,
      "learning_rate": 0.0002907521839815611,
      "loss": 3.005060005187988,
      "step": 7630
    },
    {
      "epoch": 0.0665,
      "grad_norm": 0.4053742289543152,
      "learning_rate": 0.0002907245532321937,
      "loss": 2.953268623352051,
      "step": 7640
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 0.3769732713699341,
      "learning_rate": 0.00029069688258349745,
      "loss": 2.970975875854492,
      "step": 7650
    },
    {
      "epoch": 0.06683333333333333,
      "grad_norm": 0.37044721841812134,
      "learning_rate": 0.00029066917204331776,
      "loss": 2.976058006286621,
      "step": 7660
    },
    {
      "epoch": 0.067,
      "grad_norm": 0.42825615406036377,
      "learning_rate": 0.0002906414216195114,
      "loss": 2.9494274139404295,
      "step": 7670
    },
    {
      "epoch": 0.06716666666666667,
      "grad_norm": 1.7334225177764893,
      "learning_rate": 0.0002906136313199463,
      "loss": 3.01751766204834,
      "step": 7680
    },
    {
      "epoch": 0.06733333333333333,
      "grad_norm": 0.3732779622077942,
      "learning_rate": 0.00029058580115250176,
      "loss": 2.976676368713379,
      "step": 7690
    },
    {
      "epoch": 0.0675,
      "grad_norm": 0.40125882625579834,
      "learning_rate": 0.0002905579311250685,
      "loss": 3.057603454589844,
      "step": 7700
    },
    {
      "epoch": 0.06766666666666667,
      "grad_norm": 0.38171663880348206,
      "learning_rate": 0.00029053002124554834,
      "loss": 2.762685012817383,
      "step": 7710
    },
    {
      "epoch": 0.06783333333333333,
      "grad_norm": 0.391777366399765,
      "learning_rate": 0.0002905020715218546,
      "loss": 2.91061954498291,
      "step": 7720
    },
    {
      "epoch": 0.068,
      "grad_norm": 0.3986228108406067,
      "learning_rate": 0.0002904740819619118,
      "loss": 2.997187042236328,
      "step": 7730
    },
    {
      "epoch": 0.06816666666666667,
      "grad_norm": 0.36958804726600647,
      "learning_rate": 0.0002904460525736557,
      "loss": 2.9954734802246095,
      "step": 7740
    },
    {
      "epoch": 0.06833333333333333,
      "grad_norm": 0.3979329466819763,
      "learning_rate": 0.00029041798336503345,
      "loss": 2.985688018798828,
      "step": 7750
    },
    {
      "epoch": 0.0685,
      "grad_norm": 0.39086639881134033,
      "learning_rate": 0.00029038987434400345,
      "loss": 3.0486474990844727,
      "step": 7760
    },
    {
      "epoch": 0.06866666666666667,
      "grad_norm": 0.37941011786460876,
      "learning_rate": 0.0002903617255185354,
      "loss": 3.009590721130371,
      "step": 7770
    },
    {
      "epoch": 0.06883333333333333,
      "grad_norm": 0.3874540627002716,
      "learning_rate": 0.0002903335368966102,
      "loss": 3.0302640914916994,
      "step": 7780
    },
    {
      "epoch": 0.069,
      "grad_norm": 0.3942844867706299,
      "learning_rate": 0.00029030530848622027,
      "loss": 3.0470159530639647,
      "step": 7790
    },
    {
      "epoch": 0.06916666666666667,
      "grad_norm": 0.372801274061203,
      "learning_rate": 0.000290277040295369,
      "loss": 3.06998348236084,
      "step": 7800
    },
    {
      "epoch": 0.06933333333333333,
      "grad_norm": 0.3805873990058899,
      "learning_rate": 0.0002902487323320713,
      "loss": 3.0450016021728517,
      "step": 7810
    },
    {
      "epoch": 0.0695,
      "grad_norm": 0.373600035905838,
      "learning_rate": 0.0002902203846043532,
      "loss": 3.0399938583374024,
      "step": 7820
    },
    {
      "epoch": 0.06966666666666667,
      "grad_norm": 0.3881121873855591,
      "learning_rate": 0.0002901919971202521,
      "loss": 2.9438343048095703,
      "step": 7830
    },
    {
      "epoch": 0.06983333333333333,
      "grad_norm": 0.384845495223999,
      "learning_rate": 0.0002901635698878166,
      "loss": 3.0112476348876953,
      "step": 7840
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.374401718378067,
      "learning_rate": 0.0002901351029151067,
      "loss": 3.082077407836914,
      "step": 7850
    },
    {
      "epoch": 0.07016666666666667,
      "grad_norm": 0.3732111155986786,
      "learning_rate": 0.0002901065962101935,
      "loss": 2.8397762298583986,
      "step": 7860
    },
    {
      "epoch": 0.07033333333333333,
      "grad_norm": 0.4078359603881836,
      "learning_rate": 0.00029007804978115954,
      "loss": 2.6799802780151367,
      "step": 7870
    },
    {
      "epoch": 0.0705,
      "grad_norm": 0.36895552277565,
      "learning_rate": 0.0002900494636360984,
      "loss": 2.631447601318359,
      "step": 7880
    },
    {
      "epoch": 0.07066666666666667,
      "grad_norm": 0.3986772298812866,
      "learning_rate": 0.0002900208377831151,
      "loss": 2.9338111877441406,
      "step": 7890
    },
    {
      "epoch": 0.07083333333333333,
      "grad_norm": 0.39151084423065186,
      "learning_rate": 0.0002899921722303259,
      "loss": 3.042695236206055,
      "step": 7900
    },
    {
      "epoch": 0.071,
      "grad_norm": 0.43503689765930176,
      "learning_rate": 0.0002899634669858583,
      "loss": 3.0772659301757814,
      "step": 7910
    },
    {
      "epoch": 0.07116666666666667,
      "grad_norm": 0.3629150092601776,
      "learning_rate": 0.00028993472205785095,
      "loss": 3.0347219467163087,
      "step": 7920
    },
    {
      "epoch": 0.07133333333333333,
      "grad_norm": 0.3640083372592926,
      "learning_rate": 0.0002899059374544539,
      "loss": 2.899766540527344,
      "step": 7930
    },
    {
      "epoch": 0.0715,
      "grad_norm": 0.3656698763370514,
      "learning_rate": 0.0002898771131838283,
      "loss": 2.696305847167969,
      "step": 7940
    },
    {
      "epoch": 0.07166666666666667,
      "grad_norm": 0.37310102581977844,
      "learning_rate": 0.0002898482492541468,
      "loss": 2.769809341430664,
      "step": 7950
    },
    {
      "epoch": 0.07183333333333333,
      "grad_norm": 0.39096155762672424,
      "learning_rate": 0.000289819345673593,
      "loss": 2.7517889022827147,
      "step": 7960
    },
    {
      "epoch": 0.072,
      "grad_norm": 0.34597668051719666,
      "learning_rate": 0.0002897904024503619,
      "loss": 2.7326591491699217,
      "step": 7970
    },
    {
      "epoch": 0.07216666666666667,
      "grad_norm": 0.38390180468559265,
      "learning_rate": 0.0002897614195926597,
      "loss": 2.694135284423828,
      "step": 7980
    },
    {
      "epoch": 0.07233333333333333,
      "grad_norm": 0.37960708141326904,
      "learning_rate": 0.00028973239710870384,
      "loss": 2.812735176086426,
      "step": 7990
    },
    {
      "epoch": 0.0725,
      "grad_norm": 0.36439424753189087,
      "learning_rate": 0.00028970333500672303,
      "loss": 2.8109577178955076,
      "step": 8000
    },
    {
      "epoch": 0.07266666666666667,
      "grad_norm": 0.3453996777534485,
      "learning_rate": 0.0002896742332949572,
      "loss": 2.7494396209716796,
      "step": 8010
    },
    {
      "epoch": 0.07283333333333333,
      "grad_norm": 0.3709613084793091,
      "learning_rate": 0.0002896450919816574,
      "loss": 2.832318115234375,
      "step": 8020
    },
    {
      "epoch": 0.073,
      "grad_norm": 0.38604649901390076,
      "learning_rate": 0.0002896159110750862,
      "loss": 2.8173288345336913,
      "step": 8030
    },
    {
      "epoch": 0.07316666666666667,
      "grad_norm": 0.37968260049819946,
      "learning_rate": 0.000289586690583517,
      "loss": 2.829819107055664,
      "step": 8040
    },
    {
      "epoch": 0.07333333333333333,
      "grad_norm": 0.35359862446784973,
      "learning_rate": 0.00028955743051523465,
      "loss": 2.7823715209960938,
      "step": 8050
    },
    {
      "epoch": 0.0735,
      "grad_norm": 0.3639524579048157,
      "learning_rate": 0.00028952813087853533,
      "loss": 2.760794258117676,
      "step": 8060
    },
    {
      "epoch": 0.07366666666666667,
      "grad_norm": 0.3654758930206299,
      "learning_rate": 0.00028949879168172616,
      "loss": 2.736991310119629,
      "step": 8070
    },
    {
      "epoch": 0.07383333333333333,
      "grad_norm": 0.36181625723838806,
      "learning_rate": 0.00028946941293312567,
      "loss": 2.816946792602539,
      "step": 8080
    },
    {
      "epoch": 0.074,
      "grad_norm": 0.3788537085056305,
      "learning_rate": 0.0002894399946410636,
      "loss": 2.811870002746582,
      "step": 8090
    },
    {
      "epoch": 0.07416666666666667,
      "grad_norm": 0.3393183946609497,
      "learning_rate": 0.0002894105368138807,
      "loss": 2.723903274536133,
      "step": 8100
    },
    {
      "epoch": 0.07433333333333333,
      "grad_norm": 0.3352717161178589,
      "learning_rate": 0.00028938103945992926,
      "loss": 2.6978361129760744,
      "step": 8110
    },
    {
      "epoch": 0.0745,
      "grad_norm": 0.38219866156578064,
      "learning_rate": 0.0002893515025875726,
      "loss": 2.7439762115478517,
      "step": 8120
    },
    {
      "epoch": 0.07466666666666667,
      "grad_norm": 0.35783448815345764,
      "learning_rate": 0.00028932192620518513,
      "loss": 2.7886289596557616,
      "step": 8130
    },
    {
      "epoch": 0.07483333333333334,
      "grad_norm": 0.3538830578327179,
      "learning_rate": 0.0002892923103211526,
      "loss": 2.8963045120239257,
      "step": 8140
    },
    {
      "epoch": 0.075,
      "grad_norm": 0.37107858061790466,
      "learning_rate": 0.00028926265494387196,
      "loss": 2.8870670318603517,
      "step": 8150
    },
    {
      "epoch": 0.07516666666666667,
      "grad_norm": 0.36251598596572876,
      "learning_rate": 0.00028923296008175135,
      "loss": 2.8525896072387695,
      "step": 8160
    },
    {
      "epoch": 0.07533333333333334,
      "grad_norm": 0.3944455087184906,
      "learning_rate": 0.0002892032257432101,
      "loss": 2.865979766845703,
      "step": 8170
    },
    {
      "epoch": 0.0755,
      "grad_norm": 0.3710351288318634,
      "learning_rate": 0.0002891734519366787,
      "loss": 2.8153043746948243,
      "step": 8180
    },
    {
      "epoch": 0.07566666666666666,
      "grad_norm": 0.36971551179885864,
      "learning_rate": 0.0002891436386705989,
      "loss": 2.8204229354858397,
      "step": 8190
    },
    {
      "epoch": 0.07583333333333334,
      "grad_norm": 0.3832435607910156,
      "learning_rate": 0.00028911378595342346,
      "loss": 2.8466213226318358,
      "step": 8200
    },
    {
      "epoch": 0.076,
      "grad_norm": 0.35473373532295227,
      "learning_rate": 0.0002890838937936166,
      "loss": 2.8302003860473635,
      "step": 8210
    },
    {
      "epoch": 0.07616666666666666,
      "grad_norm": 0.36936044692993164,
      "learning_rate": 0.0002890539621996535,
      "loss": 2.7736061096191404,
      "step": 8220
    },
    {
      "epoch": 0.07633333333333334,
      "grad_norm": 0.3513256013393402,
      "learning_rate": 0.00028902399118002067,
      "loss": 2.5801765441894533,
      "step": 8230
    },
    {
      "epoch": 0.0765,
      "grad_norm": 0.35978972911834717,
      "learning_rate": 0.0002889939807432157,
      "loss": 2.6658184051513674,
      "step": 8240
    },
    {
      "epoch": 0.07666666666666666,
      "grad_norm": 0.38274580240249634,
      "learning_rate": 0.0002889639308977473,
      "loss": 2.744871711730957,
      "step": 8250
    },
    {
      "epoch": 0.07683333333333334,
      "grad_norm": 0.38770100474357605,
      "learning_rate": 0.00028893384165213547,
      "loss": 2.7592889785766603,
      "step": 8260
    },
    {
      "epoch": 0.077,
      "grad_norm": 0.3790663182735443,
      "learning_rate": 0.00028890371301491146,
      "loss": 2.889255905151367,
      "step": 8270
    },
    {
      "epoch": 0.07716666666666666,
      "grad_norm": 0.36016857624053955,
      "learning_rate": 0.00028887354499461745,
      "loss": 2.8479888916015623,
      "step": 8280
    },
    {
      "epoch": 0.07733333333333334,
      "grad_norm": 0.380307137966156,
      "learning_rate": 0.000288843337599807,
      "loss": 2.846491813659668,
      "step": 8290
    },
    {
      "epoch": 0.0775,
      "grad_norm": 0.36424508690834045,
      "learning_rate": 0.0002888130908390447,
      "loss": 2.878053665161133,
      "step": 8300
    },
    {
      "epoch": 0.07766666666666666,
      "grad_norm": 0.38090968132019043,
      "learning_rate": 0.0002887828047209064,
      "loss": 2.855295944213867,
      "step": 8310
    },
    {
      "epoch": 0.07783333333333334,
      "grad_norm": 0.35746878385543823,
      "learning_rate": 0.000288752479253979,
      "loss": 2.8940433502197265,
      "step": 8320
    },
    {
      "epoch": 0.078,
      "grad_norm": 0.35671961307525635,
      "learning_rate": 0.0002887221144468606,
      "loss": 2.9748987197875976,
      "step": 8330
    },
    {
      "epoch": 0.07816666666666666,
      "grad_norm": 0.37154173851013184,
      "learning_rate": 0.00028869171030816053,
      "loss": 2.998274040222168,
      "step": 8340
    },
    {
      "epoch": 0.07833333333333334,
      "grad_norm": 0.3724062740802765,
      "learning_rate": 0.00028866126684649917,
      "loss": 2.8773033142089846,
      "step": 8350
    },
    {
      "epoch": 0.0785,
      "grad_norm": 0.35358142852783203,
      "learning_rate": 0.00028863078407050807,
      "loss": 2.927072525024414,
      "step": 8360
    },
    {
      "epoch": 0.07866666666666666,
      "grad_norm": 0.36544308066368103,
      "learning_rate": 0.00028860026198883007,
      "loss": 2.9056814193725584,
      "step": 8370
    },
    {
      "epoch": 0.07883333333333334,
      "grad_norm": 0.37079834938049316,
      "learning_rate": 0.0002885697006101188,
      "loss": 2.8973163604736327,
      "step": 8380
    },
    {
      "epoch": 0.079,
      "grad_norm": 0.35769256949424744,
      "learning_rate": 0.0002885390999430395,
      "loss": 2.81085147857666,
      "step": 8390
    },
    {
      "epoch": 0.07916666666666666,
      "grad_norm": 0.3707377314567566,
      "learning_rate": 0.0002885084599962682,
      "loss": 2.793642044067383,
      "step": 8400
    },
    {
      "epoch": 0.07933333333333334,
      "grad_norm": 0.40529802441596985,
      "learning_rate": 0.00028847778077849214,
      "loss": 2.9512815475463867,
      "step": 8410
    },
    {
      "epoch": 0.0795,
      "grad_norm": 0.3493574857711792,
      "learning_rate": 0.00028844706229840986,
      "loss": 2.918813133239746,
      "step": 8420
    },
    {
      "epoch": 0.07966666666666666,
      "grad_norm": 0.3552611768245697,
      "learning_rate": 0.00028841630456473075,
      "loss": 2.780997085571289,
      "step": 8430
    },
    {
      "epoch": 0.07983333333333334,
      "grad_norm": 0.3614233434200287,
      "learning_rate": 0.00028838550758617556,
      "loss": 2.8519285202026365,
      "step": 8440
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.39881542325019836,
      "learning_rate": 0.00028835467137147615,
      "loss": 2.8958999633789064,
      "step": 8450
    },
    {
      "epoch": 0.08016666666666666,
      "grad_norm": 0.3612383008003235,
      "learning_rate": 0.0002883237959293753,
      "loss": 2.8186050415039063,
      "step": 8460
    },
    {
      "epoch": 0.08033333333333334,
      "grad_norm": 0.3497442901134491,
      "learning_rate": 0.00028829288126862724,
      "loss": 2.739505386352539,
      "step": 8470
    },
    {
      "epoch": 0.0805,
      "grad_norm": 0.3586975336074829,
      "learning_rate": 0.00028826192739799694,
      "loss": 2.7719682693481444,
      "step": 8480
    },
    {
      "epoch": 0.08066666666666666,
      "grad_norm": 0.3747289478778839,
      "learning_rate": 0.00028823093432626083,
      "loss": 2.873129463195801,
      "step": 8490
    },
    {
      "epoch": 0.08083333333333333,
      "grad_norm": 0.34539350867271423,
      "learning_rate": 0.0002881999020622063,
      "loss": 2.7382030487060547,
      "step": 8500
    },
    {
      "epoch": 0.081,
      "grad_norm": 0.4155365824699402,
      "learning_rate": 0.00028816883061463176,
      "loss": 2.7552820205688477,
      "step": 8510
    },
    {
      "epoch": 0.08116666666666666,
      "grad_norm": 0.40032505989074707,
      "learning_rate": 0.0002881377199923469,
      "loss": 2.8610322952270506,
      "step": 8520
    },
    {
      "epoch": 0.08133333333333333,
      "grad_norm": 0.3721928894519806,
      "learning_rate": 0.0002881065702041724,
      "loss": 2.8690778732299806,
      "step": 8530
    },
    {
      "epoch": 0.0815,
      "grad_norm": 0.3590529263019562,
      "learning_rate": 0.0002880753812589402,
      "loss": 2.8733280181884764,
      "step": 8540
    },
    {
      "epoch": 0.08166666666666667,
      "grad_norm": 0.3880694508552551,
      "learning_rate": 0.00028804415316549314,
      "loss": 2.819232940673828,
      "step": 8550
    },
    {
      "epoch": 0.08183333333333333,
      "grad_norm": 0.361520379781723,
      "learning_rate": 0.00028801288593268527,
      "loss": 2.919606590270996,
      "step": 8560
    },
    {
      "epoch": 0.082,
      "grad_norm": 0.3785449266433716,
      "learning_rate": 0.0002879815795693818,
      "loss": 3.00650691986084,
      "step": 8570
    },
    {
      "epoch": 0.08216666666666667,
      "grad_norm": 0.3418520390987396,
      "learning_rate": 0.00028795023408445877,
      "loss": 2.9630847930908204,
      "step": 8580
    },
    {
      "epoch": 0.08233333333333333,
      "grad_norm": 0.35394683480262756,
      "learning_rate": 0.0002879188494868037,
      "loss": 2.8360586166381836,
      "step": 8590
    },
    {
      "epoch": 0.0825,
      "grad_norm": 0.38963237404823303,
      "learning_rate": 0.0002878874257853149,
      "loss": 2.954873275756836,
      "step": 8600
    },
    {
      "epoch": 0.08266666666666667,
      "grad_norm": 0.37688371539115906,
      "learning_rate": 0.0002878559629889019,
      "loss": 3.0085628509521483,
      "step": 8610
    },
    {
      "epoch": 0.08283333333333333,
      "grad_norm": 0.37673714756965637,
      "learning_rate": 0.0002878244611064852,
      "loss": 3.001415824890137,
      "step": 8620
    },
    {
      "epoch": 0.083,
      "grad_norm": 0.3783765733242035,
      "learning_rate": 0.0002877929201469965,
      "loss": 2.924319839477539,
      "step": 8630
    },
    {
      "epoch": 0.08316666666666667,
      "grad_norm": 0.3794272541999817,
      "learning_rate": 0.0002877613401193786,
      "loss": 2.8281463623046874,
      "step": 8640
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 0.3879368007183075,
      "learning_rate": 0.0002877297210325853,
      "loss": 2.8229066848754885,
      "step": 8650
    },
    {
      "epoch": 0.0835,
      "grad_norm": 0.3800705373287201,
      "learning_rate": 0.00028769806289558145,
      "loss": 2.8100061416625977,
      "step": 8660
    },
    {
      "epoch": 0.08366666666666667,
      "grad_norm": 0.3919481039047241,
      "learning_rate": 0.00028766636571734297,
      "loss": 2.933970069885254,
      "step": 8670
    },
    {
      "epoch": 0.08383333333333333,
      "grad_norm": 0.3753172755241394,
      "learning_rate": 0.000287634629506857,
      "loss": 2.963550567626953,
      "step": 8680
    },
    {
      "epoch": 0.084,
      "grad_norm": 0.374881386756897,
      "learning_rate": 0.0002876028542731216,
      "loss": 3.0050731658935548,
      "step": 8690
    },
    {
      "epoch": 0.08416666666666667,
      "grad_norm": 0.3827640414237976,
      "learning_rate": 0.0002875710400251459,
      "loss": 2.993809127807617,
      "step": 8700
    },
    {
      "epoch": 0.08433333333333333,
      "grad_norm": 0.38827770948410034,
      "learning_rate": 0.00028753918677195013,
      "loss": 2.966595458984375,
      "step": 8710
    },
    {
      "epoch": 0.0845,
      "grad_norm": 0.3805679380893707,
      "learning_rate": 0.0002875072945225656,
      "loss": 2.9449575424194334,
      "step": 8720
    },
    {
      "epoch": 0.08466666666666667,
      "grad_norm": 0.401265949010849,
      "learning_rate": 0.0002874753632860347,
      "loss": 3.0216648101806642,
      "step": 8730
    },
    {
      "epoch": 0.08483333333333333,
      "grad_norm": 0.4089195728302002,
      "learning_rate": 0.00028744339307141067,
      "loss": 2.949349021911621,
      "step": 8740
    },
    {
      "epoch": 0.085,
      "grad_norm": 0.3903751075267792,
      "learning_rate": 0.0002874113838877581,
      "loss": 2.9601430892944336,
      "step": 8750
    },
    {
      "epoch": 0.08516666666666667,
      "grad_norm": 0.3800072968006134,
      "learning_rate": 0.00028737933574415246,
      "loss": 2.9771102905273437,
      "step": 8760
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 0.35385075211524963,
      "learning_rate": 0.00028734724864968024,
      "loss": 2.8619287490844725,
      "step": 8770
    },
    {
      "epoch": 0.0855,
      "grad_norm": 0.3094714879989624,
      "learning_rate": 0.00028731512261343905,
      "loss": 2.551932716369629,
      "step": 8780
    },
    {
      "epoch": 0.08566666666666667,
      "grad_norm": 0.3456581234931946,
      "learning_rate": 0.0002872829576445376,
      "loss": 2.550779914855957,
      "step": 8790
    },
    {
      "epoch": 0.08583333333333333,
      "grad_norm": 0.33465033769607544,
      "learning_rate": 0.00028725075375209537,
      "loss": 2.7116863250732424,
      "step": 8800
    },
    {
      "epoch": 0.086,
      "grad_norm": 0.3668154180049896,
      "learning_rate": 0.0002872185109452432,
      "loss": 2.7546573638916017,
      "step": 8810
    },
    {
      "epoch": 0.08616666666666667,
      "grad_norm": 0.40015819668769836,
      "learning_rate": 0.00028718622923312276,
      "loss": 2.815192985534668,
      "step": 8820
    },
    {
      "epoch": 0.08633333333333333,
      "grad_norm": 0.4568469226360321,
      "learning_rate": 0.0002871539086248869,
      "loss": 2.9397647857666014,
      "step": 8830
    },
    {
      "epoch": 0.0865,
      "grad_norm": 0.3752466142177582,
      "learning_rate": 0.00028712154912969933,
      "loss": 2.997811126708984,
      "step": 8840
    },
    {
      "epoch": 0.08666666666666667,
      "grad_norm": 0.3966951072216034,
      "learning_rate": 0.00028708915075673487,
      "loss": 2.9600738525390624,
      "step": 8850
    },
    {
      "epoch": 0.08683333333333333,
      "grad_norm": 0.385616660118103,
      "learning_rate": 0.0002870567135151794,
      "loss": 2.995475959777832,
      "step": 8860
    },
    {
      "epoch": 0.087,
      "grad_norm": 0.41171568632125854,
      "learning_rate": 0.00028702423741422975,
      "loss": 2.9510320663452148,
      "step": 8870
    },
    {
      "epoch": 0.08716666666666667,
      "grad_norm": 0.37604814767837524,
      "learning_rate": 0.00028699172246309386,
      "loss": 2.942887878417969,
      "step": 8880
    },
    {
      "epoch": 0.08733333333333333,
      "grad_norm": 0.359893262386322,
      "learning_rate": 0.0002869591686709905,
      "loss": 2.897919845581055,
      "step": 8890
    },
    {
      "epoch": 0.0875,
      "grad_norm": 0.3566887676715851,
      "learning_rate": 0.0002869265760471497,
      "loss": 2.8465831756591795,
      "step": 8900
    },
    {
      "epoch": 0.08766666666666667,
      "grad_norm": 0.365549236536026,
      "learning_rate": 0.0002868939446008123,
      "loss": 2.8258132934570312,
      "step": 8910
    },
    {
      "epoch": 0.08783333333333333,
      "grad_norm": 0.38654187321662903,
      "learning_rate": 0.0002868612743412303,
      "loss": 2.869220161437988,
      "step": 8920
    },
    {
      "epoch": 0.088,
      "grad_norm": 0.34111154079437256,
      "learning_rate": 0.00028682856527766657,
      "loss": 2.8037746429443358,
      "step": 8930
    },
    {
      "epoch": 0.08816666666666667,
      "grad_norm": 0.35901686549186707,
      "learning_rate": 0.000286795817419395,
      "loss": 2.9024696350097656,
      "step": 8940
    },
    {
      "epoch": 0.08833333333333333,
      "grad_norm": 0.3486897945404053,
      "learning_rate": 0.0002867630307757006,
      "loss": 2.8580015182495115,
      "step": 8950
    },
    {
      "epoch": 0.0885,
      "grad_norm": 0.3644869923591614,
      "learning_rate": 0.0002867302053558793,
      "loss": 2.7919416427612305,
      "step": 8960
    },
    {
      "epoch": 0.08866666666666667,
      "grad_norm": 0.36419951915740967,
      "learning_rate": 0.0002866973411692379,
      "loss": 2.818129539489746,
      "step": 8970
    },
    {
      "epoch": 0.08883333333333333,
      "grad_norm": 0.37151747941970825,
      "learning_rate": 0.0002866644382250945,
      "loss": 2.8000688552856445,
      "step": 8980
    },
    {
      "epoch": 0.089,
      "grad_norm": 0.41001400351524353,
      "learning_rate": 0.0002866314965327778,
      "loss": 2.8964866638183593,
      "step": 8990
    },
    {
      "epoch": 0.08916666666666667,
      "grad_norm": 0.3449036777019501,
      "learning_rate": 0.00028659851610162785,
      "loss": 2.769412803649902,
      "step": 9000
    },
    {
      "epoch": 0.08933333333333333,
      "grad_norm": 0.3284320533275604,
      "learning_rate": 0.0002865654969409954,
      "loss": 2.8089309692382813,
      "step": 9010
    },
    {
      "epoch": 0.0895,
      "grad_norm": 0.3335931599140167,
      "learning_rate": 0.00028653243906024247,
      "loss": 2.808209228515625,
      "step": 9020
    },
    {
      "epoch": 0.08966666666666667,
      "grad_norm": 0.3487749993801117,
      "learning_rate": 0.0002864993424687417,
      "loss": 2.732996940612793,
      "step": 9030
    },
    {
      "epoch": 0.08983333333333333,
      "grad_norm": 0.3709432780742645,
      "learning_rate": 0.000286466207175877,
      "loss": 2.707015609741211,
      "step": 9040
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.3400644063949585,
      "learning_rate": 0.0002864330331910431,
      "loss": 2.7739015579223634,
      "step": 9050
    },
    {
      "epoch": 0.09016666666666667,
      "grad_norm": 0.3754271864891052,
      "learning_rate": 0.0002863998205236458,
      "loss": 2.756894111633301,
      "step": 9060
    },
    {
      "epoch": 0.09033333333333333,
      "grad_norm": 0.36973458528518677,
      "learning_rate": 0.0002863665691831017,
      "loss": 2.7984287261962892,
      "step": 9070
    },
    {
      "epoch": 0.0905,
      "grad_norm": 0.34491243958473206,
      "learning_rate": 0.0002863332791788387,
      "loss": 2.8282186508178713,
      "step": 9080
    },
    {
      "epoch": 0.09066666666666667,
      "grad_norm": 0.36020711064338684,
      "learning_rate": 0.00028629995052029524,
      "loss": 2.831917953491211,
      "step": 9090
    },
    {
      "epoch": 0.09083333333333334,
      "grad_norm": 0.37985268235206604,
      "learning_rate": 0.00028626658321692096,
      "loss": 2.8649354934692384,
      "step": 9100
    },
    {
      "epoch": 0.091,
      "grad_norm": 0.39229467511177063,
      "learning_rate": 0.00028623317727817645,
      "loss": 2.8219844818115236,
      "step": 9110
    },
    {
      "epoch": 0.09116666666666666,
      "grad_norm": 0.3532887399196625,
      "learning_rate": 0.0002861997327135333,
      "loss": 2.7614973068237303,
      "step": 9120
    },
    {
      "epoch": 0.09133333333333334,
      "grad_norm": 0.3597084581851959,
      "learning_rate": 0.0002861662495324738,
      "loss": 2.870098686218262,
      "step": 9130
    },
    {
      "epoch": 0.0915,
      "grad_norm": 0.3700224459171295,
      "learning_rate": 0.00028613272774449154,
      "loss": 2.8357120513916017,
      "step": 9140
    },
    {
      "epoch": 0.09166666666666666,
      "grad_norm": 0.3505774438381195,
      "learning_rate": 0.0002860991673590908,
      "loss": 2.754099464416504,
      "step": 9150
    },
    {
      "epoch": 0.09183333333333334,
      "grad_norm": 0.34579479694366455,
      "learning_rate": 0.00028606556838578685,
      "loss": 2.7998725891113283,
      "step": 9160
    },
    {
      "epoch": 0.092,
      "grad_norm": 0.36511072516441345,
      "learning_rate": 0.000286031930834106,
      "loss": 2.835207939147949,
      "step": 9170
    },
    {
      "epoch": 0.09216666666666666,
      "grad_norm": 0.3592240810394287,
      "learning_rate": 0.0002859982547135854,
      "loss": 2.8685771942138674,
      "step": 9180
    },
    {
      "epoch": 0.09233333333333334,
      "grad_norm": 0.3856920897960663,
      "learning_rate": 0.00028596454003377317,
      "loss": 2.8370105743408205,
      "step": 9190
    },
    {
      "epoch": 0.0925,
      "grad_norm": 0.35312730073928833,
      "learning_rate": 0.00028593078680422837,
      "loss": 2.8010177612304688,
      "step": 9200
    },
    {
      "epoch": 0.09266666666666666,
      "grad_norm": 0.3775421679019928,
      "learning_rate": 0.0002858969950345209,
      "loss": 2.7878562927246096,
      "step": 9210
    },
    {
      "epoch": 0.09283333333333334,
      "grad_norm": 0.38095957040786743,
      "learning_rate": 0.00028586316473423187,
      "loss": 2.8107866287231444,
      "step": 9220
    },
    {
      "epoch": 0.093,
      "grad_norm": 0.3698684573173523,
      "learning_rate": 0.0002858292959129529,
      "loss": 2.7675500869750977,
      "step": 9230
    },
    {
      "epoch": 0.09316666666666666,
      "grad_norm": 0.36145222187042236,
      "learning_rate": 0.00028579538858028685,
      "loss": 2.8425624847412108,
      "step": 9240
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 0.3630043864250183,
      "learning_rate": 0.00028576144274584735,
      "loss": 2.744532585144043,
      "step": 9250
    },
    {
      "epoch": 0.0935,
      "grad_norm": 0.35888129472732544,
      "learning_rate": 0.00028572745841925904,
      "loss": 2.755132865905762,
      "step": 9260
    },
    {
      "epoch": 0.09366666666666666,
      "grad_norm": 0.3507837653160095,
      "learning_rate": 0.0002856934356101574,
      "loss": 2.8252931594848634,
      "step": 9270
    },
    {
      "epoch": 0.09383333333333334,
      "grad_norm": 0.3669086694717407,
      "learning_rate": 0.0002856593743281888,
      "loss": 2.8739065170288085,
      "step": 9280
    },
    {
      "epoch": 0.094,
      "grad_norm": 0.3655420243740082,
      "learning_rate": 0.0002856252745830106,
      "loss": 2.866586112976074,
      "step": 9290
    },
    {
      "epoch": 0.09416666666666666,
      "grad_norm": 0.35320961475372314,
      "learning_rate": 0.00028559113638429104,
      "loss": 2.806113433837891,
      "step": 9300
    },
    {
      "epoch": 0.09433333333333334,
      "grad_norm": 0.3701521158218384,
      "learning_rate": 0.00028555695974170924,
      "loss": 2.7944141387939454,
      "step": 9310
    },
    {
      "epoch": 0.0945,
      "grad_norm": 0.3411415219306946,
      "learning_rate": 0.0002855227446649552,
      "loss": 2.693042755126953,
      "step": 9320
    },
    {
      "epoch": 0.09466666666666666,
      "grad_norm": 0.34341827034950256,
      "learning_rate": 0.0002854884911637299,
      "loss": 2.6667823791503906,
      "step": 9330
    },
    {
      "epoch": 0.09483333333333334,
      "grad_norm": 0.3616132140159607,
      "learning_rate": 0.00028545419924774513,
      "loss": 2.6700407028198243,
      "step": 9340
    },
    {
      "epoch": 0.095,
      "grad_norm": 0.3750063180923462,
      "learning_rate": 0.00028541986892672357,
      "loss": 2.753375244140625,
      "step": 9350
    },
    {
      "epoch": 0.09516666666666666,
      "grad_norm": 0.36249396204948425,
      "learning_rate": 0.00028538550021039885,
      "loss": 2.8885286331176756,
      "step": 9360
    },
    {
      "epoch": 0.09533333333333334,
      "grad_norm": 0.3946261405944824,
      "learning_rate": 0.0002853510931085155,
      "loss": 2.873586082458496,
      "step": 9370
    },
    {
      "epoch": 0.0955,
      "grad_norm": 0.3485543131828308,
      "learning_rate": 0.0002853166476308288,
      "loss": 2.8844079971313477,
      "step": 9380
    },
    {
      "epoch": 0.09566666666666666,
      "grad_norm": 0.36728721857070923,
      "learning_rate": 0.00028528216378710517,
      "loss": 2.9377586364746096,
      "step": 9390
    },
    {
      "epoch": 0.09583333333333334,
      "grad_norm": 0.3543992340564728,
      "learning_rate": 0.00028524764158712157,
      "loss": 2.8414134979248047,
      "step": 9400
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.35999006032943726,
      "learning_rate": 0.000285213081040666,
      "loss": 2.8607666015625,
      "step": 9410
    },
    {
      "epoch": 0.09616666666666666,
      "grad_norm": 0.354253351688385,
      "learning_rate": 0.0002851784821575375,
      "loss": 2.9069902420043947,
      "step": 9420
    },
    {
      "epoch": 0.09633333333333334,
      "grad_norm": 0.35411810874938965,
      "learning_rate": 0.00028514384494754565,
      "loss": 2.7570217132568358,
      "step": 9430
    },
    {
      "epoch": 0.0965,
      "grad_norm": 0.3394506871700287,
      "learning_rate": 0.0002851091694205111,
      "loss": 2.7525148391723633,
      "step": 9440
    },
    {
      "epoch": 0.09666666666666666,
      "grad_norm": 0.3472767770290375,
      "learning_rate": 0.00028507445558626545,
      "loss": 2.5929914474487306,
      "step": 9450
    },
    {
      "epoch": 0.09683333333333333,
      "grad_norm": 0.3445834517478943,
      "learning_rate": 0.0002850397034546509,
      "loss": 2.6706295013427734,
      "step": 9460
    },
    {
      "epoch": 0.097,
      "grad_norm": 0.3816157281398773,
      "learning_rate": 0.00028500491303552067,
      "loss": 2.8304374694824217,
      "step": 9470
    },
    {
      "epoch": 0.09716666666666667,
      "grad_norm": 0.3813958168029785,
      "learning_rate": 0.00028497008433873885,
      "loss": 2.9113664627075195,
      "step": 9480
    },
    {
      "epoch": 0.09733333333333333,
      "grad_norm": 0.3773977756500244,
      "learning_rate": 0.00028493521737418034,
      "loss": 2.907037544250488,
      "step": 9490
    },
    {
      "epoch": 0.0975,
      "grad_norm": 0.3632221519947052,
      "learning_rate": 0.0002849003121517309,
      "loss": 2.8818357467651365,
      "step": 9500
    },
    {
      "epoch": 0.09766666666666667,
      "grad_norm": 0.3970240652561188,
      "learning_rate": 0.0002848653686812871,
      "loss": 2.9164527893066405,
      "step": 9510
    },
    {
      "epoch": 0.09783333333333333,
      "grad_norm": 0.3500790297985077,
      "learning_rate": 0.0002848303869727564,
      "loss": 2.8345727920532227,
      "step": 9520
    },
    {
      "epoch": 0.098,
      "grad_norm": 0.3632773160934448,
      "learning_rate": 0.0002847953670360571,
      "loss": 2.873233604431152,
      "step": 9530
    },
    {
      "epoch": 0.09816666666666667,
      "grad_norm": 0.376605749130249,
      "learning_rate": 0.0002847603088811183,
      "loss": 2.85976619720459,
      "step": 9540
    },
    {
      "epoch": 0.09833333333333333,
      "grad_norm": 0.3669801950454712,
      "learning_rate": 0.00028472521251787997,
      "loss": 2.720789337158203,
      "step": 9550
    },
    {
      "epoch": 0.0985,
      "grad_norm": 0.36518895626068115,
      "learning_rate": 0.00028469007795629294,
      "loss": 2.7442270278930665,
      "step": 9560
    },
    {
      "epoch": 0.09866666666666667,
      "grad_norm": 0.3775388300418854,
      "learning_rate": 0.0002846549052063189,
      "loss": 2.7367034912109376,
      "step": 9570
    },
    {
      "epoch": 0.09883333333333333,
      "grad_norm": 0.406002402305603,
      "learning_rate": 0.0002846196942779301,
      "loss": 2.8679609298706055,
      "step": 9580
    },
    {
      "epoch": 0.099,
      "grad_norm": 0.39087504148483276,
      "learning_rate": 0.00028458444518110996,
      "loss": 2.963069725036621,
      "step": 9590
    },
    {
      "epoch": 0.09916666666666667,
      "grad_norm": 0.3501756191253662,
      "learning_rate": 0.0002845491579258526,
      "loss": 2.8137041091918946,
      "step": 9600
    },
    {
      "epoch": 0.09933333333333333,
      "grad_norm": 0.34010085463523865,
      "learning_rate": 0.0002845138325221628,
      "loss": 2.802777862548828,
      "step": 9610
    },
    {
      "epoch": 0.0995,
      "grad_norm": 0.35873836278915405,
      "learning_rate": 0.0002844784689800565,
      "loss": 2.8310117721557617,
      "step": 9620
    },
    {
      "epoch": 0.09966666666666667,
      "grad_norm": 0.3960883319377899,
      "learning_rate": 0.00028444306730956016,
      "loss": 2.8962934494018553,
      "step": 9630
    },
    {
      "epoch": 0.09983333333333333,
      "grad_norm": 0.3697907626628876,
      "learning_rate": 0.00028440762752071104,
      "loss": 2.8383338928222654,
      "step": 9640
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.38671207427978516,
      "learning_rate": 0.0002843721496235574,
      "loss": 2.874836540222168,
      "step": 9650
    }
  ],
  "logging_steps": 10,
  "max_steps": 60000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 3.363846410289021e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}