{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 47455,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00010536297545042672,
      "grad_norm": 8.704546928405762,
      "learning_rate": 0.0,
      "loss": 3.1115,
      "step": 1
    },
    {
      "epoch": 0.010536297545042672,
      "grad_norm": 0.45912429690361023,
      "learning_rate": 2.085967130214918e-05,
      "loss": 2.4969,
      "step": 100
    },
    {
      "epoch": 0.021072595090085345,
      "grad_norm": 0.45048093795776367,
      "learning_rate": 4.193004635482512e-05,
      "loss": 2.1901,
      "step": 200
    },
    {
      "epoch": 0.03160889263512802,
      "grad_norm": 0.4515824615955353,
      "learning_rate": 6.300042140750104e-05,
      "loss": 2.1404,
      "step": 300
    },
    {
      "epoch": 0.04214519018017069,
      "grad_norm": 0.44400346279144287,
      "learning_rate": 8.4070796460177e-05,
      "loss": 2.1252,
      "step": 400
    },
    {
      "epoch": 0.05268148772521336,
      "grad_norm": 0.43594038486480713,
      "learning_rate": 0.00010514117151285294,
      "loss": 2.1131,
      "step": 500
    },
    {
      "epoch": 0.06321778527025604,
      "grad_norm": 0.48596614599227905,
      "learning_rate": 0.00012621154656552885,
      "loss": 2.1137,
      "step": 600
    },
    {
      "epoch": 0.0737540828152987,
      "grad_norm": 0.4419753849506378,
      "learning_rate": 0.0001472819216182048,
      "loss": 2.1132,
      "step": 700
    },
    {
      "epoch": 0.08429038036034138,
      "grad_norm": 0.4662840962409973,
      "learning_rate": 0.00016835229667088076,
      "loss": 2.0996,
      "step": 800
    },
    {
      "epoch": 0.09482667790538404,
      "grad_norm": 0.5108239054679871,
      "learning_rate": 0.00018942267172355668,
      "loss": 2.097,
      "step": 900
    },
    {
      "epoch": 0.10536297545042672,
      "grad_norm": 0.4582119584083557,
      "learning_rate": 0.00021049304677623262,
      "loss": 2.1024,
      "step": 1000
    },
    {
      "epoch": 0.1158992729954694,
      "grad_norm": 0.4549405574798584,
      "learning_rate": 0.00023156342182890856,
      "loss": 2.0953,
      "step": 1100
    },
    {
      "epoch": 0.12643557054051208,
      "grad_norm": 0.5161290168762207,
      "learning_rate": 0.0002526337968815845,
      "loss": 2.0932,
      "step": 1200
    },
    {
      "epoch": 0.13697186808555473,
      "grad_norm": 0.5365496277809143,
      "learning_rate": 0.00027370417193426044,
      "loss": 2.0952,
      "step": 1300
    },
    {
      "epoch": 0.1475081656305974,
      "grad_norm": 0.5388957858085632,
      "learning_rate": 0.0002947745469869364,
      "loss": 2.0908,
      "step": 1400
    },
    {
      "epoch": 0.15804446317564008,
      "grad_norm": 0.46142223477363586,
      "learning_rate": 0.00031584492203961227,
      "loss": 2.0942,
      "step": 1500
    },
    {
      "epoch": 0.16858076072068276,
      "grad_norm": 0.46338245272636414,
      "learning_rate": 0.00033691529709228824,
      "loss": 2.0844,
      "step": 1600
    },
    {
      "epoch": 0.17911705826572544,
      "grad_norm": 0.48414379358291626,
      "learning_rate": 0.0003579856721449642,
      "loss": 2.1006,
      "step": 1700
    },
    {
      "epoch": 0.1896533558107681,
      "grad_norm": 0.5171504020690918,
      "learning_rate": 0.0003790560471976401,
      "loss": 2.0942,
      "step": 1800
    },
    {
      "epoch": 0.20018965335581076,
      "grad_norm": 0.4922062158584595,
      "learning_rate": 0.0004001264222503161,
      "loss": 2.0904,
      "step": 1900
    },
    {
      "epoch": 0.21072595090085344,
      "grad_norm": 0.6023987531661987,
      "learning_rate": 0.000421196797302992,
      "loss": 2.0961,
      "step": 2000
    },
    {
      "epoch": 0.22126224844589612,
      "grad_norm": 0.5345625281333923,
      "learning_rate": 0.0004422671723556679,
      "loss": 2.0952,
      "step": 2100
    },
    {
      "epoch": 0.2317985459909388,
      "grad_norm": 0.5566565990447998,
      "learning_rate": 0.0004633375474083439,
      "loss": 2.0977,
      "step": 2200
    },
    {
      "epoch": 0.24233484353598145,
      "grad_norm": 0.5522327423095703,
      "learning_rate": 0.00048440792246101985,
      "loss": 2.1047,
      "step": 2300
    },
    {
      "epoch": 0.25287114108102415,
      "grad_norm": 0.5047522783279419,
      "learning_rate": 0.0004997116365733552,
      "loss": 2.0979,
      "step": 2400
    },
    {
      "epoch": 0.2634074386260668,
      "grad_norm": 0.4784170687198639,
      "learning_rate": 0.0004986025464708753,
      "loss": 2.102,
      "step": 2500
    },
    {
      "epoch": 0.27394373617110945,
      "grad_norm": 0.5242518782615662,
      "learning_rate": 0.0004974934563683953,
      "loss": 2.0998,
      "step": 2600
    },
    {
      "epoch": 0.28448003371615216,
      "grad_norm": 0.47221043705940247,
      "learning_rate": 0.0004963843662659154,
      "loss": 2.1038,
      "step": 2700
    },
    {
      "epoch": 0.2950163312611948,
      "grad_norm": 0.6364756226539612,
      "learning_rate": 0.0004952752761634355,
      "loss": 2.0921,
      "step": 2800
    },
    {
      "epoch": 0.3055526288062375,
      "grad_norm": 0.4995081424713135,
      "learning_rate": 0.0004941661860609556,
      "loss": 2.0924,
      "step": 2900
    },
    {
      "epoch": 0.31608892635128016,
      "grad_norm": 0.4774039685726166,
      "learning_rate": 0.0004930570959584757,
      "loss": 2.0911,
      "step": 3000
    },
    {
      "epoch": 0.3266252238963228,
      "grad_norm": 0.4661494195461273,
      "learning_rate": 0.0004919480058559958,
      "loss": 2.0936,
      "step": 3100
    },
    {
      "epoch": 0.3371615214413655,
      "grad_norm": 0.4524199366569519,
      "learning_rate": 0.0004908389157535158,
      "loss": 2.0885,
      "step": 3200
    },
    {
      "epoch": 0.34769781898640817,
      "grad_norm": 0.5359546542167664,
      "learning_rate": 0.0004897298256510359,
      "loss": 2.0836,
      "step": 3300
    },
    {
      "epoch": 0.3582341165314509,
      "grad_norm": 0.46531638503074646,
      "learning_rate": 0.0004886207355485559,
      "loss": 2.0732,
      "step": 3400
    },
    {
      "epoch": 0.3687704140764935,
      "grad_norm": 0.5188313722610474,
      "learning_rate": 0.0004875116454460761,
      "loss": 2.0701,
      "step": 3500
    },
    {
      "epoch": 0.3793067116215362,
      "grad_norm": 0.4912554621696472,
      "learning_rate": 0.0004864025553435961,
      "loss": 2.0734,
      "step": 3600
    },
    {
      "epoch": 0.3898430091665789,
      "grad_norm": 0.46518808603286743,
      "learning_rate": 0.00048529346524111617,
      "loss": 2.0673,
      "step": 3700
    },
    {
      "epoch": 0.40037930671162153,
      "grad_norm": 0.46551960706710815,
      "learning_rate": 0.00048418437513863627,
      "loss": 2.0733,
      "step": 3800
    },
    {
      "epoch": 0.41091560425666424,
      "grad_norm": 0.543953001499176,
      "learning_rate": 0.0004830752850361563,
      "loss": 2.066,
      "step": 3900
    },
    {
      "epoch": 0.4214519018017069,
      "grad_norm": 0.5043941140174866,
      "learning_rate": 0.0004819661949336764,
      "loss": 2.0662,
      "step": 4000
    },
    {
      "epoch": 0.43198819934674954,
      "grad_norm": 0.4602905511856079,
      "learning_rate": 0.00048085710483119647,
      "loss": 2.0704,
      "step": 4100
    },
    {
      "epoch": 0.44252449689179224,
      "grad_norm": 0.5024540424346924,
      "learning_rate": 0.0004797480147287166,
      "loss": 2.0654,
      "step": 4200
    },
    {
      "epoch": 0.4530607944368349,
      "grad_norm": 0.48672983050346375,
      "learning_rate": 0.00047863892462623667,
      "loss": 2.0572,
      "step": 4300
    },
    {
      "epoch": 0.4635970919818776,
      "grad_norm": 0.44031229615211487,
      "learning_rate": 0.0004775298345237567,
      "loss": 2.0672,
      "step": 4400
    },
    {
      "epoch": 0.47413338952692025,
      "grad_norm": 0.46178367733955383,
      "learning_rate": 0.0004764207444212768,
      "loss": 2.0617,
      "step": 4500
    },
    {
      "epoch": 0.4846696870719629,
      "grad_norm": 0.43033888936042786,
      "learning_rate": 0.00047531165431879686,
      "loss": 2.0545,
      "step": 4600
    },
    {
      "epoch": 0.4952059846170056,
      "grad_norm": 0.47262778878211975,
      "learning_rate": 0.00047420256421631696,
      "loss": 2.0581,
      "step": 4700
    },
    {
      "epoch": 0.5057422821620483,
      "grad_norm": 0.5511783957481384,
      "learning_rate": 0.000473093474113837,
      "loss": 2.0497,
      "step": 4800
    },
    {
      "epoch": 0.5162785797070909,
      "grad_norm": 0.5176393985748291,
      "learning_rate": 0.00047198438401135705,
      "loss": 2.0466,
      "step": 4900
    },
    {
      "epoch": 0.5268148772521336,
      "grad_norm": 0.4723651111125946,
      "learning_rate": 0.00047087529390887716,
      "loss": 2.0468,
      "step": 5000
    },
    {
      "epoch": 0.5373511747971763,
      "grad_norm": 0.4407116174697876,
      "learning_rate": 0.00046976620380639726,
      "loss": 2.0551,
      "step": 5100
    },
    {
      "epoch": 0.5478874723422189,
      "grad_norm": 0.4954802989959717,
      "learning_rate": 0.00046865711370391736,
      "loss": 2.0418,
      "step": 5200
    },
    {
      "epoch": 0.5584237698872616,
      "grad_norm": 0.43379735946655273,
      "learning_rate": 0.0004675480236014374,
      "loss": 2.0455,
      "step": 5300
    },
    {
      "epoch": 0.5689600674323043,
      "grad_norm": 0.4137374758720398,
      "learning_rate": 0.00046643893349895745,
      "loss": 2.0435,
      "step": 5400
    },
    {
      "epoch": 0.5794963649773469,
      "grad_norm": 0.42562806606292725,
      "learning_rate": 0.00046532984339647755,
      "loss": 2.0462,
      "step": 5500
    },
    {
      "epoch": 0.5900326625223896,
      "grad_norm": 0.49963149428367615,
      "learning_rate": 0.0004642207532939976,
      "loss": 2.0461,
      "step": 5600
    },
    {
      "epoch": 0.6005689600674323,
      "grad_norm": 0.4317498803138733,
      "learning_rate": 0.0004631116631915177,
      "loss": 2.043,
      "step": 5700
    },
    {
      "epoch": 0.611105257612475,
      "grad_norm": 0.48041588068008423,
      "learning_rate": 0.00046200257308903775,
      "loss": 2.0407,
      "step": 5800
    },
    {
      "epoch": 0.6216415551575176,
      "grad_norm": 0.4867211878299713,
      "learning_rate": 0.0004608934829865578,
      "loss": 2.0399,
      "step": 5900
    },
    {
      "epoch": 0.6321778527025603,
      "grad_norm": 0.4728844165802002,
      "learning_rate": 0.0004597843928840779,
      "loss": 2.0481,
      "step": 6000
    },
    {
      "epoch": 0.642714150247603,
      "grad_norm": 0.42306768894195557,
      "learning_rate": 0.000458675302781598,
      "loss": 2.036,
      "step": 6100
    },
    {
      "epoch": 0.6532504477926456,
      "grad_norm": 0.4628433883190155,
      "learning_rate": 0.0004575662126791181,
      "loss": 2.0316,
      "step": 6200
    },
    {
      "epoch": 0.6637867453376883,
      "grad_norm": 0.5507206916809082,
      "learning_rate": 0.00045645712257663814,
      "loss": 2.037,
      "step": 6300
    },
    {
      "epoch": 0.674323042882731,
      "grad_norm": 0.5245053172111511,
      "learning_rate": 0.00045534803247415824,
      "loss": 2.0331,
      "step": 6400
    },
    {
      "epoch": 0.6848593404277736,
      "grad_norm": 0.4395572543144226,
      "learning_rate": 0.0004542389423716783,
      "loss": 2.0319,
      "step": 6500
    },
    {
      "epoch": 0.6953956379728163,
      "grad_norm": 0.4458150565624237,
      "learning_rate": 0.00045312985226919833,
      "loss": 2.0262,
      "step": 6600
    },
    {
      "epoch": 0.705931935517859,
      "grad_norm": 0.4589666724205017,
      "learning_rate": 0.00045202076216671844,
      "loss": 2.0281,
      "step": 6700
    },
    {
      "epoch": 0.7164682330629017,
      "grad_norm": 0.49729079008102417,
      "learning_rate": 0.0004509116720642385,
      "loss": 2.0254,
      "step": 6800
    },
    {
      "epoch": 0.7270045306079443,
      "grad_norm": 0.41776230931282043,
      "learning_rate": 0.0004498025819617586,
      "loss": 2.0274,
      "step": 6900
    },
    {
      "epoch": 0.737540828152987,
      "grad_norm": 0.5071027278900146,
      "learning_rate": 0.0004486934918592787,
      "loss": 2.0226,
      "step": 7000
    },
    {
      "epoch": 0.7480771256980298,
      "grad_norm": 0.47906801104545593,
      "learning_rate": 0.00044758440175679873,
      "loss": 2.0225,
      "step": 7100
    },
    {
      "epoch": 0.7586134232430723,
      "grad_norm": 0.501970648765564,
      "learning_rate": 0.00044647531165431883,
      "loss": 2.0212,
      "step": 7200
    },
    {
      "epoch": 0.769149720788115,
      "grad_norm": 0.4116053879261017,
      "learning_rate": 0.0004453662215518389,
      "loss": 2.0259,
      "step": 7300
    },
    {
      "epoch": 0.7796860183331578,
      "grad_norm": 0.4501636028289795,
      "learning_rate": 0.000444257131449359,
      "loss": 2.0205,
      "step": 7400
    },
    {
      "epoch": 0.7902223158782004,
      "grad_norm": 0.5196821093559265,
      "learning_rate": 0.000443148041346879,
      "loss": 2.0216,
      "step": 7500
    },
    {
      "epoch": 0.8007586134232431,
      "grad_norm": 0.4288316071033478,
      "learning_rate": 0.00044203895124439907,
      "loss": 2.0178,
      "step": 7600
    },
    {
      "epoch": 0.8112949109682858,
      "grad_norm": 0.41823074221611023,
      "learning_rate": 0.00044092986114191917,
      "loss": 2.0131,
      "step": 7700
    },
    {
      "epoch": 0.8218312085133285,
      "grad_norm": 0.4197762608528137,
      "learning_rate": 0.0004398207710394392,
      "loss": 2.0147,
      "step": 7800
    },
    {
      "epoch": 0.8323675060583711,
      "grad_norm": 0.4367753267288208,
      "learning_rate": 0.0004387116809369593,
      "loss": 2.024,
      "step": 7900
    },
    {
      "epoch": 0.8429038036034138,
      "grad_norm": 0.43104997277259827,
      "learning_rate": 0.0004376025908344794,
      "loss": 2.0123,
      "step": 8000
    },
    {
      "epoch": 0.8534401011484565,
      "grad_norm": 0.4320082664489746,
      "learning_rate": 0.0004364935007319995,
      "loss": 2.0126,
      "step": 8100
    },
    {
      "epoch": 0.8639763986934991,
      "grad_norm": 0.4402988851070404,
      "learning_rate": 0.00043538441062951957,
      "loss": 2.0127,
      "step": 8200
    },
    {
      "epoch": 0.8745126962385418,
      "grad_norm": 0.4331250786781311,
      "learning_rate": 0.0004342753205270396,
      "loss": 2.0138,
      "step": 8300
    },
    {
      "epoch": 0.8850489937835845,
      "grad_norm": 0.43004143238067627,
      "learning_rate": 0.0004331662304245597,
      "loss": 2.0034,
      "step": 8400
    },
    {
      "epoch": 0.8955852913286271,
      "grad_norm": 0.4509132504463196,
      "learning_rate": 0.00043205714032207976,
      "loss": 2.0058,
      "step": 8500
    },
    {
      "epoch": 0.9061215888736698,
      "grad_norm": 0.43472710251808167,
      "learning_rate": 0.00043094805021959986,
      "loss": 2.0042,
      "step": 8600
    },
    {
      "epoch": 0.9166578864187125,
      "grad_norm": 0.5285255908966064,
      "learning_rate": 0.0004298389601171199,
      "loss": 2.0018,
      "step": 8700
    },
    {
      "epoch": 0.9271941839637552,
      "grad_norm": 0.40384572744369507,
      "learning_rate": 0.00042872987001463996,
      "loss": 2.0079,
      "step": 8800
    },
    {
      "epoch": 0.9377304815087978,
      "grad_norm": 0.4634927213191986,
      "learning_rate": 0.0004276207799121601,
      "loss": 1.9999,
      "step": 8900
    },
    {
      "epoch": 0.9482667790538405,
      "grad_norm": 0.4585327208042145,
      "learning_rate": 0.00042651168980968016,
      "loss": 2.0076,
      "step": 9000
    },
    {
      "epoch": 0.9588030765988832,
      "grad_norm": 0.44724905490875244,
      "learning_rate": 0.00042540259970720026,
      "loss": 2.0055,
      "step": 9100
    },
    {
      "epoch": 0.9693393741439258,
      "grad_norm": 0.4930990934371948,
      "learning_rate": 0.0004242935096047203,
      "loss": 2.0034,
      "step": 9200
    },
    {
      "epoch": 0.9798756716889685,
      "grad_norm": 0.4466867744922638,
      "learning_rate": 0.00042318441950224035,
      "loss": 2.0046,
      "step": 9300
    },
    {
      "epoch": 0.9904119692340112,
      "grad_norm": 0.44049832224845886,
      "learning_rate": 0.00042207532939976045,
      "loss": 2.0015,
      "step": 9400
    },
    {
      "epoch": 1.000948266779054,
      "grad_norm": 0.4658033549785614,
      "learning_rate": 0.0004209662392972805,
      "loss": 1.9938,
      "step": 9500
    },
    {
      "epoch": 1.0114845643240966,
      "grad_norm": 0.45460689067840576,
      "learning_rate": 0.0004198571491948006,
      "loss": 1.9694,
      "step": 9600
    },
    {
      "epoch": 1.022020861869139,
      "grad_norm": 0.43489739298820496,
      "learning_rate": 0.00041874805909232065,
      "loss": 1.9684,
      "step": 9700
    },
    {
      "epoch": 1.0325571594141818,
      "grad_norm": 0.4363148510456085,
      "learning_rate": 0.0004176389689898407,
      "loss": 1.961,
      "step": 9800
    },
    {
      "epoch": 1.0430934569592245,
      "grad_norm": 0.41610002517700195,
      "learning_rate": 0.00041652987888736085,
      "loss": 1.9694,
      "step": 9900
    },
    {
      "epoch": 1.0536297545042672,
      "grad_norm": 0.39003250002861023,
      "learning_rate": 0.0004154207887848809,
      "loss": 1.9636,
      "step": 10000
    },
    {
      "epoch": 1.06416605204931,
      "grad_norm": 0.36780601739883423,
      "learning_rate": 0.000414311698682401,
      "loss": 1.9686,
      "step": 10100
    },
    {
      "epoch": 1.0747023495943526,
      "grad_norm": 0.4296736419200897,
      "learning_rate": 0.00041320260857992104,
      "loss": 1.9668,
      "step": 10200
    },
    {
      "epoch": 1.0852386471393953,
      "grad_norm": 0.45763176679611206,
      "learning_rate": 0.00041209351847744114,
      "loss": 1.9639,
      "step": 10300
    },
    {
      "epoch": 1.0957749446844378,
      "grad_norm": 0.41805505752563477,
      "learning_rate": 0.0004109844283749612,
      "loss": 1.9633,
      "step": 10400
    },
    {
      "epoch": 1.1063112422294805,
      "grad_norm": 0.42308661341667175,
      "learning_rate": 0.00040987533827248124,
      "loss": 1.9745,
      "step": 10500
    },
    {
      "epoch": 1.1168475397745232,
      "grad_norm": 0.4240245223045349,
      "learning_rate": 0.00040876624817000134,
      "loss": 1.9689,
      "step": 10600
    },
    {
      "epoch": 1.127383837319566,
      "grad_norm": 0.40365278720855713,
      "learning_rate": 0.0004076571580675214,
      "loss": 1.9653,
      "step": 10700
    },
    {
      "epoch": 1.1379201348646086,
      "grad_norm": 0.4099302887916565,
      "learning_rate": 0.00040654806796504154,
      "loss": 1.958,
      "step": 10800
    },
    {
      "epoch": 1.1484564324096513,
      "grad_norm": 0.4134521186351776,
      "learning_rate": 0.0004054389778625616,
      "loss": 1.9686,
      "step": 10900
    },
    {
      "epoch": 1.158992729954694,
      "grad_norm": 0.40292927622795105,
      "learning_rate": 0.00040432988776008163,
      "loss": 1.9627,
      "step": 11000
    },
    {
      "epoch": 1.1695290274997365,
      "grad_norm": 0.4272337555885315,
      "learning_rate": 0.00040322079765760173,
      "loss": 1.9655,
      "step": 11100
    },
    {
      "epoch": 1.1800653250447792,
      "grad_norm": 0.43145930767059326,
      "learning_rate": 0.0004021117075551218,
      "loss": 1.963,
      "step": 11200
    },
    {
      "epoch": 1.190601622589822,
      "grad_norm": 0.39788371324539185,
      "learning_rate": 0.0004010026174526419,
      "loss": 1.9616,
      "step": 11300
    },
    {
      "epoch": 1.2011379201348646,
      "grad_norm": 0.45902547240257263,
      "learning_rate": 0.0003998935273501619,
      "loss": 1.9589,
      "step": 11400
    },
    {
      "epoch": 1.2116742176799074,
      "grad_norm": 0.4540606141090393,
      "learning_rate": 0.00039878443724768197,
      "loss": 1.958,
      "step": 11500
    },
    {
      "epoch": 1.2222105152249498,
      "grad_norm": 0.4402179419994354,
      "learning_rate": 0.0003976753471452021,
      "loss": 1.9555,
      "step": 11600
    },
    {
      "epoch": 1.2327468127699925,
      "grad_norm": 0.389726459980011,
      "learning_rate": 0.0003965662570427221,
      "loss": 1.9512,
      "step": 11700
    },
    {
      "epoch": 1.2432831103150352,
      "grad_norm": 0.440833181142807,
      "learning_rate": 0.0003954571669402423,
      "loss": 1.9561,
      "step": 11800
    },
    {
      "epoch": 1.253819407860078,
      "grad_norm": 0.3972662091255188,
      "learning_rate": 0.0003943480768377623,
      "loss": 1.965,
      "step": 11900
    },
    {
      "epoch": 1.2643557054051207,
      "grad_norm": 0.41316962242126465,
      "learning_rate": 0.00039323898673528237,
      "loss": 1.9522,
      "step": 12000
    },
    {
      "epoch": 1.2748920029501634,
      "grad_norm": 0.41109901666641235,
      "learning_rate": 0.00039212989663280247,
      "loss": 1.9553,
      "step": 12100
    },
    {
      "epoch": 1.285428300495206,
      "grad_norm": 0.4357900023460388,
      "learning_rate": 0.0003910208065303225,
      "loss": 1.9513,
      "step": 12200
    },
    {
      "epoch": 1.2959645980402485,
      "grad_norm": 0.3943662941455841,
      "learning_rate": 0.0003899117164278426,
      "loss": 1.9611,
      "step": 12300
    },
    {
      "epoch": 1.3065008955852913,
      "grad_norm": 0.39483174681663513,
      "learning_rate": 0.00038880262632536266,
      "loss": 1.9478,
      "step": 12400
    },
    {
      "epoch": 1.317037193130334,
      "grad_norm": 0.43672600388526917,
      "learning_rate": 0.00038769353622288276,
      "loss": 1.9485,
      "step": 12500
    },
    {
      "epoch": 1.3275734906753767,
      "grad_norm": 0.42754313349723816,
      "learning_rate": 0.0003865844461204028,
      "loss": 1.9463,
      "step": 12600
    },
    {
      "epoch": 1.3381097882204194,
      "grad_norm": 0.41211095452308655,
      "learning_rate": 0.0003854753560179229,
      "loss": 1.95,
      "step": 12700
    },
    {
      "epoch": 1.348646085765462,
      "grad_norm": 0.3844158947467804,
      "learning_rate": 0.000384366265915443,
      "loss": 1.9426,
      "step": 12800
    },
    {
      "epoch": 1.3591823833105048,
      "grad_norm": 0.4544881582260132,
      "learning_rate": 0.00038325717581296306,
      "loss": 1.951,
      "step": 12900
    },
    {
      "epoch": 1.3697186808555473,
      "grad_norm": 0.4058513641357422,
      "learning_rate": 0.00038214808571048316,
      "loss": 1.9521,
      "step": 13000
    },
    {
      "epoch": 1.38025497840059,
      "grad_norm": 0.38905027508735657,
      "learning_rate": 0.0003810389956080032,
      "loss": 1.9534,
      "step": 13100
    },
    {
      "epoch": 1.3907912759456327,
      "grad_norm": 0.4224783182144165,
      "learning_rate": 0.00037992990550552325,
      "loss": 1.9485,
      "step": 13200
    },
    {
      "epoch": 1.4013275734906754,
      "grad_norm": 0.3894629180431366,
      "learning_rate": 0.00037882081540304335,
      "loss": 1.9459,
      "step": 13300
    },
    {
      "epoch": 1.411863871035718,
      "grad_norm": 0.4435978829860687,
      "learning_rate": 0.0003777117253005634,
      "loss": 1.9428,
      "step": 13400
    },
    {
      "epoch": 1.4224001685807608,
      "grad_norm": 0.4090045690536499,
      "learning_rate": 0.0003766026351980835,
      "loss": 1.951,
      "step": 13500
    },
    {
      "epoch": 1.4329364661258035,
      "grad_norm": 0.4192126989364624,
      "learning_rate": 0.00037549354509560355,
      "loss": 1.9498,
      "step": 13600
    },
    {
      "epoch": 1.443472763670846,
      "grad_norm": 0.399774968624115,
      "learning_rate": 0.00037438445499312365,
      "loss": 1.9463,
      "step": 13700
    },
    {
      "epoch": 1.4540090612158887,
      "grad_norm": 0.3659054636955261,
      "learning_rate": 0.00037327536489064375,
      "loss": 1.9549,
      "step": 13800
    },
    {
      "epoch": 1.4645453587609314,
      "grad_norm": 0.385452538728714,
      "learning_rate": 0.0003721662747881638,
      "loss": 1.9472,
      "step": 13900
    },
    {
      "epoch": 1.475081656305974,
      "grad_norm": 0.3904755413532257,
      "learning_rate": 0.0003710571846856839,
      "loss": 1.9438,
      "step": 14000
    },
    {
      "epoch": 1.4856179538510168,
      "grad_norm": 0.3969903290271759,
      "learning_rate": 0.00036994809458320394,
      "loss": 1.941,
      "step": 14100
    },
    {
      "epoch": 1.4961542513960593,
      "grad_norm": 0.4201650321483612,
      "learning_rate": 0.000368839004480724,
      "loss": 1.9451,
      "step": 14200
    },
    {
      "epoch": 1.5066905489411022,
      "grad_norm": 0.3867323100566864,
      "learning_rate": 0.0003677299143782441,
      "loss": 1.9463,
      "step": 14300
    },
    {
      "epoch": 1.5172268464861447,
      "grad_norm": 0.40658488869667053,
      "learning_rate": 0.00036662082427576414,
      "loss": 1.9461,
      "step": 14400
    },
    {
      "epoch": 1.5277631440311874,
      "grad_norm": 0.39837929606437683,
      "learning_rate": 0.00036551173417328424,
      "loss": 1.9517,
      "step": 14500
    },
    {
      "epoch": 1.53829944157623,
      "grad_norm": 0.42312178015708923,
      "learning_rate": 0.00036440264407080434,
      "loss": 1.9351,
      "step": 14600
    },
    {
      "epoch": 1.5488357391212728,
      "grad_norm": 0.4057867228984833,
      "learning_rate": 0.00036329355396832444,
      "loss": 1.9403,
      "step": 14700
    },
    {
      "epoch": 1.5593720366663155,
      "grad_norm": 0.39428508281707764,
      "learning_rate": 0.0003621844638658445,
      "loss": 1.9484,
      "step": 14800
    },
    {
      "epoch": 1.569908334211358,
      "grad_norm": 0.381671279668808,
      "learning_rate": 0.00036107537376336453,
      "loss": 1.9399,
      "step": 14900
    },
    {
      "epoch": 1.580444631756401,
      "grad_norm": 0.4080953598022461,
      "learning_rate": 0.00035996628366088463,
      "loss": 1.9316,
      "step": 15000
    },
    {
      "epoch": 1.5909809293014434,
      "grad_norm": 0.3612942397594452,
      "learning_rate": 0.0003588571935584047,
      "loss": 1.9337,
      "step": 15100
    },
    {
      "epoch": 1.6015172268464861,
      "grad_norm": 0.37906691431999207,
      "learning_rate": 0.0003577481034559248,
      "loss": 1.9338,
      "step": 15200
    },
    {
      "epoch": 1.6120535243915288,
      "grad_norm": 0.4057066738605499,
      "learning_rate": 0.0003566390133534448,
      "loss": 1.9399,
      "step": 15300
    },
    {
      "epoch": 1.6225898219365715,
      "grad_norm": 0.396557480096817,
      "learning_rate": 0.0003555299232509649,
      "loss": 1.9472,
      "step": 15400
    },
    {
      "epoch": 1.6331261194816142,
      "grad_norm": 0.37647131085395813,
      "learning_rate": 0.000354420833148485,
      "loss": 1.9368,
      "step": 15500
    },
    {
      "epoch": 1.6436624170266567,
      "grad_norm": 0.3920493721961975,
      "learning_rate": 0.0003533117430460051,
      "loss": 1.9407,
      "step": 15600
    },
    {
      "epoch": 1.6541987145716996,
      "grad_norm": 0.39372900128364563,
      "learning_rate": 0.0003522026529435252,
      "loss": 1.9327,
      "step": 15700
    },
    {
      "epoch": 1.6647350121167421,
      "grad_norm": 0.3832472264766693,
      "learning_rate": 0.0003510935628410452,
      "loss": 1.9365,
      "step": 15800
    },
    {
      "epoch": 1.6752713096617848,
      "grad_norm": 0.3669210970401764,
      "learning_rate": 0.00034998447273856527,
      "loss": 1.9323,
      "step": 15900
    },
    {
      "epoch": 1.6858076072068275,
      "grad_norm": 0.37810054421424866,
      "learning_rate": 0.00034887538263608537,
      "loss": 1.93,
      "step": 16000
    },
    {
      "epoch": 1.6963439047518702,
      "grad_norm": 0.3972882330417633,
      "learning_rate": 0.0003477662925336054,
      "loss": 1.9299,
      "step": 16100
    },
    {
      "epoch": 1.706880202296913,
      "grad_norm": 0.39600399136543274,
      "learning_rate": 0.0003466572024311255,
      "loss": 1.9337,
      "step": 16200
    },
    {
      "epoch": 1.7174164998419554,
      "grad_norm": 0.367546021938324,
      "learning_rate": 0.00034554811232864556,
      "loss": 1.934,
      "step": 16300
    },
    {
      "epoch": 1.7279527973869984,
      "grad_norm": 0.43116411566734314,
      "learning_rate": 0.00034443902222616566,
      "loss": 1.9296,
      "step": 16400
    },
    {
      "epoch": 1.7384890949320408,
      "grad_norm": 0.41438373923301697,
      "learning_rate": 0.00034332993212368577,
      "loss": 1.9304,
      "step": 16500
    },
    {
      "epoch": 1.7490253924770836,
      "grad_norm": 0.387265145778656,
      "learning_rate": 0.0003422208420212058,
      "loss": 1.9273,
      "step": 16600
    },
    {
      "epoch": 1.7595616900221263,
      "grad_norm": 0.3982371687889099,
      "learning_rate": 0.0003411117519187259,
      "loss": 1.9338,
      "step": 16700
    },
    {
      "epoch": 1.7700979875671687,
      "grad_norm": 0.3915503919124603,
      "learning_rate": 0.00034000266181624596,
      "loss": 1.9305,
      "step": 16800
    },
    {
      "epoch": 1.7806342851122117,
      "grad_norm": 0.38060539960861206,
      "learning_rate": 0.00033889357171376606,
      "loss": 1.927,
      "step": 16900
    },
    {
      "epoch": 1.7911705826572542,
      "grad_norm": 0.4222376048564911,
      "learning_rate": 0.0003377844816112861,
      "loss": 1.9311,
      "step": 17000
    },
    {
      "epoch": 1.801706880202297,
      "grad_norm": 0.3746761381626129,
      "learning_rate": 0.00033667539150880615,
      "loss": 1.9269,
      "step": 17100
    },
    {
      "epoch": 1.8122431777473396,
      "grad_norm": 0.3764290511608124,
      "learning_rate": 0.00033556630140632625,
      "loss": 1.9239,
      "step": 17200
    },
    {
      "epoch": 1.8227794752923823,
      "grad_norm": 0.3536926209926605,
      "learning_rate": 0.0003344572113038463,
      "loss": 1.9312,
      "step": 17300
    },
    {
      "epoch": 1.833315772837425,
      "grad_norm": 0.3796480596065521,
      "learning_rate": 0.0003333481212013664,
      "loss": 1.9229,
      "step": 17400
    },
    {
      "epoch": 1.8438520703824675,
      "grad_norm": 0.3728596866130829,
      "learning_rate": 0.0003322390310988865,
      "loss": 1.9248,
      "step": 17500
    },
    {
      "epoch": 1.8543883679275104,
      "grad_norm": 0.3622676432132721,
      "learning_rate": 0.00033112994099640655,
      "loss": 1.9274,
      "step": 17600
    },
    {
      "epoch": 1.8649246654725529,
      "grad_norm": 0.3914555013179779,
      "learning_rate": 0.00033002085089392665,
      "loss": 1.917,
      "step": 17700
    },
    {
      "epoch": 1.8754609630175956,
      "grad_norm": 0.3367026448249817,
      "learning_rate": 0.0003289117607914467,
      "loss": 1.9213,
      "step": 17800
    },
    {
      "epoch": 1.8859972605626383,
      "grad_norm": 0.41049453616142273,
      "learning_rate": 0.0003278026706889668,
      "loss": 1.921,
      "step": 17900
    },
    {
      "epoch": 1.896533558107681,
      "grad_norm": 0.38005101680755615,
      "learning_rate": 0.00032669358058648684,
      "loss": 1.9188,
      "step": 18000
    },
    {
      "epoch": 1.9070698556527237,
      "grad_norm": 0.3855360150337219,
      "learning_rate": 0.0003255844904840069,
      "loss": 1.9224,
      "step": 18100
    },
    {
      "epoch": 1.9176061531977662,
      "grad_norm": 0.3764369487762451,
      "learning_rate": 0.000324475400381527,
      "loss": 1.9221,
      "step": 18200
    },
    {
      "epoch": 1.928142450742809,
      "grad_norm": 0.3933279514312744,
      "learning_rate": 0.00032336631027904704,
      "loss": 1.9233,
      "step": 18300
    },
    {
      "epoch": 1.9386787482878516,
      "grad_norm": 0.3530935049057007,
      "learning_rate": 0.0003222572201765672,
      "loss": 1.9218,
      "step": 18400
    },
    {
      "epoch": 1.9492150458328943,
      "grad_norm": 0.36857885122299194,
      "learning_rate": 0.00032114813007408724,
      "loss": 1.9211,
      "step": 18500
    },
    {
      "epoch": 1.959751343377937,
      "grad_norm": 0.3870936930179596,
      "learning_rate": 0.00032003903997160734,
      "loss": 1.919,
      "step": 18600
    },
    {
      "epoch": 1.9702876409229797,
      "grad_norm": 0.38852736353874207,
      "learning_rate": 0.0003189299498691274,
      "loss": 1.9137,
      "step": 18700
    },
    {
      "epoch": 1.9808239384680224,
      "grad_norm": 0.3802979290485382,
      "learning_rate": 0.00031782085976664743,
      "loss": 1.9238,
      "step": 18800
    },
    {
      "epoch": 1.9913602360130649,
      "grad_norm": 0.39477866888046265,
      "learning_rate": 0.00031671176966416753,
      "loss": 1.9226,
      "step": 18900
    },
    {
      "epoch": 2.001896533558108,
      "grad_norm": 0.39578545093536377,
      "learning_rate": 0.0003156026795616876,
      "loss": 1.9067,
      "step": 19000
    },
    {
      "epoch": 2.0124328311031503,
      "grad_norm": 0.3758637607097626,
      "learning_rate": 0.0003144935894592077,
      "loss": 1.8889,
      "step": 19100
    },
    {
      "epoch": 2.0229691286481932,
      "grad_norm": 0.3424636125564575,
      "learning_rate": 0.00031338449935672773,
      "loss": 1.881,
      "step": 19200
    },
    {
      "epoch": 2.0335054261932357,
      "grad_norm": 0.3473268151283264,
      "learning_rate": 0.0003122754092542478,
      "loss": 1.8824,
      "step": 19300
    },
    {
      "epoch": 2.044041723738278,
      "grad_norm": 0.34891676902770996,
      "learning_rate": 0.00031116631915176793,
      "loss": 1.8876,
      "step": 19400
    },
    {
      "epoch": 2.054578021283321,
      "grad_norm": 0.40848681330680847,
      "learning_rate": 0.000310057229049288,
      "loss": 1.8804,
      "step": 19500
    },
    {
      "epoch": 2.0651143188283636,
      "grad_norm": 0.3565325140953064,
      "learning_rate": 0.0003089481389468081,
      "loss": 1.8846,
      "step": 19600
    },
    {
      "epoch": 2.0756506163734065,
      "grad_norm": 0.3714432418346405,
      "learning_rate": 0.0003078390488443281,
      "loss": 1.8952,
      "step": 19700
    },
    {
      "epoch": 2.086186913918449,
      "grad_norm": 0.39024487137794495,
      "learning_rate": 0.00030672995874184817,
      "loss": 1.8886,
      "step": 19800
    },
    {
      "epoch": 2.096723211463492,
      "grad_norm": 0.37265217304229736,
      "learning_rate": 0.00030562086863936827,
      "loss": 1.8815,
      "step": 19900
    },
    {
      "epoch": 2.1072595090085344,
      "grad_norm": 0.4258386194705963,
      "learning_rate": 0.0003045117785368883,
      "loss": 1.8797,
      "step": 20000
    },
    {
      "epoch": 2.117795806553577,
      "grad_norm": 0.3775697350502014,
      "learning_rate": 0.0003034026884344084,
      "loss": 1.8863,
      "step": 20100
    },
    {
      "epoch": 2.12833210409862,
      "grad_norm": 0.3451697826385498,
      "learning_rate": 0.00030229359833192846,
      "loss": 1.8812,
      "step": 20200
    },
    {
      "epoch": 2.1388684016436623,
      "grad_norm": 0.3747578561306,
      "learning_rate": 0.00030118450822944857,
      "loss": 1.8884,
      "step": 20300
    },
    {
      "epoch": 2.1494046991887052,
      "grad_norm": 0.35056072473526,
      "learning_rate": 0.00030007541812696867,
      "loss": 1.8721,
      "step": 20400
    },
    {
      "epoch": 2.1599409967337477,
      "grad_norm": 0.3892049491405487,
      "learning_rate": 0.0002989663280244887,
      "loss": 1.8869,
      "step": 20500
    },
    {
      "epoch": 2.1704772942787907,
      "grad_norm": 0.4040903151035309,
      "learning_rate": 0.0002978572379220088,
      "loss": 1.8773,
      "step": 20600
    },
    {
      "epoch": 2.181013591823833,
      "grad_norm": 0.4122794568538666,
      "learning_rate": 0.00029674814781952886,
      "loss": 1.8858,
      "step": 20700
    },
    {
      "epoch": 2.1915498893688756,
      "grad_norm": 0.38314470648765564,
      "learning_rate": 0.00029563905771704896,
      "loss": 1.8887,
      "step": 20800
    },
    {
      "epoch": 2.2020861869139186,
      "grad_norm": 0.3841986358165741,
      "learning_rate": 0.000294529967614569,
      "loss": 1.8886,
      "step": 20900
    },
    {
      "epoch": 2.212622484458961,
      "grad_norm": 0.3989698588848114,
      "learning_rate": 0.00029342087751208905,
      "loss": 1.8876,
      "step": 21000
    },
    {
      "epoch": 2.223158782004004,
      "grad_norm": 0.3878525495529175,
      "learning_rate": 0.00029231178740960915,
      "loss": 1.8831,
      "step": 21100
    },
    {
      "epoch": 2.2336950795490464,
      "grad_norm": 0.36871328949928284,
      "learning_rate": 0.0002912026973071292,
      "loss": 1.8869,
      "step": 21200
    },
    {
      "epoch": 2.244231377094089,
      "grad_norm": 0.3922217786312103,
      "learning_rate": 0.00029009360720464936,
      "loss": 1.8867,
      "step": 21300
    },
    {
      "epoch": 2.254767674639132,
      "grad_norm": 0.37641048431396484,
      "learning_rate": 0.0002889845171021694,
      "loss": 1.8813,
      "step": 21400
    },
    {
      "epoch": 2.2653039721841743,
      "grad_norm": 0.3834270238876343,
      "learning_rate": 0.00028787542699968945,
      "loss": 1.8858,
      "step": 21500
    },
    {
      "epoch": 2.2758402697292173,
      "grad_norm": 0.3613283336162567,
      "learning_rate": 0.00028676633689720955,
      "loss": 1.8788,
      "step": 21600
    },
    {
      "epoch": 2.2863765672742598,
      "grad_norm": 0.3932812511920929,
      "learning_rate": 0.0002856572467947296,
      "loss": 1.8841,
      "step": 21700
    },
    {
      "epoch": 2.2969128648193027,
      "grad_norm": 0.380537748336792,
      "learning_rate": 0.0002845481566922497,
      "loss": 1.8867,
      "step": 21800
    },
    {
      "epoch": 2.307449162364345,
      "grad_norm": 0.35902804136276245,
      "learning_rate": 0.00028343906658976974,
      "loss": 1.8925,
      "step": 21900
    },
    {
      "epoch": 2.317985459909388,
      "grad_norm": 0.3631201386451721,
      "learning_rate": 0.0002823299764872898,
      "loss": 1.8779,
      "step": 22000
    },
    {
      "epoch": 2.3285217574544306,
      "grad_norm": 0.3709360361099243,
      "learning_rate": 0.0002812208863848099,
      "loss": 1.877,
      "step": 22100
    },
    {
      "epoch": 2.339058054999473,
      "grad_norm": 0.35048261284828186,
      "learning_rate": 0.00028011179628233,
      "loss": 1.8717,
      "step": 22200
    },
    {
      "epoch": 2.349594352544516,
      "grad_norm": 0.35067349672317505,
      "learning_rate": 0.0002790027061798501,
      "loss": 1.8778,
      "step": 22300
    },
    {
      "epoch": 2.3601306500895585,
      "grad_norm": 0.3626950681209564,
      "learning_rate": 0.00027789361607737014,
      "loss": 1.886,
      "step": 22400
    },
    {
      "epoch": 2.370666947634601,
      "grad_norm": 0.35151103138923645,
      "learning_rate": 0.00027678452597489024,
      "loss": 1.8776,
      "step": 22500
    },
    {
      "epoch": 2.381203245179644,
      "grad_norm": 0.3527145981788635,
      "learning_rate": 0.0002756754358724103,
      "loss": 1.8786,
      "step": 22600
    },
    {
      "epoch": 2.3917395427246864,
      "grad_norm": 0.3571159541606903,
      "learning_rate": 0.00027456634576993033,
      "loss": 1.8704,
      "step": 22700
    },
    {
      "epoch": 2.4022758402697293,
      "grad_norm": 0.35839220881462097,
      "learning_rate": 0.00027345725566745043,
      "loss": 1.8815,
      "step": 22800
    },
    {
      "epoch": 2.4128121378147718,
      "grad_norm": 0.3516599237918854,
      "learning_rate": 0.0002723481655649705,
      "loss": 1.8745,
      "step": 22900
    },
    {
      "epoch": 2.4233484353598147,
      "grad_norm": 0.37703123688697815,
      "learning_rate": 0.0002712390754624906,
      "loss": 1.8717,
      "step": 23000
    },
    {
      "epoch": 2.433884732904857,
      "grad_norm": 0.35914528369903564,
      "learning_rate": 0.00027012998536001063,
      "loss": 1.8751,
      "step": 23100
    },
    {
      "epoch": 2.4444210304498997,
      "grad_norm": 0.379916787147522,
      "learning_rate": 0.00026902089525753073,
      "loss": 1.8694,
      "step": 23200
    },
    {
      "epoch": 2.4549573279949426,
      "grad_norm": 0.38764089345932007,
      "learning_rate": 0.00026791180515505083,
      "loss": 1.8762,
      "step": 23300
    },
    {
      "epoch": 2.465493625539985,
      "grad_norm": 0.3425200879573822,
      "learning_rate": 0.0002668027150525709,
      "loss": 1.8765,
      "step": 23400
    },
    {
      "epoch": 2.476029923085028,
      "grad_norm": 0.37601912021636963,
      "learning_rate": 0.000265693624950091,
      "loss": 1.8751,
      "step": 23500
    },
    {
      "epoch": 2.4865662206300705,
      "grad_norm": 0.3854159414768219,
      "learning_rate": 0.000264584534847611,
      "loss": 1.8746,
      "step": 23600
    },
    {
      "epoch": 2.4971025181751134,
      "grad_norm": 0.402798593044281,
      "learning_rate": 0.00026347544474513107,
      "loss": 1.8758,
      "step": 23700
    },
    {
      "epoch": 2.507638815720156,
      "grad_norm": 0.3488067388534546,
      "learning_rate": 0.00026236635464265117,
      "loss": 1.8823,
      "step": 23800
    },
    {
      "epoch": 2.5181751132651984,
      "grad_norm": 0.38071927428245544,
      "learning_rate": 0.0002612572645401712,
      "loss": 1.8746,
      "step": 23900
    },
    {
      "epoch": 2.5287114108102413,
      "grad_norm": 0.3481471538543701,
      "learning_rate": 0.0002601481744376913,
      "loss": 1.8787,
      "step": 24000
    },
    {
      "epoch": 2.539247708355284,
      "grad_norm": 0.34442374110221863,
      "learning_rate": 0.0002590390843352114,
      "loss": 1.88,
      "step": 24100
    },
    {
      "epoch": 2.5497840059003267,
      "grad_norm": 0.34286609292030334,
      "learning_rate": 0.00025792999423273147,
      "loss": 1.8711,
      "step": 24200
    },
    {
      "epoch": 2.560320303445369,
      "grad_norm": 0.3455844819545746,
      "learning_rate": 0.00025682090413025157,
      "loss": 1.8692,
      "step": 24300
    },
    {
      "epoch": 2.570856600990412,
      "grad_norm": 0.3363890051841736,
      "learning_rate": 0.0002557118140277716,
      "loss": 1.8723,
      "step": 24400
    },
    {
      "epoch": 2.5813928985354546,
      "grad_norm": 0.3758355677127838,
      "learning_rate": 0.0002546027239252917,
      "loss": 1.8786,
      "step": 24500
    },
    {
      "epoch": 2.591929196080497,
      "grad_norm": 0.3661966621875763,
      "learning_rate": 0.00025349363382281176,
      "loss": 1.8742,
      "step": 24600
    },
    {
      "epoch": 2.60246549362554,
      "grad_norm": 0.3269520103931427,
      "learning_rate": 0.00025238454372033186,
      "loss": 1.8765,
      "step": 24700
    },
    {
      "epoch": 2.6130017911705825,
      "grad_norm": 0.37588828802108765,
      "learning_rate": 0.0002512754536178519,
      "loss": 1.8755,
      "step": 24800
    },
    {
      "epoch": 2.6235380887156254,
      "grad_norm": 0.34371519088745117,
      "learning_rate": 0.00025016636351537195,
      "loss": 1.8689,
      "step": 24900
    },
    {
      "epoch": 2.634074386260668,
      "grad_norm": 0.3703347444534302,
      "learning_rate": 0.00024905727341289206,
      "loss": 1.869,
      "step": 25000
    },
    {
      "epoch": 2.644610683805711,
      "grad_norm": 0.3689127266407013,
      "learning_rate": 0.00024794818331041216,
      "loss": 1.8681,
      "step": 25100
    },
    {
      "epoch": 2.6551469813507533,
      "grad_norm": 0.3827933371067047,
      "learning_rate": 0.0002468390932079322,
      "loss": 1.8693,
      "step": 25200
    },
    {
      "epoch": 2.665683278895796,
      "grad_norm": 0.3681269586086273,
      "learning_rate": 0.0002457300031054523,
      "loss": 1.8668,
      "step": 25300
    },
    {
      "epoch": 2.6762195764408387,
      "grad_norm": 0.3521827757358551,
      "learning_rate": 0.00024462091300297235,
      "loss": 1.872,
      "step": 25400
    },
    {
      "epoch": 2.6867558739858812,
      "grad_norm": 0.35968610644340515,
      "learning_rate": 0.00024351182290049245,
      "loss": 1.868,
      "step": 25500
    },
    {
      "epoch": 2.697292171530924,
      "grad_norm": 0.34900325536727905,
      "learning_rate": 0.0002424027327980125,
      "loss": 1.8639,
      "step": 25600
    },
    {
      "epoch": 2.7078284690759666,
      "grad_norm": 0.36115318536758423,
      "learning_rate": 0.00024129364269553257,
      "loss": 1.8666,
      "step": 25700
    },
    {
      "epoch": 2.7183647666210096,
      "grad_norm": 0.3598721921443939,
      "learning_rate": 0.00024018455259305267,
      "loss": 1.8588,
      "step": 25800
    },
    {
      "epoch": 2.728901064166052,
      "grad_norm": 0.3527396619319916,
      "learning_rate": 0.00023907546249057275,
      "loss": 1.8626,
      "step": 25900
    },
    {
      "epoch": 2.7394373617110945,
      "grad_norm": 0.3464626967906952,
      "learning_rate": 0.00023796637238809282,
      "loss": 1.8724,
      "step": 26000
    },
    {
      "epoch": 2.7499736592561375,
      "grad_norm": 0.36689963936805725,
      "learning_rate": 0.0002368572822856129,
      "loss": 1.8658,
      "step": 26100
    },
    {
      "epoch": 2.76050995680118,
      "grad_norm": 0.3785768151283264,
      "learning_rate": 0.00023574819218313297,
      "loss": 1.8642,
      "step": 26200
    },
    {
      "epoch": 2.771046254346223,
      "grad_norm": 0.3481883704662323,
      "learning_rate": 0.00023463910208065304,
      "loss": 1.8561,
      "step": 26300
    },
    {
      "epoch": 2.7815825518912654,
      "grad_norm": 0.36630862951278687,
      "learning_rate": 0.00023353001197817311,
      "loss": 1.862,
      "step": 26400
    },
    {
      "epoch": 2.7921188494363083,
      "grad_norm": 0.35414576530456543,
      "learning_rate": 0.0002324209218756932,
      "loss": 1.8676,
      "step": 26500
    },
    {
      "epoch": 2.8026551469813508,
      "grad_norm": 0.3922441601753235,
      "learning_rate": 0.00023131183177321326,
      "loss": 1.8709,
      "step": 26600
    },
    {
      "epoch": 2.8131914445263932,
      "grad_norm": 0.34433358907699585,
      "learning_rate": 0.00023020274167073334,
      "loss": 1.8676,
      "step": 26700
    },
    {
      "epoch": 2.823727742071436,
      "grad_norm": 0.32512736320495605,
      "learning_rate": 0.0002290936515682534,
      "loss": 1.8694,
      "step": 26800
    },
    {
      "epoch": 2.8342640396164787,
      "grad_norm": 0.3611021041870117,
      "learning_rate": 0.00022798456146577348,
      "loss": 1.8686,
      "step": 26900
    },
    {
      "epoch": 2.8448003371615216,
      "grad_norm": 0.34630611538887024,
      "learning_rate": 0.00022687547136329356,
      "loss": 1.8628,
      "step": 27000
    },
    {
      "epoch": 2.855336634706564,
      "grad_norm": 0.34372755885124207,
      "learning_rate": 0.00022576638126081363,
      "loss": 1.8613,
      "step": 27100
    },
    {
      "epoch": 2.865872932251607,
      "grad_norm": 0.3749391436576843,
      "learning_rate": 0.00022465729115833373,
      "loss": 1.8725,
      "step": 27200
    },
    {
      "epoch": 2.8764092297966495,
      "grad_norm": 0.3814404606819153,
      "learning_rate": 0.00022354820105585378,
      "loss": 1.8627,
      "step": 27300
    },
    {
      "epoch": 2.886945527341692,
      "grad_norm": 0.35840287804603577,
      "learning_rate": 0.00022243911095337385,
      "loss": 1.8606,
      "step": 27400
    },
    {
      "epoch": 2.897481824886735,
      "grad_norm": 0.3533620834350586,
      "learning_rate": 0.00022133002085089392,
      "loss": 1.8665,
      "step": 27500
    },
    {
      "epoch": 2.9080181224317774,
      "grad_norm": 0.3550478518009186,
      "learning_rate": 0.000220220930748414,
      "loss": 1.8587,
      "step": 27600
    },
    {
      "epoch": 2.9185544199768203,
      "grad_norm": 0.3665110468864441,
      "learning_rate": 0.0002191118406459341,
      "loss": 1.8655,
      "step": 27700
    },
    {
      "epoch": 2.929090717521863,
      "grad_norm": 0.3647795021533966,
      "learning_rate": 0.00021800275054345415,
      "loss": 1.8555,
      "step": 27800
    },
    {
      "epoch": 2.9396270150669057,
      "grad_norm": 0.34207072854042053,
      "learning_rate": 0.00021689366044097422,
      "loss": 1.8601,
      "step": 27900
    },
    {
      "epoch": 2.950163312611948,
      "grad_norm": 0.3422704339027405,
      "learning_rate": 0.0002157845703384943,
      "loss": 1.8553,
      "step": 28000
    },
    {
      "epoch": 2.9606996101569907,
      "grad_norm": 0.3600524961948395,
      "learning_rate": 0.0002146754802360144,
      "loss": 1.8597,
      "step": 28100
    },
    {
      "epoch": 2.9712359077020336,
      "grad_norm": 0.35774359107017517,
      "learning_rate": 0.00021356639013353447,
      "loss": 1.86,
      "step": 28200
    },
    {
      "epoch": 2.981772205247076,
      "grad_norm": 0.3582908511161804,
      "learning_rate": 0.00021245730003105454,
      "loss": 1.8591,
      "step": 28300
    },
    {
      "epoch": 2.9923085027921186,
      "grad_norm": 0.36876824498176575,
      "learning_rate": 0.0002113482099285746,
      "loss": 1.8655,
      "step": 28400
    },
    {
      "epoch": 3.0028448003371615,
      "grad_norm": 0.3600168526172638,
      "learning_rate": 0.00021023911982609466,
      "loss": 1.8473,
      "step": 28500
    },
    {
      "epoch": 3.013381097882204,
      "grad_norm": 0.33718979358673096,
      "learning_rate": 0.00020913002972361476,
      "loss": 1.8256,
      "step": 28600
    },
    {
      "epoch": 3.023917395427247,
      "grad_norm": 0.3321118950843811,
      "learning_rate": 0.00020802093962113484,
      "loss": 1.8251,
      "step": 28700
    },
    {
      "epoch": 3.0344536929722894,
      "grad_norm": 0.34264570474624634,
      "learning_rate": 0.0002069118495186549,
      "loss": 1.831,
      "step": 28800
    },
    {
      "epoch": 3.0449899905173323,
      "grad_norm": 0.3522898852825165,
      "learning_rate": 0.00020580275941617496,
      "loss": 1.8249,
      "step": 28900
    },
    {
      "epoch": 3.055526288062375,
      "grad_norm": 0.38659289479255676,
      "learning_rate": 0.00020469366931369503,
      "loss": 1.829,
      "step": 29000
    },
    {
      "epoch": 3.0660625856074177,
      "grad_norm": 0.3475963771343231,
      "learning_rate": 0.00020358457921121513,
      "loss": 1.8287,
      "step": 29100
    },
    {
      "epoch": 3.07659888315246,
      "grad_norm": 0.37323230504989624,
      "learning_rate": 0.0002024754891087352,
      "loss": 1.827,
      "step": 29200
    },
    {
      "epoch": 3.0871351806975027,
      "grad_norm": 0.3953257203102112,
      "learning_rate": 0.00020136639900625528,
      "loss": 1.8303,
      "step": 29300
    },
    {
      "epoch": 3.0976714782425456,
      "grad_norm": 0.34784358739852905,
      "learning_rate": 0.00020025730890377535,
      "loss": 1.8225,
      "step": 29400
    },
    {
      "epoch": 3.108207775787588,
      "grad_norm": 0.3565751314163208,
      "learning_rate": 0.0001991482188012954,
      "loss": 1.8292,
      "step": 29500
    },
    {
      "epoch": 3.118744073332631,
      "grad_norm": 0.368730753660202,
      "learning_rate": 0.0001980391286988155,
      "loss": 1.8357,
      "step": 29600
    },
    {
      "epoch": 3.1292803708776735,
      "grad_norm": 0.37354937195777893,
      "learning_rate": 0.00019693003859633557,
      "loss": 1.8276,
      "step": 29700
    },
    {
      "epoch": 3.1398166684227165,
      "grad_norm": 0.3472649157047272,
      "learning_rate": 0.00019582094849385565,
      "loss": 1.8335,
      "step": 29800
    },
    {
      "epoch": 3.150352965967759,
      "grad_norm": 0.35036763548851013,
      "learning_rate": 0.00019471185839137572,
      "loss": 1.8276,
      "step": 29900
    },
    {
      "epoch": 3.1608892635128014,
      "grad_norm": 0.3752099573612213,
      "learning_rate": 0.0001936027682888958,
      "loss": 1.8308,
      "step": 30000
    },
    {
      "epoch": 3.1714255610578443,
      "grad_norm": 0.337298184633255,
      "learning_rate": 0.00019249367818641587,
      "loss": 1.8268,
      "step": 30100
    },
    {
      "epoch": 3.181961858602887,
      "grad_norm": 0.3451649844646454,
      "learning_rate": 0.00019138458808393594,
      "loss": 1.825,
      "step": 30200
    },
    {
      "epoch": 3.1924981561479298,
      "grad_norm": 0.36679157614707947,
      "learning_rate": 0.00019027549798145602,
      "loss": 1.8389,
      "step": 30300
    },
    {
      "epoch": 3.2030344536929722,
      "grad_norm": 0.34255459904670715,
      "learning_rate": 0.0001891664078789761,
      "loss": 1.8321,
      "step": 30400
    },
    {
      "epoch": 3.213570751238015,
      "grad_norm": 0.36408087611198425,
      "learning_rate": 0.0001880573177764962,
      "loss": 1.8324,
      "step": 30500
    },
    {
      "epoch": 3.2241070487830576,
      "grad_norm": 0.32933005690574646,
      "learning_rate": 0.00018694822767401624,
      "loss": 1.8256,
      "step": 30600
    },
    {
      "epoch": 3.2346433463281,
      "grad_norm": 0.37449416518211365,
      "learning_rate": 0.0001858391375715363,
      "loss": 1.8332,
      "step": 30700
    },
    {
      "epoch": 3.245179643873143,
      "grad_norm": 0.32968634366989136,
      "learning_rate": 0.00018473004746905638,
      "loss": 1.8247,
      "step": 30800
    },
    {
      "epoch": 3.2557159414181855,
      "grad_norm": 0.3492085635662079,
      "learning_rate": 0.00018362095736657646,
      "loss": 1.8339,
      "step": 30900
    },
    {
      "epoch": 3.2662522389632285,
      "grad_norm": 0.37141090631484985,
      "learning_rate": 0.00018251186726409656,
      "loss": 1.8332,
      "step": 31000
    },
    {
      "epoch": 3.276788536508271,
      "grad_norm": 0.3904590308666229,
      "learning_rate": 0.0001814027771616166,
      "loss": 1.827,
      "step": 31100
    },
    {
      "epoch": 3.2873248340533134,
      "grad_norm": 0.3764263987541199,
      "learning_rate": 0.00018029368705913668,
      "loss": 1.827,
      "step": 31200
    },
    {
      "epoch": 3.2978611315983564,
      "grad_norm": 0.36718282103538513,
      "learning_rate": 0.00017918459695665675,
      "loss": 1.828,
      "step": 31300
    },
    {
      "epoch": 3.308397429143399,
      "grad_norm": 0.33118733763694763,
      "learning_rate": 0.00017807550685417683,
      "loss": 1.8304,
      "step": 31400
    },
    {
      "epoch": 3.3189337266884418,
      "grad_norm": 0.3702305853366852,
      "learning_rate": 0.00017696641675169693,
      "loss": 1.8313,
      "step": 31500
    },
    {
      "epoch": 3.3294700242334843,
      "grad_norm": 0.3547195792198181,
      "learning_rate": 0.000175857326649217,
      "loss": 1.8306,
      "step": 31600
    },
    {
      "epoch": 3.340006321778527,
      "grad_norm": 0.3350249230861664,
      "learning_rate": 0.00017474823654673705,
      "loss": 1.8327,
      "step": 31700
    },
    {
      "epoch": 3.3505426193235697,
      "grad_norm": 0.34737563133239746,
      "learning_rate": 0.00017363914644425712,
      "loss": 1.8256,
      "step": 31800
    },
    {
      "epoch": 3.361078916868612,
      "grad_norm": 0.3753857910633087,
      "learning_rate": 0.00017253005634177722,
      "loss": 1.8304,
      "step": 31900
    },
    {
      "epoch": 3.371615214413655,
      "grad_norm": 0.34666532278060913,
      "learning_rate": 0.0001714209662392973,
      "loss": 1.835,
      "step": 32000
    },
    {
      "epoch": 3.3821515119586976,
      "grad_norm": 0.3317427933216095,
      "learning_rate": 0.00017031187613681737,
      "loss": 1.8231,
      "step": 32100
    },
    {
      "epoch": 3.3926878095037405,
      "grad_norm": 0.33654922246932983,
      "learning_rate": 0.00016920278603433742,
      "loss": 1.8272,
      "step": 32200
    },
    {
      "epoch": 3.403224107048783,
      "grad_norm": 0.35222548246383667,
      "learning_rate": 0.0001680936959318575,
      "loss": 1.8254,
      "step": 32300
    },
    {
      "epoch": 3.413760404593826,
      "grad_norm": 0.3511573374271393,
      "learning_rate": 0.0001669846058293776,
      "loss": 1.8297,
      "step": 32400
    },
    {
      "epoch": 3.4242967021388684,
      "grad_norm": 0.35278716683387756,
      "learning_rate": 0.00016587551572689766,
      "loss": 1.8269,
      "step": 32500
    },
    {
      "epoch": 3.434832999683911,
      "grad_norm": 0.3196614682674408,
      "learning_rate": 0.00016476642562441774,
      "loss": 1.8183,
      "step": 32600
    },
    {
      "epoch": 3.445369297228954,
      "grad_norm": 0.3310936987400055,
      "learning_rate": 0.0001636573355219378,
      "loss": 1.8234,
      "step": 32700
    },
    {
      "epoch": 3.4559055947739963,
      "grad_norm": 0.35424286127090454,
      "learning_rate": 0.00016254824541945786,
      "loss": 1.8306,
      "step": 32800
    },
    {
      "epoch": 3.466441892319039,
      "grad_norm": 0.3745037913322449,
      "learning_rate": 0.00016143915531697796,
      "loss": 1.8313,
      "step": 32900
    },
    {
      "epoch": 3.4769781898640817,
      "grad_norm": 0.3382411599159241,
      "learning_rate": 0.00016033006521449803,
      "loss": 1.8225,
      "step": 33000
    },
    {
      "epoch": 3.4875144874091246,
      "grad_norm": 0.33086690306663513,
      "learning_rate": 0.0001592209751120181,
      "loss": 1.8208,
      "step": 33100
    },
    {
      "epoch": 3.498050784954167,
      "grad_norm": 0.3586762249469757,
      "learning_rate": 0.00015811188500953818,
      "loss": 1.8255,
      "step": 33200
    },
    {
      "epoch": 3.5085870824992096,
      "grad_norm": 0.3511541187763214,
      "learning_rate": 0.00015700279490705825,
      "loss": 1.8259,
      "step": 33300
    },
    {
      "epoch": 3.5191233800442525,
      "grad_norm": 0.3497931659221649,
      "learning_rate": 0.00015589370480457833,
      "loss": 1.8226,
      "step": 33400
    },
    {
      "epoch": 3.529659677589295,
      "grad_norm": 0.35156911611557007,
      "learning_rate": 0.0001547846147020984,
      "loss": 1.8231,
      "step": 33500
    },
    {
      "epoch": 3.540195975134338,
      "grad_norm": 0.34975793957710266,
      "learning_rate": 0.00015367552459961847,
      "loss": 1.824,
      "step": 33600
    },
    {
      "epoch": 3.5507322726793804,
      "grad_norm": 0.3560537099838257,
      "learning_rate": 0.00015256643449713855,
      "loss": 1.8284,
      "step": 33700
    },
    {
      "epoch": 3.5612685702244233,
      "grad_norm": 0.37322962284088135,
      "learning_rate": 0.00015145734439465865,
      "loss": 1.8229,
      "step": 33800
    },
    {
      "epoch": 3.571804867769466,
      "grad_norm": 0.3404606878757477,
      "learning_rate": 0.0001503482542921787,
      "loss": 1.8295,
      "step": 33900
    },
    {
      "epoch": 3.5823411653145083,
      "grad_norm": 0.3346281349658966,
      "learning_rate": 0.00014923916418969877,
      "loss": 1.8221,
      "step": 34000
    },
    {
      "epoch": 3.5928774628595512,
      "grad_norm": 0.3319614827632904,
      "learning_rate": 0.00014813007408721884,
      "loss": 1.8225,
      "step": 34100
    },
    {
      "epoch": 3.6034137604045937,
      "grad_norm": 0.3317611515522003,
      "learning_rate": 0.00014702098398473892,
      "loss": 1.8175,
      "step": 34200
    },
    {
      "epoch": 3.6139500579496366,
      "grad_norm": 0.3446439206600189,
      "learning_rate": 0.00014591189388225902,
      "loss": 1.8283,
      "step": 34300
    },
    {
      "epoch": 3.624486355494679,
      "grad_norm": 0.32466185092926025,
      "learning_rate": 0.0001448028037797791,
      "loss": 1.8201,
      "step": 34400
    },
    {
      "epoch": 3.635022653039722,
      "grad_norm": 0.3251676559448242,
      "learning_rate": 0.00014369371367729914,
      "loss": 1.8269,
      "step": 34500
    },
    {
      "epoch": 3.6455589505847645,
      "grad_norm": 0.3591017723083496,
      "learning_rate": 0.0001425846235748192,
      "loss": 1.8202,
      "step": 34600
    },
    {
      "epoch": 3.656095248129807,
      "grad_norm": 0.34030893445014954,
      "learning_rate": 0.00014147553347233928,
      "loss": 1.8185,
      "step": 34700
    },
    {
      "epoch": 3.66663154567485,
      "grad_norm": 0.35147637128829956,
      "learning_rate": 0.00014036644336985939,
      "loss": 1.8252,
      "step": 34800
    },
    {
      "epoch": 3.6771678432198924,
      "grad_norm": 0.3547748327255249,
      "learning_rate": 0.00013925735326737946,
      "loss": 1.8142,
      "step": 34900
    },
    {
      "epoch": 3.6877041407649354,
      "grad_norm": 0.3361000716686249,
      "learning_rate": 0.0001381482631648995,
      "loss": 1.8235,
      "step": 35000
    },
    {
      "epoch": 3.698240438309978,
      "grad_norm": 0.3312234580516815,
      "learning_rate": 0.00013703917306241958,
      "loss": 1.8267,
      "step": 35100
    },
    {
      "epoch": 3.7087767358550208,
      "grad_norm": 0.36078423261642456,
      "learning_rate": 0.00013593008295993965,
      "loss": 1.8192,
      "step": 35200
    },
    {
      "epoch": 3.7193130334000633,
      "grad_norm": 0.32330262660980225,
      "learning_rate": 0.00013482099285745975,
      "loss": 1.8228,
      "step": 35300
    },
    {
      "epoch": 3.7298493309451057,
      "grad_norm": 0.34211012721061707,
      "learning_rate": 0.00013371190275497983,
      "loss": 1.8207,
      "step": 35400
    },
    {
      "epoch": 3.7403856284901487,
      "grad_norm": 0.34478235244750977,
      "learning_rate": 0.0001326028126524999,
      "loss": 1.8221,
      "step": 35500
    },
    {
      "epoch": 3.750921926035191,
      "grad_norm": 0.3438977301120758,
      "learning_rate": 0.00013149372255001995,
      "loss": 1.8214,
      "step": 35600
    },
    {
      "epoch": 3.7614582235802336,
      "grad_norm": 0.3275744616985321,
      "learning_rate": 0.00013038463244754005,
      "loss": 1.8153,
      "step": 35700
    },
    {
      "epoch": 3.7719945211252766,
      "grad_norm": 0.35410231351852417,
      "learning_rate": 0.00012927554234506012,
      "loss": 1.8144,
      "step": 35800
    },
    {
      "epoch": 3.7825308186703195,
      "grad_norm": 0.3045212924480438,
      "learning_rate": 0.0001281664522425802,
      "loss": 1.8162,
      "step": 35900
    },
    {
      "epoch": 3.793067116215362,
      "grad_norm": 0.32530274987220764,
      "learning_rate": 0.00012705736214010027,
      "loss": 1.8212,
      "step": 36000
    },
    {
      "epoch": 3.8036034137604045,
      "grad_norm": 0.35284802317619324,
      "learning_rate": 0.00012594827203762032,
      "loss": 1.8217,
      "step": 36100
    },
    {
      "epoch": 3.8141397113054474,
      "grad_norm": 0.35002532601356506,
      "learning_rate": 0.00012483918193514042,
      "loss": 1.8179,
      "step": 36200
    },
    {
      "epoch": 3.82467600885049,
      "grad_norm": 0.33642175793647766,
      "learning_rate": 0.0001237300918326605,
      "loss": 1.8136,
      "step": 36300
    },
    {
      "epoch": 3.8352123063955323,
      "grad_norm": 0.3203926086425781,
      "learning_rate": 0.00012262100173018056,
      "loss": 1.8189,
      "step": 36400
    },
    {
      "epoch": 3.8457486039405753,
      "grad_norm": 0.3277607560157776,
      "learning_rate": 0.00012151191162770062,
      "loss": 1.813,
      "step": 36500
    },
    {
      "epoch": 3.856284901485618,
      "grad_norm": 0.3415702283382416,
      "learning_rate": 0.00012040282152522071,
      "loss": 1.8157,
      "step": 36600
    },
    {
      "epoch": 3.8668211990306607,
      "grad_norm": 0.33326780796051025,
      "learning_rate": 0.00011929373142274079,
      "loss": 1.8144,
      "step": 36700
    },
    {
      "epoch": 3.877357496575703,
      "grad_norm": 0.3394588530063629,
      "learning_rate": 0.00011818464132026086,
      "loss": 1.8069,
      "step": 36800
    },
    {
      "epoch": 3.887893794120746,
      "grad_norm": 0.38374754786491394,
      "learning_rate": 0.00011707555121778093,
      "loss": 1.8076,
      "step": 36900
    },
    {
      "epoch": 3.8984300916657886,
      "grad_norm": 0.34460264444351196,
      "learning_rate": 0.00011596646111530102,
      "loss": 1.8129,
      "step": 37000
    },
    {
      "epoch": 3.908966389210831,
      "grad_norm": 0.3361436724662781,
      "learning_rate": 0.00011485737101282108,
      "loss": 1.8105,
      "step": 37100
    },
    {
      "epoch": 3.919502686755874,
      "grad_norm": 0.35143253207206726,
      "learning_rate": 0.00011374828091034115,
      "loss": 1.8184,
      "step": 37200
    },
    {
      "epoch": 3.930038984300917,
      "grad_norm": 0.34239351749420166,
      "learning_rate": 0.00011263919080786124,
      "loss": 1.8061,
      "step": 37300
    },
    {
      "epoch": 3.9405752818459594,
      "grad_norm": 0.3523593246936798,
      "learning_rate": 0.0001115301007053813,
      "loss": 1.8092,
      "step": 37400
    },
    {
      "epoch": 3.951111579391002,
      "grad_norm": 0.36350205540657043,
      "learning_rate": 0.00011042101060290139,
      "loss": 1.8094,
      "step": 37500
    },
    {
      "epoch": 3.961647876936045,
      "grad_norm": 0.3419075906276703,
      "learning_rate": 0.00010931192050042146,
      "loss": 1.8077,
      "step": 37600
    },
    {
      "epoch": 3.9721841744810873,
      "grad_norm": 0.3350605070590973,
      "learning_rate": 0.00010820283039794154,
      "loss": 1.8115,
      "step": 37700
    },
    {
      "epoch": 3.9827204720261298,
      "grad_norm": 0.33970579504966736,
      "learning_rate": 0.00010709374029546161,
      "loss": 1.8171,
      "step": 37800
    },
    {
      "epoch": 3.9932567695711727,
      "grad_norm": 0.36339592933654785,
      "learning_rate": 0.00010598465019298167,
      "loss": 1.8073,
      "step": 37900
    },
    {
      "epoch": 4.003793067116216,
      "grad_norm": 0.33541393280029297,
      "learning_rate": 0.00010487556009050176,
      "loss": 1.7981,
      "step": 38000
    },
    {
      "epoch": 4.014329364661258,
      "grad_norm": 0.36207860708236694,
      "learning_rate": 0.00010376646998802183,
      "loss": 1.7909,
      "step": 38100
    },
    {
      "epoch": 4.024865662206301,
      "grad_norm": 0.34258803725242615,
      "learning_rate": 0.0001026573798855419,
      "loss": 1.7793,
      "step": 38200
    },
    {
      "epoch": 4.0354019597513435,
      "grad_norm": 0.34286418557167053,
      "learning_rate": 0.00010154828978306198,
      "loss": 1.7894,
      "step": 38300
    },
    {
      "epoch": 4.0459382572963865,
      "grad_norm": 0.3334041237831116,
      "learning_rate": 0.00010043919968058205,
      "loss": 1.7841,
      "step": 38400
    },
    {
      "epoch": 4.0564745548414285,
      "grad_norm": 0.3277220129966736,
      "learning_rate": 9.933010957810213e-05,
      "loss": 1.7851,
      "step": 38500
    },
    {
      "epoch": 4.067010852386471,
      "grad_norm": 0.3734584450721741,
      "learning_rate": 9.82210194756222e-05,
      "loss": 1.7889,
      "step": 38600
    },
    {
      "epoch": 4.077547149931514,
      "grad_norm": 0.3457617461681366,
      "learning_rate": 9.711192937314229e-05,
      "loss": 1.792,
      "step": 38700
    },
    {
      "epoch": 4.088083447476556,
      "grad_norm": 0.35224205255508423,
      "learning_rate": 9.600283927066235e-05,
      "loss": 1.7906,
      "step": 38800
    },
    {
      "epoch": 4.098619745021599,
      "grad_norm": 0.3286111652851105,
      "learning_rate": 9.489374916818243e-05,
      "loss": 1.7812,
      "step": 38900
    },
    {
      "epoch": 4.109156042566642,
      "grad_norm": 0.32292017340660095,
      "learning_rate": 9.37846590657025e-05,
      "loss": 1.7875,
      "step": 39000
    },
    {
      "epoch": 4.119692340111685,
      "grad_norm": 0.33784738183021545,
      "learning_rate": 9.267556896322257e-05,
      "loss": 1.785,
      "step": 39100
    },
    {
      "epoch": 4.130228637656727,
      "grad_norm": 0.33517780900001526,
      "learning_rate": 9.156647886074265e-05,
      "loss": 1.7926,
      "step": 39200
    },
    {
      "epoch": 4.14076493520177,
      "grad_norm": 0.340833842754364,
      "learning_rate": 9.045738875826271e-05,
      "loss": 1.7875,
      "step": 39300
    },
    {
      "epoch": 4.151301232746813,
      "grad_norm": 0.3653368353843689,
      "learning_rate": 8.93482986557828e-05,
      "loss": 1.7843,
      "step": 39400
    },
    {
      "epoch": 4.161837530291855,
      "grad_norm": 0.3394693434238434,
      "learning_rate": 8.823920855330288e-05,
      "loss": 1.7804,
      "step": 39500
    },
    {
      "epoch": 4.172373827836898,
      "grad_norm": 0.3323003947734833,
      "learning_rate": 8.713011845082295e-05,
      "loss": 1.7848,
      "step": 39600
    },
    {
      "epoch": 4.182910125381941,
      "grad_norm": 0.35341712832450867,
      "learning_rate": 8.602102834834302e-05,
      "loss": 1.7833,
      "step": 39700
    },
    {
      "epoch": 4.193446422926984,
      "grad_norm": 0.3553250730037689,
      "learning_rate": 8.49119382458631e-05,
      "loss": 1.7844,
      "step": 39800
    },
    {
      "epoch": 4.203982720472026,
      "grad_norm": 0.3491000831127167,
      "learning_rate": 8.380284814338317e-05,
      "loss": 1.783,
      "step": 39900
    },
    {
      "epoch": 4.214519018017069,
      "grad_norm": 0.36473289132118225,
      "learning_rate": 8.269375804090324e-05,
      "loss": 1.7873,
      "step": 40000
    },
    {
      "epoch": 4.225055315562112,
      "grad_norm": 0.3357420563697815,
      "learning_rate": 8.158466793842332e-05,
      "loss": 1.7909,
      "step": 40100
    },
    {
      "epoch": 4.235591613107154,
      "grad_norm": 0.33982038497924805,
      "learning_rate": 8.047557783594339e-05,
      "loss": 1.7877,
      "step": 40200
    },
    {
      "epoch": 4.246127910652197,
      "grad_norm": 0.33362457156181335,
      "learning_rate": 7.936648773346347e-05,
      "loss": 1.7878,
      "step": 40300
    },
    {
      "epoch": 4.25666420819724,
      "grad_norm": 0.33826008439064026,
      "learning_rate": 7.825739763098354e-05,
      "loss": 1.7949,
      "step": 40400
    },
    {
      "epoch": 4.267200505742283,
      "grad_norm": 0.3940160572528839,
      "learning_rate": 7.714830752850361e-05,
      "loss": 1.7886,
      "step": 40500
    },
    {
      "epoch": 4.277736803287325,
      "grad_norm": 0.33485040068626404,
      "learning_rate": 7.60392174260237e-05,
      "loss": 1.7837,
      "step": 40600
    },
    {
      "epoch": 4.288273100832368,
      "grad_norm": 0.3465060591697693,
      "learning_rate": 7.493012732354376e-05,
      "loss": 1.7794,
      "step": 40700
    },
    {
      "epoch": 4.2988093983774105,
      "grad_norm": 0.3455548584461212,
      "learning_rate": 7.382103722106385e-05,
      "loss": 1.7877,
      "step": 40800
    },
    {
      "epoch": 4.3093456959224525,
      "grad_norm": 0.33163055777549744,
      "learning_rate": 7.271194711858392e-05,
      "loss": 1.7861,
      "step": 40900
    },
    {
      "epoch": 4.3198819934674955,
      "grad_norm": 0.34442830085754395,
      "learning_rate": 7.160285701610398e-05,
      "loss": 1.7861,
      "step": 41000
    },
    {
      "epoch": 4.330418291012538,
      "grad_norm": 0.3633157014846802,
      "learning_rate": 7.049376691362407e-05,
      "loss": 1.7842,
      "step": 41100
    },
    {
      "epoch": 4.340954588557581,
      "grad_norm": 0.3231643736362457,
      "learning_rate": 6.938467681114414e-05,
      "loss": 1.7833,
      "step": 41200
    },
    {
      "epoch": 4.351490886102623,
      "grad_norm": 0.36037677526474,
      "learning_rate": 6.827558670866422e-05,
      "loss": 1.7836,
      "step": 41300
    },
    {
      "epoch": 4.362027183647666,
      "grad_norm": 0.3292723000049591,
      "learning_rate": 6.716649660618429e-05,
      "loss": 1.7806,
      "step": 41400
    },
    {
      "epoch": 4.372563481192709,
      "grad_norm": 0.37054258584976196,
      "learning_rate": 6.605740650370436e-05,
      "loss": 1.79,
      "step": 41500
    },
    {
      "epoch": 4.383099778737751,
      "grad_norm": 0.3358231782913208,
      "learning_rate": 6.494831640122444e-05,
      "loss": 1.7882,
      "step": 41600
    },
    {
      "epoch": 4.393636076282794,
      "grad_norm": 0.3368220031261444,
      "learning_rate": 6.383922629874451e-05,
      "loss": 1.7812,
      "step": 41700
    },
    {
      "epoch": 4.404172373827837,
      "grad_norm": 0.34333834052085876,
      "learning_rate": 6.273013619626458e-05,
      "loss": 1.7837,
      "step": 41800
    },
    {
      "epoch": 4.41470867137288,
      "grad_norm": 0.3434154987335205,
      "learning_rate": 6.162104609378466e-05,
      "loss": 1.7858,
      "step": 41900
    },
    {
      "epoch": 4.425244968917922,
      "grad_norm": 0.35153815150260925,
      "learning_rate": 6.051195599130473e-05,
      "loss": 1.7759,
      "step": 42000
    },
    {
      "epoch": 4.435781266462965,
      "grad_norm": 0.3414738178253174,
      "learning_rate": 5.940286588882481e-05,
      "loss": 1.7827,
      "step": 42100
    },
    {
      "epoch": 4.446317564008008,
      "grad_norm": 0.3285759687423706,
      "learning_rate": 5.8293775786344886e-05,
      "loss": 1.7826,
      "step": 42200
    },
    {
      "epoch": 4.45685386155305,
      "grad_norm": 0.35258546471595764,
      "learning_rate": 5.718468568386496e-05,
      "loss": 1.7883,
      "step": 42300
    },
    {
      "epoch": 4.467390159098093,
      "grad_norm": 0.33706724643707275,
      "learning_rate": 5.607559558138503e-05,
      "loss": 1.7786,
      "step": 42400
    },
    {
      "epoch": 4.477926456643136,
      "grad_norm": 0.3357242941856384,
      "learning_rate": 5.496650547890511e-05,
      "loss": 1.7904,
      "step": 42500
    },
    {
      "epoch": 4.488462754188178,
      "grad_norm": 0.3552809953689575,
      "learning_rate": 5.385741537642518e-05,
      "loss": 1.7858,
      "step": 42600
    },
    {
      "epoch": 4.498999051733221,
      "grad_norm": 0.3606029450893402,
      "learning_rate": 5.2748325273945254e-05,
      "loss": 1.7767,
      "step": 42700
    },
    {
      "epoch": 4.509535349278264,
      "grad_norm": 0.3668212592601776,
      "learning_rate": 5.163923517146533e-05,
      "loss": 1.7841,
      "step": 42800
    },
    {
      "epoch": 4.520071646823307,
      "grad_norm": 0.34113767743110657,
      "learning_rate": 5.053014506898541e-05,
      "loss": 1.7777,
      "step": 42900
    },
    {
      "epoch": 4.530607944368349,
      "grad_norm": 0.33344870805740356,
      "learning_rate": 4.942105496650548e-05,
      "loss": 1.7789,
      "step": 43000
    },
    {
      "epoch": 4.541144241913392,
      "grad_norm": 0.34441855549812317,
      "learning_rate": 4.8311964864025556e-05,
      "loss": 1.786,
      "step": 43100
    },
    {
      "epoch": 4.5516805394584345,
      "grad_norm": 0.3361603617668152,
      "learning_rate": 4.720287476154563e-05,
      "loss": 1.7835,
      "step": 43200
    },
    {
      "epoch": 4.5622168370034775,
      "grad_norm": 0.3377070426940918,
      "learning_rate": 4.60937846590657e-05,
      "loss": 1.7842,
      "step": 43300
    },
    {
      "epoch": 4.5727531345485195,
      "grad_norm": 0.3532165288925171,
      "learning_rate": 4.4984694556585777e-05,
      "loss": 1.7848,
      "step": 43400
    },
    {
      "epoch": 4.583289432093562,
      "grad_norm": 0.35418322682380676,
      "learning_rate": 4.387560445410585e-05,
      "loss": 1.7854,
      "step": 43500
    },
    {
      "epoch": 4.593825729638605,
      "grad_norm": 0.33272701501846313,
      "learning_rate": 4.276651435162593e-05,
      "loss": 1.7754,
      "step": 43600
    },
    {
      "epoch": 4.604362027183647,
      "grad_norm": 0.36113685369491577,
      "learning_rate": 4.1657424249146004e-05,
      "loss": 1.7752,
      "step": 43700
    },
    {
      "epoch": 4.61489832472869,
      "grad_norm": 0.34041377902030945,
      "learning_rate": 4.054833414666607e-05,
      "loss": 1.774,
      "step": 43800
    },
    {
      "epoch": 4.625434622273733,
      "grad_norm": 0.3422810435295105,
      "learning_rate": 3.943924404418615e-05,
      "loss": 1.7832,
      "step": 43900
    },
    {
      "epoch": 4.635970919818776,
      "grad_norm": 0.3397616744041443,
      "learning_rate": 3.8330153941706225e-05,
      "loss": 1.78,
      "step": 44000
    },
    {
      "epoch": 4.646507217363818,
      "grad_norm": 0.3389655649662018,
      "learning_rate": 3.72210638392263e-05,
      "loss": 1.7771,
      "step": 44100
    },
    {
      "epoch": 4.657043514908861,
      "grad_norm": 0.3590547442436218,
      "learning_rate": 3.611197373674637e-05,
      "loss": 1.7838,
      "step": 44200
    },
    {
      "epoch": 4.667579812453904,
      "grad_norm": 0.33880913257598877,
      "learning_rate": 3.500288363426645e-05,
      "loss": 1.7708,
      "step": 44300
    },
    {
      "epoch": 4.678116109998946,
      "grad_norm": 0.3376372456550598,
      "learning_rate": 3.389379353178653e-05,
      "loss": 1.7767,
      "step": 44400
    },
    {
      "epoch": 4.688652407543989,
      "grad_norm": 0.3335518538951874,
      "learning_rate": 3.2784703429306594e-05,
      "loss": 1.7784,
      "step": 44500
    },
    {
      "epoch": 4.699188705089032,
      "grad_norm": 0.37929996848106384,
      "learning_rate": 3.167561332682667e-05,
      "loss": 1.7714,
      "step": 44600
    },
    {
      "epoch": 4.709725002634074,
      "grad_norm": 0.3256159722805023,
      "learning_rate": 3.056652322434675e-05,
      "loss": 1.7824,
      "step": 44700
    },
    {
      "epoch": 4.720261300179117,
      "grad_norm": 0.34018459916114807,
      "learning_rate": 2.9457433121866822e-05,
      "loss": 1.7821,
      "step": 44800
    },
    {
      "epoch": 4.73079759772416,
      "grad_norm": 0.3662751317024231,
      "learning_rate": 2.8348343019386895e-05,
      "loss": 1.7799,
      "step": 44900
    },
    {
      "epoch": 4.741333895269202,
      "grad_norm": 0.32580700516700745,
      "learning_rate": 2.723925291690697e-05,
      "loss": 1.7801,
      "step": 45000
    },
    {
      "epoch": 4.751870192814245,
      "grad_norm": 0.3326426148414612,
      "learning_rate": 2.6130162814427046e-05,
      "loss": 1.7824,
      "step": 45100
    },
    {
      "epoch": 4.762406490359288,
      "grad_norm": 0.3480491042137146,
      "learning_rate": 2.502107271194712e-05,
      "loss": 1.7738,
      "step": 45200
    },
    {
      "epoch": 4.772942787904331,
      "grad_norm": 0.3338908553123474,
      "learning_rate": 2.3911982609467194e-05,
      "loss": 1.7809,
      "step": 45300
    },
    {
      "epoch": 4.783479085449373,
      "grad_norm": 0.35016825795173645,
      "learning_rate": 2.2802892506987267e-05,
      "loss": 1.7798,
      "step": 45400
    },
    {
      "epoch": 4.794015382994416,
      "grad_norm": 0.35119980573654175,
      "learning_rate": 2.1693802404507344e-05,
      "loss": 1.7772,
      "step": 45500
    },
    {
      "epoch": 4.804551680539459,
      "grad_norm": 0.34869563579559326,
      "learning_rate": 2.0584712302027415e-05,
      "loss": 1.7834,
      "step": 45600
    },
    {
      "epoch": 4.815087978084501,
      "grad_norm": 0.3165900409221649,
      "learning_rate": 1.9475622199547492e-05,
      "loss": 1.7766,
      "step": 45700
    },
    {
      "epoch": 4.8256242756295435,
      "grad_norm": 0.33901646733283997,
      "learning_rate": 1.836653209706757e-05,
      "loss": 1.7781,
      "step": 45800
    },
    {
      "epoch": 4.8361605731745865,
      "grad_norm": 0.34397250413894653,
      "learning_rate": 1.725744199458764e-05,
      "loss": 1.7773,
      "step": 45900
    },
    {
      "epoch": 4.846696870719629,
      "grad_norm": 0.3640625476837158,
      "learning_rate": 1.6148351892107716e-05,
      "loss": 1.7775,
      "step": 46000
    },
    {
      "epoch": 4.857233168264671,
      "grad_norm": 0.3395892381668091,
      "learning_rate": 1.503926178962779e-05,
      "loss": 1.7817,
      "step": 46100
    },
    {
      "epoch": 4.867769465809714,
      "grad_norm": 0.3353815972805023,
      "learning_rate": 1.3930171687147865e-05,
      "loss": 1.7759,
      "step": 46200
    },
    {
      "epoch": 4.878305763354757,
      "grad_norm": 0.34299150109291077,
      "learning_rate": 1.2821081584667939e-05,
      "loss": 1.779,
      "step": 46300
    },
    {
      "epoch": 4.888842060899799,
      "grad_norm": 0.34803491830825806,
      "learning_rate": 1.1711991482188014e-05,
      "loss": 1.7787,
      "step": 46400
    },
    {
      "epoch": 4.899378358444842,
      "grad_norm": 0.3452516198158264,
      "learning_rate": 1.0602901379708088e-05,
      "loss": 1.7822,
      "step": 46500
    },
    {
      "epoch": 4.909914655989885,
      "grad_norm": 0.32334357500076294,
      "learning_rate": 9.493811277228162e-06,
      "loss": 1.7774,
      "step": 46600
    },
    {
      "epoch": 4.920450953534928,
      "grad_norm": 0.34011390805244446,
      "learning_rate": 8.384721174748237e-06,
      "loss": 1.7788,
      "step": 46700
    },
    {
      "epoch": 4.93098725107997,
      "grad_norm": 0.3399524688720703,
      "learning_rate": 7.2756310722683116e-06,
      "loss": 1.778,
      "step": 46800
    },
    {
      "epoch": 4.941523548625013,
      "grad_norm": 0.33615124225616455,
      "learning_rate": 6.166540969788386e-06,
      "loss": 1.7771,
      "step": 46900
    },
    {
      "epoch": 4.952059846170056,
      "grad_norm": 0.3466767966747284,
      "learning_rate": 5.05745086730846e-06,
      "loss": 1.7774,
      "step": 47000
    },
    {
      "epoch": 4.962596143715098,
      "grad_norm": 0.33684036135673523,
      "learning_rate": 3.948360764828534e-06,
      "loss": 1.7735,
      "step": 47100
    },
    {
      "epoch": 4.973132441260141,
      "grad_norm": 0.3275541663169861,
      "learning_rate": 2.8392706623486093e-06,
      "loss": 1.773,
      "step": 47200
    },
    {
      "epoch": 4.983668738805184,
      "grad_norm": 0.3321060240268707,
      "learning_rate": 1.7301805598686838e-06,
      "loss": 1.7764,
      "step": 47300
    },
    {
      "epoch": 4.994205036350227,
      "grad_norm": 0.3356621265411377,
      "learning_rate": 6.210904573887583e-07,
      "loss": 1.7762,
      "step": 47400
    }
  ],
  "logging_steps": 100,
  "max_steps": 47455,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4.0383510041641344e+17,
  "train_batch_size": 128,
  "trial_name": null,
  "trial_params": null
}