{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.995203836930456,
  "eval_steps": 500,
  "global_step": 30000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.019984012789768184,
      "grad_norm": 10.435233116149902,
      "learning_rate": 4.9835131894484415e-05,
      "loss": 14.0782,
      "step": 100
    },
    {
      "epoch": 0.03996802557953637,
      "grad_norm": 19.157014846801758,
      "learning_rate": 4.966859845456968e-05,
      "loss": 3.596,
      "step": 200
    },
    {
      "epoch": 0.05995203836930456,
      "grad_norm": 5.946423530578613,
      "learning_rate": 4.950206501465495e-05,
      "loss": 2.0558,
      "step": 300
    },
    {
      "epoch": 0.07993605115907274,
      "grad_norm": 2.1558027267456055,
      "learning_rate": 4.9335531574740214e-05,
      "loss": 1.3957,
      "step": 400
    },
    {
      "epoch": 0.09992006394884093,
      "grad_norm": 2.5541210174560547,
      "learning_rate": 4.916899813482548e-05,
      "loss": 1.252,
      "step": 500
    },
    {
      "epoch": 0.11990407673860912,
      "grad_norm": 1.8417296409606934,
      "learning_rate": 4.9002464694910735e-05,
      "loss": 1.1695,
      "step": 600
    },
    {
      "epoch": 0.1398880895283773,
      "grad_norm": 1.654639720916748,
      "learning_rate": 4.8835931254996005e-05,
      "loss": 1.1848,
      "step": 700
    },
    {
      "epoch": 0.15987210231814547,
      "grad_norm": 2.093991756439209,
      "learning_rate": 4.866939781508127e-05,
      "loss": 1.1056,
      "step": 800
    },
    {
      "epoch": 0.17985611510791366,
      "grad_norm": 1.9905765056610107,
      "learning_rate": 4.850286437516653e-05,
      "loss": 1.1186,
      "step": 900
    },
    {
      "epoch": 0.19984012789768185,
      "grad_norm": 1.2864068746566772,
      "learning_rate": 4.83363309352518e-05,
      "loss": 1.1394,
      "step": 1000
    },
    {
      "epoch": 0.21982414068745004,
      "grad_norm": 1.5142974853515625,
      "learning_rate": 4.816979749533707e-05,
      "loss": 1.1162,
      "step": 1100
    },
    {
      "epoch": 0.23980815347721823,
      "grad_norm": 0.9597436189651489,
      "learning_rate": 4.800326405542233e-05,
      "loss": 1.0922,
      "step": 1200
    },
    {
      "epoch": 0.2597921662669864,
      "grad_norm": 1.7915301322937012,
      "learning_rate": 4.7836730615507595e-05,
      "loss": 1.0711,
      "step": 1300
    },
    {
      "epoch": 0.2797761790567546,
      "grad_norm": 1.1338952779769897,
      "learning_rate": 4.767019717559286e-05,
      "loss": 0.9945,
      "step": 1400
    },
    {
      "epoch": 0.2997601918465228,
      "grad_norm": 1.3437297344207764,
      "learning_rate": 4.750366373567813e-05,
      "loss": 1.0322,
      "step": 1500
    },
    {
      "epoch": 0.31974420463629094,
      "grad_norm": 1.2949973344802856,
      "learning_rate": 4.733713029576339e-05,
      "loss": 1.0613,
      "step": 1600
    },
    {
      "epoch": 0.33972821742605913,
      "grad_norm": 1.1362179517745972,
      "learning_rate": 4.717059685584866e-05,
      "loss": 1.0122,
      "step": 1700
    },
    {
      "epoch": 0.3597122302158273,
      "grad_norm": 1.1878063678741455,
      "learning_rate": 4.700406341593392e-05,
      "loss": 1.0068,
      "step": 1800
    },
    {
      "epoch": 0.3796962430055955,
      "grad_norm": 1.3588361740112305,
      "learning_rate": 4.6837529976019185e-05,
      "loss": 0.955,
      "step": 1900
    },
    {
      "epoch": 0.3996802557953637,
      "grad_norm": 1.1428577899932861,
      "learning_rate": 4.667099653610445e-05,
      "loss": 0.9863,
      "step": 2000
    },
    {
      "epoch": 0.4196642685851319,
      "grad_norm": 1.6441487073898315,
      "learning_rate": 4.650446309618971e-05,
      "loss": 0.9532,
      "step": 2100
    },
    {
      "epoch": 0.4396482813749001,
      "grad_norm": 2.607586145401001,
      "learning_rate": 4.633792965627498e-05,
      "loss": 0.9877,
      "step": 2200
    },
    {
      "epoch": 0.4596322941646683,
      "grad_norm": 2.24434757232666,
      "learning_rate": 4.617139621636025e-05,
      "loss": 0.9956,
      "step": 2300
    },
    {
      "epoch": 0.47961630695443647,
      "grad_norm": 1.8238356113433838,
      "learning_rate": 4.600486277644551e-05,
      "loss": 0.9769,
      "step": 2400
    },
    {
      "epoch": 0.49960031974420466,
      "grad_norm": 2.0538158416748047,
      "learning_rate": 4.5838329336530775e-05,
      "loss": 0.9458,
      "step": 2500
    },
    {
      "epoch": 0.5195843325339728,
      "grad_norm": 2.1354427337646484,
      "learning_rate": 4.5671795896616045e-05,
      "loss": 0.975,
      "step": 2600
    },
    {
      "epoch": 0.539568345323741,
      "grad_norm": 1.3763636350631714,
      "learning_rate": 4.550526245670131e-05,
      "loss": 0.9464,
      "step": 2700
    },
    {
      "epoch": 0.5595523581135092,
      "grad_norm": 2.6834394931793213,
      "learning_rate": 4.533872901678657e-05,
      "loss": 0.9437,
      "step": 2800
    },
    {
      "epoch": 0.5795363709032774,
      "grad_norm": 1.3325830698013306,
      "learning_rate": 4.517219557687184e-05,
      "loss": 0.9617,
      "step": 2900
    },
    {
      "epoch": 0.5995203836930456,
      "grad_norm": 1.841642141342163,
      "learning_rate": 4.500566213695711e-05,
      "loss": 0.9489,
      "step": 3000
    },
    {
      "epoch": 0.6195043964828137,
      "grad_norm": 1.0305529832839966,
      "learning_rate": 4.483912869704237e-05,
      "loss": 0.9432,
      "step": 3100
    },
    {
      "epoch": 0.6394884092725819,
      "grad_norm": 1.4249075651168823,
      "learning_rate": 4.467259525712763e-05,
      "loss": 0.952,
      "step": 3200
    },
    {
      "epoch": 0.6594724220623501,
      "grad_norm": 1.2994813919067383,
      "learning_rate": 4.45060618172129e-05,
      "loss": 1.0247,
      "step": 3300
    },
    {
      "epoch": 0.6794564348521183,
      "grad_norm": 1.537548303604126,
      "learning_rate": 4.433952837729816e-05,
      "loss": 0.928,
      "step": 3400
    },
    {
      "epoch": 0.6994404476418865,
      "grad_norm": 1.646200180053711,
      "learning_rate": 4.4172994937383427e-05,
      "loss": 0.9817,
      "step": 3500
    },
    {
      "epoch": 0.7194244604316546,
      "grad_norm": 1.2779592275619507,
      "learning_rate": 4.400646149746869e-05,
      "loss": 0.8974,
      "step": 3600
    },
    {
      "epoch": 0.7394084732214229,
      "grad_norm": 1.7886369228363037,
      "learning_rate": 4.383992805755396e-05,
      "loss": 0.9351,
      "step": 3700
    },
    {
      "epoch": 0.759392486011191,
      "grad_norm": 1.5072957277297974,
      "learning_rate": 4.3673394617639225e-05,
      "loss": 0.882,
      "step": 3800
    },
    {
      "epoch": 0.7793764988009593,
      "grad_norm": 2.019421339035034,
      "learning_rate": 4.350686117772449e-05,
      "loss": 0.9324,
      "step": 3900
    },
    {
      "epoch": 0.7993605115907274,
      "grad_norm": 1.7232331037521362,
      "learning_rate": 4.334032773780975e-05,
      "loss": 0.9094,
      "step": 4000
    },
    {
      "epoch": 0.8193445243804957,
      "grad_norm": 1.7297419309616089,
      "learning_rate": 4.317379429789502e-05,
      "loss": 0.9658,
      "step": 4100
    },
    {
      "epoch": 0.8393285371702638,
      "grad_norm": 1.560420274734497,
      "learning_rate": 4.300726085798029e-05,
      "loss": 0.9613,
      "step": 4200
    },
    {
      "epoch": 0.8593125499600319,
      "grad_norm": 1.9014427661895752,
      "learning_rate": 4.284072741806555e-05,
      "loss": 0.9047,
      "step": 4300
    },
    {
      "epoch": 0.8792965627498002,
      "grad_norm": 1.4741132259368896,
      "learning_rate": 4.2674193978150815e-05,
      "loss": 0.7914,
      "step": 4400
    },
    {
      "epoch": 0.8992805755395683,
      "grad_norm": 0.8008555173873901,
      "learning_rate": 4.250766053823608e-05,
      "loss": 0.8678,
      "step": 4500
    },
    {
      "epoch": 0.9192645883293366,
      "grad_norm": 1.5738321542739868,
      "learning_rate": 4.234112709832134e-05,
      "loss": 0.8379,
      "step": 4600
    },
    {
      "epoch": 0.9392486011191047,
      "grad_norm": 1.7838175296783447,
      "learning_rate": 4.2174593658406606e-05,
      "loss": 0.9581,
      "step": 4700
    },
    {
      "epoch": 0.9592326139088729,
      "grad_norm": 1.6761012077331543,
      "learning_rate": 4.200806021849188e-05,
      "loss": 0.8583,
      "step": 4800
    },
    {
      "epoch": 0.9792166266986411,
      "grad_norm": 1.320033073425293,
      "learning_rate": 4.184152677857714e-05,
      "loss": 0.8709,
      "step": 4900
    },
    {
      "epoch": 0.9992006394884093,
      "grad_norm": 2.0931804180145264,
      "learning_rate": 4.1674993338662404e-05,
      "loss": 0.9064,
      "step": 5000
    },
    {
      "epoch": 1.0191846522781776,
      "grad_norm": 1.1682066917419434,
      "learning_rate": 4.150845989874767e-05,
      "loss": 0.8728,
      "step": 5100
    },
    {
      "epoch": 1.0391686650679457,
      "grad_norm": 1.2569072246551514,
      "learning_rate": 4.134192645883294e-05,
      "loss": 0.8921,
      "step": 5200
    },
    {
      "epoch": 1.0591526778577138,
      "grad_norm": 1.4215683937072754,
      "learning_rate": 4.11753930189182e-05,
      "loss": 0.8211,
      "step": 5300
    },
    {
      "epoch": 1.079136690647482,
      "grad_norm": 1.6081187725067139,
      "learning_rate": 4.1008859579003467e-05,
      "loss": 0.9338,
      "step": 5400
    },
    {
      "epoch": 1.09912070343725,
      "grad_norm": 1.4916200637817383,
      "learning_rate": 4.084232613908873e-05,
      "loss": 0.8142,
      "step": 5500
    },
    {
      "epoch": 1.1191047162270185,
      "grad_norm": 1.8639625310897827,
      "learning_rate": 4.0675792699174e-05,
      "loss": 0.8746,
      "step": 5600
    },
    {
      "epoch": 1.1390887290167866,
      "grad_norm": 1.1741764545440674,
      "learning_rate": 4.0509259259259265e-05,
      "loss": 0.8032,
      "step": 5700
    },
    {
      "epoch": 1.1590727418065547,
      "grad_norm": 1.7627875804901123,
      "learning_rate": 4.034272581934453e-05,
      "loss": 0.8681,
      "step": 5800
    },
    {
      "epoch": 1.1790567545963229,
      "grad_norm": 0.7432733178138733,
      "learning_rate": 4.0176192379429786e-05,
      "loss": 0.8968,
      "step": 5900
    },
    {
      "epoch": 1.1990407673860912,
      "grad_norm": 1.5172642469406128,
      "learning_rate": 4.0009658939515056e-05,
      "loss": 0.9653,
      "step": 6000
    },
    {
      "epoch": 1.2190247801758594,
      "grad_norm": 2.0822958946228027,
      "learning_rate": 3.984312549960032e-05,
      "loss": 0.8038,
      "step": 6100
    },
    {
      "epoch": 1.2390087929656275,
      "grad_norm": 2.2852039337158203,
      "learning_rate": 3.9676592059685584e-05,
      "loss": 0.8041,
      "step": 6200
    },
    {
      "epoch": 1.2589928057553956,
      "grad_norm": 1.214968204498291,
      "learning_rate": 3.951005861977085e-05,
      "loss": 0.8382,
      "step": 6300
    },
    {
      "epoch": 1.2789768185451638,
      "grad_norm": 2.792722225189209,
      "learning_rate": 3.934352517985612e-05,
      "loss": 0.8534,
      "step": 6400
    },
    {
      "epoch": 1.2989608313349321,
      "grad_norm": 1.6279624700546265,
      "learning_rate": 3.917699173994138e-05,
      "loss": 0.8387,
      "step": 6500
    },
    {
      "epoch": 1.3189448441247003,
      "grad_norm": 1.57301664352417,
      "learning_rate": 3.9010458300026646e-05,
      "loss": 0.8583,
      "step": 6600
    },
    {
      "epoch": 1.3389288569144684,
      "grad_norm": 1.2693675756454468,
      "learning_rate": 3.884392486011191e-05,
      "loss": 0.7893,
      "step": 6700
    },
    {
      "epoch": 1.3589128697042367,
      "grad_norm": 1.1760280132293701,
      "learning_rate": 3.867739142019718e-05,
      "loss": 0.8204,
      "step": 6800
    },
    {
      "epoch": 1.3788968824940047,
      "grad_norm": 1.8213127851486206,
      "learning_rate": 3.8510857980282444e-05,
      "loss": 0.9061,
      "step": 6900
    },
    {
      "epoch": 1.398880895283773,
      "grad_norm": 1.2589592933654785,
      "learning_rate": 3.834432454036771e-05,
      "loss": 0.856,
      "step": 7000
    },
    {
      "epoch": 1.4188649080735412,
      "grad_norm": 2.5817718505859375,
      "learning_rate": 3.817779110045297e-05,
      "loss": 0.8542,
      "step": 7100
    },
    {
      "epoch": 1.4388489208633093,
      "grad_norm": 1.1825404167175293,
      "learning_rate": 3.8011257660538236e-05,
      "loss": 0.8298,
      "step": 7200
    },
    {
      "epoch": 1.4588329336530776,
      "grad_norm": 1.6443575620651245,
      "learning_rate": 3.78447242206235e-05,
      "loss": 0.823,
      "step": 7300
    },
    {
      "epoch": 1.4788169464428458,
      "grad_norm": 1.9887899160385132,
      "learning_rate": 3.7678190780708764e-05,
      "loss": 0.7936,
      "step": 7400
    },
    {
      "epoch": 1.498800959232614,
      "grad_norm": 1.8799304962158203,
      "learning_rate": 3.7511657340794034e-05,
      "loss": 0.8755,
      "step": 7500
    },
    {
      "epoch": 1.518784972022382,
      "grad_norm": 1.6680015325546265,
      "learning_rate": 3.73451239008793e-05,
      "loss": 0.8669,
      "step": 7600
    },
    {
      "epoch": 1.5387689848121502,
      "grad_norm": 1.7756261825561523,
      "learning_rate": 3.717859046096456e-05,
      "loss": 0.8572,
      "step": 7700
    },
    {
      "epoch": 1.5587529976019185,
      "grad_norm": 1.3951911926269531,
      "learning_rate": 3.7012057021049826e-05,
      "loss": 0.8422,
      "step": 7800
    },
    {
      "epoch": 1.5787370103916867,
      "grad_norm": 1.8145322799682617,
      "learning_rate": 3.6845523581135096e-05,
      "loss": 0.783,
      "step": 7900
    },
    {
      "epoch": 1.5987210231814548,
      "grad_norm": 1.4113447666168213,
      "learning_rate": 3.667899014122036e-05,
      "loss": 0.8368,
      "step": 8000
    },
    {
      "epoch": 1.6187050359712232,
      "grad_norm": 1.5562957525253296,
      "learning_rate": 3.6512456701305624e-05,
      "loss": 0.8232,
      "step": 8100
    },
    {
      "epoch": 1.638689048760991,
      "grad_norm": 2.0334463119506836,
      "learning_rate": 3.634592326139089e-05,
      "loss": 0.8272,
      "step": 8200
    },
    {
      "epoch": 1.6586730615507594,
      "grad_norm": 2.305115222930908,
      "learning_rate": 3.617938982147616e-05,
      "loss": 0.8708,
      "step": 8300
    },
    {
      "epoch": 1.6786570743405276,
      "grad_norm": 1.9576376676559448,
      "learning_rate": 3.601285638156142e-05,
      "loss": 0.8437,
      "step": 8400
    },
    {
      "epoch": 1.6986410871302957,
      "grad_norm": 1.324064016342163,
      "learning_rate": 3.584632294164668e-05,
      "loss": 0.8197,
      "step": 8500
    },
    {
      "epoch": 1.718625099920064,
      "grad_norm": 1.5594903230667114,
      "learning_rate": 3.567978950173195e-05,
      "loss": 0.8365,
      "step": 8600
    },
    {
      "epoch": 1.738609112709832,
      "grad_norm": 1.853633999824524,
      "learning_rate": 3.5513256061817214e-05,
      "loss": 0.7914,
      "step": 8700
    },
    {
      "epoch": 1.7585931254996003,
      "grad_norm": 1.839158296585083,
      "learning_rate": 3.534672262190248e-05,
      "loss": 0.9374,
      "step": 8800
    },
    {
      "epoch": 1.7785771382893685,
      "grad_norm": 2.5038366317749023,
      "learning_rate": 3.518018918198774e-05,
      "loss": 0.8202,
      "step": 8900
    },
    {
      "epoch": 1.7985611510791366,
      "grad_norm": 1.7603284120559692,
      "learning_rate": 3.501365574207301e-05,
      "loss": 0.8346,
      "step": 9000
    },
    {
      "epoch": 1.818545163868905,
      "grad_norm": 1.9243416786193848,
      "learning_rate": 3.4847122302158276e-05,
      "loss": 0.8141,
      "step": 9100
    },
    {
      "epoch": 1.838529176658673,
      "grad_norm": 1.6993930339813232,
      "learning_rate": 3.468058886224354e-05,
      "loss": 0.7974,
      "step": 9200
    },
    {
      "epoch": 1.8585131894484412,
      "grad_norm": 1.9248780012130737,
      "learning_rate": 3.4514055422328804e-05,
      "loss": 0.8543,
      "step": 9300
    },
    {
      "epoch": 1.8784972022382096,
      "grad_norm": 1.7247469425201416,
      "learning_rate": 3.4347521982414074e-05,
      "loss": 0.7968,
      "step": 9400
    },
    {
      "epoch": 1.8984812150279775,
      "grad_norm": 1.165992259979248,
      "learning_rate": 3.418098854249934e-05,
      "loss": 0.7946,
      "step": 9500
    },
    {
      "epoch": 1.9184652278177459,
      "grad_norm": 1.5617034435272217,
      "learning_rate": 3.40144551025846e-05,
      "loss": 0.8452,
      "step": 9600
    },
    {
      "epoch": 1.938449240607514,
      "grad_norm": 1.9524955749511719,
      "learning_rate": 3.3847921662669866e-05,
      "loss": 0.821,
      "step": 9700
    },
    {
      "epoch": 1.9584332533972821,
      "grad_norm": 1.201984167098999,
      "learning_rate": 3.3681388222755136e-05,
      "loss": 0.8244,
      "step": 9800
    },
    {
      "epoch": 1.9784172661870505,
      "grad_norm": 1.5261083841323853,
      "learning_rate": 3.3514854782840393e-05,
      "loss": 0.8521,
      "step": 9900
    },
    {
      "epoch": 1.9984012789768184,
      "grad_norm": 0.8879593014717102,
      "learning_rate": 3.334832134292566e-05,
      "loss": 0.7745,
      "step": 10000
    },
    {
      "epoch": 2.0183852917665868,
      "grad_norm": 1.9460114240646362,
      "learning_rate": 3.318178790301093e-05,
      "loss": 0.7926,
      "step": 10100
    },
    {
      "epoch": 2.038369304556355,
      "grad_norm": 2.0698747634887695,
      "learning_rate": 3.301525446309619e-05,
      "loss": 0.8668,
      "step": 10200
    },
    {
      "epoch": 2.058353317346123,
      "grad_norm": 1.6188371181488037,
      "learning_rate": 3.2848721023181456e-05,
      "loss": 0.7743,
      "step": 10300
    },
    {
      "epoch": 2.0783373301358914,
      "grad_norm": 1.4746142625808716,
      "learning_rate": 3.268218758326672e-05,
      "loss": 0.776,
      "step": 10400
    },
    {
      "epoch": 2.0983213429256593,
      "grad_norm": 2.6285245418548584,
      "learning_rate": 3.251565414335199e-05,
      "loss": 0.7952,
      "step": 10500
    },
    {
      "epoch": 2.1183053557154277,
      "grad_norm": 2.9462263584136963,
      "learning_rate": 3.2349120703437254e-05,
      "loss": 0.8492,
      "step": 10600
    },
    {
      "epoch": 2.138289368505196,
      "grad_norm": 2.2768771648406982,
      "learning_rate": 3.218258726352252e-05,
      "loss": 0.7773,
      "step": 10700
    },
    {
      "epoch": 2.158273381294964,
      "grad_norm": 2.4314112663269043,
      "learning_rate": 3.201605382360778e-05,
      "loss": 0.7789,
      "step": 10800
    },
    {
      "epoch": 2.1782573940847323,
      "grad_norm": 2.631697654724121,
      "learning_rate": 3.184952038369305e-05,
      "loss": 0.7809,
      "step": 10900
    },
    {
      "epoch": 2.1982414068745,
      "grad_norm": 2.0636370182037354,
      "learning_rate": 3.1682986943778316e-05,
      "loss": 0.7627,
      "step": 11000
    },
    {
      "epoch": 2.2182254196642686,
      "grad_norm": 1.861494779586792,
      "learning_rate": 3.151645350386358e-05,
      "loss": 0.7454,
      "step": 11100
    },
    {
      "epoch": 2.238209432454037,
      "grad_norm": 1.6431078910827637,
      "learning_rate": 3.134992006394884e-05,
      "loss": 0.8208,
      "step": 11200
    },
    {
      "epoch": 2.258193445243805,
      "grad_norm": 1.1081715822219849,
      "learning_rate": 3.118338662403411e-05,
      "loss": 0.7963,
      "step": 11300
    },
    {
      "epoch": 2.278177458033573,
      "grad_norm": 1.6696077585220337,
      "learning_rate": 3.101685318411937e-05,
      "loss": 0.7948,
      "step": 11400
    },
    {
      "epoch": 2.2981614708233415,
      "grad_norm": 1.1712377071380615,
      "learning_rate": 3.0850319744204635e-05,
      "loss": 0.7907,
      "step": 11500
    },
    {
      "epoch": 2.3181454836131095,
      "grad_norm": 1.28898024559021,
      "learning_rate": 3.06837863042899e-05,
      "loss": 0.7791,
      "step": 11600
    },
    {
      "epoch": 2.338129496402878,
      "grad_norm": 1.3267985582351685,
      "learning_rate": 3.0517252864375166e-05,
      "loss": 0.7819,
      "step": 11700
    },
    {
      "epoch": 2.3581135091926457,
      "grad_norm": 1.4074293375015259,
      "learning_rate": 3.0350719424460434e-05,
      "loss": 0.818,
      "step": 11800
    },
    {
      "epoch": 2.378097521982414,
      "grad_norm": 0.9492627382278442,
      "learning_rate": 3.0184185984545697e-05,
      "loss": 0.7689,
      "step": 11900
    },
    {
      "epoch": 2.3980815347721824,
      "grad_norm": 1.8090003728866577,
      "learning_rate": 3.0017652544630965e-05,
      "loss": 0.7845,
      "step": 12000
    },
    {
      "epoch": 2.4180655475619504,
      "grad_norm": 1.899207353591919,
      "learning_rate": 2.985111910471623e-05,
      "loss": 0.7742,
      "step": 12100
    },
    {
      "epoch": 2.4380495603517187,
      "grad_norm": 2.0821797847747803,
      "learning_rate": 2.9684585664801496e-05,
      "loss": 0.7696,
      "step": 12200
    },
    {
      "epoch": 2.4580335731414866,
      "grad_norm": 1.089876651763916,
      "learning_rate": 2.951805222488676e-05,
      "loss": 0.7873,
      "step": 12300
    },
    {
      "epoch": 2.478017585931255,
      "grad_norm": 1.265599250793457,
      "learning_rate": 2.9351518784972027e-05,
      "loss": 0.7504,
      "step": 12400
    },
    {
      "epoch": 2.4980015987210233,
      "grad_norm": 2.7753829956054688,
      "learning_rate": 2.9184985345057287e-05,
      "loss": 0.7824,
      "step": 12500
    },
    {
      "epoch": 2.5179856115107913,
      "grad_norm": 1.0310410261154175,
      "learning_rate": 2.901845190514255e-05,
      "loss": 0.7326,
      "step": 12600
    },
    {
      "epoch": 2.5379696243005596,
      "grad_norm": 2.056279182434082,
      "learning_rate": 2.8851918465227818e-05,
      "loss": 0.8411,
      "step": 12700
    },
    {
      "epoch": 2.5579536370903275,
      "grad_norm": 1.1815407276153564,
      "learning_rate": 2.8685385025313082e-05,
      "loss": 0.805,
      "step": 12800
    },
    {
      "epoch": 2.577937649880096,
      "grad_norm": 1.6167210340499878,
      "learning_rate": 2.851885158539835e-05,
      "loss": 0.7311,
      "step": 12900
    },
    {
      "epoch": 2.5979216626698642,
      "grad_norm": 1.488755226135254,
      "learning_rate": 2.8352318145483613e-05,
      "loss": 0.8335,
      "step": 13000
    },
    {
      "epoch": 2.617905675459632,
      "grad_norm": 2.5013859272003174,
      "learning_rate": 2.818578470556888e-05,
      "loss": 0.7833,
      "step": 13100
    },
    {
      "epoch": 2.6378896882494005,
      "grad_norm": 1.102152943611145,
      "learning_rate": 2.8019251265654144e-05,
      "loss": 0.7536,
      "step": 13200
    },
    {
      "epoch": 2.6578737010391684,
      "grad_norm": 1.3805499076843262,
      "learning_rate": 2.785271782573941e-05,
      "loss": 0.775,
      "step": 13300
    },
    {
      "epoch": 2.677857713828937,
      "grad_norm": 2.189347505569458,
      "learning_rate": 2.7686184385824675e-05,
      "loss": 0.8178,
      "step": 13400
    },
    {
      "epoch": 2.697841726618705,
      "grad_norm": 0.9750763177871704,
      "learning_rate": 2.7519650945909942e-05,
      "loss": 0.7743,
      "step": 13500
    },
    {
      "epoch": 2.7178257394084735,
      "grad_norm": 1.2844312191009521,
      "learning_rate": 2.7353117505995206e-05,
      "loss": 0.7631,
      "step": 13600
    },
    {
      "epoch": 2.7378097521982414,
      "grad_norm": 1.4551914930343628,
      "learning_rate": 2.7186584066080474e-05,
      "loss": 0.76,
      "step": 13700
    },
    {
      "epoch": 2.7577937649880093,
      "grad_norm": 0.8891064524650574,
      "learning_rate": 2.7020050626165734e-05,
      "loss": 0.8252,
      "step": 13800
    },
    {
      "epoch": 2.7777777777777777,
      "grad_norm": 1.9776784181594849,
      "learning_rate": 2.6853517186250998e-05,
      "loss": 0.8037,
      "step": 13900
    },
    {
      "epoch": 2.797761790567546,
      "grad_norm": 1.429692029953003,
      "learning_rate": 2.6686983746336265e-05,
      "loss": 0.7369,
      "step": 14000
    },
    {
      "epoch": 2.8177458033573144,
      "grad_norm": 2.0837855339050293,
      "learning_rate": 2.652045030642153e-05,
      "loss": 0.742,
      "step": 14100
    },
    {
      "epoch": 2.8377298161470823,
      "grad_norm": 1.2353509664535522,
      "learning_rate": 2.6353916866506796e-05,
      "loss": 0.7615,
      "step": 14200
    },
    {
      "epoch": 2.8577138289368507,
      "grad_norm": 0.8735284209251404,
      "learning_rate": 2.618738342659206e-05,
      "loss": 0.7872,
      "step": 14300
    },
    {
      "epoch": 2.8776978417266186,
      "grad_norm": 1.0889009237289429,
      "learning_rate": 2.6020849986677327e-05,
      "loss": 0.7455,
      "step": 14400
    },
    {
      "epoch": 2.897681854516387,
      "grad_norm": 1.506787657737732,
      "learning_rate": 2.585431654676259e-05,
      "loss": 0.792,
      "step": 14500
    },
    {
      "epoch": 2.9176658673061553,
      "grad_norm": 0.7630636096000671,
      "learning_rate": 2.5687783106847858e-05,
      "loss": 0.7918,
      "step": 14600
    },
    {
      "epoch": 2.937649880095923,
      "grad_norm": 1.6361045837402344,
      "learning_rate": 2.5521249666933122e-05,
      "loss": 0.7357,
      "step": 14700
    },
    {
      "epoch": 2.9576338928856916,
      "grad_norm": 2.248220920562744,
      "learning_rate": 2.535471622701839e-05,
      "loss": 0.7954,
      "step": 14800
    },
    {
      "epoch": 2.9776179056754595,
      "grad_norm": 1.14662766456604,
      "learning_rate": 2.5188182787103653e-05,
      "loss": 0.7865,
      "step": 14900
    },
    {
      "epoch": 2.997601918465228,
      "grad_norm": 1.3895844221115112,
      "learning_rate": 2.502164934718892e-05,
      "loss": 0.7364,
      "step": 15000
    },
    {
      "epoch": 3.017585931254996,
      "grad_norm": 2.1330533027648926,
      "learning_rate": 2.485511590727418e-05,
      "loss": 0.7244,
      "step": 15100
    },
    {
      "epoch": 3.037569944044764,
      "grad_norm": 1.384775996208191,
      "learning_rate": 2.4688582467359448e-05,
      "loss": 0.7393,
      "step": 15200
    },
    {
      "epoch": 3.0575539568345325,
      "grad_norm": 0.9841705560684204,
      "learning_rate": 2.4522049027444712e-05,
      "loss": 0.8051,
      "step": 15300
    },
    {
      "epoch": 3.0775379696243004,
      "grad_norm": 1.224924921989441,
      "learning_rate": 2.435551558752998e-05,
      "loss": 0.8004,
      "step": 15400
    },
    {
      "epoch": 3.0975219824140687,
      "grad_norm": 2.2387399673461914,
      "learning_rate": 2.418898214761524e-05,
      "loss": 0.8051,
      "step": 15500
    },
    {
      "epoch": 3.117505995203837,
      "grad_norm": 1.8771803379058838,
      "learning_rate": 2.4022448707700507e-05,
      "loss": 0.7903,
      "step": 15600
    },
    {
      "epoch": 3.137490007993605,
      "grad_norm": 1.786600112915039,
      "learning_rate": 2.385591526778577e-05,
      "loss": 0.7796,
      "step": 15700
    },
    {
      "epoch": 3.1574740207833734,
      "grad_norm": 1.0823020935058594,
      "learning_rate": 2.3689381827871038e-05,
      "loss": 0.7468,
      "step": 15800
    },
    {
      "epoch": 3.1774580335731413,
      "grad_norm": 1.9462608098983765,
      "learning_rate": 2.35228483879563e-05,
      "loss": 0.7854,
      "step": 15900
    },
    {
      "epoch": 3.1974420463629096,
      "grad_norm": 1.3235732316970825,
      "learning_rate": 2.335631494804157e-05,
      "loss": 0.7584,
      "step": 16000
    },
    {
      "epoch": 3.217426059152678,
      "grad_norm": 1.5206961631774902,
      "learning_rate": 2.3189781508126833e-05,
      "loss": 0.8104,
      "step": 16100
    },
    {
      "epoch": 3.237410071942446,
      "grad_norm": 1.4281466007232666,
      "learning_rate": 2.3023248068212097e-05,
      "loss": 0.7505,
      "step": 16200
    },
    {
      "epoch": 3.2573940847322143,
      "grad_norm": 1.9032511711120605,
      "learning_rate": 2.2856714628297364e-05,
      "loss": 0.7813,
      "step": 16300
    },
    {
      "epoch": 3.277378097521982,
      "grad_norm": 2.10361909866333,
      "learning_rate": 2.2690181188382628e-05,
      "loss": 0.7369,
      "step": 16400
    },
    {
      "epoch": 3.2973621103117505,
      "grad_norm": 1.440158486366272,
      "learning_rate": 2.2523647748467895e-05,
      "loss": 0.7576,
      "step": 16500
    },
    {
      "epoch": 3.317346123101519,
      "grad_norm": 1.8777798414230347,
      "learning_rate": 2.235711430855316e-05,
      "loss": 0.7317,
      "step": 16600
    },
    {
      "epoch": 3.337330135891287,
      "grad_norm": 1.6413357257843018,
      "learning_rate": 2.2190580868638426e-05,
      "loss": 0.7802,
      "step": 16700
    },
    {
      "epoch": 3.357314148681055,
      "grad_norm": 1.820087194442749,
      "learning_rate": 2.2024047428723686e-05,
      "loss": 0.7435,
      "step": 16800
    },
    {
      "epoch": 3.3772981614708235,
      "grad_norm": 2.5140113830566406,
      "learning_rate": 2.1857513988808954e-05,
      "loss": 0.7532,
      "step": 16900
    },
    {
      "epoch": 3.3972821742605914,
      "grad_norm": 1.7011070251464844,
      "learning_rate": 2.1690980548894217e-05,
      "loss": 0.728,
      "step": 17000
    },
    {
      "epoch": 3.41726618705036,
      "grad_norm": 1.3051706552505493,
      "learning_rate": 2.1524447108979485e-05,
      "loss": 0.7493,
      "step": 17100
    },
    {
      "epoch": 3.437250199840128,
      "grad_norm": 0.9745834469795227,
      "learning_rate": 2.135791366906475e-05,
      "loss": 0.7219,
      "step": 17200
    },
    {
      "epoch": 3.457234212629896,
      "grad_norm": 1.3213515281677246,
      "learning_rate": 2.1191380229150016e-05,
      "loss": 0.7703,
      "step": 17300
    },
    {
      "epoch": 3.4772182254196644,
      "grad_norm": 0.735060453414917,
      "learning_rate": 2.102484678923528e-05,
      "loss": 0.7342,
      "step": 17400
    },
    {
      "epoch": 3.4972022382094323,
      "grad_norm": 1.073197603225708,
      "learning_rate": 2.0858313349320543e-05,
      "loss": 0.7023,
      "step": 17500
    },
    {
      "epoch": 3.5171862509992007,
      "grad_norm": 1.797711730003357,
      "learning_rate": 2.069177990940581e-05,
      "loss": 0.7944,
      "step": 17600
    },
    {
      "epoch": 3.537170263788969,
      "grad_norm": 1.3365331888198853,
      "learning_rate": 2.0525246469491074e-05,
      "loss": 0.7773,
      "step": 17700
    },
    {
      "epoch": 3.557154276578737,
      "grad_norm": 1.451333999633789,
      "learning_rate": 2.035871302957634e-05,
      "loss": 0.7659,
      "step": 17800
    },
    {
      "epoch": 3.5771382893685053,
      "grad_norm": 1.5622735023498535,
      "learning_rate": 2.0192179589661606e-05,
      "loss": 0.7676,
      "step": 17900
    },
    {
      "epoch": 3.597122302158273,
      "grad_norm": 1.5826952457427979,
      "learning_rate": 2.0025646149746873e-05,
      "loss": 0.7393,
      "step": 18000
    },
    {
      "epoch": 3.6171063149480416,
      "grad_norm": 0.7937633991241455,
      "learning_rate": 1.9859112709832133e-05,
      "loss": 0.7112,
      "step": 18100
    },
    {
      "epoch": 3.63709032773781,
      "grad_norm": 1.8199377059936523,
      "learning_rate": 1.96925792699174e-05,
      "loss": 0.7722,
      "step": 18200
    },
    {
      "epoch": 3.657074340527578,
      "grad_norm": 2.317171573638916,
      "learning_rate": 1.9526045830002664e-05,
      "loss": 0.7735,
      "step": 18300
    },
    {
      "epoch": 3.677058353317346,
      "grad_norm": 0.9344459772109985,
      "learning_rate": 1.935951239008793e-05,
      "loss": 0.7168,
      "step": 18400
    },
    {
      "epoch": 3.697042366107114,
      "grad_norm": 1.833892583847046,
      "learning_rate": 1.9192978950173195e-05,
      "loss": 0.6825,
      "step": 18500
    },
    {
      "epoch": 3.7170263788968825,
      "grad_norm": 1.4093741178512573,
      "learning_rate": 1.9026445510258463e-05,
      "loss": 0.7087,
      "step": 18600
    },
    {
      "epoch": 3.737010391686651,
      "grad_norm": 2.0284645557403564,
      "learning_rate": 1.8859912070343726e-05,
      "loss": 0.7579,
      "step": 18700
    },
    {
      "epoch": 3.7569944044764187,
      "grad_norm": 1.8383668661117554,
      "learning_rate": 1.869337863042899e-05,
      "loss": 0.7603,
      "step": 18800
    },
    {
      "epoch": 3.776978417266187,
      "grad_norm": 1.5985366106033325,
      "learning_rate": 1.8526845190514254e-05,
      "loss": 0.7166,
      "step": 18900
    },
    {
      "epoch": 3.796962430055955,
      "grad_norm": 1.5089521408081055,
      "learning_rate": 1.836031175059952e-05,
      "loss": 0.7678,
      "step": 19000
    },
    {
      "epoch": 3.8169464428457234,
      "grad_norm": 1.2770063877105713,
      "learning_rate": 1.8193778310684785e-05,
      "loss": 0.7213,
      "step": 19100
    },
    {
      "epoch": 3.8369304556354917,
      "grad_norm": 2.4528274536132812,
      "learning_rate": 1.8027244870770052e-05,
      "loss": 0.7255,
      "step": 19200
    },
    {
      "epoch": 3.8569144684252596,
      "grad_norm": 1.736755132675171,
      "learning_rate": 1.7860711430855316e-05,
      "loss": 0.6784,
      "step": 19300
    },
    {
      "epoch": 3.876898481215028,
      "grad_norm": 1.719307780265808,
      "learning_rate": 1.7694177990940583e-05,
      "loss": 0.7795,
      "step": 19400
    },
    {
      "epoch": 3.896882494004796,
      "grad_norm": 2.070528984069824,
      "learning_rate": 1.7527644551025847e-05,
      "loss": 0.7509,
      "step": 19500
    },
    {
      "epoch": 3.9168665067945643,
      "grad_norm": 1.6482255458831787,
      "learning_rate": 1.736111111111111e-05,
      "loss": 0.7202,
      "step": 19600
    },
    {
      "epoch": 3.9368505195843326,
      "grad_norm": 1.1660830974578857,
      "learning_rate": 1.719457767119638e-05,
      "loss": 0.7042,
      "step": 19700
    },
    {
      "epoch": 3.956834532374101,
      "grad_norm": 1.0131560564041138,
      "learning_rate": 1.7028044231281642e-05,
      "loss": 0.7059,
      "step": 19800
    },
    {
      "epoch": 3.976818545163869,
      "grad_norm": 1.1839569807052612,
      "learning_rate": 1.686151079136691e-05,
      "loss": 0.77,
      "step": 19900
    },
    {
      "epoch": 3.996802557953637,
      "grad_norm": 1.736053705215454,
      "learning_rate": 1.6694977351452173e-05,
      "loss": 0.7703,
      "step": 20000
    },
    {
      "epoch": 4.016786570743405,
      "grad_norm": 1.3700270652770996,
      "learning_rate": 1.6528443911537437e-05,
      "loss": 0.6643,
      "step": 20100
    },
    {
      "epoch": 4.0367705835331735,
      "grad_norm": 1.347440481185913,
      "learning_rate": 1.63619104716227e-05,
      "loss": 0.7502,
      "step": 20200
    },
    {
      "epoch": 4.056754596322942,
      "grad_norm": 1.9421720504760742,
      "learning_rate": 1.6195377031707968e-05,
      "loss": 0.7382,
      "step": 20300
    },
    {
      "epoch": 4.07673860911271,
      "grad_norm": 0.9211772084236145,
      "learning_rate": 1.6028843591793232e-05,
      "loss": 0.7249,
      "step": 20400
    },
    {
      "epoch": 4.096722621902478,
      "grad_norm": 2.1698520183563232,
      "learning_rate": 1.58623101518785e-05,
      "loss": 0.7339,
      "step": 20500
    },
    {
      "epoch": 4.116706634692246,
      "grad_norm": 1.6852116584777832,
      "learning_rate": 1.5695776711963763e-05,
      "loss": 0.7525,
      "step": 20600
    },
    {
      "epoch": 4.136690647482014,
      "grad_norm": 1.8582841157913208,
      "learning_rate": 1.552924327204903e-05,
      "loss": 0.7168,
      "step": 20700
    },
    {
      "epoch": 4.156674660271783,
      "grad_norm": 1.3949832916259766,
      "learning_rate": 1.536270983213429e-05,
      "loss": 0.6835,
      "step": 20800
    },
    {
      "epoch": 4.176658673061551,
      "grad_norm": 2.044853925704956,
      "learning_rate": 1.5196176392219558e-05,
      "loss": 0.7332,
      "step": 20900
    },
    {
      "epoch": 4.196642685851319,
      "grad_norm": 1.3187381029129028,
      "learning_rate": 1.5029642952304823e-05,
      "loss": 0.7724,
      "step": 21000
    },
    {
      "epoch": 4.216626698641087,
      "grad_norm": 1.18405020236969,
      "learning_rate": 1.4863109512390089e-05,
      "loss": 0.7677,
      "step": 21100
    },
    {
      "epoch": 4.236610711430855,
      "grad_norm": 1.2868226766586304,
      "learning_rate": 1.4696576072475355e-05,
      "loss": 0.7168,
      "step": 21200
    },
    {
      "epoch": 4.256594724220624,
      "grad_norm": 2.145659923553467,
      "learning_rate": 1.453004263256062e-05,
      "loss": 0.7574,
      "step": 21300
    },
    {
      "epoch": 4.276578737010392,
      "grad_norm": 1.0491008758544922,
      "learning_rate": 1.4363509192645886e-05,
      "loss": 0.7274,
      "step": 21400
    },
    {
      "epoch": 4.2965627498001595,
      "grad_norm": 1.9524632692337036,
      "learning_rate": 1.4196975752731148e-05,
      "loss": 0.7256,
      "step": 21500
    },
    {
      "epoch": 4.316546762589928,
      "grad_norm": 1.6348446607589722,
      "learning_rate": 1.4030442312816413e-05,
      "loss": 0.6971,
      "step": 21600
    },
    {
      "epoch": 4.336530775379696,
      "grad_norm": 1.6102409362792969,
      "learning_rate": 1.3863908872901679e-05,
      "loss": 0.7031,
      "step": 21700
    },
    {
      "epoch": 4.356514788169465,
      "grad_norm": 1.4496809244155884,
      "learning_rate": 1.3697375432986944e-05,
      "loss": 0.76,
      "step": 21800
    },
    {
      "epoch": 4.376498800959233,
      "grad_norm": 2.370002508163452,
      "learning_rate": 1.353084199307221e-05,
      "loss": 0.7098,
      "step": 21900
    },
    {
      "epoch": 4.396482813749,
      "grad_norm": 1.1416559219360352,
      "learning_rate": 1.3364308553157475e-05,
      "loss": 0.7565,
      "step": 22000
    },
    {
      "epoch": 4.416466826538769,
      "grad_norm": 1.6672168970108032,
      "learning_rate": 1.319777511324274e-05,
      "loss": 0.7939,
      "step": 22100
    },
    {
      "epoch": 4.436450839328537,
      "grad_norm": 1.1106956005096436,
      "learning_rate": 1.3031241673328005e-05,
      "loss": 0.6645,
      "step": 22200
    },
    {
      "epoch": 4.4564348521183055,
      "grad_norm": 1.4987940788269043,
      "learning_rate": 1.286470823341327e-05,
      "loss": 0.7117,
      "step": 22300
    },
    {
      "epoch": 4.476418864908074,
      "grad_norm": 2.063014268875122,
      "learning_rate": 1.2698174793498536e-05,
      "loss": 0.767,
      "step": 22400
    },
    {
      "epoch": 4.496402877697841,
      "grad_norm": 0.748756468296051,
      "learning_rate": 1.2531641353583801e-05,
      "loss": 0.7393,
      "step": 22500
    },
    {
      "epoch": 4.51638689048761,
      "grad_norm": 1.3971226215362549,
      "learning_rate": 1.2365107913669065e-05,
      "loss": 0.7782,
      "step": 22600
    },
    {
      "epoch": 4.536370903277378,
      "grad_norm": 1.5306447744369507,
      "learning_rate": 1.219857447375433e-05,
      "loss": 0.7299,
      "step": 22700
    },
    {
      "epoch": 4.556354916067146,
      "grad_norm": 1.409225344657898,
      "learning_rate": 1.2032041033839596e-05,
      "loss": 0.6752,
      "step": 22800
    },
    {
      "epoch": 4.576338928856915,
      "grad_norm": 1.396794080734253,
      "learning_rate": 1.186550759392486e-05,
      "loss": 0.6417,
      "step": 22900
    },
    {
      "epoch": 4.596322941646683,
      "grad_norm": 1.6455470323562622,
      "learning_rate": 1.1698974154010126e-05,
      "loss": 0.7545,
      "step": 23000
    },
    {
      "epoch": 4.616306954436451,
      "grad_norm": 1.4188311100006104,
      "learning_rate": 1.1532440714095391e-05,
      "loss": 0.7217,
      "step": 23100
    },
    {
      "epoch": 4.636290967226219,
      "grad_norm": 1.1025303602218628,
      "learning_rate": 1.1365907274180657e-05,
      "loss": 0.7419,
      "step": 23200
    },
    {
      "epoch": 4.656274980015987,
      "grad_norm": 1.0919783115386963,
      "learning_rate": 1.119937383426592e-05,
      "loss": 0.725,
      "step": 23300
    },
    {
      "epoch": 4.676258992805756,
      "grad_norm": 2.179637908935547,
      "learning_rate": 1.1032840394351186e-05,
      "loss": 0.7052,
      "step": 23400
    },
    {
      "epoch": 4.696243005595523,
      "grad_norm": 1.4243191480636597,
      "learning_rate": 1.0866306954436452e-05,
      "loss": 0.7437,
      "step": 23500
    },
    {
      "epoch": 4.7162270183852915,
      "grad_norm": 1.6711329221725464,
      "learning_rate": 1.0699773514521715e-05,
      "loss": 0.7378,
      "step": 23600
    },
    {
      "epoch": 4.73621103117506,
      "grad_norm": 1.2967829704284668,
      "learning_rate": 1.0533240074606981e-05,
      "loss": 0.7386,
      "step": 23700
    },
    {
      "epoch": 4.756195043964828,
      "grad_norm": 1.737625002861023,
      "learning_rate": 1.0366706634692246e-05,
      "loss": 0.7012,
      "step": 23800
    },
    {
      "epoch": 4.7761790567545965,
      "grad_norm": 1.062472939491272,
      "learning_rate": 1.020017319477751e-05,
      "loss": 0.6797,
      "step": 23900
    },
    {
      "epoch": 4.796163069544365,
      "grad_norm": 1.044542908668518,
      "learning_rate": 1.0033639754862776e-05,
      "loss": 0.7285,
      "step": 24000
    },
    {
      "epoch": 4.816147082334132,
      "grad_norm": 1.70567786693573,
      "learning_rate": 9.867106314948041e-06,
      "loss": 0.7777,
      "step": 24100
    },
    {
      "epoch": 4.836131095123901,
      "grad_norm": 1.6937395334243774,
      "learning_rate": 9.700572875033307e-06,
      "loss": 0.7378,
      "step": 24200
    },
    {
      "epoch": 4.856115107913669,
      "grad_norm": 2.7036936283111572,
      "learning_rate": 9.534039435118572e-06,
      "loss": 0.7813,
      "step": 24300
    },
    {
      "epoch": 4.876099120703437,
      "grad_norm": 1.1682194471359253,
      "learning_rate": 9.367505995203838e-06,
      "loss": 0.7155,
      "step": 24400
    },
    {
      "epoch": 4.896083133493206,
      "grad_norm": 1.2117973566055298,
      "learning_rate": 9.200972555289104e-06,
      "loss": 0.7273,
      "step": 24500
    },
    {
      "epoch": 4.916067146282973,
      "grad_norm": 0.9339836239814758,
      "learning_rate": 9.034439115374367e-06,
      "loss": 0.7368,
      "step": 24600
    },
    {
      "epoch": 4.936051159072742,
      "grad_norm": 1.3919428586959839,
      "learning_rate": 8.867905675459633e-06,
      "loss": 0.7059,
      "step": 24700
    },
    {
      "epoch": 4.95603517186251,
      "grad_norm": 2.1438040733337402,
      "learning_rate": 8.701372235544898e-06,
      "loss": 0.7197,
      "step": 24800
    },
    {
      "epoch": 4.976019184652278,
      "grad_norm": 1.892350435256958,
      "learning_rate": 8.534838795630162e-06,
      "loss": 0.7292,
      "step": 24900
    },
    {
      "epoch": 4.996003197442047,
      "grad_norm": 2.050062656402588,
      "learning_rate": 8.368305355715428e-06,
      "loss": 0.7791,
      "step": 25000
    },
    {
      "epoch": 5.015987210231814,
      "grad_norm": 2.285053014755249,
      "learning_rate": 8.201771915800693e-06,
      "loss": 0.6937,
      "step": 25100
    },
    {
      "epoch": 5.0359712230215825,
      "grad_norm": 1.6725279092788696,
      "learning_rate": 8.035238475885959e-06,
      "loss": 0.7443,
      "step": 25200
    },
    {
      "epoch": 5.055955235811351,
      "grad_norm": 1.590450644493103,
      "learning_rate": 7.868705035971223e-06,
      "loss": 0.7069,
      "step": 25300
    },
    {
      "epoch": 5.075939248601119,
      "grad_norm": 0.7603669762611389,
      "learning_rate": 7.702171596056488e-06,
      "loss": 0.6778,
      "step": 25400
    },
    {
      "epoch": 5.095923261390888,
      "grad_norm": 1.8916963338851929,
      "learning_rate": 7.535638156141754e-06,
      "loss": 0.769,
      "step": 25500
    },
    {
      "epoch": 5.115907274180655,
      "grad_norm": 1.6110832691192627,
      "learning_rate": 7.3691047162270184e-06,
      "loss": 0.7027,
      "step": 25600
    },
    {
      "epoch": 5.135891286970423,
      "grad_norm": 1.796796202659607,
      "learning_rate": 7.202571276312284e-06,
      "loss": 0.72,
      "step": 25700
    },
    {
      "epoch": 5.155875299760192,
      "grad_norm": 1.8212794065475464,
      "learning_rate": 7.0360378363975495e-06,
      "loss": 0.7004,
      "step": 25800
    },
    {
      "epoch": 5.17585931254996,
      "grad_norm": 1.0340906381607056,
      "learning_rate": 6.869504396482813e-06,
      "loss": 0.6687,
      "step": 25900
    },
    {
      "epoch": 5.1958433253397285,
      "grad_norm": 1.8287034034729004,
      "learning_rate": 6.702970956568079e-06,
      "loss": 0.6774,
      "step": 26000
    },
    {
      "epoch": 5.215827338129497,
      "grad_norm": 1.657259225845337,
      "learning_rate": 6.536437516653344e-06,
      "loss": 0.6995,
      "step": 26100
    },
    {
      "epoch": 5.235811350919264,
      "grad_norm": 1.8235076665878296,
      "learning_rate": 6.36990407673861e-06,
      "loss": 0.7814,
      "step": 26200
    },
    {
      "epoch": 5.255795363709033,
      "grad_norm": 1.6127688884735107,
      "learning_rate": 6.203370636823875e-06,
      "loss": 0.6797,
      "step": 26300
    },
    {
      "epoch": 5.275779376498801,
      "grad_norm": 1.2275160551071167,
      "learning_rate": 6.03683719690914e-06,
      "loss": 0.7336,
      "step": 26400
    },
    {
      "epoch": 5.295763389288569,
      "grad_norm": 1.6593281030654907,
      "learning_rate": 5.870303756994405e-06,
      "loss": 0.6988,
      "step": 26500
    },
    {
      "epoch": 5.315747402078338,
      "grad_norm": 1.1069490909576416,
      "learning_rate": 5.70377031707967e-06,
      "loss": 0.801,
      "step": 26600
    },
    {
      "epoch": 5.335731414868105,
      "grad_norm": 1.7498623132705688,
      "learning_rate": 5.537236877164935e-06,
      "loss": 0.715,
      "step": 26700
    },
    {
      "epoch": 5.355715427657874,
      "grad_norm": 1.7322038412094116,
      "learning_rate": 5.3707034372502e-06,
      "loss": 0.7076,
      "step": 26800
    },
    {
      "epoch": 5.375699440447642,
      "grad_norm": 1.2660248279571533,
      "learning_rate": 5.204169997335465e-06,
      "loss": 0.7494,
      "step": 26900
    },
    {
      "epoch": 5.39568345323741,
      "grad_norm": 2.537752628326416,
      "learning_rate": 5.03763655742073e-06,
      "loss": 0.7326,
      "step": 27000
    },
    {
      "epoch": 5.415667466027179,
      "grad_norm": 0.991534411907196,
      "learning_rate": 4.8711031175059955e-06,
      "loss": 0.6929,
      "step": 27100
    },
    {
      "epoch": 5.435651478816946,
      "grad_norm": 2.0230729579925537,
      "learning_rate": 4.70456967759126e-06,
      "loss": 0.6787,
      "step": 27200
    },
    {
      "epoch": 5.4556354916067145,
      "grad_norm": 1.5560120344161987,
      "learning_rate": 4.538036237676526e-06,
      "loss": 0.7251,
      "step": 27300
    },
    {
      "epoch": 5.475619504396483,
      "grad_norm": 1.5086272954940796,
      "learning_rate": 4.371502797761791e-06,
      "loss": 0.7066,
      "step": 27400
    },
    {
      "epoch": 5.495603517186251,
      "grad_norm": 1.6183174848556519,
      "learning_rate": 4.204969357847056e-06,
      "loss": 0.7161,
      "step": 27500
    },
    {
      "epoch": 5.5155875299760195,
      "grad_norm": 1.1214239597320557,
      "learning_rate": 4.0384359179323214e-06,
      "loss": 0.7414,
      "step": 27600
    },
    {
      "epoch": 5.535571542765787,
      "grad_norm": 1.4948476552963257,
      "learning_rate": 3.871902478017586e-06,
      "loss": 0.7303,
      "step": 27700
    },
    {
      "epoch": 5.555555555555555,
      "grad_norm": 1.094460368156433,
      "learning_rate": 3.705369038102851e-06,
      "loss": 0.7214,
      "step": 27800
    },
    {
      "epoch": 5.575539568345324,
      "grad_norm": 1.8006253242492676,
      "learning_rate": 3.5388355981881163e-06,
      "loss": 0.7382,
      "step": 27900
    },
    {
      "epoch": 5.595523581135092,
      "grad_norm": 1.0595532655715942,
      "learning_rate": 3.3723021582733815e-06,
      "loss": 0.6835,
      "step": 28000
    },
    {
      "epoch": 5.61550759392486,
      "grad_norm": 1.5675129890441895,
      "learning_rate": 3.205768718358647e-06,
      "loss": 0.7426,
      "step": 28100
    },
    {
      "epoch": 5.635491606714629,
      "grad_norm": 1.543182134628296,
      "learning_rate": 3.0392352784439117e-06,
      "loss": 0.7393,
      "step": 28200
    },
    {
      "epoch": 5.655475619504396,
      "grad_norm": 1.6735225915908813,
      "learning_rate": 2.8727018385291768e-06,
      "loss": 0.7106,
      "step": 28300
    },
    {
      "epoch": 5.675459632294165,
      "grad_norm": 1.2037389278411865,
      "learning_rate": 2.706168398614442e-06,
      "loss": 0.6928,
      "step": 28400
    },
    {
      "epoch": 5.695443645083933,
      "grad_norm": 1.957836627960205,
      "learning_rate": 2.539634958699707e-06,
      "loss": 0.8086,
      "step": 28500
    },
    {
      "epoch": 5.715427657873701,
      "grad_norm": 2.085599899291992,
      "learning_rate": 2.373101518784972e-06,
      "loss": 0.7587,
      "step": 28600
    },
    {
      "epoch": 5.735411670663469,
      "grad_norm": 1.3564984798431396,
      "learning_rate": 2.206568078870237e-06,
      "loss": 0.7197,
      "step": 28700
    },
    {
      "epoch": 5.755395683453237,
      "grad_norm": 1.659226655960083,
      "learning_rate": 2.0400346389555023e-06,
      "loss": 0.728,
      "step": 28800
    },
    {
      "epoch": 5.7753796962430055,
      "grad_norm": 1.3784935474395752,
      "learning_rate": 1.8735011990407676e-06,
      "loss": 0.7561,
      "step": 28900
    },
    {
      "epoch": 5.795363709032774,
      "grad_norm": 1.4514496326446533,
      "learning_rate": 1.7069677591260325e-06,
      "loss": 0.7205,
      "step": 29000
    },
    {
      "epoch": 5.815347721822542,
      "grad_norm": 1.7896771430969238,
      "learning_rate": 1.5404343192112976e-06,
      "loss": 0.667,
      "step": 29100
    },
    {
      "epoch": 5.835331734612311,
      "grad_norm": 1.4074804782867432,
      "learning_rate": 1.3739008792965628e-06,
      "loss": 0.71,
      "step": 29200
    },
    {
      "epoch": 5.855315747402078,
      "grad_norm": 1.33772873878479,
      "learning_rate": 1.2073674393818279e-06,
      "loss": 0.7688,
      "step": 29300
    },
    {
      "epoch": 5.875299760191846,
      "grad_norm": 1.8295559883117676,
      "learning_rate": 1.040833999467093e-06,
      "loss": 0.7439,
      "step": 29400
    },
    {
      "epoch": 5.895283772981615,
      "grad_norm": 0.9400151371955872,
      "learning_rate": 8.743005595523582e-07,
      "loss": 0.6891,
      "step": 29500
    },
    {
      "epoch": 5.915267785771383,
      "grad_norm": 1.7990922927856445,
      "learning_rate": 7.077671196376233e-07,
      "loss": 0.6384,
      "step": 29600
    },
    {
      "epoch": 5.935251798561151,
      "grad_norm": 1.74308180809021,
      "learning_rate": 5.412336797228884e-07,
      "loss": 0.6973,
      "step": 29700
    },
    {
      "epoch": 5.955235811350919,
      "grad_norm": 1.1248557567596436,
      "learning_rate": 3.747002398081535e-07,
      "loss": 0.7265,
      "step": 29800
    },
    {
      "epoch": 5.975219824140687,
      "grad_norm": 1.9805783033370972,
      "learning_rate": 2.0816679989341861e-07,
      "loss": 0.7107,
      "step": 29900
    },
    {
      "epoch": 5.995203836930456,
      "grad_norm": 1.6576383113861084,
      "learning_rate": 4.163335997868372e-08,
      "loss": 0.7073,
      "step": 30000
    }
  ],
  "logging_steps": 100,
  "max_steps": 30024,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 6,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.230686056448e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}