{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 0,
  "global_step": 633,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.001579778830963665,
      "grad_norm": 3.3021833896636963,
      "learning_rate": 1e-05,
      "loss": 0.8142,
      "step": 1
    },
    {
      "epoch": 0.00315955766192733,
      "grad_norm": 0.5667713284492493,
      "learning_rate": 9.984202211690363e-06,
      "loss": 0.4081,
      "step": 2
    },
    {
      "epoch": 0.004739336492890996,
      "grad_norm": 7.904314994812012,
      "learning_rate": 9.968404423380728e-06,
      "loss": 1.1876,
      "step": 3
    },
    {
      "epoch": 0.00631911532385466,
      "grad_norm": 10.157713890075684,
      "learning_rate": 9.95260663507109e-06,
      "loss": 1.4092,
      "step": 4
    },
    {
      "epoch": 0.007898894154818325,
      "grad_norm": 4.723056316375732,
      "learning_rate": 9.936808846761454e-06,
      "loss": 0.7578,
      "step": 5
    },
    {
      "epoch": 0.009478672985781991,
      "grad_norm": 7.033465385437012,
      "learning_rate": 9.921011058451816e-06,
      "loss": 0.5175,
      "step": 6
    },
    {
      "epoch": 0.011058451816745656,
      "grad_norm": 0.800440788269043,
      "learning_rate": 9.905213270142182e-06,
      "loss": 0.4077,
      "step": 7
    },
    {
      "epoch": 0.01263823064770932,
      "grad_norm": 0.6944026350975037,
      "learning_rate": 9.889415481832544e-06,
      "loss": 0.4686,
      "step": 8
    },
    {
      "epoch": 0.014218009478672985,
      "grad_norm": 0.5700448751449585,
      "learning_rate": 9.873617693522908e-06,
      "loss": 0.3623,
      "step": 9
    },
    {
      "epoch": 0.01579778830963665,
      "grad_norm": 0.7115408778190613,
      "learning_rate": 9.85781990521327e-06,
      "loss": 0.4727,
      "step": 10
    },
    {
      "epoch": 0.017377567140600316,
      "grad_norm": 0.5764197707176208,
      "learning_rate": 9.842022116903635e-06,
      "loss": 0.4054,
      "step": 11
    },
    {
      "epoch": 0.018957345971563982,
      "grad_norm": 0.615205705165863,
      "learning_rate": 9.826224328593997e-06,
      "loss": 0.3798,
      "step": 12
    },
    {
      "epoch": 0.020537124802527645,
      "grad_norm": 0.6402739882469177,
      "learning_rate": 9.810426540284361e-06,
      "loss": 0.3966,
      "step": 13
    },
    {
      "epoch": 0.022116903633491312,
      "grad_norm": 0.6007937788963318,
      "learning_rate": 9.794628751974725e-06,
      "loss": 0.4158,
      "step": 14
    },
    {
      "epoch": 0.023696682464454975,
      "grad_norm": 0.5462563037872314,
      "learning_rate": 9.778830963665089e-06,
      "loss": 0.4795,
      "step": 15
    },
    {
      "epoch": 0.02527646129541864,
      "grad_norm": 0.6038461923599243,
      "learning_rate": 9.76303317535545e-06,
      "loss": 0.4142,
      "step": 16
    },
    {
      "epoch": 0.026856240126382307,
      "grad_norm": 0.514258861541748,
      "learning_rate": 9.747235387045815e-06,
      "loss": 0.4139,
      "step": 17
    },
    {
      "epoch": 0.02843601895734597,
      "grad_norm": 0.728235125541687,
      "learning_rate": 9.731437598736178e-06,
      "loss": 0.3129,
      "step": 18
    },
    {
      "epoch": 0.030015797788309637,
      "grad_norm": 0.7013534307479858,
      "learning_rate": 9.715639810426542e-06,
      "loss": 0.4275,
      "step": 19
    },
    {
      "epoch": 0.0315955766192733,
      "grad_norm": 0.6062476634979248,
      "learning_rate": 9.699842022116904e-06,
      "loss": 0.3961,
      "step": 20
    },
    {
      "epoch": 0.03317535545023697,
      "grad_norm": 0.6089779138565063,
      "learning_rate": 9.684044233807268e-06,
      "loss": 0.4972,
      "step": 21
    },
    {
      "epoch": 0.03475513428120063,
      "grad_norm": 0.6651365756988525,
      "learning_rate": 9.668246445497632e-06,
      "loss": 0.4714,
      "step": 22
    },
    {
      "epoch": 0.036334913112164295,
      "grad_norm": 0.6064260601997375,
      "learning_rate": 9.652448657187995e-06,
      "loss": 0.4358,
      "step": 23
    },
    {
      "epoch": 0.037914691943127965,
      "grad_norm": 0.5868542790412903,
      "learning_rate": 9.636650868878358e-06,
      "loss": 0.5178,
      "step": 24
    },
    {
      "epoch": 0.03949447077409163,
      "grad_norm": 0.6516690850257874,
      "learning_rate": 9.620853080568721e-06,
      "loss": 0.4281,
      "step": 25
    },
    {
      "epoch": 0.04107424960505529,
      "grad_norm": 0.7721027731895447,
      "learning_rate": 9.605055292259085e-06,
      "loss": 0.4979,
      "step": 26
    },
    {
      "epoch": 0.04265402843601896,
      "grad_norm": 0.6200973987579346,
      "learning_rate": 9.589257503949447e-06,
      "loss": 0.347,
      "step": 27
    },
    {
      "epoch": 0.044233807266982623,
      "grad_norm": 0.6557235717773438,
      "learning_rate": 9.573459715639811e-06,
      "loss": 0.3422,
      "step": 28
    },
    {
      "epoch": 0.045813586097946286,
      "grad_norm": 1.0422502756118774,
      "learning_rate": 9.557661927330175e-06,
      "loss": 0.4955,
      "step": 29
    },
    {
      "epoch": 0.04739336492890995,
      "grad_norm": 0.8272190093994141,
      "learning_rate": 9.541864139020539e-06,
      "loss": 0.434,
      "step": 30
    },
    {
      "epoch": 0.04897314375987362,
      "grad_norm": 0.5929948091506958,
      "learning_rate": 9.5260663507109e-06,
      "loss": 0.5042,
      "step": 31
    },
    {
      "epoch": 0.05055292259083728,
      "grad_norm": 0.7872880101203918,
      "learning_rate": 9.510268562401264e-06,
      "loss": 0.5175,
      "step": 32
    },
    {
      "epoch": 0.052132701421800945,
      "grad_norm": 0.6884463429450989,
      "learning_rate": 9.494470774091628e-06,
      "loss": 0.5104,
      "step": 33
    },
    {
      "epoch": 0.053712480252764615,
      "grad_norm": 1.215976357460022,
      "learning_rate": 9.478672985781992e-06,
      "loss": 0.4742,
      "step": 34
    },
    {
      "epoch": 0.05529225908372828,
      "grad_norm": 0.7471550107002258,
      "learning_rate": 9.462875197472354e-06,
      "loss": 0.4374,
      "step": 35
    },
    {
      "epoch": 0.05687203791469194,
      "grad_norm": 0.6779741048812866,
      "learning_rate": 9.447077409162718e-06,
      "loss": 0.4337,
      "step": 36
    },
    {
      "epoch": 0.05845181674565561,
      "grad_norm": 0.5205997824668884,
      "learning_rate": 9.431279620853082e-06,
      "loss": 0.4296,
      "step": 37
    },
    {
      "epoch": 0.06003159557661927,
      "grad_norm": 0.381757527589798,
      "learning_rate": 9.415481832543445e-06,
      "loss": 0.2223,
      "step": 38
    },
    {
      "epoch": 0.061611374407582936,
      "grad_norm": 0.650593101978302,
      "learning_rate": 9.399684044233807e-06,
      "loss": 0.5066,
      "step": 39
    },
    {
      "epoch": 0.0631911532385466,
      "grad_norm": 0.5445153117179871,
      "learning_rate": 9.383886255924171e-06,
      "loss": 0.4998,
      "step": 40
    },
    {
      "epoch": 0.06477093206951026,
      "grad_norm": 0.5024020671844482,
      "learning_rate": 9.368088467614535e-06,
      "loss": 0.4121,
      "step": 41
    },
    {
      "epoch": 0.06635071090047394,
      "grad_norm": 0.6259915232658386,
      "learning_rate": 9.352290679304899e-06,
      "loss": 0.4969,
      "step": 42
    },
    {
      "epoch": 0.0679304897314376,
      "grad_norm": 0.49405789375305176,
      "learning_rate": 9.336492890995261e-06,
      "loss": 0.4121,
      "step": 43
    },
    {
      "epoch": 0.06951026856240126,
      "grad_norm": 0.7586628198623657,
      "learning_rate": 9.320695102685625e-06,
      "loss": 0.4782,
      "step": 44
    },
    {
      "epoch": 0.07109004739336493,
      "grad_norm": 0.6203773021697998,
      "learning_rate": 9.304897314375988e-06,
      "loss": 0.3579,
      "step": 45
    },
    {
      "epoch": 0.07266982622432859,
      "grad_norm": 0.6982845067977905,
      "learning_rate": 9.289099526066352e-06,
      "loss": 0.3876,
      "step": 46
    },
    {
      "epoch": 0.07424960505529225,
      "grad_norm": 0.5712842345237732,
      "learning_rate": 9.273301737756714e-06,
      "loss": 0.4288,
      "step": 47
    },
    {
      "epoch": 0.07582938388625593,
      "grad_norm": 0.6829891204833984,
      "learning_rate": 9.257503949447078e-06,
      "loss": 0.4939,
      "step": 48
    },
    {
      "epoch": 0.07740916271721959,
      "grad_norm": 0.5508958101272583,
      "learning_rate": 9.241706161137442e-06,
      "loss": 0.372,
      "step": 49
    },
    {
      "epoch": 0.07898894154818326,
      "grad_norm": 0.9345032572746277,
      "learning_rate": 9.225908372827806e-06,
      "loss": 0.4896,
      "step": 50
    },
    {
      "epoch": 0.08056872037914692,
      "grad_norm": 0.6280492544174194,
      "learning_rate": 9.210110584518168e-06,
      "loss": 0.4375,
      "step": 51
    },
    {
      "epoch": 0.08214849921011058,
      "grad_norm": 0.6853601336479187,
      "learning_rate": 9.194312796208532e-06,
      "loss": 0.4294,
      "step": 52
    },
    {
      "epoch": 0.08372827804107424,
      "grad_norm": 0.6665984392166138,
      "learning_rate": 9.178515007898895e-06,
      "loss": 0.5894,
      "step": 53
    },
    {
      "epoch": 0.08530805687203792,
      "grad_norm": 0.5088407397270203,
      "learning_rate": 9.162717219589257e-06,
      "loss": 0.3853,
      "step": 54
    },
    {
      "epoch": 0.08688783570300158,
      "grad_norm": 0.5319867730140686,
      "learning_rate": 9.146919431279621e-06,
      "loss": 0.4791,
      "step": 55
    },
    {
      "epoch": 0.08846761453396525,
      "grad_norm": 0.6452597975730896,
      "learning_rate": 9.131121642969985e-06,
      "loss": 0.4056,
      "step": 56
    },
    {
      "epoch": 0.09004739336492891,
      "grad_norm": 0.6769601106643677,
      "learning_rate": 9.115323854660349e-06,
      "loss": 0.4253,
      "step": 57
    },
    {
      "epoch": 0.09162717219589257,
      "grad_norm": 0.5170547962188721,
      "learning_rate": 9.09952606635071e-06,
      "loss": 0.4211,
      "step": 58
    },
    {
      "epoch": 0.09320695102685624,
      "grad_norm": 0.5035193562507629,
      "learning_rate": 9.083728278041075e-06,
      "loss": 0.3144,
      "step": 59
    },
    {
      "epoch": 0.0947867298578199,
      "grad_norm": 0.5919070243835449,
      "learning_rate": 9.067930489731438e-06,
      "loss": 0.4533,
      "step": 60
    },
    {
      "epoch": 0.09636650868878358,
      "grad_norm": 0.6510637998580933,
      "learning_rate": 9.052132701421802e-06,
      "loss": 0.4701,
      "step": 61
    },
    {
      "epoch": 0.09794628751974724,
      "grad_norm": 0.5784177780151367,
      "learning_rate": 9.036334913112164e-06,
      "loss": 0.3896,
      "step": 62
    },
    {
      "epoch": 0.0995260663507109,
      "grad_norm": 0.7009139060974121,
      "learning_rate": 9.020537124802528e-06,
      "loss": 0.5018,
      "step": 63
    },
    {
      "epoch": 0.10110584518167456,
      "grad_norm": 0.5086057186126709,
      "learning_rate": 9.004739336492892e-06,
      "loss": 0.4305,
      "step": 64
    },
    {
      "epoch": 0.10268562401263823,
      "grad_norm": 0.5124595761299133,
      "learning_rate": 8.988941548183256e-06,
      "loss": 0.4473,
      "step": 65
    },
    {
      "epoch": 0.10426540284360189,
      "grad_norm": 0.6409702897071838,
      "learning_rate": 8.973143759873618e-06,
      "loss": 0.429,
      "step": 66
    },
    {
      "epoch": 0.10584518167456557,
      "grad_norm": 0.5651409029960632,
      "learning_rate": 8.957345971563981e-06,
      "loss": 0.4036,
      "step": 67
    },
    {
      "epoch": 0.10742496050552923,
      "grad_norm": 0.6658238172531128,
      "learning_rate": 8.941548183254345e-06,
      "loss": 0.4726,
      "step": 68
    },
    {
      "epoch": 0.10900473933649289,
      "grad_norm": 0.444815993309021,
      "learning_rate": 8.925750394944709e-06,
      "loss": 0.4016,
      "step": 69
    },
    {
      "epoch": 0.11058451816745656,
      "grad_norm": 0.5855506658554077,
      "learning_rate": 8.909952606635071e-06,
      "loss": 0.4531,
      "step": 70
    },
    {
      "epoch": 0.11216429699842022,
      "grad_norm": 0.693794310092926,
      "learning_rate": 8.894154818325435e-06,
      "loss": 0.4382,
      "step": 71
    },
    {
      "epoch": 0.11374407582938388,
      "grad_norm": 0.6658089756965637,
      "learning_rate": 8.878357030015799e-06,
      "loss": 0.4571,
      "step": 72
    },
    {
      "epoch": 0.11532385466034756,
      "grad_norm": 1.0504828691482544,
      "learning_rate": 8.862559241706162e-06,
      "loss": 0.4311,
      "step": 73
    },
    {
      "epoch": 0.11690363349131122,
      "grad_norm": 0.5297814607620239,
      "learning_rate": 8.846761453396524e-06,
      "loss": 0.4391,
      "step": 74
    },
    {
      "epoch": 0.11848341232227488,
      "grad_norm": 0.6601409316062927,
      "learning_rate": 8.830963665086888e-06,
      "loss": 0.5125,
      "step": 75
    },
    {
      "epoch": 0.12006319115323855,
      "grad_norm": 0.6345618963241577,
      "learning_rate": 8.815165876777252e-06,
      "loss": 0.4471,
      "step": 76
    },
    {
      "epoch": 0.12164296998420221,
      "grad_norm": 0.5008222460746765,
      "learning_rate": 8.799368088467614e-06,
      "loss": 0.3845,
      "step": 77
    },
    {
      "epoch": 0.12322274881516587,
      "grad_norm": 0.5394203066825867,
      "learning_rate": 8.783570300157978e-06,
      "loss": 0.4117,
      "step": 78
    },
    {
      "epoch": 0.12480252764612954,
      "grad_norm": 0.6255345940589905,
      "learning_rate": 8.767772511848342e-06,
      "loss": 0.512,
      "step": 79
    },
    {
      "epoch": 0.1263823064770932,
      "grad_norm": 0.6215748190879822,
      "learning_rate": 8.751974723538705e-06,
      "loss": 0.509,
      "step": 80
    },
    {
      "epoch": 0.12796208530805686,
      "grad_norm": 0.611587405204773,
      "learning_rate": 8.736176935229068e-06,
      "loss": 0.4036,
      "step": 81
    },
    {
      "epoch": 0.12954186413902052,
      "grad_norm": 0.5373330116271973,
      "learning_rate": 8.720379146919431e-06,
      "loss": 0.393,
      "step": 82
    },
    {
      "epoch": 0.13112164296998421,
      "grad_norm": 0.5936598181724548,
      "learning_rate": 8.704581358609795e-06,
      "loss": 0.4092,
      "step": 83
    },
    {
      "epoch": 0.13270142180094788,
      "grad_norm": 0.576614260673523,
      "learning_rate": 8.688783570300159e-06,
      "loss": 0.5513,
      "step": 84
    },
    {
      "epoch": 0.13428120063191154,
      "grad_norm": 0.5715078711509705,
      "learning_rate": 8.672985781990521e-06,
      "loss": 0.4403,
      "step": 85
    },
    {
      "epoch": 0.1358609794628752,
      "grad_norm": 0.6212042570114136,
      "learning_rate": 8.657187993680885e-06,
      "loss": 0.391,
      "step": 86
    },
    {
      "epoch": 0.13744075829383887,
      "grad_norm": 0.5439122319221497,
      "learning_rate": 8.641390205371249e-06,
      "loss": 0.4764,
      "step": 87
    },
    {
      "epoch": 0.13902053712480253,
      "grad_norm": 0.6808428168296814,
      "learning_rate": 8.625592417061612e-06,
      "loss": 0.512,
      "step": 88
    },
    {
      "epoch": 0.1406003159557662,
      "grad_norm": 0.7429847717285156,
      "learning_rate": 8.609794628751974e-06,
      "loss": 0.3834,
      "step": 89
    },
    {
      "epoch": 0.14218009478672985,
      "grad_norm": 0.6030511260032654,
      "learning_rate": 8.59399684044234e-06,
      "loss": 0.4631,
      "step": 90
    },
    {
      "epoch": 0.14375987361769352,
      "grad_norm": 0.6499682068824768,
      "learning_rate": 8.578199052132702e-06,
      "loss": 0.4484,
      "step": 91
    },
    {
      "epoch": 0.14533965244865718,
      "grad_norm": 0.6490275859832764,
      "learning_rate": 8.562401263823066e-06,
      "loss": 0.414,
      "step": 92
    },
    {
      "epoch": 0.14691943127962084,
      "grad_norm": 0.6859791874885559,
      "learning_rate": 8.546603475513428e-06,
      "loss": 0.386,
      "step": 93
    },
    {
      "epoch": 0.1484992101105845,
      "grad_norm": 0.5281291007995605,
      "learning_rate": 8.530805687203793e-06,
      "loss": 0.4036,
      "step": 94
    },
    {
      "epoch": 0.1500789889415482,
      "grad_norm": 0.5261964797973633,
      "learning_rate": 8.515007898894155e-06,
      "loss": 0.33,
      "step": 95
    },
    {
      "epoch": 0.15165876777251186,
      "grad_norm": 0.4350665211677551,
      "learning_rate": 8.499210110584519e-06,
      "loss": 0.3347,
      "step": 96
    },
    {
      "epoch": 0.15323854660347552,
      "grad_norm": 0.8448456525802612,
      "learning_rate": 8.483412322274883e-06,
      "loss": 0.4253,
      "step": 97
    },
    {
      "epoch": 0.15481832543443919,
      "grad_norm": 0.6256837248802185,
      "learning_rate": 8.467614533965247e-06,
      "loss": 0.4464,
      "step": 98
    },
    {
      "epoch": 0.15639810426540285,
      "grad_norm": 0.7007749676704407,
      "learning_rate": 8.451816745655609e-06,
      "loss": 0.4641,
      "step": 99
    },
    {
      "epoch": 0.1579778830963665,
      "grad_norm": 0.6551494002342224,
      "learning_rate": 8.436018957345973e-06,
      "loss": 0.5097,
      "step": 100
    },
    {
      "epoch": 0.15955766192733017,
      "grad_norm": 0.5944113731384277,
      "learning_rate": 8.420221169036336e-06,
      "loss": 0.4554,
      "step": 101
    },
    {
      "epoch": 0.16113744075829384,
      "grad_norm": 0.5755615234375,
      "learning_rate": 8.4044233807267e-06,
      "loss": 0.443,
      "step": 102
    },
    {
      "epoch": 0.1627172195892575,
      "grad_norm": 0.5263962745666504,
      "learning_rate": 8.388625592417062e-06,
      "loss": 0.4355,
      "step": 103
    },
    {
      "epoch": 0.16429699842022116,
      "grad_norm": 0.6115814447402954,
      "learning_rate": 8.372827804107424e-06,
      "loss": 0.4863,
      "step": 104
    },
    {
      "epoch": 0.16587677725118483,
      "grad_norm": 0.5544970631599426,
      "learning_rate": 8.35703001579779e-06,
      "loss": 0.3979,
      "step": 105
    },
    {
      "epoch": 0.1674565560821485,
      "grad_norm": 0.5588533878326416,
      "learning_rate": 8.341232227488152e-06,
      "loss": 0.4073,
      "step": 106
    },
    {
      "epoch": 0.16903633491311215,
      "grad_norm": 0.578982949256897,
      "learning_rate": 8.325434439178516e-06,
      "loss": 0.3745,
      "step": 107
    },
    {
      "epoch": 0.17061611374407584,
      "grad_norm": 0.4955246150493622,
      "learning_rate": 8.30963665086888e-06,
      "loss": 0.438,
      "step": 108
    },
    {
      "epoch": 0.1721958925750395,
      "grad_norm": 0.593362033367157,
      "learning_rate": 8.293838862559243e-06,
      "loss": 0.4161,
      "step": 109
    },
    {
      "epoch": 0.17377567140600317,
      "grad_norm": 0.5000883340835571,
      "learning_rate": 8.278041074249605e-06,
      "loss": 0.432,
      "step": 110
    },
    {
      "epoch": 0.17535545023696683,
      "grad_norm": 0.5794082880020142,
      "learning_rate": 8.262243285939969e-06,
      "loss": 0.4431,
      "step": 111
    },
    {
      "epoch": 0.1769352290679305,
      "grad_norm": 0.6179563999176025,
      "learning_rate": 8.246445497630333e-06,
      "loss": 0.3871,
      "step": 112
    },
    {
      "epoch": 0.17851500789889416,
      "grad_norm": 0.6540956497192383,
      "learning_rate": 8.230647709320697e-06,
      "loss": 0.3706,
      "step": 113
    },
    {
      "epoch": 0.18009478672985782,
      "grad_norm": 0.7029737234115601,
      "learning_rate": 8.214849921011059e-06,
      "loss": 0.5077,
      "step": 114
    },
    {
      "epoch": 0.18167456556082148,
      "grad_norm": 0.5466600656509399,
      "learning_rate": 8.199052132701422e-06,
      "loss": 0.4634,
      "step": 115
    },
    {
      "epoch": 0.18325434439178515,
      "grad_norm": 0.5513831973075867,
      "learning_rate": 8.183254344391786e-06,
      "loss": 0.4457,
      "step": 116
    },
    {
      "epoch": 0.1848341232227488,
      "grad_norm": 0.7652455568313599,
      "learning_rate": 8.16745655608215e-06,
      "loss": 0.4376,
      "step": 117
    },
    {
      "epoch": 0.18641390205371247,
      "grad_norm": 0.6213077902793884,
      "learning_rate": 8.151658767772512e-06,
      "loss": 0.3988,
      "step": 118
    },
    {
      "epoch": 0.18799368088467613,
      "grad_norm": 0.50051349401474,
      "learning_rate": 8.135860979462876e-06,
      "loss": 0.4142,
      "step": 119
    },
    {
      "epoch": 0.1895734597156398,
      "grad_norm": 0.8015328049659729,
      "learning_rate": 8.12006319115324e-06,
      "loss": 0.4474,
      "step": 120
    },
    {
      "epoch": 0.1911532385466035,
      "grad_norm": 0.6595532298088074,
      "learning_rate": 8.104265402843603e-06,
      "loss": 0.5173,
      "step": 121
    },
    {
      "epoch": 0.19273301737756715,
      "grad_norm": 0.7859697937965393,
      "learning_rate": 8.088467614533966e-06,
      "loss": 0.4465,
      "step": 122
    },
    {
      "epoch": 0.1943127962085308,
      "grad_norm": 0.6508023738861084,
      "learning_rate": 8.07266982622433e-06,
      "loss": 0.4448,
      "step": 123
    },
    {
      "epoch": 0.19589257503949448,
      "grad_norm": 0.49232304096221924,
      "learning_rate": 8.056872037914693e-06,
      "loss": 0.4005,
      "step": 124
    },
    {
      "epoch": 0.19747235387045814,
      "grad_norm": 0.6464349031448364,
      "learning_rate": 8.041074249605057e-06,
      "loss": 0.47,
      "step": 125
    },
    {
      "epoch": 0.1990521327014218,
      "grad_norm": 0.5296919345855713,
      "learning_rate": 8.025276461295419e-06,
      "loss": 0.4247,
      "step": 126
    },
    {
      "epoch": 0.20063191153238547,
      "grad_norm": 0.6270297765731812,
      "learning_rate": 8.009478672985783e-06,
      "loss": 0.5397,
      "step": 127
    },
    {
      "epoch": 0.20221169036334913,
      "grad_norm": 0.6148909330368042,
      "learning_rate": 7.993680884676147e-06,
      "loss": 0.4133,
      "step": 128
    },
    {
      "epoch": 0.2037914691943128,
      "grad_norm": 0.7778130173683167,
      "learning_rate": 7.977883096366509e-06,
      "loss": 0.5119,
      "step": 129
    },
    {
      "epoch": 0.20537124802527645,
      "grad_norm": 0.47952044010162354,
      "learning_rate": 7.962085308056872e-06,
      "loss": 0.386,
      "step": 130
    },
    {
      "epoch": 0.20695102685624012,
      "grad_norm": 0.5951160788536072,
      "learning_rate": 7.946287519747236e-06,
      "loss": 0.5101,
      "step": 131
    },
    {
      "epoch": 0.20853080568720378,
      "grad_norm": 0.6209789514541626,
      "learning_rate": 7.9304897314376e-06,
      "loss": 0.4988,
      "step": 132
    },
    {
      "epoch": 0.21011058451816747,
      "grad_norm": 0.5093654990196228,
      "learning_rate": 7.914691943127962e-06,
      "loss": 0.374,
      "step": 133
    },
    {
      "epoch": 0.21169036334913113,
      "grad_norm": 0.5125884413719177,
      "learning_rate": 7.898894154818326e-06,
      "loss": 0.4097,
      "step": 134
    },
    {
      "epoch": 0.2132701421800948,
      "grad_norm": 0.5116066932678223,
      "learning_rate": 7.88309636650869e-06,
      "loss": 0.4643,
      "step": 135
    },
    {
      "epoch": 0.21484992101105846,
      "grad_norm": 0.5778034329414368,
      "learning_rate": 7.867298578199053e-06,
      "loss": 0.4645,
      "step": 136
    },
    {
      "epoch": 0.21642969984202212,
      "grad_norm": 0.6490422487258911,
      "learning_rate": 7.851500789889415e-06,
      "loss": 0.4825,
      "step": 137
    },
    {
      "epoch": 0.21800947867298578,
      "grad_norm": 0.644008219242096,
      "learning_rate": 7.83570300157978e-06,
      "loss": 0.3954,
      "step": 138
    },
    {
      "epoch": 0.21958925750394945,
      "grad_norm": 0.8628047704696655,
      "learning_rate": 7.819905213270143e-06,
      "loss": 0.5322,
      "step": 139
    },
    {
      "epoch": 0.2211690363349131,
      "grad_norm": 0.6286507844924927,
      "learning_rate": 7.804107424960507e-06,
      "loss": 0.3741,
      "step": 140
    },
    {
      "epoch": 0.22274881516587677,
      "grad_norm": 0.6210809350013733,
      "learning_rate": 7.788309636650869e-06,
      "loss": 0.4572,
      "step": 141
    },
    {
      "epoch": 0.22432859399684044,
      "grad_norm": 0.5337722897529602,
      "learning_rate": 7.772511848341233e-06,
      "loss": 0.3788,
      "step": 142
    },
    {
      "epoch": 0.2259083728278041,
      "grad_norm": 0.5743194818496704,
      "learning_rate": 7.756714060031596e-06,
      "loss": 0.3963,
      "step": 143
    },
    {
      "epoch": 0.22748815165876776,
      "grad_norm": 0.4972652792930603,
      "learning_rate": 7.74091627172196e-06,
      "loss": 0.2906,
      "step": 144
    },
    {
      "epoch": 0.22906793048973143,
      "grad_norm": 0.5239664316177368,
      "learning_rate": 7.725118483412322e-06,
      "loss": 0.4009,
      "step": 145
    },
    {
      "epoch": 0.23064770932069512,
      "grad_norm": 0.5151936411857605,
      "learning_rate": 7.709320695102686e-06,
      "loss": 0.4208,
      "step": 146
    },
    {
      "epoch": 0.23222748815165878,
      "grad_norm": 0.6128547191619873,
      "learning_rate": 7.69352290679305e-06,
      "loss": 0.4779,
      "step": 147
    },
    {
      "epoch": 0.23380726698262244,
      "grad_norm": 0.5268502235412598,
      "learning_rate": 7.677725118483414e-06,
      "loss": 0.4219,
      "step": 148
    },
    {
      "epoch": 0.2353870458135861,
      "grad_norm": 0.5439866185188293,
      "learning_rate": 7.661927330173776e-06,
      "loss": 0.4436,
      "step": 149
    },
    {
      "epoch": 0.23696682464454977,
      "grad_norm": 0.5291867852210999,
      "learning_rate": 7.64612954186414e-06,
      "loss": 0.407,
      "step": 150
    },
    {
      "epoch": 0.23854660347551343,
      "grad_norm": 0.6638155579566956,
      "learning_rate": 7.630331753554503e-06,
      "loss": 0.403,
      "step": 151
    },
    {
      "epoch": 0.2401263823064771,
      "grad_norm": 0.5501230955123901,
      "learning_rate": 7.614533965244867e-06,
      "loss": 0.5004,
      "step": 152
    },
    {
      "epoch": 0.24170616113744076,
      "grad_norm": 0.5949499011039734,
      "learning_rate": 7.59873617693523e-06,
      "loss": 0.4708,
      "step": 153
    },
    {
      "epoch": 0.24328593996840442,
      "grad_norm": 0.5841517448425293,
      "learning_rate": 7.582938388625593e-06,
      "loss": 0.4836,
      "step": 154
    },
    {
      "epoch": 0.24486571879936808,
      "grad_norm": 0.6298154592514038,
      "learning_rate": 7.567140600315957e-06,
      "loss": 0.4728,
      "step": 155
    },
    {
      "epoch": 0.24644549763033174,
      "grad_norm": 0.6107637882232666,
      "learning_rate": 7.55134281200632e-06,
      "loss": 0.4243,
      "step": 156
    },
    {
      "epoch": 0.2480252764612954,
      "grad_norm": 0.5174968838691711,
      "learning_rate": 7.535545023696683e-06,
      "loss": 0.4657,
      "step": 157
    },
    {
      "epoch": 0.24960505529225907,
      "grad_norm": 0.5588591694831848,
      "learning_rate": 7.519747235387046e-06,
      "loss": 0.4567,
      "step": 158
    },
    {
      "epoch": 0.25118483412322273,
      "grad_norm": 0.8415222764015198,
      "learning_rate": 7.50394944707741e-06,
      "loss": 0.4625,
      "step": 159
    },
    {
      "epoch": 0.2527646129541864,
      "grad_norm": 0.6054974794387817,
      "learning_rate": 7.488151658767773e-06,
      "loss": 0.3843,
      "step": 160
    },
    {
      "epoch": 0.25434439178515006,
      "grad_norm": 0.5117557644844055,
      "learning_rate": 7.472353870458137e-06,
      "loss": 0.3887,
      "step": 161
    },
    {
      "epoch": 0.2559241706161137,
      "grad_norm": 0.5849332213401794,
      "learning_rate": 7.4565560821485e-06,
      "loss": 0.4528,
      "step": 162
    },
    {
      "epoch": 0.2575039494470774,
      "grad_norm": 0.5625325441360474,
      "learning_rate": 7.4407582938388635e-06,
      "loss": 0.4542,
      "step": 163
    },
    {
      "epoch": 0.25908372827804105,
      "grad_norm": 0.5406492352485657,
      "learning_rate": 7.4249605055292264e-06,
      "loss": 0.4592,
      "step": 164
    },
    {
      "epoch": 0.26066350710900477,
      "grad_norm": 0.6318654417991638,
      "learning_rate": 7.40916271721959e-06,
      "loss": 0.4361,
      "step": 165
    },
    {
      "epoch": 0.26224328593996843,
      "grad_norm": 0.5719902515411377,
      "learning_rate": 7.393364928909953e-06,
      "loss": 0.4799,
      "step": 166
    },
    {
      "epoch": 0.2638230647709321,
      "grad_norm": 0.5211177468299866,
      "learning_rate": 7.377567140600317e-06,
      "loss": 0.33,
      "step": 167
    },
    {
      "epoch": 0.26540284360189575,
      "grad_norm": 0.6400920152664185,
      "learning_rate": 7.36176935229068e-06,
      "loss": 0.4235,
      "step": 168
    },
    {
      "epoch": 0.2669826224328594,
      "grad_norm": 0.5302186608314514,
      "learning_rate": 7.345971563981044e-06,
      "loss": 0.4342,
      "step": 169
    },
    {
      "epoch": 0.2685624012638231,
      "grad_norm": 0.5393325686454773,
      "learning_rate": 7.3301737756714066e-06,
      "loss": 0.3632,
      "step": 170
    },
    {
      "epoch": 0.27014218009478674,
      "grad_norm": 0.5409063696861267,
      "learning_rate": 7.31437598736177e-06,
      "loss": 0.4076,
      "step": 171
    },
    {
      "epoch": 0.2717219589257504,
      "grad_norm": 0.5056774616241455,
      "learning_rate": 7.298578199052133e-06,
      "loss": 0.4821,
      "step": 172
    },
    {
      "epoch": 0.27330173775671407,
      "grad_norm": 0.6061700582504272,
      "learning_rate": 7.282780410742497e-06,
      "loss": 0.5137,
      "step": 173
    },
    {
      "epoch": 0.27488151658767773,
      "grad_norm": 0.5524815917015076,
      "learning_rate": 7.26698262243286e-06,
      "loss": 0.4116,
      "step": 174
    },
    {
      "epoch": 0.2764612954186414,
      "grad_norm": 0.5045567750930786,
      "learning_rate": 7.251184834123224e-06,
      "loss": 0.3969,
      "step": 175
    },
    {
      "epoch": 0.27804107424960506,
      "grad_norm": 0.604505717754364,
      "learning_rate": 7.235387045813587e-06,
      "loss": 0.5176,
      "step": 176
    },
    {
      "epoch": 0.2796208530805687,
      "grad_norm": 0.6067575812339783,
      "learning_rate": 7.2195892575039505e-06,
      "loss": 0.4438,
      "step": 177
    },
    {
      "epoch": 0.2812006319115324,
      "grad_norm": 0.6412494778633118,
      "learning_rate": 7.203791469194313e-06,
      "loss": 0.4758,
      "step": 178
    },
    {
      "epoch": 0.28278041074249605,
      "grad_norm": 0.5432886481285095,
      "learning_rate": 7.187993680884676e-06,
      "loss": 0.4387,
      "step": 179
    },
    {
      "epoch": 0.2843601895734597,
      "grad_norm": 0.4622472822666168,
      "learning_rate": 7.17219589257504e-06,
      "loss": 0.4775,
      "step": 180
    },
    {
      "epoch": 0.2859399684044234,
      "grad_norm": 0.643259584903717,
      "learning_rate": 7.156398104265403e-06,
      "loss": 0.4479,
      "step": 181
    },
    {
      "epoch": 0.28751974723538704,
      "grad_norm": 0.48998138308525085,
      "learning_rate": 7.140600315955767e-06,
      "loss": 0.399,
      "step": 182
    },
    {
      "epoch": 0.2890995260663507,
      "grad_norm": 0.5146614909172058,
      "learning_rate": 7.12480252764613e-06,
      "loss": 0.4475,
      "step": 183
    },
    {
      "epoch": 0.29067930489731436,
      "grad_norm": 0.5386670231819153,
      "learning_rate": 7.1090047393364935e-06,
      "loss": 0.3892,
      "step": 184
    },
    {
      "epoch": 0.292259083728278,
      "grad_norm": 0.5147759318351746,
      "learning_rate": 7.0932069510268565e-06,
      "loss": 0.3755,
      "step": 185
    },
    {
      "epoch": 0.2938388625592417,
      "grad_norm": 0.5141321420669556,
      "learning_rate": 7.07740916271722e-06,
      "loss": 0.355,
      "step": 186
    },
    {
      "epoch": 0.29541864139020535,
      "grad_norm": 0.9518134593963623,
      "learning_rate": 7.061611374407583e-06,
      "loss": 0.4021,
      "step": 187
    },
    {
      "epoch": 0.296998420221169,
      "grad_norm": 0.5844981670379639,
      "learning_rate": 7.045813586097947e-06,
      "loss": 0.4233,
      "step": 188
    },
    {
      "epoch": 0.2985781990521327,
      "grad_norm": 0.6381546854972839,
      "learning_rate": 7.03001579778831e-06,
      "loss": 0.4862,
      "step": 189
    },
    {
      "epoch": 0.3001579778830964,
      "grad_norm": 0.7311195135116577,
      "learning_rate": 7.014218009478674e-06,
      "loss": 0.4822,
      "step": 190
    },
    {
      "epoch": 0.30173775671406006,
      "grad_norm": 0.5827596783638,
      "learning_rate": 6.998420221169037e-06,
      "loss": 0.4027,
      "step": 191
    },
    {
      "epoch": 0.3033175355450237,
      "grad_norm": 0.6907688975334167,
      "learning_rate": 6.9826224328594e-06,
      "loss": 0.4374,
      "step": 192
    },
    {
      "epoch": 0.3048973143759874,
      "grad_norm": 0.5060120820999146,
      "learning_rate": 6.966824644549763e-06,
      "loss": 0.4226,
      "step": 193
    },
    {
      "epoch": 0.30647709320695105,
      "grad_norm": 0.41480544209480286,
      "learning_rate": 6.951026856240127e-06,
      "loss": 0.3766,
      "step": 194
    },
    {
      "epoch": 0.3080568720379147,
      "grad_norm": 0.5637404322624207,
      "learning_rate": 6.93522906793049e-06,
      "loss": 0.4365,
      "step": 195
    },
    {
      "epoch": 0.30963665086887837,
      "grad_norm": 0.6389409899711609,
      "learning_rate": 6.919431279620854e-06,
      "loss": 0.4186,
      "step": 196
    },
    {
      "epoch": 0.31121642969984203,
      "grad_norm": 0.48588162660598755,
      "learning_rate": 6.903633491311217e-06,
      "loss": 0.4023,
      "step": 197
    },
    {
      "epoch": 0.3127962085308057,
      "grad_norm": 0.6066514253616333,
      "learning_rate": 6.8878357030015805e-06,
      "loss": 0.4652,
      "step": 198
    },
    {
      "epoch": 0.31437598736176936,
      "grad_norm": 0.6308689117431641,
      "learning_rate": 6.8720379146919435e-06,
      "loss": 0.3885,
      "step": 199
    },
    {
      "epoch": 0.315955766192733,
      "grad_norm": 0.4883437752723694,
      "learning_rate": 6.856240126382307e-06,
      "loss": 0.4128,
      "step": 200
    },
    {
      "epoch": 0.3175355450236967,
      "grad_norm": 0.720086932182312,
      "learning_rate": 6.84044233807267e-06,
      "loss": 0.4333,
      "step": 201
    },
    {
      "epoch": 0.31911532385466035,
      "grad_norm": 0.6698761582374573,
      "learning_rate": 6.824644549763034e-06,
      "loss": 0.3967,
      "step": 202
    },
    {
      "epoch": 0.320695102685624,
      "grad_norm": 0.5240082740783691,
      "learning_rate": 6.808846761453397e-06,
      "loss": 0.4055,
      "step": 203
    },
    {
      "epoch": 0.3222748815165877,
      "grad_norm": 0.6142946481704712,
      "learning_rate": 6.79304897314376e-06,
      "loss": 0.3645,
      "step": 204
    },
    {
      "epoch": 0.32385466034755134,
      "grad_norm": 0.6439379453659058,
      "learning_rate": 6.777251184834124e-06,
      "loss": 0.3207,
      "step": 205
    },
    {
      "epoch": 0.325434439178515,
      "grad_norm": 0.6862720847129822,
      "learning_rate": 6.7614533965244865e-06,
      "loss": 0.4944,
      "step": 206
    },
    {
      "epoch": 0.32701421800947866,
      "grad_norm": 0.6720433235168457,
      "learning_rate": 6.74565560821485e-06,
      "loss": 0.4335,
      "step": 207
    },
    {
      "epoch": 0.3285939968404423,
      "grad_norm": 0.531577467918396,
      "learning_rate": 6.729857819905213e-06,
      "loss": 0.5327,
      "step": 208
    },
    {
      "epoch": 0.330173775671406,
      "grad_norm": 0.5542590022087097,
      "learning_rate": 6.714060031595577e-06,
      "loss": 0.3629,
      "step": 209
    },
    {
      "epoch": 0.33175355450236965,
      "grad_norm": 0.5614448189735413,
      "learning_rate": 6.69826224328594e-06,
      "loss": 0.4097,
      "step": 210
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.7383466362953186,
      "learning_rate": 6.682464454976304e-06,
      "loss": 0.5031,
      "step": 211
    },
    {
      "epoch": 0.334913112164297,
      "grad_norm": 0.6345497965812683,
      "learning_rate": 6.666666666666667e-06,
      "loss": 0.5029,
      "step": 212
    },
    {
      "epoch": 0.33649289099526064,
      "grad_norm": 0.579641580581665,
      "learning_rate": 6.6508688783570304e-06,
      "loss": 0.4949,
      "step": 213
    },
    {
      "epoch": 0.3380726698262243,
      "grad_norm": 0.5040780305862427,
      "learning_rate": 6.635071090047393e-06,
      "loss": 0.4537,
      "step": 214
    },
    {
      "epoch": 0.33965244865718797,
      "grad_norm": 0.5917491316795349,
      "learning_rate": 6.619273301737757e-06,
      "loss": 0.3883,
      "step": 215
    },
    {
      "epoch": 0.3412322274881517,
      "grad_norm": 0.7031399011611938,
      "learning_rate": 6.60347551342812e-06,
      "loss": 0.4554,
      "step": 216
    },
    {
      "epoch": 0.34281200631911535,
      "grad_norm": 0.5503798127174377,
      "learning_rate": 6.587677725118484e-06,
      "loss": 0.352,
      "step": 217
    },
    {
      "epoch": 0.344391785150079,
      "grad_norm": 0.5412716269493103,
      "learning_rate": 6.571879936808847e-06,
      "loss": 0.4191,
      "step": 218
    },
    {
      "epoch": 0.3459715639810427,
      "grad_norm": 0.6272369623184204,
      "learning_rate": 6.556082148499211e-06,
      "loss": 0.4595,
      "step": 219
    },
    {
      "epoch": 0.34755134281200634,
      "grad_norm": 0.5309504270553589,
      "learning_rate": 6.5402843601895735e-06,
      "loss": 0.4095,
      "step": 220
    },
    {
      "epoch": 0.34913112164297,
      "grad_norm": 0.5687200427055359,
      "learning_rate": 6.524486571879938e-06,
      "loss": 0.435,
      "step": 221
    },
    {
      "epoch": 0.35071090047393366,
      "grad_norm": 0.5819438099861145,
      "learning_rate": 6.5086887835703e-06,
      "loss": 0.4695,
      "step": 222
    },
    {
      "epoch": 0.3522906793048973,
      "grad_norm": 0.6310110092163086,
      "learning_rate": 6.492890995260665e-06,
      "loss": 0.4346,
      "step": 223
    },
    {
      "epoch": 0.353870458135861,
      "grad_norm": 0.5838906168937683,
      "learning_rate": 6.477093206951027e-06,
      "loss": 0.47,
      "step": 224
    },
    {
      "epoch": 0.35545023696682465,
      "grad_norm": 0.6752678155899048,
      "learning_rate": 6.4612954186413915e-06,
      "loss": 0.3842,
      "step": 225
    },
    {
      "epoch": 0.3570300157977883,
      "grad_norm": 0.7029111981391907,
      "learning_rate": 6.445497630331754e-06,
      "loss": 0.4442,
      "step": 226
    },
    {
      "epoch": 0.358609794628752,
      "grad_norm": 0.511812686920166,
      "learning_rate": 6.429699842022118e-06,
      "loss": 0.5171,
      "step": 227
    },
    {
      "epoch": 0.36018957345971564,
      "grad_norm": 0.49457868933677673,
      "learning_rate": 6.413902053712481e-06,
      "loss": 0.3695,
      "step": 228
    },
    {
      "epoch": 0.3617693522906793,
      "grad_norm": 0.4521022439002991,
      "learning_rate": 6.398104265402843e-06,
      "loss": 0.3909,
      "step": 229
    },
    {
      "epoch": 0.36334913112164297,
      "grad_norm": 0.45229026675224304,
      "learning_rate": 6.382306477093208e-06,
      "loss": 0.3417,
      "step": 230
    },
    {
      "epoch": 0.36492890995260663,
      "grad_norm": 0.5070056915283203,
      "learning_rate": 6.36650868878357e-06,
      "loss": 0.3518,
      "step": 231
    },
    {
      "epoch": 0.3665086887835703,
      "grad_norm": 0.9325531721115112,
      "learning_rate": 6.350710900473935e-06,
      "loss": 0.5172,
      "step": 232
    },
    {
      "epoch": 0.36808846761453395,
      "grad_norm": 0.6027977466583252,
      "learning_rate": 6.334913112164297e-06,
      "loss": 0.4052,
      "step": 233
    },
    {
      "epoch": 0.3696682464454976,
      "grad_norm": 0.7251097559928894,
      "learning_rate": 6.319115323854661e-06,
      "loss": 0.4739,
      "step": 234
    },
    {
      "epoch": 0.3712480252764613,
      "grad_norm": 0.6470052003860474,
      "learning_rate": 6.303317535545023e-06,
      "loss": 0.4745,
      "step": 235
    },
    {
      "epoch": 0.37282780410742494,
      "grad_norm": 0.7177411317825317,
      "learning_rate": 6.287519747235388e-06,
      "loss": 0.364,
      "step": 236
    },
    {
      "epoch": 0.3744075829383886,
      "grad_norm": 0.7681677341461182,
      "learning_rate": 6.271721958925751e-06,
      "loss": 0.4559,
      "step": 237
    },
    {
      "epoch": 0.37598736176935227,
      "grad_norm": 0.6160128116607666,
      "learning_rate": 6.255924170616115e-06,
      "loss": 0.421,
      "step": 238
    },
    {
      "epoch": 0.37756714060031593,
      "grad_norm": 0.658981442451477,
      "learning_rate": 6.240126382306478e-06,
      "loss": 0.3979,
      "step": 239
    },
    {
      "epoch": 0.3791469194312796,
      "grad_norm": 0.9422373175621033,
      "learning_rate": 6.2243285939968414e-06,
      "loss": 0.3586,
      "step": 240
    },
    {
      "epoch": 0.3807266982622433,
      "grad_norm": 0.5452501773834229,
      "learning_rate": 6.208530805687204e-06,
      "loss": 0.4209,
      "step": 241
    },
    {
      "epoch": 0.382306477093207,
      "grad_norm": 0.4912925660610199,
      "learning_rate": 6.192733017377568e-06,
      "loss": 0.4784,
      "step": 242
    },
    {
      "epoch": 0.38388625592417064,
      "grad_norm": 0.6575455665588379,
      "learning_rate": 6.176935229067931e-06,
      "loss": 0.4062,
      "step": 243
    },
    {
      "epoch": 0.3854660347551343,
      "grad_norm": 0.8840091824531555,
      "learning_rate": 6.161137440758295e-06,
      "loss": 0.4177,
      "step": 244
    },
    {
      "epoch": 0.38704581358609796,
      "grad_norm": 0.5949338674545288,
      "learning_rate": 6.145339652448658e-06,
      "loss": 0.4477,
      "step": 245
    },
    {
      "epoch": 0.3886255924170616,
      "grad_norm": 0.5938326120376587,
      "learning_rate": 6.1295418641390216e-06,
      "loss": 0.4155,
      "step": 246
    },
    {
      "epoch": 0.3902053712480253,
      "grad_norm": 0.5401394367218018,
      "learning_rate": 6.1137440758293845e-06,
      "loss": 0.3873,
      "step": 247
    },
    {
      "epoch": 0.39178515007898895,
      "grad_norm": 0.5220497846603394,
      "learning_rate": 6.097946287519748e-06,
      "loss": 0.3803,
      "step": 248
    },
    {
      "epoch": 0.3933649289099526,
      "grad_norm": 0.5426644086837769,
      "learning_rate": 6.082148499210111e-06,
      "loss": 0.3239,
      "step": 249
    },
    {
      "epoch": 0.3949447077409163,
      "grad_norm": 0.5215898156166077,
      "learning_rate": 6.066350710900475e-06,
      "loss": 0.4373,
      "step": 250
    },
    {
      "epoch": 0.39652448657187994,
      "grad_norm": 0.5694135427474976,
      "learning_rate": 6.050552922590838e-06,
      "loss": 0.4948,
      "step": 251
    },
    {
      "epoch": 0.3981042654028436,
      "grad_norm": 0.5505183339118958,
      "learning_rate": 6.034755134281202e-06,
      "loss": 0.4108,
      "step": 252
    },
    {
      "epoch": 0.39968404423380727,
      "grad_norm": 0.593190610408783,
      "learning_rate": 6.018957345971565e-06,
      "loss": 0.429,
      "step": 253
    },
    {
      "epoch": 0.40126382306477093,
      "grad_norm": 0.5409046411514282,
      "learning_rate": 6.003159557661928e-06,
      "loss": 0.4443,
      "step": 254
    },
    {
      "epoch": 0.4028436018957346,
      "grad_norm": 0.5520291328430176,
      "learning_rate": 5.987361769352291e-06,
      "loss": 0.4485,
      "step": 255
    },
    {
      "epoch": 0.40442338072669826,
      "grad_norm": 0.5622429847717285,
      "learning_rate": 5.971563981042654e-06,
      "loss": 0.4181,
      "step": 256
    },
    {
      "epoch": 0.4060031595576619,
      "grad_norm": 0.5267983078956604,
      "learning_rate": 5.955766192733018e-06,
      "loss": 0.4235,
      "step": 257
    },
    {
      "epoch": 0.4075829383886256,
      "grad_norm": 0.5384082198143005,
      "learning_rate": 5.939968404423381e-06,
      "loss": 0.4055,
      "step": 258
    },
    {
      "epoch": 0.40916271721958924,
      "grad_norm": 0.5427289605140686,
      "learning_rate": 5.924170616113745e-06,
      "loss": 0.3427,
      "step": 259
    },
    {
      "epoch": 0.4107424960505529,
      "grad_norm": 0.4936423599720001,
      "learning_rate": 5.908372827804108e-06,
      "loss": 0.4133,
      "step": 260
    },
    {
      "epoch": 0.41232227488151657,
      "grad_norm": 0.5825520753860474,
      "learning_rate": 5.8925750394944715e-06,
      "loss": 0.377,
      "step": 261
    },
    {
      "epoch": 0.41390205371248023,
      "grad_norm": 0.6343340277671814,
      "learning_rate": 5.876777251184834e-06,
      "loss": 0.441,
      "step": 262
    },
    {
      "epoch": 0.4154818325434439,
      "grad_norm": 0.5479387044906616,
      "learning_rate": 5.860979462875198e-06,
      "loss": 0.4353,
      "step": 263
    },
    {
      "epoch": 0.41706161137440756,
      "grad_norm": 0.5873805284500122,
      "learning_rate": 5.845181674565561e-06,
      "loss": 0.4293,
      "step": 264
    },
    {
      "epoch": 0.4186413902053712,
      "grad_norm": 0.6624792218208313,
      "learning_rate": 5.829383886255925e-06,
      "loss": 0.5162,
      "step": 265
    },
    {
      "epoch": 0.42022116903633494,
      "grad_norm": 0.5797149538993835,
      "learning_rate": 5.813586097946288e-06,
      "loss": 0.3651,
      "step": 266
    },
    {
      "epoch": 0.4218009478672986,
      "grad_norm": 0.5814763903617859,
      "learning_rate": 5.797788309636652e-06,
      "loss": 0.3817,
      "step": 267
    },
    {
      "epoch": 0.42338072669826227,
      "grad_norm": 0.5556735992431641,
      "learning_rate": 5.7819905213270145e-06,
      "loss": 0.4186,
      "step": 268
    },
    {
      "epoch": 0.42496050552922593,
      "grad_norm": 0.5842727422714233,
      "learning_rate": 5.766192733017378e-06,
      "loss": 0.4343,
      "step": 269
    },
    {
      "epoch": 0.4265402843601896,
      "grad_norm": 0.5401722192764282,
      "learning_rate": 5.750394944707741e-06,
      "loss": 0.4418,
      "step": 270
    },
    {
      "epoch": 0.42812006319115326,
      "grad_norm": 0.5917039513587952,
      "learning_rate": 5.734597156398105e-06,
      "loss": 0.5371,
      "step": 271
    },
    {
      "epoch": 0.4296998420221169,
      "grad_norm": 0.5991331338882446,
      "learning_rate": 5.718799368088468e-06,
      "loss": 0.4969,
      "step": 272
    },
    {
      "epoch": 0.4312796208530806,
      "grad_norm": 0.4709448218345642,
      "learning_rate": 5.703001579778832e-06,
      "loss": 0.4139,
      "step": 273
    },
    {
      "epoch": 0.43285939968404424,
      "grad_norm": 0.5746496319770813,
      "learning_rate": 5.687203791469195e-06,
      "loss": 0.4683,
      "step": 274
    },
    {
      "epoch": 0.4344391785150079,
      "grad_norm": 0.523835301399231,
      "learning_rate": 5.6714060031595584e-06,
      "loss": 0.4346,
      "step": 275
    },
    {
      "epoch": 0.43601895734597157,
      "grad_norm": 0.5292810797691345,
      "learning_rate": 5.655608214849921e-06,
      "loss": 0.463,
      "step": 276
    },
    {
      "epoch": 0.43759873617693523,
      "grad_norm": 0.6543466448783875,
      "learning_rate": 5.639810426540285e-06,
      "loss": 0.427,
      "step": 277
    },
    {
      "epoch": 0.4391785150078989,
      "grad_norm": 0.5543989539146423,
      "learning_rate": 5.624012638230648e-06,
      "loss": 0.3902,
      "step": 278
    },
    {
      "epoch": 0.44075829383886256,
      "grad_norm": 0.5905360579490662,
      "learning_rate": 5.608214849921012e-06,
      "loss": 0.4266,
      "step": 279
    },
    {
      "epoch": 0.4423380726698262,
      "grad_norm": 0.5785796046257019,
      "learning_rate": 5.592417061611375e-06,
      "loss": 0.4521,
      "step": 280
    },
    {
      "epoch": 0.4439178515007899,
      "grad_norm": 0.5580607056617737,
      "learning_rate": 5.576619273301738e-06,
      "loss": 0.378,
      "step": 281
    },
    {
      "epoch": 0.44549763033175355,
      "grad_norm": 0.5100966691970825,
      "learning_rate": 5.5608214849921015e-06,
      "loss": 0.3876,
      "step": 282
    },
    {
      "epoch": 0.4470774091627172,
      "grad_norm": 0.5704023241996765,
      "learning_rate": 5.5450236966824644e-06,
      "loss": 0.4694,
      "step": 283
    },
    {
      "epoch": 0.4486571879936809,
      "grad_norm": 0.5954383611679077,
      "learning_rate": 5.529225908372828e-06,
      "loss": 0.5049,
      "step": 284
    },
    {
      "epoch": 0.45023696682464454,
      "grad_norm": 0.5239635705947876,
      "learning_rate": 5.513428120063191e-06,
      "loss": 0.4182,
      "step": 285
    },
    {
      "epoch": 0.4518167456556082,
      "grad_norm": 0.6643552780151367,
      "learning_rate": 5.497630331753555e-06,
      "loss": 0.4434,
      "step": 286
    },
    {
      "epoch": 0.45339652448657186,
      "grad_norm": 0.6675540804862976,
      "learning_rate": 5.481832543443918e-06,
      "loss": 0.3745,
      "step": 287
    },
    {
      "epoch": 0.4549763033175355,
      "grad_norm": 0.5871401429176331,
      "learning_rate": 5.466034755134282e-06,
      "loss": 0.5527,
      "step": 288
    },
    {
      "epoch": 0.4565560821484992,
      "grad_norm": 0.5936838984489441,
      "learning_rate": 5.4502369668246446e-06,
      "loss": 0.4857,
      "step": 289
    },
    {
      "epoch": 0.45813586097946285,
      "grad_norm": 0.5998191833496094,
      "learning_rate": 5.434439178515008e-06,
      "loss": 0.4395,
      "step": 290
    },
    {
      "epoch": 0.4597156398104265,
      "grad_norm": 0.5102293491363525,
      "learning_rate": 5.418641390205371e-06,
      "loss": 0.4496,
      "step": 291
    },
    {
      "epoch": 0.46129541864139023,
      "grad_norm": 0.6297216415405273,
      "learning_rate": 5.402843601895735e-06,
      "loss": 0.3555,
      "step": 292
    },
    {
      "epoch": 0.4628751974723539,
      "grad_norm": 0.6780267953872681,
      "learning_rate": 5.387045813586098e-06,
      "loss": 0.3295,
      "step": 293
    },
    {
      "epoch": 0.46445497630331756,
      "grad_norm": 0.5788872838020325,
      "learning_rate": 5.371248025276462e-06,
      "loss": 0.4293,
      "step": 294
    },
    {
      "epoch": 0.4660347551342812,
      "grad_norm": 0.5679113268852234,
      "learning_rate": 5.355450236966825e-06,
      "loss": 0.4274,
      "step": 295
    },
    {
      "epoch": 0.4676145339652449,
      "grad_norm": 0.5739018321037292,
      "learning_rate": 5.3396524486571885e-06,
      "loss": 0.3292,
      "step": 296
    },
    {
      "epoch": 0.46919431279620855,
      "grad_norm": 0.5387299060821533,
      "learning_rate": 5.323854660347551e-06,
      "loss": 0.36,
      "step": 297
    },
    {
      "epoch": 0.4707740916271722,
      "grad_norm": 0.4877624213695526,
      "learning_rate": 5.308056872037915e-06,
      "loss": 0.403,
      "step": 298
    },
    {
      "epoch": 0.47235387045813587,
      "grad_norm": 0.5668107271194458,
      "learning_rate": 5.292259083728278e-06,
      "loss": 0.4087,
      "step": 299
    },
    {
      "epoch": 0.47393364928909953,
      "grad_norm": 0.5592719316482544,
      "learning_rate": 5.276461295418642e-06,
      "loss": 0.405,
      "step": 300
    },
    {
      "epoch": 0.4755134281200632,
      "grad_norm": 0.48879534006118774,
      "learning_rate": 5.260663507109005e-06,
      "loss": 0.3562,
      "step": 301
    },
    {
      "epoch": 0.47709320695102686,
      "grad_norm": 0.5968641042709351,
      "learning_rate": 5.244865718799369e-06,
      "loss": 0.4216,
      "step": 302
    },
    {
      "epoch": 0.4786729857819905,
      "grad_norm": 0.7803828120231628,
      "learning_rate": 5.2290679304897315e-06,
      "loss": 0.4014,
      "step": 303
    },
    {
      "epoch": 0.4802527646129542,
      "grad_norm": 0.592827558517456,
      "learning_rate": 5.213270142180096e-06,
      "loss": 0.2895,
      "step": 304
    },
    {
      "epoch": 0.48183254344391785,
      "grad_norm": 0.8070396184921265,
      "learning_rate": 5.197472353870458e-06,
      "loss": 0.3972,
      "step": 305
    },
    {
      "epoch": 0.4834123222748815,
      "grad_norm": 0.5256397724151611,
      "learning_rate": 5.181674565560821e-06,
      "loss": 0.4384,
      "step": 306
    },
    {
      "epoch": 0.4849921011058452,
      "grad_norm": 0.5307562947273254,
      "learning_rate": 5.165876777251185e-06,
      "loss": 0.3788,
      "step": 307
    },
    {
      "epoch": 0.48657187993680884,
      "grad_norm": 0.4588807225227356,
      "learning_rate": 5.150078988941548e-06,
      "loss": 0.3491,
      "step": 308
    },
    {
      "epoch": 0.4881516587677725,
      "grad_norm": 0.524919331073761,
      "learning_rate": 5.134281200631912e-06,
      "loss": 0.4375,
      "step": 309
    },
    {
      "epoch": 0.48973143759873616,
      "grad_norm": 0.6611966490745544,
      "learning_rate": 5.118483412322275e-06,
      "loss": 0.4399,
      "step": 310
    },
    {
      "epoch": 0.4913112164296998,
      "grad_norm": 0.5597748160362244,
      "learning_rate": 5.102685624012638e-06,
      "loss": 0.5073,
      "step": 311
    },
    {
      "epoch": 0.4928909952606635,
      "grad_norm": 0.8958181738853455,
      "learning_rate": 5.086887835703001e-06,
      "loss": 0.4756,
      "step": 312
    },
    {
      "epoch": 0.49447077409162715,
      "grad_norm": 0.4875742197036743,
      "learning_rate": 5.071090047393366e-06,
      "loss": 0.4424,
      "step": 313
    },
    {
      "epoch": 0.4960505529225908,
      "grad_norm": 0.6110445261001587,
      "learning_rate": 5.055292259083728e-06,
      "loss": 0.4686,
      "step": 314
    },
    {
      "epoch": 0.4976303317535545,
      "grad_norm": 0.5900540351867676,
      "learning_rate": 5.039494470774093e-06,
      "loss": 0.4,
      "step": 315
    },
    {
      "epoch": 0.49921011058451814,
      "grad_norm": 0.624906599521637,
      "learning_rate": 5.023696682464455e-06,
      "loss": 0.3967,
      "step": 316
    },
    {
      "epoch": 0.5007898894154819,
      "grad_norm": 0.6435191631317139,
      "learning_rate": 5.007898894154819e-06,
      "loss": 0.5104,
      "step": 317
    },
    {
      "epoch": 0.5023696682464455,
      "grad_norm": 0.7464382648468018,
      "learning_rate": 4.9921011058451815e-06,
      "loss": 0.4621,
      "step": 318
    },
    {
      "epoch": 0.5039494470774092,
      "grad_norm": 0.7912509441375732,
      "learning_rate": 4.976303317535545e-06,
      "loss": 0.4186,
      "step": 319
    },
    {
      "epoch": 0.5055292259083728,
      "grad_norm": 0.6150445938110352,
      "learning_rate": 4.960505529225908e-06,
      "loss": 0.469,
      "step": 320
    },
    {
      "epoch": 0.5071090047393365,
      "grad_norm": 0.5445781946182251,
      "learning_rate": 4.944707740916272e-06,
      "loss": 0.4111,
      "step": 321
    },
    {
      "epoch": 0.5086887835703001,
      "grad_norm": 0.5628255605697632,
      "learning_rate": 4.928909952606635e-06,
      "loss": 0.4884,
      "step": 322
    },
    {
      "epoch": 0.5102685624012638,
      "grad_norm": 0.5007054805755615,
      "learning_rate": 4.913112164296999e-06,
      "loss": 0.4315,
      "step": 323
    },
    {
      "epoch": 0.5118483412322274,
      "grad_norm": 0.6346699595451355,
      "learning_rate": 4.8973143759873624e-06,
      "loss": 0.4033,
      "step": 324
    },
    {
      "epoch": 0.5134281200631912,
      "grad_norm": 0.639045774936676,
      "learning_rate": 4.881516587677725e-06,
      "loss": 0.3748,
      "step": 325
    },
    {
      "epoch": 0.5150078988941548,
      "grad_norm": 0.5578002333641052,
      "learning_rate": 4.865718799368089e-06,
      "loss": 0.5055,
      "step": 326
    },
    {
      "epoch": 0.5165876777251185,
      "grad_norm": 0.5281325578689575,
      "learning_rate": 4.849921011058452e-06,
      "loss": 0.4307,
      "step": 327
    },
    {
      "epoch": 0.5181674565560821,
      "grad_norm": 0.6557057499885559,
      "learning_rate": 4.834123222748816e-06,
      "loss": 0.4085,
      "step": 328
    },
    {
      "epoch": 0.5197472353870458,
      "grad_norm": 0.5667731761932373,
      "learning_rate": 4.818325434439179e-06,
      "loss": 0.4774,
      "step": 329
    },
    {
      "epoch": 0.5213270142180095,
      "grad_norm": 0.5362856984138489,
      "learning_rate": 4.8025276461295426e-06,
      "loss": 0.4316,
      "step": 330
    },
    {
      "epoch": 0.5229067930489731,
      "grad_norm": 0.5326763391494751,
      "learning_rate": 4.7867298578199055e-06,
      "loss": 0.389,
      "step": 331
    },
    {
      "epoch": 0.5244865718799369,
      "grad_norm": 0.4922950565814972,
      "learning_rate": 4.770932069510269e-06,
      "loss": 0.3756,
      "step": 332
    },
    {
      "epoch": 0.5260663507109005,
      "grad_norm": 0.4961477518081665,
      "learning_rate": 4.755134281200632e-06,
      "loss": 0.4336,
      "step": 333
    },
    {
      "epoch": 0.5276461295418642,
      "grad_norm": 0.5258511304855347,
      "learning_rate": 4.739336492890996e-06,
      "loss": 0.404,
      "step": 334
    },
    {
      "epoch": 0.5292259083728278,
      "grad_norm": 0.5479301810264587,
      "learning_rate": 4.723538704581359e-06,
      "loss": 0.3578,
      "step": 335
    },
    {
      "epoch": 0.5308056872037915,
      "grad_norm": 0.49883902072906494,
      "learning_rate": 4.707740916271723e-06,
      "loss": 0.3809,
      "step": 336
    },
    {
      "epoch": 0.5323854660347551,
      "grad_norm": 0.5133053660392761,
      "learning_rate": 4.691943127962086e-06,
      "loss": 0.4091,
      "step": 337
    },
    {
      "epoch": 0.5339652448657188,
      "grad_norm": 0.6334301829338074,
      "learning_rate": 4.676145339652449e-06,
      "loss": 0.4432,
      "step": 338
    },
    {
      "epoch": 0.5355450236966824,
      "grad_norm": 0.5124396085739136,
      "learning_rate": 4.660347551342812e-06,
      "loss": 0.3557,
      "step": 339
    },
    {
      "epoch": 0.5371248025276462,
      "grad_norm": 0.5863746404647827,
      "learning_rate": 4.644549763033176e-06,
      "loss": 0.4288,
      "step": 340
    },
    {
      "epoch": 0.5387045813586098,
      "grad_norm": 0.6599943041801453,
      "learning_rate": 4.628751974723539e-06,
      "loss": 0.398,
      "step": 341
    },
    {
      "epoch": 0.5402843601895735,
      "grad_norm": 0.480027437210083,
      "learning_rate": 4.612954186413903e-06,
      "loss": 0.4706,
      "step": 342
    },
    {
      "epoch": 0.5418641390205371,
      "grad_norm": 0.6601845026016235,
      "learning_rate": 4.597156398104266e-06,
      "loss": 0.4092,
      "step": 343
    },
    {
      "epoch": 0.5434439178515008,
      "grad_norm": 0.5557224154472351,
      "learning_rate": 4.581358609794629e-06,
      "loss": 0.389,
      "step": 344
    },
    {
      "epoch": 0.5450236966824644,
      "grad_norm": 0.49160709977149963,
      "learning_rate": 4.5655608214849925e-06,
      "loss": 0.4338,
      "step": 345
    },
    {
      "epoch": 0.5466034755134281,
      "grad_norm": 0.5284649133682251,
      "learning_rate": 4.549763033175355e-06,
      "loss": 0.403,
      "step": 346
    },
    {
      "epoch": 0.5481832543443917,
      "grad_norm": 0.5501908659934998,
      "learning_rate": 4.533965244865719e-06,
      "loss": 0.4983,
      "step": 347
    },
    {
      "epoch": 0.5497630331753555,
      "grad_norm": 0.5585077404975891,
      "learning_rate": 4.518167456556082e-06,
      "loss": 0.4219,
      "step": 348
    },
    {
      "epoch": 0.5513428120063191,
      "grad_norm": 0.4565962255001068,
      "learning_rate": 4.502369668246446e-06,
      "loss": 0.3591,
      "step": 349
    },
    {
      "epoch": 0.5529225908372828,
      "grad_norm": 0.5507949590682983,
      "learning_rate": 4.486571879936809e-06,
      "loss": 0.4752,
      "step": 350
    },
    {
      "epoch": 0.5545023696682464,
      "grad_norm": 0.5490357875823975,
      "learning_rate": 4.470774091627173e-06,
      "loss": 0.4291,
      "step": 351
    },
    {
      "epoch": 0.5560821484992101,
      "grad_norm": 0.5804268717765808,
      "learning_rate": 4.4549763033175355e-06,
      "loss": 0.3113,
      "step": 352
    },
    {
      "epoch": 0.5576619273301737,
      "grad_norm": 0.4745613634586334,
      "learning_rate": 4.439178515007899e-06,
      "loss": 0.4196,
      "step": 353
    },
    {
      "epoch": 0.5592417061611374,
      "grad_norm": 0.6223664283752441,
      "learning_rate": 4.423380726698262e-06,
      "loss": 0.4592,
      "step": 354
    },
    {
      "epoch": 0.5608214849921012,
      "grad_norm": 0.8797832727432251,
      "learning_rate": 4.407582938388626e-06,
      "loss": 0.4448,
      "step": 355
    },
    {
      "epoch": 0.5624012638230648,
      "grad_norm": 0.5569826364517212,
      "learning_rate": 4.391785150078989e-06,
      "loss": 0.3873,
      "step": 356
    },
    {
      "epoch": 0.5639810426540285,
      "grad_norm": 0.4294510781764984,
      "learning_rate": 4.375987361769353e-06,
      "loss": 0.3407,
      "step": 357
    },
    {
      "epoch": 0.5655608214849921,
      "grad_norm": 0.5657434463500977,
      "learning_rate": 4.360189573459716e-06,
      "loss": 0.3345,
      "step": 358
    },
    {
      "epoch": 0.5671406003159558,
      "grad_norm": 0.5589077472686768,
      "learning_rate": 4.3443917851500794e-06,
      "loss": 0.5237,
      "step": 359
    },
    {
      "epoch": 0.5687203791469194,
      "grad_norm": 0.6107128858566284,
      "learning_rate": 4.328593996840442e-06,
      "loss": 0.4354,
      "step": 360
    },
    {
      "epoch": 0.5703001579778831,
      "grad_norm": 0.5671380758285522,
      "learning_rate": 4.312796208530806e-06,
      "loss": 0.3712,
      "step": 361
    },
    {
      "epoch": 0.5718799368088467,
      "grad_norm": 0.508173406124115,
      "learning_rate": 4.29699842022117e-06,
      "loss": 0.4097,
      "step": 362
    },
    {
      "epoch": 0.5734597156398105,
      "grad_norm": 0.6139382719993591,
      "learning_rate": 4.281200631911533e-06,
      "loss": 0.2646,
      "step": 363
    },
    {
      "epoch": 0.5750394944707741,
      "grad_norm": 0.5677220821380615,
      "learning_rate": 4.265402843601897e-06,
      "loss": 0.3748,
      "step": 364
    },
    {
      "epoch": 0.5766192733017378,
      "grad_norm": 0.530708372592926,
      "learning_rate": 4.2496050552922596e-06,
      "loss": 0.3857,
      "step": 365
    },
    {
      "epoch": 0.5781990521327014,
      "grad_norm": 1.176272988319397,
      "learning_rate": 4.233807266982623e-06,
      "loss": 0.436,
      "step": 366
    },
    {
      "epoch": 0.5797788309636651,
      "grad_norm": 0.6165753602981567,
      "learning_rate": 4.218009478672986e-06,
      "loss": 0.3898,
      "step": 367
    },
    {
      "epoch": 0.5813586097946287,
      "grad_norm": 0.47574201226234436,
      "learning_rate": 4.20221169036335e-06,
      "loss": 0.3685,
      "step": 368
    },
    {
      "epoch": 0.5829383886255924,
      "grad_norm": 0.5995083451271057,
      "learning_rate": 4.186413902053712e-06,
      "loss": 0.4686,
      "step": 369
    },
    {
      "epoch": 0.584518167456556,
      "grad_norm": 0.5809090733528137,
      "learning_rate": 4.170616113744076e-06,
      "loss": 0.4514,
      "step": 370
    },
    {
      "epoch": 0.5860979462875198,
      "grad_norm": 0.6154018044471741,
      "learning_rate": 4.15481832543444e-06,
      "loss": 0.3737,
      "step": 371
    },
    {
      "epoch": 0.5876777251184834,
      "grad_norm": 0.5799654126167297,
      "learning_rate": 4.139020537124803e-06,
      "loss": 0.4285,
      "step": 372
    },
    {
      "epoch": 0.5892575039494471,
      "grad_norm": 0.4476354420185089,
      "learning_rate": 4.123222748815166e-06,
      "loss": 0.4362,
      "step": 373
    },
    {
      "epoch": 0.5908372827804107,
      "grad_norm": 0.6266714334487915,
      "learning_rate": 4.107424960505529e-06,
      "loss": 0.4943,
      "step": 374
    },
    {
      "epoch": 0.5924170616113744,
      "grad_norm": 0.5103732347488403,
      "learning_rate": 4.091627172195893e-06,
      "loss": 0.4585,
      "step": 375
    },
    {
      "epoch": 0.593996840442338,
      "grad_norm": 0.49011877179145813,
      "learning_rate": 4.075829383886256e-06,
      "loss": 0.4489,
      "step": 376
    },
    {
      "epoch": 0.5955766192733017,
      "grad_norm": 0.5286844372749329,
      "learning_rate": 4.06003159557662e-06,
      "loss": 0.4114,
      "step": 377
    },
    {
      "epoch": 0.5971563981042654,
      "grad_norm": 0.494807630777359,
      "learning_rate": 4.044233807266983e-06,
      "loss": 0.3514,
      "step": 378
    },
    {
      "epoch": 0.5987361769352291,
      "grad_norm": 0.46120524406433105,
      "learning_rate": 4.0284360189573465e-06,
      "loss": 0.4452,
      "step": 379
    },
    {
      "epoch": 0.6003159557661928,
      "grad_norm": 0.6024404764175415,
      "learning_rate": 4.0126382306477095e-06,
      "loss": 0.4368,
      "step": 380
    },
    {
      "epoch": 0.6018957345971564,
      "grad_norm": 0.8292664885520935,
      "learning_rate": 3.996840442338073e-06,
      "loss": 0.4495,
      "step": 381
    },
    {
      "epoch": 0.6034755134281201,
      "grad_norm": 0.5312369465827942,
      "learning_rate": 3.981042654028436e-06,
      "loss": 0.3642,
      "step": 382
    },
    {
      "epoch": 0.6050552922590837,
      "grad_norm": 0.6373758316040039,
      "learning_rate": 3.9652448657188e-06,
      "loss": 0.3884,
      "step": 383
    },
    {
      "epoch": 0.6066350710900474,
      "grad_norm": 0.5623313188552856,
      "learning_rate": 3.949447077409163e-06,
      "loss": 0.3489,
      "step": 384
    },
    {
      "epoch": 0.608214849921011,
      "grad_norm": 0.5703821778297424,
      "learning_rate": 3.933649289099527e-06,
      "loss": 0.5309,
      "step": 385
    },
    {
      "epoch": 0.6097946287519748,
      "grad_norm": 0.5930938720703125,
      "learning_rate": 3.91785150078989e-06,
      "loss": 0.4072,
      "step": 386
    },
    {
      "epoch": 0.6113744075829384,
      "grad_norm": 0.5636332631111145,
      "learning_rate": 3.902053712480253e-06,
      "loss": 0.3938,
      "step": 387
    },
    {
      "epoch": 0.6129541864139021,
      "grad_norm": 0.45709583163261414,
      "learning_rate": 3.886255924170616e-06,
      "loss": 0.4436,
      "step": 388
    },
    {
      "epoch": 0.6145339652448657,
      "grad_norm": 0.5924400687217712,
      "learning_rate": 3.87045813586098e-06,
      "loss": 0.2939,
      "step": 389
    },
    {
      "epoch": 0.6161137440758294,
      "grad_norm": 0.6232696175575256,
      "learning_rate": 3.854660347551343e-06,
      "loss": 0.4183,
      "step": 390
    },
    {
      "epoch": 0.617693522906793,
      "grad_norm": 0.5407995581626892,
      "learning_rate": 3.838862559241707e-06,
      "loss": 0.3925,
      "step": 391
    },
    {
      "epoch": 0.6192733017377567,
      "grad_norm": 0.524691104888916,
      "learning_rate": 3.82306477093207e-06,
      "loss": 0.4327,
      "step": 392
    },
    {
      "epoch": 0.6208530805687204,
      "grad_norm": 0.5206206440925598,
      "learning_rate": 3.8072669826224335e-06,
      "loss": 0.4203,
      "step": 393
    },
    {
      "epoch": 0.6224328593996841,
      "grad_norm": 0.6244251132011414,
      "learning_rate": 3.7914691943127964e-06,
      "loss": 0.4546,
      "step": 394
    },
    {
      "epoch": 0.6240126382306477,
      "grad_norm": 0.707058846950531,
      "learning_rate": 3.77567140600316e-06,
      "loss": 0.4015,
      "step": 395
    },
    {
      "epoch": 0.6255924170616114,
      "grad_norm": 0.5457757115364075,
      "learning_rate": 3.759873617693523e-06,
      "loss": 0.3962,
      "step": 396
    },
    {
      "epoch": 0.627172195892575,
      "grad_norm": 0.5757611989974976,
      "learning_rate": 3.7440758293838865e-06,
      "loss": 0.4299,
      "step": 397
    },
    {
      "epoch": 0.6287519747235387,
      "grad_norm": 0.5844476819038391,
      "learning_rate": 3.72827804107425e-06,
      "loss": 0.4674,
      "step": 398
    },
    {
      "epoch": 0.6303317535545023,
      "grad_norm": 0.6859634518623352,
      "learning_rate": 3.7124802527646132e-06,
      "loss": 0.4253,
      "step": 399
    },
    {
      "epoch": 0.631911532385466,
      "grad_norm": 0.5247636437416077,
      "learning_rate": 3.6966824644549766e-06,
      "loss": 0.4318,
      "step": 400
    },
    {
      "epoch": 0.6334913112164297,
      "grad_norm": 0.6206024885177612,
      "learning_rate": 3.68088467614534e-06,
      "loss": 0.3759,
      "step": 401
    },
    {
      "epoch": 0.6350710900473934,
      "grad_norm": 0.6237459182739258,
      "learning_rate": 3.6650868878357033e-06,
      "loss": 0.3642,
      "step": 402
    },
    {
      "epoch": 0.636650868878357,
      "grad_norm": 0.8048799633979797,
      "learning_rate": 3.6492890995260666e-06,
      "loss": 0.514,
      "step": 403
    },
    {
      "epoch": 0.6382306477093207,
      "grad_norm": 0.4662720561027527,
      "learning_rate": 3.63349131121643e-06,
      "loss": 0.3654,
      "step": 404
    },
    {
      "epoch": 0.6398104265402843,
      "grad_norm": 0.5561702251434326,
      "learning_rate": 3.6176935229067934e-06,
      "loss": 0.3823,
      "step": 405
    },
    {
      "epoch": 0.641390205371248,
      "grad_norm": 0.6143206357955933,
      "learning_rate": 3.6018957345971567e-06,
      "loss": 0.3938,
      "step": 406
    },
    {
      "epoch": 0.6429699842022117,
      "grad_norm": 0.6854034662246704,
      "learning_rate": 3.58609794628752e-06,
      "loss": 0.4625,
      "step": 407
    },
    {
      "epoch": 0.6445497630331753,
      "grad_norm": 0.5590549111366272,
      "learning_rate": 3.5703001579778834e-06,
      "loss": 0.4199,
      "step": 408
    },
    {
      "epoch": 0.6461295418641391,
      "grad_norm": 0.642573356628418,
      "learning_rate": 3.5545023696682468e-06,
      "loss": 0.4366,
      "step": 409
    },
    {
      "epoch": 0.6477093206951027,
      "grad_norm": 0.5898130536079407,
      "learning_rate": 3.53870458135861e-06,
      "loss": 0.4691,
      "step": 410
    },
    {
      "epoch": 0.6492890995260664,
      "grad_norm": 0.5370688438415527,
      "learning_rate": 3.5229067930489735e-06,
      "loss": 0.45,
      "step": 411
    },
    {
      "epoch": 0.65086887835703,
      "grad_norm": 0.6769170165061951,
      "learning_rate": 3.507109004739337e-06,
      "loss": 0.3962,
      "step": 412
    },
    {
      "epoch": 0.6524486571879937,
      "grad_norm": 0.5891703367233276,
      "learning_rate": 3.4913112164297e-06,
      "loss": 0.4542,
      "step": 413
    },
    {
      "epoch": 0.6540284360189573,
      "grad_norm": 0.42204615473747253,
      "learning_rate": 3.4755134281200636e-06,
      "loss": 0.3368,
      "step": 414
    },
    {
      "epoch": 0.655608214849921,
      "grad_norm": 0.46033787727355957,
      "learning_rate": 3.459715639810427e-06,
      "loss": 0.4357,
      "step": 415
    },
    {
      "epoch": 0.6571879936808847,
      "grad_norm": 0.5509577393531799,
      "learning_rate": 3.4439178515007903e-06,
      "loss": 0.3939,
      "step": 416
    },
    {
      "epoch": 0.6587677725118484,
      "grad_norm": 0.5802867412567139,
      "learning_rate": 3.4281200631911536e-06,
      "loss": 0.4073,
      "step": 417
    },
    {
      "epoch": 0.660347551342812,
      "grad_norm": 0.6130402684211731,
      "learning_rate": 3.412322274881517e-06,
      "loss": 0.3452,
      "step": 418
    },
    {
      "epoch": 0.6619273301737757,
      "grad_norm": 0.6854075789451599,
      "learning_rate": 3.39652448657188e-06,
      "loss": 0.3551,
      "step": 419
    },
    {
      "epoch": 0.6635071090047393,
      "grad_norm": 0.5365926027297974,
      "learning_rate": 3.3807266982622433e-06,
      "loss": 0.4011,
      "step": 420
    },
    {
      "epoch": 0.665086887835703,
      "grad_norm": 1.0338938236236572,
      "learning_rate": 3.3649289099526066e-06,
      "loss": 0.4623,
      "step": 421
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.5612855553627014,
      "learning_rate": 3.34913112164297e-06,
      "loss": 0.3738,
      "step": 422
    },
    {
      "epoch": 0.6682464454976303,
      "grad_norm": 0.5113286375999451,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 0.3865,
      "step": 423
    },
    {
      "epoch": 0.669826224328594,
      "grad_norm": 0.5509905815124512,
      "learning_rate": 3.3175355450236967e-06,
      "loss": 0.4093,
      "step": 424
    },
    {
      "epoch": 0.6714060031595577,
      "grad_norm": 0.5425525903701782,
      "learning_rate": 3.30173775671406e-06,
      "loss": 0.383,
      "step": 425
    },
    {
      "epoch": 0.6729857819905213,
      "grad_norm": 0.5866172909736633,
      "learning_rate": 3.2859399684044234e-06,
      "loss": 0.4843,
      "step": 426
    },
    {
      "epoch": 0.674565560821485,
      "grad_norm": 1.0777703523635864,
      "learning_rate": 3.2701421800947867e-06,
      "loss": 0.3748,
      "step": 427
    },
    {
      "epoch": 0.6761453396524486,
      "grad_norm": 0.49126845598220825,
      "learning_rate": 3.25434439178515e-06,
      "loss": 0.3505,
      "step": 428
    },
    {
      "epoch": 0.6777251184834123,
      "grad_norm": 0.5471718311309814,
      "learning_rate": 3.2385466034755135e-06,
      "loss": 0.4755,
      "step": 429
    },
    {
      "epoch": 0.6793048973143759,
      "grad_norm": 0.5689931511878967,
      "learning_rate": 3.222748815165877e-06,
      "loss": 0.3956,
      "step": 430
    },
    {
      "epoch": 0.6808846761453397,
      "grad_norm": 0.6496183276176453,
      "learning_rate": 3.2069510268562406e-06,
      "loss": 0.4598,
      "step": 431
    },
    {
      "epoch": 0.6824644549763034,
      "grad_norm": 0.47042712569236755,
      "learning_rate": 3.191153238546604e-06,
      "loss": 0.3756,
      "step": 432
    },
    {
      "epoch": 0.684044233807267,
      "grad_norm": 0.5819857120513916,
      "learning_rate": 3.1753554502369673e-06,
      "loss": 0.4803,
      "step": 433
    },
    {
      "epoch": 0.6856240126382307,
      "grad_norm": 0.5752127766609192,
      "learning_rate": 3.1595576619273307e-06,
      "loss": 0.3916,
      "step": 434
    },
    {
      "epoch": 0.6872037914691943,
      "grad_norm": 0.6483988761901855,
      "learning_rate": 3.143759873617694e-06,
      "loss": 0.4338,
      "step": 435
    },
    {
      "epoch": 0.688783570300158,
      "grad_norm": 0.7817516326904297,
      "learning_rate": 3.1279620853080574e-06,
      "loss": 0.3645,
      "step": 436
    },
    {
      "epoch": 0.6903633491311216,
      "grad_norm": 0.4980696737766266,
      "learning_rate": 3.1121642969984207e-06,
      "loss": 0.3962,
      "step": 437
    },
    {
      "epoch": 0.6919431279620853,
      "grad_norm": 0.5592882037162781,
      "learning_rate": 3.096366508688784e-06,
      "loss": 0.3645,
      "step": 438
    },
    {
      "epoch": 0.693522906793049,
      "grad_norm": 0.6228163242340088,
      "learning_rate": 3.0805687203791474e-06,
      "loss": 0.3696,
      "step": 439
    },
    {
      "epoch": 0.6951026856240127,
      "grad_norm": 0.6718009114265442,
      "learning_rate": 3.0647709320695108e-06,
      "loss": 0.4926,
      "step": 440
    },
    {
      "epoch": 0.6966824644549763,
      "grad_norm": 0.6085376143455505,
      "learning_rate": 3.048973143759874e-06,
      "loss": 0.418,
      "step": 441
    },
    {
      "epoch": 0.69826224328594,
      "grad_norm": 0.7716324925422668,
      "learning_rate": 3.0331753554502375e-06,
      "loss": 0.4038,
      "step": 442
    },
    {
      "epoch": 0.6998420221169036,
      "grad_norm": 0.7239758968353271,
      "learning_rate": 3.017377567140601e-06,
      "loss": 0.4596,
      "step": 443
    },
    {
      "epoch": 0.7014218009478673,
      "grad_norm": 0.6308011412620544,
      "learning_rate": 3.001579778830964e-06,
      "loss": 0.4082,
      "step": 444
    },
    {
      "epoch": 0.7030015797788309,
      "grad_norm": 0.515626072883606,
      "learning_rate": 2.985781990521327e-06,
      "loss": 0.4688,
      "step": 445
    },
    {
      "epoch": 0.7045813586097947,
      "grad_norm": 0.5395441651344299,
      "learning_rate": 2.9699842022116905e-06,
      "loss": 0.3448,
      "step": 446
    },
    {
      "epoch": 0.7061611374407583,
      "grad_norm": 0.5883680582046509,
      "learning_rate": 2.954186413902054e-06,
      "loss": 0.4546,
      "step": 447
    },
    {
      "epoch": 0.707740916271722,
      "grad_norm": 0.7300311326980591,
      "learning_rate": 2.938388625592417e-06,
      "loss": 0.368,
      "step": 448
    },
    {
      "epoch": 0.7093206951026856,
      "grad_norm": 0.5901307463645935,
      "learning_rate": 2.9225908372827806e-06,
      "loss": 0.3688,
      "step": 449
    },
    {
      "epoch": 0.7109004739336493,
      "grad_norm": 0.6521854996681213,
      "learning_rate": 2.906793048973144e-06,
      "loss": 0.3876,
      "step": 450
    },
    {
      "epoch": 0.7124802527646129,
      "grad_norm": 0.688450038433075,
      "learning_rate": 2.8909952606635073e-06,
      "loss": 0.4298,
      "step": 451
    },
    {
      "epoch": 0.7140600315955766,
      "grad_norm": 0.6533556580543518,
      "learning_rate": 2.8751974723538706e-06,
      "loss": 0.3589,
      "step": 452
    },
    {
      "epoch": 0.7156398104265402,
      "grad_norm": 0.5261491537094116,
      "learning_rate": 2.859399684044234e-06,
      "loss": 0.3886,
      "step": 453
    },
    {
      "epoch": 0.717219589257504,
      "grad_norm": 0.5488421320915222,
      "learning_rate": 2.8436018957345973e-06,
      "loss": 0.411,
      "step": 454
    },
    {
      "epoch": 0.7187993680884676,
      "grad_norm": 0.6415657997131348,
      "learning_rate": 2.8278041074249607e-06,
      "loss": 0.4581,
      "step": 455
    },
    {
      "epoch": 0.7203791469194313,
      "grad_norm": 0.5058445334434509,
      "learning_rate": 2.812006319115324e-06,
      "loss": 0.4325,
      "step": 456
    },
    {
      "epoch": 0.721958925750395,
      "grad_norm": 0.6409322619438171,
      "learning_rate": 2.7962085308056874e-06,
      "loss": 0.3759,
      "step": 457
    },
    {
      "epoch": 0.7235387045813586,
      "grad_norm": 0.5578014850616455,
      "learning_rate": 2.7804107424960508e-06,
      "loss": 0.3947,
      "step": 458
    },
    {
      "epoch": 0.7251184834123223,
      "grad_norm": 0.6064183115959167,
      "learning_rate": 2.764612954186414e-06,
      "loss": 0.4766,
      "step": 459
    },
    {
      "epoch": 0.7266982622432859,
      "grad_norm": 0.6067904233932495,
      "learning_rate": 2.7488151658767775e-06,
      "loss": 0.4698,
      "step": 460
    },
    {
      "epoch": 0.7282780410742496,
      "grad_norm": 0.526088297367096,
      "learning_rate": 2.733017377567141e-06,
      "loss": 0.3997,
      "step": 461
    },
    {
      "epoch": 0.7298578199052133,
      "grad_norm": 0.6290006637573242,
      "learning_rate": 2.717219589257504e-06,
      "loss": 0.4393,
      "step": 462
    },
    {
      "epoch": 0.731437598736177,
      "grad_norm": 0.5822445154190063,
      "learning_rate": 2.7014218009478675e-06,
      "loss": 0.4767,
      "step": 463
    },
    {
      "epoch": 0.7330173775671406,
      "grad_norm": 0.5798205733299255,
      "learning_rate": 2.685624012638231e-06,
      "loss": 0.4163,
      "step": 464
    },
    {
      "epoch": 0.7345971563981043,
      "grad_norm": 0.6234124898910522,
      "learning_rate": 2.6698262243285942e-06,
      "loss": 0.387,
      "step": 465
    },
    {
      "epoch": 0.7361769352290679,
      "grad_norm": 0.5226984620094299,
      "learning_rate": 2.6540284360189576e-06,
      "loss": 0.4144,
      "step": 466
    },
    {
      "epoch": 0.7377567140600316,
      "grad_norm": 0.529303789138794,
      "learning_rate": 2.638230647709321e-06,
      "loss": 0.4689,
      "step": 467
    },
    {
      "epoch": 0.7393364928909952,
      "grad_norm": 0.6620000004768372,
      "learning_rate": 2.6224328593996843e-06,
      "loss": 0.4358,
      "step": 468
    },
    {
      "epoch": 0.740916271721959,
      "grad_norm": 0.8560294508934021,
      "learning_rate": 2.606635071090048e-06,
      "loss": 0.422,
      "step": 469
    },
    {
      "epoch": 0.7424960505529226,
      "grad_norm": 0.47033989429473877,
      "learning_rate": 2.5908372827804106e-06,
      "loss": 0.4462,
      "step": 470
    },
    {
      "epoch": 0.7440758293838863,
      "grad_norm": 0.5476656556129456,
      "learning_rate": 2.575039494470774e-06,
      "loss": 0.3818,
      "step": 471
    },
    {
      "epoch": 0.7456556082148499,
      "grad_norm": 0.5771902203559875,
      "learning_rate": 2.5592417061611373e-06,
      "loss": 0.3835,
      "step": 472
    },
    {
      "epoch": 0.7472353870458136,
      "grad_norm": 0.6452733278274536,
      "learning_rate": 2.5434439178515007e-06,
      "loss": 0.4224,
      "step": 473
    },
    {
      "epoch": 0.7488151658767772,
      "grad_norm": 0.5318686962127686,
      "learning_rate": 2.527646129541864e-06,
      "loss": 0.4812,
      "step": 474
    },
    {
      "epoch": 0.7503949447077409,
      "grad_norm": 0.6591460108757019,
      "learning_rate": 2.5118483412322274e-06,
      "loss": 0.4546,
      "step": 475
    },
    {
      "epoch": 0.7519747235387045,
      "grad_norm": 0.5857440829277039,
      "learning_rate": 2.4960505529225907e-06,
      "loss": 0.4008,
      "step": 476
    },
    {
      "epoch": 0.7535545023696683,
      "grad_norm": 0.6430768370628357,
      "learning_rate": 2.480252764612954e-06,
      "loss": 0.3191,
      "step": 477
    },
    {
      "epoch": 0.7551342812006319,
      "grad_norm": 0.7442892789840698,
      "learning_rate": 2.4644549763033174e-06,
      "loss": 0.4171,
      "step": 478
    },
    {
      "epoch": 0.7567140600315956,
      "grad_norm": 0.6390454173088074,
      "learning_rate": 2.4486571879936812e-06,
      "loss": 0.5381,
      "step": 479
    },
    {
      "epoch": 0.7582938388625592,
      "grad_norm": 0.6277416348457336,
      "learning_rate": 2.4328593996840446e-06,
      "loss": 0.4824,
      "step": 480
    },
    {
      "epoch": 0.7598736176935229,
      "grad_norm": 0.6043097972869873,
      "learning_rate": 2.417061611374408e-06,
      "loss": 0.4266,
      "step": 481
    },
    {
      "epoch": 0.7614533965244866,
      "grad_norm": 0.6095964312553406,
      "learning_rate": 2.4012638230647713e-06,
      "loss": 0.4258,
      "step": 482
    },
    {
      "epoch": 0.7630331753554502,
      "grad_norm": 0.5433639287948608,
      "learning_rate": 2.3854660347551346e-06,
      "loss": 0.4873,
      "step": 483
    },
    {
      "epoch": 0.764612954186414,
      "grad_norm": 0.49287649989128113,
      "learning_rate": 2.369668246445498e-06,
      "loss": 0.4814,
      "step": 484
    },
    {
      "epoch": 0.7661927330173776,
      "grad_norm": 0.5905902981758118,
      "learning_rate": 2.3538704581358613e-06,
      "loss": 0.4519,
      "step": 485
    },
    {
      "epoch": 0.7677725118483413,
      "grad_norm": 0.6697285771369934,
      "learning_rate": 2.3380726698262247e-06,
      "loss": 0.4686,
      "step": 486
    },
    {
      "epoch": 0.7693522906793049,
      "grad_norm": 0.5338664650917053,
      "learning_rate": 2.322274881516588e-06,
      "loss": 0.401,
      "step": 487
    },
    {
      "epoch": 0.7709320695102686,
      "grad_norm": 0.5338428616523743,
      "learning_rate": 2.3064770932069514e-06,
      "loss": 0.4045,
      "step": 488
    },
    {
      "epoch": 0.7725118483412322,
      "grad_norm": 0.6102830171585083,
      "learning_rate": 2.2906793048973143e-06,
      "loss": 0.3785,
      "step": 489
    },
    {
      "epoch": 0.7740916271721959,
      "grad_norm": 0.5787335634231567,
      "learning_rate": 2.2748815165876777e-06,
      "loss": 0.42,
      "step": 490
    },
    {
      "epoch": 0.7756714060031595,
      "grad_norm": 0.7426438331604004,
      "learning_rate": 2.259083728278041e-06,
      "loss": 0.4676,
      "step": 491
    },
    {
      "epoch": 0.7772511848341233,
      "grad_norm": 0.5988475680351257,
      "learning_rate": 2.2432859399684044e-06,
      "loss": 0.5404,
      "step": 492
    },
    {
      "epoch": 0.7788309636650869,
      "grad_norm": 0.6289830803871155,
      "learning_rate": 2.2274881516587678e-06,
      "loss": 0.396,
      "step": 493
    },
    {
      "epoch": 0.7804107424960506,
      "grad_norm": 0.6077900528907776,
      "learning_rate": 2.211690363349131e-06,
      "loss": 0.4016,
      "step": 494
    },
    {
      "epoch": 0.7819905213270142,
      "grad_norm": 0.8171889781951904,
      "learning_rate": 2.1958925750394945e-06,
      "loss": 0.3638,
      "step": 495
    },
    {
      "epoch": 0.7835703001579779,
      "grad_norm": 0.6225026845932007,
      "learning_rate": 2.180094786729858e-06,
      "loss": 0.4088,
      "step": 496
    },
    {
      "epoch": 0.7851500789889415,
      "grad_norm": 0.6262929439544678,
      "learning_rate": 2.164296998420221e-06,
      "loss": 0.3311,
      "step": 497
    },
    {
      "epoch": 0.7867298578199052,
      "grad_norm": 0.662129282951355,
      "learning_rate": 2.148499210110585e-06,
      "loss": 0.4434,
      "step": 498
    },
    {
      "epoch": 0.7883096366508688,
      "grad_norm": 0.5046777725219727,
      "learning_rate": 2.1327014218009483e-06,
      "loss": 0.5042,
      "step": 499
    },
    {
      "epoch": 0.7898894154818326,
      "grad_norm": 0.6273382306098938,
      "learning_rate": 2.1169036334913117e-06,
      "loss": 0.345,
      "step": 500
    },
    {
      "epoch": 0.7914691943127962,
      "grad_norm": 0.5484871864318848,
      "learning_rate": 2.101105845181675e-06,
      "loss": 0.3476,
      "step": 501
    },
    {
      "epoch": 0.7930489731437599,
      "grad_norm": 0.6779518723487854,
      "learning_rate": 2.085308056872038e-06,
      "loss": 0.4062,
      "step": 502
    },
    {
      "epoch": 0.7946287519747235,
      "grad_norm": 0.4969736635684967,
      "learning_rate": 2.0695102685624013e-06,
      "loss": 0.3615,
      "step": 503
    },
    {
      "epoch": 0.7962085308056872,
      "grad_norm": 0.5542388558387756,
      "learning_rate": 2.0537124802527647e-06,
      "loss": 0.39,
      "step": 504
    },
    {
      "epoch": 0.7977883096366508,
      "grad_norm": 0.8587651252746582,
      "learning_rate": 2.037914691943128e-06,
      "loss": 0.423,
      "step": 505
    },
    {
      "epoch": 0.7993680884676145,
      "grad_norm": 0.6399357318878174,
      "learning_rate": 2.0221169036334914e-06,
      "loss": 0.4645,
      "step": 506
    },
    {
      "epoch": 0.8009478672985783,
      "grad_norm": 0.5677849650382996,
      "learning_rate": 2.0063191153238547e-06,
      "loss": 0.3749,
      "step": 507
    },
    {
      "epoch": 0.8025276461295419,
      "grad_norm": 0.5609621405601501,
      "learning_rate": 1.990521327014218e-06,
      "loss": 0.4727,
      "step": 508
    },
    {
      "epoch": 0.8041074249605056,
      "grad_norm": 0.615185558795929,
      "learning_rate": 1.9747235387045814e-06,
      "loss": 0.4349,
      "step": 509
    },
    {
      "epoch": 0.8056872037914692,
      "grad_norm": 0.5093739032745361,
      "learning_rate": 1.958925750394945e-06,
      "loss": 0.3502,
      "step": 510
    },
    {
      "epoch": 0.8072669826224329,
      "grad_norm": 0.8513323068618774,
      "learning_rate": 1.943127962085308e-06,
      "loss": 0.3902,
      "step": 511
    },
    {
      "epoch": 0.8088467614533965,
      "grad_norm": 0.6797610521316528,
      "learning_rate": 1.9273301737756715e-06,
      "loss": 0.4987,
      "step": 512
    },
    {
      "epoch": 0.8104265402843602,
      "grad_norm": 0.5715585947036743,
      "learning_rate": 1.911532385466035e-06,
      "loss": 0.3965,
      "step": 513
    },
    {
      "epoch": 0.8120063191153238,
      "grad_norm": 0.5537532567977905,
      "learning_rate": 1.8957345971563982e-06,
      "loss": 0.3832,
      "step": 514
    },
    {
      "epoch": 0.8135860979462876,
      "grad_norm": 0.5337470173835754,
      "learning_rate": 1.8799368088467616e-06,
      "loss": 0.4136,
      "step": 515
    },
    {
      "epoch": 0.8151658767772512,
      "grad_norm": 0.5929555892944336,
      "learning_rate": 1.864139020537125e-06,
      "loss": 0.3901,
      "step": 516
    },
    {
      "epoch": 0.8167456556082149,
      "grad_norm": 0.6738921403884888,
      "learning_rate": 1.8483412322274883e-06,
      "loss": 0.4128,
      "step": 517
    },
    {
      "epoch": 0.8183254344391785,
      "grad_norm": 0.598659098148346,
      "learning_rate": 1.8325434439178516e-06,
      "loss": 0.3707,
      "step": 518
    },
    {
      "epoch": 0.8199052132701422,
      "grad_norm": 0.5679790377616882,
      "learning_rate": 1.816745655608215e-06,
      "loss": 0.457,
      "step": 519
    },
    {
      "epoch": 0.8214849921011058,
      "grad_norm": 0.5459115505218506,
      "learning_rate": 1.8009478672985784e-06,
      "loss": 0.3613,
      "step": 520
    },
    {
      "epoch": 0.8230647709320695,
      "grad_norm": 0.5752125978469849,
      "learning_rate": 1.7851500789889417e-06,
      "loss": 0.479,
      "step": 521
    },
    {
      "epoch": 0.8246445497630331,
      "grad_norm": 0.5184637904167175,
      "learning_rate": 1.769352290679305e-06,
      "loss": 0.4126,
      "step": 522
    },
    {
      "epoch": 0.8262243285939969,
      "grad_norm": 0.6329041123390198,
      "learning_rate": 1.7535545023696684e-06,
      "loss": 0.4221,
      "step": 523
    },
    {
      "epoch": 0.8278041074249605,
      "grad_norm": 0.5233784317970276,
      "learning_rate": 1.7377567140600318e-06,
      "loss": 0.4375,
      "step": 524
    },
    {
      "epoch": 0.8293838862559242,
      "grad_norm": 0.5424541234970093,
      "learning_rate": 1.7219589257503951e-06,
      "loss": 0.4447,
      "step": 525
    },
    {
      "epoch": 0.8309636650868878,
      "grad_norm": 0.5534167885780334,
      "learning_rate": 1.7061611374407585e-06,
      "loss": 0.3672,
      "step": 526
    },
    {
      "epoch": 0.8325434439178515,
      "grad_norm": 0.605102002620697,
      "learning_rate": 1.6903633491311216e-06,
      "loss": 0.4319,
      "step": 527
    },
    {
      "epoch": 0.8341232227488151,
      "grad_norm": 0.5609396696090698,
      "learning_rate": 1.674565560821485e-06,
      "loss": 0.3984,
      "step": 528
    },
    {
      "epoch": 0.8357030015797788,
      "grad_norm": 0.7964479923248291,
      "learning_rate": 1.6587677725118483e-06,
      "loss": 0.407,
      "step": 529
    },
    {
      "epoch": 0.8372827804107424,
      "grad_norm": 0.4886048436164856,
      "learning_rate": 1.6429699842022117e-06,
      "loss": 0.4506,
      "step": 530
    },
    {
      "epoch": 0.8388625592417062,
      "grad_norm": 0.543812096118927,
      "learning_rate": 1.627172195892575e-06,
      "loss": 0.3141,
      "step": 531
    },
    {
      "epoch": 0.8404423380726699,
      "grad_norm": 0.5370059609413147,
      "learning_rate": 1.6113744075829384e-06,
      "loss": 0.3712,
      "step": 532
    },
    {
      "epoch": 0.8420221169036335,
      "grad_norm": 0.7402203679084778,
      "learning_rate": 1.595576619273302e-06,
      "loss": 0.4136,
      "step": 533
    },
    {
      "epoch": 0.8436018957345972,
      "grad_norm": 0.6814244985580444,
      "learning_rate": 1.5797788309636653e-06,
      "loss": 0.4634,
      "step": 534
    },
    {
      "epoch": 0.8451816745655608,
      "grad_norm": 0.5919080972671509,
      "learning_rate": 1.5639810426540287e-06,
      "loss": 0.4238,
      "step": 535
    },
    {
      "epoch": 0.8467614533965245,
      "grad_norm": 0.617522120475769,
      "learning_rate": 1.548183254344392e-06,
      "loss": 0.3431,
      "step": 536
    },
    {
      "epoch": 0.8483412322274881,
      "grad_norm": 0.49482643604278564,
      "learning_rate": 1.5323854660347554e-06,
      "loss": 0.3882,
      "step": 537
    },
    {
      "epoch": 0.8499210110584519,
      "grad_norm": 0.5525531768798828,
      "learning_rate": 1.5165876777251187e-06,
      "loss": 0.4053,
      "step": 538
    },
    {
      "epoch": 0.8515007898894155,
      "grad_norm": 0.6634103655815125,
      "learning_rate": 1.500789889415482e-06,
      "loss": 0.4624,
      "step": 539
    },
    {
      "epoch": 0.8530805687203792,
      "grad_norm": 0.45309382677078247,
      "learning_rate": 1.4849921011058452e-06,
      "loss": 0.3486,
      "step": 540
    },
    {
      "epoch": 0.8546603475513428,
      "grad_norm": 0.778338611125946,
      "learning_rate": 1.4691943127962086e-06,
      "loss": 0.3984,
      "step": 541
    },
    {
      "epoch": 0.8562401263823065,
      "grad_norm": 0.6093356609344482,
      "learning_rate": 1.453396524486572e-06,
      "loss": 0.333,
      "step": 542
    },
    {
      "epoch": 0.8578199052132701,
      "grad_norm": 0.49551188945770264,
      "learning_rate": 1.4375987361769353e-06,
      "loss": 0.3915,
      "step": 543
    },
    {
      "epoch": 0.8593996840442338,
      "grad_norm": 0.5423188209533691,
      "learning_rate": 1.4218009478672987e-06,
      "loss": 0.4192,
      "step": 544
    },
    {
      "epoch": 0.8609794628751974,
      "grad_norm": 0.8111097812652588,
      "learning_rate": 1.406003159557662e-06,
      "loss": 0.473,
      "step": 545
    },
    {
      "epoch": 0.8625592417061612,
      "grad_norm": 0.6064862012863159,
      "learning_rate": 1.3902053712480254e-06,
      "loss": 0.4164,
      "step": 546
    },
    {
      "epoch": 0.8641390205371248,
      "grad_norm": 0.6180470585823059,
      "learning_rate": 1.3744075829383887e-06,
      "loss": 0.4351,
      "step": 547
    },
    {
      "epoch": 0.8657187993680885,
      "grad_norm": 0.5101069808006287,
      "learning_rate": 1.358609794628752e-06,
      "loss": 0.3806,
      "step": 548
    },
    {
      "epoch": 0.8672985781990521,
      "grad_norm": 0.6269749402999878,
      "learning_rate": 1.3428120063191154e-06,
      "loss": 0.4028,
      "step": 549
    },
    {
      "epoch": 0.8688783570300158,
      "grad_norm": 0.6344918608665466,
      "learning_rate": 1.3270142180094788e-06,
      "loss": 0.3206,
      "step": 550
    },
    {
      "epoch": 0.8704581358609794,
      "grad_norm": 0.7053835988044739,
      "learning_rate": 1.3112164296998422e-06,
      "loss": 0.4404,
      "step": 551
    },
    {
      "epoch": 0.8720379146919431,
      "grad_norm": 0.4780917465686798,
      "learning_rate": 1.2954186413902053e-06,
      "loss": 0.4089,
      "step": 552
    },
    {
      "epoch": 0.8736176935229067,
      "grad_norm": 0.5235942006111145,
      "learning_rate": 1.2796208530805687e-06,
      "loss": 0.3992,
      "step": 553
    },
    {
      "epoch": 0.8751974723538705,
      "grad_norm": 0.5037370324134827,
      "learning_rate": 1.263823064770932e-06,
      "loss": 0.3727,
      "step": 554
    },
    {
      "epoch": 0.8767772511848341,
      "grad_norm": 0.5422868132591248,
      "learning_rate": 1.2480252764612954e-06,
      "loss": 0.4524,
      "step": 555
    },
    {
      "epoch": 0.8783570300157978,
      "grad_norm": 0.5287191271781921,
      "learning_rate": 1.2322274881516587e-06,
      "loss": 0.3445,
      "step": 556
    },
    {
      "epoch": 0.8799368088467614,
      "grad_norm": 0.49679964780807495,
      "learning_rate": 1.2164296998420223e-06,
      "loss": 0.3357,
      "step": 557
    },
    {
      "epoch": 0.8815165876777251,
      "grad_norm": 0.5391539931297302,
      "learning_rate": 1.2006319115323856e-06,
      "loss": 0.4645,
      "step": 558
    },
    {
      "epoch": 0.8830963665086888,
      "grad_norm": 0.5474575757980347,
      "learning_rate": 1.184834123222749e-06,
      "loss": 0.4109,
      "step": 559
    },
    {
      "epoch": 0.8846761453396524,
      "grad_norm": 0.5920886993408203,
      "learning_rate": 1.1690363349131124e-06,
      "loss": 0.4034,
      "step": 560
    },
    {
      "epoch": 0.8862559241706162,
      "grad_norm": 0.5637263655662537,
      "learning_rate": 1.1532385466034757e-06,
      "loss": 0.392,
      "step": 561
    },
    {
      "epoch": 0.8878357030015798,
      "grad_norm": 0.6719076037406921,
      "learning_rate": 1.1374407582938388e-06,
      "loss": 0.3798,
      "step": 562
    },
    {
      "epoch": 0.8894154818325435,
      "grad_norm": 0.5554001927375793,
      "learning_rate": 1.1216429699842022e-06,
      "loss": 0.3901,
      "step": 563
    },
    {
      "epoch": 0.8909952606635071,
      "grad_norm": 0.6078475713729858,
      "learning_rate": 1.1058451816745656e-06,
      "loss": 0.3574,
      "step": 564
    },
    {
      "epoch": 0.8925750394944708,
      "grad_norm": 0.9478325843811035,
      "learning_rate": 1.090047393364929e-06,
      "loss": 0.3831,
      "step": 565
    },
    {
      "epoch": 0.8941548183254344,
      "grad_norm": 0.5259877443313599,
      "learning_rate": 1.0742496050552925e-06,
      "loss": 0.4003,
      "step": 566
    },
    {
      "epoch": 0.8957345971563981,
      "grad_norm": 0.5395880937576294,
      "learning_rate": 1.0584518167456558e-06,
      "loss": 0.3513,
      "step": 567
    },
    {
      "epoch": 0.8973143759873617,
      "grad_norm": 0.5458592772483826,
      "learning_rate": 1.042654028436019e-06,
      "loss": 0.49,
      "step": 568
    },
    {
      "epoch": 0.8988941548183255,
      "grad_norm": 0.5552616715431213,
      "learning_rate": 1.0268562401263823e-06,
      "loss": 0.3905,
      "step": 569
    },
    {
      "epoch": 0.9004739336492891,
      "grad_norm": 0.551466166973114,
      "learning_rate": 1.0110584518167457e-06,
      "loss": 0.4241,
      "step": 570
    },
    {
      "epoch": 0.9020537124802528,
      "grad_norm": 0.7195900082588196,
      "learning_rate": 9.95260663507109e-07,
      "loss": 0.3912,
      "step": 571
    },
    {
      "epoch": 0.9036334913112164,
      "grad_norm": 0.5951517820358276,
      "learning_rate": 9.794628751974724e-07,
      "loss": 0.4267,
      "step": 572
    },
    {
      "epoch": 0.9052132701421801,
      "grad_norm": 0.7582541108131409,
      "learning_rate": 9.636650868878358e-07,
      "loss": 0.4024,
      "step": 573
    },
    {
      "epoch": 0.9067930489731437,
      "grad_norm": 0.6346389651298523,
      "learning_rate": 9.478672985781991e-07,
      "loss": 0.4677,
      "step": 574
    },
    {
      "epoch": 0.9083728278041074,
      "grad_norm": 0.7323048710823059,
      "learning_rate": 9.320695102685625e-07,
      "loss": 0.4332,
      "step": 575
    },
    {
      "epoch": 0.909952606635071,
      "grad_norm": 0.5796726942062378,
      "learning_rate": 9.162717219589258e-07,
      "loss": 0.3514,
      "step": 576
    },
    {
      "epoch": 0.9115323854660348,
      "grad_norm": 0.7424004673957825,
      "learning_rate": 9.004739336492892e-07,
      "loss": 0.4178,
      "step": 577
    },
    {
      "epoch": 0.9131121642969984,
      "grad_norm": 0.525142252445221,
      "learning_rate": 8.846761453396525e-07,
      "loss": 0.4498,
      "step": 578
    },
    {
      "epoch": 0.9146919431279621,
      "grad_norm": 0.5565955638885498,
      "learning_rate": 8.688783570300159e-07,
      "loss": 0.4532,
      "step": 579
    },
    {
      "epoch": 0.9162717219589257,
      "grad_norm": 0.540267288684845,
      "learning_rate": 8.530805687203792e-07,
      "loss": 0.4828,
      "step": 580
    },
    {
      "epoch": 0.9178515007898894,
      "grad_norm": 0.5061677694320679,
      "learning_rate": 8.372827804107425e-07,
      "loss": 0.3505,
      "step": 581
    },
    {
      "epoch": 0.919431279620853,
      "grad_norm": 0.5490908622741699,
      "learning_rate": 8.214849921011058e-07,
      "loss": 0.4402,
      "step": 582
    },
    {
      "epoch": 0.9210110584518167,
      "grad_norm": 0.5788997411727905,
      "learning_rate": 8.056872037914692e-07,
      "loss": 0.3256,
      "step": 583
    },
    {
      "epoch": 0.9225908372827805,
      "grad_norm": 0.5741492509841919,
      "learning_rate": 7.898894154818327e-07,
      "loss": 0.451,
      "step": 584
    },
    {
      "epoch": 0.9241706161137441,
      "grad_norm": 0.5012090802192688,
      "learning_rate": 7.74091627172196e-07,
      "loss": 0.3513,
      "step": 585
    },
    {
      "epoch": 0.9257503949447078,
      "grad_norm": 0.5613192915916443,
      "learning_rate": 7.582938388625594e-07,
      "loss": 0.3499,
      "step": 586
    },
    {
      "epoch": 0.9273301737756714,
      "grad_norm": 0.5941815376281738,
      "learning_rate": 7.424960505529226e-07,
      "loss": 0.4133,
      "step": 587
    },
    {
      "epoch": 0.9289099526066351,
      "grad_norm": 0.7772453427314758,
      "learning_rate": 7.26698262243286e-07,
      "loss": 0.3818,
      "step": 588
    },
    {
      "epoch": 0.9304897314375987,
      "grad_norm": 0.5977700352668762,
      "learning_rate": 7.109004739336493e-07,
      "loss": 0.4099,
      "step": 589
    },
    {
      "epoch": 0.9320695102685624,
      "grad_norm": 0.7777069807052612,
      "learning_rate": 6.951026856240127e-07,
      "loss": 0.4341,
      "step": 590
    },
    {
      "epoch": 0.933649289099526,
      "grad_norm": 0.5362728834152222,
      "learning_rate": 6.79304897314376e-07,
      "loss": 0.4431,
      "step": 591
    },
    {
      "epoch": 0.9352290679304898,
      "grad_norm": 0.5126134157180786,
      "learning_rate": 6.635071090047394e-07,
      "loss": 0.3713,
      "step": 592
    },
    {
      "epoch": 0.9368088467614534,
      "grad_norm": 0.5886785984039307,
      "learning_rate": 6.477093206951026e-07,
      "loss": 0.405,
      "step": 593
    },
    {
      "epoch": 0.9383886255924171,
      "grad_norm": 0.5328089594841003,
      "learning_rate": 6.31911532385466e-07,
      "loss": 0.3952,
      "step": 594
    },
    {
      "epoch": 0.9399684044233807,
      "grad_norm": 0.7170501351356506,
      "learning_rate": 6.161137440758294e-07,
      "loss": 0.3979,
      "step": 595
    },
    {
      "epoch": 0.9415481832543444,
      "grad_norm": 0.6048548817634583,
      "learning_rate": 6.003159557661928e-07,
      "loss": 0.3425,
      "step": 596
    },
    {
      "epoch": 0.943127962085308,
      "grad_norm": 0.5635291337966919,
      "learning_rate": 5.845181674565562e-07,
      "loss": 0.3008,
      "step": 597
    },
    {
      "epoch": 0.9447077409162717,
      "grad_norm": 0.6890112161636353,
      "learning_rate": 5.687203791469194e-07,
      "loss": 0.4205,
      "step": 598
    },
    {
      "epoch": 0.9462875197472354,
      "grad_norm": 0.5197014212608337,
      "learning_rate": 5.529225908372828e-07,
      "loss": 0.4589,
      "step": 599
    },
    {
      "epoch": 0.9478672985781991,
      "grad_norm": 0.5197718143463135,
      "learning_rate": 5.371248025276462e-07,
      "loss": 0.2678,
      "step": 600
    },
    {
      "epoch": 0.9494470774091627,
      "grad_norm": 0.44931474328041077,
      "learning_rate": 5.213270142180095e-07,
      "loss": 0.4351,
      "step": 601
    },
    {
      "epoch": 0.9510268562401264,
      "grad_norm": 0.47795984148979187,
      "learning_rate": 5.055292259083728e-07,
      "loss": 0.4392,
      "step": 602
    },
    {
      "epoch": 0.95260663507109,
      "grad_norm": 0.6027578115463257,
      "learning_rate": 4.897314375987362e-07,
      "loss": 0.4499,
      "step": 603
    },
    {
      "epoch": 0.9541864139020537,
      "grad_norm": 0.6160722374916077,
      "learning_rate": 4.7393364928909956e-07,
      "loss": 0.434,
      "step": 604
    },
    {
      "epoch": 0.9557661927330173,
      "grad_norm": 0.8371343612670898,
      "learning_rate": 4.581358609794629e-07,
      "loss": 0.3911,
      "step": 605
    },
    {
      "epoch": 0.957345971563981,
      "grad_norm": 0.5282484292984009,
      "learning_rate": 4.4233807266982627e-07,
      "loss": 0.4445,
      "step": 606
    },
    {
      "epoch": 0.9589257503949447,
      "grad_norm": 0.5557743310928345,
      "learning_rate": 4.265402843601896e-07,
      "loss": 0.4103,
      "step": 607
    },
    {
      "epoch": 0.9605055292259084,
      "grad_norm": 0.6362637281417847,
      "learning_rate": 4.107424960505529e-07,
      "loss": 0.3856,
      "step": 608
    },
    {
      "epoch": 0.9620853080568721,
      "grad_norm": 0.745617151260376,
      "learning_rate": 3.9494470774091633e-07,
      "loss": 0.4179,
      "step": 609
    },
    {
      "epoch": 0.9636650868878357,
      "grad_norm": 0.659038782119751,
      "learning_rate": 3.791469194312797e-07,
      "loss": 0.4027,
      "step": 610
    },
    {
      "epoch": 0.9652448657187994,
      "grad_norm": 0.645199716091156,
      "learning_rate": 3.63349131121643e-07,
      "loss": 0.3501,
      "step": 611
    },
    {
      "epoch": 0.966824644549763,
      "grad_norm": 0.4868941605091095,
      "learning_rate": 3.4755134281200634e-07,
      "loss": 0.3385,
      "step": 612
    },
    {
      "epoch": 0.9684044233807267,
      "grad_norm": 0.5993934273719788,
      "learning_rate": 3.317535545023697e-07,
      "loss": 0.369,
      "step": 613
    },
    {
      "epoch": 0.9699842022116903,
      "grad_norm": 0.6094574928283691,
      "learning_rate": 3.15955766192733e-07,
      "loss": 0.4899,
      "step": 614
    },
    {
      "epoch": 0.9715639810426541,
      "grad_norm": 0.6989656686782837,
      "learning_rate": 3.001579778830964e-07,
      "loss": 0.4346,
      "step": 615
    },
    {
      "epoch": 0.9731437598736177,
      "grad_norm": 0.5412940382957458,
      "learning_rate": 2.843601895734597e-07,
      "loss": 0.4515,
      "step": 616
    },
    {
      "epoch": 0.9747235387045814,
      "grad_norm": 0.507622241973877,
      "learning_rate": 2.685624012638231e-07,
      "loss": 0.4171,
      "step": 617
    },
    {
      "epoch": 0.976303317535545,
      "grad_norm": 0.4564089775085449,
      "learning_rate": 2.527646129541864e-07,
      "loss": 0.3452,
      "step": 618
    },
    {
      "epoch": 0.9778830963665087,
      "grad_norm": 0.48170286417007446,
      "learning_rate": 2.3696682464454978e-07,
      "loss": 0.3866,
      "step": 619
    },
    {
      "epoch": 0.9794628751974723,
      "grad_norm": 0.47774481773376465,
      "learning_rate": 2.2116903633491313e-07,
      "loss": 0.4425,
      "step": 620
    },
    {
      "epoch": 0.981042654028436,
      "grad_norm": 0.4460739493370056,
      "learning_rate": 2.0537124802527646e-07,
      "loss": 0.3991,
      "step": 621
    },
    {
      "epoch": 0.9826224328593997,
      "grad_norm": 0.536359965801239,
      "learning_rate": 1.8957345971563984e-07,
      "loss": 0.327,
      "step": 622
    },
    {
      "epoch": 0.9842022116903634,
      "grad_norm": 0.5439571738243103,
      "learning_rate": 1.7377567140600317e-07,
      "loss": 0.408,
      "step": 623
    },
    {
      "epoch": 0.985781990521327,
      "grad_norm": 0.8827345967292786,
      "learning_rate": 1.579778830963665e-07,
      "loss": 0.4924,
      "step": 624
    },
    {
      "epoch": 0.9873617693522907,
      "grad_norm": 0.4992835521697998,
      "learning_rate": 1.4218009478672986e-07,
      "loss": 0.3921,
      "step": 625
    },
    {
      "epoch": 0.9889415481832543,
      "grad_norm": 0.7306237816810608,
      "learning_rate": 1.263823064770932e-07,
      "loss": 0.5063,
      "step": 626
    },
    {
      "epoch": 0.990521327014218,
      "grad_norm": 0.5200903415679932,
      "learning_rate": 1.1058451816745657e-07,
      "loss": 0.358,
      "step": 627
    },
    {
      "epoch": 0.9921011058451816,
      "grad_norm": 0.42708104848861694,
      "learning_rate": 9.478672985781992e-08,
      "loss": 0.3361,
      "step": 628
    },
    {
      "epoch": 0.9936808846761453,
      "grad_norm": 0.5993225574493408,
      "learning_rate": 7.898894154818325e-08,
      "loss": 0.3625,
      "step": 629
    },
    {
      "epoch": 0.995260663507109,
      "grad_norm": 0.49995774030685425,
      "learning_rate": 6.31911532385466e-08,
      "loss": 0.3746,
      "step": 630
    },
    {
      "epoch": 0.9968404423380727,
      "grad_norm": 0.5806180238723755,
      "learning_rate": 4.739336492890996e-08,
      "loss": 0.3727,
      "step": 631
    },
    {
      "epoch": 0.9984202211690363,
      "grad_norm": 0.5514349341392517,
      "learning_rate": 3.15955766192733e-08,
      "loss": 0.4634,
      "step": 632
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4094119668006897,
      "learning_rate": 1.579778830963665e-08,
      "loss": 0.2044,
      "step": 633
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 633,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 0,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.9805266972408545e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}