{
  "best_global_step": 78000,
  "best_metric": 3.2760121822357178,
  "best_model_checkpoint": "/scratch/cl5625/exceptions/models/high_0_1208/checkpoint-70000",
  "epoch": 29.602121016365203,
  "eval_steps": 1000,
  "global_step": 110000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.013458225667527994,
      "grad_norm": 1.9294723272323608,
      "learning_rate": 0.000294,
      "loss": 8.5675,
      "step": 50
    },
    {
      "epoch": 0.026916451335055987,
      "grad_norm": 4.372699737548828,
      "learning_rate": 0.0005939999999999999,
      "loss": 6.7649,
      "step": 100
    },
    {
      "epoch": 0.04037467700258398,
      "grad_norm": 0.6613487601280212,
      "learning_rate": 0.0005998020735155513,
      "loss": 6.3115,
      "step": 150
    },
    {
      "epoch": 0.053832902670111975,
      "grad_norm": 1.9673986434936523,
      "learning_rate": 0.0005996001077150935,
      "loss": 6.0152,
      "step": 200
    },
    {
      "epoch": 0.06729112833763996,
      "grad_norm": 2.4221529960632324,
      "learning_rate": 0.0005993981419146358,
      "loss": 5.8697,
      "step": 250
    },
    {
      "epoch": 0.08074935400516796,
      "grad_norm": 1.3177257776260376,
      "learning_rate": 0.0005991961761141779,
      "loss": 5.7306,
      "step": 300
    },
    {
      "epoch": 0.09420757967269595,
      "grad_norm": 1.0655848979949951,
      "learning_rate": 0.0005989942103137202,
      "loss": 5.6299,
      "step": 350
    },
    {
      "epoch": 0.10766580534022395,
      "grad_norm": 1.2664433717727661,
      "learning_rate": 0.0005987922445132624,
      "loss": 5.5363,
      "step": 400
    },
    {
      "epoch": 0.12112403100775193,
      "grad_norm": 1.265374779701233,
      "learning_rate": 0.0005985902787128047,
      "loss": 5.3807,
      "step": 450
    },
    {
      "epoch": 0.13458225667527993,
      "grad_norm": 1.2221217155456543,
      "learning_rate": 0.0005983883129123468,
      "loss": 5.2511,
      "step": 500
    },
    {
      "epoch": 0.14804048234280792,
      "grad_norm": 1.1258769035339355,
      "learning_rate": 0.000598186347111889,
      "loss": 5.1464,
      "step": 550
    },
    {
      "epoch": 0.16149870801033592,
      "grad_norm": 1.3253281116485596,
      "learning_rate": 0.0005979843813114312,
      "loss": 5.0664,
      "step": 600
    },
    {
      "epoch": 0.1749569336778639,
      "grad_norm": 1.076049566268921,
      "learning_rate": 0.0005977824155109734,
      "loss": 5.013,
      "step": 650
    },
    {
      "epoch": 0.1884151593453919,
      "grad_norm": 1.1340619325637817,
      "learning_rate": 0.0005975804497105157,
      "loss": 4.9208,
      "step": 700
    },
    {
      "epoch": 0.2018733850129199,
      "grad_norm": 0.8552718758583069,
      "learning_rate": 0.0005973784839100578,
      "loss": 4.8547,
      "step": 750
    },
    {
      "epoch": 0.2153316106804479,
      "grad_norm": 1.0275166034698486,
      "learning_rate": 0.0005971765181096001,
      "loss": 4.7937,
      "step": 800
    },
    {
      "epoch": 0.2287898363479759,
      "grad_norm": 0.8931620121002197,
      "learning_rate": 0.0005969745523091422,
      "loss": 4.7444,
      "step": 850
    },
    {
      "epoch": 0.24224806201550386,
      "grad_norm": 0.7615459561347961,
      "learning_rate": 0.0005967725865086845,
      "loss": 4.6897,
      "step": 900
    },
    {
      "epoch": 0.2557062876830319,
      "grad_norm": 0.860148549079895,
      "learning_rate": 0.0005965706207082267,
      "loss": 4.669,
      "step": 950
    },
    {
      "epoch": 0.26916451335055985,
      "grad_norm": 1.0182037353515625,
      "learning_rate": 0.0005963686549077689,
      "loss": 4.6123,
      "step": 1000
    },
    {
      "epoch": 0.26916451335055985,
      "eval_accuracy": 0.26530030208171723,
      "eval_loss": 4.529453277587891,
      "eval_runtime": 54.5835,
      "eval_samples_per_second": 329.99,
      "eval_steps_per_second": 20.629,
      "step": 1000
    },
    {
      "epoch": 0.2826227390180879,
      "grad_norm": 0.9250805974006653,
      "learning_rate": 0.0005961666891073111,
      "loss": 4.5473,
      "step": 1050
    },
    {
      "epoch": 0.29608096468561584,
      "grad_norm": 0.8115113973617554,
      "learning_rate": 0.0005959647233068533,
      "loss": 4.5016,
      "step": 1100
    },
    {
      "epoch": 0.30953919035314387,
      "grad_norm": 0.8632411956787109,
      "learning_rate": 0.0005957627575063955,
      "loss": 4.4742,
      "step": 1150
    },
    {
      "epoch": 0.32299741602067183,
      "grad_norm": 0.7869690656661987,
      "learning_rate": 0.0005955607917059378,
      "loss": 4.4344,
      "step": 1200
    },
    {
      "epoch": 0.3364556416881998,
      "grad_norm": 0.6230737566947937,
      "learning_rate": 0.00059535882590548,
      "loss": 4.4066,
      "step": 1250
    },
    {
      "epoch": 0.3499138673557278,
      "grad_norm": 0.935434103012085,
      "learning_rate": 0.0005951568601050221,
      "loss": 4.3607,
      "step": 1300
    },
    {
      "epoch": 0.3633720930232558,
      "grad_norm": 0.8798397779464722,
      "learning_rate": 0.0005949548943045644,
      "loss": 4.3366,
      "step": 1350
    },
    {
      "epoch": 0.3768303186907838,
      "grad_norm": 0.7297024726867676,
      "learning_rate": 0.0005947529285041066,
      "loss": 4.3083,
      "step": 1400
    },
    {
      "epoch": 0.3902885443583118,
      "grad_norm": 0.7763248682022095,
      "learning_rate": 0.0005945509627036488,
      "loss": 4.2737,
      "step": 1450
    },
    {
      "epoch": 0.4037467700258398,
      "grad_norm": 0.5607454776763916,
      "learning_rate": 0.000594348996903191,
      "loss": 4.2506,
      "step": 1500
    },
    {
      "epoch": 0.4172049956933678,
      "grad_norm": 0.7158567309379578,
      "learning_rate": 0.0005941470311027332,
      "loss": 4.2292,
      "step": 1550
    },
    {
      "epoch": 0.4306632213608958,
      "grad_norm": 0.7625264525413513,
      "learning_rate": 0.0005939450653022754,
      "loss": 4.2232,
      "step": 1600
    },
    {
      "epoch": 0.44412144702842377,
      "grad_norm": 0.6740456819534302,
      "learning_rate": 0.0005937430995018177,
      "loss": 4.1809,
      "step": 1650
    },
    {
      "epoch": 0.4575796726959518,
      "grad_norm": 0.7420955300331116,
      "learning_rate": 0.0005935411337013598,
      "loss": 4.1803,
      "step": 1700
    },
    {
      "epoch": 0.47103789836347976,
      "grad_norm": 0.8082626461982727,
      "learning_rate": 0.0005933391679009021,
      "loss": 4.1628,
      "step": 1750
    },
    {
      "epoch": 0.4844961240310077,
      "grad_norm": 0.6156010627746582,
      "learning_rate": 0.0005931372021004442,
      "loss": 4.1499,
      "step": 1800
    },
    {
      "epoch": 0.49795434969853575,
      "grad_norm": 0.6687771677970886,
      "learning_rate": 0.0005929352362999865,
      "loss": 4.1337,
      "step": 1850
    },
    {
      "epoch": 0.5114125753660638,
      "grad_norm": 0.67042076587677,
      "learning_rate": 0.0005927332704995287,
      "loss": 4.1201,
      "step": 1900
    },
    {
      "epoch": 0.5248708010335917,
      "grad_norm": 0.6833565831184387,
      "learning_rate": 0.0005925313046990709,
      "loss": 4.0887,
      "step": 1950
    },
    {
      "epoch": 0.5383290267011197,
      "grad_norm": 0.6024614572525024,
      "learning_rate": 0.0005923293388986131,
      "loss": 4.0841,
      "step": 2000
    },
    {
      "epoch": 0.5383290267011197,
      "eval_accuracy": 0.31777640737877294,
      "eval_loss": 4.024723052978516,
      "eval_runtime": 53.7356,
      "eval_samples_per_second": 335.197,
      "eval_steps_per_second": 20.954,
      "step": 2000
    },
    {
      "epoch": 0.5517872523686477,
      "grad_norm": 0.5663601160049438,
      "learning_rate": 0.0005921273730981553,
      "loss": 4.0555,
      "step": 2050
    },
    {
      "epoch": 0.5652454780361758,
      "grad_norm": 0.6550332307815552,
      "learning_rate": 0.0005919254072976975,
      "loss": 4.0597,
      "step": 2100
    },
    {
      "epoch": 0.5787037037037037,
      "grad_norm": 0.6065599322319031,
      "learning_rate": 0.0005917234414972398,
      "loss": 4.048,
      "step": 2150
    },
    {
      "epoch": 0.5921619293712317,
      "grad_norm": 0.6482925415039062,
      "learning_rate": 0.000591521475696782,
      "loss": 4.0347,
      "step": 2200
    },
    {
      "epoch": 0.6056201550387597,
      "grad_norm": 0.5995512008666992,
      "learning_rate": 0.0005913195098963241,
      "loss": 4.0295,
      "step": 2250
    },
    {
      "epoch": 0.6190783807062877,
      "grad_norm": 0.6398453712463379,
      "learning_rate": 0.0005911175440958664,
      "loss": 4.0111,
      "step": 2300
    },
    {
      "epoch": 0.6325366063738157,
      "grad_norm": 0.6352100968360901,
      "learning_rate": 0.0005909155782954086,
      "loss": 4.0079,
      "step": 2350
    },
    {
      "epoch": 0.6459948320413437,
      "grad_norm": 0.4817008674144745,
      "learning_rate": 0.0005907136124949508,
      "loss": 4.0007,
      "step": 2400
    },
    {
      "epoch": 0.6594530577088716,
      "grad_norm": 0.6795246005058289,
      "learning_rate": 0.000590511646694493,
      "loss": 3.9933,
      "step": 2450
    },
    {
      "epoch": 0.6729112833763996,
      "grad_norm": 0.5192553997039795,
      "learning_rate": 0.0005903096808940352,
      "loss": 3.9658,
      "step": 2500
    },
    {
      "epoch": 0.6863695090439277,
      "grad_norm": 0.5410998463630676,
      "learning_rate": 0.0005901077150935774,
      "loss": 3.9671,
      "step": 2550
    },
    {
      "epoch": 0.6998277347114557,
      "grad_norm": 0.48503005504608154,
      "learning_rate": 0.0005899057492931197,
      "loss": 3.9541,
      "step": 2600
    },
    {
      "epoch": 0.7132859603789836,
      "grad_norm": 0.474247545003891,
      "learning_rate": 0.0005897037834926618,
      "loss": 3.9415,
      "step": 2650
    },
    {
      "epoch": 0.7267441860465116,
      "grad_norm": 0.5398220419883728,
      "learning_rate": 0.0005895018176922041,
      "loss": 3.9447,
      "step": 2700
    },
    {
      "epoch": 0.7402024117140397,
      "grad_norm": 0.5455359816551208,
      "learning_rate": 0.0005892998518917462,
      "loss": 3.9324,
      "step": 2750
    },
    {
      "epoch": 0.7536606373815676,
      "grad_norm": 0.556117832660675,
      "learning_rate": 0.0005890978860912885,
      "loss": 3.9207,
      "step": 2800
    },
    {
      "epoch": 0.7671188630490956,
      "grad_norm": 0.550010621547699,
      "learning_rate": 0.0005888959202908307,
      "loss": 3.9291,
      "step": 2850
    },
    {
      "epoch": 0.7805770887166236,
      "grad_norm": 0.6481958627700806,
      "learning_rate": 0.0005886939544903729,
      "loss": 3.9165,
      "step": 2900
    },
    {
      "epoch": 0.7940353143841516,
      "grad_norm": 0.4899815320968628,
      "learning_rate": 0.0005884919886899151,
      "loss": 3.8995,
      "step": 2950
    },
    {
      "epoch": 0.8074935400516796,
      "grad_norm": 0.5277990698814392,
      "learning_rate": 0.0005882900228894573,
      "loss": 3.9046,
      "step": 3000
    },
    {
      "epoch": 0.8074935400516796,
      "eval_accuracy": 0.33397511030915245,
      "eval_loss": 3.841794729232788,
      "eval_runtime": 53.7996,
      "eval_samples_per_second": 334.798,
      "eval_steps_per_second": 20.93,
      "step": 3000
    },
    {
      "epoch": 0.8209517657192076,
      "grad_norm": 0.477497935295105,
      "learning_rate": 0.0005880880570889996,
      "loss": 3.8943,
      "step": 3050
    },
    {
      "epoch": 0.8344099913867356,
      "grad_norm": 0.4592600464820862,
      "learning_rate": 0.0005878860912885418,
      "loss": 3.8894,
      "step": 3100
    },
    {
      "epoch": 0.8478682170542635,
      "grad_norm": 0.5376394987106323,
      "learning_rate": 0.000587684125488084,
      "loss": 3.8786,
      "step": 3150
    },
    {
      "epoch": 0.8613264427217916,
      "grad_norm": 0.47509804368019104,
      "learning_rate": 0.0005874821596876261,
      "loss": 3.8695,
      "step": 3200
    },
    {
      "epoch": 0.8747846683893196,
      "grad_norm": 0.590036928653717,
      "learning_rate": 0.0005872801938871684,
      "loss": 3.87,
      "step": 3250
    },
    {
      "epoch": 0.8882428940568475,
      "grad_norm": 0.5190223455429077,
      "learning_rate": 0.0005870782280867106,
      "loss": 3.8557,
      "step": 3300
    },
    {
      "epoch": 0.9017011197243755,
      "grad_norm": 0.5153225064277649,
      "learning_rate": 0.0005868762622862528,
      "loss": 3.852,
      "step": 3350
    },
    {
      "epoch": 0.9151593453919036,
      "grad_norm": 0.42253756523132324,
      "learning_rate": 0.000586674296485795,
      "loss": 3.867,
      "step": 3400
    },
    {
      "epoch": 0.9286175710594315,
      "grad_norm": 0.48400136828422546,
      "learning_rate": 0.0005864723306853373,
      "loss": 3.842,
      "step": 3450
    },
    {
      "epoch": 0.9420757967269595,
      "grad_norm": 0.4630362093448639,
      "learning_rate": 0.0005862703648848794,
      "loss": 3.8455,
      "step": 3500
    },
    {
      "epoch": 0.9555340223944875,
      "grad_norm": 0.526874840259552,
      "learning_rate": 0.0005860683990844217,
      "loss": 3.8223,
      "step": 3550
    },
    {
      "epoch": 0.9689922480620154,
      "grad_norm": 0.5283749103546143,
      "learning_rate": 0.0005858664332839638,
      "loss": 3.8237,
      "step": 3600
    },
    {
      "epoch": 0.9824504737295435,
      "grad_norm": 0.5012550950050354,
      "learning_rate": 0.0005856644674835061,
      "loss": 3.825,
      "step": 3650
    },
    {
      "epoch": 0.9959086993970715,
      "grad_norm": 0.4376530051231384,
      "learning_rate": 0.0005854625016830483,
      "loss": 3.805,
      "step": 3700
    },
    {
      "epoch": 1.009151593453919,
      "grad_norm": 0.4493418037891388,
      "learning_rate": 0.0005852605358825905,
      "loss": 3.7713,
      "step": 3750
    },
    {
      "epoch": 1.022609819121447,
      "grad_norm": 0.44258996844291687,
      "learning_rate": 0.0005850585700821327,
      "loss": 3.7372,
      "step": 3800
    },
    {
      "epoch": 1.036068044788975,
      "grad_norm": 0.5155314803123474,
      "learning_rate": 0.0005848566042816749,
      "loss": 3.7485,
      "step": 3850
    },
    {
      "epoch": 1.049526270456503,
      "grad_norm": 0.4668378233909607,
      "learning_rate": 0.0005846546384812171,
      "loss": 3.739,
      "step": 3900
    },
    {
      "epoch": 1.062984496124031,
      "grad_norm": 0.5066882371902466,
      "learning_rate": 0.0005844526726807594,
      "loss": 3.7466,
      "step": 3950
    },
    {
      "epoch": 1.076442721791559,
      "grad_norm": 0.46061182022094727,
      "learning_rate": 0.0005842507068803016,
      "loss": 3.7493,
      "step": 4000
    },
    {
      "epoch": 1.076442721791559,
      "eval_accuracy": 0.34418400344540906,
      "eval_loss": 3.738100051879883,
      "eval_runtime": 53.6959,
      "eval_samples_per_second": 335.444,
      "eval_steps_per_second": 20.97,
      "step": 4000
    },
    {
      "epoch": 1.089900947459087,
      "grad_norm": 0.5034427642822266,
      "learning_rate": 0.0005840487410798437,
      "loss": 3.7378,
      "step": 4050
    },
    {
      "epoch": 1.103359173126615,
      "grad_norm": 0.4937703609466553,
      "learning_rate": 0.000583846775279386,
      "loss": 3.7272,
      "step": 4100
    },
    {
      "epoch": 1.116817398794143,
      "grad_norm": 0.43894490599632263,
      "learning_rate": 0.0005836448094789282,
      "loss": 3.7287,
      "step": 4150
    },
    {
      "epoch": 1.130275624461671,
      "grad_norm": 0.48713067173957825,
      "learning_rate": 0.0005834428436784704,
      "loss": 3.7364,
      "step": 4200
    },
    {
      "epoch": 1.143733850129199,
      "grad_norm": 0.4943729341030121,
      "learning_rate": 0.0005832408778780126,
      "loss": 3.739,
      "step": 4250
    },
    {
      "epoch": 1.157192075796727,
      "grad_norm": 0.46905580163002014,
      "learning_rate": 0.0005830389120775548,
      "loss": 3.7298,
      "step": 4300
    },
    {
      "epoch": 1.1706503014642549,
      "grad_norm": 0.4387616217136383,
      "learning_rate": 0.000582836946277097,
      "loss": 3.7308,
      "step": 4350
    },
    {
      "epoch": 1.1841085271317828,
      "grad_norm": 0.455136239528656,
      "learning_rate": 0.0005826349804766393,
      "loss": 3.7206,
      "step": 4400
    },
    {
      "epoch": 1.197566752799311,
      "grad_norm": 0.44222962856292725,
      "learning_rate": 0.0005824330146761814,
      "loss": 3.7197,
      "step": 4450
    },
    {
      "epoch": 1.211024978466839,
      "grad_norm": 0.4487605392932892,
      "learning_rate": 0.0005822310488757237,
      "loss": 3.718,
      "step": 4500
    },
    {
      "epoch": 1.224483204134367,
      "grad_norm": 0.4749026894569397,
      "learning_rate": 0.0005820290830752658,
      "loss": 3.7054,
      "step": 4550
    },
    {
      "epoch": 1.237941429801895,
      "grad_norm": 0.44181352853775024,
      "learning_rate": 0.0005818271172748081,
      "loss": 3.701,
      "step": 4600
    },
    {
      "epoch": 1.251399655469423,
      "grad_norm": 0.4515010714530945,
      "learning_rate": 0.0005816251514743503,
      "loss": 3.7134,
      "step": 4650
    },
    {
      "epoch": 1.2648578811369509,
      "grad_norm": 0.4210042357444763,
      "learning_rate": 0.0005814231856738925,
      "loss": 3.6976,
      "step": 4700
    },
    {
      "epoch": 1.2783161068044788,
      "grad_norm": 0.509992241859436,
      "learning_rate": 0.0005812212198734347,
      "loss": 3.6931,
      "step": 4750
    },
    {
      "epoch": 1.291774332472007,
      "grad_norm": 0.42137229442596436,
      "learning_rate": 0.0005810192540729769,
      "loss": 3.7055,
      "step": 4800
    },
    {
      "epoch": 1.3052325581395348,
      "grad_norm": 0.39782291650772095,
      "learning_rate": 0.0005808172882725192,
      "loss": 3.6862,
      "step": 4850
    },
    {
      "epoch": 1.318690783807063,
      "grad_norm": 0.4171382188796997,
      "learning_rate": 0.0005806153224720614,
      "loss": 3.6812,
      "step": 4900
    },
    {
      "epoch": 1.332149009474591,
      "grad_norm": 0.4413432478904724,
      "learning_rate": 0.0005804133566716036,
      "loss": 3.6806,
      "step": 4950
    },
    {
      "epoch": 1.3456072351421189,
      "grad_norm": 0.42678385972976685,
      "learning_rate": 0.0005802113908711457,
      "loss": 3.6752,
      "step": 5000
    },
    {
      "epoch": 1.3456072351421189,
      "eval_accuracy": 0.35101408802046735,
      "eval_loss": 3.6677448749542236,
      "eval_runtime": 53.6849,
      "eval_samples_per_second": 335.514,
      "eval_steps_per_second": 20.974,
      "step": 5000
    },
    {
      "epoch": 1.3590654608096469,
      "grad_norm": 0.3610088527202606,
      "learning_rate": 0.000580009425070688,
      "loss": 3.6851,
      "step": 5050
    },
    {
      "epoch": 1.3725236864771748,
      "grad_norm": 0.3927769064903259,
      "learning_rate": 0.0005798074592702302,
      "loss": 3.688,
      "step": 5100
    },
    {
      "epoch": 1.3859819121447028,
      "grad_norm": 0.4166286289691925,
      "learning_rate": 0.0005796054934697724,
      "loss": 3.6718,
      "step": 5150
    },
    {
      "epoch": 1.3994401378122308,
      "grad_norm": 0.39592215418815613,
      "learning_rate": 0.0005794035276693146,
      "loss": 3.6768,
      "step": 5200
    },
    {
      "epoch": 1.412898363479759,
      "grad_norm": 0.4000367820262909,
      "learning_rate": 0.0005792015618688568,
      "loss": 3.6685,
      "step": 5250
    },
    {
      "epoch": 1.4263565891472867,
      "grad_norm": 0.38646310567855835,
      "learning_rate": 0.000578999596068399,
      "loss": 3.674,
      "step": 5300
    },
    {
      "epoch": 1.4398148148148149,
      "grad_norm": 0.37530556321144104,
      "learning_rate": 0.0005787976302679413,
      "loss": 3.6658,
      "step": 5350
    },
    {
      "epoch": 1.4532730404823428,
      "grad_norm": 0.37342968583106995,
      "learning_rate": 0.0005785956644674834,
      "loss": 3.6638,
      "step": 5400
    },
    {
      "epoch": 1.4667312661498708,
      "grad_norm": 0.48188892006874084,
      "learning_rate": 0.0005783936986670257,
      "loss": 3.65,
      "step": 5450
    },
    {
      "epoch": 1.4801894918173988,
      "grad_norm": 0.4143880605697632,
      "learning_rate": 0.0005781917328665678,
      "loss": 3.6685,
      "step": 5500
    },
    {
      "epoch": 1.4936477174849268,
      "grad_norm": 0.3935947120189667,
      "learning_rate": 0.0005779897670661101,
      "loss": 3.6693,
      "step": 5550
    },
    {
      "epoch": 1.507105943152455,
      "grad_norm": 0.3887571692466736,
      "learning_rate": 0.0005777878012656523,
      "loss": 3.6481,
      "step": 5600
    },
    {
      "epoch": 1.5205641688199827,
      "grad_norm": 0.38384705781936646,
      "learning_rate": 0.0005775858354651945,
      "loss": 3.6564,
      "step": 5650
    },
    {
      "epoch": 1.5340223944875109,
      "grad_norm": 0.36646515130996704,
      "learning_rate": 0.0005773838696647367,
      "loss": 3.645,
      "step": 5700
    },
    {
      "epoch": 1.5474806201550386,
      "grad_norm": 0.41495048999786377,
      "learning_rate": 0.000577181903864279,
      "loss": 3.6521,
      "step": 5750
    },
    {
      "epoch": 1.5609388458225668,
      "grad_norm": 0.4048604369163513,
      "learning_rate": 0.0005769799380638212,
      "loss": 3.6421,
      "step": 5800
    },
    {
      "epoch": 1.5743970714900948,
      "grad_norm": 0.4305686950683594,
      "learning_rate": 0.0005767779722633633,
      "loss": 3.6493,
      "step": 5850
    },
    {
      "epoch": 1.5878552971576227,
      "grad_norm": 0.414792001247406,
      "learning_rate": 0.0005765760064629056,
      "loss": 3.6338,
      "step": 5900
    },
    {
      "epoch": 1.6013135228251507,
      "grad_norm": 0.38997161388397217,
      "learning_rate": 0.0005763740406624477,
      "loss": 3.6387,
      "step": 5950
    },
    {
      "epoch": 1.6147717484926787,
      "grad_norm": 0.37915465235710144,
      "learning_rate": 0.00057617207486199,
      "loss": 3.6324,
      "step": 6000
    },
    {
      "epoch": 1.6147717484926787,
      "eval_accuracy": 0.3565350866328297,
      "eval_loss": 3.6097068786621094,
      "eval_runtime": 53.6997,
      "eval_samples_per_second": 335.421,
      "eval_steps_per_second": 20.968,
      "step": 6000
    },
    {
      "epoch": 1.6282299741602069,
      "grad_norm": 0.4142931401729584,
      "learning_rate": 0.0005759701090615322,
      "loss": 3.6351,
      "step": 6050
    },
    {
      "epoch": 1.6416881998277346,
      "grad_norm": 0.4205895960330963,
      "learning_rate": 0.0005757681432610744,
      "loss": 3.6229,
      "step": 6100
    },
    {
      "epoch": 1.6551464254952628,
      "grad_norm": 0.42943212389945984,
      "learning_rate": 0.0005755661774606166,
      "loss": 3.6268,
      "step": 6150
    },
    {
      "epoch": 1.6686046511627906,
      "grad_norm": 0.4431730806827545,
      "learning_rate": 0.0005753642116601588,
      "loss": 3.6232,
      "step": 6200
    },
    {
      "epoch": 1.6820628768303187,
      "grad_norm": 0.4297159016132355,
      "learning_rate": 0.000575162245859701,
      "loss": 3.6256,
      "step": 6250
    },
    {
      "epoch": 1.6955211024978467,
      "grad_norm": 0.3931505084037781,
      "learning_rate": 0.0005749602800592433,
      "loss": 3.6251,
      "step": 6300
    },
    {
      "epoch": 1.7089793281653747,
      "grad_norm": 0.41490694880485535,
      "learning_rate": 0.0005747583142587854,
      "loss": 3.6127,
      "step": 6350
    },
    {
      "epoch": 1.7224375538329026,
      "grad_norm": 0.3898763656616211,
      "learning_rate": 0.0005745563484583277,
      "loss": 3.6275,
      "step": 6400
    },
    {
      "epoch": 1.7358957795004306,
      "grad_norm": 0.3727113902568817,
      "learning_rate": 0.0005743543826578698,
      "loss": 3.6163,
      "step": 6450
    },
    {
      "epoch": 1.7493540051679588,
      "grad_norm": 0.3718154728412628,
      "learning_rate": 0.0005741524168574121,
      "loss": 3.6241,
      "step": 6500
    },
    {
      "epoch": 1.7628122308354865,
      "grad_norm": 0.38011330366134644,
      "learning_rate": 0.0005739504510569543,
      "loss": 3.603,
      "step": 6550
    },
    {
      "epoch": 1.7762704565030147,
      "grad_norm": 0.3921981155872345,
      "learning_rate": 0.0005737484852564966,
      "loss": 3.6211,
      "step": 6600
    },
    {
      "epoch": 1.7897286821705425,
      "grad_norm": 0.3750942349433899,
      "learning_rate": 0.0005735465194560387,
      "loss": 3.6174,
      "step": 6650
    },
    {
      "epoch": 1.8031869078380707,
      "grad_norm": 0.341286838054657,
      "learning_rate": 0.000573344553655581,
      "loss": 3.6087,
      "step": 6700
    },
    {
      "epoch": 1.8166451335055986,
      "grad_norm": 0.4016365706920624,
      "learning_rate": 0.0005731425878551232,
      "loss": 3.6186,
      "step": 6750
    },
    {
      "epoch": 1.8301033591731266,
      "grad_norm": 0.37889373302459717,
      "learning_rate": 0.0005729406220546653,
      "loss": 3.5999,
      "step": 6800
    },
    {
      "epoch": 1.8435615848406546,
      "grad_norm": 0.392206609249115,
      "learning_rate": 0.0005727386562542076,
      "loss": 3.5989,
      "step": 6850
    },
    {
      "epoch": 1.8570198105081825,
      "grad_norm": 0.39812007546424866,
      "learning_rate": 0.0005725366904537497,
      "loss": 3.587,
      "step": 6900
    },
    {
      "epoch": 1.8704780361757107,
      "grad_norm": 0.37985455989837646,
      "learning_rate": 0.000572334724653292,
      "loss": 3.609,
      "step": 6950
    },
    {
      "epoch": 1.8839362618432385,
      "grad_norm": 0.41674208641052246,
      "learning_rate": 0.0005721327588528342,
      "loss": 3.5971,
      "step": 7000
    },
    {
      "epoch": 1.8839362618432385,
      "eval_accuracy": 0.3611523607006071,
      "eval_loss": 3.5647761821746826,
      "eval_runtime": 53.6742,
      "eval_samples_per_second": 335.58,
      "eval_steps_per_second": 20.978,
      "step": 7000
    },
    {
      "epoch": 1.8973944875107667,
      "grad_norm": 0.4201742112636566,
      "learning_rate": 0.0005719307930523764,
      "loss": 3.6045,
      "step": 7050
    },
    {
      "epoch": 1.9108527131782944,
      "grad_norm": 0.35860392451286316,
      "learning_rate": 0.0005717288272519186,
      "loss": 3.5862,
      "step": 7100
    },
    {
      "epoch": 1.9243109388458226,
      "grad_norm": 0.42538923025131226,
      "learning_rate": 0.0005715268614514608,
      "loss": 3.5803,
      "step": 7150
    },
    {
      "epoch": 1.9377691645133506,
      "grad_norm": 0.3780660331249237,
      "learning_rate": 0.000571324895651003,
      "loss": 3.5995,
      "step": 7200
    },
    {
      "epoch": 1.9512273901808785,
      "grad_norm": 0.37989741563796997,
      "learning_rate": 0.0005711229298505453,
      "loss": 3.5968,
      "step": 7250
    },
    {
      "epoch": 1.9646856158484065,
      "grad_norm": 0.43703949451446533,
      "learning_rate": 0.0005709209640500874,
      "loss": 3.5722,
      "step": 7300
    },
    {
      "epoch": 1.9781438415159345,
      "grad_norm": 0.4558578431606293,
      "learning_rate": 0.0005707189982496297,
      "loss": 3.5875,
      "step": 7350
    },
    {
      "epoch": 1.9916020671834627,
      "grad_norm": 0.35950618982315063,
      "learning_rate": 0.0005705170324491719,
      "loss": 3.5881,
      "step": 7400
    },
    {
      "epoch": 2.00484496124031,
      "grad_norm": 0.39500686526298523,
      "learning_rate": 0.0005703150666487141,
      "loss": 3.5579,
      "step": 7450
    },
    {
      "epoch": 2.018303186907838,
      "grad_norm": 0.341329425573349,
      "learning_rate": 0.0005701131008482563,
      "loss": 3.4853,
      "step": 7500
    },
    {
      "epoch": 2.0317614125753662,
      "grad_norm": 0.35838985443115234,
      "learning_rate": 0.0005699111350477986,
      "loss": 3.4963,
      "step": 7550
    },
    {
      "epoch": 2.045219638242894,
      "grad_norm": 0.3362147808074951,
      "learning_rate": 0.0005697091692473408,
      "loss": 3.4946,
      "step": 7600
    },
    {
      "epoch": 2.058677863910422,
      "grad_norm": 0.40855300426483154,
      "learning_rate": 0.000569507203446883,
      "loss": 3.5035,
      "step": 7650
    },
    {
      "epoch": 2.07213608957795,
      "grad_norm": 0.38907238841056824,
      "learning_rate": 0.0005693052376464252,
      "loss": 3.5011,
      "step": 7700
    },
    {
      "epoch": 2.085594315245478,
      "grad_norm": 0.39034557342529297,
      "learning_rate": 0.0005691032718459673,
      "loss": 3.4969,
      "step": 7750
    },
    {
      "epoch": 2.099052540913006,
      "grad_norm": 0.41712623834609985,
      "learning_rate": 0.0005689013060455096,
      "loss": 3.5032,
      "step": 7800
    },
    {
      "epoch": 2.112510766580534,
      "grad_norm": 0.39129939675331116,
      "learning_rate": 0.0005686993402450518,
      "loss": 3.4977,
      "step": 7850
    },
    {
      "epoch": 2.125968992248062,
      "grad_norm": 0.36673828959465027,
      "learning_rate": 0.000568497374444594,
      "loss": 3.5007,
      "step": 7900
    },
    {
      "epoch": 2.13942721791559,
      "grad_norm": 0.37993109226226807,
      "learning_rate": 0.0005682954086441362,
      "loss": 3.5074,
      "step": 7950
    },
    {
      "epoch": 2.152885443583118,
      "grad_norm": 0.37266653776168823,
      "learning_rate": 0.0005680934428436784,
      "loss": 3.5112,
      "step": 8000
    },
    {
      "epoch": 2.152885443583118,
      "eval_accuracy": 0.3640361741878539,
      "eval_loss": 3.537073850631714,
      "eval_runtime": 53.612,
      "eval_samples_per_second": 335.97,
      "eval_steps_per_second": 21.003,
      "step": 8000
    },
    {
      "epoch": 2.166343669250646,
      "grad_norm": 0.369495153427124,
      "learning_rate": 0.0005678914770432206,
      "loss": 3.504,
      "step": 8050
    },
    {
      "epoch": 2.179801894918174,
      "grad_norm": 0.3906343877315521,
      "learning_rate": 0.0005676895112427629,
      "loss": 3.4954,
      "step": 8100
    },
    {
      "epoch": 2.193260120585702,
      "grad_norm": 0.4126552641391754,
      "learning_rate": 0.000567487545442305,
      "loss": 3.5038,
      "step": 8150
    },
    {
      "epoch": 2.20671834625323,
      "grad_norm": 0.3587755560874939,
      "learning_rate": 0.0005672855796418473,
      "loss": 3.5045,
      "step": 8200
    },
    {
      "epoch": 2.220176571920758,
      "grad_norm": 0.3550557792186737,
      "learning_rate": 0.0005670836138413894,
      "loss": 3.5078,
      "step": 8250
    },
    {
      "epoch": 2.233634797588286,
      "grad_norm": 0.38642674684524536,
      "learning_rate": 0.0005668816480409317,
      "loss": 3.506,
      "step": 8300
    },
    {
      "epoch": 2.2470930232558137,
      "grad_norm": 0.3594475984573364,
      "learning_rate": 0.0005666796822404739,
      "loss": 3.4996,
      "step": 8350
    },
    {
      "epoch": 2.260551248923342,
      "grad_norm": 0.3822736144065857,
      "learning_rate": 0.0005664777164400162,
      "loss": 3.5008,
      "step": 8400
    },
    {
      "epoch": 2.27400947459087,
      "grad_norm": 0.3965492844581604,
      "learning_rate": 0.0005662757506395583,
      "loss": 3.5014,
      "step": 8450
    },
    {
      "epoch": 2.287467700258398,
      "grad_norm": 0.3902672231197357,
      "learning_rate": 0.0005660737848391006,
      "loss": 3.5048,
      "step": 8500
    },
    {
      "epoch": 2.300925925925926,
      "grad_norm": 0.38660308718681335,
      "learning_rate": 0.0005658718190386428,
      "loss": 3.5106,
      "step": 8550
    },
    {
      "epoch": 2.314384151593454,
      "grad_norm": 0.38404619693756104,
      "learning_rate": 0.000565669853238185,
      "loss": 3.5119,
      "step": 8600
    },
    {
      "epoch": 2.327842377260982,
      "grad_norm": 0.385078102350235,
      "learning_rate": 0.0005654678874377272,
      "loss": 3.5057,
      "step": 8650
    },
    {
      "epoch": 2.3413006029285097,
      "grad_norm": 0.3999466300010681,
      "learning_rate": 0.0005652659216372693,
      "loss": 3.5044,
      "step": 8700
    },
    {
      "epoch": 2.354758828596038,
      "grad_norm": 0.36590397357940674,
      "learning_rate": 0.0005650639558368116,
      "loss": 3.4961,
      "step": 8750
    },
    {
      "epoch": 2.3682170542635657,
      "grad_norm": 0.38425323367118835,
      "learning_rate": 0.0005648619900363538,
      "loss": 3.5168,
      "step": 8800
    },
    {
      "epoch": 2.381675279931094,
      "grad_norm": 0.3574206531047821,
      "learning_rate": 0.000564660024235896,
      "loss": 3.498,
      "step": 8850
    },
    {
      "epoch": 2.395133505598622,
      "grad_norm": 0.3823363482952118,
      "learning_rate": 0.0005644580584354382,
      "loss": 3.4875,
      "step": 8900
    },
    {
      "epoch": 2.40859173126615,
      "grad_norm": 0.3611487150192261,
      "learning_rate": 0.0005642560926349804,
      "loss": 3.4983,
      "step": 8950
    },
    {
      "epoch": 2.422049956933678,
      "grad_norm": 0.38465991616249084,
      "learning_rate": 0.0005640541268345226,
      "loss": 3.4948,
      "step": 9000
    },
    {
      "epoch": 2.422049956933678,
      "eval_accuracy": 0.36659046176217375,
      "eval_loss": 3.5099785327911377,
      "eval_runtime": 53.8716,
      "eval_samples_per_second": 334.351,
      "eval_steps_per_second": 20.902,
      "step": 9000
    },
    {
      "epoch": 2.4355081826012057,
      "grad_norm": 0.38401660323143005,
      "learning_rate": 0.0005638521610340649,
      "loss": 3.5016,
      "step": 9050
    },
    {
      "epoch": 2.448966408268734,
      "grad_norm": 0.36064672470092773,
      "learning_rate": 0.000563650195233607,
      "loss": 3.4943,
      "step": 9100
    },
    {
      "epoch": 2.4624246339362617,
      "grad_norm": 0.39322274923324585,
      "learning_rate": 0.0005634482294331493,
      "loss": 3.4883,
      "step": 9150
    },
    {
      "epoch": 2.47588285960379,
      "grad_norm": 0.36240771412849426,
      "learning_rate": 0.0005632462636326914,
      "loss": 3.4901,
      "step": 9200
    },
    {
      "epoch": 2.4893410852713176,
      "grad_norm": 0.37943360209465027,
      "learning_rate": 0.0005630442978322337,
      "loss": 3.494,
      "step": 9250
    },
    {
      "epoch": 2.502799310938846,
      "grad_norm": 0.36113718152046204,
      "learning_rate": 0.0005628423320317759,
      "loss": 3.4915,
      "step": 9300
    },
    {
      "epoch": 2.516257536606374,
      "grad_norm": 0.3588191568851471,
      "learning_rate": 0.0005626403662313182,
      "loss": 3.4769,
      "step": 9350
    },
    {
      "epoch": 2.5297157622739017,
      "grad_norm": 0.3674715459346771,
      "learning_rate": 0.0005624384004308603,
      "loss": 3.4824,
      "step": 9400
    },
    {
      "epoch": 2.54317398794143,
      "grad_norm": 0.3795354962348938,
      "learning_rate": 0.0005622364346304026,
      "loss": 3.4977,
      "step": 9450
    },
    {
      "epoch": 2.5566322136089576,
      "grad_norm": 0.3495054244995117,
      "learning_rate": 0.0005620344688299448,
      "loss": 3.4829,
      "step": 9500
    },
    {
      "epoch": 2.570090439276486,
      "grad_norm": 0.3756536543369293,
      "learning_rate": 0.0005618325030294869,
      "loss": 3.4937,
      "step": 9550
    },
    {
      "epoch": 2.583548664944014,
      "grad_norm": 0.33491694927215576,
      "learning_rate": 0.0005616305372290292,
      "loss": 3.4838,
      "step": 9600
    },
    {
      "epoch": 2.5970068906115418,
      "grad_norm": 0.3515341877937317,
      "learning_rate": 0.0005614285714285713,
      "loss": 3.4769,
      "step": 9650
    },
    {
      "epoch": 2.6104651162790695,
      "grad_norm": 0.35633155703544617,
      "learning_rate": 0.0005612266056281136,
      "loss": 3.482,
      "step": 9700
    },
    {
      "epoch": 2.6239233419465977,
      "grad_norm": 0.4096840023994446,
      "learning_rate": 0.0005610246398276558,
      "loss": 3.4919,
      "step": 9750
    },
    {
      "epoch": 2.637381567614126,
      "grad_norm": 0.38962793350219727,
      "learning_rate": 0.000560822674027198,
      "loss": 3.4777,
      "step": 9800
    },
    {
      "epoch": 2.6508397932816536,
      "grad_norm": 0.35541465878486633,
      "learning_rate": 0.0005606207082267402,
      "loss": 3.4946,
      "step": 9850
    },
    {
      "epoch": 2.664298018949182,
      "grad_norm": 0.36673033237457275,
      "learning_rate": 0.0005604187424262824,
      "loss": 3.478,
      "step": 9900
    },
    {
      "epoch": 2.6777562446167096,
      "grad_norm": 0.38117632269859314,
      "learning_rate": 0.0005602167766258246,
      "loss": 3.4992,
      "step": 9950
    },
    {
      "epoch": 2.6912144702842378,
      "grad_norm": 0.3540132939815521,
      "learning_rate": 0.0005600148108253669,
      "loss": 3.4936,
      "step": 10000
    },
    {
      "epoch": 2.6912144702842378,
      "eval_accuracy": 0.36949480950512226,
      "eval_loss": 3.4849045276641846,
      "eval_runtime": 53.8648,
      "eval_samples_per_second": 334.393,
      "eval_steps_per_second": 20.904,
      "step": 10000
    },
    {
      "epoch": 2.704672695951766,
      "grad_norm": 0.3549436330795288,
      "learning_rate": 0.000559812845024909,
      "loss": 3.482,
      "step": 10050
    },
    {
      "epoch": 2.7181309216192937,
      "grad_norm": 0.3870752155780792,
      "learning_rate": 0.0005596108792244513,
      "loss": 3.4803,
      "step": 10100
    },
    {
      "epoch": 2.7315891472868215,
      "grad_norm": 0.3666519522666931,
      "learning_rate": 0.0005594089134239935,
      "loss": 3.4813,
      "step": 10150
    },
    {
      "epoch": 2.7450473729543496,
      "grad_norm": 0.3458859622478485,
      "learning_rate": 0.0005592069476235358,
      "loss": 3.4725,
      "step": 10200
    },
    {
      "epoch": 2.758505598621878,
      "grad_norm": 0.3320566415786743,
      "learning_rate": 0.0005590049818230779,
      "loss": 3.4812,
      "step": 10250
    },
    {
      "epoch": 2.7719638242894056,
      "grad_norm": 0.354028582572937,
      "learning_rate": 0.0005588030160226202,
      "loss": 3.4935,
      "step": 10300
    },
    {
      "epoch": 2.7854220499569338,
      "grad_norm": 0.38568511605262756,
      "learning_rate": 0.0005586010502221623,
      "loss": 3.4781,
      "step": 10350
    },
    {
      "epoch": 2.7988802756244615,
      "grad_norm": 0.4278452694416046,
      "learning_rate": 0.0005583990844217045,
      "loss": 3.4732,
      "step": 10400
    },
    {
      "epoch": 2.8123385012919897,
      "grad_norm": 0.33488065004348755,
      "learning_rate": 0.0005581971186212468,
      "loss": 3.4761,
      "step": 10450
    },
    {
      "epoch": 2.825796726959518,
      "grad_norm": 0.37788429856300354,
      "learning_rate": 0.0005579951528207889,
      "loss": 3.4835,
      "step": 10500
    },
    {
      "epoch": 2.8392549526270456,
      "grad_norm": 0.3877081573009491,
      "learning_rate": 0.0005577931870203312,
      "loss": 3.4722,
      "step": 10550
    },
    {
      "epoch": 2.8527131782945734,
      "grad_norm": 0.37572547793388367,
      "learning_rate": 0.0005575912212198733,
      "loss": 3.4701,
      "step": 10600
    },
    {
      "epoch": 2.8661714039621016,
      "grad_norm": 0.38266733288764954,
      "learning_rate": 0.0005573892554194156,
      "loss": 3.4855,
      "step": 10650
    },
    {
      "epoch": 2.8796296296296298,
      "grad_norm": 0.3513830304145813,
      "learning_rate": 0.0005571872896189578,
      "loss": 3.4572,
      "step": 10700
    },
    {
      "epoch": 2.8930878552971575,
      "grad_norm": 0.3514174818992615,
      "learning_rate": 0.0005569853238185,
      "loss": 3.4694,
      "step": 10750
    },
    {
      "epoch": 2.9065460809646857,
      "grad_norm": 0.3365142345428467,
      "learning_rate": 0.0005567833580180422,
      "loss": 3.4767,
      "step": 10800
    },
    {
      "epoch": 2.9200043066322134,
      "grad_norm": 0.3384622037410736,
      "learning_rate": 0.0005565813922175844,
      "loss": 3.4679,
      "step": 10850
    },
    {
      "epoch": 2.9334625322997416,
      "grad_norm": 0.3428475260734558,
      "learning_rate": 0.0005563794264171266,
      "loss": 3.4704,
      "step": 10900
    },
    {
      "epoch": 2.94692075796727,
      "grad_norm": 0.3406570553779602,
      "learning_rate": 0.0005561774606166689,
      "loss": 3.4632,
      "step": 10950
    },
    {
      "epoch": 2.9603789836347976,
      "grad_norm": 0.36909055709838867,
      "learning_rate": 0.000555975494816211,
      "loss": 3.4683,
      "step": 11000
    },
    {
      "epoch": 2.9603789836347976,
      "eval_accuracy": 0.37134626057079584,
      "eval_loss": 3.4629483222961426,
      "eval_runtime": 53.8353,
      "eval_samples_per_second": 334.576,
      "eval_steps_per_second": 20.916,
      "step": 11000
    },
    {
      "epoch": 2.9738372093023253,
      "grad_norm": 0.36576735973358154,
      "learning_rate": 0.0005557735290157534,
      "loss": 3.4682,
      "step": 11050
    },
    {
      "epoch": 2.9872954349698535,
      "grad_norm": 0.3771063983440399,
      "learning_rate": 0.0005555715632152955,
      "loss": 3.4609,
      "step": 11100
    },
    {
      "epoch": 3.000538329026701,
      "grad_norm": 0.3679291009902954,
      "learning_rate": 0.0005553695974148378,
      "loss": 3.4581,
      "step": 11150
    },
    {
      "epoch": 3.013996554694229,
      "grad_norm": 0.4077318012714386,
      "learning_rate": 0.0005551676316143799,
      "loss": 3.3805,
      "step": 11200
    },
    {
      "epoch": 3.027454780361757,
      "grad_norm": 0.3519296646118164,
      "learning_rate": 0.0005549656658139222,
      "loss": 3.3762,
      "step": 11250
    },
    {
      "epoch": 3.0409130060292853,
      "grad_norm": 0.3560413718223572,
      "learning_rate": 0.0005547637000134644,
      "loss": 3.3698,
      "step": 11300
    },
    {
      "epoch": 3.054371231696813,
      "grad_norm": 0.4313643276691437,
      "learning_rate": 0.0005545617342130065,
      "loss": 3.3794,
      "step": 11350
    },
    {
      "epoch": 3.067829457364341,
      "grad_norm": 0.3495795726776123,
      "learning_rate": 0.0005543597684125488,
      "loss": 3.3729,
      "step": 11400
    },
    {
      "epoch": 3.081287683031869,
      "grad_norm": 0.37050846219062805,
      "learning_rate": 0.0005541578026120909,
      "loss": 3.3754,
      "step": 11450
    },
    {
      "epoch": 3.094745908699397,
      "grad_norm": 0.364422470331192,
      "learning_rate": 0.0005539558368116332,
      "loss": 3.3805,
      "step": 11500
    },
    {
      "epoch": 3.108204134366925,
      "grad_norm": 0.39504632353782654,
      "learning_rate": 0.0005537538710111754,
      "loss": 3.39,
      "step": 11550
    },
    {
      "epoch": 3.121662360034453,
      "grad_norm": 0.3495160937309265,
      "learning_rate": 0.0005535519052107176,
      "loss": 3.3926,
      "step": 11600
    },
    {
      "epoch": 3.135120585701981,
      "grad_norm": 0.3640858232975006,
      "learning_rate": 0.0005533499394102598,
      "loss": 3.3842,
      "step": 11650
    },
    {
      "epoch": 3.148578811369509,
      "grad_norm": 0.35223206877708435,
      "learning_rate": 0.000553147973609802,
      "loss": 3.3832,
      "step": 11700
    },
    {
      "epoch": 3.162037037037037,
      "grad_norm": 0.3473789691925049,
      "learning_rate": 0.0005529460078093442,
      "loss": 3.3901,
      "step": 11750
    },
    {
      "epoch": 3.175495262704565,
      "grad_norm": 0.3820473253726959,
      "learning_rate": 0.0005527440420088865,
      "loss": 3.4031,
      "step": 11800
    },
    {
      "epoch": 3.188953488372093,
      "grad_norm": 0.36691343784332275,
      "learning_rate": 0.0005525420762084286,
      "loss": 3.3887,
      "step": 11850
    },
    {
      "epoch": 3.202411714039621,
      "grad_norm": 0.3371462821960449,
      "learning_rate": 0.0005523401104079709,
      "loss": 3.3819,
      "step": 11900
    },
    {
      "epoch": 3.215869939707149,
      "grad_norm": 0.34302136301994324,
      "learning_rate": 0.0005521381446075131,
      "loss": 3.4062,
      "step": 11950
    },
    {
      "epoch": 3.229328165374677,
      "grad_norm": 0.3512645363807678,
      "learning_rate": 0.0005519361788070554,
      "loss": 3.3893,
      "step": 12000
    },
    {
      "epoch": 3.229328165374677,
      "eval_accuracy": 0.373407834655131,
      "eval_loss": 3.449765205383301,
      "eval_runtime": 53.7784,
      "eval_samples_per_second": 334.93,
      "eval_steps_per_second": 20.938,
      "step": 12000
    },
    {
      "epoch": 3.242786391042205,
      "grad_norm": 0.3671615719795227,
      "learning_rate": 0.0005517342130065975,
      "loss": 3.4015,
      "step": 12050
    },
    {
      "epoch": 3.2562446167097328,
      "grad_norm": 0.33293598890304565,
      "learning_rate": 0.0005515322472061398,
      "loss": 3.3848,
      "step": 12100
    },
    {
      "epoch": 3.269702842377261,
      "grad_norm": 0.3794623017311096,
      "learning_rate": 0.0005513302814056819,
      "loss": 3.3976,
      "step": 12150
    },
    {
      "epoch": 3.283161068044789,
      "grad_norm": 0.3835780918598175,
      "learning_rate": 0.0005511283156052242,
      "loss": 3.3949,
      "step": 12200
    },
    {
      "epoch": 3.296619293712317,
      "grad_norm": 0.35747066140174866,
      "learning_rate": 0.0005509263498047664,
      "loss": 3.3953,
      "step": 12250
    },
    {
      "epoch": 3.310077519379845,
      "grad_norm": 0.34848782420158386,
      "learning_rate": 0.0005507243840043085,
      "loss": 3.3953,
      "step": 12300
    },
    {
      "epoch": 3.323535745047373,
      "grad_norm": 0.34142157435417175,
      "learning_rate": 0.0005505224182038508,
      "loss": 3.4,
      "step": 12350
    },
    {
      "epoch": 3.336993970714901,
      "grad_norm": 0.3376274108886719,
      "learning_rate": 0.0005503204524033929,
      "loss": 3.39,
      "step": 12400
    },
    {
      "epoch": 3.3504521963824287,
      "grad_norm": 0.3726096749305725,
      "learning_rate": 0.0005501184866029352,
      "loss": 3.3992,
      "step": 12450
    },
    {
      "epoch": 3.363910422049957,
      "grad_norm": 0.37750956416130066,
      "learning_rate": 0.0005499165208024774,
      "loss": 3.3888,
      "step": 12500
    },
    {
      "epoch": 3.3773686477174847,
      "grad_norm": 0.35686615109443665,
      "learning_rate": 0.0005497145550020196,
      "loss": 3.3925,
      "step": 12550
    },
    {
      "epoch": 3.390826873385013,
      "grad_norm": 0.3921195864677429,
      "learning_rate": 0.0005495125892015618,
      "loss": 3.3896,
      "step": 12600
    },
    {
      "epoch": 3.404285099052541,
      "grad_norm": 0.3748328387737274,
      "learning_rate": 0.000549310623401104,
      "loss": 3.3959,
      "step": 12650
    },
    {
      "epoch": 3.417743324720069,
      "grad_norm": 0.35698792338371277,
      "learning_rate": 0.0005491086576006462,
      "loss": 3.4172,
      "step": 12700
    },
    {
      "epoch": 3.431201550387597,
      "grad_norm": 0.34931182861328125,
      "learning_rate": 0.0005489066918001885,
      "loss": 3.4007,
      "step": 12750
    },
    {
      "epoch": 3.4446597760551247,
      "grad_norm": 0.36840617656707764,
      "learning_rate": 0.0005487047259997306,
      "loss": 3.3995,
      "step": 12800
    },
    {
      "epoch": 3.458118001722653,
      "grad_norm": 0.37831541895866394,
      "learning_rate": 0.0005485027601992729,
      "loss": 3.4005,
      "step": 12850
    },
    {
      "epoch": 3.471576227390181,
      "grad_norm": 0.3618316054344177,
      "learning_rate": 0.0005483007943988151,
      "loss": 3.4051,
      "step": 12900
    },
    {
      "epoch": 3.485034453057709,
      "grad_norm": 0.3680399954319,
      "learning_rate": 0.0005480988285983574,
      "loss": 3.3998,
      "step": 12950
    },
    {
      "epoch": 3.4984926787252366,
      "grad_norm": 0.36591285467147827,
      "learning_rate": 0.0005478968627978995,
      "loss": 3.3915,
      "step": 13000
    },
    {
      "epoch": 3.4984926787252366,
      "eval_accuracy": 0.37471398715272664,
      "eval_loss": 3.436342239379883,
      "eval_runtime": 53.7514,
      "eval_samples_per_second": 335.098,
      "eval_steps_per_second": 20.948,
      "step": 13000
    },
    {
      "epoch": 3.511950904392765,
      "grad_norm": 0.34238138794898987,
      "learning_rate": 0.0005476948969974418,
      "loss": 3.4124,
      "step": 13050
    },
    {
      "epoch": 3.525409130060293,
      "grad_norm": 0.36642181873321533,
      "learning_rate": 0.0005474929311969839,
      "loss": 3.3979,
      "step": 13100
    },
    {
      "epoch": 3.5388673557278207,
      "grad_norm": 0.378031462430954,
      "learning_rate": 0.0005472909653965261,
      "loss": 3.3842,
      "step": 13150
    },
    {
      "epoch": 3.552325581395349,
      "grad_norm": 0.34340566396713257,
      "learning_rate": 0.0005470889995960684,
      "loss": 3.3945,
      "step": 13200
    },
    {
      "epoch": 3.5657838070628767,
      "grad_norm": 0.37123072147369385,
      "learning_rate": 0.0005468870337956105,
      "loss": 3.4008,
      "step": 13250
    },
    {
      "epoch": 3.579242032730405,
      "grad_norm": 0.38739728927612305,
      "learning_rate": 0.0005466850679951528,
      "loss": 3.4049,
      "step": 13300
    },
    {
      "epoch": 3.592700258397933,
      "grad_norm": 0.36094415187835693,
      "learning_rate": 0.0005464831021946949,
      "loss": 3.408,
      "step": 13350
    },
    {
      "epoch": 3.606158484065461,
      "grad_norm": 0.35295525193214417,
      "learning_rate": 0.0005462811363942372,
      "loss": 3.3991,
      "step": 13400
    },
    {
      "epoch": 3.6196167097329885,
      "grad_norm": 0.35480549931526184,
      "learning_rate": 0.0005460791705937794,
      "loss": 3.4071,
      "step": 13450
    },
    {
      "epoch": 3.6330749354005167,
      "grad_norm": 0.35453832149505615,
      "learning_rate": 0.0005458772047933216,
      "loss": 3.3911,
      "step": 13500
    },
    {
      "epoch": 3.646533161068045,
      "grad_norm": 0.37023717164993286,
      "learning_rate": 0.0005456752389928638,
      "loss": 3.3983,
      "step": 13550
    },
    {
      "epoch": 3.6599913867355727,
      "grad_norm": 0.35451245307922363,
      "learning_rate": 0.000545473273192406,
      "loss": 3.3998,
      "step": 13600
    },
    {
      "epoch": 3.673449612403101,
      "grad_norm": 0.35649922490119934,
      "learning_rate": 0.0005452713073919482,
      "loss": 3.3961,
      "step": 13650
    },
    {
      "epoch": 3.6869078380706286,
      "grad_norm": 0.36602070927619934,
      "learning_rate": 0.0005450693415914905,
      "loss": 3.3947,
      "step": 13700
    },
    {
      "epoch": 3.700366063738157,
      "grad_norm": 0.37440329790115356,
      "learning_rate": 0.0005448673757910327,
      "loss": 3.3986,
      "step": 13750
    },
    {
      "epoch": 3.713824289405685,
      "grad_norm": 0.35884660482406616,
      "learning_rate": 0.0005446654099905749,
      "loss": 3.3951,
      "step": 13800
    },
    {
      "epoch": 3.7272825150732127,
      "grad_norm": 0.3605027496814728,
      "learning_rate": 0.0005444634441901171,
      "loss": 3.3956,
      "step": 13850
    },
    {
      "epoch": 3.7407407407407405,
      "grad_norm": 0.3374119997024536,
      "learning_rate": 0.0005442614783896594,
      "loss": 3.3976,
      "step": 13900
    },
    {
      "epoch": 3.7541989664082687,
      "grad_norm": 0.34979817271232605,
      "learning_rate": 0.0005440595125892015,
      "loss": 3.3934,
      "step": 13950
    },
    {
      "epoch": 3.767657192075797,
      "grad_norm": 0.38936689496040344,
      "learning_rate": 0.0005438575467887438,
      "loss": 3.3858,
      "step": 14000
    },
    {
      "epoch": 3.767657192075797,
      "eval_accuracy": 0.37646504852385865,
      "eval_loss": 3.4231066703796387,
      "eval_runtime": 53.7446,
      "eval_samples_per_second": 335.141,
      "eval_steps_per_second": 20.951,
      "step": 14000
    },
    {
      "epoch": 3.7811154177433246,
      "grad_norm": 0.3927522301673889,
      "learning_rate": 0.0005436555809882859,
      "loss": 3.3889,
      "step": 14050
    },
    {
      "epoch": 3.794573643410853,
      "grad_norm": 0.35339125990867615,
      "learning_rate": 0.0005434536151878281,
      "loss": 3.4018,
      "step": 14100
    },
    {
      "epoch": 3.8080318690783805,
      "grad_norm": 0.3210137188434601,
      "learning_rate": 0.0005432516493873704,
      "loss": 3.3906,
      "step": 14150
    },
    {
      "epoch": 3.8214900947459087,
      "grad_norm": 0.35777273774147034,
      "learning_rate": 0.0005430496835869125,
      "loss": 3.3963,
      "step": 14200
    },
    {
      "epoch": 3.834948320413437,
      "grad_norm": 0.358101487159729,
      "learning_rate": 0.0005428477177864548,
      "loss": 3.4034,
      "step": 14250
    },
    {
      "epoch": 3.8484065460809647,
      "grad_norm": 0.35471367835998535,
      "learning_rate": 0.0005426457519859969,
      "loss": 3.4062,
      "step": 14300
    },
    {
      "epoch": 3.8618647717484924,
      "grad_norm": 0.3749210834503174,
      "learning_rate": 0.0005424437861855392,
      "loss": 3.3965,
      "step": 14350
    },
    {
      "epoch": 3.8753229974160206,
      "grad_norm": 0.3748970627784729,
      "learning_rate": 0.0005422418203850814,
      "loss": 3.3907,
      "step": 14400
    },
    {
      "epoch": 3.888781223083549,
      "grad_norm": 0.3373413681983948,
      "learning_rate": 0.0005420398545846236,
      "loss": 3.4029,
      "step": 14450
    },
    {
      "epoch": 3.9022394487510765,
      "grad_norm": 0.3378717005252838,
      "learning_rate": 0.0005418378887841658,
      "loss": 3.3926,
      "step": 14500
    },
    {
      "epoch": 3.9156976744186047,
      "grad_norm": 0.33396196365356445,
      "learning_rate": 0.000541635922983708,
      "loss": 3.4127,
      "step": 14550
    },
    {
      "epoch": 3.9291559000861325,
      "grad_norm": 0.3631775379180908,
      "learning_rate": 0.0005414339571832503,
      "loss": 3.3993,
      "step": 14600
    },
    {
      "epoch": 3.9426141257536607,
      "grad_norm": 0.3275887966156006,
      "learning_rate": 0.0005412319913827925,
      "loss": 3.3836,
      "step": 14650
    },
    {
      "epoch": 3.956072351421189,
      "grad_norm": 0.336851567029953,
      "learning_rate": 0.0005410300255823347,
      "loss": 3.3843,
      "step": 14700
    },
    {
      "epoch": 3.9695305770887166,
      "grad_norm": 0.3692421019077301,
      "learning_rate": 0.0005408280597818769,
      "loss": 3.389,
      "step": 14750
    },
    {
      "epoch": 3.9829888027562443,
      "grad_norm": 0.35839107632637024,
      "learning_rate": 0.0005406260939814191,
      "loss": 3.3787,
      "step": 14800
    },
    {
      "epoch": 3.9964470284237725,
      "grad_norm": 0.34140458703041077,
      "learning_rate": 0.0005404241281809614,
      "loss": 3.385,
      "step": 14850
    },
    {
      "epoch": 4.00968992248062,
      "grad_norm": 0.37650322914123535,
      "learning_rate": 0.0005402221623805035,
      "loss": 3.3252,
      "step": 14900
    },
    {
      "epoch": 4.023148148148148,
      "grad_norm": 0.3383863866329193,
      "learning_rate": 0.0005400201965800457,
      "loss": 3.2848,
      "step": 14950
    },
    {
      "epoch": 4.036606373815676,
      "grad_norm": 0.35266733169555664,
      "learning_rate": 0.000539818230779588,
      "loss": 3.3038,
      "step": 15000
    },
    {
      "epoch": 4.036606373815676,
      "eval_accuracy": 0.3777076426109491,
      "eval_loss": 3.412649154663086,
      "eval_runtime": 53.7186,
      "eval_samples_per_second": 335.303,
      "eval_steps_per_second": 20.961,
      "step": 15000
    },
    {
      "epoch": 4.050064599483204,
      "grad_norm": 0.3664638102054596,
      "learning_rate": 0.0005396162649791301,
      "loss": 3.3013,
      "step": 15050
    },
    {
      "epoch": 4.0635228251507325,
      "grad_norm": 0.3443576991558075,
      "learning_rate": 0.0005394142991786724,
      "loss": 3.306,
      "step": 15100
    },
    {
      "epoch": 4.07698105081826,
      "grad_norm": 0.3623943030834198,
      "learning_rate": 0.0005392123333782145,
      "loss": 3.3083,
      "step": 15150
    },
    {
      "epoch": 4.090439276485788,
      "grad_norm": 0.345225989818573,
      "learning_rate": 0.0005390103675777568,
      "loss": 3.3135,
      "step": 15200
    },
    {
      "epoch": 4.103897502153316,
      "grad_norm": 0.3902343809604645,
      "learning_rate": 0.000538808401777299,
      "loss": 3.3166,
      "step": 15250
    },
    {
      "epoch": 4.117355727820844,
      "grad_norm": 0.3565817177295685,
      "learning_rate": 0.0005386064359768412,
      "loss": 3.3177,
      "step": 15300
    },
    {
      "epoch": 4.1308139534883725,
      "grad_norm": 0.33238816261291504,
      "learning_rate": 0.0005384044701763834,
      "loss": 3.3145,
      "step": 15350
    },
    {
      "epoch": 4.1442721791559,
      "grad_norm": 0.36902859807014465,
      "learning_rate": 0.0005382025043759256,
      "loss": 3.3058,
      "step": 15400
    },
    {
      "epoch": 4.157730404823428,
      "grad_norm": 0.349520742893219,
      "learning_rate": 0.0005380005385754678,
      "loss": 3.3161,
      "step": 15450
    },
    {
      "epoch": 4.171188630490956,
      "grad_norm": 0.39129889011383057,
      "learning_rate": 0.0005377985727750101,
      "loss": 3.3209,
      "step": 15500
    },
    {
      "epoch": 4.184646856158484,
      "grad_norm": 0.36261945962905884,
      "learning_rate": 0.0005375966069745523,
      "loss": 3.3263,
      "step": 15550
    },
    {
      "epoch": 4.198105081826012,
      "grad_norm": 0.3307056725025177,
      "learning_rate": 0.0005373946411740945,
      "loss": 3.3133,
      "step": 15600
    },
    {
      "epoch": 4.21156330749354,
      "grad_norm": 0.3555365800857544,
      "learning_rate": 0.0005371926753736367,
      "loss": 3.3177,
      "step": 15650
    },
    {
      "epoch": 4.225021533161068,
      "grad_norm": 0.3683795630931854,
      "learning_rate": 0.000536990709573179,
      "loss": 3.3199,
      "step": 15700
    },
    {
      "epoch": 4.238479758828596,
      "grad_norm": 0.3561367988586426,
      "learning_rate": 0.0005367887437727211,
      "loss": 3.3146,
      "step": 15750
    },
    {
      "epoch": 4.251937984496124,
      "grad_norm": 0.3561237156391144,
      "learning_rate": 0.0005365867779722634,
      "loss": 3.3396,
      "step": 15800
    },
    {
      "epoch": 4.265396210163652,
      "grad_norm": 0.3543408215045929,
      "learning_rate": 0.0005363848121718055,
      "loss": 3.3308,
      "step": 15850
    },
    {
      "epoch": 4.27885443583118,
      "grad_norm": 0.36262819170951843,
      "learning_rate": 0.0005361828463713477,
      "loss": 3.3253,
      "step": 15900
    },
    {
      "epoch": 4.292312661498708,
      "grad_norm": 0.36303988099098206,
      "learning_rate": 0.00053598088057089,
      "loss": 3.3338,
      "step": 15950
    },
    {
      "epoch": 4.305770887166236,
      "grad_norm": 0.34338095784187317,
      "learning_rate": 0.0005357789147704321,
      "loss": 3.3297,
      "step": 16000
    },
    {
      "epoch": 4.305770887166236,
      "eval_accuracy": 0.3787833551278926,
      "eval_loss": 3.404193162918091,
      "eval_runtime": 53.6662,
      "eval_samples_per_second": 335.63,
      "eval_steps_per_second": 20.982,
      "step": 16000
    },
    {
      "epoch": 4.319229112833764,
      "grad_norm": 0.3415316939353943,
      "learning_rate": 0.0005355769489699744,
      "loss": 3.3426,
      "step": 16050
    },
    {
      "epoch": 4.332687338501292,
      "grad_norm": 0.34920433163642883,
      "learning_rate": 0.0005353749831695165,
      "loss": 3.3309,
      "step": 16100
    },
    {
      "epoch": 4.34614556416882,
      "grad_norm": 0.3775346875190735,
      "learning_rate": 0.0005351730173690588,
      "loss": 3.329,
      "step": 16150
    },
    {
      "epoch": 4.359603789836348,
      "grad_norm": 0.34089094400405884,
      "learning_rate": 0.000534971051568601,
      "loss": 3.311,
      "step": 16200
    },
    {
      "epoch": 4.373062015503876,
      "grad_norm": 0.3913591206073761,
      "learning_rate": 0.0005347690857681432,
      "loss": 3.3375,
      "step": 16250
    },
    {
      "epoch": 4.386520241171404,
      "grad_norm": 0.3345584273338318,
      "learning_rate": 0.0005345671199676854,
      "loss": 3.3189,
      "step": 16300
    },
    {
      "epoch": 4.399978466838932,
      "grad_norm": 0.3587518632411957,
      "learning_rate": 0.0005343651541672276,
      "loss": 3.3273,
      "step": 16350
    },
    {
      "epoch": 4.41343669250646,
      "grad_norm": 0.35501107573509216,
      "learning_rate": 0.0005341631883667699,
      "loss": 3.3295,
      "step": 16400
    },
    {
      "epoch": 4.426894918173988,
      "grad_norm": 0.36069580912590027,
      "learning_rate": 0.0005339612225663121,
      "loss": 3.3267,
      "step": 16450
    },
    {
      "epoch": 4.440353143841516,
      "grad_norm": 0.36240604519844055,
      "learning_rate": 0.0005337592567658543,
      "loss": 3.3333,
      "step": 16500
    },
    {
      "epoch": 4.453811369509044,
      "grad_norm": 0.35791751742362976,
      "learning_rate": 0.0005335572909653965,
      "loss": 3.3298,
      "step": 16550
    },
    {
      "epoch": 4.467269595176572,
      "grad_norm": 0.3455749750137329,
      "learning_rate": 0.0005333553251649387,
      "loss": 3.3251,
      "step": 16600
    },
    {
      "epoch": 4.4807278208441,
      "grad_norm": 0.3759973347187042,
      "learning_rate": 0.000533153359364481,
      "loss": 3.3341,
      "step": 16650
    },
    {
      "epoch": 4.4941860465116275,
      "grad_norm": 0.3809243440628052,
      "learning_rate": 0.0005329513935640231,
      "loss": 3.3308,
      "step": 16700
    },
    {
      "epoch": 4.507644272179156,
      "grad_norm": 0.3631037771701813,
      "learning_rate": 0.0005327494277635654,
      "loss": 3.3494,
      "step": 16750
    },
    {
      "epoch": 4.521102497846684,
      "grad_norm": 0.3409591317176819,
      "learning_rate": 0.0005325474619631075,
      "loss": 3.3306,
      "step": 16800
    },
    {
      "epoch": 4.534560723514212,
      "grad_norm": 0.3606366813182831,
      "learning_rate": 0.0005323454961626497,
      "loss": 3.3328,
      "step": 16850
    },
    {
      "epoch": 4.54801894918174,
      "grad_norm": 0.33501338958740234,
      "learning_rate": 0.000532143530362192,
      "loss": 3.3409,
      "step": 16900
    },
    {
      "epoch": 4.5614771748492675,
      "grad_norm": 0.3617742657661438,
      "learning_rate": 0.0005319415645617341,
      "loss": 3.3329,
      "step": 16950
    },
    {
      "epoch": 4.574935400516796,
      "grad_norm": 0.8550599813461304,
      "learning_rate": 0.0005317395987612764,
      "loss": 3.3282,
      "step": 17000
    },
    {
      "epoch": 4.574935400516796,
      "eval_accuracy": 0.3796109182267269,
      "eval_loss": 3.39310884475708,
      "eval_runtime": 53.8374,
      "eval_samples_per_second": 334.563,
      "eval_steps_per_second": 20.915,
      "step": 17000
    },
    {
      "epoch": 4.588393626184324,
      "grad_norm": 0.35077497363090515,
      "learning_rate": 0.0005315376329608185,
      "loss": 3.3273,
      "step": 17050
    },
    {
      "epoch": 4.601851851851852,
      "grad_norm": 0.3806801438331604,
      "learning_rate": 0.0005313356671603608,
      "loss": 3.3338,
      "step": 17100
    },
    {
      "epoch": 4.61531007751938,
      "grad_norm": 0.3507062792778015,
      "learning_rate": 0.000531133701359903,
      "loss": 3.3406,
      "step": 17150
    },
    {
      "epoch": 4.628768303186908,
      "grad_norm": 0.35898759961128235,
      "learning_rate": 0.0005309317355594452,
      "loss": 3.3315,
      "step": 17200
    },
    {
      "epoch": 4.642226528854436,
      "grad_norm": 0.3401118814945221,
      "learning_rate": 0.0005307297697589874,
      "loss": 3.329,
      "step": 17250
    },
    {
      "epoch": 4.655684754521964,
      "grad_norm": 0.38454142212867737,
      "learning_rate": 0.0005305278039585297,
      "loss": 3.3373,
      "step": 17300
    },
    {
      "epoch": 4.669142980189492,
      "grad_norm": 0.3205120265483856,
      "learning_rate": 0.0005303258381580719,
      "loss": 3.331,
      "step": 17350
    },
    {
      "epoch": 4.682601205857019,
      "grad_norm": 0.37140244245529175,
      "learning_rate": 0.0005301238723576141,
      "loss": 3.3317,
      "step": 17400
    },
    {
      "epoch": 4.696059431524548,
      "grad_norm": 0.34272000193595886,
      "learning_rate": 0.0005299219065571563,
      "loss": 3.3464,
      "step": 17450
    },
    {
      "epoch": 4.709517657192076,
      "grad_norm": 0.3573205769062042,
      "learning_rate": 0.0005297199407566985,
      "loss": 3.3392,
      "step": 17500
    },
    {
      "epoch": 4.722975882859604,
      "grad_norm": 0.3326584994792938,
      "learning_rate": 0.0005295179749562407,
      "loss": 3.3355,
      "step": 17550
    },
    {
      "epoch": 4.736434108527131,
      "grad_norm": 0.33970969915390015,
      "learning_rate": 0.000529316009155783,
      "loss": 3.3304,
      "step": 17600
    },
    {
      "epoch": 4.7498923341946595,
      "grad_norm": 0.34760308265686035,
      "learning_rate": 0.0005291140433553251,
      "loss": 3.3451,
      "step": 17650
    },
    {
      "epoch": 4.763350559862188,
      "grad_norm": 0.34035566449165344,
      "learning_rate": 0.0005289120775548673,
      "loss": 3.3336,
      "step": 17700
    },
    {
      "epoch": 4.776808785529716,
      "grad_norm": 0.36723145842552185,
      "learning_rate": 0.0005287101117544095,
      "loss": 3.3358,
      "step": 17750
    },
    {
      "epoch": 4.790267011197244,
      "grad_norm": 0.3488785922527313,
      "learning_rate": 0.0005285081459539517,
      "loss": 3.3446,
      "step": 17800
    },
    {
      "epoch": 4.803725236864771,
      "grad_norm": 0.33435118198394775,
      "learning_rate": 0.000528306180153494,
      "loss": 3.3367,
      "step": 17850
    },
    {
      "epoch": 4.8171834625323,
      "grad_norm": 0.35024383664131165,
      "learning_rate": 0.0005281042143530361,
      "loss": 3.3474,
      "step": 17900
    },
    {
      "epoch": 4.830641688199828,
      "grad_norm": 0.32620319724082947,
      "learning_rate": 0.0005279022485525784,
      "loss": 3.3375,
      "step": 17950
    },
    {
      "epoch": 4.844099913867356,
      "grad_norm": 0.34913358092308044,
      "learning_rate": 0.0005277002827521205,
      "loss": 3.335,
      "step": 18000
    },
    {
      "epoch": 4.844099913867356,
      "eval_accuracy": 0.3806844578065591,
      "eval_loss": 3.3818206787109375,
      "eval_runtime": 54.2008,
      "eval_samples_per_second": 332.32,
      "eval_steps_per_second": 20.775,
      "step": 18000
    },
    {
      "epoch": 4.857558139534884,
      "grad_norm": 0.3346174955368042,
      "learning_rate": 0.0005274983169516628,
      "loss": 3.334,
      "step": 18050
    },
    {
      "epoch": 4.871016365202411,
      "grad_norm": 0.3737140893936157,
      "learning_rate": 0.000527296351151205,
      "loss": 3.3378,
      "step": 18100
    },
    {
      "epoch": 4.88447459086994,
      "grad_norm": 0.3536180853843689,
      "learning_rate": 0.0005270943853507472,
      "loss": 3.3514,
      "step": 18150
    },
    {
      "epoch": 4.897932816537468,
      "grad_norm": 0.3579419255256653,
      "learning_rate": 0.0005268924195502894,
      "loss": 3.3251,
      "step": 18200
    },
    {
      "epoch": 4.911391042204996,
      "grad_norm": 0.3723459541797638,
      "learning_rate": 0.0005266904537498317,
      "loss": 3.3348,
      "step": 18250
    },
    {
      "epoch": 4.924849267872523,
      "grad_norm": 0.3395371735095978,
      "learning_rate": 0.0005264884879493739,
      "loss": 3.3409,
      "step": 18300
    },
    {
      "epoch": 4.9383074935400515,
      "grad_norm": 0.3212871253490448,
      "learning_rate": 0.0005262865221489161,
      "loss": 3.3269,
      "step": 18350
    },
    {
      "epoch": 4.95176571920758,
      "grad_norm": 0.33720704913139343,
      "learning_rate": 0.0005260845563484583,
      "loss": 3.3345,
      "step": 18400
    },
    {
      "epoch": 4.965223944875108,
      "grad_norm": 0.38691216707229614,
      "learning_rate": 0.0005258825905480005,
      "loss": 3.3425,
      "step": 18450
    },
    {
      "epoch": 4.978682170542635,
      "grad_norm": 0.3235993981361389,
      "learning_rate": 0.0005256806247475427,
      "loss": 3.3389,
      "step": 18500
    },
    {
      "epoch": 4.992140396210163,
      "grad_norm": 0.33104822039604187,
      "learning_rate": 0.000525478658947085,
      "loss": 3.3442,
      "step": 18550
    },
    {
      "epoch": 5.0053832902670115,
      "grad_norm": 0.3393186032772064,
      "learning_rate": 0.0005252766931466271,
      "loss": 3.2944,
      "step": 18600
    },
    {
      "epoch": 5.018841515934539,
      "grad_norm": 0.37101826071739197,
      "learning_rate": 0.0005250747273461693,
      "loss": 3.2355,
      "step": 18650
    },
    {
      "epoch": 5.032299741602067,
      "grad_norm": 0.3399945795536041,
      "learning_rate": 0.0005248727615457115,
      "loss": 3.2344,
      "step": 18700
    },
    {
      "epoch": 5.045757967269595,
      "grad_norm": 0.35850459337234497,
      "learning_rate": 0.0005246707957452537,
      "loss": 3.2436,
      "step": 18750
    },
    {
      "epoch": 5.059216192937123,
      "grad_norm": 0.35731905698776245,
      "learning_rate": 0.000524468829944796,
      "loss": 3.252,
      "step": 18800
    },
    {
      "epoch": 5.0726744186046515,
      "grad_norm": 0.35466647148132324,
      "learning_rate": 0.0005242668641443381,
      "loss": 3.2462,
      "step": 18850
    },
    {
      "epoch": 5.086132644272179,
      "grad_norm": 0.3400084376335144,
      "learning_rate": 0.0005240648983438804,
      "loss": 3.253,
      "step": 18900
    },
    {
      "epoch": 5.099590869939707,
      "grad_norm": 0.3490995466709137,
      "learning_rate": 0.0005238629325434225,
      "loss": 3.2463,
      "step": 18950
    },
    {
      "epoch": 5.113049095607235,
      "grad_norm": 0.3619450032711029,
      "learning_rate": 0.0005236609667429648,
      "loss": 3.2534,
      "step": 19000
    },
    {
      "epoch": 5.113049095607235,
      "eval_accuracy": 0.38128494897726367,
      "eval_loss": 3.382563591003418,
      "eval_runtime": 53.8344,
      "eval_samples_per_second": 334.582,
      "eval_steps_per_second": 20.916,
      "step": 19000
    },
    {
      "epoch": 5.126507321274763,
      "grad_norm": 0.36200740933418274,
      "learning_rate": 0.000523459000942507,
      "loss": 3.2613,
      "step": 19050
    },
    {
      "epoch": 5.139965546942291,
      "grad_norm": 0.3502586781978607,
      "learning_rate": 0.0005232570351420493,
      "loss": 3.2516,
      "step": 19100
    },
    {
      "epoch": 5.153423772609819,
      "grad_norm": 0.3829094171524048,
      "learning_rate": 0.0005230550693415915,
      "loss": 3.2667,
      "step": 19150
    },
    {
      "epoch": 5.166881998277347,
      "grad_norm": 0.38154736161231995,
      "learning_rate": 0.0005228531035411337,
      "loss": 3.257,
      "step": 19200
    },
    {
      "epoch": 5.180340223944875,
      "grad_norm": 0.3990512192249298,
      "learning_rate": 0.0005226511377406759,
      "loss": 3.2685,
      "step": 19250
    },
    {
      "epoch": 5.1937984496124034,
      "grad_norm": 0.35598447918891907,
      "learning_rate": 0.0005224491719402181,
      "loss": 3.2561,
      "step": 19300
    },
    {
      "epoch": 5.207256675279931,
      "grad_norm": 0.3600831925868988,
      "learning_rate": 0.0005222472061397603,
      "loss": 3.2696,
      "step": 19350
    },
    {
      "epoch": 5.220714900947459,
      "grad_norm": 0.340609610080719,
      "learning_rate": 0.0005220452403393026,
      "loss": 3.2744,
      "step": 19400
    },
    {
      "epoch": 5.234173126614987,
      "grad_norm": 0.32513388991355896,
      "learning_rate": 0.0005218432745388447,
      "loss": 3.2763,
      "step": 19450
    },
    {
      "epoch": 5.247631352282515,
      "grad_norm": 0.33820098638534546,
      "learning_rate": 0.000521641308738387,
      "loss": 3.2638,
      "step": 19500
    },
    {
      "epoch": 5.2610895779500435,
      "grad_norm": 0.3647639751434326,
      "learning_rate": 0.0005214393429379291,
      "loss": 3.2744,
      "step": 19550
    },
    {
      "epoch": 5.274547803617571,
      "grad_norm": 0.36164987087249756,
      "learning_rate": 0.0005212373771374713,
      "loss": 3.2734,
      "step": 19600
    },
    {
      "epoch": 5.288006029285099,
      "grad_norm": 0.3829108774662018,
      "learning_rate": 0.0005210354113370136,
      "loss": 3.2782,
      "step": 19650
    },
    {
      "epoch": 5.301464254952627,
      "grad_norm": 0.3650548458099365,
      "learning_rate": 0.0005208334455365557,
      "loss": 3.2766,
      "step": 19700
    },
    {
      "epoch": 5.314922480620155,
      "grad_norm": 0.37036004662513733,
      "learning_rate": 0.000520631479736098,
      "loss": 3.2846,
      "step": 19750
    },
    {
      "epoch": 5.328380706287683,
      "grad_norm": 0.3291724920272827,
      "learning_rate": 0.0005204295139356401,
      "loss": 3.2703,
      "step": 19800
    },
    {
      "epoch": 5.341838931955211,
      "grad_norm": 0.3196430206298828,
      "learning_rate": 0.0005202275481351824,
      "loss": 3.2797,
      "step": 19850
    },
    {
      "epoch": 5.355297157622739,
      "grad_norm": 0.3584645092487335,
      "learning_rate": 0.0005200255823347246,
      "loss": 3.2801,
      "step": 19900
    },
    {
      "epoch": 5.368755383290267,
      "grad_norm": 0.34693044424057007,
      "learning_rate": 0.0005198236165342669,
      "loss": 3.2844,
      "step": 19950
    },
    {
      "epoch": 5.3822136089577945,
      "grad_norm": 0.3746398091316223,
      "learning_rate": 0.000519621650733809,
      "loss": 3.2736,
      "step": 20000
    },
    {
      "epoch": 5.3822136089577945,
      "eval_accuracy": 0.38213033016041054,
      "eval_loss": 3.3756988048553467,
      "eval_runtime": 53.7995,
      "eval_samples_per_second": 334.799,
      "eval_steps_per_second": 20.93,
      "step": 20000
    },
    {
      "epoch": 5.395671834625323,
      "grad_norm": 0.348362535238266,
      "learning_rate": 0.0005194196849333513,
      "loss": 3.2986,
      "step": 20050
    },
    {
      "epoch": 5.409130060292851,
      "grad_norm": 0.37827175855636597,
      "learning_rate": 0.0005192177191328935,
      "loss": 3.2875,
      "step": 20100
    },
    {
      "epoch": 5.422588285960379,
      "grad_norm": 0.3439246714115143,
      "learning_rate": 0.0005190157533324357,
      "loss": 3.2836,
      "step": 20150
    },
    {
      "epoch": 5.436046511627907,
      "grad_norm": 0.37693148851394653,
      "learning_rate": 0.0005188137875319779,
      "loss": 3.2799,
      "step": 20200
    },
    {
      "epoch": 5.449504737295435,
      "grad_norm": 0.3539809584617615,
      "learning_rate": 0.00051861182173152,
      "loss": 3.2826,
      "step": 20250
    },
    {
      "epoch": 5.462962962962963,
      "grad_norm": 0.37011033296585083,
      "learning_rate": 0.0005184098559310623,
      "loss": 3.2864,
      "step": 20300
    },
    {
      "epoch": 5.476421188630491,
      "grad_norm": 0.371745765209198,
      "learning_rate": 0.0005182078901306046,
      "loss": 3.2917,
      "step": 20350
    },
    {
      "epoch": 5.489879414298019,
      "grad_norm": 0.3410128951072693,
      "learning_rate": 0.0005180059243301467,
      "loss": 3.2862,
      "step": 20400
    },
    {
      "epoch": 5.503337639965547,
      "grad_norm": 0.33623674511909485,
      "learning_rate": 0.000517803958529689,
      "loss": 3.2809,
      "step": 20450
    },
    {
      "epoch": 5.516795865633075,
      "grad_norm": 0.37878212332725525,
      "learning_rate": 0.0005176019927292311,
      "loss": 3.2855,
      "step": 20500
    },
    {
      "epoch": 5.530254091300603,
      "grad_norm": 0.35254615545272827,
      "learning_rate": 0.0005174000269287733,
      "loss": 3.2833,
      "step": 20550
    },
    {
      "epoch": 5.543712316968131,
      "grad_norm": 0.340909481048584,
      "learning_rate": 0.0005171980611283156,
      "loss": 3.2962,
      "step": 20600
    },
    {
      "epoch": 5.557170542635659,
      "grad_norm": 0.3362419307231903,
      "learning_rate": 0.0005169960953278577,
      "loss": 3.2961,
      "step": 20650
    },
    {
      "epoch": 5.5706287683031865,
      "grad_norm": 0.3751087486743927,
      "learning_rate": 0.0005167941295274,
      "loss": 3.2949,
      "step": 20700
    },
    {
      "epoch": 5.584086993970715,
      "grad_norm": 0.3268432021141052,
      "learning_rate": 0.0005165921637269421,
      "loss": 3.2864,
      "step": 20750
    },
    {
      "epoch": 5.597545219638243,
      "grad_norm": 0.33362266421318054,
      "learning_rate": 0.0005163901979264844,
      "loss": 3.2922,
      "step": 20800
    },
    {
      "epoch": 5.611003445305771,
      "grad_norm": 0.3502647876739502,
      "learning_rate": 0.0005161882321260266,
      "loss": 3.2945,
      "step": 20850
    },
    {
      "epoch": 5.624461670973298,
      "grad_norm": 0.3486431837081909,
      "learning_rate": 0.0005159862663255689,
      "loss": 3.2938,
      "step": 20900
    },
    {
      "epoch": 5.637919896640827,
      "grad_norm": 0.38896527886390686,
      "learning_rate": 0.000515784300525111,
      "loss": 3.2806,
      "step": 20950
    },
    {
      "epoch": 5.651378122308355,
      "grad_norm": 0.35072192549705505,
      "learning_rate": 0.0005155823347246533,
      "loss": 3.2934,
      "step": 21000
    },
    {
      "epoch": 5.651378122308355,
      "eval_accuracy": 0.38315747753291673,
      "eval_loss": 3.3653366565704346,
      "eval_runtime": 53.8377,
      "eval_samples_per_second": 334.561,
      "eval_steps_per_second": 20.915,
      "step": 21000
    },
    {
      "epoch": 5.664836347975883,
      "grad_norm": 0.33917105197906494,
      "learning_rate": 0.0005153803689241955,
      "loss": 3.2948,
      "step": 21050
    },
    {
      "epoch": 5.678294573643411,
      "grad_norm": 0.39053285121917725,
      "learning_rate": 0.0005151784031237377,
      "loss": 3.2933,
      "step": 21100
    },
    {
      "epoch": 5.6917527993109385,
      "grad_norm": 0.34076425433158875,
      "learning_rate": 0.0005149764373232799,
      "loss": 3.284,
      "step": 21150
    },
    {
      "epoch": 5.705211024978467,
      "grad_norm": 0.3462291657924652,
      "learning_rate": 0.000514774471522822,
      "loss": 3.2927,
      "step": 21200
    },
    {
      "epoch": 5.718669250645995,
      "grad_norm": 0.34847456216812134,
      "learning_rate": 0.0005145725057223643,
      "loss": 3.2929,
      "step": 21250
    },
    {
      "epoch": 5.732127476313523,
      "grad_norm": 0.35302457213401794,
      "learning_rate": 0.0005143705399219066,
      "loss": 3.2986,
      "step": 21300
    },
    {
      "epoch": 5.745585701981051,
      "grad_norm": 0.3497825562953949,
      "learning_rate": 0.0005141685741214487,
      "loss": 3.2843,
      "step": 21350
    },
    {
      "epoch": 5.7590439276485785,
      "grad_norm": 0.34568512439727783,
      "learning_rate": 0.0005139666083209909,
      "loss": 3.286,
      "step": 21400
    },
    {
      "epoch": 5.772502153316107,
      "grad_norm": 0.3420438766479492,
      "learning_rate": 0.0005137646425205331,
      "loss": 3.2816,
      "step": 21450
    },
    {
      "epoch": 5.785960378983635,
      "grad_norm": 0.372644305229187,
      "learning_rate": 0.0005135626767200753,
      "loss": 3.2862,
      "step": 21500
    },
    {
      "epoch": 5.799418604651163,
      "grad_norm": 0.3587517738342285,
      "learning_rate": 0.0005133607109196176,
      "loss": 3.2871,
      "step": 21550
    },
    {
      "epoch": 5.81287683031869,
      "grad_norm": 0.353718638420105,
      "learning_rate": 0.0005131587451191597,
      "loss": 3.2912,
      "step": 21600
    },
    {
      "epoch": 5.826335055986219,
      "grad_norm": 0.33927828073501587,
      "learning_rate": 0.000512956779318702,
      "loss": 3.2915,
      "step": 21650
    },
    {
      "epoch": 5.839793281653747,
      "grad_norm": 0.34568026661872864,
      "learning_rate": 0.0005127548135182441,
      "loss": 3.3025,
      "step": 21700
    },
    {
      "epoch": 5.853251507321275,
      "grad_norm": 0.3527640402317047,
      "learning_rate": 0.0005125528477177865,
      "loss": 3.2974,
      "step": 21750
    },
    {
      "epoch": 5.866709732988802,
      "grad_norm": 0.3370378911495209,
      "learning_rate": 0.0005123508819173286,
      "loss": 3.2858,
      "step": 21800
    },
    {
      "epoch": 5.8801679586563305,
      "grad_norm": 0.3530554175376892,
      "learning_rate": 0.0005121489161168709,
      "loss": 3.2923,
      "step": 21850
    },
    {
      "epoch": 5.893626184323859,
      "grad_norm": 0.3588743507862091,
      "learning_rate": 0.000511946950316413,
      "loss": 3.2968,
      "step": 21900
    },
    {
      "epoch": 5.907084409991387,
      "grad_norm": 0.3334029018878937,
      "learning_rate": 0.0005117449845159553,
      "loss": 3.292,
      "step": 21950
    },
    {
      "epoch": 5.920542635658915,
      "grad_norm": 0.3445538878440857,
      "learning_rate": 0.0005115430187154975,
      "loss": 3.2915,
      "step": 22000
    },
    {
      "epoch": 5.920542635658915,
      "eval_accuracy": 0.3842970744009321,
      "eval_loss": 3.3547863960266113,
      "eval_runtime": 53.6807,
      "eval_samples_per_second": 335.54,
      "eval_steps_per_second": 20.976,
      "step": 22000
    },
    {
      "epoch": 5.934000861326442,
      "grad_norm": 0.35701045393943787,
      "learning_rate": 0.0005113410529150397,
      "loss": 3.2871,
      "step": 22050
    },
    {
      "epoch": 5.9474590869939705,
      "grad_norm": 0.3606407046318054,
      "learning_rate": 0.0005111390871145819,
      "loss": 3.2977,
      "step": 22100
    },
    {
      "epoch": 5.960917312661499,
      "grad_norm": 0.3338751494884491,
      "learning_rate": 0.000510937121314124,
      "loss": 3.2957,
      "step": 22150
    },
    {
      "epoch": 5.974375538329027,
      "grad_norm": 0.3611808717250824,
      "learning_rate": 0.0005107351555136663,
      "loss": 3.286,
      "step": 22200
    },
    {
      "epoch": 5.987833763996555,
      "grad_norm": 0.34626203775405884,
      "learning_rate": 0.0005105331897132085,
      "loss": 3.2976,
      "step": 22250
    },
    {
      "epoch": 6.001076658053402,
      "grad_norm": 0.37035489082336426,
      "learning_rate": 0.0005103312239127507,
      "loss": 3.2967,
      "step": 22300
    },
    {
      "epoch": 6.0145348837209305,
      "grad_norm": 0.36504310369491577,
      "learning_rate": 0.0005101292581122929,
      "loss": 3.19,
      "step": 22350
    },
    {
      "epoch": 6.027993109388458,
      "grad_norm": 0.37124723196029663,
      "learning_rate": 0.0005099272923118351,
      "loss": 3.2022,
      "step": 22400
    },
    {
      "epoch": 6.041451335055986,
      "grad_norm": 0.3739500343799591,
      "learning_rate": 0.0005097253265113773,
      "loss": 3.1889,
      "step": 22450
    },
    {
      "epoch": 6.054909560723514,
      "grad_norm": 0.3512820303440094,
      "learning_rate": 0.0005095233607109196,
      "loss": 3.1982,
      "step": 22500
    },
    {
      "epoch": 6.068367786391042,
      "grad_norm": 0.36028966307640076,
      "learning_rate": 0.0005093213949104617,
      "loss": 3.2053,
      "step": 22550
    },
    {
      "epoch": 6.0818260120585705,
      "grad_norm": 0.3446792662143707,
      "learning_rate": 0.000509119429110004,
      "loss": 3.211,
      "step": 22600
    },
    {
      "epoch": 6.095284237726098,
      "grad_norm": 0.33103981614112854,
      "learning_rate": 0.0005089174633095462,
      "loss": 3.2067,
      "step": 22650
    },
    {
      "epoch": 6.108742463393626,
      "grad_norm": 0.3572562038898468,
      "learning_rate": 0.0005087154975090885,
      "loss": 3.2146,
      "step": 22700
    },
    {
      "epoch": 6.122200689061154,
      "grad_norm": 0.340128093957901,
      "learning_rate": 0.0005085135317086306,
      "loss": 3.2187,
      "step": 22750
    },
    {
      "epoch": 6.135658914728682,
      "grad_norm": 0.3321945071220398,
      "learning_rate": 0.0005083115659081729,
      "loss": 3.2173,
      "step": 22800
    },
    {
      "epoch": 6.149117140396211,
      "grad_norm": 0.34041503071784973,
      "learning_rate": 0.0005081096001077151,
      "loss": 3.2212,
      "step": 22850
    },
    {
      "epoch": 6.162575366063738,
      "grad_norm": 0.33608099818229675,
      "learning_rate": 0.0005079076343072573,
      "loss": 3.2335,
      "step": 22900
    },
    {
      "epoch": 6.176033591731266,
      "grad_norm": 0.3682544529438019,
      "learning_rate": 0.0005077056685067995,
      "loss": 3.2197,
      "step": 22950
    },
    {
      "epoch": 6.189491817398794,
      "grad_norm": 0.3501201570034027,
      "learning_rate": 0.0005075037027063417,
      "loss": 3.2243,
      "step": 23000
    },
    {
      "epoch": 6.189491817398794,
      "eval_accuracy": 0.3844461378867665,
      "eval_loss": 3.3621091842651367,
      "eval_runtime": 53.6366,
      "eval_samples_per_second": 335.815,
      "eval_steps_per_second": 20.993,
      "step": 23000
    },
    {
      "epoch": 6.2029500430663225,
      "grad_norm": 0.3694973289966583,
      "learning_rate": 0.0005073017369058839,
      "loss": 3.2362,
      "step": 23050
    },
    {
      "epoch": 6.21640826873385,
      "grad_norm": 0.35488101840019226,
      "learning_rate": 0.0005070997711054262,
      "loss": 3.2353,
      "step": 23100
    },
    {
      "epoch": 6.229866494401378,
      "grad_norm": 0.3596543073654175,
      "learning_rate": 0.0005068978053049683,
      "loss": 3.226,
      "step": 23150
    },
    {
      "epoch": 6.243324720068906,
      "grad_norm": 0.36401212215423584,
      "learning_rate": 0.0005066958395045105,
      "loss": 3.2394,
      "step": 23200
    },
    {
      "epoch": 6.256782945736434,
      "grad_norm": 0.3978697657585144,
      "learning_rate": 0.0005064938737040527,
      "loss": 3.2418,
      "step": 23250
    },
    {
      "epoch": 6.270241171403962,
      "grad_norm": 0.33834999799728394,
      "learning_rate": 0.0005062919079035949,
      "loss": 3.2326,
      "step": 23300
    },
    {
      "epoch": 6.28369939707149,
      "grad_norm": 0.3549429178237915,
      "learning_rate": 0.0005060899421031372,
      "loss": 3.2363,
      "step": 23350
    },
    {
      "epoch": 6.297157622739018,
      "grad_norm": 0.3379305899143219,
      "learning_rate": 0.0005058879763026793,
      "loss": 3.2259,
      "step": 23400
    },
    {
      "epoch": 6.310615848406546,
      "grad_norm": 0.3503647446632385,
      "learning_rate": 0.0005056860105022216,
      "loss": 3.2491,
      "step": 23450
    },
    {
      "epoch": 6.324074074074074,
      "grad_norm": 0.3466089963912964,
      "learning_rate": 0.0005054840447017637,
      "loss": 3.2312,
      "step": 23500
    },
    {
      "epoch": 6.337532299741602,
      "grad_norm": 0.3370702862739563,
      "learning_rate": 0.0005052820789013061,
      "loss": 3.2449,
      "step": 23550
    },
    {
      "epoch": 6.35099052540913,
      "grad_norm": 0.3398071825504303,
      "learning_rate": 0.0005050801131008482,
      "loss": 3.2457,
      "step": 23600
    },
    {
      "epoch": 6.364448751076658,
      "grad_norm": 0.3322971761226654,
      "learning_rate": 0.0005048781473003905,
      "loss": 3.2388,
      "step": 23650
    },
    {
      "epoch": 6.377906976744186,
      "grad_norm": 0.33924156427383423,
      "learning_rate": 0.0005046761814999326,
      "loss": 3.2471,
      "step": 23700
    },
    {
      "epoch": 6.3913652024117145,
      "grad_norm": 0.3498065173625946,
      "learning_rate": 0.0005044742156994749,
      "loss": 3.2248,
      "step": 23750
    },
    {
      "epoch": 6.404823428079242,
      "grad_norm": 0.3730420768260956,
      "learning_rate": 0.0005042722498990171,
      "loss": 3.2432,
      "step": 23800
    },
    {
      "epoch": 6.41828165374677,
      "grad_norm": 0.35002046823501587,
      "learning_rate": 0.0005040702840985593,
      "loss": 3.2248,
      "step": 23850
    },
    {
      "epoch": 6.431739879414298,
      "grad_norm": 0.37649956345558167,
      "learning_rate": 0.0005038683182981015,
      "loss": 3.24,
      "step": 23900
    },
    {
      "epoch": 6.445198105081826,
      "grad_norm": 0.3526284992694855,
      "learning_rate": 0.0005036663524976436,
      "loss": 3.2304,
      "step": 23950
    },
    {
      "epoch": 6.458656330749354,
      "grad_norm": 0.3461792767047882,
      "learning_rate": 0.0005034643866971859,
      "loss": 3.2413,
      "step": 24000
    },
    {
      "epoch": 6.458656330749354,
      "eval_accuracy": 0.3850296801480031,
      "eval_loss": 3.3537731170654297,
      "eval_runtime": 53.6425,
      "eval_samples_per_second": 335.778,
      "eval_steps_per_second": 20.991,
      "step": 24000
    },
    {
      "epoch": 6.472114556416882,
      "grad_norm": 0.36732858419418335,
      "learning_rate": 0.0005032624208967281,
      "loss": 3.2483,
      "step": 24050
    },
    {
      "epoch": 6.48557278208441,
      "grad_norm": 0.3334197998046875,
      "learning_rate": 0.0005030604550962703,
      "loss": 3.243,
      "step": 24100
    },
    {
      "epoch": 6.499031007751938,
      "grad_norm": 0.3647319972515106,
      "learning_rate": 0.0005028584892958125,
      "loss": 3.2491,
      "step": 24150
    },
    {
      "epoch": 6.5124892334194655,
      "grad_norm": 0.3465515077114105,
      "learning_rate": 0.0005026565234953547,
      "loss": 3.2504,
      "step": 24200
    },
    {
      "epoch": 6.525947459086994,
      "grad_norm": 0.36729180812835693,
      "learning_rate": 0.0005024545576948969,
      "loss": 3.2485,
      "step": 24250
    },
    {
      "epoch": 6.539405684754522,
      "grad_norm": 0.3396286964416504,
      "learning_rate": 0.0005022525918944392,
      "loss": 3.2503,
      "step": 24300
    },
    {
      "epoch": 6.55286391042205,
      "grad_norm": 0.4158382713794708,
      "learning_rate": 0.0005020506260939813,
      "loss": 3.2527,
      "step": 24350
    },
    {
      "epoch": 6.566322136089578,
      "grad_norm": 0.35420548915863037,
      "learning_rate": 0.0005018486602935236,
      "loss": 3.2511,
      "step": 24400
    },
    {
      "epoch": 6.579780361757106,
      "grad_norm": 0.3404446840286255,
      "learning_rate": 0.0005016466944930658,
      "loss": 3.2485,
      "step": 24450
    },
    {
      "epoch": 6.593238587424634,
      "grad_norm": 0.3330139219760895,
      "learning_rate": 0.0005014447286926081,
      "loss": 3.2608,
      "step": 24500
    },
    {
      "epoch": 6.606696813092162,
      "grad_norm": 0.32995307445526123,
      "learning_rate": 0.0005012427628921502,
      "loss": 3.2426,
      "step": 24550
    },
    {
      "epoch": 6.62015503875969,
      "grad_norm": 0.33813372254371643,
      "learning_rate": 0.0005010407970916925,
      "loss": 3.256,
      "step": 24600
    },
    {
      "epoch": 6.633613264427218,
      "grad_norm": 0.3447318971157074,
      "learning_rate": 0.0005008388312912346,
      "loss": 3.2448,
      "step": 24650
    },
    {
      "epoch": 6.647071490094746,
      "grad_norm": 0.34425389766693115,
      "learning_rate": 0.0005006368654907769,
      "loss": 3.253,
      "step": 24700
    },
    {
      "epoch": 6.660529715762274,
      "grad_norm": 0.34749671816825867,
      "learning_rate": 0.0005004348996903191,
      "loss": 3.2517,
      "step": 24750
    },
    {
      "epoch": 6.673987941429802,
      "grad_norm": 0.33765843510627747,
      "learning_rate": 0.0005002329338898613,
      "loss": 3.2594,
      "step": 24800
    },
    {
      "epoch": 6.68744616709733,
      "grad_norm": 0.34231141209602356,
      "learning_rate": 0.0005000309680894035,
      "loss": 3.2659,
      "step": 24850
    },
    {
      "epoch": 6.7009043927648575,
      "grad_norm": 0.3280162811279297,
      "learning_rate": 0.0004998290022889456,
      "loss": 3.2453,
      "step": 24900
    },
    {
      "epoch": 6.714362618432386,
      "grad_norm": 0.34672361612319946,
      "learning_rate": 0.0004996270364884879,
      "loss": 3.2519,
      "step": 24950
    },
    {
      "epoch": 6.727820844099914,
      "grad_norm": 0.36213499307632446,
      "learning_rate": 0.0004994250706880301,
      "loss": 3.2643,
      "step": 25000
    },
    {
      "epoch": 6.727820844099914,
      "eval_accuracy": 0.38583725222541354,
      "eval_loss": 3.3438923358917236,
      "eval_runtime": 53.6863,
      "eval_samples_per_second": 335.505,
      "eval_steps_per_second": 20.974,
      "step": 25000
    },
    {
      "epoch": 6.741279069767442,
      "grad_norm": 0.34953513741493225,
      "learning_rate": 0.0004992231048875723,
      "loss": 3.2652,
      "step": 25050
    },
    {
      "epoch": 6.754737295434969,
      "grad_norm": 0.3408108949661255,
      "learning_rate": 0.0004990211390871145,
      "loss": 3.2599,
      "step": 25100
    },
    {
      "epoch": 6.768195521102498,
      "grad_norm": 0.3221488893032074,
      "learning_rate": 0.0004988191732866567,
      "loss": 3.2672,
      "step": 25150
    },
    {
      "epoch": 6.781653746770026,
      "grad_norm": 0.36635658144950867,
      "learning_rate": 0.0004986172074861989,
      "loss": 3.2519,
      "step": 25200
    },
    {
      "epoch": 6.795111972437554,
      "grad_norm": 0.395259827375412,
      "learning_rate": 0.0004984152416857412,
      "loss": 3.2548,
      "step": 25250
    },
    {
      "epoch": 6.808570198105082,
      "grad_norm": 0.3348065912723541,
      "learning_rate": 0.0004982132758852834,
      "loss": 3.258,
      "step": 25300
    },
    {
      "epoch": 6.822028423772609,
      "grad_norm": 0.37395408749580383,
      "learning_rate": 0.0004980113100848256,
      "loss": 3.2477,
      "step": 25350
    },
    {
      "epoch": 6.835486649440138,
      "grad_norm": 0.32347390055656433,
      "learning_rate": 0.0004978093442843678,
      "loss": 3.2514,
      "step": 25400
    },
    {
      "epoch": 6.848944875107666,
      "grad_norm": 0.34834301471710205,
      "learning_rate": 0.0004976073784839101,
      "loss": 3.2541,
      "step": 25450
    },
    {
      "epoch": 6.862403100775194,
      "grad_norm": 0.3680538535118103,
      "learning_rate": 0.0004974054126834522,
      "loss": 3.2515,
      "step": 25500
    },
    {
      "epoch": 6.875861326442722,
      "grad_norm": 0.3374391496181488,
      "learning_rate": 0.0004972034468829945,
      "loss": 3.2601,
      "step": 25550
    },
    {
      "epoch": 6.8893195521102495,
      "grad_norm": 0.37110382318496704,
      "learning_rate": 0.0004970014810825366,
      "loss": 3.2651,
      "step": 25600
    },
    {
      "epoch": 6.902777777777778,
      "grad_norm": 0.33359917998313904,
      "learning_rate": 0.0004967995152820789,
      "loss": 3.2554,
      "step": 25650
    },
    {
      "epoch": 6.916236003445306,
      "grad_norm": 0.3703191578388214,
      "learning_rate": 0.0004965975494816211,
      "loss": 3.262,
      "step": 25700
    },
    {
      "epoch": 6.929694229112834,
      "grad_norm": 0.3683694303035736,
      "learning_rate": 0.0004963955836811633,
      "loss": 3.2602,
      "step": 25750
    },
    {
      "epoch": 6.943152454780362,
      "grad_norm": 0.34347638487815857,
      "learning_rate": 0.0004961936178807055,
      "loss": 3.2569,
      "step": 25800
    },
    {
      "epoch": 6.9566106804478895,
      "grad_norm": 0.3468749225139618,
      "learning_rate": 0.0004959916520802476,
      "loss": 3.2657,
      "step": 25850
    },
    {
      "epoch": 6.970068906115418,
      "grad_norm": 0.31962108612060547,
      "learning_rate": 0.0004957896862797899,
      "loss": 3.2497,
      "step": 25900
    },
    {
      "epoch": 6.983527131782946,
      "grad_norm": 0.3544672727584839,
      "learning_rate": 0.0004955877204793321,
      "loss": 3.2562,
      "step": 25950
    },
    {
      "epoch": 6.996985357450473,
      "grad_norm": 0.35126814246177673,
      "learning_rate": 0.0004953857546788743,
      "loss": 3.2581,
      "step": 26000
    },
    {
      "epoch": 6.996985357450473,
      "eval_accuracy": 0.3859895751169149,
      "eval_loss": 3.33788800239563,
      "eval_runtime": 53.8045,
      "eval_samples_per_second": 334.767,
      "eval_steps_per_second": 20.928,
      "step": 26000
    },
    {
      "epoch": 7.010228251507321,
      "grad_norm": 0.3702124059200287,
      "learning_rate": 0.0004951837888784165,
      "loss": 3.1869,
      "step": 26050
    },
    {
      "epoch": 7.0236864771748495,
      "grad_norm": 0.36202797293663025,
      "learning_rate": 0.0004949818230779587,
      "loss": 3.1512,
      "step": 26100
    },
    {
      "epoch": 7.037144702842378,
      "grad_norm": 0.3474515676498413,
      "learning_rate": 0.0004947798572775009,
      "loss": 3.1569,
      "step": 26150
    },
    {
      "epoch": 7.050602928509905,
      "grad_norm": 0.3655959963798523,
      "learning_rate": 0.0004945778914770432,
      "loss": 3.1773,
      "step": 26200
    },
    {
      "epoch": 7.064061154177433,
      "grad_norm": 0.34737685322761536,
      "learning_rate": 0.0004943759256765854,
      "loss": 3.171,
      "step": 26250
    },
    {
      "epoch": 7.077519379844961,
      "grad_norm": 0.377200186252594,
      "learning_rate": 0.0004941739598761276,
      "loss": 3.1669,
      "step": 26300
    },
    {
      "epoch": 7.09097760551249,
      "grad_norm": 0.3763810694217682,
      "learning_rate": 0.0004939719940756698,
      "loss": 3.1819,
      "step": 26350
    },
    {
      "epoch": 7.104435831180017,
      "grad_norm": 0.3821322023868561,
      "learning_rate": 0.0004937700282752121,
      "loss": 3.1822,
      "step": 26400
    },
    {
      "epoch": 7.117894056847545,
      "grad_norm": 0.36671724915504456,
      "learning_rate": 0.0004935680624747542,
      "loss": 3.1802,
      "step": 26450
    },
    {
      "epoch": 7.131352282515073,
      "grad_norm": 0.3423325717449188,
      "learning_rate": 0.0004933660966742965,
      "loss": 3.1887,
      "step": 26500
    },
    {
      "epoch": 7.144810508182601,
      "grad_norm": 0.34335920214653015,
      "learning_rate": 0.0004931641308738386,
      "loss": 3.1763,
      "step": 26550
    },
    {
      "epoch": 7.15826873385013,
      "grad_norm": 0.32979974150657654,
      "learning_rate": 0.0004929621650733809,
      "loss": 3.1907,
      "step": 26600
    },
    {
      "epoch": 7.171726959517657,
      "grad_norm": 0.3438250720500946,
      "learning_rate": 0.0004927601992729231,
      "loss": 3.1968,
      "step": 26650
    },
    {
      "epoch": 7.185185185185185,
      "grad_norm": 0.3741178512573242,
      "learning_rate": 0.0004925582334724652,
      "loss": 3.1963,
      "step": 26700
    },
    {
      "epoch": 7.198643410852713,
      "grad_norm": 0.34840378165245056,
      "learning_rate": 0.0004923562676720075,
      "loss": 3.1908,
      "step": 26750
    },
    {
      "epoch": 7.2121016365202415,
      "grad_norm": 0.3589928150177002,
      "learning_rate": 0.0004921543018715497,
      "loss": 3.1877,
      "step": 26800
    },
    {
      "epoch": 7.225559862187769,
      "grad_norm": 0.3323129415512085,
      "learning_rate": 0.0004919523360710919,
      "loss": 3.1912,
      "step": 26850
    },
    {
      "epoch": 7.239018087855297,
      "grad_norm": 0.3843107223510742,
      "learning_rate": 0.0004917503702706341,
      "loss": 3.1922,
      "step": 26900
    },
    {
      "epoch": 7.252476313522825,
      "grad_norm": 0.32951635122299194,
      "learning_rate": 0.0004915484044701763,
      "loss": 3.1885,
      "step": 26950
    },
    {
      "epoch": 7.265934539190353,
      "grad_norm": 0.35862505435943604,
      "learning_rate": 0.0004913464386697185,
      "loss": 3.198,
      "step": 27000
    },
    {
      "epoch": 7.265934539190353,
      "eval_accuracy": 0.38612983820744856,
      "eval_loss": 3.345175266265869,
      "eval_runtime": 53.7729,
      "eval_samples_per_second": 334.964,
      "eval_steps_per_second": 20.94,
      "step": 27000
    },
    {
      "epoch": 7.279392764857882,
      "grad_norm": 0.3674672842025757,
      "learning_rate": 0.0004911444728692608,
      "loss": 3.1976,
      "step": 27050
    },
    {
      "epoch": 7.292850990525409,
      "grad_norm": 0.35447216033935547,
      "learning_rate": 0.000490942507068803,
      "loss": 3.2064,
      "step": 27100
    },
    {
      "epoch": 7.306309216192937,
      "grad_norm": 0.36305779218673706,
      "learning_rate": 0.0004907405412683452,
      "loss": 3.2001,
      "step": 27150
    },
    {
      "epoch": 7.319767441860465,
      "grad_norm": 0.3749120831489563,
      "learning_rate": 0.0004905385754678874,
      "loss": 3.2083,
      "step": 27200
    },
    {
      "epoch": 7.333225667527993,
      "grad_norm": 0.3669654428958893,
      "learning_rate": 0.0004903366096674297,
      "loss": 3.2036,
      "step": 27250
    },
    {
      "epoch": 7.346683893195521,
      "grad_norm": 0.3420581817626953,
      "learning_rate": 0.0004901346438669718,
      "loss": 3.2078,
      "step": 27300
    },
    {
      "epoch": 7.360142118863049,
      "grad_norm": 0.4257405400276184,
      "learning_rate": 0.0004899326780665141,
      "loss": 3.2083,
      "step": 27350
    },
    {
      "epoch": 7.373600344530577,
      "grad_norm": 0.3865572512149811,
      "learning_rate": 0.0004897307122660562,
      "loss": 3.2109,
      "step": 27400
    },
    {
      "epoch": 7.387058570198105,
      "grad_norm": 0.3718532621860504,
      "learning_rate": 0.0004895287464655985,
      "loss": 3.207,
      "step": 27450
    },
    {
      "epoch": 7.4005167958656335,
      "grad_norm": 0.33398640155792236,
      "learning_rate": 0.0004893267806651407,
      "loss": 3.2055,
      "step": 27500
    },
    {
      "epoch": 7.413975021533161,
      "grad_norm": 0.3843555152416229,
      "learning_rate": 0.0004891248148646829,
      "loss": 3.2098,
      "step": 27550
    },
    {
      "epoch": 7.427433247200689,
      "grad_norm": 0.3726537227630615,
      "learning_rate": 0.0004889228490642251,
      "loss": 3.2024,
      "step": 27600
    },
    {
      "epoch": 7.440891472868217,
      "grad_norm": 0.37347468733787537,
      "learning_rate": 0.0004887208832637672,
      "loss": 3.2197,
      "step": 27650
    },
    {
      "epoch": 7.454349698535745,
      "grad_norm": 0.3620690107345581,
      "learning_rate": 0.0004885189174633095,
      "loss": 3.1987,
      "step": 27700
    },
    {
      "epoch": 7.467807924203273,
      "grad_norm": 0.35882100462913513,
      "learning_rate": 0.0004883169516628517,
      "loss": 3.2174,
      "step": 27750
    },
    {
      "epoch": 7.481266149870801,
      "grad_norm": 0.36509430408477783,
      "learning_rate": 0.0004881149858623939,
      "loss": 3.2147,
      "step": 27800
    },
    {
      "epoch": 7.494724375538329,
      "grad_norm": 0.35377126932144165,
      "learning_rate": 0.00048791302006193614,
      "loss": 3.2112,
      "step": 27850
    },
    {
      "epoch": 7.508182601205857,
      "grad_norm": 0.35412663221359253,
      "learning_rate": 0.00048771105426147833,
      "loss": 3.2221,
      "step": 27900
    },
    {
      "epoch": 7.521640826873385,
      "grad_norm": 0.3604266941547394,
      "learning_rate": 0.00048750908846102053,
      "loss": 3.2176,
      "step": 27950
    },
    {
      "epoch": 7.535099052540913,
      "grad_norm": 0.36388853192329407,
      "learning_rate": 0.0004873071226605628,
      "loss": 3.2262,
      "step": 28000
    },
    {
      "epoch": 7.535099052540913,
      "eval_accuracy": 0.3867142496435297,
      "eval_loss": 3.3380982875823975,
      "eval_runtime": 53.7774,
      "eval_samples_per_second": 334.936,
      "eval_steps_per_second": 20.938,
      "step": 28000
    },
    {
      "epoch": 7.548557278208441,
      "grad_norm": 0.350801557302475,
      "learning_rate": 0.00048710515686010503,
      "loss": 3.2109,
      "step": 28050
    },
    {
      "epoch": 7.562015503875969,
      "grad_norm": 0.34448304772377014,
      "learning_rate": 0.0004869031910596472,
      "loss": 3.2345,
      "step": 28100
    },
    {
      "epoch": 7.575473729543497,
      "grad_norm": 0.3337467908859253,
      "learning_rate": 0.0004867012252591894,
      "loss": 3.2291,
      "step": 28150
    },
    {
      "epoch": 7.588931955211025,
      "grad_norm": 0.37222522497177124,
      "learning_rate": 0.0004864992594587316,
      "loss": 3.222,
      "step": 28200
    },
    {
      "epoch": 7.602390180878553,
      "grad_norm": 0.34009498357772827,
      "learning_rate": 0.0004862972936582738,
      "loss": 3.2206,
      "step": 28250
    },
    {
      "epoch": 7.615848406546081,
      "grad_norm": 0.3641204535961151,
      "learning_rate": 0.00048609532785781606,
      "loss": 3.2147,
      "step": 28300
    },
    {
      "epoch": 7.629306632213609,
      "grad_norm": 0.3570398986339569,
      "learning_rate": 0.00048589336205735826,
      "loss": 3.2101,
      "step": 28350
    },
    {
      "epoch": 7.6427648578811365,
      "grad_norm": 0.3372342586517334,
      "learning_rate": 0.00048569139625690046,
      "loss": 3.226,
      "step": 28400
    },
    {
      "epoch": 7.656223083548665,
      "grad_norm": 0.34732359647750854,
      "learning_rate": 0.00048548943045644265,
      "loss": 3.2353,
      "step": 28450
    },
    {
      "epoch": 7.669681309216193,
      "grad_norm": 0.38042765855789185,
      "learning_rate": 0.00048528746465598485,
      "loss": 3.2211,
      "step": 28500
    },
    {
      "epoch": 7.683139534883721,
      "grad_norm": 0.35742899775505066,
      "learning_rate": 0.0004850854988555271,
      "loss": 3.2208,
      "step": 28550
    },
    {
      "epoch": 7.696597760551249,
      "grad_norm": 0.37352654337882996,
      "learning_rate": 0.0004848835330550693,
      "loss": 3.2207,
      "step": 28600
    },
    {
      "epoch": 7.7100559862187765,
      "grad_norm": 0.35837510228157043,
      "learning_rate": 0.0004846815672546115,
      "loss": 3.2348,
      "step": 28650
    },
    {
      "epoch": 7.723514211886305,
      "grad_norm": 0.32850074768066406,
      "learning_rate": 0.0004844796014541537,
      "loss": 3.2138,
      "step": 28700
    },
    {
      "epoch": 7.736972437553833,
      "grad_norm": 0.373390257358551,
      "learning_rate": 0.0004842776356536959,
      "loss": 3.2324,
      "step": 28750
    },
    {
      "epoch": 7.750430663221361,
      "grad_norm": 0.3398002088069916,
      "learning_rate": 0.00048407566985323813,
      "loss": 3.2306,
      "step": 28800
    },
    {
      "epoch": 7.763888888888889,
      "grad_norm": 0.4056737422943115,
      "learning_rate": 0.0004838737040527804,
      "loss": 3.217,
      "step": 28850
    },
    {
      "epoch": 7.777347114556417,
      "grad_norm": 0.3630368113517761,
      "learning_rate": 0.0004836717382523226,
      "loss": 3.2092,
      "step": 28900
    },
    {
      "epoch": 7.790805340223945,
      "grad_norm": 0.36135610938072205,
      "learning_rate": 0.0004834697724518648,
      "loss": 3.219,
      "step": 28950
    },
    {
      "epoch": 7.804263565891473,
      "grad_norm": 0.33417677879333496,
      "learning_rate": 0.000483267806651407,
      "loss": 3.2175,
      "step": 29000
    },
    {
      "epoch": 7.804263565891473,
      "eval_accuracy": 0.38752779729799613,
      "eval_loss": 3.331707000732422,
      "eval_runtime": 53.6927,
      "eval_samples_per_second": 335.465,
      "eval_steps_per_second": 20.971,
      "step": 29000
    },
    {
      "epoch": 7.817721791559001,
      "grad_norm": 0.3444252014160156,
      "learning_rate": 0.0004830658408509492,
      "loss": 3.2306,
      "step": 29050
    },
    {
      "epoch": 7.831180017226529,
      "grad_norm": 0.34740421175956726,
      "learning_rate": 0.0004828638750504914,
      "loss": 3.2341,
      "step": 29100
    },
    {
      "epoch": 7.844638242894057,
      "grad_norm": 0.37734100222587585,
      "learning_rate": 0.0004826619092500336,
      "loss": 3.2191,
      "step": 29150
    },
    {
      "epoch": 7.858096468561585,
      "grad_norm": 0.3513396680355072,
      "learning_rate": 0.0004824599434495758,
      "loss": 3.2282,
      "step": 29200
    },
    {
      "epoch": 7.871554694229113,
      "grad_norm": 0.3746366798877716,
      "learning_rate": 0.00048225797764911806,
      "loss": 3.2241,
      "step": 29250
    },
    {
      "epoch": 7.885012919896641,
      "grad_norm": 0.3567333519458771,
      "learning_rate": 0.00048205601184866026,
      "loss": 3.2393,
      "step": 29300
    },
    {
      "epoch": 7.8984711455641685,
      "grad_norm": 0.33819180727005005,
      "learning_rate": 0.00048185404604820245,
      "loss": 3.2353,
      "step": 29350
    },
    {
      "epoch": 7.911929371231697,
      "grad_norm": 0.38296690583229065,
      "learning_rate": 0.00048165208024774465,
      "loss": 3.2292,
      "step": 29400
    },
    {
      "epoch": 7.925387596899225,
      "grad_norm": 0.3398057222366333,
      "learning_rate": 0.00048145011444728685,
      "loss": 3.2312,
      "step": 29450
    },
    {
      "epoch": 7.938845822566753,
      "grad_norm": 0.35328567028045654,
      "learning_rate": 0.0004812481486468291,
      "loss": 3.231,
      "step": 29500
    },
    {
      "epoch": 7.95230404823428,
      "grad_norm": 0.3437725603580475,
      "learning_rate": 0.0004810461828463713,
      "loss": 3.2242,
      "step": 29550
    },
    {
      "epoch": 7.965762273901809,
      "grad_norm": 0.342734158039093,
      "learning_rate": 0.0004808442170459135,
      "loss": 3.2265,
      "step": 29600
    },
    {
      "epoch": 7.979220499569337,
      "grad_norm": 0.33320966362953186,
      "learning_rate": 0.0004806422512454557,
      "loss": 3.2315,
      "step": 29650
    },
    {
      "epoch": 7.992678725236865,
      "grad_norm": 0.3411356508731842,
      "learning_rate": 0.00048044028544499793,
      "loss": 3.232,
      "step": 29700
    },
    {
      "epoch": 8.005921619293712,
      "grad_norm": 0.40168818831443787,
      "learning_rate": 0.0004802383196445402,
      "loss": 3.1846,
      "step": 29750
    },
    {
      "epoch": 8.01937984496124,
      "grad_norm": 0.35845109820365906,
      "learning_rate": 0.0004800363538440824,
      "loss": 3.1328,
      "step": 29800
    },
    {
      "epoch": 8.032838070628769,
      "grad_norm": 0.34396156668663025,
      "learning_rate": 0.0004798343880436246,
      "loss": 3.126,
      "step": 29850
    },
    {
      "epoch": 8.046296296296296,
      "grad_norm": 0.3609023094177246,
      "learning_rate": 0.00047963242224316683,
      "loss": 3.1423,
      "step": 29900
    },
    {
      "epoch": 8.059754521963825,
      "grad_norm": 0.34926462173461914,
      "learning_rate": 0.000479430456442709,
      "loss": 3.1416,
      "step": 29950
    },
    {
      "epoch": 8.073212747631352,
      "grad_norm": 0.3574993312358856,
      "learning_rate": 0.0004792284906422512,
      "loss": 3.146,
      "step": 30000
    },
    {
      "epoch": 8.073212747631352,
      "eval_accuracy": 0.3879771606926107,
      "eval_loss": 3.3365345001220703,
      "eval_runtime": 53.7752,
      "eval_samples_per_second": 334.95,
      "eval_steps_per_second": 20.939,
      "step": 30000
    },
    {
      "epoch": 8.08667097329888,
      "grad_norm": 0.3560766875743866,
      "learning_rate": 0.0004790265248417934,
      "loss": 3.1485,
      "step": 30050
    },
    {
      "epoch": 8.100129198966409,
      "grad_norm": 0.3525884747505188,
      "learning_rate": 0.0004788245590413356,
      "loss": 3.1476,
      "step": 30100
    },
    {
      "epoch": 8.113587424633936,
      "grad_norm": 0.3512996435165405,
      "learning_rate": 0.00047862259324087786,
      "loss": 3.1545,
      "step": 30150
    },
    {
      "epoch": 8.127045650301465,
      "grad_norm": 0.3729488253593445,
      "learning_rate": 0.00047842062744042006,
      "loss": 3.1522,
      "step": 30200
    },
    {
      "epoch": 8.140503875968992,
      "grad_norm": 0.3845618963241577,
      "learning_rate": 0.00047821866163996225,
      "loss": 3.1521,
      "step": 30250
    },
    {
      "epoch": 8.15396210163652,
      "grad_norm": 0.36919400095939636,
      "learning_rate": 0.00047801669583950445,
      "loss": 3.1622,
      "step": 30300
    },
    {
      "epoch": 8.167420327304049,
      "grad_norm": 0.35437729954719543,
      "learning_rate": 0.00047781473003904665,
      "loss": 3.1565,
      "step": 30350
    },
    {
      "epoch": 8.180878552971576,
      "grad_norm": 0.37341639399528503,
      "learning_rate": 0.0004776127642385889,
      "loss": 3.169,
      "step": 30400
    },
    {
      "epoch": 8.194336778639105,
      "grad_norm": 0.3353579342365265,
      "learning_rate": 0.0004774107984381311,
      "loss": 3.1711,
      "step": 30450
    },
    {
      "epoch": 8.207795004306632,
      "grad_norm": 0.36150503158569336,
      "learning_rate": 0.0004772088326376733,
      "loss": 3.1728,
      "step": 30500
    },
    {
      "epoch": 8.22125322997416,
      "grad_norm": 0.36009085178375244,
      "learning_rate": 0.0004770068668372155,
      "loss": 3.1609,
      "step": 30550
    },
    {
      "epoch": 8.234711455641689,
      "grad_norm": 0.33860263228416443,
      "learning_rate": 0.0004768049010367577,
      "loss": 3.168,
      "step": 30600
    },
    {
      "epoch": 8.248169681309216,
      "grad_norm": 0.392787367105484,
      "learning_rate": 0.0004766029352363,
      "loss": 3.1719,
      "step": 30650
    },
    {
      "epoch": 8.261627906976745,
      "grad_norm": 0.3563990592956543,
      "learning_rate": 0.0004764009694358422,
      "loss": 3.1695,
      "step": 30700
    },
    {
      "epoch": 8.275086132644272,
      "grad_norm": 0.3538586497306824,
      "learning_rate": 0.0004761990036353844,
      "loss": 3.1694,
      "step": 30750
    },
    {
      "epoch": 8.2885443583118,
      "grad_norm": 0.37058621644973755,
      "learning_rate": 0.0004759970378349266,
      "loss": 3.1726,
      "step": 30800
    },
    {
      "epoch": 8.302002583979329,
      "grad_norm": 0.34298816323280334,
      "learning_rate": 0.0004757950720344688,
      "loss": 3.1585,
      "step": 30850
    },
    {
      "epoch": 8.315460809646856,
      "grad_norm": 0.35922834277153015,
      "learning_rate": 0.000475593106234011,
      "loss": 3.1808,
      "step": 30900
    },
    {
      "epoch": 8.328919035314383,
      "grad_norm": 0.3559612035751343,
      "learning_rate": 0.0004753911404335532,
      "loss": 3.1752,
      "step": 30950
    },
    {
      "epoch": 8.342377260981912,
      "grad_norm": 0.38853004574775696,
      "learning_rate": 0.0004751891746330954,
      "loss": 3.1766,
      "step": 31000
    },
    {
      "epoch": 8.342377260981912,
      "eval_accuracy": 0.38834275736158497,
      "eval_loss": 3.3302693367004395,
      "eval_runtime": 53.7698,
      "eval_samples_per_second": 334.984,
      "eval_steps_per_second": 20.941,
      "step": 31000
    },
    {
      "epoch": 8.35583548664944,
      "grad_norm": 0.3335705101490021,
      "learning_rate": 0.0004749872088326376,
      "loss": 3.1689,
      "step": 31050
    },
    {
      "epoch": 8.369293712316969,
      "grad_norm": 0.34073248505592346,
      "learning_rate": 0.00047478524303217986,
      "loss": 3.1727,
      "step": 31100
    },
    {
      "epoch": 8.382751937984496,
      "grad_norm": 0.3616897165775299,
      "learning_rate": 0.00047458327723172206,
      "loss": 3.1768,
      "step": 31150
    },
    {
      "epoch": 8.396210163652023,
      "grad_norm": 0.3575231432914734,
      "learning_rate": 0.00047438131143126425,
      "loss": 3.1921,
      "step": 31200
    },
    {
      "epoch": 8.409668389319553,
      "grad_norm": 0.3506259620189667,
      "learning_rate": 0.00047417934563080645,
      "loss": 3.1823,
      "step": 31250
    },
    {
      "epoch": 8.42312661498708,
      "grad_norm": 0.36722439527511597,
      "learning_rate": 0.00047397737983034864,
      "loss": 3.1934,
      "step": 31300
    },
    {
      "epoch": 8.436584840654609,
      "grad_norm": 0.38640642166137695,
      "learning_rate": 0.0004737754140298909,
      "loss": 3.1819,
      "step": 31350
    },
    {
      "epoch": 8.450043066322136,
      "grad_norm": 0.3896099328994751,
      "learning_rate": 0.0004735734482294331,
      "loss": 3.1933,
      "step": 31400
    },
    {
      "epoch": 8.463501291989663,
      "grad_norm": 0.39949628710746765,
      "learning_rate": 0.0004733714824289753,
      "loss": 3.1912,
      "step": 31450
    },
    {
      "epoch": 8.476959517657193,
      "grad_norm": 0.3628818690776825,
      "learning_rate": 0.0004731695166285175,
      "loss": 3.1906,
      "step": 31500
    },
    {
      "epoch": 8.49041774332472,
      "grad_norm": 0.3500027060508728,
      "learning_rate": 0.0004729675508280598,
      "loss": 3.1806,
      "step": 31550
    },
    {
      "epoch": 8.503875968992247,
      "grad_norm": 0.37505653500556946,
      "learning_rate": 0.000472765585027602,
      "loss": 3.1896,
      "step": 31600
    },
    {
      "epoch": 8.517334194659776,
      "grad_norm": 0.34353429079055786,
      "learning_rate": 0.0004725636192271442,
      "loss": 3.1806,
      "step": 31650
    },
    {
      "epoch": 8.530792420327304,
      "grad_norm": 0.3562263250350952,
      "learning_rate": 0.0004723616534266864,
      "loss": 3.1983,
      "step": 31700
    },
    {
      "epoch": 8.544250645994833,
      "grad_norm": 0.36144253611564636,
      "learning_rate": 0.0004721596876262286,
      "loss": 3.1921,
      "step": 31750
    },
    {
      "epoch": 8.55770887166236,
      "grad_norm": 0.3487912118434906,
      "learning_rate": 0.0004719577218257708,
      "loss": 3.1899,
      "step": 31800
    },
    {
      "epoch": 8.571167097329887,
      "grad_norm": 0.3909497559070587,
      "learning_rate": 0.000471755756025313,
      "loss": 3.1832,
      "step": 31850
    },
    {
      "epoch": 8.584625322997416,
      "grad_norm": 0.358192503452301,
      "learning_rate": 0.0004715537902248552,
      "loss": 3.202,
      "step": 31900
    },
    {
      "epoch": 8.598083548664944,
      "grad_norm": 0.37098532915115356,
      "learning_rate": 0.0004713518244243974,
      "loss": 3.1867,
      "step": 31950
    },
    {
      "epoch": 8.611541774332473,
      "grad_norm": 0.36137476563453674,
      "learning_rate": 0.00047114985862393966,
      "loss": 3.2014,
      "step": 32000
    },
    {
      "epoch": 8.611541774332473,
      "eval_accuracy": 0.3883745908902654,
      "eval_loss": 3.3255698680877686,
      "eval_runtime": 53.8982,
      "eval_samples_per_second": 334.185,
      "eval_steps_per_second": 20.891,
      "step": 32000
    },
    {
      "epoch": 8.625,
      "grad_norm": 0.35992470383644104,
      "learning_rate": 0.00047094789282348186,
      "loss": 3.1849,
      "step": 32050
    },
    {
      "epoch": 8.638458225667527,
      "grad_norm": 0.33300545811653137,
      "learning_rate": 0.00047074592702302405,
      "loss": 3.1975,
      "step": 32100
    },
    {
      "epoch": 8.651916451335056,
      "grad_norm": 0.34040096402168274,
      "learning_rate": 0.00047054396122256625,
      "loss": 3.1932,
      "step": 32150
    },
    {
      "epoch": 8.665374677002584,
      "grad_norm": 0.36708134412765503,
      "learning_rate": 0.00047034199542210844,
      "loss": 3.1929,
      "step": 32200
    },
    {
      "epoch": 8.678832902670113,
      "grad_norm": 0.37494978308677673,
      "learning_rate": 0.0004701400296216507,
      "loss": 3.1904,
      "step": 32250
    },
    {
      "epoch": 8.69229112833764,
      "grad_norm": 0.3530576825141907,
      "learning_rate": 0.0004699380638211929,
      "loss": 3.2015,
      "step": 32300
    },
    {
      "epoch": 8.705749354005167,
      "grad_norm": 0.3551010489463806,
      "learning_rate": 0.0004697360980207351,
      "loss": 3.2013,
      "step": 32350
    },
    {
      "epoch": 8.719207579672696,
      "grad_norm": 0.3860146105289459,
      "learning_rate": 0.0004695341322202773,
      "loss": 3.1963,
      "step": 32400
    },
    {
      "epoch": 8.732665805340224,
      "grad_norm": 0.3952493965625763,
      "learning_rate": 0.0004693321664198196,
      "loss": 3.2054,
      "step": 32450
    },
    {
      "epoch": 8.746124031007753,
      "grad_norm": 0.35887420177459717,
      "learning_rate": 0.0004691302006193618,
      "loss": 3.2014,
      "step": 32500
    },
    {
      "epoch": 8.75958225667528,
      "grad_norm": 0.3608771860599518,
      "learning_rate": 0.000468928234818904,
      "loss": 3.2075,
      "step": 32550
    },
    {
      "epoch": 8.773040482342807,
      "grad_norm": 0.3411955237388611,
      "learning_rate": 0.0004687262690184462,
      "loss": 3.1987,
      "step": 32600
    },
    {
      "epoch": 8.786498708010337,
      "grad_norm": 0.3674717843532562,
      "learning_rate": 0.00046852430321798837,
      "loss": 3.2043,
      "step": 32650
    },
    {
      "epoch": 8.799956933677864,
      "grad_norm": 0.34659647941589355,
      "learning_rate": 0.0004683223374175306,
      "loss": 3.1958,
      "step": 32700
    },
    {
      "epoch": 8.813415159345391,
      "grad_norm": 0.3701222538948059,
      "learning_rate": 0.0004681203716170728,
      "loss": 3.183,
      "step": 32750
    },
    {
      "epoch": 8.82687338501292,
      "grad_norm": 0.355498731136322,
      "learning_rate": 0.000467918405816615,
      "loss": 3.1937,
      "step": 32800
    },
    {
      "epoch": 8.840331610680447,
      "grad_norm": 0.3362954556941986,
      "learning_rate": 0.0004677164400161572,
      "loss": 3.1952,
      "step": 32850
    },
    {
      "epoch": 8.853789836347977,
      "grad_norm": 0.3454212248325348,
      "learning_rate": 0.0004675144742156994,
      "loss": 3.1975,
      "step": 32900
    },
    {
      "epoch": 8.867248062015504,
      "grad_norm": 0.3511376976966858,
      "learning_rate": 0.00046731250841524166,
      "loss": 3.1951,
      "step": 32950
    },
    {
      "epoch": 8.880706287683031,
      "grad_norm": 0.3271363377571106,
      "learning_rate": 0.00046711054261478385,
      "loss": 3.1996,
      "step": 33000
    },
    {
      "epoch": 8.880706287683031,
      "eval_accuracy": 0.38930091398080774,
      "eval_loss": 3.3175978660583496,
      "eval_runtime": 53.6786,
      "eval_samples_per_second": 335.553,
      "eval_steps_per_second": 20.977,
      "step": 33000
    },
    {
      "epoch": 8.89416451335056,
      "grad_norm": 0.3616025149822235,
      "learning_rate": 0.00046690857681432605,
      "loss": 3.1985,
      "step": 33050
    },
    {
      "epoch": 8.907622739018088,
      "grad_norm": 0.33482256531715393,
      "learning_rate": 0.00046670661101386825,
      "loss": 3.2106,
      "step": 33100
    },
    {
      "epoch": 8.921080964685617,
      "grad_norm": 0.35267388820648193,
      "learning_rate": 0.00046650464521341044,
      "loss": 3.1885,
      "step": 33150
    },
    {
      "epoch": 8.934539190353144,
      "grad_norm": 0.387184202671051,
      "learning_rate": 0.0004663026794129527,
      "loss": 3.2031,
      "step": 33200
    },
    {
      "epoch": 8.947997416020671,
      "grad_norm": 0.34149935841560364,
      "learning_rate": 0.0004661007136124949,
      "loss": 3.2134,
      "step": 33250
    },
    {
      "epoch": 8.9614556416882,
      "grad_norm": 0.34807565808296204,
      "learning_rate": 0.00046589874781203714,
      "loss": 3.206,
      "step": 33300
    },
    {
      "epoch": 8.974913867355728,
      "grad_norm": 0.3618689775466919,
      "learning_rate": 0.0004656967820115794,
      "loss": 3.2077,
      "step": 33350
    },
    {
      "epoch": 8.988372093023255,
      "grad_norm": 0.35687363147735596,
      "learning_rate": 0.0004654948162111216,
      "loss": 3.2034,
      "step": 33400
    },
    {
      "epoch": 9.001614987080103,
      "grad_norm": 0.3490736484527588,
      "learning_rate": 0.0004652928504106638,
      "loss": 3.1925,
      "step": 33450
    },
    {
      "epoch": 9.015073212747632,
      "grad_norm": 0.3292122185230255,
      "learning_rate": 0.000465090884610206,
      "loss": 3.0937,
      "step": 33500
    },
    {
      "epoch": 9.02853143841516,
      "grad_norm": 0.38094958662986755,
      "learning_rate": 0.00046488891880974817,
      "loss": 3.1038,
      "step": 33550
    },
    {
      "epoch": 9.041989664082687,
      "grad_norm": 0.3638545274734497,
      "learning_rate": 0.0004646869530092904,
      "loss": 3.1066,
      "step": 33600
    },
    {
      "epoch": 9.055447889750216,
      "grad_norm": 0.3722701668739319,
      "learning_rate": 0.0004644849872088326,
      "loss": 3.1154,
      "step": 33650
    },
    {
      "epoch": 9.068906115417743,
      "grad_norm": 0.39622655510902405,
      "learning_rate": 0.0004642830214083748,
      "loss": 3.1048,
      "step": 33700
    },
    {
      "epoch": 9.082364341085272,
      "grad_norm": 0.3642023801803589,
      "learning_rate": 0.000464081055607917,
      "loss": 3.1062,
      "step": 33750
    },
    {
      "epoch": 9.0958225667528,
      "grad_norm": 0.36213210225105286,
      "learning_rate": 0.0004638790898074592,
      "loss": 3.1246,
      "step": 33800
    },
    {
      "epoch": 9.109280792420327,
      "grad_norm": 0.3247149884700775,
      "learning_rate": 0.00046367712400700146,
      "loss": 3.118,
      "step": 33850
    },
    {
      "epoch": 9.122739018087856,
      "grad_norm": 0.37343013286590576,
      "learning_rate": 0.00046347515820654365,
      "loss": 3.1159,
      "step": 33900
    },
    {
      "epoch": 9.136197243755383,
      "grad_norm": 0.36302250623703003,
      "learning_rate": 0.00046327319240608585,
      "loss": 3.1286,
      "step": 33950
    },
    {
      "epoch": 9.14965546942291,
      "grad_norm": 0.38092878460884094,
      "learning_rate": 0.00046307122660562805,
      "loss": 3.137,
      "step": 34000
    },
    {
      "epoch": 9.14965546942291,
      "eval_accuracy": 0.38890011573063055,
      "eval_loss": 3.3283283710479736,
      "eval_runtime": 53.7606,
      "eval_samples_per_second": 335.041,
      "eval_steps_per_second": 20.945,
      "step": 34000
    },
    {
      "epoch": 9.16311369509044,
      "grad_norm": 0.35080328583717346,
      "learning_rate": 0.00046286926080517024,
      "loss": 3.1347,
      "step": 34050
    },
    {
      "epoch": 9.176571920757967,
      "grad_norm": 0.34843164682388306,
      "learning_rate": 0.0004626672950047125,
      "loss": 3.1405,
      "step": 34100
    },
    {
      "epoch": 9.190030146425496,
      "grad_norm": 0.4157335162162781,
      "learning_rate": 0.0004624653292042547,
      "loss": 3.136,
      "step": 34150
    },
    {
      "epoch": 9.203488372093023,
      "grad_norm": 0.3641476333141327,
      "learning_rate": 0.00046226336340379694,
      "loss": 3.1512,
      "step": 34200
    },
    {
      "epoch": 9.21694659776055,
      "grad_norm": 0.341251015663147,
      "learning_rate": 0.00046206139760333913,
      "loss": 3.1524,
      "step": 34250
    },
    {
      "epoch": 9.23040482342808,
      "grad_norm": 0.35386136174201965,
      "learning_rate": 0.0004618594318028814,
      "loss": 3.1352,
      "step": 34300
    },
    {
      "epoch": 9.243863049095607,
      "grad_norm": 0.3733835816383362,
      "learning_rate": 0.0004616574660024236,
      "loss": 3.1424,
      "step": 34350
    },
    {
      "epoch": 9.257321274763136,
      "grad_norm": 0.33062437176704407,
      "learning_rate": 0.0004614555002019658,
      "loss": 3.153,
      "step": 34400
    },
    {
      "epoch": 9.270779500430663,
      "grad_norm": 0.34706413745880127,
      "learning_rate": 0.000461253534401508,
      "loss": 3.1459,
      "step": 34450
    },
    {
      "epoch": 9.28423772609819,
      "grad_norm": 0.35080230236053467,
      "learning_rate": 0.00046105156860105017,
      "loss": 3.1433,
      "step": 34500
    },
    {
      "epoch": 9.29769595176572,
      "grad_norm": 0.37283027172088623,
      "learning_rate": 0.0004608496028005924,
      "loss": 3.145,
      "step": 34550
    },
    {
      "epoch": 9.311154177433247,
      "grad_norm": 0.37630441784858704,
      "learning_rate": 0.0004606476370001346,
      "loss": 3.1535,
      "step": 34600
    },
    {
      "epoch": 9.324612403100776,
      "grad_norm": 0.34792250394821167,
      "learning_rate": 0.0004604456711996768,
      "loss": 3.1609,
      "step": 34650
    },
    {
      "epoch": 9.338070628768303,
      "grad_norm": 0.35801804065704346,
      "learning_rate": 0.000460243705399219,
      "loss": 3.1578,
      "step": 34700
    },
    {
      "epoch": 9.35152885443583,
      "grad_norm": 0.40342605113983154,
      "learning_rate": 0.0004600417395987612,
      "loss": 3.1523,
      "step": 34750
    },
    {
      "epoch": 9.36498708010336,
      "grad_norm": 0.3323036730289459,
      "learning_rate": 0.00045983977379830345,
      "loss": 3.1518,
      "step": 34800
    },
    {
      "epoch": 9.378445305770887,
      "grad_norm": 0.3701625466346741,
      "learning_rate": 0.00045963780799784565,
      "loss": 3.1529,
      "step": 34850
    },
    {
      "epoch": 9.391903531438416,
      "grad_norm": 0.34849992394447327,
      "learning_rate": 0.00045943584219738785,
      "loss": 3.159,
      "step": 34900
    },
    {
      "epoch": 9.405361757105943,
      "grad_norm": 0.3489476144313812,
      "learning_rate": 0.00045923387639693004,
      "loss": 3.1557,
      "step": 34950
    },
    {
      "epoch": 9.41881998277347,
      "grad_norm": 0.3345106542110443,
      "learning_rate": 0.00045903191059647224,
      "loss": 3.1566,
      "step": 35000
    },
    {
      "epoch": 9.41881998277347,
      "eval_accuracy": 0.38953950247562724,
      "eval_loss": 3.321983575820923,
      "eval_runtime": 53.7047,
      "eval_samples_per_second": 335.389,
      "eval_steps_per_second": 20.966,
      "step": 35000
    },
    {
      "epoch": 9.432278208441,
      "grad_norm": 0.3547540605068207,
      "learning_rate": 0.0004588299447960145,
      "loss": 3.1598,
      "step": 35050
    },
    {
      "epoch": 9.445736434108527,
      "grad_norm": 0.35543152689933777,
      "learning_rate": 0.00045862797899555674,
      "loss": 3.1773,
      "step": 35100
    },
    {
      "epoch": 9.459194659776054,
      "grad_norm": 0.3571447432041168,
      "learning_rate": 0.00045842601319509894,
      "loss": 3.1631,
      "step": 35150
    },
    {
      "epoch": 9.472652885443583,
      "grad_norm": 0.35717859864234924,
      "learning_rate": 0.00045822404739464113,
      "loss": 3.1635,
      "step": 35200
    },
    {
      "epoch": 9.48611111111111,
      "grad_norm": 0.36354541778564453,
      "learning_rate": 0.0004580220815941834,
      "loss": 3.1556,
      "step": 35250
    },
    {
      "epoch": 9.49956933677864,
      "grad_norm": 0.36084792017936707,
      "learning_rate": 0.0004578201157937256,
      "loss": 3.1599,
      "step": 35300
    },
    {
      "epoch": 9.513027562446167,
      "grad_norm": 0.3501897156238556,
      "learning_rate": 0.0004576181499932678,
      "loss": 3.1769,
      "step": 35350
    },
    {
      "epoch": 9.526485788113694,
      "grad_norm": 0.3838970959186554,
      "learning_rate": 0.00045741618419280997,
      "loss": 3.1579,
      "step": 35400
    },
    {
      "epoch": 9.539944013781223,
      "grad_norm": 0.38200482726097107,
      "learning_rate": 0.0004572142183923522,
      "loss": 3.1472,
      "step": 35450
    },
    {
      "epoch": 9.55340223944875,
      "grad_norm": 0.3594954311847687,
      "learning_rate": 0.0004570122525918944,
      "loss": 3.1716,
      "step": 35500
    },
    {
      "epoch": 9.56686046511628,
      "grad_norm": 0.3559810519218445,
      "learning_rate": 0.0004568102867914366,
      "loss": 3.1719,
      "step": 35550
    },
    {
      "epoch": 9.580318690783807,
      "grad_norm": 0.356738418340683,
      "learning_rate": 0.0004566083209909788,
      "loss": 3.1838,
      "step": 35600
    },
    {
      "epoch": 9.593776916451334,
      "grad_norm": 0.3445727229118347,
      "learning_rate": 0.000456406355190521,
      "loss": 3.1601,
      "step": 35650
    },
    {
      "epoch": 9.607235142118864,
      "grad_norm": 0.35387566685676575,
      "learning_rate": 0.00045620438939006326,
      "loss": 3.1663,
      "step": 35700
    },
    {
      "epoch": 9.62069336778639,
      "grad_norm": 0.3698170483112335,
      "learning_rate": 0.00045600242358960545,
      "loss": 3.173,
      "step": 35750
    },
    {
      "epoch": 9.634151593453918,
      "grad_norm": 0.35212114453315735,
      "learning_rate": 0.00045580045778914765,
      "loss": 3.1671,
      "step": 35800
    },
    {
      "epoch": 9.647609819121447,
      "grad_norm": 0.39634934067726135,
      "learning_rate": 0.00045559849198868984,
      "loss": 3.1782,
      "step": 35850
    },
    {
      "epoch": 9.661068044788975,
      "grad_norm": 0.3627624809741974,
      "learning_rate": 0.00045539652618823204,
      "loss": 3.1689,
      "step": 35900
    },
    {
      "epoch": 9.674526270456504,
      "grad_norm": 0.3928319215774536,
      "learning_rate": 0.0004551945603877743,
      "loss": 3.1757,
      "step": 35950
    },
    {
      "epoch": 9.687984496124031,
      "grad_norm": 0.37066513299942017,
      "learning_rate": 0.00045499259458731654,
      "loss": 3.1774,
      "step": 36000
    },
    {
      "epoch": 9.687984496124031,
      "eval_accuracy": 0.39003808289581243,
      "eval_loss": 3.3119335174560547,
      "eval_runtime": 53.867,
      "eval_samples_per_second": 334.379,
      "eval_steps_per_second": 20.903,
      "step": 36000
    },
    {
      "epoch": 9.701442721791558,
      "grad_norm": 0.36574748158454895,
      "learning_rate": 0.00045479062878685874,
      "loss": 3.169,
      "step": 36050
    },
    {
      "epoch": 9.714900947459087,
      "grad_norm": 0.3367103040218353,
      "learning_rate": 0.00045458866298640093,
      "loss": 3.1758,
      "step": 36100
    },
    {
      "epoch": 9.728359173126615,
      "grad_norm": 0.3776065707206726,
      "learning_rate": 0.0004543866971859432,
      "loss": 3.1861,
      "step": 36150
    },
    {
      "epoch": 9.741817398794144,
      "grad_norm": 0.3644520044326782,
      "learning_rate": 0.0004541847313854854,
      "loss": 3.1765,
      "step": 36200
    },
    {
      "epoch": 9.755275624461671,
      "grad_norm": 0.3726387917995453,
      "learning_rate": 0.0004539827655850276,
      "loss": 3.1772,
      "step": 36250
    },
    {
      "epoch": 9.768733850129198,
      "grad_norm": 0.3458203375339508,
      "learning_rate": 0.00045378079978456977,
      "loss": 3.1767,
      "step": 36300
    },
    {
      "epoch": 9.782192075796727,
      "grad_norm": 0.3517729640007019,
      "learning_rate": 0.00045357883398411197,
      "loss": 3.1872,
      "step": 36350
    },
    {
      "epoch": 9.795650301464255,
      "grad_norm": 0.37035584449768066,
      "learning_rate": 0.0004533768681836542,
      "loss": 3.176,
      "step": 36400
    },
    {
      "epoch": 9.809108527131784,
      "grad_norm": 0.331911563873291,
      "learning_rate": 0.0004531749023831964,
      "loss": 3.1869,
      "step": 36450
    },
    {
      "epoch": 9.822566752799311,
      "grad_norm": 0.378213107585907,
      "learning_rate": 0.0004529729365827386,
      "loss": 3.1803,
      "step": 36500
    },
    {
      "epoch": 9.836024978466838,
      "grad_norm": 0.36638858914375305,
      "learning_rate": 0.0004527709707822808,
      "loss": 3.1897,
      "step": 36550
    },
    {
      "epoch": 9.849483204134367,
      "grad_norm": 0.35065630078315735,
      "learning_rate": 0.000452569004981823,
      "loss": 3.1761,
      "step": 36600
    },
    {
      "epoch": 9.862941429801895,
      "grad_norm": 0.3395127058029175,
      "learning_rate": 0.00045236703918136525,
      "loss": 3.1697,
      "step": 36650
    },
    {
      "epoch": 9.876399655469424,
      "grad_norm": 0.3822707235813141,
      "learning_rate": 0.00045216507338090745,
      "loss": 3.1762,
      "step": 36700
    },
    {
      "epoch": 9.889857881136951,
      "grad_norm": 0.363520085811615,
      "learning_rate": 0.00045196310758044964,
      "loss": 3.1838,
      "step": 36750
    },
    {
      "epoch": 9.903316106804478,
      "grad_norm": 0.3515053391456604,
      "learning_rate": 0.00045176114177999184,
      "loss": 3.1785,
      "step": 36800
    },
    {
      "epoch": 9.916774332472007,
      "grad_norm": 0.349691778421402,
      "learning_rate": 0.00045155917597953404,
      "loss": 3.1721,
      "step": 36850
    },
    {
      "epoch": 9.930232558139535,
      "grad_norm": 0.35931867361068726,
      "learning_rate": 0.00045135721017907634,
      "loss": 3.1714,
      "step": 36900
    },
    {
      "epoch": 9.943690783807062,
      "grad_norm": 0.34536248445510864,
      "learning_rate": 0.00045115524437861854,
      "loss": 3.1884,
      "step": 36950
    },
    {
      "epoch": 9.957149009474591,
      "grad_norm": 0.36185145378112793,
      "learning_rate": 0.00045095327857816073,
      "loss": 3.1915,
      "step": 37000
    },
    {
      "epoch": 9.957149009474591,
      "eval_accuracy": 0.3906682346580862,
      "eval_loss": 3.307512044906616,
      "eval_runtime": 53.9755,
      "eval_samples_per_second": 333.707,
      "eval_steps_per_second": 20.861,
      "step": 37000
    },
    {
      "epoch": 9.970607235142118,
      "grad_norm": 0.37505844235420227,
      "learning_rate": 0.00045075131277770293,
      "loss": 3.1809,
      "step": 37050
    },
    {
      "epoch": 9.984065460809648,
      "grad_norm": 0.38229846954345703,
      "learning_rate": 0.0004505493469772452,
      "loss": 3.1617,
      "step": 37100
    },
    {
      "epoch": 9.997523686477175,
      "grad_norm": 0.3569982051849365,
      "learning_rate": 0.0004503473811767874,
      "loss": 3.181,
      "step": 37150
    },
    {
      "epoch": 10.010766580534023,
      "grad_norm": 0.3492891490459442,
      "learning_rate": 0.00045014541537632957,
      "loss": 3.0966,
      "step": 37200
    },
    {
      "epoch": 10.02422480620155,
      "grad_norm": 0.3511972427368164,
      "learning_rate": 0.00044994344957587177,
      "loss": 3.0796,
      "step": 37250
    },
    {
      "epoch": 10.037683031869078,
      "grad_norm": 0.37117940187454224,
      "learning_rate": 0.00044974148377541396,
      "loss": 3.0834,
      "step": 37300
    },
    {
      "epoch": 10.051141257536607,
      "grad_norm": 0.35840341448783875,
      "learning_rate": 0.0004495395179749562,
      "loss": 3.0828,
      "step": 37350
    },
    {
      "epoch": 10.064599483204134,
      "grad_norm": 0.34897172451019287,
      "learning_rate": 0.0004493375521744984,
      "loss": 3.0958,
      "step": 37400
    },
    {
      "epoch": 10.078057708871663,
      "grad_norm": 0.39569246768951416,
      "learning_rate": 0.0004491355863740406,
      "loss": 3.089,
      "step": 37450
    },
    {
      "epoch": 10.09151593453919,
      "grad_norm": 0.3689843416213989,
      "learning_rate": 0.0004489336205735828,
      "loss": 3.0977,
      "step": 37500
    },
    {
      "epoch": 10.104974160206718,
      "grad_norm": 0.34813550114631653,
      "learning_rate": 0.00044873165477312505,
      "loss": 3.1025,
      "step": 37550
    },
    {
      "epoch": 10.118432385874247,
      "grad_norm": 0.3824092447757721,
      "learning_rate": 0.00044852968897266725,
      "loss": 3.0957,
      "step": 37600
    },
    {
      "epoch": 10.131890611541774,
      "grad_norm": 0.38753488659858704,
      "learning_rate": 0.00044832772317220945,
      "loss": 3.0925,
      "step": 37650
    },
    {
      "epoch": 10.145348837209303,
      "grad_norm": 0.3686502277851105,
      "learning_rate": 0.00044812575737175164,
      "loss": 3.0996,
      "step": 37700
    },
    {
      "epoch": 10.15880706287683,
      "grad_norm": 0.37750762701034546,
      "learning_rate": 0.00044792379157129384,
      "loss": 3.1156,
      "step": 37750
    },
    {
      "epoch": 10.172265288544358,
      "grad_norm": 0.3830547332763672,
      "learning_rate": 0.00044772182577083614,
      "loss": 3.1072,
      "step": 37800
    },
    {
      "epoch": 10.185723514211887,
      "grad_norm": 0.40359804034233093,
      "learning_rate": 0.00044751985997037834,
      "loss": 3.1251,
      "step": 37850
    },
    {
      "epoch": 10.199181739879414,
      "grad_norm": 0.35740941762924194,
      "learning_rate": 0.00044731789416992053,
      "loss": 3.1123,
      "step": 37900
    },
    {
      "epoch": 10.212639965546943,
      "grad_norm": 0.3627743124961853,
      "learning_rate": 0.00044711592836946273,
      "loss": 3.1226,
      "step": 37950
    },
    {
      "epoch": 10.22609819121447,
      "grad_norm": 0.4064336121082306,
      "learning_rate": 0.000446913962569005,
      "loss": 3.1193,
      "step": 38000
    },
    {
      "epoch": 10.22609819121447,
      "eval_accuracy": 0.39022843218676134,
      "eval_loss": 3.3206238746643066,
      "eval_runtime": 53.6924,
      "eval_samples_per_second": 335.467,
      "eval_steps_per_second": 20.971,
      "step": 38000
    },
    {
      "epoch": 10.239556416881998,
      "grad_norm": 0.40242040157318115,
      "learning_rate": 0.0004467119967685472,
      "loss": 3.112,
      "step": 38050
    },
    {
      "epoch": 10.253014642549527,
      "grad_norm": 0.3557272255420685,
      "learning_rate": 0.00044651003096808937,
      "loss": 3.1364,
      "step": 38100
    },
    {
      "epoch": 10.266472868217054,
      "grad_norm": 0.3683841824531555,
      "learning_rate": 0.00044630806516763157,
      "loss": 3.1146,
      "step": 38150
    },
    {
      "epoch": 10.279931093884581,
      "grad_norm": 0.33976754546165466,
      "learning_rate": 0.00044610609936717376,
      "loss": 3.1277,
      "step": 38200
    },
    {
      "epoch": 10.29338931955211,
      "grad_norm": 0.3842891752719879,
      "learning_rate": 0.000445904133566716,
      "loss": 3.128,
      "step": 38250
    },
    {
      "epoch": 10.306847545219638,
      "grad_norm": 0.3514265716075897,
      "learning_rate": 0.0004457021677662582,
      "loss": 3.1333,
      "step": 38300
    },
    {
      "epoch": 10.320305770887167,
      "grad_norm": 0.34577810764312744,
      "learning_rate": 0.0004455002019658004,
      "loss": 3.1148,
      "step": 38350
    },
    {
      "epoch": 10.333763996554694,
      "grad_norm": 0.37134677171707153,
      "learning_rate": 0.0004452982361653426,
      "loss": 3.1305,
      "step": 38400
    },
    {
      "epoch": 10.347222222222221,
      "grad_norm": 0.39002493023872375,
      "learning_rate": 0.0004450962703648848,
      "loss": 3.1265,
      "step": 38450
    },
    {
      "epoch": 10.36068044788975,
      "grad_norm": 0.377231240272522,
      "learning_rate": 0.00044489430456442705,
      "loss": 3.1283,
      "step": 38500
    },
    {
      "epoch": 10.374138673557278,
      "grad_norm": 0.36426547169685364,
      "learning_rate": 0.00044469233876396925,
      "loss": 3.1356,
      "step": 38550
    },
    {
      "epoch": 10.387596899224807,
      "grad_norm": 0.3630325198173523,
      "learning_rate": 0.00044449037296351144,
      "loss": 3.1403,
      "step": 38600
    },
    {
      "epoch": 10.401055124892334,
      "grad_norm": 0.3570690453052521,
      "learning_rate": 0.0004442884071630537,
      "loss": 3.1327,
      "step": 38650
    },
    {
      "epoch": 10.414513350559861,
      "grad_norm": 0.3494502604007721,
      "learning_rate": 0.00044408644136259594,
      "loss": 3.1401,
      "step": 38700
    },
    {
      "epoch": 10.42797157622739,
      "grad_norm": 0.3937465250492096,
      "learning_rate": 0.00044388447556213814,
      "loss": 3.1323,
      "step": 38750
    },
    {
      "epoch": 10.441429801894918,
      "grad_norm": 0.3534800410270691,
      "learning_rate": 0.00044368250976168033,
      "loss": 3.1363,
      "step": 38800
    },
    {
      "epoch": 10.454888027562447,
      "grad_norm": 0.35517048835754395,
      "learning_rate": 0.00044348054396122253,
      "loss": 3.1398,
      "step": 38850
    },
    {
      "epoch": 10.468346253229974,
      "grad_norm": 0.3748292028903961,
      "learning_rate": 0.0004432785781607647,
      "loss": 3.1397,
      "step": 38900
    },
    {
      "epoch": 10.481804478897502,
      "grad_norm": 0.3736768066883087,
      "learning_rate": 0.000443076612360307,
      "loss": 3.1524,
      "step": 38950
    },
    {
      "epoch": 10.49526270456503,
      "grad_norm": 0.3461846709251404,
      "learning_rate": 0.0004428746465598492,
      "loss": 3.1495,
      "step": 39000
    },
    {
      "epoch": 10.49526270456503,
      "eval_accuracy": 0.3906297736712164,
      "eval_loss": 3.3105146884918213,
      "eval_runtime": 53.6571,
      "eval_samples_per_second": 335.687,
      "eval_steps_per_second": 20.985,
      "step": 39000
    },
    {
      "epoch": 10.508720930232558,
      "grad_norm": 0.3518693149089813,
      "learning_rate": 0.00044267268075939137,
      "loss": 3.1377,
      "step": 39050
    },
    {
      "epoch": 10.522179155900087,
      "grad_norm": 0.35536989569664,
      "learning_rate": 0.00044247071495893357,
      "loss": 3.1556,
      "step": 39100
    },
    {
      "epoch": 10.535637381567614,
      "grad_norm": 0.3642809987068176,
      "learning_rate": 0.00044226874915847576,
      "loss": 3.151,
      "step": 39150
    },
    {
      "epoch": 10.549095607235142,
      "grad_norm": 0.3890918791294098,
      "learning_rate": 0.000442066783358018,
      "loss": 3.1532,
      "step": 39200
    },
    {
      "epoch": 10.56255383290267,
      "grad_norm": 0.37581443786621094,
      "learning_rate": 0.0004418648175575602,
      "loss": 3.1472,
      "step": 39250
    },
    {
      "epoch": 10.576012058570198,
      "grad_norm": 0.3536636233329773,
      "learning_rate": 0.0004416628517571024,
      "loss": 3.1446,
      "step": 39300
    },
    {
      "epoch": 10.589470284237725,
      "grad_norm": 0.3826201856136322,
      "learning_rate": 0.0004414608859566446,
      "loss": 3.1564,
      "step": 39350
    },
    {
      "epoch": 10.602928509905254,
      "grad_norm": 0.40004265308380127,
      "learning_rate": 0.00044125892015618685,
      "loss": 3.1413,
      "step": 39400
    },
    {
      "epoch": 10.616386735572782,
      "grad_norm": 0.3891655504703522,
      "learning_rate": 0.00044105695435572905,
      "loss": 3.1628,
      "step": 39450
    },
    {
      "epoch": 10.62984496124031,
      "grad_norm": 0.3744836747646332,
      "learning_rate": 0.00044085498855527124,
      "loss": 3.1475,
      "step": 39500
    },
    {
      "epoch": 10.643303186907838,
      "grad_norm": 0.3514010012149811,
      "learning_rate": 0.0004406530227548135,
      "loss": 3.161,
      "step": 39550
    },
    {
      "epoch": 10.656761412575365,
      "grad_norm": 0.35587388277053833,
      "learning_rate": 0.00044045105695435574,
      "loss": 3.1597,
      "step": 39600
    },
    {
      "epoch": 10.670219638242894,
      "grad_norm": 0.36579716205596924,
      "learning_rate": 0.00044024909115389794,
      "loss": 3.154,
      "step": 39650
    },
    {
      "epoch": 10.683677863910422,
      "grad_norm": 0.3504290282726288,
      "learning_rate": 0.00044004712535344014,
      "loss": 3.1476,
      "step": 39700
    },
    {
      "epoch": 10.69713608957795,
      "grad_norm": 0.4184782803058624,
      "learning_rate": 0.00043984515955298233,
      "loss": 3.1578,
      "step": 39750
    },
    {
      "epoch": 10.710594315245478,
      "grad_norm": 0.40172553062438965,
      "learning_rate": 0.00043964319375252453,
      "loss": 3.1515,
      "step": 39800
    },
    {
      "epoch": 10.724052540913005,
      "grad_norm": 0.35225343704223633,
      "learning_rate": 0.0004394412279520668,
      "loss": 3.1479,
      "step": 39850
    },
    {
      "epoch": 10.737510766580534,
      "grad_norm": 0.37683871388435364,
      "learning_rate": 0.000439239262151609,
      "loss": 3.1586,
      "step": 39900
    },
    {
      "epoch": 10.750968992248062,
      "grad_norm": 0.36777010560035706,
      "learning_rate": 0.00043903729635115117,
      "loss": 3.1583,
      "step": 39950
    },
    {
      "epoch": 10.764427217915589,
      "grad_norm": 0.36609140038490295,
      "learning_rate": 0.00043883533055069337,
      "loss": 3.1636,
      "step": 40000
    },
    {
      "epoch": 10.764427217915589,
      "eval_accuracy": 0.3912790472800694,
      "eval_loss": 3.3053524494171143,
      "eval_runtime": 53.8099,
      "eval_samples_per_second": 334.734,
      "eval_steps_per_second": 20.926,
      "step": 40000
    },
    {
      "epoch": 10.777885443583118,
      "grad_norm": 0.3523204028606415,
      "learning_rate": 0.00043863336475023556,
      "loss": 3.1587,
      "step": 40050
    },
    {
      "epoch": 10.791343669250645,
      "grad_norm": 0.3931622803211212,
      "learning_rate": 0.0004384313989497778,
      "loss": 3.157,
      "step": 40100
    },
    {
      "epoch": 10.804801894918175,
      "grad_norm": 0.3558056354522705,
      "learning_rate": 0.00043822943314932,
      "loss": 3.1674,
      "step": 40150
    },
    {
      "epoch": 10.818260120585702,
      "grad_norm": 0.3576938807964325,
      "learning_rate": 0.0004380274673488622,
      "loss": 3.156,
      "step": 40200
    },
    {
      "epoch": 10.83171834625323,
      "grad_norm": 0.3403548002243042,
      "learning_rate": 0.0004378255015484044,
      "loss": 3.1594,
      "step": 40250
    },
    {
      "epoch": 10.845176571920758,
      "grad_norm": 0.3665982186794281,
      "learning_rate": 0.0004376235357479466,
      "loss": 3.1629,
      "step": 40300
    },
    {
      "epoch": 10.858634797588286,
      "grad_norm": 0.3475422263145447,
      "learning_rate": 0.00043742156994748885,
      "loss": 3.1553,
      "step": 40350
    },
    {
      "epoch": 10.872093023255815,
      "grad_norm": 0.33809924125671387,
      "learning_rate": 0.00043721960414703104,
      "loss": 3.1654,
      "step": 40400
    },
    {
      "epoch": 10.885551248923342,
      "grad_norm": 0.3743918836116791,
      "learning_rate": 0.0004370176383465733,
      "loss": 3.1581,
      "step": 40450
    },
    {
      "epoch": 10.89900947459087,
      "grad_norm": 0.36682623624801636,
      "learning_rate": 0.0004368156725461155,
      "loss": 3.1621,
      "step": 40500
    },
    {
      "epoch": 10.912467700258398,
      "grad_norm": 0.3797398507595062,
      "learning_rate": 0.00043661370674565774,
      "loss": 3.1628,
      "step": 40550
    },
    {
      "epoch": 10.925925925925926,
      "grad_norm": 0.3800196051597595,
      "learning_rate": 0.00043641174094519994,
      "loss": 3.1664,
      "step": 40600
    },
    {
      "epoch": 10.939384151593455,
      "grad_norm": 0.3516307473182678,
      "learning_rate": 0.00043620977514474213,
      "loss": 3.1608,
      "step": 40650
    },
    {
      "epoch": 10.952842377260982,
      "grad_norm": 0.37099623680114746,
      "learning_rate": 0.00043600780934428433,
      "loss": 3.1647,
      "step": 40700
    },
    {
      "epoch": 10.96630060292851,
      "grad_norm": 0.38898375630378723,
      "learning_rate": 0.0004358058435438265,
      "loss": 3.1516,
      "step": 40750
    },
    {
      "epoch": 10.979758828596038,
      "grad_norm": 0.3787337839603424,
      "learning_rate": 0.0004356038777433688,
      "loss": 3.1438,
      "step": 40800
    },
    {
      "epoch": 10.993217054263566,
      "grad_norm": 0.3420003354549408,
      "learning_rate": 0.00043540191194291097,
      "loss": 3.1638,
      "step": 40850
    },
    {
      "epoch": 11.006459948320414,
      "grad_norm": 0.373717337846756,
      "learning_rate": 0.00043519994614245317,
      "loss": 3.0953,
      "step": 40900
    },
    {
      "epoch": 11.019918173987941,
      "grad_norm": 0.36699631810188293,
      "learning_rate": 0.00043499798034199536,
      "loss": 3.0586,
      "step": 40950
    },
    {
      "epoch": 11.03337639965547,
      "grad_norm": 0.351595401763916,
      "learning_rate": 0.00043479601454153756,
      "loss": 3.0765,
      "step": 41000
    },
    {
      "epoch": 11.03337639965547,
      "eval_accuracy": 0.3908649941135134,
      "eval_loss": 3.3149876594543457,
      "eval_runtime": 53.8322,
      "eval_samples_per_second": 334.596,
      "eval_steps_per_second": 20.917,
      "step": 41000
    },
    {
      "epoch": 11.046834625322997,
      "grad_norm": 0.36418431997299194,
      "learning_rate": 0.0004345940487410798,
      "loss": 3.0751,
      "step": 41050
    },
    {
      "epoch": 11.060292850990525,
      "grad_norm": 0.3695267140865326,
      "learning_rate": 0.000434392082940622,
      "loss": 3.0719,
      "step": 41100
    },
    {
      "epoch": 11.073751076658054,
      "grad_norm": 0.3487664461135864,
      "learning_rate": 0.0004341901171401642,
      "loss": 3.0753,
      "step": 41150
    },
    {
      "epoch": 11.087209302325581,
      "grad_norm": 0.3637808859348297,
      "learning_rate": 0.0004339881513397064,
      "loss": 3.0803,
      "step": 41200
    },
    {
      "epoch": 11.10066752799311,
      "grad_norm": 0.3343772888183594,
      "learning_rate": 0.0004337861855392486,
      "loss": 3.0836,
      "step": 41250
    },
    {
      "epoch": 11.114125753660637,
      "grad_norm": 0.3723909854888916,
      "learning_rate": 0.00043358421973879084,
      "loss": 3.0935,
      "step": 41300
    },
    {
      "epoch": 11.127583979328165,
      "grad_norm": 0.34839126467704773,
      "learning_rate": 0.0004333822539383331,
      "loss": 3.0799,
      "step": 41350
    },
    {
      "epoch": 11.141042204995694,
      "grad_norm": 0.40357962250709534,
      "learning_rate": 0.0004331802881378753,
      "loss": 3.0947,
      "step": 41400
    },
    {
      "epoch": 11.154500430663221,
      "grad_norm": 0.3761771619319916,
      "learning_rate": 0.00043297832233741754,
      "loss": 3.0852,
      "step": 41450
    },
    {
      "epoch": 11.16795865633075,
      "grad_norm": 0.3732476532459259,
      "learning_rate": 0.00043277635653695974,
      "loss": 3.1048,
      "step": 41500
    },
    {
      "epoch": 11.181416881998278,
      "grad_norm": 0.3786817789077759,
      "learning_rate": 0.00043257439073650193,
      "loss": 3.098,
      "step": 41550
    },
    {
      "epoch": 11.194875107665805,
      "grad_norm": 0.359264999628067,
      "learning_rate": 0.00043237242493604413,
      "loss": 3.0977,
      "step": 41600
    },
    {
      "epoch": 11.208333333333334,
      "grad_norm": 0.38861802220344543,
      "learning_rate": 0.0004321704591355863,
      "loss": 3.1024,
      "step": 41650
    },
    {
      "epoch": 11.221791559000861,
      "grad_norm": 0.3696124255657196,
      "learning_rate": 0.0004319684933351286,
      "loss": 3.1105,
      "step": 41700
    },
    {
      "epoch": 11.235249784668389,
      "grad_norm": 0.3674962520599365,
      "learning_rate": 0.00043176652753467077,
      "loss": 3.1026,
      "step": 41750
    },
    {
      "epoch": 11.248708010335918,
      "grad_norm": 0.3563523292541504,
      "learning_rate": 0.00043156456173421297,
      "loss": 3.0967,
      "step": 41800
    },
    {
      "epoch": 11.262166236003445,
      "grad_norm": 0.36378583312034607,
      "learning_rate": 0.00043136259593375516,
      "loss": 3.1061,
      "step": 41850
    },
    {
      "epoch": 11.275624461670974,
      "grad_norm": 0.3854440152645111,
      "learning_rate": 0.00043116063013329736,
      "loss": 3.0973,
      "step": 41900
    },
    {
      "epoch": 11.289082687338501,
      "grad_norm": 0.37868574261665344,
      "learning_rate": 0.0004309586643328396,
      "loss": 3.1045,
      "step": 41950
    },
    {
      "epoch": 11.302540913006029,
      "grad_norm": 0.37912723422050476,
      "learning_rate": 0.0004307566985323818,
      "loss": 3.1059,
      "step": 42000
    },
    {
      "epoch": 11.302540913006029,
      "eval_accuracy": 0.3909425679683864,
      "eval_loss": 3.3138086795806885,
      "eval_runtime": 54.0416,
      "eval_samples_per_second": 333.299,
      "eval_steps_per_second": 20.836,
      "step": 42000
    },
    {
      "epoch": 11.315999138673558,
      "grad_norm": 0.37423864006996155,
      "learning_rate": 0.000430554732731924,
      "loss": 3.1092,
      "step": 42050
    },
    {
      "epoch": 11.329457364341085,
      "grad_norm": 0.3635264039039612,
      "learning_rate": 0.0004303527669314662,
      "loss": 3.1067,
      "step": 42100
    },
    {
      "epoch": 11.342915590008614,
      "grad_norm": 0.37760043144226074,
      "learning_rate": 0.0004301508011310084,
      "loss": 3.1138,
      "step": 42150
    },
    {
      "epoch": 11.356373815676141,
      "grad_norm": 0.35156896710395813,
      "learning_rate": 0.00042994883533055065,
      "loss": 3.1106,
      "step": 42200
    },
    {
      "epoch": 11.369832041343669,
      "grad_norm": 0.366276353597641,
      "learning_rate": 0.0004297468695300929,
      "loss": 3.1133,
      "step": 42250
    },
    {
      "epoch": 11.383290267011198,
      "grad_norm": 0.35794273018836975,
      "learning_rate": 0.0004295449037296351,
      "loss": 3.122,
      "step": 42300
    },
    {
      "epoch": 11.396748492678725,
      "grad_norm": 0.3940405547618866,
      "learning_rate": 0.0004293429379291773,
      "loss": 3.1278,
      "step": 42350
    },
    {
      "epoch": 11.410206718346252,
      "grad_norm": 0.369793176651001,
      "learning_rate": 0.00042914097212871954,
      "loss": 3.111,
      "step": 42400
    },
    {
      "epoch": 11.423664944013781,
      "grad_norm": 0.40873241424560547,
      "learning_rate": 0.00042893900632826173,
      "loss": 3.1187,
      "step": 42450
    },
    {
      "epoch": 11.437123169681309,
      "grad_norm": 0.3555212616920471,
      "learning_rate": 0.00042873704052780393,
      "loss": 3.1219,
      "step": 42500
    },
    {
      "epoch": 11.450581395348838,
      "grad_norm": 0.3871249556541443,
      "learning_rate": 0.0004285350747273461,
      "loss": 3.1233,
      "step": 42550
    },
    {
      "epoch": 11.464039621016365,
      "grad_norm": 0.36317795515060425,
      "learning_rate": 0.0004283331089268883,
      "loss": 3.1194,
      "step": 42600
    },
    {
      "epoch": 11.477497846683892,
      "grad_norm": 0.36784833669662476,
      "learning_rate": 0.00042813114312643057,
      "loss": 3.1254,
      "step": 42650
    },
    {
      "epoch": 11.490956072351421,
      "grad_norm": 0.38175830245018005,
      "learning_rate": 0.00042792917732597277,
      "loss": 3.1371,
      "step": 42700
    },
    {
      "epoch": 11.504414298018949,
      "grad_norm": 0.3648242652416229,
      "learning_rate": 0.00042772721152551496,
      "loss": 3.1285,
      "step": 42750
    },
    {
      "epoch": 11.517872523686478,
      "grad_norm": 0.37506625056266785,
      "learning_rate": 0.00042752524572505716,
      "loss": 3.1295,
      "step": 42800
    },
    {
      "epoch": 11.531330749354005,
      "grad_norm": 0.37387633323669434,
      "learning_rate": 0.00042732327992459936,
      "loss": 3.1248,
      "step": 42850
    },
    {
      "epoch": 11.544788975021532,
      "grad_norm": 0.3871805667877197,
      "learning_rate": 0.0004271213141241416,
      "loss": 3.1234,
      "step": 42900
    },
    {
      "epoch": 11.558247200689062,
      "grad_norm": 0.35133877396583557,
      "learning_rate": 0.0004269193483236838,
      "loss": 3.1269,
      "step": 42950
    },
    {
      "epoch": 11.571705426356589,
      "grad_norm": 0.36315521597862244,
      "learning_rate": 0.000426717382523226,
      "loss": 3.1231,
      "step": 43000
    },
    {
      "epoch": 11.571705426356589,
      "eval_accuracy": 0.39158260659451644,
      "eval_loss": 3.3041725158691406,
      "eval_runtime": 53.8797,
      "eval_samples_per_second": 334.3,
      "eval_steps_per_second": 20.898,
      "step": 43000
    },
    {
      "epoch": 11.585163652024118,
      "grad_norm": 0.367910772562027,
      "learning_rate": 0.0004265154167227682,
      "loss": 3.123,
      "step": 43050
    },
    {
      "epoch": 11.598621877691645,
      "grad_norm": 0.38121262192726135,
      "learning_rate": 0.0004263134509223105,
      "loss": 3.1253,
      "step": 43100
    },
    {
      "epoch": 11.612080103359173,
      "grad_norm": 0.7838655114173889,
      "learning_rate": 0.0004261114851218527,
      "loss": 3.1172,
      "step": 43150
    },
    {
      "epoch": 11.625538329026702,
      "grad_norm": 0.3997848629951477,
      "learning_rate": 0.0004259095193213949,
      "loss": 3.1365,
      "step": 43200
    },
    {
      "epoch": 11.638996554694229,
      "grad_norm": 0.34914714097976685,
      "learning_rate": 0.0004257075535209371,
      "loss": 3.1371,
      "step": 43250
    },
    {
      "epoch": 11.652454780361758,
      "grad_norm": 0.3584500849246979,
      "learning_rate": 0.00042550558772047934,
      "loss": 3.1419,
      "step": 43300
    },
    {
      "epoch": 11.665913006029285,
      "grad_norm": 0.3795340359210968,
      "learning_rate": 0.00042530362192002153,
      "loss": 3.1181,
      "step": 43350
    },
    {
      "epoch": 11.679371231696813,
      "grad_norm": 0.3768688142299652,
      "learning_rate": 0.00042510165611956373,
      "loss": 3.1343,
      "step": 43400
    },
    {
      "epoch": 11.692829457364342,
      "grad_norm": 0.37140101194381714,
      "learning_rate": 0.0004248996903191059,
      "loss": 3.1356,
      "step": 43450
    },
    {
      "epoch": 11.706287683031869,
      "grad_norm": 0.34071606397628784,
      "learning_rate": 0.0004246977245186481,
      "loss": 3.1279,
      "step": 43500
    },
    {
      "epoch": 11.719745908699396,
      "grad_norm": 0.39517703652381897,
      "learning_rate": 0.0004244957587181904,
      "loss": 3.1408,
      "step": 43550
    },
    {
      "epoch": 11.733204134366925,
      "grad_norm": 0.3629872500896454,
      "learning_rate": 0.00042429379291773257,
      "loss": 3.1351,
      "step": 43600
    },
    {
      "epoch": 11.746662360034453,
      "grad_norm": 0.4008491635322571,
      "learning_rate": 0.00042409182711727477,
      "loss": 3.137,
      "step": 43650
    },
    {
      "epoch": 11.760120585701982,
      "grad_norm": 0.3763497471809387,
      "learning_rate": 0.00042388986131681696,
      "loss": 3.1371,
      "step": 43700
    },
    {
      "epoch": 11.773578811369509,
      "grad_norm": 0.37213990092277527,
      "learning_rate": 0.00042368789551635916,
      "loss": 3.1363,
      "step": 43750
    },
    {
      "epoch": 11.787037037037036,
      "grad_norm": 0.3561500906944275,
      "learning_rate": 0.0004234859297159014,
      "loss": 3.141,
      "step": 43800
    },
    {
      "epoch": 11.800495262704565,
      "grad_norm": 0.3931141793727875,
      "learning_rate": 0.0004232839639154436,
      "loss": 3.1416,
      "step": 43850
    },
    {
      "epoch": 11.813953488372093,
      "grad_norm": 0.35057225823402405,
      "learning_rate": 0.0004230819981149858,
      "loss": 3.1379,
      "step": 43900
    },
    {
      "epoch": 11.827411714039622,
      "grad_norm": 0.35676315426826477,
      "learning_rate": 0.000422880032314528,
      "loss": 3.1338,
      "step": 43950
    },
    {
      "epoch": 11.840869939707149,
      "grad_norm": 0.35738396644592285,
      "learning_rate": 0.0004226780665140703,
      "loss": 3.1332,
      "step": 44000
    },
    {
      "epoch": 11.840869939707149,
      "eval_accuracy": 0.39190430993384273,
      "eval_loss": 3.3014116287231445,
      "eval_runtime": 53.7607,
      "eval_samples_per_second": 335.041,
      "eval_steps_per_second": 20.945,
      "step": 44000
    },
    {
      "epoch": 11.854328165374676,
      "grad_norm": 0.3747558891773224,
      "learning_rate": 0.0004224761007136125,
      "loss": 3.1428,
      "step": 44050
    },
    {
      "epoch": 11.867786391042205,
      "grad_norm": 0.3758200407028198,
      "learning_rate": 0.0004222741349131547,
      "loss": 3.1328,
      "step": 44100
    },
    {
      "epoch": 11.881244616709733,
      "grad_norm": 0.3885456621646881,
      "learning_rate": 0.0004220721691126969,
      "loss": 3.1333,
      "step": 44150
    },
    {
      "epoch": 11.89470284237726,
      "grad_norm": 0.35970941185951233,
      "learning_rate": 0.0004218702033122391,
      "loss": 3.1387,
      "step": 44200
    },
    {
      "epoch": 11.90816106804479,
      "grad_norm": 0.3670229911804199,
      "learning_rate": 0.00042166823751178134,
      "loss": 3.139,
      "step": 44250
    },
    {
      "epoch": 11.921619293712316,
      "grad_norm": 0.3680804967880249,
      "learning_rate": 0.00042146627171132353,
      "loss": 3.1381,
      "step": 44300
    },
    {
      "epoch": 11.935077519379846,
      "grad_norm": 0.367384135723114,
      "learning_rate": 0.00042126430591086573,
      "loss": 3.1405,
      "step": 44350
    },
    {
      "epoch": 11.948535745047373,
      "grad_norm": 0.3529140055179596,
      "learning_rate": 0.0004210623401104079,
      "loss": 3.1475,
      "step": 44400
    },
    {
      "epoch": 11.9619939707149,
      "grad_norm": 0.34686964750289917,
      "learning_rate": 0.0004208603743099501,
      "loss": 3.1463,
      "step": 44450
    },
    {
      "epoch": 11.97545219638243,
      "grad_norm": 0.3600054085254669,
      "learning_rate": 0.00042065840850949237,
      "loss": 3.149,
      "step": 44500
    },
    {
      "epoch": 11.988910422049956,
      "grad_norm": 0.37668830156326294,
      "learning_rate": 0.00042045644270903457,
      "loss": 3.1494,
      "step": 44550
    },
    {
      "epoch": 12.002153316106805,
      "grad_norm": 0.39227724075317383,
      "learning_rate": 0.00042025447690857676,
      "loss": 3.12,
      "step": 44600
    },
    {
      "epoch": 12.015611541774332,
      "grad_norm": 0.3704946041107178,
      "learning_rate": 0.00042005251110811896,
      "loss": 3.0452,
      "step": 44650
    },
    {
      "epoch": 12.029069767441861,
      "grad_norm": 0.3810844421386719,
      "learning_rate": 0.00041985054530766115,
      "loss": 3.0469,
      "step": 44700
    },
    {
      "epoch": 12.042527993109388,
      "grad_norm": 0.4110226035118103,
      "learning_rate": 0.0004196485795072034,
      "loss": 3.053,
      "step": 44750
    },
    {
      "epoch": 12.055986218776916,
      "grad_norm": 0.38302749395370483,
      "learning_rate": 0.0004194466137067456,
      "loss": 3.0359,
      "step": 44800
    },
    {
      "epoch": 12.069444444444445,
      "grad_norm": 0.38793662190437317,
      "learning_rate": 0.0004192446479062878,
      "loss": 3.0611,
      "step": 44850
    },
    {
      "epoch": 12.082902670111972,
      "grad_norm": 0.3869202136993408,
      "learning_rate": 0.00041904268210583005,
      "loss": 3.0617,
      "step": 44900
    },
    {
      "epoch": 12.096360895779501,
      "grad_norm": 0.40806224942207336,
      "learning_rate": 0.0004188407163053723,
      "loss": 3.0621,
      "step": 44950
    },
    {
      "epoch": 12.109819121447028,
      "grad_norm": 0.3624691367149353,
      "learning_rate": 0.0004186387505049145,
      "loss": 3.0655,
      "step": 45000
    },
    {
      "epoch": 12.109819121447028,
      "eval_accuracy": 0.3916841914044692,
      "eval_loss": 3.3107516765594482,
      "eval_runtime": 53.6121,
      "eval_samples_per_second": 335.969,
      "eval_steps_per_second": 21.003,
      "step": 45000
    },
    {
      "epoch": 12.123277347114556,
      "grad_norm": 0.38657304644584656,
      "learning_rate": 0.0004184367847044567,
      "loss": 3.0653,
      "step": 45050
    },
    {
      "epoch": 12.136735572782085,
      "grad_norm": 0.42197513580322266,
      "learning_rate": 0.0004182348189039989,
      "loss": 3.0755,
      "step": 45100
    },
    {
      "epoch": 12.150193798449612,
      "grad_norm": 0.41983577609062195,
      "learning_rate": 0.00041803285310354114,
      "loss": 3.0759,
      "step": 45150
    },
    {
      "epoch": 12.163652024117141,
      "grad_norm": 0.352384090423584,
      "learning_rate": 0.00041783088730308333,
      "loss": 3.0761,
      "step": 45200
    },
    {
      "epoch": 12.177110249784668,
      "grad_norm": 0.42857182025909424,
      "learning_rate": 0.00041762892150262553,
      "loss": 3.0656,
      "step": 45250
    },
    {
      "epoch": 12.190568475452196,
      "grad_norm": 0.35385847091674805,
      "learning_rate": 0.0004174269557021677,
      "loss": 3.0833,
      "step": 45300
    },
    {
      "epoch": 12.204026701119725,
      "grad_norm": 0.40004876255989075,
      "learning_rate": 0.0004172249899017099,
      "loss": 3.0804,
      "step": 45350
    },
    {
      "epoch": 12.217484926787252,
      "grad_norm": 0.36738428473472595,
      "learning_rate": 0.00041702302410125217,
      "loss": 3.0868,
      "step": 45400
    },
    {
      "epoch": 12.230943152454781,
      "grad_norm": 0.3519749939441681,
      "learning_rate": 0.00041682105830079437,
      "loss": 3.0793,
      "step": 45450
    },
    {
      "epoch": 12.244401378122308,
      "grad_norm": 0.3788878917694092,
      "learning_rate": 0.00041661909250033656,
      "loss": 3.0942,
      "step": 45500
    },
    {
      "epoch": 12.257859603789836,
      "grad_norm": 0.3716530501842499,
      "learning_rate": 0.00041641712669987876,
      "loss": 3.0917,
      "step": 45550
    },
    {
      "epoch": 12.271317829457365,
      "grad_norm": 0.3835557699203491,
      "learning_rate": 0.00041621516089942096,
      "loss": 3.0832,
      "step": 45600
    },
    {
      "epoch": 12.284776055124892,
      "grad_norm": 0.42075875401496887,
      "learning_rate": 0.0004160131950989632,
      "loss": 3.0948,
      "step": 45650
    },
    {
      "epoch": 12.298234280792421,
      "grad_norm": 0.372883677482605,
      "learning_rate": 0.0004158112292985054,
      "loss": 3.0969,
      "step": 45700
    },
    {
      "epoch": 12.311692506459949,
      "grad_norm": 0.35647454857826233,
      "learning_rate": 0.0004156092634980476,
      "loss": 3.0887,
      "step": 45750
    },
    {
      "epoch": 12.325150732127476,
      "grad_norm": 0.3993690013885498,
      "learning_rate": 0.00041540729769758985,
      "loss": 3.0938,
      "step": 45800
    },
    {
      "epoch": 12.338608957795005,
      "grad_norm": 0.36539211869239807,
      "learning_rate": 0.0004152053318971321,
      "loss": 3.1063,
      "step": 45850
    },
    {
      "epoch": 12.352067183462532,
      "grad_norm": 0.38160133361816406,
      "learning_rate": 0.0004150033660966743,
      "loss": 3.0854,
      "step": 45900
    },
    {
      "epoch": 12.36552540913006,
      "grad_norm": 0.34852227568626404,
      "learning_rate": 0.0004148014002962165,
      "loss": 3.0945,
      "step": 45950
    },
    {
      "epoch": 12.378983634797589,
      "grad_norm": 0.38215118646621704,
      "learning_rate": 0.0004145994344957587,
      "loss": 3.0919,
      "step": 46000
    },
    {
      "epoch": 12.378983634797589,
      "eval_accuracy": 0.3920929208751026,
      "eval_loss": 3.30391001701355,
      "eval_runtime": 53.9181,
      "eval_samples_per_second": 334.063,
      "eval_steps_per_second": 20.884,
      "step": 46000
    },
    {
      "epoch": 12.392441860465116,
      "grad_norm": 0.40114298462867737,
      "learning_rate": 0.0004143974686953009,
      "loss": 3.1014,
      "step": 46050
    },
    {
      "epoch": 12.405900086132645,
      "grad_norm": 0.40130308270454407,
      "learning_rate": 0.00041419550289484313,
      "loss": 3.1058,
      "step": 46100
    },
    {
      "epoch": 12.419358311800172,
      "grad_norm": 0.37803414463996887,
      "learning_rate": 0.00041399353709438533,
      "loss": 3.0961,
      "step": 46150
    },
    {
      "epoch": 12.4328165374677,
      "grad_norm": 0.4074687957763672,
      "learning_rate": 0.0004137915712939275,
      "loss": 3.1013,
      "step": 46200
    },
    {
      "epoch": 12.446274763135229,
      "grad_norm": 0.35416853427886963,
      "learning_rate": 0.0004135896054934697,
      "loss": 3.107,
      "step": 46250
    },
    {
      "epoch": 12.459732988802756,
      "grad_norm": 0.394949734210968,
      "learning_rate": 0.0004133876396930119,
      "loss": 3.1127,
      "step": 46300
    },
    {
      "epoch": 12.473191214470285,
      "grad_norm": 0.3806135654449463,
      "learning_rate": 0.00041318567389255417,
      "loss": 3.1096,
      "step": 46350
    },
    {
      "epoch": 12.486649440137812,
      "grad_norm": 0.3582363724708557,
      "learning_rate": 0.00041298370809209636,
      "loss": 3.0983,
      "step": 46400
    },
    {
      "epoch": 12.50010766580534,
      "grad_norm": 0.36571231484413147,
      "learning_rate": 0.00041278174229163856,
      "loss": 3.0931,
      "step": 46450
    },
    {
      "epoch": 12.513565891472869,
      "grad_norm": 0.37472379207611084,
      "learning_rate": 0.00041257977649118076,
      "loss": 3.1149,
      "step": 46500
    },
    {
      "epoch": 12.527024117140396,
      "grad_norm": 0.3692905306816101,
      "learning_rate": 0.00041237781069072295,
      "loss": 3.1073,
      "step": 46550
    },
    {
      "epoch": 12.540482342807923,
      "grad_norm": 0.4097956418991089,
      "learning_rate": 0.0004121758448902652,
      "loss": 3.1159,
      "step": 46600
    },
    {
      "epoch": 12.553940568475452,
      "grad_norm": 0.38633161783218384,
      "learning_rate": 0.0004119738790898074,
      "loss": 3.1091,
      "step": 46650
    },
    {
      "epoch": 12.56739879414298,
      "grad_norm": 0.3908534049987793,
      "learning_rate": 0.00041177191328934965,
      "loss": 3.1229,
      "step": 46700
    },
    {
      "epoch": 12.580857019810509,
      "grad_norm": 0.4074409306049347,
      "learning_rate": 0.00041156994748889185,
      "loss": 3.1045,
      "step": 46750
    },
    {
      "epoch": 12.594315245478036,
      "grad_norm": 0.3800044655799866,
      "learning_rate": 0.0004113679816884341,
      "loss": 3.1112,
      "step": 46800
    },
    {
      "epoch": 12.607773471145563,
      "grad_norm": 0.34563085436820984,
      "learning_rate": 0.0004111660158879763,
      "loss": 3.1177,
      "step": 46850
    },
    {
      "epoch": 12.621231696813092,
      "grad_norm": 0.36784085631370544,
      "learning_rate": 0.0004109640500875185,
      "loss": 3.1148,
      "step": 46900
    },
    {
      "epoch": 12.63468992248062,
      "grad_norm": 0.39189931750297546,
      "learning_rate": 0.0004107620842870607,
      "loss": 3.1105,
      "step": 46950
    },
    {
      "epoch": 12.648148148148149,
      "grad_norm": 0.36800920963287354,
      "learning_rate": 0.0004105601184866029,
      "loss": 3.1198,
      "step": 47000
    },
    {
      "epoch": 12.648148148148149,
      "eval_accuracy": 0.3922400287175369,
      "eval_loss": 3.3033642768859863,
      "eval_runtime": 53.9166,
      "eval_samples_per_second": 334.071,
      "eval_steps_per_second": 20.884,
      "step": 47000
    },
    {
      "epoch": 12.661606373815676,
      "grad_norm": 0.3976839780807495,
      "learning_rate": 0.00041035815268614513,
      "loss": 3.1156,
      "step": 47050
    },
    {
      "epoch": 12.675064599483203,
      "grad_norm": 0.39268913865089417,
      "learning_rate": 0.0004101561868856873,
      "loss": 3.1203,
      "step": 47100
    },
    {
      "epoch": 12.688522825150732,
      "grad_norm": 0.36905089020729065,
      "learning_rate": 0.0004099542210852295,
      "loss": 3.1219,
      "step": 47150
    },
    {
      "epoch": 12.70198105081826,
      "grad_norm": 0.3765939772129059,
      "learning_rate": 0.0004097522552847717,
      "loss": 3.1171,
      "step": 47200
    },
    {
      "epoch": 12.715439276485789,
      "grad_norm": 0.37911146879196167,
      "learning_rate": 0.00040955028948431397,
      "loss": 3.1116,
      "step": 47250
    },
    {
      "epoch": 12.728897502153316,
      "grad_norm": 0.39323848485946655,
      "learning_rate": 0.00040934832368385616,
      "loss": 3.1152,
      "step": 47300
    },
    {
      "epoch": 12.742355727820843,
      "grad_norm": 0.3719523251056671,
      "learning_rate": 0.00040914635788339836,
      "loss": 3.107,
      "step": 47350
    },
    {
      "epoch": 12.755813953488373,
      "grad_norm": 0.358672559261322,
      "learning_rate": 0.00040894439208294056,
      "loss": 3.1216,
      "step": 47400
    },
    {
      "epoch": 12.7692721791559,
      "grad_norm": 0.3891298174858093,
      "learning_rate": 0.00040874242628248275,
      "loss": 3.1341,
      "step": 47450
    },
    {
      "epoch": 12.782730404823429,
      "grad_norm": 0.37830036878585815,
      "learning_rate": 0.000408540460482025,
      "loss": 3.1233,
      "step": 47500
    },
    {
      "epoch": 12.796188630490956,
      "grad_norm": 0.3913838565349579,
      "learning_rate": 0.00040833849468156725,
      "loss": 3.1199,
      "step": 47550
    },
    {
      "epoch": 12.809646856158484,
      "grad_norm": 0.3707485795021057,
      "learning_rate": 0.00040813652888110945,
      "loss": 3.118,
      "step": 47600
    },
    {
      "epoch": 12.823105081826013,
      "grad_norm": 0.42476046085357666,
      "learning_rate": 0.00040793456308065165,
      "loss": 3.1103,
      "step": 47650
    },
    {
      "epoch": 12.83656330749354,
      "grad_norm": 0.41528019309043884,
      "learning_rate": 0.0004077325972801939,
      "loss": 3.1213,
      "step": 47700
    },
    {
      "epoch": 12.850021533161069,
      "grad_norm": 0.3821558654308319,
      "learning_rate": 0.0004075306314797361,
      "loss": 3.1253,
      "step": 47750
    },
    {
      "epoch": 12.863479758828596,
      "grad_norm": 0.3485643267631531,
      "learning_rate": 0.0004073286656792783,
      "loss": 3.1242,
      "step": 47800
    },
    {
      "epoch": 12.876937984496124,
      "grad_norm": 0.3739717900753021,
      "learning_rate": 0.0004071266998788205,
      "loss": 3.1311,
      "step": 47850
    },
    {
      "epoch": 12.890396210163653,
      "grad_norm": 0.36342811584472656,
      "learning_rate": 0.0004069247340783627,
      "loss": 3.1201,
      "step": 47900
    },
    {
      "epoch": 12.90385443583118,
      "grad_norm": 0.3751324713230133,
      "learning_rate": 0.00040672276827790493,
      "loss": 3.127,
      "step": 47950
    },
    {
      "epoch": 12.917312661498707,
      "grad_norm": 0.3644934594631195,
      "learning_rate": 0.0004065208024774471,
      "loss": 3.1283,
      "step": 48000
    },
    {
      "epoch": 12.917312661498707,
      "eval_accuracy": 0.39249176348187964,
      "eval_loss": 3.295912504196167,
      "eval_runtime": 54.0321,
      "eval_samples_per_second": 333.358,
      "eval_steps_per_second": 20.839,
      "step": 48000
    },
    {
      "epoch": 12.930770887166236,
      "grad_norm": 0.3778104782104492,
      "learning_rate": 0.0004063188366769893,
      "loss": 3.1223,
      "step": 48050
    },
    {
      "epoch": 12.944229112833764,
      "grad_norm": 0.3311636447906494,
      "learning_rate": 0.0004061168708765315,
      "loss": 3.1324,
      "step": 48100
    },
    {
      "epoch": 12.957687338501293,
      "grad_norm": 0.36411207914352417,
      "learning_rate": 0.0004059149050760737,
      "loss": 3.1244,
      "step": 48150
    },
    {
      "epoch": 12.97114556416882,
      "grad_norm": 0.3728819191455841,
      "learning_rate": 0.00040571293927561597,
      "loss": 3.13,
      "step": 48200
    },
    {
      "epoch": 12.984603789836347,
      "grad_norm": 0.3733992278575897,
      "learning_rate": 0.00040551097347515816,
      "loss": 3.1203,
      "step": 48250
    },
    {
      "epoch": 12.998062015503876,
      "grad_norm": 0.34325742721557617,
      "learning_rate": 0.00040530900767470036,
      "loss": 3.1313,
      "step": 48300
    },
    {
      "epoch": 13.011304909560723,
      "grad_norm": 0.36356621980667114,
      "learning_rate": 0.00040510704187424255,
      "loss": 3.043,
      "step": 48350
    },
    {
      "epoch": 13.024763135228252,
      "grad_norm": 0.37825655937194824,
      "learning_rate": 0.00040490507607378475,
      "loss": 3.0414,
      "step": 48400
    },
    {
      "epoch": 13.038221360895779,
      "grad_norm": 0.4046306908130646,
      "learning_rate": 0.00040470311027332705,
      "loss": 3.0372,
      "step": 48450
    },
    {
      "epoch": 13.051679586563308,
      "grad_norm": 0.36423417925834656,
      "learning_rate": 0.00040450114447286925,
      "loss": 3.0349,
      "step": 48500
    },
    {
      "epoch": 13.065137812230835,
      "grad_norm": 0.3580648899078369,
      "learning_rate": 0.00040429917867241145,
      "loss": 3.036,
      "step": 48550
    },
    {
      "epoch": 13.078596037898363,
      "grad_norm": 0.3821873664855957,
      "learning_rate": 0.00040409721287195364,
      "loss": 3.0446,
      "step": 48600
    },
    {
      "epoch": 13.092054263565892,
      "grad_norm": 0.38778361678123474,
      "learning_rate": 0.0004038952470714959,
      "loss": 3.0454,
      "step": 48650
    },
    {
      "epoch": 13.10551248923342,
      "grad_norm": 0.3847378194332123,
      "learning_rate": 0.0004036932812710381,
      "loss": 3.0419,
      "step": 48700
    },
    {
      "epoch": 13.118970714900948,
      "grad_norm": 0.36374303698539734,
      "learning_rate": 0.0004034913154705803,
      "loss": 3.0542,
      "step": 48750
    },
    {
      "epoch": 13.132428940568476,
      "grad_norm": 0.394603967666626,
      "learning_rate": 0.0004032893496701225,
      "loss": 3.047,
      "step": 48800
    },
    {
      "epoch": 13.145887166236003,
      "grad_norm": 0.4271048903465271,
      "learning_rate": 0.0004030873838696647,
      "loss": 3.0521,
      "step": 48850
    },
    {
      "epoch": 13.159345391903532,
      "grad_norm": 0.38402384519577026,
      "learning_rate": 0.00040288541806920693,
      "loss": 3.057,
      "step": 48900
    },
    {
      "epoch": 13.17280361757106,
      "grad_norm": 0.38647517561912537,
      "learning_rate": 0.0004026834522687491,
      "loss": 3.0643,
      "step": 48950
    },
    {
      "epoch": 13.186261843238588,
      "grad_norm": 0.372152715921402,
      "learning_rate": 0.0004024814864682913,
      "loss": 3.0591,
      "step": 49000
    },
    {
      "epoch": 13.186261843238588,
      "eval_accuracy": 0.39232064468436567,
      "eval_loss": 3.306389570236206,
      "eval_runtime": 53.7783,
      "eval_samples_per_second": 334.93,
      "eval_steps_per_second": 20.938,
      "step": 49000
    },
    {
      "epoch": 13.199720068906116,
      "grad_norm": 0.3545859456062317,
      "learning_rate": 0.0004022795206678335,
      "loss": 3.0649,
      "step": 49050
    },
    {
      "epoch": 13.213178294573643,
      "grad_norm": 0.3903788924217224,
      "learning_rate": 0.00040207755486737577,
      "loss": 3.063,
      "step": 49100
    },
    {
      "epoch": 13.226636520241172,
      "grad_norm": 0.3961975574493408,
      "learning_rate": 0.00040187558906691796,
      "loss": 3.0666,
      "step": 49150
    },
    {
      "epoch": 13.2400947459087,
      "grad_norm": 0.3676101863384247,
      "learning_rate": 0.00040167362326646016,
      "loss": 3.0687,
      "step": 49200
    },
    {
      "epoch": 13.253552971576227,
      "grad_norm": 0.3698784112930298,
      "learning_rate": 0.00040147165746600235,
      "loss": 3.0722,
      "step": 49250
    },
    {
      "epoch": 13.267011197243756,
      "grad_norm": 0.3777436316013336,
      "learning_rate": 0.00040126969166554455,
      "loss": 3.0763,
      "step": 49300
    },
    {
      "epoch": 13.280469422911283,
      "grad_norm": 0.3777233958244324,
      "learning_rate": 0.00040106772586508686,
      "loss": 3.0669,
      "step": 49350
    },
    {
      "epoch": 13.293927648578812,
      "grad_norm": 0.3873639404773712,
      "learning_rate": 0.00040086576006462905,
      "loss": 3.0709,
      "step": 49400
    },
    {
      "epoch": 13.30738587424634,
      "grad_norm": 0.36705899238586426,
      "learning_rate": 0.00040066379426417125,
      "loss": 3.0626,
      "step": 49450
    },
    {
      "epoch": 13.320844099913867,
      "grad_norm": 0.35446983575820923,
      "learning_rate": 0.00040046182846371344,
      "loss": 3.076,
      "step": 49500
    },
    {
      "epoch": 13.334302325581396,
      "grad_norm": 0.393531858921051,
      "learning_rate": 0.0004002598626632557,
      "loss": 3.0867,
      "step": 49550
    },
    {
      "epoch": 13.347760551248923,
      "grad_norm": 0.4465448260307312,
      "learning_rate": 0.0004000578968627979,
      "loss": 3.0735,
      "step": 49600
    },
    {
      "epoch": 13.361218776916452,
      "grad_norm": 0.3967099189758301,
      "learning_rate": 0.0003998559310623401,
      "loss": 3.0843,
      "step": 49650
    },
    {
      "epoch": 13.37467700258398,
      "grad_norm": 0.3714440166950226,
      "learning_rate": 0.0003996539652618823,
      "loss": 3.0741,
      "step": 49700
    },
    {
      "epoch": 13.388135228251507,
      "grad_norm": 0.4029998481273651,
      "learning_rate": 0.0003994519994614245,
      "loss": 3.0777,
      "step": 49750
    },
    {
      "epoch": 13.401593453919036,
      "grad_norm": 0.39566588401794434,
      "learning_rate": 0.00039925003366096673,
      "loss": 3.0849,
      "step": 49800
    },
    {
      "epoch": 13.415051679586563,
      "grad_norm": 0.3758895993232727,
      "learning_rate": 0.0003990480678605089,
      "loss": 3.0984,
      "step": 49850
    },
    {
      "epoch": 13.428509905254092,
      "grad_norm": 0.3822093605995178,
      "learning_rate": 0.0003988461020600511,
      "loss": 3.0859,
      "step": 49900
    },
    {
      "epoch": 13.44196813092162,
      "grad_norm": 0.35837680101394653,
      "learning_rate": 0.0003986441362595933,
      "loss": 3.0958,
      "step": 49950
    },
    {
      "epoch": 13.455426356589147,
      "grad_norm": 0.42340973019599915,
      "learning_rate": 0.0003984421704591355,
      "loss": 3.0828,
      "step": 50000
    },
    {
      "epoch": 13.455426356589147,
      "eval_accuracy": 0.39285638232915393,
      "eval_loss": 3.3012328147888184,
      "eval_runtime": 53.8418,
      "eval_samples_per_second": 334.536,
      "eval_steps_per_second": 20.913,
      "step": 50000
    },
    {
      "epoch": 13.468884582256676,
      "grad_norm": 0.4042765200138092,
      "learning_rate": 0.00039824020465867776,
      "loss": 3.0829,
      "step": 50050
    },
    {
      "epoch": 13.482342807924203,
      "grad_norm": 0.42345064878463745,
      "learning_rate": 0.00039803823885821996,
      "loss": 3.0972,
      "step": 50100
    },
    {
      "epoch": 13.49580103359173,
      "grad_norm": 0.4129413366317749,
      "learning_rate": 0.00039783627305776216,
      "loss": 3.0934,
      "step": 50150
    },
    {
      "epoch": 13.50925925925926,
      "grad_norm": 0.4112797677516937,
      "learning_rate": 0.00039763430725730435,
      "loss": 3.0947,
      "step": 50200
    },
    {
      "epoch": 13.522717484926787,
      "grad_norm": 0.36507686972618103,
      "learning_rate": 0.00039743234145684666,
      "loss": 3.0975,
      "step": 50250
    },
    {
      "epoch": 13.536175710594316,
      "grad_norm": 0.3800624907016754,
      "learning_rate": 0.00039723037565638885,
      "loss": 3.1025,
      "step": 50300
    },
    {
      "epoch": 13.549633936261843,
      "grad_norm": 0.40299904346466064,
      "learning_rate": 0.00039702840985593105,
      "loss": 3.0832,
      "step": 50350
    },
    {
      "epoch": 13.56309216192937,
      "grad_norm": 0.38481107354164124,
      "learning_rate": 0.00039682644405547324,
      "loss": 3.0907,
      "step": 50400
    },
    {
      "epoch": 13.5765503875969,
      "grad_norm": 0.3586687445640564,
      "learning_rate": 0.00039662447825501544,
      "loss": 3.1058,
      "step": 50450
    },
    {
      "epoch": 13.590008613264427,
      "grad_norm": 0.37668395042419434,
      "learning_rate": 0.0003964225124545577,
      "loss": 3.0936,
      "step": 50500
    },
    {
      "epoch": 13.603466838931956,
      "grad_norm": 0.4070712625980377,
      "learning_rate": 0.0003962205466540999,
      "loss": 3.1099,
      "step": 50550
    },
    {
      "epoch": 13.616925064599483,
      "grad_norm": 0.3600846230983734,
      "learning_rate": 0.0003960185808536421,
      "loss": 3.0942,
      "step": 50600
    },
    {
      "epoch": 13.63038329026701,
      "grad_norm": 0.3763042390346527,
      "learning_rate": 0.0003958166150531843,
      "loss": 3.1044,
      "step": 50650
    },
    {
      "epoch": 13.64384151593454,
      "grad_norm": 0.3834032714366913,
      "learning_rate": 0.0003956146492527265,
      "loss": 3.1118,
      "step": 50700
    },
    {
      "epoch": 13.657299741602067,
      "grad_norm": 0.3641510009765625,
      "learning_rate": 0.0003954126834522687,
      "loss": 3.0999,
      "step": 50750
    },
    {
      "epoch": 13.670757967269594,
      "grad_norm": 0.3956216275691986,
      "learning_rate": 0.0003952107176518109,
      "loss": 3.0896,
      "step": 50800
    },
    {
      "epoch": 13.684216192937123,
      "grad_norm": 0.39530178904533386,
      "learning_rate": 0.0003950087518513531,
      "loss": 3.1057,
      "step": 50850
    },
    {
      "epoch": 13.69767441860465,
      "grad_norm": 0.38161706924438477,
      "learning_rate": 0.0003948067860508953,
      "loss": 3.1006,
      "step": 50900
    },
    {
      "epoch": 13.71113264427218,
      "grad_norm": 0.3645673990249634,
      "learning_rate": 0.0003946048202504375,
      "loss": 3.1121,
      "step": 50950
    },
    {
      "epoch": 13.724590869939707,
      "grad_norm": 0.37178608775138855,
      "learning_rate": 0.00039440285444997976,
      "loss": 3.1093,
      "step": 51000
    },
    {
      "epoch": 13.724590869939707,
      "eval_accuracy": 0.3933404040706935,
      "eval_loss": 3.2926268577575684,
      "eval_runtime": 53.8199,
      "eval_samples_per_second": 334.672,
      "eval_steps_per_second": 20.922,
      "step": 51000
    },
    {
      "epoch": 13.738049095607234,
      "grad_norm": 0.3872733414173126,
      "learning_rate": 0.00039420088864952196,
      "loss": 3.0982,
      "step": 51050
    },
    {
      "epoch": 13.751507321274763,
      "grad_norm": 0.3768724203109741,
      "learning_rate": 0.00039399892284906415,
      "loss": 3.1018,
      "step": 51100
    },
    {
      "epoch": 13.76496554694229,
      "grad_norm": 0.3499247431755066,
      "learning_rate": 0.00039379695704860646,
      "loss": 3.1137,
      "step": 51150
    },
    {
      "epoch": 13.77842377260982,
      "grad_norm": 0.3912452757358551,
      "learning_rate": 0.00039359499124814865,
      "loss": 3.1003,
      "step": 51200
    },
    {
      "epoch": 13.791881998277347,
      "grad_norm": 0.40462765097618103,
      "learning_rate": 0.00039339302544769085,
      "loss": 3.109,
      "step": 51250
    },
    {
      "epoch": 13.805340223944874,
      "grad_norm": 0.38249385356903076,
      "learning_rate": 0.00039319105964723305,
      "loss": 3.0964,
      "step": 51300
    },
    {
      "epoch": 13.818798449612403,
      "grad_norm": 0.38811343908309937,
      "learning_rate": 0.00039298909384677524,
      "loss": 3.1095,
      "step": 51350
    },
    {
      "epoch": 13.83225667527993,
      "grad_norm": 0.3731904625892639,
      "learning_rate": 0.0003927871280463175,
      "loss": 3.1067,
      "step": 51400
    },
    {
      "epoch": 13.84571490094746,
      "grad_norm": 0.35964900255203247,
      "learning_rate": 0.0003925851622458597,
      "loss": 3.1094,
      "step": 51450
    },
    {
      "epoch": 13.859173126614987,
      "grad_norm": 0.3533209562301636,
      "learning_rate": 0.0003923831964454019,
      "loss": 3.1167,
      "step": 51500
    },
    {
      "epoch": 13.872631352282514,
      "grad_norm": 0.368437796831131,
      "learning_rate": 0.0003921812306449441,
      "loss": 3.1096,
      "step": 51550
    },
    {
      "epoch": 13.886089577950044,
      "grad_norm": 0.39540213346481323,
      "learning_rate": 0.0003919792648444863,
      "loss": 3.1123,
      "step": 51600
    },
    {
      "epoch": 13.89954780361757,
      "grad_norm": 0.38563069701194763,
      "learning_rate": 0.0003917772990440285,
      "loss": 3.1218,
      "step": 51650
    },
    {
      "epoch": 13.9130060292851,
      "grad_norm": 0.3552553057670593,
      "learning_rate": 0.0003915753332435707,
      "loss": 3.1082,
      "step": 51700
    },
    {
      "epoch": 13.926464254952627,
      "grad_norm": 0.3842296600341797,
      "learning_rate": 0.0003913733674431129,
      "loss": 3.097,
      "step": 51750
    },
    {
      "epoch": 13.939922480620154,
      "grad_norm": 0.3653877377510071,
      "learning_rate": 0.0003911714016426551,
      "loss": 3.1161,
      "step": 51800
    },
    {
      "epoch": 13.953380706287684,
      "grad_norm": 0.3652689754962921,
      "learning_rate": 0.0003909694358421973,
      "loss": 3.096,
      "step": 51850
    },
    {
      "epoch": 13.96683893195521,
      "grad_norm": 0.3673049211502075,
      "learning_rate": 0.00039076747004173956,
      "loss": 3.1018,
      "step": 51900
    },
    {
      "epoch": 13.98029715762274,
      "grad_norm": 0.3873627185821533,
      "learning_rate": 0.00039056550424128176,
      "loss": 3.1102,
      "step": 51950
    },
    {
      "epoch": 13.993755383290267,
      "grad_norm": 0.3623334467411041,
      "learning_rate": 0.00039036353844082395,
      "loss": 3.1115,
      "step": 52000
    },
    {
      "epoch": 13.993755383290267,
      "eval_accuracy": 0.39365352430843015,
      "eval_loss": 3.287444591522217,
      "eval_runtime": 54.0713,
      "eval_samples_per_second": 333.115,
      "eval_steps_per_second": 20.824,
      "step": 52000
    },
    {
      "epoch": 14.006998277347115,
      "grad_norm": 0.39216455817222595,
      "learning_rate": 0.0003901615726403662,
      "loss": 3.0531,
      "step": 52050
    },
    {
      "epoch": 14.020456503014643,
      "grad_norm": 0.39898359775543213,
      "learning_rate": 0.00038995960683990845,
      "loss": 3.0271,
      "step": 52100
    },
    {
      "epoch": 14.03391472868217,
      "grad_norm": 0.3908878564834595,
      "learning_rate": 0.00038975764103945065,
      "loss": 3.0249,
      "step": 52150
    },
    {
      "epoch": 14.047372954349699,
      "grad_norm": 0.3882172703742981,
      "learning_rate": 0.00038955567523899285,
      "loss": 3.0202,
      "step": 52200
    },
    {
      "epoch": 14.060831180017226,
      "grad_norm": 0.3726351261138916,
      "learning_rate": 0.00038935370943853504,
      "loss": 3.0342,
      "step": 52250
    },
    {
      "epoch": 14.074289405684755,
      "grad_norm": 0.3756456971168518,
      "learning_rate": 0.00038915174363807724,
      "loss": 3.0319,
      "step": 52300
    },
    {
      "epoch": 14.087747631352283,
      "grad_norm": 0.39908862113952637,
      "learning_rate": 0.0003889497778376195,
      "loss": 3.0268,
      "step": 52350
    },
    {
      "epoch": 14.10120585701981,
      "grad_norm": 0.3887988030910492,
      "learning_rate": 0.0003887478120371617,
      "loss": 3.0341,
      "step": 52400
    },
    {
      "epoch": 14.114664082687339,
      "grad_norm": 0.38865944743156433,
      "learning_rate": 0.0003885458462367039,
      "loss": 3.038,
      "step": 52450
    },
    {
      "epoch": 14.128122308354866,
      "grad_norm": 0.37640053033828735,
      "learning_rate": 0.0003883438804362461,
      "loss": 3.0369,
      "step": 52500
    },
    {
      "epoch": 14.141580534022394,
      "grad_norm": 0.3813260793685913,
      "learning_rate": 0.0003881419146357883,
      "loss": 3.045,
      "step": 52550
    },
    {
      "epoch": 14.155038759689923,
      "grad_norm": 0.3812572658061981,
      "learning_rate": 0.0003879399488353305,
      "loss": 3.06,
      "step": 52600
    },
    {
      "epoch": 14.16849698535745,
      "grad_norm": 0.3978724777698517,
      "learning_rate": 0.0003877379830348727,
      "loss": 3.0308,
      "step": 52650
    },
    {
      "epoch": 14.18195521102498,
      "grad_norm": 0.40393364429473877,
      "learning_rate": 0.0003875360172344149,
      "loss": 3.0453,
      "step": 52700
    },
    {
      "epoch": 14.195413436692506,
      "grad_norm": 0.3880857229232788,
      "learning_rate": 0.0003873340514339571,
      "loss": 3.0465,
      "step": 52750
    },
    {
      "epoch": 14.208871662360034,
      "grad_norm": 0.39600270986557007,
      "learning_rate": 0.0003871320856334993,
      "loss": 3.0441,
      "step": 52800
    },
    {
      "epoch": 14.222329888027563,
      "grad_norm": 0.42481228709220886,
      "learning_rate": 0.00038693011983304156,
      "loss": 3.0545,
      "step": 52850
    },
    {
      "epoch": 14.23578811369509,
      "grad_norm": 0.39608439803123474,
      "learning_rate": 0.0003867281540325838,
      "loss": 3.0596,
      "step": 52900
    },
    {
      "epoch": 14.24924633936262,
      "grad_norm": 0.35995277762413025,
      "learning_rate": 0.000386526188232126,
      "loss": 3.0558,
      "step": 52950
    },
    {
      "epoch": 14.262704565030146,
      "grad_norm": 0.3757532835006714,
      "learning_rate": 0.00038632422243166825,
      "loss": 3.0686,
      "step": 53000
    },
    {
      "epoch": 14.262704565030146,
      "eval_accuracy": 0.3930424943927358,
      "eval_loss": 3.301429271697998,
      "eval_runtime": 53.8948,
      "eval_samples_per_second": 334.207,
      "eval_steps_per_second": 20.893,
      "step": 53000
    },
    {
      "epoch": 14.276162790697674,
      "grad_norm": 0.3709987998008728,
      "learning_rate": 0.00038612225663121045,
      "loss": 3.0512,
      "step": 53050
    },
    {
      "epoch": 14.289621016365203,
      "grad_norm": 0.40017008781433105,
      "learning_rate": 0.00038592029083075265,
      "loss": 3.0583,
      "step": 53100
    },
    {
      "epoch": 14.30307924203273,
      "grad_norm": 0.37422966957092285,
      "learning_rate": 0.00038571832503029484,
      "loss": 3.0723,
      "step": 53150
    },
    {
      "epoch": 14.31653746770026,
      "grad_norm": 0.3892733156681061,
      "learning_rate": 0.00038551635922983704,
      "loss": 3.0606,
      "step": 53200
    },
    {
      "epoch": 14.329995693367787,
      "grad_norm": 0.39466214179992676,
      "learning_rate": 0.0003853143934293793,
      "loss": 3.0575,
      "step": 53250
    },
    {
      "epoch": 14.343453919035314,
      "grad_norm": 0.3730536103248596,
      "learning_rate": 0.0003851124276289215,
      "loss": 3.0646,
      "step": 53300
    },
    {
      "epoch": 14.356912144702843,
      "grad_norm": 0.37154144048690796,
      "learning_rate": 0.0003849104618284637,
      "loss": 3.0496,
      "step": 53350
    },
    {
      "epoch": 14.37037037037037,
      "grad_norm": 0.3818061351776123,
      "learning_rate": 0.0003847084960280059,
      "loss": 3.0638,
      "step": 53400
    },
    {
      "epoch": 14.383828596037898,
      "grad_norm": 0.38460275530815125,
      "learning_rate": 0.0003845065302275481,
      "loss": 3.0647,
      "step": 53450
    },
    {
      "epoch": 14.397286821705427,
      "grad_norm": 0.37454620003700256,
      "learning_rate": 0.0003843045644270903,
      "loss": 3.0702,
      "step": 53500
    },
    {
      "epoch": 14.410745047372954,
      "grad_norm": 0.3800989091396332,
      "learning_rate": 0.0003841025986266325,
      "loss": 3.0693,
      "step": 53550
    },
    {
      "epoch": 14.424203273040483,
      "grad_norm": 0.40141618251800537,
      "learning_rate": 0.0003839006328261747,
      "loss": 3.0764,
      "step": 53600
    },
    {
      "epoch": 14.43766149870801,
      "grad_norm": 0.40033701062202454,
      "learning_rate": 0.0003836986670257169,
      "loss": 3.0703,
      "step": 53650
    },
    {
      "epoch": 14.451119724375538,
      "grad_norm": 0.37985333800315857,
      "learning_rate": 0.0003834967012252591,
      "loss": 3.0714,
      "step": 53700
    },
    {
      "epoch": 14.464577950043067,
      "grad_norm": 0.368487685918808,
      "learning_rate": 0.00038329473542480136,
      "loss": 3.0718,
      "step": 53750
    },
    {
      "epoch": 14.478036175710594,
      "grad_norm": 0.3814280331134796,
      "learning_rate": 0.0003830927696243436,
      "loss": 3.0695,
      "step": 53800
    },
    {
      "epoch": 14.491494401378123,
      "grad_norm": 0.3550291061401367,
      "learning_rate": 0.0003828908038238858,
      "loss": 3.0714,
      "step": 53850
    },
    {
      "epoch": 14.50495262704565,
      "grad_norm": 0.38511765003204346,
      "learning_rate": 0.000382688838023428,
      "loss": 3.0839,
      "step": 53900
    },
    {
      "epoch": 14.518410852713178,
      "grad_norm": 0.40868499875068665,
      "learning_rate": 0.00038248687222297025,
      "loss": 3.0847,
      "step": 53950
    },
    {
      "epoch": 14.531869078380707,
      "grad_norm": 0.41092634201049805,
      "learning_rate": 0.00038228490642251245,
      "loss": 3.0762,
      "step": 54000
    },
    {
      "epoch": 14.531869078380707,
      "eval_accuracy": 0.393471975412782,
      "eval_loss": 3.2951552867889404,
      "eval_runtime": 53.9287,
      "eval_samples_per_second": 333.997,
      "eval_steps_per_second": 20.879,
      "step": 54000
    },
    {
      "epoch": 14.545327304048234,
      "grad_norm": 0.37341392040252686,
      "learning_rate": 0.00038208294062205464,
      "loss": 3.0923,
      "step": 54050
    },
    {
      "epoch": 14.558785529715763,
      "grad_norm": 0.40408065915107727,
      "learning_rate": 0.00038188097482159684,
      "loss": 3.0862,
      "step": 54100
    },
    {
      "epoch": 14.57224375538329,
      "grad_norm": 0.3749300241470337,
      "learning_rate": 0.00038167900902113904,
      "loss": 3.0847,
      "step": 54150
    },
    {
      "epoch": 14.585701981050818,
      "grad_norm": 0.3992476463317871,
      "learning_rate": 0.0003814770432206813,
      "loss": 3.0899,
      "step": 54200
    },
    {
      "epoch": 14.599160206718347,
      "grad_norm": 0.41293609142303467,
      "learning_rate": 0.0003812750774202235,
      "loss": 3.0751,
      "step": 54250
    },
    {
      "epoch": 14.612618432385874,
      "grad_norm": 0.3896488547325134,
      "learning_rate": 0.0003810731116197657,
      "loss": 3.0844,
      "step": 54300
    },
    {
      "epoch": 14.626076658053403,
      "grad_norm": 0.3871552348136902,
      "learning_rate": 0.0003808711458193079,
      "loss": 3.0875,
      "step": 54350
    },
    {
      "epoch": 14.63953488372093,
      "grad_norm": 0.3741537034511566,
      "learning_rate": 0.00038066918001885007,
      "loss": 3.0883,
      "step": 54400
    },
    {
      "epoch": 14.652993109388458,
      "grad_norm": 0.40278348326683044,
      "learning_rate": 0.0003804672142183923,
      "loss": 3.0921,
      "step": 54450
    },
    {
      "epoch": 14.666451335055987,
      "grad_norm": 0.40198415517807007,
      "learning_rate": 0.0003802652484179345,
      "loss": 3.094,
      "step": 54500
    },
    {
      "epoch": 14.679909560723514,
      "grad_norm": 0.36237287521362305,
      "learning_rate": 0.0003800632826174767,
      "loss": 3.0858,
      "step": 54550
    },
    {
      "epoch": 14.693367786391041,
      "grad_norm": 0.38690119981765747,
      "learning_rate": 0.0003798613168170189,
      "loss": 3.0753,
      "step": 54600
    },
    {
      "epoch": 14.70682601205857,
      "grad_norm": 0.39163732528686523,
      "learning_rate": 0.0003796593510165611,
      "loss": 3.0878,
      "step": 54650
    },
    {
      "epoch": 14.720284237726098,
      "grad_norm": 0.38994866609573364,
      "learning_rate": 0.0003794573852161034,
      "loss": 3.0708,
      "step": 54700
    },
    {
      "epoch": 14.733742463393627,
      "grad_norm": 0.3824878931045532,
      "learning_rate": 0.0003792554194156456,
      "loss": 3.0862,
      "step": 54750
    },
    {
      "epoch": 14.747200689061154,
      "grad_norm": 0.3619995415210724,
      "learning_rate": 0.0003790534536151878,
      "loss": 3.0844,
      "step": 54800
    },
    {
      "epoch": 14.760658914728682,
      "grad_norm": 0.40019071102142334,
      "learning_rate": 0.00037885148781473005,
      "loss": 3.0864,
      "step": 54850
    },
    {
      "epoch": 14.77411714039621,
      "grad_norm": 0.36875399947166443,
      "learning_rate": 0.00037864952201427225,
      "loss": 3.0859,
      "step": 54900
    },
    {
      "epoch": 14.787575366063738,
      "grad_norm": 0.3560780882835388,
      "learning_rate": 0.00037844755621381444,
      "loss": 3.0997,
      "step": 54950
    },
    {
      "epoch": 14.801033591731267,
      "grad_norm": 0.42874544858932495,
      "learning_rate": 0.00037824559041335664,
      "loss": 3.0797,
      "step": 55000
    },
    {
      "epoch": 14.801033591731267,
      "eval_accuracy": 0.3938084547244651,
      "eval_loss": 3.2878448963165283,
      "eval_runtime": 53.7813,
      "eval_samples_per_second": 334.912,
      "eval_steps_per_second": 20.937,
      "step": 55000
    },
    {
      "epoch": 14.814491817398794,
      "grad_norm": 0.3775944709777832,
      "learning_rate": 0.00037804362461289884,
      "loss": 3.0984,
      "step": 55050
    },
    {
      "epoch": 14.827950043066322,
      "grad_norm": 0.3809267282485962,
      "learning_rate": 0.0003778416588124411,
      "loss": 3.0919,
      "step": 55100
    },
    {
      "epoch": 14.84140826873385,
      "grad_norm": 0.3942723274230957,
      "learning_rate": 0.0003776396930119833,
      "loss": 3.1,
      "step": 55150
    },
    {
      "epoch": 14.854866494401378,
      "grad_norm": 0.3672431707382202,
      "learning_rate": 0.0003774377272115255,
      "loss": 3.0864,
      "step": 55200
    },
    {
      "epoch": 14.868324720068905,
      "grad_norm": 0.38476642966270447,
      "learning_rate": 0.0003772357614110677,
      "loss": 3.0911,
      "step": 55250
    },
    {
      "epoch": 14.881782945736434,
      "grad_norm": 0.3824423849582672,
      "learning_rate": 0.00037703379561060987,
      "loss": 3.0828,
      "step": 55300
    },
    {
      "epoch": 14.895241171403962,
      "grad_norm": 0.352585107088089,
      "learning_rate": 0.0003768318298101521,
      "loss": 3.0994,
      "step": 55350
    },
    {
      "epoch": 14.90869939707149,
      "grad_norm": 0.4190617501735687,
      "learning_rate": 0.0003766298640096943,
      "loss": 3.0963,
      "step": 55400
    },
    {
      "epoch": 14.922157622739018,
      "grad_norm": 0.3812563419342041,
      "learning_rate": 0.0003764278982092365,
      "loss": 3.0994,
      "step": 55450
    },
    {
      "epoch": 14.935615848406545,
      "grad_norm": 0.37324008345603943,
      "learning_rate": 0.0003762259324087787,
      "loss": 3.0875,
      "step": 55500
    },
    {
      "epoch": 14.949074074074074,
      "grad_norm": 0.3767263889312744,
      "learning_rate": 0.0003760239666083209,
      "loss": 3.0994,
      "step": 55550
    },
    {
      "epoch": 14.962532299741602,
      "grad_norm": 0.39034217596054077,
      "learning_rate": 0.0003758220008078632,
      "loss": 3.103,
      "step": 55600
    },
    {
      "epoch": 14.97599052540913,
      "grad_norm": 0.4098099172115326,
      "learning_rate": 0.0003756200350074054,
      "loss": 3.0952,
      "step": 55650
    },
    {
      "epoch": 14.989448751076658,
      "grad_norm": 0.36337199807167053,
      "learning_rate": 0.0003754180692069476,
      "loss": 3.0987,
      "step": 55700
    },
    {
      "epoch": 15.002691645133506,
      "grad_norm": 0.41866105794906616,
      "learning_rate": 0.0003752161034064898,
      "loss": 3.0784,
      "step": 55750
    },
    {
      "epoch": 15.016149870801033,
      "grad_norm": 0.3725742995738983,
      "learning_rate": 0.00037501413760603205,
      "loss": 3.0073,
      "step": 55800
    },
    {
      "epoch": 15.02960809646856,
      "grad_norm": 0.37522321939468384,
      "learning_rate": 0.00037481217180557425,
      "loss": 3.0118,
      "step": 55850
    },
    {
      "epoch": 15.04306632213609,
      "grad_norm": 0.39416176080703735,
      "learning_rate": 0.00037461020600511644,
      "loss": 3.0055,
      "step": 55900
    },
    {
      "epoch": 15.056524547803617,
      "grad_norm": 0.3889634311199188,
      "learning_rate": 0.00037440824020465864,
      "loss": 3.015,
      "step": 55950
    },
    {
      "epoch": 15.069982773471146,
      "grad_norm": 0.4061291217803955,
      "learning_rate": 0.00037420627440420083,
      "loss": 3.0089,
      "step": 56000
    },
    {
      "epoch": 15.069982773471146,
      "eval_accuracy": 0.39340830835542123,
      "eval_loss": 3.298887252807617,
      "eval_runtime": 53.7996,
      "eval_samples_per_second": 334.798,
      "eval_steps_per_second": 20.93,
      "step": 56000
    },
    {
      "epoch": 15.083440999138674,
      "grad_norm": 0.3685813546180725,
      "learning_rate": 0.0003740043086037431,
      "loss": 3.0137,
      "step": 56050
    },
    {
      "epoch": 15.0968992248062,
      "grad_norm": 0.3749956786632538,
      "learning_rate": 0.0003738023428032853,
      "loss": 3.0182,
      "step": 56100
    },
    {
      "epoch": 15.11035745047373,
      "grad_norm": 0.3896404802799225,
      "learning_rate": 0.0003736003770028275,
      "loss": 3.0167,
      "step": 56150
    },
    {
      "epoch": 15.123815676141257,
      "grad_norm": 0.40831461548805237,
      "learning_rate": 0.00037339841120236967,
      "loss": 3.0115,
      "step": 56200
    },
    {
      "epoch": 15.137273901808786,
      "grad_norm": 0.36938607692718506,
      "learning_rate": 0.00037319644540191187,
      "loss": 3.0303,
      "step": 56250
    },
    {
      "epoch": 15.150732127476314,
      "grad_norm": 0.4110319912433624,
      "learning_rate": 0.0003729944796014541,
      "loss": 3.0322,
      "step": 56300
    },
    {
      "epoch": 15.164190353143841,
      "grad_norm": 0.383331835269928,
      "learning_rate": 0.0003727925138009963,
      "loss": 3.0447,
      "step": 56350
    },
    {
      "epoch": 15.17764857881137,
      "grad_norm": 0.371985524892807,
      "learning_rate": 0.0003725905480005385,
      "loss": 3.0273,
      "step": 56400
    },
    {
      "epoch": 15.191106804478897,
      "grad_norm": 0.3929747939109802,
      "learning_rate": 0.0003723885822000807,
      "loss": 3.0346,
      "step": 56450
    },
    {
      "epoch": 15.204565030146426,
      "grad_norm": 0.3700959086418152,
      "learning_rate": 0.000372186616399623,
      "loss": 3.0414,
      "step": 56500
    },
    {
      "epoch": 15.218023255813954,
      "grad_norm": 0.3915750980377197,
      "learning_rate": 0.0003719846505991652,
      "loss": 3.0328,
      "step": 56550
    },
    {
      "epoch": 15.231481481481481,
      "grad_norm": 0.39838945865631104,
      "learning_rate": 0.0003717826847987074,
      "loss": 3.0331,
      "step": 56600
    },
    {
      "epoch": 15.24493970714901,
      "grad_norm": 0.3869384825229645,
      "learning_rate": 0.0003715807189982496,
      "loss": 3.0534,
      "step": 56650
    },
    {
      "epoch": 15.258397932816537,
      "grad_norm": 0.394001305103302,
      "learning_rate": 0.00037137875319779185,
      "loss": 3.0312,
      "step": 56700
    },
    {
      "epoch": 15.271856158484065,
      "grad_norm": 0.4037325084209442,
      "learning_rate": 0.00037117678739733405,
      "loss": 3.051,
      "step": 56750
    },
    {
      "epoch": 15.285314384151594,
      "grad_norm": 0.4047858715057373,
      "learning_rate": 0.00037097482159687624,
      "loss": 3.0406,
      "step": 56800
    },
    {
      "epoch": 15.298772609819121,
      "grad_norm": 0.39127621054649353,
      "learning_rate": 0.00037077285579641844,
      "loss": 3.0564,
      "step": 56850
    },
    {
      "epoch": 15.31223083548665,
      "grad_norm": 0.4089362323284149,
      "learning_rate": 0.00037057088999596063,
      "loss": 3.0495,
      "step": 56900
    },
    {
      "epoch": 15.325689061154177,
      "grad_norm": 0.4318329095840454,
      "learning_rate": 0.0003703689241955029,
      "loss": 3.0614,
      "step": 56950
    },
    {
      "epoch": 15.339147286821705,
      "grad_norm": 0.3942766487598419,
      "learning_rate": 0.0003701669583950451,
      "loss": 3.0535,
      "step": 57000
    },
    {
      "epoch": 15.339147286821705,
      "eval_accuracy": 0.39346882465397065,
      "eval_loss": 3.296555280685425,
      "eval_runtime": 53.8696,
      "eval_samples_per_second": 334.363,
      "eval_steps_per_second": 20.902,
      "step": 57000
    },
    {
      "epoch": 15.352605512489234,
      "grad_norm": 0.45541346073150635,
      "learning_rate": 0.0003699649925945873,
      "loss": 3.0515,
      "step": 57050
    },
    {
      "epoch": 15.366063738156761,
      "grad_norm": 0.40245404839515686,
      "learning_rate": 0.0003697630267941295,
      "loss": 3.0566,
      "step": 57100
    },
    {
      "epoch": 15.37952196382429,
      "grad_norm": 0.3851865231990814,
      "learning_rate": 0.00036956106099367167,
      "loss": 3.0555,
      "step": 57150
    },
    {
      "epoch": 15.392980189491817,
      "grad_norm": 0.3949066996574402,
      "learning_rate": 0.0003693590951932139,
      "loss": 3.0416,
      "step": 57200
    },
    {
      "epoch": 15.406438415159345,
      "grad_norm": 0.38792628049850464,
      "learning_rate": 0.0003691571293927561,
      "loss": 3.0546,
      "step": 57250
    },
    {
      "epoch": 15.419896640826874,
      "grad_norm": 0.41789019107818604,
      "learning_rate": 0.0003689551635922983,
      "loss": 3.0661,
      "step": 57300
    },
    {
      "epoch": 15.433354866494401,
      "grad_norm": 0.38184309005737305,
      "learning_rate": 0.00036875319779184056,
      "loss": 3.0535,
      "step": 57350
    },
    {
      "epoch": 15.44681309216193,
      "grad_norm": 0.4123072326183319,
      "learning_rate": 0.0003685512319913828,
      "loss": 3.0622,
      "step": 57400
    },
    {
      "epoch": 15.460271317829458,
      "grad_norm": 0.38529086112976074,
      "learning_rate": 0.000368349266190925,
      "loss": 3.0553,
      "step": 57450
    },
    {
      "epoch": 15.473729543496985,
      "grad_norm": 0.37527531385421753,
      "learning_rate": 0.0003681473003904672,
      "loss": 3.0544,
      "step": 57500
    },
    {
      "epoch": 15.487187769164514,
      "grad_norm": 0.38482967019081116,
      "learning_rate": 0.0003679453345900094,
      "loss": 3.063,
      "step": 57550
    },
    {
      "epoch": 15.500645994832041,
      "grad_norm": 0.3870854377746582,
      "learning_rate": 0.0003677433687895516,
      "loss": 3.0678,
      "step": 57600
    },
    {
      "epoch": 15.514104220499568,
      "grad_norm": 0.4207375645637512,
      "learning_rate": 0.00036754140298909385,
      "loss": 3.0578,
      "step": 57650
    },
    {
      "epoch": 15.527562446167098,
      "grad_norm": 0.38036173582077026,
      "learning_rate": 0.00036733943718863604,
      "loss": 3.0655,
      "step": 57700
    },
    {
      "epoch": 15.541020671834625,
      "grad_norm": 0.37135618925094604,
      "learning_rate": 0.00036713747138817824,
      "loss": 3.0561,
      "step": 57750
    },
    {
      "epoch": 15.554478897502154,
      "grad_norm": 0.4144805073738098,
      "learning_rate": 0.00036693550558772044,
      "loss": 3.0701,
      "step": 57800
    },
    {
      "epoch": 15.567937123169681,
      "grad_norm": 0.3989149332046509,
      "learning_rate": 0.00036673353978726263,
      "loss": 3.0672,
      "step": 57850
    },
    {
      "epoch": 15.581395348837209,
      "grad_norm": 0.4064973294734955,
      "learning_rate": 0.0003665315739868049,
      "loss": 3.0692,
      "step": 57900
    },
    {
      "epoch": 15.594853574504738,
      "grad_norm": 0.3864794373512268,
      "learning_rate": 0.0003663296081863471,
      "loss": 3.0669,
      "step": 57950
    },
    {
      "epoch": 15.608311800172265,
      "grad_norm": 0.3883097767829895,
      "learning_rate": 0.0003661276423858893,
      "loss": 3.0641,
      "step": 58000
    },
    {
      "epoch": 15.608311800172265,
      "eval_accuracy": 0.393839636372012,
      "eval_loss": 3.2892065048217773,
      "eval_runtime": 53.801,
      "eval_samples_per_second": 334.789,
      "eval_steps_per_second": 20.929,
      "step": 58000
    },
    {
      "epoch": 15.621770025839794,
      "grad_norm": 0.4003264605998993,
      "learning_rate": 0.00036592567658543147,
      "loss": 3.0776,
      "step": 58050
    },
    {
      "epoch": 15.635228251507321,
      "grad_norm": 0.40963396430015564,
      "learning_rate": 0.00036572371078497367,
      "loss": 3.0615,
      "step": 58100
    },
    {
      "epoch": 15.648686477174849,
      "grad_norm": 0.3997986912727356,
      "learning_rate": 0.0003655217449845159,
      "loss": 3.0714,
      "step": 58150
    },
    {
      "epoch": 15.662144702842378,
      "grad_norm": 0.40300729870796204,
      "learning_rate": 0.0003653197791840581,
      "loss": 3.0714,
      "step": 58200
    },
    {
      "epoch": 15.675602928509905,
      "grad_norm": 0.4134303033351898,
      "learning_rate": 0.00036511781338360036,
      "loss": 3.0696,
      "step": 58250
    },
    {
      "epoch": 15.689061154177434,
      "grad_norm": 0.36091458797454834,
      "learning_rate": 0.00036491584758314256,
      "loss": 3.0863,
      "step": 58300
    },
    {
      "epoch": 15.702519379844961,
      "grad_norm": 0.380769819021225,
      "learning_rate": 0.0003647138817826848,
      "loss": 3.0681,
      "step": 58350
    },
    {
      "epoch": 15.715977605512489,
      "grad_norm": 0.3838481605052948,
      "learning_rate": 0.000364511915982227,
      "loss": 3.0671,
      "step": 58400
    },
    {
      "epoch": 15.729435831180018,
      "grad_norm": 0.4186742901802063,
      "learning_rate": 0.0003643099501817692,
      "loss": 3.0736,
      "step": 58450
    },
    {
      "epoch": 15.742894056847545,
      "grad_norm": 0.4187677800655365,
      "learning_rate": 0.0003641079843813114,
      "loss": 3.0783,
      "step": 58500
    },
    {
      "epoch": 15.756352282515074,
      "grad_norm": 0.3893994987010956,
      "learning_rate": 0.0003639060185808536,
      "loss": 3.074,
      "step": 58550
    },
    {
      "epoch": 15.769810508182601,
      "grad_norm": 0.41808056831359863,
      "learning_rate": 0.00036370405278039584,
      "loss": 3.0731,
      "step": 58600
    },
    {
      "epoch": 15.783268733850129,
      "grad_norm": 0.38791757822036743,
      "learning_rate": 0.00036350208697993804,
      "loss": 3.0766,
      "step": 58650
    },
    {
      "epoch": 15.796726959517658,
      "grad_norm": 0.3836047649383545,
      "learning_rate": 0.00036330012117948024,
      "loss": 3.0732,
      "step": 58700
    },
    {
      "epoch": 15.810185185185185,
      "grad_norm": 0.3814838230609894,
      "learning_rate": 0.00036309815537902243,
      "loss": 3.086,
      "step": 58750
    },
    {
      "epoch": 15.823643410852712,
      "grad_norm": 0.3762393891811371,
      "learning_rate": 0.0003628961895785647,
      "loss": 3.0793,
      "step": 58800
    },
    {
      "epoch": 15.837101636520241,
      "grad_norm": 0.4067472517490387,
      "learning_rate": 0.0003626942237781069,
      "loss": 3.084,
      "step": 58850
    },
    {
      "epoch": 15.850559862187769,
      "grad_norm": 0.3889180123806,
      "learning_rate": 0.0003624922579776491,
      "loss": 3.0767,
      "step": 58900
    },
    {
      "epoch": 15.864018087855298,
      "grad_norm": 0.36162832379341125,
      "learning_rate": 0.00036229029217719127,
      "loss": 3.0917,
      "step": 58950
    },
    {
      "epoch": 15.877476313522825,
      "grad_norm": 0.41509488224983215,
      "learning_rate": 0.00036208832637673347,
      "loss": 3.082,
      "step": 59000
    },
    {
      "epoch": 15.877476313522825,
      "eval_accuracy": 0.39411407832916784,
      "eval_loss": 3.2861170768737793,
      "eval_runtime": 53.7782,
      "eval_samples_per_second": 334.931,
      "eval_steps_per_second": 20.938,
      "step": 59000
    },
    {
      "epoch": 15.890934539190352,
      "grad_norm": 0.38733652234077454,
      "learning_rate": 0.0003618863605762757,
      "loss": 3.0888,
      "step": 59050
    },
    {
      "epoch": 15.904392764857882,
      "grad_norm": 0.3730623126029968,
      "learning_rate": 0.0003616843947758179,
      "loss": 3.0815,
      "step": 59100
    },
    {
      "epoch": 15.917850990525409,
      "grad_norm": 0.4350191056728363,
      "learning_rate": 0.00036148242897536016,
      "loss": 3.0842,
      "step": 59150
    },
    {
      "epoch": 15.931309216192938,
      "grad_norm": 0.3823108971118927,
      "learning_rate": 0.00036128046317490236,
      "loss": 3.0824,
      "step": 59200
    },
    {
      "epoch": 15.944767441860465,
      "grad_norm": 0.3937095105648041,
      "learning_rate": 0.0003610784973744446,
      "loss": 3.0881,
      "step": 59250
    },
    {
      "epoch": 15.958225667527993,
      "grad_norm": 0.43180474638938904,
      "learning_rate": 0.0003608765315739868,
      "loss": 3.0817,
      "step": 59300
    },
    {
      "epoch": 15.971683893195522,
      "grad_norm": 0.37747758626937866,
      "learning_rate": 0.000360674565773529,
      "loss": 3.0744,
      "step": 59350
    },
    {
      "epoch": 15.985142118863049,
      "grad_norm": 0.38189202547073364,
      "learning_rate": 0.0003604725999730712,
      "loss": 3.0809,
      "step": 59400
    },
    {
      "epoch": 15.998600344530576,
      "grad_norm": 0.38622957468032837,
      "learning_rate": 0.0003602706341726134,
      "loss": 3.0887,
      "step": 59450
    },
    {
      "epoch": 16.011843238587424,
      "grad_norm": 0.39193543791770935,
      "learning_rate": 0.00036006866837215564,
      "loss": 3.0044,
      "step": 59500
    },
    {
      "epoch": 16.02530146425495,
      "grad_norm": 0.36499685049057007,
      "learning_rate": 0.00035986670257169784,
      "loss": 2.9916,
      "step": 59550
    },
    {
      "epoch": 16.03875968992248,
      "grad_norm": 0.4056093096733093,
      "learning_rate": 0.00035966473677124004,
      "loss": 2.9866,
      "step": 59600
    },
    {
      "epoch": 16.05221791559001,
      "grad_norm": 0.3871045708656311,
      "learning_rate": 0.00035946277097078223,
      "loss": 2.999,
      "step": 59650
    },
    {
      "epoch": 16.065676141257537,
      "grad_norm": 0.40806224942207336,
      "learning_rate": 0.00035926080517032443,
      "loss": 3.0065,
      "step": 59700
    },
    {
      "epoch": 16.079134366925064,
      "grad_norm": 0.3846936523914337,
      "learning_rate": 0.0003590588393698667,
      "loss": 3.0043,
      "step": 59750
    },
    {
      "epoch": 16.09259259259259,
      "grad_norm": 0.41798853874206543,
      "learning_rate": 0.0003588568735694089,
      "loss": 3.005,
      "step": 59800
    },
    {
      "epoch": 16.10605081826012,
      "grad_norm": 0.38085705041885376,
      "learning_rate": 0.00035865490776895107,
      "loss": 2.99,
      "step": 59850
    },
    {
      "epoch": 16.11950904392765,
      "grad_norm": 0.37874123454093933,
      "learning_rate": 0.00035845294196849327,
      "loss": 3.0201,
      "step": 59900
    },
    {
      "epoch": 16.132967269595177,
      "grad_norm": 0.38884493708610535,
      "learning_rate": 0.00035825097616803546,
      "loss": 2.9971,
      "step": 59950
    },
    {
      "epoch": 16.146425495262704,
      "grad_norm": 0.39228013157844543,
      "learning_rate": 0.0003580490103675777,
      "loss": 3.0178,
      "step": 60000
    },
    {
      "epoch": 16.146425495262704,
      "eval_accuracy": 0.3935985489995146,
      "eval_loss": 3.300384283065796,
      "eval_runtime": 53.764,
      "eval_samples_per_second": 335.02,
      "eval_steps_per_second": 20.943,
      "step": 60000
    },
    {
      "epoch": 16.15988372093023,
      "grad_norm": 0.37571796774864197,
      "learning_rate": 0.00035784704456711996,
      "loss": 3.0206,
      "step": 60050
    },
    {
      "epoch": 16.17334194659776,
      "grad_norm": 0.3760213255882263,
      "learning_rate": 0.00035764507876666216,
      "loss": 3.024,
      "step": 60100
    },
    {
      "epoch": 16.18680017226529,
      "grad_norm": 0.4139486849308014,
      "learning_rate": 0.00035744311296620436,
      "loss": 3.0225,
      "step": 60150
    },
    {
      "epoch": 16.200258397932817,
      "grad_norm": 0.41361162066459656,
      "learning_rate": 0.0003572411471657466,
      "loss": 3.0177,
      "step": 60200
    },
    {
      "epoch": 16.213716623600344,
      "grad_norm": 0.4155104160308838,
      "learning_rate": 0.0003570391813652888,
      "loss": 3.0305,
      "step": 60250
    },
    {
      "epoch": 16.227174849267872,
      "grad_norm": 0.4072454869747162,
      "learning_rate": 0.000356837215564831,
      "loss": 3.0319,
      "step": 60300
    },
    {
      "epoch": 16.2406330749354,
      "grad_norm": 0.3964226543903351,
      "learning_rate": 0.0003566352497643732,
      "loss": 3.0271,
      "step": 60350
    },
    {
      "epoch": 16.25409130060293,
      "grad_norm": 0.40195783972740173,
      "learning_rate": 0.0003564332839639154,
      "loss": 3.0424,
      "step": 60400
    },
    {
      "epoch": 16.267549526270457,
      "grad_norm": 0.39406704902648926,
      "learning_rate": 0.00035623131816345764,
      "loss": 3.0325,
      "step": 60450
    },
    {
      "epoch": 16.281007751937985,
      "grad_norm": 0.3998791575431824,
      "learning_rate": 0.00035602935236299984,
      "loss": 3.0188,
      "step": 60500
    },
    {
      "epoch": 16.294465977605512,
      "grad_norm": 0.4291344881057739,
      "learning_rate": 0.00035582738656254203,
      "loss": 3.0384,
      "step": 60550
    },
    {
      "epoch": 16.30792420327304,
      "grad_norm": 0.42071303725242615,
      "learning_rate": 0.00035562542076208423,
      "loss": 3.04,
      "step": 60600
    },
    {
      "epoch": 16.32138242894057,
      "grad_norm": 0.40110665559768677,
      "learning_rate": 0.0003554234549616264,
      "loss": 3.0441,
      "step": 60650
    },
    {
      "epoch": 16.334840654608097,
      "grad_norm": 0.4020436704158783,
      "learning_rate": 0.0003552214891611687,
      "loss": 3.035,
      "step": 60700
    },
    {
      "epoch": 16.348298880275625,
      "grad_norm": 0.39630720019340515,
      "learning_rate": 0.00035501952336071087,
      "loss": 3.0418,
      "step": 60750
    },
    {
      "epoch": 16.361757105943152,
      "grad_norm": 0.39753347635269165,
      "learning_rate": 0.00035481755756025307,
      "loss": 3.0448,
      "step": 60800
    },
    {
      "epoch": 16.37521533161068,
      "grad_norm": 0.39796334505081177,
      "learning_rate": 0.00035461559175979526,
      "loss": 3.0384,
      "step": 60850
    },
    {
      "epoch": 16.38867355727821,
      "grad_norm": 0.4023888111114502,
      "learning_rate": 0.0003544136259593375,
      "loss": 3.0512,
      "step": 60900
    },
    {
      "epoch": 16.402131782945737,
      "grad_norm": 0.3885258436203003,
      "learning_rate": 0.00035421166015887977,
      "loss": 3.0415,
      "step": 60950
    },
    {
      "epoch": 16.415590008613265,
      "grad_norm": 0.39868536591529846,
      "learning_rate": 0.00035400969435842196,
      "loss": 3.0405,
      "step": 61000
    },
    {
      "epoch": 16.415590008613265,
      "eval_accuracy": 0.39402955107553866,
      "eval_loss": 3.2945430278778076,
      "eval_runtime": 53.9312,
      "eval_samples_per_second": 333.981,
      "eval_steps_per_second": 20.878,
      "step": 61000
    },
    {
      "epoch": 16.429048234280792,
      "grad_norm": 0.4093899130821228,
      "learning_rate": 0.00035380772855796416,
      "loss": 3.0436,
      "step": 61050
    },
    {
      "epoch": 16.44250645994832,
      "grad_norm": 0.44660383462905884,
      "learning_rate": 0.0003536057627575064,
      "loss": 3.041,
      "step": 61100
    },
    {
      "epoch": 16.45596468561585,
      "grad_norm": 0.39885213971138,
      "learning_rate": 0.0003534037969570486,
      "loss": 3.05,
      "step": 61150
    },
    {
      "epoch": 16.469422911283377,
      "grad_norm": 0.3952399492263794,
      "learning_rate": 0.0003532018311565908,
      "loss": 3.0525,
      "step": 61200
    },
    {
      "epoch": 16.482881136950905,
      "grad_norm": 0.3856141269207001,
      "learning_rate": 0.000352999865356133,
      "loss": 3.0495,
      "step": 61250
    },
    {
      "epoch": 16.496339362618432,
      "grad_norm": 0.4019649028778076,
      "learning_rate": 0.0003527978995556752,
      "loss": 3.0524,
      "step": 61300
    },
    {
      "epoch": 16.50979758828596,
      "grad_norm": 0.40786245465278625,
      "learning_rate": 0.00035259593375521744,
      "loss": 3.0536,
      "step": 61350
    },
    {
      "epoch": 16.52325581395349,
      "grad_norm": 0.39933323860168457,
      "learning_rate": 0.00035239396795475964,
      "loss": 3.0513,
      "step": 61400
    },
    {
      "epoch": 16.536714039621017,
      "grad_norm": 0.4114389717578888,
      "learning_rate": 0.00035219200215430183,
      "loss": 3.0541,
      "step": 61450
    },
    {
      "epoch": 16.550172265288545,
      "grad_norm": 0.378556489944458,
      "learning_rate": 0.00035199003635384403,
      "loss": 3.0464,
      "step": 61500
    },
    {
      "epoch": 16.563630490956072,
      "grad_norm": 0.3831023573875427,
      "learning_rate": 0.0003517880705533862,
      "loss": 3.0496,
      "step": 61550
    },
    {
      "epoch": 16.5770887166236,
      "grad_norm": 0.41064491868019104,
      "learning_rate": 0.0003515861047529285,
      "loss": 3.0466,
      "step": 61600
    },
    {
      "epoch": 16.590546942291127,
      "grad_norm": 0.3654628098011017,
      "learning_rate": 0.0003513841389524707,
      "loss": 3.0648,
      "step": 61650
    },
    {
      "epoch": 16.604005167958658,
      "grad_norm": 0.4042568504810333,
      "learning_rate": 0.00035118217315201287,
      "loss": 3.046,
      "step": 61700
    },
    {
      "epoch": 16.617463393626185,
      "grad_norm": 0.3990447223186493,
      "learning_rate": 0.00035098020735155507,
      "loss": 3.0588,
      "step": 61750
    },
    {
      "epoch": 16.630921619293712,
      "grad_norm": 0.3792515695095062,
      "learning_rate": 0.00035077824155109737,
      "loss": 3.0543,
      "step": 61800
    },
    {
      "epoch": 16.64437984496124,
      "grad_norm": 0.40316513180732727,
      "learning_rate": 0.00035057627575063957,
      "loss": 3.0559,
      "step": 61850
    },
    {
      "epoch": 16.657838070628767,
      "grad_norm": 0.4269405007362366,
      "learning_rate": 0.00035037430995018176,
      "loss": 3.0573,
      "step": 61900
    },
    {
      "epoch": 16.671296296296298,
      "grad_norm": 0.3970986008644104,
      "learning_rate": 0.00035017234414972396,
      "loss": 3.0569,
      "step": 61950
    },
    {
      "epoch": 16.684754521963825,
      "grad_norm": 0.40799281001091003,
      "learning_rate": 0.00034997037834926615,
      "loss": 3.0625,
      "step": 62000
    },
    {
      "epoch": 16.684754521963825,
      "eval_accuracy": 0.3946576385475567,
      "eval_loss": 3.286635637283325,
      "eval_runtime": 53.7597,
      "eval_samples_per_second": 335.047,
      "eval_steps_per_second": 20.945,
      "step": 62000
    },
    {
      "epoch": 16.698212747631352,
      "grad_norm": 0.43438488245010376,
      "learning_rate": 0.0003497684125488084,
      "loss": 3.0667,
      "step": 62050
    },
    {
      "epoch": 16.71167097329888,
      "grad_norm": 0.385447233915329,
      "learning_rate": 0.0003495664467483506,
      "loss": 3.0618,
      "step": 62100
    },
    {
      "epoch": 16.725129198966407,
      "grad_norm": 0.4281361699104309,
      "learning_rate": 0.0003493644809478928,
      "loss": 3.0627,
      "step": 62150
    },
    {
      "epoch": 16.738587424633938,
      "grad_norm": 0.41003167629241943,
      "learning_rate": 0.000349162515147435,
      "loss": 3.0556,
      "step": 62200
    },
    {
      "epoch": 16.752045650301465,
      "grad_norm": 0.40472331643104553,
      "learning_rate": 0.0003489605493469772,
      "loss": 3.0607,
      "step": 62250
    },
    {
      "epoch": 16.765503875968992,
      "grad_norm": 0.39419615268707275,
      "learning_rate": 0.00034875858354651944,
      "loss": 3.0669,
      "step": 62300
    },
    {
      "epoch": 16.77896210163652,
      "grad_norm": 0.40481939911842346,
      "learning_rate": 0.00034855661774606164,
      "loss": 3.0657,
      "step": 62350
    },
    {
      "epoch": 16.792420327304047,
      "grad_norm": 0.4163655936717987,
      "learning_rate": 0.00034835465194560383,
      "loss": 3.0697,
      "step": 62400
    },
    {
      "epoch": 16.805878552971578,
      "grad_norm": 0.3779263496398926,
      "learning_rate": 0.00034815268614514603,
      "loss": 3.0607,
      "step": 62450
    },
    {
      "epoch": 16.819336778639105,
      "grad_norm": 0.3963411748409271,
      "learning_rate": 0.0003479507203446882,
      "loss": 3.0616,
      "step": 62500
    },
    {
      "epoch": 16.832795004306632,
      "grad_norm": 0.3897510766983032,
      "learning_rate": 0.0003477487545442305,
      "loss": 3.0729,
      "step": 62550
    },
    {
      "epoch": 16.84625322997416,
      "grad_norm": 0.3864540159702301,
      "learning_rate": 0.00034754678874377267,
      "loss": 3.0724,
      "step": 62600
    },
    {
      "epoch": 16.859711455641687,
      "grad_norm": 0.42142173647880554,
      "learning_rate": 0.00034734482294331487,
      "loss": 3.0703,
      "step": 62650
    },
    {
      "epoch": 16.873169681309218,
      "grad_norm": 0.3723422884941101,
      "learning_rate": 0.00034714285714285717,
      "loss": 3.0714,
      "step": 62700
    },
    {
      "epoch": 16.886627906976745,
      "grad_norm": 0.39334335923194885,
      "learning_rate": 0.00034694089134239937,
      "loss": 3.0651,
      "step": 62750
    },
    {
      "epoch": 16.900086132644272,
      "grad_norm": 0.408385306596756,
      "learning_rate": 0.00034673892554194156,
      "loss": 3.0698,
      "step": 62800
    },
    {
      "epoch": 16.9135443583118,
      "grad_norm": 0.40279293060302734,
      "learning_rate": 0.00034653695974148376,
      "loss": 3.0715,
      "step": 62850
    },
    {
      "epoch": 16.927002583979327,
      "grad_norm": 0.39347708225250244,
      "learning_rate": 0.00034633499394102595,
      "loss": 3.0641,
      "step": 62900
    },
    {
      "epoch": 16.940460809646858,
      "grad_norm": 0.3958011269569397,
      "learning_rate": 0.0003461330281405682,
      "loss": 3.0754,
      "step": 62950
    },
    {
      "epoch": 16.953919035314385,
      "grad_norm": 0.3987782895565033,
      "learning_rate": 0.0003459310623401104,
      "loss": 3.0662,
      "step": 63000
    },
    {
      "epoch": 16.953919035314385,
      "eval_accuracy": 0.39508483798363603,
      "eval_loss": 3.2805721759796143,
      "eval_runtime": 53.7065,
      "eval_samples_per_second": 335.378,
      "eval_steps_per_second": 20.966,
      "step": 63000
    },
    {
      "epoch": 16.967377260981912,
      "grad_norm": 0.4031330645084381,
      "learning_rate": 0.0003457290965396526,
      "loss": 3.0679,
      "step": 63050
    },
    {
      "epoch": 16.98083548664944,
      "grad_norm": 0.410900741815567,
      "learning_rate": 0.0003455271307391948,
      "loss": 3.072,
      "step": 63100
    },
    {
      "epoch": 16.994293712316967,
      "grad_norm": 0.3965557813644409,
      "learning_rate": 0.000345325164938737,
      "loss": 3.0664,
      "step": 63150
    },
    {
      "epoch": 17.007536606373815,
      "grad_norm": 0.41293439269065857,
      "learning_rate": 0.00034512319913827924,
      "loss": 3.013,
      "step": 63200
    },
    {
      "epoch": 17.020994832041342,
      "grad_norm": 0.414392352104187,
      "learning_rate": 0.00034492123333782144,
      "loss": 2.9733,
      "step": 63250
    },
    {
      "epoch": 17.034453057708873,
      "grad_norm": 0.4076540470123291,
      "learning_rate": 0.00034471926753736363,
      "loss": 2.9819,
      "step": 63300
    },
    {
      "epoch": 17.0479112833764,
      "grad_norm": 0.4018961489200592,
      "learning_rate": 0.00034451730173690583,
      "loss": 2.9865,
      "step": 63350
    },
    {
      "epoch": 17.061369509043928,
      "grad_norm": 0.4264177978038788,
      "learning_rate": 0.000344315335936448,
      "loss": 2.9894,
      "step": 63400
    },
    {
      "epoch": 17.074827734711455,
      "grad_norm": 0.43880993127822876,
      "learning_rate": 0.0003441133701359903,
      "loss": 2.997,
      "step": 63450
    },
    {
      "epoch": 17.088285960378983,
      "grad_norm": 0.4118068218231201,
      "learning_rate": 0.00034391140433553247,
      "loss": 2.9963,
      "step": 63500
    },
    {
      "epoch": 17.101744186046513,
      "grad_norm": 0.37996986508369446,
      "learning_rate": 0.00034370943853507467,
      "loss": 2.9818,
      "step": 63550
    },
    {
      "epoch": 17.11520241171404,
      "grad_norm": 0.41833794116973877,
      "learning_rate": 0.0003435074727346169,
      "loss": 3.0017,
      "step": 63600
    },
    {
      "epoch": 17.128660637381568,
      "grad_norm": 0.39799895882606506,
      "learning_rate": 0.00034330550693415917,
      "loss": 2.9962,
      "step": 63650
    },
    {
      "epoch": 17.142118863049095,
      "grad_norm": 0.41376993060112,
      "learning_rate": 0.00034310354113370136,
      "loss": 3.0022,
      "step": 63700
    },
    {
      "epoch": 17.155577088716623,
      "grad_norm": 0.37583568692207336,
      "learning_rate": 0.00034290157533324356,
      "loss": 3.0003,
      "step": 63750
    },
    {
      "epoch": 17.16903531438415,
      "grad_norm": 0.4121802747249603,
      "learning_rate": 0.00034269960953278576,
      "loss": 3.0103,
      "step": 63800
    },
    {
      "epoch": 17.18249354005168,
      "grad_norm": 0.41035139560699463,
      "learning_rate": 0.00034249764373232795,
      "loss": 3.0181,
      "step": 63850
    },
    {
      "epoch": 17.195951765719208,
      "grad_norm": 0.4261062741279602,
      "learning_rate": 0.0003422956779318702,
      "loss": 3.0084,
      "step": 63900
    },
    {
      "epoch": 17.209409991386735,
      "grad_norm": 0.40924733877182007,
      "learning_rate": 0.0003420937121314124,
      "loss": 2.9905,
      "step": 63950
    },
    {
      "epoch": 17.222868217054263,
      "grad_norm": 0.40608179569244385,
      "learning_rate": 0.0003418917463309546,
      "loss": 3.0215,
      "step": 64000
    },
    {
      "epoch": 17.222868217054263,
      "eval_accuracy": 0.39425086472032345,
      "eval_loss": 3.298827886581421,
      "eval_runtime": 53.7996,
      "eval_samples_per_second": 334.798,
      "eval_steps_per_second": 20.93,
      "step": 64000
    },
    {
      "epoch": 17.23632644272179,
      "grad_norm": 0.39848390221595764,
      "learning_rate": 0.0003416897805304968,
      "loss": 3.0149,
      "step": 64050
    },
    {
      "epoch": 17.24978466838932,
      "grad_norm": 0.40141576528549194,
      "learning_rate": 0.000341487814730039,
      "loss": 3.016,
      "step": 64100
    },
    {
      "epoch": 17.263242894056848,
      "grad_norm": 0.40395596623420715,
      "learning_rate": 0.00034128584892958124,
      "loss": 3.0128,
      "step": 64150
    },
    {
      "epoch": 17.276701119724375,
      "grad_norm": 0.3964282274246216,
      "learning_rate": 0.00034108388312912343,
      "loss": 3.0192,
      "step": 64200
    },
    {
      "epoch": 17.290159345391903,
      "grad_norm": 0.3771671950817108,
      "learning_rate": 0.00034088191732866563,
      "loss": 3.026,
      "step": 64250
    },
    {
      "epoch": 17.30361757105943,
      "grad_norm": 0.4377134442329407,
      "learning_rate": 0.0003406799515282078,
      "loss": 3.0216,
      "step": 64300
    },
    {
      "epoch": 17.31707579672696,
      "grad_norm": 0.4398791790008545,
      "learning_rate": 0.00034047798572775,
      "loss": 3.024,
      "step": 64350
    },
    {
      "epoch": 17.330534022394488,
      "grad_norm": 0.4335786998271942,
      "learning_rate": 0.00034027601992729227,
      "loss": 3.0369,
      "step": 64400
    },
    {
      "epoch": 17.343992248062015,
      "grad_norm": 0.43530410528182983,
      "learning_rate": 0.00034007405412683447,
      "loss": 3.0229,
      "step": 64450
    },
    {
      "epoch": 17.357450473729543,
      "grad_norm": 0.38939180970191956,
      "learning_rate": 0.0003398720883263767,
      "loss": 3.0386,
      "step": 64500
    },
    {
      "epoch": 17.37090869939707,
      "grad_norm": 0.4043862521648407,
      "learning_rate": 0.00033967012252591897,
      "loss": 3.0247,
      "step": 64550
    },
    {
      "epoch": 17.3843669250646,
      "grad_norm": 0.40165212750434875,
      "learning_rate": 0.00033946815672546116,
      "loss": 3.0206,
      "step": 64600
    },
    {
      "epoch": 17.397825150732128,
      "grad_norm": 0.40205591917037964,
      "learning_rate": 0.00033926619092500336,
      "loss": 3.031,
      "step": 64650
    },
    {
      "epoch": 17.411283376399656,
      "grad_norm": 0.40525221824645996,
      "learning_rate": 0.00033906422512454556,
      "loss": 3.0279,
      "step": 64700
    },
    {
      "epoch": 17.424741602067183,
      "grad_norm": 0.3944297134876251,
      "learning_rate": 0.00033886225932408775,
      "loss": 3.045,
      "step": 64750
    },
    {
      "epoch": 17.43819982773471,
      "grad_norm": 0.4010119140148163,
      "learning_rate": 0.00033866029352363,
      "loss": 3.0263,
      "step": 64800
    },
    {
      "epoch": 17.45165805340224,
      "grad_norm": 0.41308003664016724,
      "learning_rate": 0.0003384583277231722,
      "loss": 3.0358,
      "step": 64850
    },
    {
      "epoch": 17.46511627906977,
      "grad_norm": 0.39949336647987366,
      "learning_rate": 0.0003382563619227144,
      "loss": 3.0366,
      "step": 64900
    },
    {
      "epoch": 17.478574504737296,
      "grad_norm": 0.39073440432548523,
      "learning_rate": 0.0003380543961222566,
      "loss": 3.0358,
      "step": 64950
    },
    {
      "epoch": 17.492032730404823,
      "grad_norm": 0.4053451716899872,
      "learning_rate": 0.0003378524303217988,
      "loss": 3.0386,
      "step": 65000
    },
    {
      "epoch": 17.492032730404823,
      "eval_accuracy": 0.39411951067194606,
      "eval_loss": 3.292527675628662,
      "eval_runtime": 53.6555,
      "eval_samples_per_second": 335.697,
      "eval_steps_per_second": 20.986,
      "step": 65000
    },
    {
      "epoch": 17.50549095607235,
      "grad_norm": 0.38078823685646057,
      "learning_rate": 0.00033765046452134104,
      "loss": 3.0278,
      "step": 65050
    },
    {
      "epoch": 17.51894918173988,
      "grad_norm": 0.4012027084827423,
      "learning_rate": 0.00033744849872088323,
      "loss": 3.0415,
      "step": 65100
    },
    {
      "epoch": 17.53240740740741,
      "grad_norm": 0.4206222891807556,
      "learning_rate": 0.00033724653292042543,
      "loss": 3.0358,
      "step": 65150
    },
    {
      "epoch": 17.545865633074936,
      "grad_norm": 0.4432675838470459,
      "learning_rate": 0.0003370445671199676,
      "loss": 3.0415,
      "step": 65200
    },
    {
      "epoch": 17.559323858742463,
      "grad_norm": 0.4019043445587158,
      "learning_rate": 0.0003368426013195098,
      "loss": 3.0508,
      "step": 65250
    },
    {
      "epoch": 17.57278208440999,
      "grad_norm": 0.4079228639602661,
      "learning_rate": 0.00033664063551905207,
      "loss": 3.038,
      "step": 65300
    },
    {
      "epoch": 17.58624031007752,
      "grad_norm": 0.404167115688324,
      "learning_rate": 0.00033643866971859427,
      "loss": 3.0394,
      "step": 65350
    },
    {
      "epoch": 17.59969853574505,
      "grad_norm": 0.37649834156036377,
      "learning_rate": 0.0003362367039181365,
      "loss": 3.0455,
      "step": 65400
    },
    {
      "epoch": 17.613156761412576,
      "grad_norm": 0.406495600938797,
      "learning_rate": 0.0003360347381176787,
      "loss": 3.0486,
      "step": 65450
    },
    {
      "epoch": 17.626614987080103,
      "grad_norm": 0.3711218237876892,
      "learning_rate": 0.00033583277231722097,
      "loss": 3.0505,
      "step": 65500
    },
    {
      "epoch": 17.64007321274763,
      "grad_norm": 0.4153537154197693,
      "learning_rate": 0.00033563080651676316,
      "loss": 3.0454,
      "step": 65550
    },
    {
      "epoch": 17.653531438415158,
      "grad_norm": 0.4080434739589691,
      "learning_rate": 0.00033542884071630536,
      "loss": 3.0557,
      "step": 65600
    },
    {
      "epoch": 17.66698966408269,
      "grad_norm": 0.403916597366333,
      "learning_rate": 0.00033522687491584755,
      "loss": 3.0523,
      "step": 65650
    },
    {
      "epoch": 17.680447889750216,
      "grad_norm": 0.40088391304016113,
      "learning_rate": 0.00033502490911538975,
      "loss": 3.0431,
      "step": 65700
    },
    {
      "epoch": 17.693906115417743,
      "grad_norm": 0.4177820086479187,
      "learning_rate": 0.000334822943314932,
      "loss": 3.0592,
      "step": 65750
    },
    {
      "epoch": 17.70736434108527,
      "grad_norm": 0.4082454741001129,
      "learning_rate": 0.0003346209775144742,
      "loss": 3.0556,
      "step": 65800
    },
    {
      "epoch": 17.720822566752798,
      "grad_norm": 0.4115118086338043,
      "learning_rate": 0.0003344190117140164,
      "loss": 3.0538,
      "step": 65850
    },
    {
      "epoch": 17.73428079242033,
      "grad_norm": 0.4031737744808197,
      "learning_rate": 0.0003342170459135586,
      "loss": 3.047,
      "step": 65900
    },
    {
      "epoch": 17.747739018087856,
      "grad_norm": 0.3955917954444885,
      "learning_rate": 0.0003340150801131008,
      "loss": 3.0408,
      "step": 65950
    },
    {
      "epoch": 17.761197243755383,
      "grad_norm": 0.4012543559074402,
      "learning_rate": 0.00033381311431264303,
      "loss": 3.0558,
      "step": 66000
    },
    {
      "epoch": 17.761197243755383,
      "eval_accuracy": 0.3950584367977339,
      "eval_loss": 3.285689115524292,
      "eval_runtime": 53.7002,
      "eval_samples_per_second": 335.418,
      "eval_steps_per_second": 20.968,
      "step": 66000
    },
    {
      "epoch": 17.77465546942291,
      "grad_norm": 0.4043067693710327,
      "learning_rate": 0.00033361114851218523,
      "loss": 3.0489,
      "step": 66050
    },
    {
      "epoch": 17.788113695090438,
      "grad_norm": 0.39902979135513306,
      "learning_rate": 0.0003334091827117274,
      "loss": 3.0574,
      "step": 66100
    },
    {
      "epoch": 17.80157192075797,
      "grad_norm": 0.38922590017318726,
      "learning_rate": 0.0003332072169112696,
      "loss": 3.0436,
      "step": 66150
    },
    {
      "epoch": 17.815030146425496,
      "grad_norm": 0.40953120589256287,
      "learning_rate": 0.0003330052511108118,
      "loss": 3.0573,
      "step": 66200
    },
    {
      "epoch": 17.828488372093023,
      "grad_norm": 0.3957615792751312,
      "learning_rate": 0.0003328032853103541,
      "loss": 3.0469,
      "step": 66250
    },
    {
      "epoch": 17.84194659776055,
      "grad_norm": 0.3910478949546814,
      "learning_rate": 0.0003326013195098963,
      "loss": 3.0572,
      "step": 66300
    },
    {
      "epoch": 17.855404823428078,
      "grad_norm": 0.3920937776565552,
      "learning_rate": 0.0003323993537094385,
      "loss": 3.0609,
      "step": 66350
    },
    {
      "epoch": 17.86886304909561,
      "grad_norm": 0.4142955243587494,
      "learning_rate": 0.00033219738790898077,
      "loss": 3.0574,
      "step": 66400
    },
    {
      "epoch": 17.882321274763136,
      "grad_norm": 0.405781090259552,
      "learning_rate": 0.00033199542210852296,
      "loss": 3.0626,
      "step": 66450
    },
    {
      "epoch": 17.895779500430663,
      "grad_norm": 0.4257899522781372,
      "learning_rate": 0.00033179345630806516,
      "loss": 3.0595,
      "step": 66500
    },
    {
      "epoch": 17.90923772609819,
      "grad_norm": 0.39462465047836304,
      "learning_rate": 0.00033159149050760735,
      "loss": 3.0525,
      "step": 66550
    },
    {
      "epoch": 17.922695951765718,
      "grad_norm": 0.4202898442745209,
      "learning_rate": 0.00033138952470714955,
      "loss": 3.0605,
      "step": 66600
    },
    {
      "epoch": 17.93615417743325,
      "grad_norm": 0.40152961015701294,
      "learning_rate": 0.0003311875589066918,
      "loss": 3.0562,
      "step": 66650
    },
    {
      "epoch": 17.949612403100776,
      "grad_norm": 0.40167486667633057,
      "learning_rate": 0.000330985593106234,
      "loss": 3.0591,
      "step": 66700
    },
    {
      "epoch": 17.963070628768303,
      "grad_norm": 0.4044479727745056,
      "learning_rate": 0.0003307836273057762,
      "loss": 3.0511,
      "step": 66750
    },
    {
      "epoch": 17.97652885443583,
      "grad_norm": 0.4120575785636902,
      "learning_rate": 0.0003305816615053184,
      "loss": 3.0666,
      "step": 66800
    },
    {
      "epoch": 17.989987080103358,
      "grad_norm": 0.4056987762451172,
      "learning_rate": 0.0003303796957048606,
      "loss": 3.0567,
      "step": 66850
    },
    {
      "epoch": 18.003229974160206,
      "grad_norm": 0.3993924558162689,
      "learning_rate": 0.00033017772990440284,
      "loss": 3.025,
      "step": 66900
    },
    {
      "epoch": 18.016688199827733,
      "grad_norm": 0.4064941704273224,
      "learning_rate": 0.00032997576410394503,
      "loss": 2.9688,
      "step": 66950
    },
    {
      "epoch": 18.030146425495264,
      "grad_norm": 0.41245749592781067,
      "learning_rate": 0.00032977379830348723,
      "loss": 2.9668,
      "step": 67000
    },
    {
      "epoch": 18.030146425495264,
      "eval_accuracy": 0.39444577717920604,
      "eval_loss": 3.294330358505249,
      "eval_runtime": 53.7092,
      "eval_samples_per_second": 335.361,
      "eval_steps_per_second": 20.965,
      "step": 67000
    },
    {
      "epoch": 18.04360465116279,
      "grad_norm": 0.40845730900764465,
      "learning_rate": 0.0003295718325030294,
      "loss": 2.9719,
      "step": 67050
    },
    {
      "epoch": 18.05706287683032,
      "grad_norm": 0.3882702887058258,
      "learning_rate": 0.0003293698667025716,
      "loss": 2.9772,
      "step": 67100
    },
    {
      "epoch": 18.070521102497846,
      "grad_norm": 0.41161108016967773,
      "learning_rate": 0.0003291679009021139,
      "loss": 2.9702,
      "step": 67150
    },
    {
      "epoch": 18.083979328165373,
      "grad_norm": 0.40619149804115295,
      "learning_rate": 0.0003289659351016561,
      "loss": 2.9882,
      "step": 67200
    },
    {
      "epoch": 18.097437553832904,
      "grad_norm": 0.4130079448223114,
      "learning_rate": 0.0003287639693011983,
      "loss": 2.9782,
      "step": 67250
    },
    {
      "epoch": 18.11089577950043,
      "grad_norm": 0.4122353196144104,
      "learning_rate": 0.0003285620035007405,
      "loss": 2.9827,
      "step": 67300
    },
    {
      "epoch": 18.12435400516796,
      "grad_norm": 0.42838728427886963,
      "learning_rate": 0.00032836003770028276,
      "loss": 2.9885,
      "step": 67350
    },
    {
      "epoch": 18.137812230835486,
      "grad_norm": 0.4504906237125397,
      "learning_rate": 0.00032815807189982496,
      "loss": 3.0084,
      "step": 67400
    },
    {
      "epoch": 18.151270456503013,
      "grad_norm": 0.4178699254989624,
      "learning_rate": 0.00032795610609936715,
      "loss": 2.9822,
      "step": 67450
    },
    {
      "epoch": 18.164728682170544,
      "grad_norm": 0.4099842309951782,
      "learning_rate": 0.00032775414029890935,
      "loss": 3.001,
      "step": 67500
    },
    {
      "epoch": 18.17818690783807,
      "grad_norm": 0.4077083170413971,
      "learning_rate": 0.00032755217449845155,
      "loss": 2.9985,
      "step": 67550
    },
    {
      "epoch": 18.1916451335056,
      "grad_norm": 0.40748822689056396,
      "learning_rate": 0.0003273502086979938,
      "loss": 2.9892,
      "step": 67600
    },
    {
      "epoch": 18.205103359173126,
      "grad_norm": 0.3962273597717285,
      "learning_rate": 0.000327148242897536,
      "loss": 2.9994,
      "step": 67650
    },
    {
      "epoch": 18.218561584840653,
      "grad_norm": 0.4352484345436096,
      "learning_rate": 0.0003269462770970782,
      "loss": 3.0084,
      "step": 67700
    },
    {
      "epoch": 18.232019810508184,
      "grad_norm": 0.393781453371048,
      "learning_rate": 0.0003267443112966204,
      "loss": 3.0002,
      "step": 67750
    },
    {
      "epoch": 18.24547803617571,
      "grad_norm": 0.4139980673789978,
      "learning_rate": 0.0003265423454961626,
      "loss": 3.0153,
      "step": 67800
    },
    {
      "epoch": 18.25893626184324,
      "grad_norm": 0.5772366523742676,
      "learning_rate": 0.00032634037969570483,
      "loss": 3.0038,
      "step": 67850
    },
    {
      "epoch": 18.272394487510766,
      "grad_norm": 0.40956127643585205,
      "learning_rate": 0.00032613841389524703,
      "loss": 3.0068,
      "step": 67900
    },
    {
      "epoch": 18.285852713178294,
      "grad_norm": 0.417221337556839,
      "learning_rate": 0.0003259364480947892,
      "loss": 3.0055,
      "step": 67950
    },
    {
      "epoch": 18.29931093884582,
      "grad_norm": 0.4156797230243683,
      "learning_rate": 0.0003257344822943314,
      "loss": 3.006,
      "step": 68000
    },
    {
      "epoch": 18.29931093884582,
      "eval_accuracy": 0.394656552079001,
      "eval_loss": 3.295771360397339,
      "eval_runtime": 53.9336,
      "eval_samples_per_second": 333.966,
      "eval_steps_per_second": 20.878,
      "step": 68000
    },
    {
      "epoch": 18.31276916451335,
      "grad_norm": 0.3963870108127594,
      "learning_rate": 0.0003255325164938737,
      "loss": 3.0138,
      "step": 68050
    },
    {
      "epoch": 18.32622739018088,
      "grad_norm": 0.39834779500961304,
      "learning_rate": 0.0003253305506934159,
      "loss": 3.0103,
      "step": 68100
    },
    {
      "epoch": 18.339685615848406,
      "grad_norm": 0.43453970551490784,
      "learning_rate": 0.0003251285848929581,
      "loss": 3.0127,
      "step": 68150
    },
    {
      "epoch": 18.353143841515934,
      "grad_norm": 0.40500518679618835,
      "learning_rate": 0.0003249266190925003,
      "loss": 3.0052,
      "step": 68200
    },
    {
      "epoch": 18.36660206718346,
      "grad_norm": 0.4253470003604889,
      "learning_rate": 0.0003247246532920425,
      "loss": 3.0107,
      "step": 68250
    },
    {
      "epoch": 18.38006029285099,
      "grad_norm": 0.39556410908699036,
      "learning_rate": 0.00032452268749158476,
      "loss": 3.0187,
      "step": 68300
    },
    {
      "epoch": 18.39351851851852,
      "grad_norm": 0.41645529866218567,
      "learning_rate": 0.00032432072169112696,
      "loss": 3.0237,
      "step": 68350
    },
    {
      "epoch": 18.406976744186046,
      "grad_norm": 0.4263641834259033,
      "learning_rate": 0.00032411875589066915,
      "loss": 3.0154,
      "step": 68400
    },
    {
      "epoch": 18.420434969853574,
      "grad_norm": 0.4121094048023224,
      "learning_rate": 0.00032391679009021135,
      "loss": 3.0223,
      "step": 68450
    },
    {
      "epoch": 18.4338931955211,
      "grad_norm": 0.41028955578804016,
      "learning_rate": 0.0003237148242897536,
      "loss": 3.0178,
      "step": 68500
    },
    {
      "epoch": 18.447351421188632,
      "grad_norm": 0.4091287851333618,
      "learning_rate": 0.0003235128584892958,
      "loss": 3.0271,
      "step": 68550
    },
    {
      "epoch": 18.46080964685616,
      "grad_norm": 0.4232977032661438,
      "learning_rate": 0.000323310892688838,
      "loss": 3.0182,
      "step": 68600
    },
    {
      "epoch": 18.474267872523686,
      "grad_norm": 0.42817702889442444,
      "learning_rate": 0.0003231089268883802,
      "loss": 3.0154,
      "step": 68650
    },
    {
      "epoch": 18.487726098191214,
      "grad_norm": 0.40232494473457336,
      "learning_rate": 0.0003229069610879224,
      "loss": 3.0274,
      "step": 68700
    },
    {
      "epoch": 18.50118432385874,
      "grad_norm": 0.44148021936416626,
      "learning_rate": 0.00032270499528746463,
      "loss": 3.0238,
      "step": 68750
    },
    {
      "epoch": 18.514642549526272,
      "grad_norm": 0.4260505437850952,
      "learning_rate": 0.00032250302948700683,
      "loss": 3.0144,
      "step": 68800
    },
    {
      "epoch": 18.5281007751938,
      "grad_norm": 0.4293977916240692,
      "learning_rate": 0.000322301063686549,
      "loss": 3.0332,
      "step": 68850
    },
    {
      "epoch": 18.541559000861326,
      "grad_norm": 0.40571919083595276,
      "learning_rate": 0.0003220990978860912,
      "loss": 3.0276,
      "step": 68900
    },
    {
      "epoch": 18.555017226528854,
      "grad_norm": 0.42529913783073425,
      "learning_rate": 0.0003218971320856335,
      "loss": 3.0315,
      "step": 68950
    },
    {
      "epoch": 18.56847545219638,
      "grad_norm": 0.41675060987472534,
      "learning_rate": 0.0003216951662851757,
      "loss": 3.033,
      "step": 69000
    },
    {
      "epoch": 18.56847545219638,
      "eval_accuracy": 0.3946870818454146,
      "eval_loss": 3.29016375541687,
      "eval_runtime": 53.8549,
      "eval_samples_per_second": 334.455,
      "eval_steps_per_second": 20.908,
      "step": 69000
    },
    {
      "epoch": 18.581933677863912,
      "grad_norm": 0.4186652898788452,
      "learning_rate": 0.0003214932004847179,
      "loss": 3.0313,
      "step": 69050
    },
    {
      "epoch": 18.59539190353144,
      "grad_norm": 0.38911905884742737,
      "learning_rate": 0.0003212912346842601,
      "loss": 3.0319,
      "step": 69100
    },
    {
      "epoch": 18.608850129198967,
      "grad_norm": 0.39345499873161316,
      "learning_rate": 0.0003210892688838023,
      "loss": 3.0337,
      "step": 69150
    },
    {
      "epoch": 18.622308354866494,
      "grad_norm": 0.40627118945121765,
      "learning_rate": 0.00032088730308334456,
      "loss": 3.0292,
      "step": 69200
    },
    {
      "epoch": 18.63576658053402,
      "grad_norm": 0.4483228623867035,
      "learning_rate": 0.00032068533728288676,
      "loss": 3.0318,
      "step": 69250
    },
    {
      "epoch": 18.649224806201552,
      "grad_norm": 0.46649301052093506,
      "learning_rate": 0.00032048337148242895,
      "loss": 3.033,
      "step": 69300
    },
    {
      "epoch": 18.66268303186908,
      "grad_norm": 0.4463086426258087,
      "learning_rate": 0.00032028140568197115,
      "loss": 3.0324,
      "step": 69350
    },
    {
      "epoch": 18.676141257536607,
      "grad_norm": 0.38854748010635376,
      "learning_rate": 0.00032007943988151334,
      "loss": 3.0428,
      "step": 69400
    },
    {
      "epoch": 18.689599483204134,
      "grad_norm": 0.39255139231681824,
      "learning_rate": 0.0003198774740810556,
      "loss": 3.0289,
      "step": 69450
    },
    {
      "epoch": 18.70305770887166,
      "grad_norm": 0.3995414972305298,
      "learning_rate": 0.0003196755082805978,
      "loss": 3.0391,
      "step": 69500
    },
    {
      "epoch": 18.716515934539192,
      "grad_norm": 0.391249418258667,
      "learning_rate": 0.00031947354248014,
      "loss": 3.047,
      "step": 69550
    },
    {
      "epoch": 18.72997416020672,
      "grad_norm": 0.4146568179130554,
      "learning_rate": 0.0003192715766796822,
      "loss": 3.0407,
      "step": 69600
    },
    {
      "epoch": 18.743432385874247,
      "grad_norm": 0.40213024616241455,
      "learning_rate": 0.0003190696108792244,
      "loss": 3.0424,
      "step": 69650
    },
    {
      "epoch": 18.756890611541774,
      "grad_norm": 0.4518072009086609,
      "learning_rate": 0.00031886764507876663,
      "loss": 3.0393,
      "step": 69700
    },
    {
      "epoch": 18.7703488372093,
      "grad_norm": 0.4141794741153717,
      "learning_rate": 0.0003186656792783088,
      "loss": 3.0423,
      "step": 69750
    },
    {
      "epoch": 18.783807062876832,
      "grad_norm": 0.40530627965927124,
      "learning_rate": 0.000318463713477851,
      "loss": 3.0372,
      "step": 69800
    },
    {
      "epoch": 18.79726528854436,
      "grad_norm": 0.4177812933921814,
      "learning_rate": 0.00031826174767739327,
      "loss": 3.0382,
      "step": 69850
    },
    {
      "epoch": 18.810723514211887,
      "grad_norm": 0.41861647367477417,
      "learning_rate": 0.0003180597818769355,
      "loss": 3.0386,
      "step": 69900
    },
    {
      "epoch": 18.824181739879414,
      "grad_norm": 0.41492319107055664,
      "learning_rate": 0.0003178578160764777,
      "loss": 3.0423,
      "step": 69950
    },
    {
      "epoch": 18.83763996554694,
      "grad_norm": 0.41332483291625977,
      "learning_rate": 0.0003176558502760199,
      "loss": 3.0561,
      "step": 70000
    },
    {
      "epoch": 18.83763996554694,
      "eval_accuracy": 0.3955084520734818,
      "eval_loss": 3.280143976211548,
      "eval_runtime": 55.4316,
      "eval_samples_per_second": 324.941,
      "eval_steps_per_second": 20.313,
      "step": 70000
    },
    {
      "epoch": 18.85109819121447,
      "grad_norm": 0.40138715505599976,
      "learning_rate": 0.0003174538844755621,
      "loss": 3.0547,
      "step": 70050
    },
    {
      "epoch": 18.864556416882,
      "grad_norm": 0.451656311750412,
      "learning_rate": 0.0003172519186751043,
      "loss": 3.0475,
      "step": 70100
    },
    {
      "epoch": 18.878014642549527,
      "grad_norm": 0.4022556245326996,
      "learning_rate": 0.00031704995287464656,
      "loss": 3.0491,
      "step": 70150
    },
    {
      "epoch": 18.891472868217054,
      "grad_norm": 0.43887948989868164,
      "learning_rate": 0.00031684798707418875,
      "loss": 3.055,
      "step": 70200
    },
    {
      "epoch": 18.90493109388458,
      "grad_norm": 0.4141213595867157,
      "learning_rate": 0.00031664602127373095,
      "loss": 3.0429,
      "step": 70250
    },
    {
      "epoch": 18.91838931955211,
      "grad_norm": 0.43518728017807007,
      "learning_rate": 0.00031644405547327315,
      "loss": 3.0606,
      "step": 70300
    },
    {
      "epoch": 18.93184754521964,
      "grad_norm": 0.45341476798057556,
      "learning_rate": 0.00031624208967281534,
      "loss": 3.0438,
      "step": 70350
    },
    {
      "epoch": 18.945305770887167,
      "grad_norm": 0.3871983587741852,
      "learning_rate": 0.0003160401238723576,
      "loss": 3.0371,
      "step": 70400
    },
    {
      "epoch": 18.958763996554694,
      "grad_norm": 0.38054120540618896,
      "learning_rate": 0.0003158381580718998,
      "loss": 3.0451,
      "step": 70450
    },
    {
      "epoch": 18.97222222222222,
      "grad_norm": 0.4231681227684021,
      "learning_rate": 0.000315636192271442,
      "loss": 3.0478,
      "step": 70500
    },
    {
      "epoch": 18.98568044788975,
      "grad_norm": 0.4074268043041229,
      "learning_rate": 0.0003154342264709842,
      "loss": 3.0456,
      "step": 70550
    },
    {
      "epoch": 18.99913867355728,
      "grad_norm": 0.4081641137599945,
      "learning_rate": 0.00031523226067052643,
      "loss": 3.0445,
      "step": 70600
    },
    {
      "epoch": 19.012381567614124,
      "grad_norm": 0.40542617440223694,
      "learning_rate": 0.0003150302948700686,
      "loss": 2.9738,
      "step": 70650
    },
    {
      "epoch": 19.025839793281655,
      "grad_norm": 0.4279390275478363,
      "learning_rate": 0.0003148283290696108,
      "loss": 2.9535,
      "step": 70700
    },
    {
      "epoch": 19.039298018949182,
      "grad_norm": 0.4095859229564667,
      "learning_rate": 0.0003146263632691531,
      "loss": 2.9532,
      "step": 70750
    },
    {
      "epoch": 19.05275624461671,
      "grad_norm": 0.39089035987854004,
      "learning_rate": 0.0003144243974686953,
      "loss": 2.9654,
      "step": 70800
    },
    {
      "epoch": 19.066214470284237,
      "grad_norm": 0.42628535628318787,
      "learning_rate": 0.0003142224316682375,
      "loss": 2.9724,
      "step": 70850
    },
    {
      "epoch": 19.079672695951764,
      "grad_norm": 0.42668628692626953,
      "learning_rate": 0.0003140204658677797,
      "loss": 2.9648,
      "step": 70900
    },
    {
      "epoch": 19.093130921619295,
      "grad_norm": 0.44374603033065796,
      "learning_rate": 0.0003138185000673219,
      "loss": 2.9687,
      "step": 70950
    },
    {
      "epoch": 19.106589147286822,
      "grad_norm": 0.4030226767063141,
      "learning_rate": 0.0003136165342668641,
      "loss": 2.9788,
      "step": 71000
    },
    {
      "epoch": 19.106589147286822,
      "eval_accuracy": 0.3948139813727139,
      "eval_loss": 3.2952170372009277,
      "eval_runtime": 55.0491,
      "eval_samples_per_second": 327.199,
      "eval_steps_per_second": 20.454,
      "step": 71000
    },
    {
      "epoch": 19.12004737295435,
      "grad_norm": 0.44227829575538635,
      "learning_rate": 0.00031341456846640636,
      "loss": 2.9831,
      "step": 71050
    },
    {
      "epoch": 19.133505598621877,
      "grad_norm": 0.42472559213638306,
      "learning_rate": 0.00031321260266594855,
      "loss": 2.9756,
      "step": 71100
    },
    {
      "epoch": 19.146963824289404,
      "grad_norm": 0.4363155961036682,
      "learning_rate": 0.00031301063686549075,
      "loss": 2.9772,
      "step": 71150
    },
    {
      "epoch": 19.160422049956935,
      "grad_norm": 0.387218177318573,
      "learning_rate": 0.00031280867106503295,
      "loss": 2.9856,
      "step": 71200
    },
    {
      "epoch": 19.173880275624462,
      "grad_norm": 0.43504536151885986,
      "learning_rate": 0.00031260670526457514,
      "loss": 2.9884,
      "step": 71250
    },
    {
      "epoch": 19.18733850129199,
      "grad_norm": 0.4170171618461609,
      "learning_rate": 0.0003124047394641174,
      "loss": 2.9937,
      "step": 71300
    },
    {
      "epoch": 19.200796726959517,
      "grad_norm": 0.4231520891189575,
      "learning_rate": 0.0003122027736636596,
      "loss": 2.988,
      "step": 71350
    },
    {
      "epoch": 19.214254952627044,
      "grad_norm": 0.4176693260669708,
      "learning_rate": 0.0003120008078632018,
      "loss": 2.9804,
      "step": 71400
    },
    {
      "epoch": 19.227713178294575,
      "grad_norm": 0.41988492012023926,
      "learning_rate": 0.000311798842062744,
      "loss": 2.9922,
      "step": 71450
    },
    {
      "epoch": 19.241171403962102,
      "grad_norm": 0.4519420862197876,
      "learning_rate": 0.0003115968762622862,
      "loss": 2.9901,
      "step": 71500
    },
    {
      "epoch": 19.25462962962963,
      "grad_norm": 0.4187524914741516,
      "learning_rate": 0.00031139491046182843,
      "loss": 2.993,
      "step": 71550
    },
    {
      "epoch": 19.268087855297157,
      "grad_norm": 0.41358649730682373,
      "learning_rate": 0.0003111929446613707,
      "loss": 2.9979,
      "step": 71600
    },
    {
      "epoch": 19.281546080964684,
      "grad_norm": 0.44196566939353943,
      "learning_rate": 0.0003109909788609129,
      "loss": 3.0035,
      "step": 71650
    },
    {
      "epoch": 19.295004306632215,
      "grad_norm": 0.44156354665756226,
      "learning_rate": 0.00031078901306045507,
      "loss": 2.9925,
      "step": 71700
    },
    {
      "epoch": 19.308462532299743,
      "grad_norm": 0.41277235746383667,
      "learning_rate": 0.0003105870472599973,
      "loss": 2.9963,
      "step": 71750
    },
    {
      "epoch": 19.32192075796727,
      "grad_norm": 0.4259941577911377,
      "learning_rate": 0.0003103850814595395,
      "loss": 3.0017,
      "step": 71800
    },
    {
      "epoch": 19.335378983634797,
      "grad_norm": 0.4394524097442627,
      "learning_rate": 0.0003101831156590817,
      "loss": 3.0053,
      "step": 71850
    },
    {
      "epoch": 19.348837209302324,
      "grad_norm": 0.40097951889038086,
      "learning_rate": 0.0003099811498586239,
      "loss": 3.0032,
      "step": 71900
    },
    {
      "epoch": 19.362295434969855,
      "grad_norm": 0.4460085928440094,
      "learning_rate": 0.0003097791840581661,
      "loss": 3.005,
      "step": 71950
    },
    {
      "epoch": 19.375753660637383,
      "grad_norm": 0.4067431092262268,
      "learning_rate": 0.00030957721825770836,
      "loss": 3.0036,
      "step": 72000
    },
    {
      "epoch": 19.375753660637383,
      "eval_accuracy": 0.39494533542109134,
      "eval_loss": 3.2903969287872314,
      "eval_runtime": 55.4344,
      "eval_samples_per_second": 324.925,
      "eval_steps_per_second": 20.312,
      "step": 72000
    },
    {
      "epoch": 19.38921188630491,
      "grad_norm": 0.42211583256721497,
      "learning_rate": 0.00030937525245725055,
      "loss": 3.0002,
      "step": 72050
    },
    {
      "epoch": 19.402670111972437,
      "grad_norm": 0.4175995886325836,
      "learning_rate": 0.00030917328665679275,
      "loss": 3.0021,
      "step": 72100
    },
    {
      "epoch": 19.416128337639964,
      "grad_norm": 0.4194367229938507,
      "learning_rate": 0.00030897132085633494,
      "loss": 3.0103,
      "step": 72150
    },
    {
      "epoch": 19.429586563307495,
      "grad_norm": 0.42266571521759033,
      "learning_rate": 0.00030876935505587714,
      "loss": 3.0068,
      "step": 72200
    },
    {
      "epoch": 19.443044788975023,
      "grad_norm": 0.41117116808891296,
      "learning_rate": 0.0003085673892554194,
      "loss": 3.0042,
      "step": 72250
    },
    {
      "epoch": 19.45650301464255,
      "grad_norm": 0.43733495473861694,
      "learning_rate": 0.0003083654234549616,
      "loss": 3.0077,
      "step": 72300
    },
    {
      "epoch": 19.469961240310077,
      "grad_norm": 0.4256683588027954,
      "learning_rate": 0.0003081634576545038,
      "loss": 3.0079,
      "step": 72350
    },
    {
      "epoch": 19.483419465977605,
      "grad_norm": 0.4018738865852356,
      "learning_rate": 0.000307961491854046,
      "loss": 3.0079,
      "step": 72400
    },
    {
      "epoch": 19.496877691645132,
      "grad_norm": 0.41685667634010315,
      "learning_rate": 0.00030775952605358823,
      "loss": 3.0111,
      "step": 72450
    },
    {
      "epoch": 19.510335917312663,
      "grad_norm": 0.3987107574939728,
      "learning_rate": 0.0003075575602531305,
      "loss": 3.0036,
      "step": 72500
    },
    {
      "epoch": 19.52379414298019,
      "grad_norm": 0.45025312900543213,
      "learning_rate": 0.0003073555944526727,
      "loss": 3.0131,
      "step": 72550
    },
    {
      "epoch": 19.537252368647717,
      "grad_norm": 0.43616893887519836,
      "learning_rate": 0.00030715362865221487,
      "loss": 3.014,
      "step": 72600
    },
    {
      "epoch": 19.550710594315245,
      "grad_norm": 0.39793211221694946,
      "learning_rate": 0.0003069516628517571,
      "loss": 3.0105,
      "step": 72650
    },
    {
      "epoch": 19.564168819982772,
      "grad_norm": 0.438885360956192,
      "learning_rate": 0.0003067496970512993,
      "loss": 3.017,
      "step": 72700
    },
    {
      "epoch": 19.577627045650303,
      "grad_norm": 0.4122118055820465,
      "learning_rate": 0.0003065477312508415,
      "loss": 3.0191,
      "step": 72750
    },
    {
      "epoch": 19.59108527131783,
      "grad_norm": 0.42040184140205383,
      "learning_rate": 0.0003063457654503837,
      "loss": 3.0237,
      "step": 72800
    },
    {
      "epoch": 19.604543496985357,
      "grad_norm": 0.4153655767440796,
      "learning_rate": 0.0003061437996499259,
      "loss": 3.0278,
      "step": 72850
    },
    {
      "epoch": 19.618001722652885,
      "grad_norm": 0.4188932478427887,
      "learning_rate": 0.00030594183384946816,
      "loss": 3.0302,
      "step": 72900
    },
    {
      "epoch": 19.631459948320412,
      "grad_norm": 0.41482555866241455,
      "learning_rate": 0.00030573986804901035,
      "loss": 3.0148,
      "step": 72950
    },
    {
      "epoch": 19.644918173987943,
      "grad_norm": 0.3990839421749115,
      "learning_rate": 0.00030553790224855255,
      "loss": 3.0251,
      "step": 73000
    },
    {
      "epoch": 19.644918173987943,
      "eval_accuracy": 0.3955169265282158,
      "eval_loss": 3.2822790145874023,
      "eval_runtime": 55.3891,
      "eval_samples_per_second": 325.19,
      "eval_steps_per_second": 20.329,
      "step": 73000
    },
    {
      "epoch": 19.65837639965547,
      "grad_norm": 0.4105415940284729,
      "learning_rate": 0.00030533593644809474,
      "loss": 3.035,
      "step": 73050
    },
    {
      "epoch": 19.671834625322997,
      "grad_norm": 0.40522801876068115,
      "learning_rate": 0.00030513397064763694,
      "loss": 3.0141,
      "step": 73100
    },
    {
      "epoch": 19.685292850990525,
      "grad_norm": 0.43990591168403625,
      "learning_rate": 0.0003049320048471792,
      "loss": 3.0327,
      "step": 73150
    },
    {
      "epoch": 19.698751076658052,
      "grad_norm": 0.41591787338256836,
      "learning_rate": 0.0003047300390467214,
      "loss": 3.0286,
      "step": 73200
    },
    {
      "epoch": 19.712209302325583,
      "grad_norm": 0.4017585217952728,
      "learning_rate": 0.0003045280732462636,
      "loss": 3.0219,
      "step": 73250
    },
    {
      "epoch": 19.72566752799311,
      "grad_norm": 0.42853009700775146,
      "learning_rate": 0.0003043261074458058,
      "loss": 3.0272,
      "step": 73300
    },
    {
      "epoch": 19.739125753660637,
      "grad_norm": 0.43009036779403687,
      "learning_rate": 0.000304124141645348,
      "loss": 3.0274,
      "step": 73350
    },
    {
      "epoch": 19.752583979328165,
      "grad_norm": 0.383428692817688,
      "learning_rate": 0.0003039221758448903,
      "loss": 3.0356,
      "step": 73400
    },
    {
      "epoch": 19.766042204995692,
      "grad_norm": 0.42961567640304565,
      "learning_rate": 0.0003037202100444325,
      "loss": 3.0221,
      "step": 73450
    },
    {
      "epoch": 19.779500430663223,
      "grad_norm": 0.4073396623134613,
      "learning_rate": 0.00030351824424397467,
      "loss": 3.0323,
      "step": 73500
    },
    {
      "epoch": 19.79295865633075,
      "grad_norm": 0.4351046681404114,
      "learning_rate": 0.00030331627844351687,
      "loss": 3.0328,
      "step": 73550
    },
    {
      "epoch": 19.806416881998278,
      "grad_norm": 0.42110610008239746,
      "learning_rate": 0.0003031143126430591,
      "loss": 3.0431,
      "step": 73600
    },
    {
      "epoch": 19.819875107665805,
      "grad_norm": 0.39867541193962097,
      "learning_rate": 0.0003029123468426013,
      "loss": 3.0301,
      "step": 73650
    },
    {
      "epoch": 19.833333333333332,
      "grad_norm": 0.42126715183258057,
      "learning_rate": 0.0003027103810421435,
      "loss": 3.0318,
      "step": 73700
    },
    {
      "epoch": 19.846791559000863,
      "grad_norm": 0.4099518954753876,
      "learning_rate": 0.0003025084152416857,
      "loss": 3.0313,
      "step": 73750
    },
    {
      "epoch": 19.86024978466839,
      "grad_norm": 0.43412184715270996,
      "learning_rate": 0.0003023064494412279,
      "loss": 3.0272,
      "step": 73800
    },
    {
      "epoch": 19.873708010335918,
      "grad_norm": 0.3960249125957489,
      "learning_rate": 0.00030210448364077015,
      "loss": 3.0411,
      "step": 73850
    },
    {
      "epoch": 19.887166236003445,
      "grad_norm": 0.4127246141433716,
      "learning_rate": 0.00030190251784031235,
      "loss": 3.0356,
      "step": 73900
    },
    {
      "epoch": 19.900624461670972,
      "grad_norm": 0.4184736907482147,
      "learning_rate": 0.00030170055203985454,
      "loss": 3.0384,
      "step": 73950
    },
    {
      "epoch": 19.9140826873385,
      "grad_norm": 0.4029821753501892,
      "learning_rate": 0.00030149858623939674,
      "loss": 3.0421,
      "step": 74000
    },
    {
      "epoch": 19.9140826873385,
      "eval_accuracy": 0.3958698115150891,
      "eval_loss": 3.27805757522583,
      "eval_runtime": 55.2649,
      "eval_samples_per_second": 325.921,
      "eval_steps_per_second": 20.375,
      "step": 74000
    },
    {
      "epoch": 19.92754091300603,
      "grad_norm": 0.41179102659225464,
      "learning_rate": 0.00030129662043893894,
      "loss": 3.0358,
      "step": 74050
    },
    {
      "epoch": 19.940999138673558,
      "grad_norm": 0.4140405058860779,
      "learning_rate": 0.0003010946546384812,
      "loss": 3.0384,
      "step": 74100
    },
    {
      "epoch": 19.954457364341085,
      "grad_norm": 0.4397096335887909,
      "learning_rate": 0.0003008926888380234,
      "loss": 3.0453,
      "step": 74150
    },
    {
      "epoch": 19.967915590008612,
      "grad_norm": 0.410493940114975,
      "learning_rate": 0.0003006907230375656,
      "loss": 3.0347,
      "step": 74200
    },
    {
      "epoch": 19.98137381567614,
      "grad_norm": 0.4063168466091156,
      "learning_rate": 0.0003004887572371078,
      "loss": 3.0357,
      "step": 74250
    },
    {
      "epoch": 19.99483204134367,
      "grad_norm": 0.4114035964012146,
      "learning_rate": 0.0003002867914366501,
      "loss": 3.0458,
      "step": 74300
    },
    {
      "epoch": 20.00807493540052,
      "grad_norm": 0.4396079480648041,
      "learning_rate": 0.0003000848256361923,
      "loss": 2.9857,
      "step": 74350
    },
    {
      "epoch": 20.021533161068046,
      "grad_norm": 0.41727790236473083,
      "learning_rate": 0.00029988285983573447,
      "loss": 2.9466,
      "step": 74400
    },
    {
      "epoch": 20.034991386735573,
      "grad_norm": 0.41952675580978394,
      "learning_rate": 0.00029968089403527667,
      "loss": 2.9494,
      "step": 74450
    },
    {
      "epoch": 20.0484496124031,
      "grad_norm": 0.48774582147598267,
      "learning_rate": 0.0002994789282348189,
      "loss": 2.9569,
      "step": 74500
    },
    {
      "epoch": 20.061907838070628,
      "grad_norm": 0.41048768162727356,
      "learning_rate": 0.0002992769624343611,
      "loss": 2.9548,
      "step": 74550
    },
    {
      "epoch": 20.075366063738155,
      "grad_norm": 0.4365278482437134,
      "learning_rate": 0.0002990749966339033,
      "loss": 2.9549,
      "step": 74600
    },
    {
      "epoch": 20.088824289405686,
      "grad_norm": 0.4222956597805023,
      "learning_rate": 0.0002988730308334455,
      "loss": 2.9585,
      "step": 74650
    },
    {
      "epoch": 20.102282515073213,
      "grad_norm": 0.40463319420814514,
      "learning_rate": 0.0002986710650329877,
      "loss": 2.9616,
      "step": 74700
    },
    {
      "epoch": 20.11574074074074,
      "grad_norm": 0.4185885488986969,
      "learning_rate": 0.00029846909923252995,
      "loss": 2.9653,
      "step": 74750
    },
    {
      "epoch": 20.129198966408268,
      "grad_norm": 0.4026871621608734,
      "learning_rate": 0.00029826713343207215,
      "loss": 2.9658,
      "step": 74800
    },
    {
      "epoch": 20.142657192075795,
      "grad_norm": 0.43527159094810486,
      "learning_rate": 0.00029806516763161435,
      "loss": 2.9718,
      "step": 74850
    },
    {
      "epoch": 20.156115417743326,
      "grad_norm": 0.4299376308917999,
      "learning_rate": 0.00029786320183115654,
      "loss": 2.9793,
      "step": 74900
    },
    {
      "epoch": 20.169573643410853,
      "grad_norm": 0.4304753541946411,
      "learning_rate": 0.0002976612360306988,
      "loss": 2.978,
      "step": 74950
    },
    {
      "epoch": 20.18303186907838,
      "grad_norm": 0.4182604253292084,
      "learning_rate": 0.000297459270230241,
      "loss": 2.9677,
      "step": 75000
    },
    {
      "epoch": 20.18303186907838,
      "eval_accuracy": 0.39509135679496993,
      "eval_loss": 3.2936933040618896,
      "eval_runtime": 55.0997,
      "eval_samples_per_second": 326.898,
      "eval_steps_per_second": 20.436,
      "step": 75000
    },
    {
      "epoch": 20.196490094745908,
      "grad_norm": 0.4104526937007904,
      "learning_rate": 0.0002972573044297832,
      "loss": 2.9908,
      "step": 75050
    },
    {
      "epoch": 20.209948320413435,
      "grad_norm": 0.4046146273612976,
      "learning_rate": 0.00029705533862932543,
      "loss": 2.9804,
      "step": 75100
    },
    {
      "epoch": 20.223406546080966,
      "grad_norm": 0.4415130615234375,
      "learning_rate": 0.00029685337282886763,
      "loss": 2.9857,
      "step": 75150
    },
    {
      "epoch": 20.236864771748493,
      "grad_norm": 0.39041709899902344,
      "learning_rate": 0.0002966514070284098,
      "loss": 2.975,
      "step": 75200
    },
    {
      "epoch": 20.25032299741602,
      "grad_norm": 0.4639005959033966,
      "learning_rate": 0.000296449441227952,
      "loss": 2.9851,
      "step": 75250
    },
    {
      "epoch": 20.263781223083548,
      "grad_norm": 0.39461809396743774,
      "learning_rate": 0.0002962474754274942,
      "loss": 2.9904,
      "step": 75300
    },
    {
      "epoch": 20.277239448751075,
      "grad_norm": 0.43576109409332275,
      "learning_rate": 0.00029604550962703647,
      "loss": 2.9891,
      "step": 75350
    },
    {
      "epoch": 20.290697674418606,
      "grad_norm": 0.4303674101829529,
      "learning_rate": 0.00029584354382657867,
      "loss": 2.9851,
      "step": 75400
    },
    {
      "epoch": 20.304155900086133,
      "grad_norm": 0.49273186922073364,
      "learning_rate": 0.0002956415780261209,
      "loss": 2.9925,
      "step": 75450
    },
    {
      "epoch": 20.31761412575366,
      "grad_norm": 0.420663982629776,
      "learning_rate": 0.0002954396122256631,
      "loss": 2.9861,
      "step": 75500
    },
    {
      "epoch": 20.331072351421188,
      "grad_norm": 0.436514675617218,
      "learning_rate": 0.0002952376464252053,
      "loss": 2.9873,
      "step": 75550
    },
    {
      "epoch": 20.344530577088715,
      "grad_norm": 0.43746113777160645,
      "learning_rate": 0.0002950356806247475,
      "loss": 3.0009,
      "step": 75600
    },
    {
      "epoch": 20.357988802756246,
      "grad_norm": 0.4135793447494507,
      "learning_rate": 0.0002948337148242897,
      "loss": 2.9983,
      "step": 75650
    },
    {
      "epoch": 20.371447028423773,
      "grad_norm": 0.4526557922363281,
      "learning_rate": 0.00029463174902383195,
      "loss": 2.9872,
      "step": 75700
    },
    {
      "epoch": 20.3849052540913,
      "grad_norm": 0.4632878303527832,
      "learning_rate": 0.00029442978322337415,
      "loss": 2.9979,
      "step": 75750
    },
    {
      "epoch": 20.398363479758828,
      "grad_norm": 0.40115952491760254,
      "learning_rate": 0.00029422781742291634,
      "loss": 2.9991,
      "step": 75800
    },
    {
      "epoch": 20.411821705426355,
      "grad_norm": 0.4160281717777252,
      "learning_rate": 0.0002940258516224586,
      "loss": 2.9976,
      "step": 75850
    },
    {
      "epoch": 20.425279931093886,
      "grad_norm": 0.40379562973976135,
      "learning_rate": 0.0002938238858220008,
      "loss": 3.006,
      "step": 75900
    },
    {
      "epoch": 20.438738156761413,
      "grad_norm": 0.45283401012420654,
      "learning_rate": 0.000293621920021543,
      "loss": 3.0042,
      "step": 75950
    },
    {
      "epoch": 20.45219638242894,
      "grad_norm": 0.421700119972229,
      "learning_rate": 0.0002934199542210852,
      "loss": 2.9962,
      "step": 76000
    },
    {
      "epoch": 20.45219638242894,
      "eval_accuracy": 0.3956393715344369,
      "eval_loss": 3.287869691848755,
      "eval_runtime": 55.497,
      "eval_samples_per_second": 324.558,
      "eval_steps_per_second": 20.289,
      "step": 76000
    },
    {
      "epoch": 20.465654608096468,
      "grad_norm": 0.44577735662460327,
      "learning_rate": 0.00029321798842062743,
      "loss": 3.008,
      "step": 76050
    },
    {
      "epoch": 20.479112833763995,
      "grad_norm": 0.4258463680744171,
      "learning_rate": 0.00029301602262016963,
      "loss": 3.0077,
      "step": 76100
    },
    {
      "epoch": 20.492571059431526,
      "grad_norm": 0.4366303086280823,
      "learning_rate": 0.0002928140568197118,
      "loss": 3.0012,
      "step": 76150
    },
    {
      "epoch": 20.506029285099054,
      "grad_norm": 0.4077489674091339,
      "learning_rate": 0.000292612091019254,
      "loss": 3.001,
      "step": 76200
    },
    {
      "epoch": 20.51948751076658,
      "grad_norm": 0.4265643358230591,
      "learning_rate": 0.0002924101252187962,
      "loss": 3.0123,
      "step": 76250
    },
    {
      "epoch": 20.532945736434108,
      "grad_norm": 0.42429250478744507,
      "learning_rate": 0.00029220815941833847,
      "loss": 3.0062,
      "step": 76300
    },
    {
      "epoch": 20.546403962101635,
      "grad_norm": 0.41154927015304565,
      "learning_rate": 0.0002920061936178807,
      "loss": 3.0039,
      "step": 76350
    },
    {
      "epoch": 20.559862187769163,
      "grad_norm": 0.41237393021583557,
      "learning_rate": 0.0002918042278174229,
      "loss": 3.0127,
      "step": 76400
    },
    {
      "epoch": 20.573320413436694,
      "grad_norm": 0.42659783363342285,
      "learning_rate": 0.0002916022620169651,
      "loss": 3.0032,
      "step": 76450
    },
    {
      "epoch": 20.58677863910422,
      "grad_norm": 0.4047008454799652,
      "learning_rate": 0.0002914002962165073,
      "loss": 3.0177,
      "step": 76500
    },
    {
      "epoch": 20.600236864771748,
      "grad_norm": 0.39722734689712524,
      "learning_rate": 0.0002911983304160495,
      "loss": 3.005,
      "step": 76550
    },
    {
      "epoch": 20.613695090439276,
      "grad_norm": 0.4279921054840088,
      "learning_rate": 0.00029099636461559175,
      "loss": 2.9999,
      "step": 76600
    },
    {
      "epoch": 20.627153316106803,
      "grad_norm": 0.42196568846702576,
      "learning_rate": 0.00029079439881513395,
      "loss": 3.0085,
      "step": 76650
    },
    {
      "epoch": 20.640611541774334,
      "grad_norm": 0.42284271121025085,
      "learning_rate": 0.00029059243301467614,
      "loss": 3.0077,
      "step": 76700
    },
    {
      "epoch": 20.65406976744186,
      "grad_norm": 0.4308563768863678,
      "learning_rate": 0.0002903904672142184,
      "loss": 3.0001,
      "step": 76750
    },
    {
      "epoch": 20.66752799310939,
      "grad_norm": 0.399814248085022,
      "learning_rate": 0.0002901885014137606,
      "loss": 3.0182,
      "step": 76800
    },
    {
      "epoch": 20.680986218776916,
      "grad_norm": 0.4300035834312439,
      "learning_rate": 0.0002899865356133028,
      "loss": 3.0036,
      "step": 76850
    },
    {
      "epoch": 20.694444444444443,
      "grad_norm": 0.4693319499492645,
      "learning_rate": 0.000289784569812845,
      "loss": 3.0158,
      "step": 76900
    },
    {
      "epoch": 20.707902670111974,
      "grad_norm": 0.43014174699783325,
      "learning_rate": 0.00028958260401238723,
      "loss": 3.0057,
      "step": 76950
    },
    {
      "epoch": 20.7213608957795,
      "grad_norm": 0.43209654092788696,
      "learning_rate": 0.00028938063821192943,
      "loss": 3.028,
      "step": 77000
    },
    {
      "epoch": 20.7213608957795,
      "eval_accuracy": 0.3957726812262145,
      "eval_loss": 3.284038543701172,
      "eval_runtime": 55.0721,
      "eval_samples_per_second": 327.062,
      "eval_steps_per_second": 20.446,
      "step": 77000
    },
    {
      "epoch": 20.73481912144703,
      "grad_norm": 0.4174690842628479,
      "learning_rate": 0.0002891786724114716,
      "loss": 3.0144,
      "step": 77050
    },
    {
      "epoch": 20.748277347114556,
      "grad_norm": 0.42950111627578735,
      "learning_rate": 0.0002889767066110138,
      "loss": 3.01,
      "step": 77100
    },
    {
      "epoch": 20.761735572782083,
      "grad_norm": 0.4183488190174103,
      "learning_rate": 0.000288774740810556,
      "loss": 3.0134,
      "step": 77150
    },
    {
      "epoch": 20.775193798449614,
      "grad_norm": 0.43711057305336,
      "learning_rate": 0.00028857277501009827,
      "loss": 3.0213,
      "step": 77200
    },
    {
      "epoch": 20.78865202411714,
      "grad_norm": 0.46745753288269043,
      "learning_rate": 0.00028837080920964046,
      "loss": 3.0255,
      "step": 77250
    },
    {
      "epoch": 20.80211024978467,
      "grad_norm": 0.4243837594985962,
      "learning_rate": 0.0002881688434091827,
      "loss": 3.0196,
      "step": 77300
    },
    {
      "epoch": 20.815568475452196,
      "grad_norm": 0.4431048631668091,
      "learning_rate": 0.0002879668776087249,
      "loss": 3.0138,
      "step": 77350
    },
    {
      "epoch": 20.829026701119723,
      "grad_norm": 0.42100629210472107,
      "learning_rate": 0.0002877649118082671,
      "loss": 3.0169,
      "step": 77400
    },
    {
      "epoch": 20.842484926787254,
      "grad_norm": 0.40253376960754395,
      "learning_rate": 0.0002875629460078093,
      "loss": 3.0119,
      "step": 77450
    },
    {
      "epoch": 20.85594315245478,
      "grad_norm": 0.4260178804397583,
      "learning_rate": 0.0002873609802073515,
      "loss": 3.0266,
      "step": 77500
    },
    {
      "epoch": 20.86940137812231,
      "grad_norm": 0.4209248423576355,
      "learning_rate": 0.00028715901440689375,
      "loss": 3.0247,
      "step": 77550
    },
    {
      "epoch": 20.882859603789836,
      "grad_norm": 0.4190898537635803,
      "learning_rate": 0.00028695704860643594,
      "loss": 3.0384,
      "step": 77600
    },
    {
      "epoch": 20.896317829457363,
      "grad_norm": 0.42939960956573486,
      "learning_rate": 0.0002867550828059782,
      "loss": 3.0209,
      "step": 77650
    },
    {
      "epoch": 20.909776055124894,
      "grad_norm": 0.4232606589794159,
      "learning_rate": 0.0002865531170055204,
      "loss": 3.0296,
      "step": 77700
    },
    {
      "epoch": 20.92323428079242,
      "grad_norm": 0.4421567916870117,
      "learning_rate": 0.0002863511512050626,
      "loss": 3.0192,
      "step": 77750
    },
    {
      "epoch": 20.93669250645995,
      "grad_norm": 0.4117579162120819,
      "learning_rate": 0.0002861491854046048,
      "loss": 3.0199,
      "step": 77800
    },
    {
      "epoch": 20.950150732127476,
      "grad_norm": 0.43439605832099915,
      "learning_rate": 0.000285947219604147,
      "loss": 3.0265,
      "step": 77850
    },
    {
      "epoch": 20.963608957795003,
      "grad_norm": 0.44588276743888855,
      "learning_rate": 0.00028574525380368923,
      "loss": 3.0231,
      "step": 77900
    },
    {
      "epoch": 20.977067183462534,
      "grad_norm": 0.43251749873161316,
      "learning_rate": 0.0002855432880032314,
      "loss": 3.0243,
      "step": 77950
    },
    {
      "epoch": 20.99052540913006,
      "grad_norm": 0.4446578323841095,
      "learning_rate": 0.0002853413222027736,
      "loss": 3.015,
      "step": 78000
    },
    {
      "epoch": 20.99052540913006,
      "eval_accuracy": 0.39639381529947637,
      "eval_loss": 3.2760121822357178,
      "eval_runtime": 55.1938,
      "eval_samples_per_second": 326.341,
      "eval_steps_per_second": 20.401,
      "step": 78000
    },
    {
      "epoch": 21.00376830318691,
      "grad_norm": 0.4257495403289795,
      "learning_rate": 0.00028513935640231587,
      "loss": 3.0018,
      "step": 78050
    },
    {
      "epoch": 21.017226528854437,
      "grad_norm": 0.4258408844470978,
      "learning_rate": 0.00028493739060185807,
      "loss": 2.935,
      "step": 78100
    },
    {
      "epoch": 21.030684754521964,
      "grad_norm": 0.4279120862483978,
      "learning_rate": 0.00028473542480140026,
      "loss": 2.9377,
      "step": 78150
    },
    {
      "epoch": 21.04414298018949,
      "grad_norm": 0.40601927042007446,
      "learning_rate": 0.0002845334590009425,
      "loss": 2.9336,
      "step": 78200
    },
    {
      "epoch": 21.05760120585702,
      "grad_norm": 0.46881160140037537,
      "learning_rate": 0.0002843314932004847,
      "loss": 2.948,
      "step": 78250
    },
    {
      "epoch": 21.07105943152455,
      "grad_norm": 0.4635114371776581,
      "learning_rate": 0.0002841295274000269,
      "loss": 2.9619,
      "step": 78300
    },
    {
      "epoch": 21.084517657192077,
      "grad_norm": 0.42312192916870117,
      "learning_rate": 0.0002839275615995691,
      "loss": 2.9504,
      "step": 78350
    },
    {
      "epoch": 21.097975882859604,
      "grad_norm": 0.43240320682525635,
      "learning_rate": 0.0002837255957991113,
      "loss": 2.9561,
      "step": 78400
    },
    {
      "epoch": 21.11143410852713,
      "grad_norm": 0.43588295578956604,
      "learning_rate": 0.00028352362999865355,
      "loss": 2.9655,
      "step": 78450
    },
    {
      "epoch": 21.12489233419466,
      "grad_norm": 0.4394192397594452,
      "learning_rate": 0.00028332166419819574,
      "loss": 2.961,
      "step": 78500
    },
    {
      "epoch": 21.13835055986219,
      "grad_norm": 0.4436136484146118,
      "learning_rate": 0.000283119698397738,
      "loss": 2.9606,
      "step": 78550
    },
    {
      "epoch": 21.151808785529717,
      "grad_norm": 0.4162307679653168,
      "learning_rate": 0.0002829177325972802,
      "loss": 2.9571,
      "step": 78600
    },
    {
      "epoch": 21.165267011197244,
      "grad_norm": 0.44429853558540344,
      "learning_rate": 0.0002827157667968224,
      "loss": 2.9653,
      "step": 78650
    },
    {
      "epoch": 21.17872523686477,
      "grad_norm": 0.4423364996910095,
      "learning_rate": 0.0002825138009963646,
      "loss": 2.9711,
      "step": 78700
    },
    {
      "epoch": 21.1921834625323,
      "grad_norm": 0.45903778076171875,
      "learning_rate": 0.0002823118351959068,
      "loss": 2.9725,
      "step": 78750
    },
    {
      "epoch": 21.205641688199826,
      "grad_norm": 0.4161292016506195,
      "learning_rate": 0.00028210986939544903,
      "loss": 2.9722,
      "step": 78800
    },
    {
      "epoch": 21.219099913867357,
      "grad_norm": 0.41161108016967773,
      "learning_rate": 0.0002819079035949912,
      "loss": 2.9769,
      "step": 78850
    },
    {
      "epoch": 21.232558139534884,
      "grad_norm": 0.4620738625526428,
      "learning_rate": 0.0002817059377945334,
      "loss": 2.9643,
      "step": 78900
    },
    {
      "epoch": 21.24601636520241,
      "grad_norm": 0.42669835686683655,
      "learning_rate": 0.00028150397199407567,
      "loss": 2.9732,
      "step": 78950
    },
    {
      "epoch": 21.25947459086994,
      "grad_norm": 0.4427119195461273,
      "learning_rate": 0.00028130200619361787,
      "loss": 2.9675,
      "step": 79000
    },
    {
      "epoch": 21.25947459086994,
      "eval_accuracy": 0.39546597115295606,
      "eval_loss": 3.294128894805908,
      "eval_runtime": 54.6202,
      "eval_samples_per_second": 329.768,
      "eval_steps_per_second": 20.615,
      "step": 79000
    },
    {
      "epoch": 21.272932816537466,
      "grad_norm": 0.4521730840206146,
      "learning_rate": 0.00028110004039316006,
      "loss": 2.9685,
      "step": 79050
    },
    {
      "epoch": 21.286391042204997,
      "grad_norm": 0.4480832517147064,
      "learning_rate": 0.00028089807459270226,
      "loss": 2.9697,
      "step": 79100
    },
    {
      "epoch": 21.299849267872524,
      "grad_norm": 0.42608147859573364,
      "learning_rate": 0.0002806961087922445,
      "loss": 2.9664,
      "step": 79150
    },
    {
      "epoch": 21.31330749354005,
      "grad_norm": 0.42942923307418823,
      "learning_rate": 0.0002804941429917867,
      "loss": 2.9785,
      "step": 79200
    },
    {
      "epoch": 21.32676571920758,
      "grad_norm": 0.42538803815841675,
      "learning_rate": 0.0002802921771913289,
      "loss": 2.9762,
      "step": 79250
    },
    {
      "epoch": 21.340223944875106,
      "grad_norm": 0.42696043848991394,
      "learning_rate": 0.0002800902113908711,
      "loss": 2.9846,
      "step": 79300
    },
    {
      "epoch": 21.353682170542637,
      "grad_norm": 0.4404904544353485,
      "learning_rate": 0.0002798882455904133,
      "loss": 2.9768,
      "step": 79350
    },
    {
      "epoch": 21.367140396210164,
      "grad_norm": 0.46387866139411926,
      "learning_rate": 0.00027968627978995555,
      "loss": 2.9766,
      "step": 79400
    },
    {
      "epoch": 21.38059862187769,
      "grad_norm": 0.427202433347702,
      "learning_rate": 0.00027948431398949774,
      "loss": 2.9877,
      "step": 79450
    },
    {
      "epoch": 21.39405684754522,
      "grad_norm": 0.41624459624290466,
      "learning_rate": 0.00027928234818904,
      "loss": 2.9882,
      "step": 79500
    },
    {
      "epoch": 21.407515073212746,
      "grad_norm": 0.45006537437438965,
      "learning_rate": 0.0002790803823885822,
      "loss": 2.988,
      "step": 79550
    },
    {
      "epoch": 21.420973298880277,
      "grad_norm": 0.42271533608436584,
      "learning_rate": 0.0002788784165881244,
      "loss": 2.9872,
      "step": 79600
    },
    {
      "epoch": 21.434431524547804,
      "grad_norm": 0.4559018015861511,
      "learning_rate": 0.0002786764507876666,
      "loss": 2.9797,
      "step": 79650
    },
    {
      "epoch": 21.44788975021533,
      "grad_norm": 0.42914602160453796,
      "learning_rate": 0.0002784744849872088,
      "loss": 2.9898,
      "step": 79700
    },
    {
      "epoch": 21.46134797588286,
      "grad_norm": 0.40934568643569946,
      "learning_rate": 0.000278272519186751,
      "loss": 2.9896,
      "step": 79750
    },
    {
      "epoch": 21.474806201550386,
      "grad_norm": 0.4386095106601715,
      "learning_rate": 0.0002780705533862932,
      "loss": 2.9904,
      "step": 79800
    },
    {
      "epoch": 21.488264427217917,
      "grad_norm": 0.42801961302757263,
      "learning_rate": 0.0002778685875858355,
      "loss": 2.981,
      "step": 79850
    },
    {
      "epoch": 21.501722652885444,
      "grad_norm": 0.42655736207962036,
      "learning_rate": 0.00027766662178537767,
      "loss": 2.9964,
      "step": 79900
    },
    {
      "epoch": 21.51518087855297,
      "grad_norm": 0.43257346749305725,
      "learning_rate": 0.00027746465598491987,
      "loss": 2.9868,
      "step": 79950
    },
    {
      "epoch": 21.5286391042205,
      "grad_norm": 0.4436582922935486,
      "learning_rate": 0.00027726269018446206,
      "loss": 2.9881,
      "step": 80000
    },
    {
      "epoch": 21.5286391042205,
      "eval_accuracy": 0.3959727000873086,
      "eval_loss": 3.2854392528533936,
      "eval_runtime": 55.4249,
      "eval_samples_per_second": 324.98,
      "eval_steps_per_second": 20.316,
      "step": 80000
    },
    {
      "epoch": 21.542097329888026,
      "grad_norm": 0.4455031752586365,
      "learning_rate": 0.00027706072438400426,
      "loss": 2.988,
      "step": 80050
    },
    {
      "epoch": 21.555555555555557,
      "grad_norm": 0.43415355682373047,
      "learning_rate": 0.0002768587585835465,
      "loss": 3.0084,
      "step": 80100
    },
    {
      "epoch": 21.569013781223084,
      "grad_norm": 0.47144296765327454,
      "learning_rate": 0.0002766567927830887,
      "loss": 2.9981,
      "step": 80150
    },
    {
      "epoch": 21.58247200689061,
      "grad_norm": 0.46530064940452576,
      "learning_rate": 0.0002764548269826309,
      "loss": 3.0019,
      "step": 80200
    },
    {
      "epoch": 21.59593023255814,
      "grad_norm": 0.4477296471595764,
      "learning_rate": 0.0002762528611821731,
      "loss": 2.9965,
      "step": 80250
    },
    {
      "epoch": 21.609388458225666,
      "grad_norm": 0.4592190384864807,
      "learning_rate": 0.00027605089538171535,
      "loss": 3.009,
      "step": 80300
    },
    {
      "epoch": 21.622846683893197,
      "grad_norm": 0.4123205542564392,
      "learning_rate": 0.00027584892958125754,
      "loss": 3.0118,
      "step": 80350
    },
    {
      "epoch": 21.636304909560724,
      "grad_norm": 0.41009268164634705,
      "learning_rate": 0.0002756469637807998,
      "loss": 2.9985,
      "step": 80400
    },
    {
      "epoch": 21.649763135228252,
      "grad_norm": 0.41830089688301086,
      "learning_rate": 0.000275444997980342,
      "loss": 2.9939,
      "step": 80450
    },
    {
      "epoch": 21.66322136089578,
      "grad_norm": 0.4384111166000366,
      "learning_rate": 0.0002752430321798842,
      "loss": 3.0026,
      "step": 80500
    },
    {
      "epoch": 21.676679586563306,
      "grad_norm": 0.41752365231513977,
      "learning_rate": 0.0002750410663794264,
      "loss": 3.0026,
      "step": 80550
    },
    {
      "epoch": 21.690137812230837,
      "grad_norm": 0.4098077714443207,
      "learning_rate": 0.0002748391005789686,
      "loss": 3.0001,
      "step": 80600
    },
    {
      "epoch": 21.703596037898365,
      "grad_norm": 0.4417395293712616,
      "learning_rate": 0.00027463713477851083,
      "loss": 3.0034,
      "step": 80650
    },
    {
      "epoch": 21.717054263565892,
      "grad_norm": 0.42584118247032166,
      "learning_rate": 0.000274435168978053,
      "loss": 2.9965,
      "step": 80700
    },
    {
      "epoch": 21.73051248923342,
      "grad_norm": 0.42295321822166443,
      "learning_rate": 0.0002742332031775953,
      "loss": 3.0049,
      "step": 80750
    },
    {
      "epoch": 21.743970714900946,
      "grad_norm": 0.41715312004089355,
      "learning_rate": 0.00027403123737713747,
      "loss": 3.0042,
      "step": 80800
    },
    {
      "epoch": 21.757428940568474,
      "grad_norm": 0.41474443674087524,
      "learning_rate": 0.00027382927157667967,
      "loss": 3.009,
      "step": 80850
    },
    {
      "epoch": 21.770887166236005,
      "grad_norm": 0.45613738894462585,
      "learning_rate": 0.00027362730577622186,
      "loss": 3.0105,
      "step": 80900
    },
    {
      "epoch": 21.784345391903532,
      "grad_norm": 0.4140360951423645,
      "learning_rate": 0.00027342533997576406,
      "loss": 3.012,
      "step": 80950
    },
    {
      "epoch": 21.79780361757106,
      "grad_norm": 0.47605544328689575,
      "learning_rate": 0.0002732233741753063,
      "loss": 3.0037,
      "step": 81000
    },
    {
      "epoch": 21.79780361757106,
      "eval_accuracy": 0.3962476852787422,
      "eval_loss": 3.280226707458496,
      "eval_runtime": 55.7877,
      "eval_samples_per_second": 322.867,
      "eval_steps_per_second": 20.184,
      "step": 81000
    },
    {
      "epoch": 21.811261843238587,
      "grad_norm": 0.4371415674686432,
      "learning_rate": 0.0002730214083748485,
      "loss": 3.0165,
      "step": 81050
    },
    {
      "epoch": 21.824720068906114,
      "grad_norm": 0.42411020398139954,
      "learning_rate": 0.0002728194425743907,
      "loss": 3.0095,
      "step": 81100
    },
    {
      "epoch": 21.838178294573645,
      "grad_norm": 0.4219321310520172,
      "learning_rate": 0.0002726174767739329,
      "loss": 3.0101,
      "step": 81150
    },
    {
      "epoch": 21.851636520241172,
      "grad_norm": 0.41034814715385437,
      "learning_rate": 0.00027241551097347515,
      "loss": 3.0089,
      "step": 81200
    },
    {
      "epoch": 21.8650947459087,
      "grad_norm": 0.4187079668045044,
      "learning_rate": 0.00027221354517301734,
      "loss": 3.0148,
      "step": 81250
    },
    {
      "epoch": 21.878552971576227,
      "grad_norm": 0.41652804613113403,
      "learning_rate": 0.00027201157937255954,
      "loss": 3.0148,
      "step": 81300
    },
    {
      "epoch": 21.892011197243754,
      "grad_norm": 0.4195777475833893,
      "learning_rate": 0.0002718096135721018,
      "loss": 3.0215,
      "step": 81350
    },
    {
      "epoch": 21.905469422911285,
      "grad_norm": 0.44653409719467163,
      "learning_rate": 0.000271607647771644,
      "loss": 3.0189,
      "step": 81400
    },
    {
      "epoch": 21.918927648578812,
      "grad_norm": 0.422077476978302,
      "learning_rate": 0.0002714056819711862,
      "loss": 3.0073,
      "step": 81450
    },
    {
      "epoch": 21.93238587424634,
      "grad_norm": 0.40733182430267334,
      "learning_rate": 0.0002712037161707284,
      "loss": 3.0223,
      "step": 81500
    },
    {
      "epoch": 21.945844099913867,
      "grad_norm": 0.42711979150772095,
      "learning_rate": 0.0002710017503702706,
      "loss": 3.0135,
      "step": 81550
    },
    {
      "epoch": 21.959302325581394,
      "grad_norm": 0.42944803833961487,
      "learning_rate": 0.0002707997845698128,
      "loss": 3.0209,
      "step": 81600
    },
    {
      "epoch": 21.972760551248925,
      "grad_norm": 0.39599812030792236,
      "learning_rate": 0.000270597818769355,
      "loss": 3.0113,
      "step": 81650
    },
    {
      "epoch": 21.986218776916452,
      "grad_norm": 0.4108112156391144,
      "learning_rate": 0.00027039585296889727,
      "loss": 3.0103,
      "step": 81700
    },
    {
      "epoch": 21.99967700258398,
      "grad_norm": 0.4447796642780304,
      "learning_rate": 0.00027019388716843947,
      "loss": 3.0168,
      "step": 81750
    },
    {
      "epoch": 22.012919896640827,
      "grad_norm": 0.43677303194999695,
      "learning_rate": 0.00026999192136798166,
      "loss": 2.9338,
      "step": 81800
    },
    {
      "epoch": 22.026378122308355,
      "grad_norm": 0.4421975314617157,
      "learning_rate": 0.00026978995556752386,
      "loss": 2.932,
      "step": 81850
    },
    {
      "epoch": 22.039836347975882,
      "grad_norm": 0.4097566604614258,
      "learning_rate": 0.00026958798976706606,
      "loss": 2.9407,
      "step": 81900
    },
    {
      "epoch": 22.05329457364341,
      "grad_norm": 0.4221478998661041,
      "learning_rate": 0.0002693860239666083,
      "loss": 2.9391,
      "step": 81950
    },
    {
      "epoch": 22.06675279931094,
      "grad_norm": 0.4292081296443939,
      "learning_rate": 0.0002691840581661505,
      "loss": 2.9562,
      "step": 82000
    },
    {
      "epoch": 22.06675279931094,
      "eval_accuracy": 0.3957283533091442,
      "eval_loss": 3.292602300643921,
      "eval_runtime": 55.3547,
      "eval_samples_per_second": 325.392,
      "eval_steps_per_second": 20.342,
      "step": 82000
    },
    {
      "epoch": 22.080211024978468,
      "grad_norm": 0.4228661060333252,
      "learning_rate": 0.0002689820923656927,
      "loss": 2.9327,
      "step": 82050
    },
    {
      "epoch": 22.093669250645995,
      "grad_norm": 0.4465382993221283,
      "learning_rate": 0.00026878012656523495,
      "loss": 2.9365,
      "step": 82100
    },
    {
      "epoch": 22.107127476313522,
      "grad_norm": 0.43030622601509094,
      "learning_rate": 0.00026857816076477714,
      "loss": 2.9365,
      "step": 82150
    },
    {
      "epoch": 22.12058570198105,
      "grad_norm": 0.4425069987773895,
      "learning_rate": 0.00026837619496431934,
      "loss": 2.9483,
      "step": 82200
    },
    {
      "epoch": 22.13404392764858,
      "grad_norm": 0.4402919113636017,
      "learning_rate": 0.0002681742291638616,
      "loss": 2.948,
      "step": 82250
    },
    {
      "epoch": 22.147502153316108,
      "grad_norm": 0.44754478335380554,
      "learning_rate": 0.0002679722633634038,
      "loss": 2.9469,
      "step": 82300
    },
    {
      "epoch": 22.160960378983635,
      "grad_norm": 0.4323514401912689,
      "learning_rate": 0.000267770297562946,
      "loss": 2.9433,
      "step": 82350
    },
    {
      "epoch": 22.174418604651162,
      "grad_norm": 0.43964049220085144,
      "learning_rate": 0.0002675683317624882,
      "loss": 2.9485,
      "step": 82400
    },
    {
      "epoch": 22.18787683031869,
      "grad_norm": 0.4523833990097046,
      "learning_rate": 0.0002673663659620304,
      "loss": 2.9487,
      "step": 82450
    },
    {
      "epoch": 22.20133505598622,
      "grad_norm": 0.4370718002319336,
      "learning_rate": 0.0002671644001615726,
      "loss": 2.961,
      "step": 82500
    },
    {
      "epoch": 22.214793281653748,
      "grad_norm": 0.44688382744789124,
      "learning_rate": 0.0002669624343611148,
      "loss": 2.9504,
      "step": 82550
    },
    {
      "epoch": 22.228251507321275,
      "grad_norm": 0.44331830739974976,
      "learning_rate": 0.00026676046856065707,
      "loss": 2.9555,
      "step": 82600
    },
    {
      "epoch": 22.241709732988802,
      "grad_norm": 0.42020565271377563,
      "learning_rate": 0.00026655850276019927,
      "loss": 2.9615,
      "step": 82650
    },
    {
      "epoch": 22.25516795865633,
      "grad_norm": 0.4653908908367157,
      "learning_rate": 0.00026635653695974146,
      "loss": 2.9603,
      "step": 82700
    },
    {
      "epoch": 22.26862618432386,
      "grad_norm": 0.41683560609817505,
      "learning_rate": 0.00026615457115928366,
      "loss": 2.966,
      "step": 82750
    },
    {
      "epoch": 22.282084409991388,
      "grad_norm": 0.46766164898872375,
      "learning_rate": 0.00026595260535882586,
      "loss": 2.9694,
      "step": 82800
    },
    {
      "epoch": 22.295542635658915,
      "grad_norm": 0.46885979175567627,
      "learning_rate": 0.0002657506395583681,
      "loss": 2.9826,
      "step": 82850
    },
    {
      "epoch": 22.309000861326442,
      "grad_norm": 0.4445846676826477,
      "learning_rate": 0.0002655486737579103,
      "loss": 2.9655,
      "step": 82900
    },
    {
      "epoch": 22.32245908699397,
      "grad_norm": 0.4270409047603607,
      "learning_rate": 0.00026534670795745255,
      "loss": 2.9681,
      "step": 82950
    },
    {
      "epoch": 22.3359173126615,
      "grad_norm": 0.4194854497909546,
      "learning_rate": 0.00026514474215699475,
      "loss": 2.9683,
      "step": 83000
    },
    {
      "epoch": 22.3359173126615,
      "eval_accuracy": 0.3955815714072766,
      "eval_loss": 3.292879819869995,
      "eval_runtime": 55.3417,
      "eval_samples_per_second": 325.469,
      "eval_steps_per_second": 20.346,
      "step": 83000
    },
    {
      "epoch": 22.349375538329028,
      "grad_norm": 0.429385781288147,
      "learning_rate": 0.00026494277635653694,
      "loss": 2.9716,
      "step": 83050
    },
    {
      "epoch": 22.362833763996555,
      "grad_norm": 0.4517979621887207,
      "learning_rate": 0.00026474081055607914,
      "loss": 2.9669,
      "step": 83100
    },
    {
      "epoch": 22.376291989664082,
      "grad_norm": 0.44728177785873413,
      "learning_rate": 0.00026453884475562134,
      "loss": 2.9587,
      "step": 83150
    },
    {
      "epoch": 22.38975021533161,
      "grad_norm": 0.4721812605857849,
      "learning_rate": 0.0002643368789551636,
      "loss": 2.986,
      "step": 83200
    },
    {
      "epoch": 22.403208440999137,
      "grad_norm": 0.44930049777030945,
      "learning_rate": 0.0002641349131547058,
      "loss": 2.9718,
      "step": 83250
    },
    {
      "epoch": 22.416666666666668,
      "grad_norm": 0.47097310423851013,
      "learning_rate": 0.000263932947354248,
      "loss": 2.9863,
      "step": 83300
    },
    {
      "epoch": 22.430124892334195,
      "grad_norm": 0.46559232473373413,
      "learning_rate": 0.0002637309815537902,
      "loss": 2.971,
      "step": 83350
    },
    {
      "epoch": 22.443583118001722,
      "grad_norm": 0.42774224281311035,
      "learning_rate": 0.0002635290157533324,
      "loss": 2.984,
      "step": 83400
    },
    {
      "epoch": 22.45704134366925,
      "grad_norm": 0.4455351233482361,
      "learning_rate": 0.0002633270499528746,
      "loss": 2.9784,
      "step": 83450
    },
    {
      "epoch": 22.470499569336777,
      "grad_norm": 0.42454469203948975,
      "learning_rate": 0.0002631250841524168,
      "loss": 2.9708,
      "step": 83500
    },
    {
      "epoch": 22.483957795004308,
      "grad_norm": 0.4294556975364685,
      "learning_rate": 0.00026292311835195907,
      "loss": 2.9963,
      "step": 83550
    },
    {
      "epoch": 22.497416020671835,
      "grad_norm": 0.4321839213371277,
      "learning_rate": 0.00026272115255150126,
      "loss": 2.995,
      "step": 83600
    },
    {
      "epoch": 22.510874246339363,
      "grad_norm": 0.4495703876018524,
      "learning_rate": 0.00026251918675104346,
      "loss": 2.988,
      "step": 83650
    },
    {
      "epoch": 22.52433247200689,
      "grad_norm": 0.4380459189414978,
      "learning_rate": 0.00026231722095058566,
      "loss": 2.9866,
      "step": 83700
    },
    {
      "epoch": 22.537790697674417,
      "grad_norm": 0.4377855062484741,
      "learning_rate": 0.00026211525515012785,
      "loss": 2.9762,
      "step": 83750
    },
    {
      "epoch": 22.551248923341948,
      "grad_norm": 0.4443385899066925,
      "learning_rate": 0.0002619132893496701,
      "loss": 2.9879,
      "step": 83800
    },
    {
      "epoch": 22.564707149009475,
      "grad_norm": 0.4317345917224884,
      "learning_rate": 0.0002617113235492123,
      "loss": 2.9873,
      "step": 83850
    },
    {
      "epoch": 22.578165374677003,
      "grad_norm": 0.41431862115859985,
      "learning_rate": 0.00026150935774875455,
      "loss": 2.9937,
      "step": 83900
    },
    {
      "epoch": 22.59162360034453,
      "grad_norm": 0.4557620882987976,
      "learning_rate": 0.00026130739194829675,
      "loss": 2.9766,
      "step": 83950
    },
    {
      "epoch": 22.605081826012057,
      "grad_norm": 0.45642057061195374,
      "learning_rate": 0.00026110542614783894,
      "loss": 2.9852,
      "step": 84000
    },
    {
      "epoch": 22.605081826012057,
      "eval_accuracy": 0.3964245623596011,
      "eval_loss": 3.2839629650115967,
      "eval_runtime": 55.1163,
      "eval_samples_per_second": 326.8,
      "eval_steps_per_second": 20.43,
      "step": 84000
    },
    {
      "epoch": 22.618540051679588,
      "grad_norm": 0.48557594418525696,
      "learning_rate": 0.00026090346034738114,
      "loss": 2.9942,
      "step": 84050
    },
    {
      "epoch": 22.631998277347115,
      "grad_norm": 0.44271036982536316,
      "learning_rate": 0.0002607014945469234,
      "loss": 2.9952,
      "step": 84100
    },
    {
      "epoch": 22.645456503014643,
      "grad_norm": 0.46364423632621765,
      "learning_rate": 0.0002604995287464656,
      "loss": 2.9961,
      "step": 84150
    },
    {
      "epoch": 22.65891472868217,
      "grad_norm": 0.4304630160331726,
      "learning_rate": 0.0002602975629460078,
      "loss": 2.9918,
      "step": 84200
    },
    {
      "epoch": 22.672372954349697,
      "grad_norm": 0.4598659873008728,
      "learning_rate": 0.00026009559714555,
      "loss": 2.9955,
      "step": 84250
    },
    {
      "epoch": 22.685831180017228,
      "grad_norm": 0.43804359436035156,
      "learning_rate": 0.0002598936313450922,
      "loss": 3.002,
      "step": 84300
    },
    {
      "epoch": 22.699289405684755,
      "grad_norm": 0.44611334800720215,
      "learning_rate": 0.0002596916655446344,
      "loss": 2.9896,
      "step": 84350
    },
    {
      "epoch": 22.712747631352283,
      "grad_norm": 0.4401785433292389,
      "learning_rate": 0.0002594896997441766,
      "loss": 2.9971,
      "step": 84400
    },
    {
      "epoch": 22.72620585701981,
      "grad_norm": 0.45873647928237915,
      "learning_rate": 0.00025928773394371887,
      "loss": 2.9911,
      "step": 84450
    },
    {
      "epoch": 22.739664082687337,
      "grad_norm": 0.42473602294921875,
      "learning_rate": 0.00025908576814326107,
      "loss": 2.9927,
      "step": 84500
    },
    {
      "epoch": 22.753122308354868,
      "grad_norm": 0.4496315121650696,
      "learning_rate": 0.00025888380234280326,
      "loss": 2.9939,
      "step": 84550
    },
    {
      "epoch": 22.766580534022395,
      "grad_norm": 0.44188305735588074,
      "learning_rate": 0.00025868183654234546,
      "loss": 2.9925,
      "step": 84600
    },
    {
      "epoch": 22.780038759689923,
      "grad_norm": 0.47845959663391113,
      "learning_rate": 0.00025847987074188765,
      "loss": 2.9961,
      "step": 84650
    },
    {
      "epoch": 22.79349698535745,
      "grad_norm": 0.4484929144382477,
      "learning_rate": 0.0002582779049414299,
      "loss": 3.0014,
      "step": 84700
    },
    {
      "epoch": 22.806955211024977,
      "grad_norm": 0.41167107224464417,
      "learning_rate": 0.0002580759391409721,
      "loss": 2.9951,
      "step": 84750
    },
    {
      "epoch": 22.820413436692505,
      "grad_norm": 0.4409504532814026,
      "learning_rate": 0.00025787397334051435,
      "loss": 2.9982,
      "step": 84800
    },
    {
      "epoch": 22.833871662360036,
      "grad_norm": 0.44134747982025146,
      "learning_rate": 0.00025767200754005655,
      "loss": 2.9994,
      "step": 84850
    },
    {
      "epoch": 22.847329888027563,
      "grad_norm": 0.475885808467865,
      "learning_rate": 0.00025747004173959874,
      "loss": 3.0012,
      "step": 84900
    },
    {
      "epoch": 22.86078811369509,
      "grad_norm": 0.4444062411785126,
      "learning_rate": 0.00025726807593914094,
      "loss": 2.9944,
      "step": 84950
    },
    {
      "epoch": 22.874246339362617,
      "grad_norm": 0.434906929731369,
      "learning_rate": 0.00025706611013868313,
      "loss": 3.0085,
      "step": 85000
    },
    {
      "epoch": 22.874246339362617,
      "eval_accuracy": 0.396510393375497,
      "eval_loss": 3.278679132461548,
      "eval_runtime": 55.0664,
      "eval_samples_per_second": 327.096,
      "eval_steps_per_second": 20.448,
      "step": 85000
    },
    {
      "epoch": 22.887704565030145,
      "grad_norm": 0.4553506076335907,
      "learning_rate": 0.0002568641443382254,
      "loss": 3.0023,
      "step": 85050
    },
    {
      "epoch": 22.901162790697676,
      "grad_norm": 0.4525589942932129,
      "learning_rate": 0.0002566621785377676,
      "loss": 3.0052,
      "step": 85100
    },
    {
      "epoch": 22.914621016365203,
      "grad_norm": 0.44847944378852844,
      "learning_rate": 0.0002564602127373098,
      "loss": 3.0062,
      "step": 85150
    },
    {
      "epoch": 22.92807924203273,
      "grad_norm": 0.45734959840774536,
      "learning_rate": 0.00025625824693685203,
      "loss": 3.0016,
      "step": 85200
    },
    {
      "epoch": 22.941537467700257,
      "grad_norm": 0.43638479709625244,
      "learning_rate": 0.0002560562811363942,
      "loss": 3.0056,
      "step": 85250
    },
    {
      "epoch": 22.954995693367785,
      "grad_norm": 0.4501156210899353,
      "learning_rate": 0.0002558543153359364,
      "loss": 3.0053,
      "step": 85300
    },
    {
      "epoch": 22.968453919035316,
      "grad_norm": 0.45217031240463257,
      "learning_rate": 0.0002556523495354786,
      "loss": 3.003,
      "step": 85350
    },
    {
      "epoch": 22.981912144702843,
      "grad_norm": 0.44591525197029114,
      "learning_rate": 0.00025545038373502087,
      "loss": 2.9979,
      "step": 85400
    },
    {
      "epoch": 22.99537037037037,
      "grad_norm": 0.4603706896305084,
      "learning_rate": 0.00025524841793456306,
      "loss": 3.0025,
      "step": 85450
    },
    {
      "epoch": 23.00861326442722,
      "grad_norm": 0.43974849581718445,
      "learning_rate": 0.00025504645213410526,
      "loss": 2.9376,
      "step": 85500
    },
    {
      "epoch": 23.022071490094746,
      "grad_norm": 0.4222824275493622,
      "learning_rate": 0.00025484448633364745,
      "loss": 2.9166,
      "step": 85550
    },
    {
      "epoch": 23.035529715762273,
      "grad_norm": 0.44281378388404846,
      "learning_rate": 0.00025464252053318965,
      "loss": 2.9168,
      "step": 85600
    },
    {
      "epoch": 23.0489879414298,
      "grad_norm": 0.478463351726532,
      "learning_rate": 0.0002544405547327319,
      "loss": 2.9187,
      "step": 85650
    },
    {
      "epoch": 23.06244616709733,
      "grad_norm": 0.43511971831321716,
      "learning_rate": 0.0002542385889322741,
      "loss": 2.9263,
      "step": 85700
    },
    {
      "epoch": 23.07590439276486,
      "grad_norm": 0.492725670337677,
      "learning_rate": 0.00025403662313181635,
      "loss": 2.9329,
      "step": 85750
    },
    {
      "epoch": 23.089362618432386,
      "grad_norm": 0.4485880732536316,
      "learning_rate": 0.00025383465733135854,
      "loss": 2.9346,
      "step": 85800
    },
    {
      "epoch": 23.102820844099913,
      "grad_norm": 0.4755620062351227,
      "learning_rate": 0.00025363269153090074,
      "loss": 2.9237,
      "step": 85850
    },
    {
      "epoch": 23.11627906976744,
      "grad_norm": 0.4183093011379242,
      "learning_rate": 0.00025343072573044294,
      "loss": 2.9378,
      "step": 85900
    },
    {
      "epoch": 23.12973729543497,
      "grad_norm": 0.4465462565422058,
      "learning_rate": 0.00025322875992998513,
      "loss": 2.9452,
      "step": 85950
    },
    {
      "epoch": 23.1431955211025,
      "grad_norm": 0.42842474579811096,
      "learning_rate": 0.0002530267941295274,
      "loss": 2.9407,
      "step": 86000
    },
    {
      "epoch": 23.1431955211025,
      "eval_accuracy": 0.3958654656408665,
      "eval_loss": 3.2916109561920166,
      "eval_runtime": 54.925,
      "eval_samples_per_second": 327.938,
      "eval_steps_per_second": 20.501,
      "step": 86000
    },
    {
      "epoch": 23.156653746770026,
      "grad_norm": 0.4357658624649048,
      "learning_rate": 0.0002528248283290696,
      "loss": 2.9473,
      "step": 86050
    },
    {
      "epoch": 23.170111972437553,
      "grad_norm": 0.4642813503742218,
      "learning_rate": 0.00025262286252861183,
      "loss": 2.9555,
      "step": 86100
    },
    {
      "epoch": 23.18357019810508,
      "grad_norm": 0.45447543263435364,
      "learning_rate": 0.000252420896728154,
      "loss": 2.9458,
      "step": 86150
    },
    {
      "epoch": 23.19702842377261,
      "grad_norm": 0.44857949018478394,
      "learning_rate": 0.0002522189309276962,
      "loss": 2.9494,
      "step": 86200
    },
    {
      "epoch": 23.21048664944014,
      "grad_norm": 0.4471588730812073,
      "learning_rate": 0.0002520169651272384,
      "loss": 2.946,
      "step": 86250
    },
    {
      "epoch": 23.223944875107666,
      "grad_norm": 0.4542173147201538,
      "learning_rate": 0.00025181499932678067,
      "loss": 2.9522,
      "step": 86300
    },
    {
      "epoch": 23.237403100775193,
      "grad_norm": 0.44934558868408203,
      "learning_rate": 0.00025161303352632286,
      "loss": 2.9551,
      "step": 86350
    },
    {
      "epoch": 23.25086132644272,
      "grad_norm": 0.45528241991996765,
      "learning_rate": 0.00025141106772586506,
      "loss": 2.9546,
      "step": 86400
    },
    {
      "epoch": 23.26431955211025,
      "grad_norm": 0.4349673092365265,
      "learning_rate": 0.00025120910192540726,
      "loss": 2.9571,
      "step": 86450
    },
    {
      "epoch": 23.27777777777778,
      "grad_norm": 0.44581711292266846,
      "learning_rate": 0.00025100713612494945,
      "loss": 2.9511,
      "step": 86500
    },
    {
      "epoch": 23.291236003445306,
      "grad_norm": 0.4143180251121521,
      "learning_rate": 0.0002508051703244917,
      "loss": 2.9606,
      "step": 86550
    },
    {
      "epoch": 23.304694229112833,
      "grad_norm": 0.44750291109085083,
      "learning_rate": 0.0002506032045240339,
      "loss": 2.9643,
      "step": 86600
    },
    {
      "epoch": 23.31815245478036,
      "grad_norm": 0.4560827612876892,
      "learning_rate": 0.00025040123872357615,
      "loss": 2.961,
      "step": 86650
    },
    {
      "epoch": 23.33161068044789,
      "grad_norm": 0.45675498247146606,
      "learning_rate": 0.00025019927292311834,
      "loss": 2.967,
      "step": 86700
    },
    {
      "epoch": 23.34506890611542,
      "grad_norm": 0.4347269833087921,
      "learning_rate": 0.00024999730712266054,
      "loss": 2.965,
      "step": 86750
    },
    {
      "epoch": 23.358527131782946,
      "grad_norm": 0.4316846430301666,
      "learning_rate": 0.00024979534132220274,
      "loss": 2.9634,
      "step": 86800
    },
    {
      "epoch": 23.371985357450473,
      "grad_norm": 0.47420305013656616,
      "learning_rate": 0.00024959337552174493,
      "loss": 2.9675,
      "step": 86850
    },
    {
      "epoch": 23.385443583118,
      "grad_norm": 0.44756773114204407,
      "learning_rate": 0.0002493914097212872,
      "loss": 2.9659,
      "step": 86900
    },
    {
      "epoch": 23.39890180878553,
      "grad_norm": 0.5035362243652344,
      "learning_rate": 0.0002491894439208294,
      "loss": 2.9752,
      "step": 86950
    },
    {
      "epoch": 23.41236003445306,
      "grad_norm": 0.46639010310173035,
      "learning_rate": 0.00024898747812037163,
      "loss": 2.9756,
      "step": 87000
    },
    {
      "epoch": 23.41236003445306,
      "eval_accuracy": 0.3962778891045891,
      "eval_loss": 3.2877182960510254,
      "eval_runtime": 54.721,
      "eval_samples_per_second": 329.161,
      "eval_steps_per_second": 20.577,
      "step": 87000
    },
    {
      "epoch": 23.425818260120586,
      "grad_norm": 0.44842982292175293,
      "learning_rate": 0.0002487855123199138,
      "loss": 2.9664,
      "step": 87050
    },
    {
      "epoch": 23.439276485788113,
      "grad_norm": 0.45062634348869324,
      "learning_rate": 0.000248583546519456,
      "loss": 2.9603,
      "step": 87100
    },
    {
      "epoch": 23.45273471145564,
      "grad_norm": 0.4483391046524048,
      "learning_rate": 0.0002483815807189982,
      "loss": 2.976,
      "step": 87150
    },
    {
      "epoch": 23.466192937123168,
      "grad_norm": 0.45215165615081787,
      "learning_rate": 0.0002481796149185404,
      "loss": 2.9683,
      "step": 87200
    },
    {
      "epoch": 23.4796511627907,
      "grad_norm": 0.48873844742774963,
      "learning_rate": 0.00024797764911808266,
      "loss": 2.9729,
      "step": 87250
    },
    {
      "epoch": 23.493109388458226,
      "grad_norm": 0.4677174985408783,
      "learning_rate": 0.00024777568331762486,
      "loss": 2.9737,
      "step": 87300
    },
    {
      "epoch": 23.506567614125753,
      "grad_norm": 0.43766000866889954,
      "learning_rate": 0.00024757371751716706,
      "loss": 2.9754,
      "step": 87350
    },
    {
      "epoch": 23.52002583979328,
      "grad_norm": 0.42998966574668884,
      "learning_rate": 0.0002473717517167093,
      "loss": 2.9692,
      "step": 87400
    },
    {
      "epoch": 23.533484065460808,
      "grad_norm": 0.45019766688346863,
      "learning_rate": 0.0002471697859162515,
      "loss": 2.9847,
      "step": 87450
    },
    {
      "epoch": 23.54694229112834,
      "grad_norm": 0.43693816661834717,
      "learning_rate": 0.0002469678201157937,
      "loss": 2.9708,
      "step": 87500
    },
    {
      "epoch": 23.560400516795866,
      "grad_norm": 0.4665409326553345,
      "learning_rate": 0.0002467658543153359,
      "loss": 2.9764,
      "step": 87550
    },
    {
      "epoch": 23.573858742463393,
      "grad_norm": 0.46596479415893555,
      "learning_rate": 0.00024656388851487815,
      "loss": 2.9756,
      "step": 87600
    },
    {
      "epoch": 23.58731696813092,
      "grad_norm": 0.4340677857398987,
      "learning_rate": 0.00024636192271442034,
      "loss": 2.9808,
      "step": 87650
    },
    {
      "epoch": 23.600775193798448,
      "grad_norm": 0.47798460721969604,
      "learning_rate": 0.00024615995691396254,
      "loss": 2.9849,
      "step": 87700
    },
    {
      "epoch": 23.61423341946598,
      "grad_norm": 0.45297908782958984,
      "learning_rate": 0.00024595799111350473,
      "loss": 2.9802,
      "step": 87750
    },
    {
      "epoch": 23.627691645133506,
      "grad_norm": 0.473803848028183,
      "learning_rate": 0.00024575602531304693,
      "loss": 2.9863,
      "step": 87800
    },
    {
      "epoch": 23.641149870801033,
      "grad_norm": 0.4625190794467926,
      "learning_rate": 0.0002455540595125892,
      "loss": 2.9927,
      "step": 87850
    },
    {
      "epoch": 23.65460809646856,
      "grad_norm": 0.4412365257740021,
      "learning_rate": 0.00024535209371213143,
      "loss": 2.9739,
      "step": 87900
    },
    {
      "epoch": 23.668066322136088,
      "grad_norm": 0.4445769488811493,
      "learning_rate": 0.0002451501279116736,
      "loss": 2.9827,
      "step": 87950
    },
    {
      "epoch": 23.68152454780362,
      "grad_norm": 0.4315958619117737,
      "learning_rate": 0.0002449481621112158,
      "loss": 2.981,
      "step": 88000
    },
    {
      "epoch": 23.68152454780362,
      "eval_accuracy": 0.3964807327839279,
      "eval_loss": 3.2832388877868652,
      "eval_runtime": 55.0121,
      "eval_samples_per_second": 327.419,
      "eval_steps_per_second": 20.468,
      "step": 88000
    },
    {
      "epoch": 23.694982773471146,
      "grad_norm": 0.4323495328426361,
      "learning_rate": 0.000244746196310758,
      "loss": 2.9931,
      "step": 88050
    },
    {
      "epoch": 23.708440999138674,
      "grad_norm": 0.46069687604904175,
      "learning_rate": 0.0002445442305103002,
      "loss": 2.9773,
      "step": 88100
    },
    {
      "epoch": 23.7218992248062,
      "grad_norm": 0.4385862946510315,
      "learning_rate": 0.00024434226470984246,
      "loss": 2.9801,
      "step": 88150
    },
    {
      "epoch": 23.735357450473728,
      "grad_norm": 0.45180192589759827,
      "learning_rate": 0.00024414029890938463,
      "loss": 2.988,
      "step": 88200
    },
    {
      "epoch": 23.74881567614126,
      "grad_norm": 0.45826536417007446,
      "learning_rate": 0.00024393833310892686,
      "loss": 2.9816,
      "step": 88250
    },
    {
      "epoch": 23.762273901808786,
      "grad_norm": 0.45120131969451904,
      "learning_rate": 0.0002437363673084691,
      "loss": 2.9752,
      "step": 88300
    },
    {
      "epoch": 23.775732127476314,
      "grad_norm": 0.4657435417175293,
      "learning_rate": 0.0002435344015080113,
      "loss": 2.9837,
      "step": 88350
    },
    {
      "epoch": 23.78919035314384,
      "grad_norm": 0.4517814815044403,
      "learning_rate": 0.0002433324357075535,
      "loss": 2.9858,
      "step": 88400
    },
    {
      "epoch": 23.802648578811368,
      "grad_norm": 0.4310310184955597,
      "learning_rate": 0.00024313046990709572,
      "loss": 2.986,
      "step": 88450
    },
    {
      "epoch": 23.8161068044789,
      "grad_norm": 0.4929543733596802,
      "learning_rate": 0.00024292850410663792,
      "loss": 2.9891,
      "step": 88500
    },
    {
      "epoch": 23.829565030146426,
      "grad_norm": 0.471609890460968,
      "learning_rate": 0.00024272653830618014,
      "loss": 2.9759,
      "step": 88550
    },
    {
      "epoch": 23.843023255813954,
      "grad_norm": 0.48696190118789673,
      "learning_rate": 0.00024252457250572234,
      "loss": 2.9843,
      "step": 88600
    },
    {
      "epoch": 23.85648148148148,
      "grad_norm": 0.4469008147716522,
      "learning_rate": 0.00024232260670526453,
      "loss": 2.99,
      "step": 88650
    },
    {
      "epoch": 23.86993970714901,
      "grad_norm": 0.45953747630119324,
      "learning_rate": 0.00024212064090480676,
      "loss": 2.9742,
      "step": 88700
    },
    {
      "epoch": 23.88339793281654,
      "grad_norm": 0.48521921038627625,
      "learning_rate": 0.00024191867510434898,
      "loss": 2.9907,
      "step": 88750
    },
    {
      "epoch": 23.896856158484066,
      "grad_norm": 0.4295513927936554,
      "learning_rate": 0.0002417167093038912,
      "loss": 2.9931,
      "step": 88800
    },
    {
      "epoch": 23.910314384151594,
      "grad_norm": 0.4355540871620178,
      "learning_rate": 0.0002415147435034334,
      "loss": 2.9859,
      "step": 88850
    },
    {
      "epoch": 23.92377260981912,
      "grad_norm": 0.43405336141586304,
      "learning_rate": 0.00024131277770297562,
      "loss": 3.0063,
      "step": 88900
    },
    {
      "epoch": 23.93723083548665,
      "grad_norm": 0.4761360287666321,
      "learning_rate": 0.00024111081190251782,
      "loss": 2.9799,
      "step": 88950
    },
    {
      "epoch": 23.95068906115418,
      "grad_norm": 0.4812622666358948,
      "learning_rate": 0.00024090884610206002,
      "loss": 2.9913,
      "step": 89000
    },
    {
      "epoch": 23.95068906115418,
      "eval_accuracy": 0.3971195762946468,
      "eval_loss": 3.276291847229004,
      "eval_runtime": 54.8659,
      "eval_samples_per_second": 328.291,
      "eval_steps_per_second": 20.523,
      "step": 89000
    },
    {
      "epoch": 23.964147286821706,
      "grad_norm": 0.4610179662704468,
      "learning_rate": 0.00024070688030160224,
      "loss": 2.9939,
      "step": 89050
    },
    {
      "epoch": 23.977605512489234,
      "grad_norm": 0.4359179735183716,
      "learning_rate": 0.00024050491450114443,
      "loss": 2.9952,
      "step": 89100
    },
    {
      "epoch": 23.99106373815676,
      "grad_norm": 0.45922085642814636,
      "learning_rate": 0.00024030294870068666,
      "loss": 2.9857,
      "step": 89150
    },
    {
      "epoch": 24.00430663221361,
      "grad_norm": 0.46470963954925537,
      "learning_rate": 0.00024010098290022888,
      "loss": 2.9692,
      "step": 89200
    },
    {
      "epoch": 24.017764857881136,
      "grad_norm": 0.42660030722618103,
      "learning_rate": 0.0002398990170997711,
      "loss": 2.8936,
      "step": 89250
    },
    {
      "epoch": 24.031223083548664,
      "grad_norm": 0.433124840259552,
      "learning_rate": 0.0002396970512993133,
      "loss": 2.9173,
      "step": 89300
    },
    {
      "epoch": 24.044681309216195,
      "grad_norm": 0.4298465847969055,
      "learning_rate": 0.00023949508549885552,
      "loss": 2.9137,
      "step": 89350
    },
    {
      "epoch": 24.058139534883722,
      "grad_norm": 0.4245285987854004,
      "learning_rate": 0.00023929311969839772,
      "loss": 2.9107,
      "step": 89400
    },
    {
      "epoch": 24.07159776055125,
      "grad_norm": 0.465323269367218,
      "learning_rate": 0.00023909115389793992,
      "loss": 2.92,
      "step": 89450
    },
    {
      "epoch": 24.085055986218777,
      "grad_norm": 0.47525930404663086,
      "learning_rate": 0.00023888918809748214,
      "loss": 2.9168,
      "step": 89500
    },
    {
      "epoch": 24.098514211886304,
      "grad_norm": 0.46605080366134644,
      "learning_rate": 0.00023868722229702433,
      "loss": 2.9265,
      "step": 89550
    },
    {
      "epoch": 24.11197243755383,
      "grad_norm": 0.4591079354286194,
      "learning_rate": 0.00023848525649656656,
      "loss": 2.9212,
      "step": 89600
    },
    {
      "epoch": 24.125430663221362,
      "grad_norm": 0.4741298258304596,
      "learning_rate": 0.00023828329069610878,
      "loss": 2.9165,
      "step": 89650
    },
    {
      "epoch": 24.13888888888889,
      "grad_norm": 0.46697476506233215,
      "learning_rate": 0.000238081324895651,
      "loss": 2.9309,
      "step": 89700
    },
    {
      "epoch": 24.152347114556417,
      "grad_norm": 0.47774580121040344,
      "learning_rate": 0.0002378793590951932,
      "loss": 2.9415,
      "step": 89750
    },
    {
      "epoch": 24.165805340223944,
      "grad_norm": 0.4766087532043457,
      "learning_rate": 0.0002376773932947354,
      "loss": 2.9361,
      "step": 89800
    },
    {
      "epoch": 24.17926356589147,
      "grad_norm": 0.464669793844223,
      "learning_rate": 0.00023747542749427762,
      "loss": 2.9333,
      "step": 89850
    },
    {
      "epoch": 24.192721791559002,
      "grad_norm": 0.43852221965789795,
      "learning_rate": 0.00023727346169381982,
      "loss": 2.9363,
      "step": 89900
    },
    {
      "epoch": 24.20618001722653,
      "grad_norm": 0.4529156982898712,
      "learning_rate": 0.00023707149589336204,
      "loss": 2.9422,
      "step": 89950
    },
    {
      "epoch": 24.219638242894057,
      "grad_norm": 0.5049745440483093,
      "learning_rate": 0.00023686953009290424,
      "loss": 2.958,
      "step": 90000
    },
    {
      "epoch": 24.219638242894057,
      "eval_accuracy": 0.3960319126235912,
      "eval_loss": 3.292781352996826,
      "eval_runtime": 54.9708,
      "eval_samples_per_second": 327.665,
      "eval_steps_per_second": 20.484,
      "step": 90000
    },
    {
      "epoch": 24.233096468561584,
      "grad_norm": 0.4704437255859375,
      "learning_rate": 0.00023666756429244643,
      "loss": 2.9132,
      "step": 90050
    },
    {
      "epoch": 24.24655469422911,
      "grad_norm": 0.4529268145561218,
      "learning_rate": 0.00023646559849198868,
      "loss": 2.9176,
      "step": 90100
    },
    {
      "epoch": 24.260012919896642,
      "grad_norm": 0.43529608845710754,
      "learning_rate": 0.00023626363269153088,
      "loss": 2.9243,
      "step": 90150
    },
    {
      "epoch": 24.27347114556417,
      "grad_norm": 0.48170673847198486,
      "learning_rate": 0.0002360616668910731,
      "loss": 2.9182,
      "step": 90200
    },
    {
      "epoch": 24.286929371231697,
      "grad_norm": 0.46854284405708313,
      "learning_rate": 0.0002358597010906153,
      "loss": 2.9155,
      "step": 90250
    },
    {
      "epoch": 24.300387596899224,
      "grad_norm": 0.45262134075164795,
      "learning_rate": 0.00023565773529015752,
      "loss": 2.926,
      "step": 90300
    },
    {
      "epoch": 24.31384582256675,
      "grad_norm": 0.4530410170555115,
      "learning_rate": 0.00023545576948969972,
      "loss": 2.929,
      "step": 90350
    },
    {
      "epoch": 24.327304048234282,
      "grad_norm": 0.483509361743927,
      "learning_rate": 0.00023525380368924194,
      "loss": 2.9243,
      "step": 90400
    },
    {
      "epoch": 24.34076227390181,
      "grad_norm": 0.4750220477581024,
      "learning_rate": 0.00023505183788878414,
      "loss": 2.9258,
      "step": 90450
    },
    {
      "epoch": 24.354220499569337,
      "grad_norm": 0.4815353751182556,
      "learning_rate": 0.00023484987208832633,
      "loss": 2.9405,
      "step": 90500
    },
    {
      "epoch": 24.367678725236864,
      "grad_norm": 0.49263864755630493,
      "learning_rate": 0.00023464790628786858,
      "loss": 2.9295,
      "step": 90550
    },
    {
      "epoch": 24.38113695090439,
      "grad_norm": 0.4376738667488098,
      "learning_rate": 0.00023444594048741078,
      "loss": 2.9399,
      "step": 90600
    },
    {
      "epoch": 24.394595176571922,
      "grad_norm": 0.47231411933898926,
      "learning_rate": 0.000234243974686953,
      "loss": 2.9306,
      "step": 90650
    },
    {
      "epoch": 24.40805340223945,
      "grad_norm": 0.4553051292896271,
      "learning_rate": 0.0002340420088864952,
      "loss": 2.9463,
      "step": 90700
    },
    {
      "epoch": 24.421511627906977,
      "grad_norm": 0.47880223393440247,
      "learning_rate": 0.00023384004308603742,
      "loss": 2.9336,
      "step": 90750
    },
    {
      "epoch": 24.434969853574504,
      "grad_norm": 0.422132670879364,
      "learning_rate": 0.00023363807728557962,
      "loss": 2.9377,
      "step": 90800
    },
    {
      "epoch": 24.44842807924203,
      "grad_norm": 0.475422739982605,
      "learning_rate": 0.0002334361114851218,
      "loss": 2.9358,
      "step": 90850
    },
    {
      "epoch": 24.461886304909562,
      "grad_norm": 0.4530656933784485,
      "learning_rate": 0.00023323414568466404,
      "loss": 2.9447,
      "step": 90900
    },
    {
      "epoch": 24.47534453057709,
      "grad_norm": 0.4522700607776642,
      "learning_rate": 0.00023303217988420623,
      "loss": 2.9453,
      "step": 90950
    },
    {
      "epoch": 24.488802756244617,
      "grad_norm": 0.4927493929862976,
      "learning_rate": 0.00023283021408374848,
      "loss": 2.951,
      "step": 91000
    },
    {
      "epoch": 24.488802756244617,
      "eval_accuracy": 0.3960585311032045,
      "eval_loss": 3.29355788230896,
      "eval_runtime": 147.0497,
      "eval_samples_per_second": 122.489,
      "eval_steps_per_second": 7.657,
      "step": 91000
    },
    {
      "epoch": 24.502260981912144,
      "grad_norm": 0.447524756193161,
      "learning_rate": 0.00023262824828329068,
      "loss": 2.9552,
      "step": 91050
    },
    {
      "epoch": 24.51571920757967,
      "grad_norm": 0.45930957794189453,
      "learning_rate": 0.0002324262824828329,
      "loss": 2.9467,
      "step": 91100
    },
    {
      "epoch": 24.529177433247202,
      "grad_norm": 0.473864883184433,
      "learning_rate": 0.0002322243166823751,
      "loss": 2.9415,
      "step": 91150
    },
    {
      "epoch": 24.54263565891473,
      "grad_norm": 0.4445241689682007,
      "learning_rate": 0.0002320223508819173,
      "loss": 2.94,
      "step": 91200
    },
    {
      "epoch": 24.556093884582257,
      "grad_norm": 0.4805726110935211,
      "learning_rate": 0.00023182038508145952,
      "loss": 2.9394,
      "step": 91250
    },
    {
      "epoch": 24.569552110249784,
      "grad_norm": 0.4495256543159485,
      "learning_rate": 0.0002316184192810017,
      "loss": 2.9555,
      "step": 91300
    },
    {
      "epoch": 24.58301033591731,
      "grad_norm": 0.4489133954048157,
      "learning_rate": 0.00023141645348054394,
      "loss": 2.9541,
      "step": 91350
    },
    {
      "epoch": 24.596468561584842,
      "grad_norm": 0.48831552267074585,
      "learning_rate": 0.00023121448768008613,
      "loss": 2.9554,
      "step": 91400
    },
    {
      "epoch": 24.60992678725237,
      "grad_norm": 0.4598943591117859,
      "learning_rate": 0.00023101252187962838,
      "loss": 2.9543,
      "step": 91450
    },
    {
      "epoch": 24.623385012919897,
      "grad_norm": 0.4772765040397644,
      "learning_rate": 0.00023081055607917058,
      "loss": 2.9584,
      "step": 91500
    },
    {
      "epoch": 24.636843238587424,
      "grad_norm": 0.47404298186302185,
      "learning_rate": 0.0002306085902787128,
      "loss": 2.9563,
      "step": 91550
    },
    {
      "epoch": 24.65030146425495,
      "grad_norm": 0.5125542283058167,
      "learning_rate": 0.000230406624478255,
      "loss": 2.964,
      "step": 91600
    },
    {
      "epoch": 24.66375968992248,
      "grad_norm": 0.48980486392974854,
      "learning_rate": 0.0002302046586777972,
      "loss": 2.9626,
      "step": 91650
    },
    {
      "epoch": 24.67721791559001,
      "grad_norm": 0.48496899008750916,
      "learning_rate": 0.00023000269287733942,
      "loss": 2.9436,
      "step": 91700
    },
    {
      "epoch": 24.690676141257537,
      "grad_norm": 0.49066996574401855,
      "learning_rate": 0.00022980072707688161,
      "loss": 2.9684,
      "step": 91750
    },
    {
      "epoch": 24.704134366925064,
      "grad_norm": 0.4482797086238861,
      "learning_rate": 0.00022959876127642384,
      "loss": 2.9512,
      "step": 91800
    },
    {
      "epoch": 24.71759259259259,
      "grad_norm": 0.49523958563804626,
      "learning_rate": 0.00022939679547596603,
      "loss": 2.9561,
      "step": 91850
    },
    {
      "epoch": 24.73105081826012,
      "grad_norm": 0.44394782185554504,
      "learning_rate": 0.00022919482967550828,
      "loss": 2.9688,
      "step": 91900
    },
    {
      "epoch": 24.74450904392765,
      "grad_norm": 0.49176523089408875,
      "learning_rate": 0.00022899286387505048,
      "loss": 2.9611,
      "step": 91950
    },
    {
      "epoch": 24.757967269595177,
      "grad_norm": 0.4634227156639099,
      "learning_rate": 0.00022879089807459268,
      "loss": 2.9644,
      "step": 92000
    },
    {
      "epoch": 24.757967269595177,
      "eval_accuracy": 0.396619148877917,
      "eval_loss": 3.2853758335113525,
      "eval_runtime": 147.3435,
      "eval_samples_per_second": 122.245,
      "eval_steps_per_second": 7.642,
      "step": 92000
    },
    {
      "epoch": 24.771425495262704,
      "grad_norm": 0.4450036287307739,
      "learning_rate": 0.0002285889322741349,
      "loss": 2.9646,
      "step": 92050
    },
    {
      "epoch": 24.78488372093023,
      "grad_norm": 0.46700024604797363,
      "learning_rate": 0.0002283869664736771,
      "loss": 2.9706,
      "step": 92100
    },
    {
      "epoch": 24.79834194659776,
      "grad_norm": 0.48077601194381714,
      "learning_rate": 0.00022818500067321932,
      "loss": 2.9661,
      "step": 92150
    },
    {
      "epoch": 24.81180017226529,
      "grad_norm": 0.46260204911231995,
      "learning_rate": 0.00022798303487276151,
      "loss": 2.9705,
      "step": 92200
    },
    {
      "epoch": 24.825258397932817,
      "grad_norm": 0.4556381106376648,
      "learning_rate": 0.0002277810690723037,
      "loss": 2.9745,
      "step": 92250
    },
    {
      "epoch": 24.838716623600344,
      "grad_norm": 0.4934409558773041,
      "learning_rate": 0.00022757910327184596,
      "loss": 2.9711,
      "step": 92300
    },
    {
      "epoch": 24.852174849267872,
      "grad_norm": 0.46511897444725037,
      "learning_rate": 0.00022737713747138818,
      "loss": 2.9626,
      "step": 92350
    },
    {
      "epoch": 24.8656330749354,
      "grad_norm": 0.43899616599082947,
      "learning_rate": 0.00022717517167093038,
      "loss": 2.9746,
      "step": 92400
    },
    {
      "epoch": 24.87909130060293,
      "grad_norm": 0.46751806139945984,
      "learning_rate": 0.00022697320587047258,
      "loss": 2.9637,
      "step": 92450
    },
    {
      "epoch": 24.892549526270457,
      "grad_norm": 0.465297132730484,
      "learning_rate": 0.0002267712400700148,
      "loss": 2.9674,
      "step": 92500
    },
    {
      "epoch": 24.906007751937985,
      "grad_norm": 0.44672736525535583,
      "learning_rate": 0.000226569274269557,
      "loss": 2.9694,
      "step": 92550
    },
    {
      "epoch": 24.919465977605512,
      "grad_norm": 0.4716099798679352,
      "learning_rate": 0.00022636730846909922,
      "loss": 2.9788,
      "step": 92600
    },
    {
      "epoch": 24.93292420327304,
      "grad_norm": 0.47384023666381836,
      "learning_rate": 0.00022616534266864141,
      "loss": 2.9707,
      "step": 92650
    },
    {
      "epoch": 24.94638242894057,
      "grad_norm": 0.5042713284492493,
      "learning_rate": 0.0002259633768681836,
      "loss": 2.983,
      "step": 92700
    },
    {
      "epoch": 24.959840654608097,
      "grad_norm": 0.4943690896034241,
      "learning_rate": 0.00022576141106772586,
      "loss": 2.9636,
      "step": 92750
    },
    {
      "epoch": 24.973298880275625,
      "grad_norm": 0.4922303557395935,
      "learning_rate": 0.00022555944526726806,
      "loss": 2.9757,
      "step": 92800
    },
    {
      "epoch": 24.986757105943152,
      "grad_norm": 0.46571773290634155,
      "learning_rate": 0.00022535747946681028,
      "loss": 2.9737,
      "step": 92850
    },
    {
      "epoch": 25.00026916451335,
      "grad_norm": 1.1899535655975342,
      "learning_rate": 0.00022515551366635248,
      "loss": 3.0341,
      "step": 92900
    },
    {
      "epoch": 25.01372739018088,
      "grad_norm": 0.4870604872703552,
      "learning_rate": 0.0002249535478658947,
      "loss": 2.9042,
      "step": 92950
    },
    {
      "epoch": 25.027185615848406,
      "grad_norm": 0.469473272562027,
      "learning_rate": 0.0002247515820654369,
      "loss": 2.9012,
      "step": 93000
    },
    {
      "epoch": 25.027185615848406,
      "eval_accuracy": 0.39639979087653243,
      "eval_loss": 3.292593240737915,
      "eval_runtime": 147.4879,
      "eval_samples_per_second": 122.125,
      "eval_steps_per_second": 7.635,
      "step": 93000
    },
    {
      "epoch": 25.040643841515934,
      "grad_norm": 0.4822351336479187,
      "learning_rate": 0.0002245496162649791,
      "loss": 2.9127,
      "step": 93050
    },
    {
      "epoch": 25.05410206718346,
      "grad_norm": 0.46038123965263367,
      "learning_rate": 0.00022434765046452131,
      "loss": 2.9251,
      "step": 93100
    },
    {
      "epoch": 25.06756029285099,
      "grad_norm": 0.44845762848854065,
      "learning_rate": 0.0002241456846640635,
      "loss": 2.9082,
      "step": 93150
    },
    {
      "epoch": 25.08101851851852,
      "grad_norm": 0.5279198288917542,
      "learning_rate": 0.00022394371886360576,
      "loss": 2.9228,
      "step": 93200
    },
    {
      "epoch": 25.094476744186046,
      "grad_norm": 0.45746752619743347,
      "learning_rate": 0.00022374175306314796,
      "loss": 2.9189,
      "step": 93250
    },
    {
      "epoch": 25.107934969853574,
      "grad_norm": 0.4499928653240204,
      "learning_rate": 0.00022353978726269018,
      "loss": 2.919,
      "step": 93300
    },
    {
      "epoch": 25.1213931955211,
      "grad_norm": 0.4959993064403534,
      "learning_rate": 0.00022333782146223238,
      "loss": 2.9152,
      "step": 93350
    },
    {
      "epoch": 25.134851421188632,
      "grad_norm": 0.47189101576805115,
      "learning_rate": 0.0002231358556617746,
      "loss": 2.9283,
      "step": 93400
    },
    {
      "epoch": 25.14830964685616,
      "grad_norm": 0.47774845361709595,
      "learning_rate": 0.0002229338898613168,
      "loss": 2.9224,
      "step": 93450
    },
    {
      "epoch": 25.161767872523686,
      "grad_norm": 0.45308101177215576,
      "learning_rate": 0.000222731924060859,
      "loss": 2.9252,
      "step": 93500
    },
    {
      "epoch": 25.175226098191214,
      "grad_norm": 0.4624495208263397,
      "learning_rate": 0.00022252995826040122,
      "loss": 2.9312,
      "step": 93550
    },
    {
      "epoch": 25.18868432385874,
      "grad_norm": 0.4419146180152893,
      "learning_rate": 0.0002223279924599434,
      "loss": 2.9285,
      "step": 93600
    },
    {
      "epoch": 25.202142549526272,
      "grad_norm": 0.4739558696746826,
      "learning_rate": 0.00022212602665948566,
      "loss": 2.9303,
      "step": 93650
    },
    {
      "epoch": 25.2156007751938,
      "grad_norm": 0.4595142900943756,
      "learning_rate": 0.00022192406085902786,
      "loss": 2.9369,
      "step": 93700
    },
    {
      "epoch": 25.229059000861326,
      "grad_norm": 0.47502854466438293,
      "learning_rate": 0.00022172209505857008,
      "loss": 2.9372,
      "step": 93750
    },
    {
      "epoch": 25.242517226528854,
      "grad_norm": 0.4656815826892853,
      "learning_rate": 0.00022152012925811228,
      "loss": 2.9324,
      "step": 93800
    },
    {
      "epoch": 25.25597545219638,
      "grad_norm": 0.4996993839740753,
      "learning_rate": 0.00022131816345765447,
      "loss": 2.9346,
      "step": 93850
    },
    {
      "epoch": 25.269433677863912,
      "grad_norm": 0.43119895458221436,
      "learning_rate": 0.0002211161976571967,
      "loss": 2.9464,
      "step": 93900
    },
    {
      "epoch": 25.28289190353144,
      "grad_norm": 0.48845374584198,
      "learning_rate": 0.0002209142318567389,
      "loss": 2.9391,
      "step": 93950
    },
    {
      "epoch": 25.296350129198967,
      "grad_norm": 0.44671630859375,
      "learning_rate": 0.00022071226605628112,
      "loss": 2.9246,
      "step": 94000
    },
    {
      "epoch": 25.296350129198967,
      "eval_accuracy": 0.3961111161812977,
      "eval_loss": 3.2946267127990723,
      "eval_runtime": 146.1973,
      "eval_samples_per_second": 123.203,
      "eval_steps_per_second": 7.702,
      "step": 94000
    },
    {
      "epoch": 25.309808354866494,
      "grad_norm": 0.48212531208992004,
      "learning_rate": 0.0002205103002558233,
      "loss": 2.942,
      "step": 94050
    },
    {
      "epoch": 25.32326658053402,
      "grad_norm": 0.540875256061554,
      "learning_rate": 0.00022030833445536556,
      "loss": 2.9456,
      "step": 94100
    },
    {
      "epoch": 25.336724806201552,
      "grad_norm": 0.4727246165275574,
      "learning_rate": 0.00022010636865490776,
      "loss": 2.9372,
      "step": 94150
    },
    {
      "epoch": 25.35018303186908,
      "grad_norm": 0.48135116696357727,
      "learning_rate": 0.00021990440285444998,
      "loss": 2.9495,
      "step": 94200
    },
    {
      "epoch": 25.363641257536607,
      "grad_norm": 0.48746976256370544,
      "learning_rate": 0.00021970243705399218,
      "loss": 2.944,
      "step": 94250
    },
    {
      "epoch": 25.377099483204134,
      "grad_norm": 0.43600234389305115,
      "learning_rate": 0.00021950047125353437,
      "loss": 2.9406,
      "step": 94300
    },
    {
      "epoch": 25.39055770887166,
      "grad_norm": 0.4867391288280487,
      "learning_rate": 0.0002192985054530766,
      "loss": 2.9455,
      "step": 94350
    },
    {
      "epoch": 25.404015934539192,
      "grad_norm": 0.4582846760749817,
      "learning_rate": 0.0002190965396526188,
      "loss": 2.9339,
      "step": 94400
    },
    {
      "epoch": 25.41747416020672,
      "grad_norm": 0.49392837285995483,
      "learning_rate": 0.00021889457385216102,
      "loss": 2.9495,
      "step": 94450
    },
    {
      "epoch": 25.430932385874247,
      "grad_norm": 0.46900445222854614,
      "learning_rate": 0.0002186926080517032,
      "loss": 2.9567,
      "step": 94500
    },
    {
      "epoch": 25.444390611541774,
      "grad_norm": 0.504092812538147,
      "learning_rate": 0.00021849064225124546,
      "loss": 2.9483,
      "step": 94550
    },
    {
      "epoch": 25.4578488372093,
      "grad_norm": 0.45981499552726746,
      "learning_rate": 0.00021828867645078766,
      "loss": 2.9443,
      "step": 94600
    },
    {
      "epoch": 25.471307062876832,
      "grad_norm": 0.47376635670661926,
      "learning_rate": 0.00021808671065032985,
      "loss": 2.9667,
      "step": 94650
    },
    {
      "epoch": 25.48476528854436,
      "grad_norm": 0.4677162766456604,
      "learning_rate": 0.00021788474484987208,
      "loss": 2.9544,
      "step": 94700
    },
    {
      "epoch": 25.498223514211887,
      "grad_norm": 0.4654765725135803,
      "learning_rate": 0.00021768277904941427,
      "loss": 2.9487,
      "step": 94750
    },
    {
      "epoch": 25.511681739879414,
      "grad_norm": 0.49871331453323364,
      "learning_rate": 0.0002174808132489565,
      "loss": 2.9439,
      "step": 94800
    },
    {
      "epoch": 25.52513996554694,
      "grad_norm": 0.511438250541687,
      "learning_rate": 0.0002172788474484987,
      "loss": 2.9495,
      "step": 94850
    },
    {
      "epoch": 25.53859819121447,
      "grad_norm": 0.48844873905181885,
      "learning_rate": 0.0002170768816480409,
      "loss": 2.9612,
      "step": 94900
    },
    {
      "epoch": 25.552056416882,
      "grad_norm": 0.4564681649208069,
      "learning_rate": 0.0002168749158475831,
      "loss": 2.9637,
      "step": 94950
    },
    {
      "epoch": 25.565514642549527,
      "grad_norm": 0.4665428698062897,
      "learning_rate": 0.00021667295004712534,
      "loss": 2.9605,
      "step": 95000
    },
    {
      "epoch": 25.565514642549527,
      "eval_accuracy": 0.3967212769221476,
      "eval_loss": 3.2849857807159424,
      "eval_runtime": 146.1173,
      "eval_samples_per_second": 123.271,
      "eval_steps_per_second": 7.706,
      "step": 95000
    },
    {
      "epoch": 25.578972868217054,
      "grad_norm": 0.45568856596946716,
      "learning_rate": 0.00021647098424666756,
      "loss": 2.9594,
      "step": 95050
    },
    {
      "epoch": 25.59243109388458,
      "grad_norm": 0.47148966789245605,
      "learning_rate": 0.00021626901844620976,
      "loss": 2.9654,
      "step": 95100
    },
    {
      "epoch": 25.60588931955211,
      "grad_norm": 0.4540193974971771,
      "learning_rate": 0.00021606705264575198,
      "loss": 2.9655,
      "step": 95150
    },
    {
      "epoch": 25.61934754521964,
      "grad_norm": 0.491960734128952,
      "learning_rate": 0.00021586508684529417,
      "loss": 2.9575,
      "step": 95200
    },
    {
      "epoch": 25.632805770887167,
      "grad_norm": 0.4663715958595276,
      "learning_rate": 0.0002156631210448364,
      "loss": 2.9559,
      "step": 95250
    },
    {
      "epoch": 25.646263996554694,
      "grad_norm": 0.45852020382881165,
      "learning_rate": 0.0002154611552443786,
      "loss": 2.9595,
      "step": 95300
    },
    {
      "epoch": 25.65972222222222,
      "grad_norm": 0.48818692564964294,
      "learning_rate": 0.0002152591894439208,
      "loss": 2.9513,
      "step": 95350
    },
    {
      "epoch": 25.67318044788975,
      "grad_norm": 0.4618067145347595,
      "learning_rate": 0.000215057223643463,
      "loss": 2.9658,
      "step": 95400
    },
    {
      "epoch": 25.68663867355728,
      "grad_norm": 0.4699975848197937,
      "learning_rate": 0.00021485525784300524,
      "loss": 2.9694,
      "step": 95450
    },
    {
      "epoch": 25.700096899224807,
      "grad_norm": 0.49483734369277954,
      "learning_rate": 0.00021465329204254746,
      "loss": 2.9666,
      "step": 95500
    },
    {
      "epoch": 25.713555124892334,
      "grad_norm": 0.479103684425354,
      "learning_rate": 0.00021445132624208966,
      "loss": 2.9711,
      "step": 95550
    },
    {
      "epoch": 25.72701335055986,
      "grad_norm": 0.5061235427856445,
      "learning_rate": 0.00021424936044163188,
      "loss": 2.9746,
      "step": 95600
    },
    {
      "epoch": 25.74047157622739,
      "grad_norm": 0.5018367171287537,
      "learning_rate": 0.00021404739464117407,
      "loss": 2.9706,
      "step": 95650
    },
    {
      "epoch": 25.75392980189492,
      "grad_norm": 0.47308751940727234,
      "learning_rate": 0.00021384542884071627,
      "loss": 2.961,
      "step": 95700
    },
    {
      "epoch": 25.767388027562447,
      "grad_norm": 0.47990474104881287,
      "learning_rate": 0.0002136434630402585,
      "loss": 2.9735,
      "step": 95750
    },
    {
      "epoch": 25.780846253229974,
      "grad_norm": 0.5104753375053406,
      "learning_rate": 0.0002134414972398007,
      "loss": 2.9615,
      "step": 95800
    },
    {
      "epoch": 25.7943044788975,
      "grad_norm": 0.4795853793621063,
      "learning_rate": 0.0002132395314393429,
      "loss": 2.9692,
      "step": 95850
    },
    {
      "epoch": 25.80776270456503,
      "grad_norm": 0.47165408730506897,
      "learning_rate": 0.00021303756563888514,
      "loss": 2.9595,
      "step": 95900
    },
    {
      "epoch": 25.82122093023256,
      "grad_norm": 0.4764661192893982,
      "learning_rate": 0.00021283559983842736,
      "loss": 2.9581,
      "step": 95950
    },
    {
      "epoch": 25.834679155900087,
      "grad_norm": 0.4767214357852936,
      "learning_rate": 0.00021263363403796956,
      "loss": 2.9767,
      "step": 96000
    },
    {
      "epoch": 25.834679155900087,
      "eval_accuracy": 0.3970028895717706,
      "eval_loss": 3.2806341648101807,
      "eval_runtime": 146.2565,
      "eval_samples_per_second": 123.154,
      "eval_steps_per_second": 7.699,
      "step": 96000
    },
    {
      "epoch": 25.848137381567614,
      "grad_norm": 0.48081299662590027,
      "learning_rate": 0.00021243166823751175,
      "loss": 2.9614,
      "step": 96050
    },
    {
      "epoch": 25.86159560723514,
      "grad_norm": 0.4761458933353424,
      "learning_rate": 0.00021222970243705398,
      "loss": 2.9817,
      "step": 96100
    },
    {
      "epoch": 25.87505383290267,
      "grad_norm": 0.4514337182044983,
      "learning_rate": 0.00021202773663659617,
      "loss": 2.9691,
      "step": 96150
    },
    {
      "epoch": 25.8885120585702,
      "grad_norm": 0.47705453634262085,
      "learning_rate": 0.0002118257708361384,
      "loss": 2.972,
      "step": 96200
    },
    {
      "epoch": 25.901970284237727,
      "grad_norm": 0.46351706981658936,
      "learning_rate": 0.0002116238050356806,
      "loss": 2.964,
      "step": 96250
    },
    {
      "epoch": 25.915428509905254,
      "grad_norm": 0.4799213409423828,
      "learning_rate": 0.00021142183923522281,
      "loss": 2.9753,
      "step": 96300
    },
    {
      "epoch": 25.92888673557278,
      "grad_norm": 0.46214932203292847,
      "learning_rate": 0.00021121987343476504,
      "loss": 2.9806,
      "step": 96350
    },
    {
      "epoch": 25.94234496124031,
      "grad_norm": 0.4498823583126068,
      "learning_rate": 0.00021101790763430726,
      "loss": 2.978,
      "step": 96400
    },
    {
      "epoch": 25.955803186907836,
      "grad_norm": 0.4700547456741333,
      "learning_rate": 0.00021081594183384946,
      "loss": 2.9633,
      "step": 96450
    },
    {
      "epoch": 25.969261412575367,
      "grad_norm": 0.49166616797447205,
      "learning_rate": 0.00021061397603339165,
      "loss": 2.9794,
      "step": 96500
    },
    {
      "epoch": 25.982719638242894,
      "grad_norm": 0.4853648841381073,
      "learning_rate": 0.00021041201023293388,
      "loss": 2.9736,
      "step": 96550
    },
    {
      "epoch": 25.99617786391042,
      "grad_norm": 0.4653874933719635,
      "learning_rate": 0.00021021004443247607,
      "loss": 2.9679,
      "step": 96600
    },
    {
      "epoch": 26.00942075796727,
      "grad_norm": 0.48257073760032654,
      "learning_rate": 0.0002100080786320183,
      "loss": 2.9124,
      "step": 96650
    },
    {
      "epoch": 26.022878983634797,
      "grad_norm": 0.4681517779827118,
      "learning_rate": 0.0002098061128315605,
      "loss": 2.8909,
      "step": 96700
    },
    {
      "epoch": 26.036337209302324,
      "grad_norm": 0.5120118260383606,
      "learning_rate": 0.00020960414703110274,
      "loss": 2.9027,
      "step": 96750
    },
    {
      "epoch": 26.049795434969855,
      "grad_norm": 0.5014836192131042,
      "learning_rate": 0.00020940218123064494,
      "loss": 2.9032,
      "step": 96800
    },
    {
      "epoch": 26.063253660637383,
      "grad_norm": 0.48905983567237854,
      "learning_rate": 0.00020920021543018713,
      "loss": 2.9024,
      "step": 96850
    },
    {
      "epoch": 26.07671188630491,
      "grad_norm": 0.4677479565143585,
      "learning_rate": 0.00020899824962972936,
      "loss": 2.9186,
      "step": 96900
    },
    {
      "epoch": 26.090170111972437,
      "grad_norm": 0.4844556450843811,
      "learning_rate": 0.00020879628382927155,
      "loss": 2.9093,
      "step": 96950
    },
    {
      "epoch": 26.103628337639964,
      "grad_norm": 0.48902034759521484,
      "learning_rate": 0.00020859431802881378,
      "loss": 2.9106,
      "step": 97000
    },
    {
      "epoch": 26.103628337639964,
      "eval_accuracy": 0.3965241915261537,
      "eval_loss": 3.293030261993408,
      "eval_runtime": 146.2368,
      "eval_samples_per_second": 123.17,
      "eval_steps_per_second": 7.7,
      "step": 97000
    },
    {
      "epoch": 26.117086563307492,
      "grad_norm": 0.4999445080757141,
      "learning_rate": 0.00020839235222835597,
      "loss": 2.9076,
      "step": 97050
    },
    {
      "epoch": 26.130544788975023,
      "grad_norm": 0.4936251938343048,
      "learning_rate": 0.00020819038642789817,
      "loss": 2.9138,
      "step": 97100
    },
    {
      "epoch": 26.14400301464255,
      "grad_norm": 0.5119921565055847,
      "learning_rate": 0.0002079884206274404,
      "loss": 2.9163,
      "step": 97150
    },
    {
      "epoch": 26.157461240310077,
      "grad_norm": 0.4628806412220001,
      "learning_rate": 0.00020778645482698264,
      "loss": 2.9275,
      "step": 97200
    },
    {
      "epoch": 26.170919465977605,
      "grad_norm": 0.4793238341808319,
      "learning_rate": 0.00020758448902652484,
      "loss": 2.9143,
      "step": 97250
    },
    {
      "epoch": 26.184377691645132,
      "grad_norm": 0.5028554201126099,
      "learning_rate": 0.00020738252322606703,
      "loss": 2.9154,
      "step": 97300
    },
    {
      "epoch": 26.197835917312663,
      "grad_norm": 0.4699283838272095,
      "learning_rate": 0.00020718055742560926,
      "loss": 2.92,
      "step": 97350
    },
    {
      "epoch": 26.21129414298019,
      "grad_norm": 0.4700480103492737,
      "learning_rate": 0.00020697859162515145,
      "loss": 2.9203,
      "step": 97400
    },
    {
      "epoch": 26.224752368647717,
      "grad_norm": 0.47370514273643494,
      "learning_rate": 0.00020677662582469368,
      "loss": 2.9186,
      "step": 97450
    },
    {
      "epoch": 26.238210594315245,
      "grad_norm": 0.4865691363811493,
      "learning_rate": 0.00020657466002423587,
      "loss": 2.9284,
      "step": 97500
    },
    {
      "epoch": 26.251668819982772,
      "grad_norm": 0.5234982371330261,
      "learning_rate": 0.00020637269422377807,
      "loss": 2.9388,
      "step": 97550
    },
    {
      "epoch": 26.265127045650303,
      "grad_norm": 0.4665259122848511,
      "learning_rate": 0.0002061707284233203,
      "loss": 2.9165,
      "step": 97600
    },
    {
      "epoch": 26.27858527131783,
      "grad_norm": 0.4814673960208893,
      "learning_rate": 0.00020596876262286251,
      "loss": 2.9279,
      "step": 97650
    },
    {
      "epoch": 26.292043496985357,
      "grad_norm": 0.49803024530410767,
      "learning_rate": 0.00020576679682240474,
      "loss": 2.9278,
      "step": 97700
    },
    {
      "epoch": 26.305501722652885,
      "grad_norm": 0.5198856592178345,
      "learning_rate": 0.00020556483102194693,
      "loss": 2.9315,
      "step": 97750
    },
    {
      "epoch": 26.318959948320412,
      "grad_norm": 0.454545259475708,
      "learning_rate": 0.00020536286522148916,
      "loss": 2.9344,
      "step": 97800
    },
    {
      "epoch": 26.332418173987943,
      "grad_norm": 0.5368754267692566,
      "learning_rate": 0.00020516089942103135,
      "loss": 2.9265,
      "step": 97850
    },
    {
      "epoch": 26.34587639965547,
      "grad_norm": 0.46915602684020996,
      "learning_rate": 0.00020495893362057355,
      "loss": 2.9348,
      "step": 97900
    },
    {
      "epoch": 26.359334625322997,
      "grad_norm": 0.495172381401062,
      "learning_rate": 0.00020475696782011577,
      "loss": 2.9374,
      "step": 97950
    },
    {
      "epoch": 26.372792850990525,
      "grad_norm": 0.4795806109905243,
      "learning_rate": 0.00020455500201965797,
      "loss": 2.9378,
      "step": 98000
    },
    {
      "epoch": 26.372792850990525,
      "eval_accuracy": 0.39687186146395986,
      "eval_loss": 3.2883505821228027,
      "eval_runtime": 146.3636,
      "eval_samples_per_second": 123.063,
      "eval_steps_per_second": 7.693,
      "step": 98000
    },
    {
      "epoch": 26.386251076658052,
      "grad_norm": 0.4649851322174072,
      "learning_rate": 0.0002043530362192002,
      "loss": 2.934,
      "step": 98050
    },
    {
      "epoch": 26.399709302325583,
      "grad_norm": 0.46076539158821106,
      "learning_rate": 0.00020415107041874242,
      "loss": 2.9432,
      "step": 98100
    },
    {
      "epoch": 26.41316752799311,
      "grad_norm": 0.4639580249786377,
      "learning_rate": 0.00020394910461828464,
      "loss": 2.938,
      "step": 98150
    },
    {
      "epoch": 26.426625753660637,
      "grad_norm": 0.48218265175819397,
      "learning_rate": 0.00020374713881782683,
      "loss": 2.9363,
      "step": 98200
    },
    {
      "epoch": 26.440083979328165,
      "grad_norm": 0.4805491268634796,
      "learning_rate": 0.00020354517301736906,
      "loss": 2.936,
      "step": 98250
    },
    {
      "epoch": 26.453542204995692,
      "grad_norm": 0.4810453951358795,
      "learning_rate": 0.00020334320721691125,
      "loss": 2.9441,
      "step": 98300
    },
    {
      "epoch": 26.467000430663223,
      "grad_norm": 0.4797106981277466,
      "learning_rate": 0.00020314124141645345,
      "loss": 2.9435,
      "step": 98350
    },
    {
      "epoch": 26.48045865633075,
      "grad_norm": 0.48143908381462097,
      "learning_rate": 0.00020293927561599567,
      "loss": 2.9428,
      "step": 98400
    },
    {
      "epoch": 26.493916881998278,
      "grad_norm": 0.4961640536785126,
      "learning_rate": 0.00020273730981553787,
      "loss": 2.9369,
      "step": 98450
    },
    {
      "epoch": 26.507375107665805,
      "grad_norm": 0.49791309237480164,
      "learning_rate": 0.0002025353440150801,
      "loss": 2.9537,
      "step": 98500
    },
    {
      "epoch": 26.520833333333332,
      "grad_norm": 0.52032071352005,
      "learning_rate": 0.00020233337821462232,
      "loss": 2.9455,
      "step": 98550
    },
    {
      "epoch": 26.534291559000863,
      "grad_norm": 0.4943895637989044,
      "learning_rate": 0.00020213141241416454,
      "loss": 2.9452,
      "step": 98600
    },
    {
      "epoch": 26.54774978466839,
      "grad_norm": 0.4840410649776459,
      "learning_rate": 0.00020192944661370674,
      "loss": 2.944,
      "step": 98650
    },
    {
      "epoch": 26.561208010335918,
      "grad_norm": 0.488031268119812,
      "learning_rate": 0.00020172748081324893,
      "loss": 2.954,
      "step": 98700
    },
    {
      "epoch": 26.574666236003445,
      "grad_norm": 0.49708092212677,
      "learning_rate": 0.00020152551501279115,
      "loss": 2.9446,
      "step": 98750
    },
    {
      "epoch": 26.588124461670972,
      "grad_norm": 0.4940889775753021,
      "learning_rate": 0.00020132354921233335,
      "loss": 2.9518,
      "step": 98800
    },
    {
      "epoch": 26.6015826873385,
      "grad_norm": 0.4973823130130768,
      "learning_rate": 0.00020112158341187557,
      "loss": 2.9486,
      "step": 98850
    },
    {
      "epoch": 26.61504091300603,
      "grad_norm": 0.4541454315185547,
      "learning_rate": 0.00020091961761141777,
      "loss": 2.9475,
      "step": 98900
    },
    {
      "epoch": 26.628499138673558,
      "grad_norm": 0.47265252470970154,
      "learning_rate": 0.00020071765181095997,
      "loss": 2.9577,
      "step": 98950
    },
    {
      "epoch": 26.641957364341085,
      "grad_norm": 0.48501822352409363,
      "learning_rate": 0.00020051568601050222,
      "loss": 2.9573,
      "step": 99000
    },
    {
      "epoch": 26.641957364341085,
      "eval_accuracy": 0.396756587150206,
      "eval_loss": 3.2868714332580566,
      "eval_runtime": 146.3487,
      "eval_samples_per_second": 123.076,
      "eval_steps_per_second": 7.694,
      "step": 99000
    },
    {
      "epoch": 26.655415590008612,
      "grad_norm": 0.4774377644062042,
      "learning_rate": 0.00020031372021004444,
      "loss": 2.9507,
      "step": 99050
    },
    {
      "epoch": 26.66887381567614,
      "grad_norm": 0.4970323443412781,
      "learning_rate": 0.00020011175440958664,
      "loss": 2.9539,
      "step": 99100
    },
    {
      "epoch": 26.68233204134367,
      "grad_norm": 0.47971388697624207,
      "learning_rate": 0.00019990978860912883,
      "loss": 2.9507,
      "step": 99150
    },
    {
      "epoch": 26.695790267011198,
      "grad_norm": 0.4856283664703369,
      "learning_rate": 0.00019970782280867105,
      "loss": 2.9576,
      "step": 99200
    },
    {
      "epoch": 26.709248492678725,
      "grad_norm": 0.5186119675636292,
      "learning_rate": 0.00019950585700821325,
      "loss": 2.9318,
      "step": 99250
    },
    {
      "epoch": 26.722706718346252,
      "grad_norm": 0.472085177898407,
      "learning_rate": 0.00019930389120775547,
      "loss": 2.9396,
      "step": 99300
    },
    {
      "epoch": 26.73616494401378,
      "grad_norm": 0.4699694514274597,
      "learning_rate": 0.00019910192540729767,
      "loss": 2.9471,
      "step": 99350
    },
    {
      "epoch": 26.74962316968131,
      "grad_norm": 0.4968441128730774,
      "learning_rate": 0.00019889995960683987,
      "loss": 2.9501,
      "step": 99400
    },
    {
      "epoch": 26.763081395348838,
      "grad_norm": 0.4901743233203888,
      "learning_rate": 0.00019869799380638212,
      "loss": 2.9584,
      "step": 99450
    },
    {
      "epoch": 26.776539621016365,
      "grad_norm": 0.4878545105457306,
      "learning_rate": 0.0001984960280059243,
      "loss": 2.9686,
      "step": 99500
    },
    {
      "epoch": 26.789997846683892,
      "grad_norm": 0.48013490438461304,
      "learning_rate": 0.00019829406220546654,
      "loss": 2.9544,
      "step": 99550
    },
    {
      "epoch": 26.80345607235142,
      "grad_norm": 0.5074095726013184,
      "learning_rate": 0.00019809209640500873,
      "loss": 2.9607,
      "step": 99600
    },
    {
      "epoch": 26.81691429801895,
      "grad_norm": 0.4604112505912781,
      "learning_rate": 0.00019789013060455096,
      "loss": 2.9542,
      "step": 99650
    },
    {
      "epoch": 26.830372523686478,
      "grad_norm": 0.45256295800209045,
      "learning_rate": 0.00019768816480409315,
      "loss": 2.9589,
      "step": 99700
    },
    {
      "epoch": 26.843830749354005,
      "grad_norm": 0.479516863822937,
      "learning_rate": 0.00019748619900363535,
      "loss": 2.9495,
      "step": 99750
    },
    {
      "epoch": 26.857288975021532,
      "grad_norm": 0.48909792304039,
      "learning_rate": 0.00019728423320317757,
      "loss": 2.9572,
      "step": 99800
    },
    {
      "epoch": 26.87074720068906,
      "grad_norm": 0.49186989665031433,
      "learning_rate": 0.00019708226740271977,
      "loss": 2.9611,
      "step": 99850
    },
    {
      "epoch": 26.88420542635659,
      "grad_norm": 0.45272672176361084,
      "learning_rate": 0.00019688030160226202,
      "loss": 2.9534,
      "step": 99900
    },
    {
      "epoch": 26.897663652024118,
      "grad_norm": 0.48817697167396545,
      "learning_rate": 0.0001966783358018042,
      "loss": 2.9614,
      "step": 99950
    },
    {
      "epoch": 26.911121877691645,
      "grad_norm": 0.5166176557540894,
      "learning_rate": 0.00019647637000134644,
      "loss": 2.9592,
      "step": 100000
    },
    {
      "epoch": 26.911121877691645,
      "eval_accuracy": 0.39753297758006945,
      "eval_loss": 3.279358386993408,
      "eval_runtime": 146.0791,
      "eval_samples_per_second": 123.303,
      "eval_steps_per_second": 7.708,
      "step": 100000
    },
    {
      "epoch": 26.924580103359173,
      "grad_norm": 0.4788917601108551,
      "learning_rate": 0.00019627440420088863,
      "loss": 2.9581,
      "step": 100050
    },
    {
      "epoch": 26.9380383290267,
      "grad_norm": 0.4836042821407318,
      "learning_rate": 0.00019607243840043086,
      "loss": 2.9502,
      "step": 100100
    },
    {
      "epoch": 26.95149655469423,
      "grad_norm": 0.47917941212654114,
      "learning_rate": 0.00019587047259997305,
      "loss": 2.9627,
      "step": 100150
    },
    {
      "epoch": 26.964954780361758,
      "grad_norm": 0.4649355113506317,
      "learning_rate": 0.00019566850679951525,
      "loss": 2.9603,
      "step": 100200
    },
    {
      "epoch": 26.978413006029285,
      "grad_norm": 0.5115824341773987,
      "learning_rate": 0.00019546654099905747,
      "loss": 2.956,
      "step": 100250
    },
    {
      "epoch": 26.991871231696813,
      "grad_norm": 0.511033833026886,
      "learning_rate": 0.00019526457519859967,
      "loss": 2.9732,
      "step": 100300
    },
    {
      "epoch": 27.00511412575366,
      "grad_norm": 0.4819963276386261,
      "learning_rate": 0.00019506260939814192,
      "loss": 2.9322,
      "step": 100350
    },
    {
      "epoch": 27.018572351421188,
      "grad_norm": 0.5109541416168213,
      "learning_rate": 0.0001948606435976841,
      "loss": 2.8825,
      "step": 100400
    },
    {
      "epoch": 27.032030577088715,
      "grad_norm": 0.5299190878868103,
      "learning_rate": 0.00019465867779722634,
      "loss": 2.9011,
      "step": 100450
    },
    {
      "epoch": 27.045488802756246,
      "grad_norm": 0.4947880804538727,
      "learning_rate": 0.00019445671199676853,
      "loss": 2.8925,
      "step": 100500
    },
    {
      "epoch": 27.058947028423773,
      "grad_norm": 0.4906946122646332,
      "learning_rate": 0.00019425474619631073,
      "loss": 2.9027,
      "step": 100550
    },
    {
      "epoch": 27.0724052540913,
      "grad_norm": 0.5048971176147461,
      "learning_rate": 0.00019405278039585295,
      "loss": 2.9011,
      "step": 100600
    },
    {
      "epoch": 27.085863479758828,
      "grad_norm": 0.47121816873550415,
      "learning_rate": 0.00019385081459539515,
      "loss": 2.8926,
      "step": 100650
    },
    {
      "epoch": 27.099321705426355,
      "grad_norm": 0.5003146529197693,
      "learning_rate": 0.00019364884879493737,
      "loss": 2.9034,
      "step": 100700
    },
    {
      "epoch": 27.112779931093886,
      "grad_norm": 0.491941899061203,
      "learning_rate": 0.00019344688299447957,
      "loss": 2.9028,
      "step": 100750
    },
    {
      "epoch": 27.126238156761413,
      "grad_norm": 0.4929443895816803,
      "learning_rate": 0.00019324491719402182,
      "loss": 2.8981,
      "step": 100800
    },
    {
      "epoch": 27.13969638242894,
      "grad_norm": 0.48886409401893616,
      "learning_rate": 0.00019304295139356401,
      "loss": 2.9095,
      "step": 100850
    },
    {
      "epoch": 27.153154608096468,
      "grad_norm": 0.4845869541168213,
      "learning_rate": 0.0001928409855931062,
      "loss": 2.8995,
      "step": 100900
    },
    {
      "epoch": 27.166612833763995,
      "grad_norm": 0.5020434260368347,
      "learning_rate": 0.00019263901979264843,
      "loss": 2.9163,
      "step": 100950
    },
    {
      "epoch": 27.180071059431526,
      "grad_norm": 0.48844480514526367,
      "learning_rate": 0.00019243705399219063,
      "loss": 2.9014,
      "step": 101000
    },
    {
      "epoch": 27.180071059431526,
      "eval_accuracy": 0.39657873224764706,
      "eval_loss": 3.2880594730377197,
      "eval_runtime": 146.9823,
      "eval_samples_per_second": 122.545,
      "eval_steps_per_second": 7.661,
      "step": 101000
    },
    {
      "epoch": 27.193529285099054,
      "grad_norm": 0.4601687490940094,
      "learning_rate": 0.00019223508819173285,
      "loss": 2.911,
      "step": 101050
    },
    {
      "epoch": 27.20698751076658,
      "grad_norm": 0.5111984610557556,
      "learning_rate": 0.00019203312239127505,
      "loss": 2.9103,
      "step": 101100
    },
    {
      "epoch": 27.220445736434108,
      "grad_norm": 0.48042234778404236,
      "learning_rate": 0.00019183115659081727,
      "loss": 2.918,
      "step": 101150
    },
    {
      "epoch": 27.233903962101635,
      "grad_norm": 0.48300600051879883,
      "learning_rate": 0.00019162919079035947,
      "loss": 2.9079,
      "step": 101200
    },
    {
      "epoch": 27.247362187769163,
      "grad_norm": 0.48452457785606384,
      "learning_rate": 0.00019142722498990172,
      "loss": 2.9142,
      "step": 101250
    },
    {
      "epoch": 27.260820413436694,
      "grad_norm": 0.49995142221450806,
      "learning_rate": 0.00019122525918944391,
      "loss": 2.9201,
      "step": 101300
    },
    {
      "epoch": 27.27427863910422,
      "grad_norm": 0.5176795721054077,
      "learning_rate": 0.0001910232933889861,
      "loss": 2.9096,
      "step": 101350
    },
    {
      "epoch": 27.287736864771748,
      "grad_norm": 0.5069646239280701,
      "learning_rate": 0.00019082132758852833,
      "loss": 2.8984,
      "step": 101400
    },
    {
      "epoch": 27.301195090439276,
      "grad_norm": 0.46328434348106384,
      "learning_rate": 0.00019061936178807053,
      "loss": 2.9239,
      "step": 101450
    },
    {
      "epoch": 27.314653316106803,
      "grad_norm": 0.521058201789856,
      "learning_rate": 0.00019041739598761275,
      "loss": 2.9206,
      "step": 101500
    },
    {
      "epoch": 27.328111541774334,
      "grad_norm": 0.5169256925582886,
      "learning_rate": 0.00019021543018715495,
      "loss": 2.9243,
      "step": 101550
    },
    {
      "epoch": 27.34156976744186,
      "grad_norm": 0.47673463821411133,
      "learning_rate": 0.00019001346438669714,
      "loss": 2.9226,
      "step": 101600
    },
    {
      "epoch": 27.35502799310939,
      "grad_norm": 0.4859578013420105,
      "learning_rate": 0.0001898114985862394,
      "loss": 2.9334,
      "step": 101650
    },
    {
      "epoch": 27.368486218776916,
      "grad_norm": 0.5149036049842834,
      "learning_rate": 0.0001896095327857816,
      "loss": 2.9226,
      "step": 101700
    },
    {
      "epoch": 27.381944444444443,
      "grad_norm": 0.485603392124176,
      "learning_rate": 0.00018940756698532381,
      "loss": 2.9129,
      "step": 101750
    },
    {
      "epoch": 27.395402670111974,
      "grad_norm": 0.4967415928840637,
      "learning_rate": 0.000189205601184866,
      "loss": 2.9217,
      "step": 101800
    },
    {
      "epoch": 27.4088608957795,
      "grad_norm": 0.48943030834198,
      "learning_rate": 0.00018900363538440823,
      "loss": 2.9191,
      "step": 101850
    },
    {
      "epoch": 27.42231912144703,
      "grad_norm": 0.5117086172103882,
      "learning_rate": 0.00018880166958395043,
      "loss": 2.9233,
      "step": 101900
    },
    {
      "epoch": 27.435777347114556,
      "grad_norm": 0.4888044595718384,
      "learning_rate": 0.00018859970378349263,
      "loss": 2.9305,
      "step": 101950
    },
    {
      "epoch": 27.449235572782083,
      "grad_norm": 0.48958805203437805,
      "learning_rate": 0.00018839773798303485,
      "loss": 2.9383,
      "step": 102000
    },
    {
      "epoch": 27.449235572782083,
      "eval_accuracy": 0.397087090884833,
      "eval_loss": 3.2870469093322754,
      "eval_runtime": 146.0558,
      "eval_samples_per_second": 123.323,
      "eval_steps_per_second": 7.709,
      "step": 102000
    },
    {
      "epoch": 27.462693798449614,
      "grad_norm": 0.49132028222084045,
      "learning_rate": 0.00018819577218257705,
      "loss": 2.934,
      "step": 102050
    },
    {
      "epoch": 27.47615202411714,
      "grad_norm": 0.5282468795776367,
      "learning_rate": 0.0001879938063821193,
      "loss": 2.9369,
      "step": 102100
    },
    {
      "epoch": 27.48961024978467,
      "grad_norm": 0.5024771094322205,
      "learning_rate": 0.0001877918405816615,
      "loss": 2.9185,
      "step": 102150
    },
    {
      "epoch": 27.503068475452196,
      "grad_norm": 0.48891547322273254,
      "learning_rate": 0.00018758987478120371,
      "loss": 2.9419,
      "step": 102200
    },
    {
      "epoch": 27.516526701119723,
      "grad_norm": 0.5016714334487915,
      "learning_rate": 0.0001873879089807459,
      "loss": 2.9221,
      "step": 102250
    },
    {
      "epoch": 27.529984926787254,
      "grad_norm": 0.5051071047782898,
      "learning_rate": 0.00018718594318028813,
      "loss": 2.9334,
      "step": 102300
    },
    {
      "epoch": 27.54344315245478,
      "grad_norm": 0.4839610457420349,
      "learning_rate": 0.00018698397737983033,
      "loss": 2.9334,
      "step": 102350
    },
    {
      "epoch": 27.55690137812231,
      "grad_norm": 0.49538129568099976,
      "learning_rate": 0.00018678201157937253,
      "loss": 2.9433,
      "step": 102400
    },
    {
      "epoch": 27.570359603789836,
      "grad_norm": 0.5163812637329102,
      "learning_rate": 0.00018658004577891475,
      "loss": 2.9399,
      "step": 102450
    },
    {
      "epoch": 27.583817829457363,
      "grad_norm": 0.48955875635147095,
      "learning_rate": 0.00018637807997845695,
      "loss": 2.938,
      "step": 102500
    },
    {
      "epoch": 27.597276055124894,
      "grad_norm": 0.48446550965309143,
      "learning_rate": 0.0001861761141779992,
      "loss": 2.9378,
      "step": 102550
    },
    {
      "epoch": 27.61073428079242,
      "grad_norm": 0.48129525780677795,
      "learning_rate": 0.0001859741483775414,
      "loss": 2.9373,
      "step": 102600
    },
    {
      "epoch": 27.62419250645995,
      "grad_norm": 0.4978967308998108,
      "learning_rate": 0.00018577218257708362,
      "loss": 2.9394,
      "step": 102650
    },
    {
      "epoch": 27.637650732127476,
      "grad_norm": 0.5358911156654358,
      "learning_rate": 0.0001855702167766258,
      "loss": 2.9379,
      "step": 102700
    },
    {
      "epoch": 27.651108957795003,
      "grad_norm": 0.48122960329055786,
      "learning_rate": 0.000185368250976168,
      "loss": 2.9336,
      "step": 102750
    },
    {
      "epoch": 27.664567183462534,
      "grad_norm": 0.4696429967880249,
      "learning_rate": 0.00018516628517571023,
      "loss": 2.9367,
      "step": 102800
    },
    {
      "epoch": 27.67802540913006,
      "grad_norm": 0.49047210812568665,
      "learning_rate": 0.00018496431937525243,
      "loss": 2.9348,
      "step": 102850
    },
    {
      "epoch": 27.69148363479759,
      "grad_norm": 0.4979493319988251,
      "learning_rate": 0.00018476235357479465,
      "loss": 2.9339,
      "step": 102900
    },
    {
      "epoch": 27.704941860465116,
      "grad_norm": 0.46877792477607727,
      "learning_rate": 0.00018456038777433685,
      "loss": 2.9504,
      "step": 102950
    },
    {
      "epoch": 27.718400086132643,
      "grad_norm": 0.5015468597412109,
      "learning_rate": 0.0001843584219738791,
      "loss": 2.9516,
      "step": 103000
    },
    {
      "epoch": 27.718400086132643,
      "eval_accuracy": 0.39719171780674156,
      "eval_loss": 3.282999277114868,
      "eval_runtime": 146.236,
      "eval_samples_per_second": 123.171,
      "eval_steps_per_second": 7.7,
      "step": 103000
    },
    {
      "epoch": 27.731858311800174,
      "grad_norm": 0.4905368685722351,
      "learning_rate": 0.0001841564561734213,
      "loss": 2.9381,
      "step": 103050
    },
    {
      "epoch": 27.7453165374677,
      "grad_norm": 0.4895152747631073,
      "learning_rate": 0.00018395449037296352,
      "loss": 2.9425,
      "step": 103100
    },
    {
      "epoch": 27.75877476313523,
      "grad_norm": 0.4837099313735962,
      "learning_rate": 0.0001837525245725057,
      "loss": 2.9406,
      "step": 103150
    },
    {
      "epoch": 27.772232988802756,
      "grad_norm": 0.48197370767593384,
      "learning_rate": 0.0001835505587720479,
      "loss": 2.9444,
      "step": 103200
    },
    {
      "epoch": 27.785691214470283,
      "grad_norm": 0.5033994913101196,
      "learning_rate": 0.00018334859297159013,
      "loss": 2.9319,
      "step": 103250
    },
    {
      "epoch": 27.79914944013781,
      "grad_norm": 0.5263758301734924,
      "learning_rate": 0.00018314662717113233,
      "loss": 2.9547,
      "step": 103300
    },
    {
      "epoch": 27.81260766580534,
      "grad_norm": 0.47729551792144775,
      "learning_rate": 0.00018294466137067455,
      "loss": 2.9482,
      "step": 103350
    },
    {
      "epoch": 27.82606589147287,
      "grad_norm": 0.545293927192688,
      "learning_rate": 0.00018274269557021675,
      "loss": 2.9654,
      "step": 103400
    },
    {
      "epoch": 27.839524117140396,
      "grad_norm": 0.49454832077026367,
      "learning_rate": 0.000182540729769759,
      "loss": 2.9512,
      "step": 103450
    },
    {
      "epoch": 27.852982342807923,
      "grad_norm": 0.4755057394504547,
      "learning_rate": 0.0001823387639693012,
      "loss": 2.9534,
      "step": 103500
    },
    {
      "epoch": 27.86644056847545,
      "grad_norm": 0.49803298711776733,
      "learning_rate": 0.0001821367981688434,
      "loss": 2.9539,
      "step": 103550
    },
    {
      "epoch": 27.87989879414298,
      "grad_norm": 0.5047042369842529,
      "learning_rate": 0.0001819348323683856,
      "loss": 2.9482,
      "step": 103600
    },
    {
      "epoch": 27.89335701981051,
      "grad_norm": 0.4869590997695923,
      "learning_rate": 0.0001817328665679278,
      "loss": 2.9538,
      "step": 103650
    },
    {
      "epoch": 27.906815245478036,
      "grad_norm": 0.498722642660141,
      "learning_rate": 0.00018153090076747003,
      "loss": 2.9507,
      "step": 103700
    },
    {
      "epoch": 27.920273471145563,
      "grad_norm": 0.5139634013175964,
      "learning_rate": 0.00018132893496701223,
      "loss": 2.9621,
      "step": 103750
    },
    {
      "epoch": 27.93373169681309,
      "grad_norm": 0.5020641088485718,
      "learning_rate": 0.00018112696916655442,
      "loss": 2.9514,
      "step": 103800
    },
    {
      "epoch": 27.94718992248062,
      "grad_norm": 0.48636969923973083,
      "learning_rate": 0.00018092500336609665,
      "loss": 2.9596,
      "step": 103850
    },
    {
      "epoch": 27.96064814814815,
      "grad_norm": 0.48579445481300354,
      "learning_rate": 0.0001807230375656389,
      "loss": 2.948,
      "step": 103900
    },
    {
      "epoch": 27.974106373815676,
      "grad_norm": 0.4894184470176697,
      "learning_rate": 0.0001805210717651811,
      "loss": 2.9485,
      "step": 103950
    },
    {
      "epoch": 27.987564599483203,
      "grad_norm": 0.4811153709888458,
      "learning_rate": 0.0001803191059647233,
      "loss": 2.9534,
      "step": 104000
    },
    {
      "epoch": 27.987564599483203,
      "eval_accuracy": 0.39759164688207427,
      "eval_loss": 3.276357889175415,
      "eval_runtime": 147.4517,
      "eval_samples_per_second": 122.155,
      "eval_steps_per_second": 7.636,
      "step": 104000
    },
    {
      "epoch": 28.00080749354005,
      "grad_norm": 0.5266789793968201,
      "learning_rate": 0.0001801171401642655,
      "loss": 2.9475,
      "step": 104050
    },
    {
      "epoch": 28.01426571920758,
      "grad_norm": 0.49525949358940125,
      "learning_rate": 0.0001799151743638077,
      "loss": 2.87,
      "step": 104100
    },
    {
      "epoch": 28.027723944875106,
      "grad_norm": 0.5010724663734436,
      "learning_rate": 0.00017971320856334993,
      "loss": 2.8858,
      "step": 104150
    },
    {
      "epoch": 28.041182170542637,
      "grad_norm": 0.48668617010116577,
      "learning_rate": 0.00017951124276289213,
      "loss": 2.8767,
      "step": 104200
    },
    {
      "epoch": 28.054640396210164,
      "grad_norm": 0.48478174209594727,
      "learning_rate": 0.00017930927696243432,
      "loss": 2.8777,
      "step": 104250
    },
    {
      "epoch": 28.06809862187769,
      "grad_norm": 0.4890100359916687,
      "learning_rate": 0.00017910731116197655,
      "loss": 2.8855,
      "step": 104300
    },
    {
      "epoch": 28.08155684754522,
      "grad_norm": 0.48516470193862915,
      "learning_rate": 0.00017890534536151877,
      "loss": 2.8959,
      "step": 104350
    },
    {
      "epoch": 28.095015073212746,
      "grad_norm": 0.5097112655639648,
      "learning_rate": 0.000178703379561061,
      "loss": 2.8993,
      "step": 104400
    },
    {
      "epoch": 28.108473298880277,
      "grad_norm": 0.49391499161720276,
      "learning_rate": 0.0001785014137606032,
      "loss": 2.8922,
      "step": 104450
    },
    {
      "epoch": 28.121931524547804,
      "grad_norm": 0.5124300122261047,
      "learning_rate": 0.0001782994479601454,
      "loss": 2.9033,
      "step": 104500
    },
    {
      "epoch": 28.13538975021533,
      "grad_norm": 0.5130902528762817,
      "learning_rate": 0.0001780974821596876,
      "loss": 2.895,
      "step": 104550
    },
    {
      "epoch": 28.14884797588286,
      "grad_norm": 0.4990008473396301,
      "learning_rate": 0.0001778955163592298,
      "loss": 2.8929,
      "step": 104600
    },
    {
      "epoch": 28.162306201550386,
      "grad_norm": 0.530022144317627,
      "learning_rate": 0.00017769355055877203,
      "loss": 2.8976,
      "step": 104650
    },
    {
      "epoch": 28.175764427217917,
      "grad_norm": 0.45357492566108704,
      "learning_rate": 0.00017749158475831422,
      "loss": 2.8898,
      "step": 104700
    },
    {
      "epoch": 28.189222652885444,
      "grad_norm": 0.5224539637565613,
      "learning_rate": 0.00017728961895785645,
      "loss": 2.8979,
      "step": 104750
    },
    {
      "epoch": 28.20268087855297,
      "grad_norm": 0.5053698420524597,
      "learning_rate": 0.00017708765315739867,
      "loss": 2.9074,
      "step": 104800
    },
    {
      "epoch": 28.2161391042205,
      "grad_norm": 0.49665287137031555,
      "learning_rate": 0.0001768856873569409,
      "loss": 2.8893,
      "step": 104850
    },
    {
      "epoch": 28.229597329888026,
      "grad_norm": 0.5174131989479065,
      "learning_rate": 0.0001766837215564831,
      "loss": 2.9079,
      "step": 104900
    },
    {
      "epoch": 28.243055555555557,
      "grad_norm": 0.482637882232666,
      "learning_rate": 0.0001764817557560253,
      "loss": 2.9022,
      "step": 104950
    },
    {
      "epoch": 28.256513781223084,
      "grad_norm": 0.5195315480232239,
      "learning_rate": 0.0001762797899555675,
      "loss": 2.9109,
      "step": 105000
    },
    {
      "epoch": 28.256513781223084,
      "eval_accuracy": 0.3970951307521448,
      "eval_loss": 3.2897088527679443,
      "eval_runtime": 147.4221,
      "eval_samples_per_second": 122.18,
      "eval_steps_per_second": 7.638,
      "step": 105000
    },
    {
      "epoch": 28.26997200689061,
      "grad_norm": 0.5179916024208069,
      "learning_rate": 0.0001760778241551097,
      "loss": 2.9069,
      "step": 105050
    },
    {
      "epoch": 28.28343023255814,
      "grad_norm": 0.4780939519405365,
      "learning_rate": 0.00017587585835465193,
      "loss": 2.9143,
      "step": 105100
    },
    {
      "epoch": 28.296888458225666,
      "grad_norm": 0.5064705610275269,
      "learning_rate": 0.00017567389255419412,
      "loss": 2.8949,
      "step": 105150
    },
    {
      "epoch": 28.310346683893197,
      "grad_norm": 0.493682861328125,
      "learning_rate": 0.00017547192675373635,
      "loss": 2.8993,
      "step": 105200
    },
    {
      "epoch": 28.323804909560724,
      "grad_norm": 0.5155807137489319,
      "learning_rate": 0.00017526996095327857,
      "loss": 2.921,
      "step": 105250
    },
    {
      "epoch": 28.337263135228252,
      "grad_norm": 0.5077420473098755,
      "learning_rate": 0.0001750679951528208,
      "loss": 2.9144,
      "step": 105300
    },
    {
      "epoch": 28.35072136089578,
      "grad_norm": 0.4884844422340393,
      "learning_rate": 0.000174866029352363,
      "loss": 2.9225,
      "step": 105350
    },
    {
      "epoch": 28.364179586563306,
      "grad_norm": 0.49359777569770813,
      "learning_rate": 0.0001746640635519052,
      "loss": 2.9095,
      "step": 105400
    },
    {
      "epoch": 28.377637812230837,
      "grad_norm": 0.5174322724342346,
      "learning_rate": 0.0001744620977514474,
      "loss": 2.9265,
      "step": 105450
    },
    {
      "epoch": 28.391096037898365,
      "grad_norm": 0.49454420804977417,
      "learning_rate": 0.0001742601319509896,
      "loss": 2.9277,
      "step": 105500
    },
    {
      "epoch": 28.404554263565892,
      "grad_norm": 0.5095421075820923,
      "learning_rate": 0.00017405816615053183,
      "loss": 2.9204,
      "step": 105550
    },
    {
      "epoch": 28.41801248923342,
      "grad_norm": 0.527397632598877,
      "learning_rate": 0.00017385620035007403,
      "loss": 2.9252,
      "step": 105600
    },
    {
      "epoch": 28.431470714900946,
      "grad_norm": 0.4911178648471832,
      "learning_rate": 0.00017365423454961622,
      "loss": 2.9129,
      "step": 105650
    },
    {
      "epoch": 28.444928940568474,
      "grad_norm": 0.5081452131271362,
      "learning_rate": 0.00017345226874915847,
      "loss": 2.922,
      "step": 105700
    },
    {
      "epoch": 28.458387166236005,
      "grad_norm": 0.5088328123092651,
      "learning_rate": 0.00017325030294870067,
      "loss": 2.9274,
      "step": 105750
    },
    {
      "epoch": 28.471845391903532,
      "grad_norm": 0.4922160804271698,
      "learning_rate": 0.0001730483371482429,
      "loss": 2.9178,
      "step": 105800
    },
    {
      "epoch": 28.48530361757106,
      "grad_norm": 0.5186408162117004,
      "learning_rate": 0.0001728463713477851,
      "loss": 2.9271,
      "step": 105850
    },
    {
      "epoch": 28.498761843238587,
      "grad_norm": 0.5223609209060669,
      "learning_rate": 0.0001726444055473273,
      "loss": 2.9204,
      "step": 105900
    },
    {
      "epoch": 28.512220068906114,
      "grad_norm": 0.5327643752098083,
      "learning_rate": 0.0001724424397468695,
      "loss": 2.9196,
      "step": 105950
    },
    {
      "epoch": 28.525678294573645,
      "grad_norm": 0.5054581761360168,
      "learning_rate": 0.00017224047394641173,
      "loss": 2.9167,
      "step": 106000
    },
    {
      "epoch": 28.525678294573645,
      "eval_accuracy": 0.39750092675767795,
      "eval_loss": 3.2850351333618164,
      "eval_runtime": 146.736,
      "eval_samples_per_second": 122.751,
      "eval_steps_per_second": 7.674,
      "step": 106000
    },
    {
      "epoch": 28.539136520241172,
      "grad_norm": 0.5137544870376587,
      "learning_rate": 0.00017203850814595393,
      "loss": 2.9188,
      "step": 106050
    },
    {
      "epoch": 28.5525947459087,
      "grad_norm": 0.5124856233596802,
      "learning_rate": 0.00017183654234549612,
      "loss": 2.9283,
      "step": 106100
    },
    {
      "epoch": 28.566052971576227,
      "grad_norm": 0.5131354928016663,
      "learning_rate": 0.00017163457654503837,
      "loss": 2.9297,
      "step": 106150
    },
    {
      "epoch": 28.579511197243754,
      "grad_norm": 0.5123969912528992,
      "learning_rate": 0.00017143261074458057,
      "loss": 2.9228,
      "step": 106200
    },
    {
      "epoch": 28.592969422911285,
      "grad_norm": 0.5282868146896362,
      "learning_rate": 0.0001712306449441228,
      "loss": 2.9372,
      "step": 106250
    },
    {
      "epoch": 28.606427648578812,
      "grad_norm": 0.5144837498664856,
      "learning_rate": 0.000171028679143665,
      "loss": 2.9326,
      "step": 106300
    },
    {
      "epoch": 28.61988587424634,
      "grad_norm": 0.5485707521438599,
      "learning_rate": 0.0001708267133432072,
      "loss": 2.9339,
      "step": 106350
    },
    {
      "epoch": 28.633344099913867,
      "grad_norm": 0.5258968472480774,
      "learning_rate": 0.0001706247475427494,
      "loss": 2.9307,
      "step": 106400
    },
    {
      "epoch": 28.646802325581394,
      "grad_norm": 0.49330660700798035,
      "learning_rate": 0.0001704227817422916,
      "loss": 2.9332,
      "step": 106450
    },
    {
      "epoch": 28.660260551248925,
      "grad_norm": 0.4907183051109314,
      "learning_rate": 0.00017022081594183383,
      "loss": 2.9261,
      "step": 106500
    },
    {
      "epoch": 28.673718776916452,
      "grad_norm": 0.496756374835968,
      "learning_rate": 0.00017001885014137605,
      "loss": 2.9219,
      "step": 106550
    },
    {
      "epoch": 28.68717700258398,
      "grad_norm": 0.5075603723526001,
      "learning_rate": 0.00016981688434091827,
      "loss": 2.928,
      "step": 106600
    },
    {
      "epoch": 28.700635228251507,
      "grad_norm": 0.4845956861972809,
      "learning_rate": 0.00016961491854046047,
      "loss": 2.9293,
      "step": 106650
    },
    {
      "epoch": 28.714093453919034,
      "grad_norm": 0.5165157914161682,
      "learning_rate": 0.0001694129527400027,
      "loss": 2.9381,
      "step": 106700
    },
    {
      "epoch": 28.727551679586565,
      "grad_norm": 0.539211094379425,
      "learning_rate": 0.0001692109869395449,
      "loss": 2.9374,
      "step": 106750
    },
    {
      "epoch": 28.741009905254092,
      "grad_norm": 0.5208998322486877,
      "learning_rate": 0.00016900902113908708,
      "loss": 2.9233,
      "step": 106800
    },
    {
      "epoch": 28.75446813092162,
      "grad_norm": 0.5117523670196533,
      "learning_rate": 0.0001688070553386293,
      "loss": 2.9272,
      "step": 106850
    },
    {
      "epoch": 28.767926356589147,
      "grad_norm": 0.48024994134902954,
      "learning_rate": 0.0001686050895381715,
      "loss": 2.9297,
      "step": 106900
    },
    {
      "epoch": 28.781384582256674,
      "grad_norm": 0.5294599533081055,
      "learning_rate": 0.00016840312373771373,
      "loss": 2.9464,
      "step": 106950
    },
    {
      "epoch": 28.794842807924205,
      "grad_norm": 0.49581241607666016,
      "learning_rate": 0.00016820115793725595,
      "loss": 2.9433,
      "step": 107000
    },
    {
      "epoch": 28.794842807924205,
      "eval_accuracy": 0.39789781372105487,
      "eval_loss": 3.2776732444763184,
      "eval_runtime": 146.8371,
      "eval_samples_per_second": 122.667,
      "eval_steps_per_second": 7.668,
      "step": 107000
    },
    {
      "epoch": 28.808301033591732,
      "grad_norm": 0.4745948612689972,
      "learning_rate": 0.00016799919213679817,
      "loss": 2.9495,
      "step": 107050
    },
    {
      "epoch": 28.82175925925926,
      "grad_norm": 0.5273579955101013,
      "learning_rate": 0.00016779722633634037,
      "loss": 2.9345,
      "step": 107100
    },
    {
      "epoch": 28.835217484926787,
      "grad_norm": 0.5143641829490662,
      "learning_rate": 0.0001675952605358826,
      "loss": 2.9346,
      "step": 107150
    },
    {
      "epoch": 28.848675710594314,
      "grad_norm": 0.4993511438369751,
      "learning_rate": 0.0001673932947354248,
      "loss": 2.9314,
      "step": 107200
    },
    {
      "epoch": 28.86213393626184,
      "grad_norm": 0.5145397782325745,
      "learning_rate": 0.00016719132893496698,
      "loss": 2.943,
      "step": 107250
    },
    {
      "epoch": 28.875592161929372,
      "grad_norm": 0.5847262740135193,
      "learning_rate": 0.0001669893631345092,
      "loss": 2.939,
      "step": 107300
    },
    {
      "epoch": 28.8890503875969,
      "grad_norm": 0.5064164400100708,
      "learning_rate": 0.0001667873973340514,
      "loss": 2.9254,
      "step": 107350
    },
    {
      "epoch": 28.902508613264427,
      "grad_norm": 0.5213847160339355,
      "learning_rate": 0.00016658543153359363,
      "loss": 2.9416,
      "step": 107400
    },
    {
      "epoch": 28.915966838931954,
      "grad_norm": 0.5266076922416687,
      "learning_rate": 0.00016638346573313585,
      "loss": 2.9345,
      "step": 107450
    },
    {
      "epoch": 28.92942506459948,
      "grad_norm": 0.5118159055709839,
      "learning_rate": 0.00016618149993267807,
      "loss": 2.9467,
      "step": 107500
    },
    {
      "epoch": 28.942883290267012,
      "grad_norm": 0.5127436518669128,
      "learning_rate": 0.00016597953413222027,
      "loss": 2.9452,
      "step": 107550
    },
    {
      "epoch": 28.95634151593454,
      "grad_norm": 0.5206359028816223,
      "learning_rate": 0.00016577756833176247,
      "loss": 2.9348,
      "step": 107600
    },
    {
      "epoch": 28.969799741602067,
      "grad_norm": 0.5183207392692566,
      "learning_rate": 0.0001655756025313047,
      "loss": 2.9361,
      "step": 107650
    },
    {
      "epoch": 28.983257967269594,
      "grad_norm": 0.489900141954422,
      "learning_rate": 0.00016537363673084688,
      "loss": 2.9478,
      "step": 107700
    },
    {
      "epoch": 28.99671619293712,
      "grad_norm": 0.5312089323997498,
      "learning_rate": 0.0001651716709303891,
      "loss": 2.953,
      "step": 107750
    },
    {
      "epoch": 29.00995908699397,
      "grad_norm": 0.48560231924057007,
      "learning_rate": 0.0001649697051299313,
      "loss": 2.8764,
      "step": 107800
    },
    {
      "epoch": 29.023417312661497,
      "grad_norm": 0.5327926874160767,
      "learning_rate": 0.0001647677393294735,
      "loss": 2.8725,
      "step": 107850
    },
    {
      "epoch": 29.036875538329028,
      "grad_norm": 0.48088765144348145,
      "learning_rate": 0.00016456577352901575,
      "loss": 2.8643,
      "step": 107900
    },
    {
      "epoch": 29.050333763996555,
      "grad_norm": 0.5463573932647705,
      "learning_rate": 0.00016436380772855797,
      "loss": 2.8722,
      "step": 107950
    },
    {
      "epoch": 29.063791989664082,
      "grad_norm": 0.5013686418533325,
      "learning_rate": 0.00016416184192810017,
      "loss": 2.8714,
      "step": 108000
    },
    {
      "epoch": 29.063791989664082,
      "eval_accuracy": 0.39687685921931587,
      "eval_loss": 3.2901217937469482,
      "eval_runtime": 146.7973,
      "eval_samples_per_second": 122.7,
      "eval_steps_per_second": 7.67,
      "step": 108000
    },
    {
      "epoch": 29.07725021533161,
      "grad_norm": 0.5061647891998291,
      "learning_rate": 0.00016395987612764237,
      "loss": 2.8791,
      "step": 108050
    },
    {
      "epoch": 29.090708440999137,
      "grad_norm": 0.5251488089561462,
      "learning_rate": 0.0001637579103271846,
      "loss": 2.8695,
      "step": 108100
    },
    {
      "epoch": 29.104166666666668,
      "grad_norm": 0.5041511058807373,
      "learning_rate": 0.00016355594452672679,
      "loss": 2.8829,
      "step": 108150
    },
    {
      "epoch": 29.117624892334195,
      "grad_norm": 0.49148404598236084,
      "learning_rate": 0.000163353978726269,
      "loss": 2.8866,
      "step": 108200
    },
    {
      "epoch": 29.131083118001722,
      "grad_norm": 0.5406279563903809,
      "learning_rate": 0.0001631520129258112,
      "loss": 2.8911,
      "step": 108250
    },
    {
      "epoch": 29.14454134366925,
      "grad_norm": 0.5385282039642334,
      "learning_rate": 0.0001629500471253534,
      "loss": 2.8916,
      "step": 108300
    },
    {
      "epoch": 29.157999569336777,
      "grad_norm": 0.5390298366546631,
      "learning_rate": 0.00016274808132489565,
      "loss": 2.8827,
      "step": 108350
    },
    {
      "epoch": 29.171457795004308,
      "grad_norm": 0.5405099391937256,
      "learning_rate": 0.00016254611552443785,
      "loss": 2.8937,
      "step": 108400
    },
    {
      "epoch": 29.184916020671835,
      "grad_norm": 0.5607936382293701,
      "learning_rate": 0.00016234414972398007,
      "loss": 2.8967,
      "step": 108450
    },
    {
      "epoch": 29.198374246339363,
      "grad_norm": 0.5277544856071472,
      "learning_rate": 0.00016214218392352227,
      "loss": 2.913,
      "step": 108500
    },
    {
      "epoch": 29.21183247200689,
      "grad_norm": 0.5103113055229187,
      "learning_rate": 0.0001619402181230645,
      "loss": 2.904,
      "step": 108550
    },
    {
      "epoch": 29.225290697674417,
      "grad_norm": 0.5134518146514893,
      "learning_rate": 0.00016173825232260669,
      "loss": 2.8923,
      "step": 108600
    },
    {
      "epoch": 29.238748923341948,
      "grad_norm": 0.5226130485534668,
      "learning_rate": 0.00016153628652214888,
      "loss": 2.8982,
      "step": 108650
    },
    {
      "epoch": 29.252207149009475,
      "grad_norm": 0.5704584121704102,
      "learning_rate": 0.0001613343207216911,
      "loss": 2.8925,
      "step": 108700
    },
    {
      "epoch": 29.265665374677003,
      "grad_norm": 0.4942656457424164,
      "learning_rate": 0.0001611323549212333,
      "loss": 2.8977,
      "step": 108750
    },
    {
      "epoch": 29.27912360034453,
      "grad_norm": 0.5402054190635681,
      "learning_rate": 0.00016093038912077555,
      "loss": 2.9063,
      "step": 108800
    },
    {
      "epoch": 29.292581826012057,
      "grad_norm": 0.5127511620521545,
      "learning_rate": 0.00016072842332031775,
      "loss": 2.9033,
      "step": 108850
    },
    {
      "epoch": 29.306040051679588,
      "grad_norm": 0.529906690120697,
      "learning_rate": 0.00016052645751985997,
      "loss": 2.8883,
      "step": 108900
    },
    {
      "epoch": 29.319498277347115,
      "grad_norm": 0.5000776648521423,
      "learning_rate": 0.00016032449171940217,
      "loss": 2.896,
      "step": 108950
    },
    {
      "epoch": 29.332956503014643,
      "grad_norm": 0.5496556162834167,
      "learning_rate": 0.0001601225259189444,
      "loss": 2.897,
      "step": 109000
    },
    {
      "epoch": 29.332956503014643,
      "eval_accuracy": 0.3971406537846263,
      "eval_loss": 3.2881126403808594,
      "eval_runtime": 146.7304,
      "eval_samples_per_second": 122.756,
      "eval_steps_per_second": 7.674,
      "step": 109000
    },
    {
      "epoch": 29.34641472868217,
      "grad_norm": 0.4822516441345215,
      "learning_rate": 0.00015992056011848659,
      "loss": 2.916,
      "step": 109050
    },
    {
      "epoch": 29.359872954349697,
      "grad_norm": 0.5103018283843994,
      "learning_rate": 0.00015971859431802878,
      "loss": 2.9114,
      "step": 109100
    },
    {
      "epoch": 29.373331180017228,
      "grad_norm": 0.5238035917282104,
      "learning_rate": 0.000159516628517571,
      "loss": 2.906,
      "step": 109150
    },
    {
      "epoch": 29.386789405684755,
      "grad_norm": 1.0078877210617065,
      "learning_rate": 0.0001593146627171132,
      "loss": 2.9091,
      "step": 109200
    },
    {
      "epoch": 29.400247631352283,
      "grad_norm": 0.5114656090736389,
      "learning_rate": 0.00015911269691665545,
      "loss": 2.908,
      "step": 109250
    },
    {
      "epoch": 29.41370585701981,
      "grad_norm": 0.4911574423313141,
      "learning_rate": 0.00015891073111619765,
      "loss": 2.9068,
      "step": 109300
    },
    {
      "epoch": 29.427164082687337,
      "grad_norm": 0.5115836262702942,
      "learning_rate": 0.00015870876531573987,
      "loss": 2.9027,
      "step": 109350
    },
    {
      "epoch": 29.440622308354868,
      "grad_norm": 0.538198709487915,
      "learning_rate": 0.00015850679951528207,
      "loss": 2.9203,
      "step": 109400
    },
    {
      "epoch": 29.454080534022395,
      "grad_norm": 0.5085831880569458,
      "learning_rate": 0.00015830483371482426,
      "loss": 2.9104,
      "step": 109450
    },
    {
      "epoch": 29.467538759689923,
      "grad_norm": 0.503837525844574,
      "learning_rate": 0.00015810286791436649,
      "loss": 2.9144,
      "step": 109500
    },
    {
      "epoch": 29.48099698535745,
      "grad_norm": 0.5280073285102844,
      "learning_rate": 0.00015790090211390868,
      "loss": 2.9088,
      "step": 109550
    },
    {
      "epoch": 29.494455211024977,
      "grad_norm": 0.5246075391769409,
      "learning_rate": 0.0001576989363134509,
      "loss": 2.9121,
      "step": 109600
    },
    {
      "epoch": 29.507913436692505,
      "grad_norm": 0.5014354586601257,
      "learning_rate": 0.0001574969705129931,
      "loss": 2.911,
      "step": 109650
    },
    {
      "epoch": 29.521371662360036,
      "grad_norm": 0.5218913555145264,
      "learning_rate": 0.00015729500471253535,
      "loss": 2.9129,
      "step": 109700
    },
    {
      "epoch": 29.534829888027563,
      "grad_norm": 0.5031024217605591,
      "learning_rate": 0.00015709303891207755,
      "loss": 2.9214,
      "step": 109750
    },
    {
      "epoch": 29.54828811369509,
      "grad_norm": 0.5340117812156677,
      "learning_rate": 0.00015689107311161977,
      "loss": 2.9132,
      "step": 109800
    },
    {
      "epoch": 29.561746339362617,
      "grad_norm": 0.5272226929664612,
      "learning_rate": 0.00015668910731116197,
      "loss": 2.9138,
      "step": 109850
    },
    {
      "epoch": 29.575204565030145,
      "grad_norm": 0.522051215171814,
      "learning_rate": 0.00015648714151070416,
      "loss": 2.9115,
      "step": 109900
    },
    {
      "epoch": 29.588662790697676,
      "grad_norm": 0.5091174244880676,
      "learning_rate": 0.0001562851757102464,
      "loss": 2.909,
      "step": 109950
    },
    {
      "epoch": 29.602121016365203,
      "grad_norm": 0.5172711610794067,
      "learning_rate": 0.00015608320990978858,
      "loss": 2.9142,
      "step": 110000
    },
    {
      "epoch": 29.602121016365203,
      "eval_accuracy": 0.39755785770999374,
      "eval_loss": 3.281320571899414,
      "eval_runtime": 146.6744,
      "eval_samples_per_second": 122.803,
      "eval_steps_per_second": 7.677,
      "step": 110000
    },
    {
      "epoch": 29.602121016365203,
      "step": 110000,
      "total_flos": 2.29889824948224e+18,
      "train_loss": 0.5332863204956054,
      "train_runtime": 28956.9492,
      "train_samples_per_second": 410.561,
      "train_steps_per_second": 5.133
    }
  ],
  "logging_steps": 50,
  "max_steps": 148640,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 40,
  "save_steps": 10000,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 20,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 20
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.29889824948224e+18,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}