{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.02869777005849354,
  "eval_steps": 100,
  "global_step": 500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 5.739554011698708e-05,
      "grad_norm": 1.8802112340927124,
      "learning_rate": 5.9999999999999995e-05,
      "loss": 2.9438,
      "step": 1
    },
    {
      "epoch": 0.00011479108023397416,
      "grad_norm": 1.9408955574035645,
      "learning_rate": 0.00011999999999999999,
      "loss": 2.9429,
      "step": 2
    },
    {
      "epoch": 0.00017218662035096125,
      "grad_norm": 2.9192652702331543,
      "learning_rate": 0.00017999999999999998,
      "loss": 2.952,
      "step": 3
    },
    {
      "epoch": 0.00022958216046794832,
      "grad_norm": 2.3403642177581787,
      "learning_rate": 0.00023999999999999998,
      "loss": 2.9307,
      "step": 4
    },
    {
      "epoch": 0.00028697770058493544,
      "grad_norm": 2.134683847427368,
      "learning_rate": 0.0003,
      "loss": 2.8917,
      "step": 5
    },
    {
      "epoch": 0.0003443732407019225,
      "grad_norm": 1.5358260869979858,
      "learning_rate": 0.00035999999999999997,
      "loss": 2.9205,
      "step": 6
    },
    {
      "epoch": 0.0004017687808189096,
      "grad_norm": 0.9012013673782349,
      "learning_rate": 0.00041999999999999996,
      "loss": 2.8937,
      "step": 7
    },
    {
      "epoch": 0.00045916432093589664,
      "grad_norm": 0.9427694082260132,
      "learning_rate": 0.00047999999999999996,
      "loss": 2.904,
      "step": 8
    },
    {
      "epoch": 0.0005165598610528837,
      "grad_norm": 1.662156105041504,
      "learning_rate": 0.00054,
      "loss": 2.9114,
      "step": 9
    },
    {
      "epoch": 0.0005739554011698709,
      "grad_norm": 1.2877967357635498,
      "learning_rate": 0.0006,
      "loss": 2.9185,
      "step": 10
    },
    {
      "epoch": 0.000631350941286858,
      "grad_norm": 1.3717082738876343,
      "learning_rate": 0.0005999969170437548,
      "loss": 2.899,
      "step": 11
    },
    {
      "epoch": 0.000688746481403845,
      "grad_norm": 1.3706175088882446,
      "learning_rate": 0.0005999876683017478,
      "loss": 2.8522,
      "step": 12
    },
    {
      "epoch": 0.0007461420215208321,
      "grad_norm": 0.7431464791297913,
      "learning_rate": 0.0005999722541541584,
      "loss": 2.8894,
      "step": 13
    },
    {
      "epoch": 0.0008035375616378192,
      "grad_norm": 0.5839619040489197,
      "learning_rate": 0.0005999506752346019,
      "loss": 2.8866,
      "step": 14
    },
    {
      "epoch": 0.0008609331017548062,
      "grad_norm": 0.5229901671409607,
      "learning_rate": 0.0005999229324301031,
      "loss": 2.8608,
      "step": 15
    },
    {
      "epoch": 0.0009183286418717933,
      "grad_norm": 0.6879259943962097,
      "learning_rate": 0.00059988902688106,
      "loss": 2.8801,
      "step": 16
    },
    {
      "epoch": 0.0009757241819887805,
      "grad_norm": 0.4949502646923065,
      "learning_rate": 0.0005998489599811971,
      "loss": 2.8857,
      "step": 17
    },
    {
      "epoch": 0.0010331197221057674,
      "grad_norm": 0.5659216642379761,
      "learning_rate": 0.0005998027333775077,
      "loss": 2.8172,
      "step": 18
    },
    {
      "epoch": 0.0010905152622227546,
      "grad_norm": 0.43849167227745056,
      "learning_rate": 0.0005997503489701861,
      "loss": 2.8479,
      "step": 19
    },
    {
      "epoch": 0.0011479108023397418,
      "grad_norm": 0.5036750435829163,
      "learning_rate": 0.0005996918089125504,
      "loss": 2.8957,
      "step": 20
    },
    {
      "epoch": 0.0012053063424567287,
      "grad_norm": 0.40093106031417847,
      "learning_rate": 0.000599627115610953,
      "loss": 2.8951,
      "step": 21
    },
    {
      "epoch": 0.001262701882573716,
      "grad_norm": 0.3499244153499603,
      "learning_rate": 0.0005995562717246821,
      "loss": 2.8535,
      "step": 22
    },
    {
      "epoch": 0.0013200974226907029,
      "grad_norm": 0.3672889769077301,
      "learning_rate": 0.0005994792801658526,
      "loss": 2.8507,
      "step": 23
    },
    {
      "epoch": 0.00137749296280769,
      "grad_norm": 0.3307906985282898,
      "learning_rate": 0.0005993961440992859,
      "loss": 2.8597,
      "step": 24
    },
    {
      "epoch": 0.001434888502924677,
      "grad_norm": 0.33352652192115784,
      "learning_rate": 0.0005993068669423797,
      "loss": 2.8023,
      "step": 25
    },
    {
      "epoch": 0.0014922840430416642,
      "grad_norm": 0.30308255553245544,
      "learning_rate": 0.0005992114523649685,
      "loss": 2.864,
      "step": 26
    },
    {
      "epoch": 0.0015496795831586513,
      "grad_norm": 0.2800331711769104,
      "learning_rate": 0.000599109904289172,
      "loss": 2.8459,
      "step": 27
    },
    {
      "epoch": 0.0016070751232756383,
      "grad_norm": 0.2467849850654602,
      "learning_rate": 0.0005990022268892337,
      "loss": 2.8298,
      "step": 28
    },
    {
      "epoch": 0.0016644706633926255,
      "grad_norm": 0.25928932428359985,
      "learning_rate": 0.0005988884245913497,
      "loss": 2.8061,
      "step": 29
    },
    {
      "epoch": 0.0017218662035096124,
      "grad_norm": 0.2770285904407501,
      "learning_rate": 0.0005987685020734869,
      "loss": 2.8363,
      "step": 30
    },
    {
      "epoch": 0.0017792617436265996,
      "grad_norm": 0.2888840436935425,
      "learning_rate": 0.0005986424642651901,
      "loss": 2.847,
      "step": 31
    },
    {
      "epoch": 0.0018366572837435866,
      "grad_norm": 0.3389260172843933,
      "learning_rate": 0.0005985103163473802,
      "loss": 2.8185,
      "step": 32
    },
    {
      "epoch": 0.0018940528238605737,
      "grad_norm": 0.3043622672557831,
      "learning_rate": 0.0005983720637521404,
      "loss": 2.8073,
      "step": 33
    },
    {
      "epoch": 0.001951448363977561,
      "grad_norm": 0.2626359760761261,
      "learning_rate": 0.0005982277121624933,
      "loss": 2.8278,
      "step": 34
    },
    {
      "epoch": 0.002008843904094548,
      "grad_norm": 0.2601317763328552,
      "learning_rate": 0.0005980772675121675,
      "loss": 2.8293,
      "step": 35
    },
    {
      "epoch": 0.002066239444211535,
      "grad_norm": 0.2932066023349762,
      "learning_rate": 0.0005979207359853532,
      "loss": 2.842,
      "step": 36
    },
    {
      "epoch": 0.002123634984328522,
      "grad_norm": 0.3828963041305542,
      "learning_rate": 0.0005977581240164485,
      "loss": 2.8383,
      "step": 37
    },
    {
      "epoch": 0.002181030524445509,
      "grad_norm": 0.2928522527217865,
      "learning_rate": 0.0005975894382897944,
      "loss": 2.8291,
      "step": 38
    },
    {
      "epoch": 0.0022384260645624964,
      "grad_norm": 0.2287234663963318,
      "learning_rate": 0.0005974146857394005,
      "loss": 2.8422,
      "step": 39
    },
    {
      "epoch": 0.0022958216046794835,
      "grad_norm": 0.2722682058811188,
      "learning_rate": 0.0005972338735486597,
      "loss": 2.8217,
      "step": 40
    },
    {
      "epoch": 0.0023532171447964703,
      "grad_norm": 0.21170516312122345,
      "learning_rate": 0.0005970470091500531,
      "loss": 2.831,
      "step": 41
    },
    {
      "epoch": 0.0024106126849134575,
      "grad_norm": 0.22243160009384155,
      "learning_rate": 0.0005968541002248439,
      "loss": 2.862,
      "step": 42
    },
    {
      "epoch": 0.0024680082250304446,
      "grad_norm": 0.18485133349895477,
      "learning_rate": 0.0005966551547027627,
      "loss": 2.8531,
      "step": 43
    },
    {
      "epoch": 0.002525403765147432,
      "grad_norm": 0.21640127897262573,
      "learning_rate": 0.0005964501807616806,
      "loss": 2.8245,
      "step": 44
    },
    {
      "epoch": 0.0025827993052644185,
      "grad_norm": 0.2716100513935089,
      "learning_rate": 0.0005962391868272735,
      "loss": 2.8093,
      "step": 45
    },
    {
      "epoch": 0.0026401948453814057,
      "grad_norm": 0.19726517796516418,
      "learning_rate": 0.0005960221815726757,
      "loss": 2.8214,
      "step": 46
    },
    {
      "epoch": 0.002697590385498393,
      "grad_norm": 0.2424098700284958,
      "learning_rate": 0.0005957991739181231,
      "loss": 2.818,
      "step": 47
    },
    {
      "epoch": 0.00275498592561538,
      "grad_norm": 0.2414388209581375,
      "learning_rate": 0.0005955701730305872,
      "loss": 2.8491,
      "step": 48
    },
    {
      "epoch": 0.0028123814657323673,
      "grad_norm": 0.25403571128845215,
      "learning_rate": 0.0005953351883233972,
      "loss": 2.8321,
      "step": 49
    },
    {
      "epoch": 0.002869777005849354,
      "grad_norm": 0.30923786759376526,
      "learning_rate": 0.0005950942294558544,
      "loss": 2.8298,
      "step": 50
    },
    {
      "epoch": 0.002927172545966341,
      "grad_norm": 0.22294141352176666,
      "learning_rate": 0.0005948473063328338,
      "loss": 2.8015,
      "step": 51
    },
    {
      "epoch": 0.0029845680860833283,
      "grad_norm": 0.2882789075374603,
      "learning_rate": 0.0005945944291043779,
      "loss": 2.8256,
      "step": 52
    },
    {
      "epoch": 0.0030419636262003155,
      "grad_norm": 0.25416064262390137,
      "learning_rate": 0.0005943356081652793,
      "loss": 2.8211,
      "step": 53
    },
    {
      "epoch": 0.0030993591663173027,
      "grad_norm": 0.2488490343093872,
      "learning_rate": 0.0005940708541546529,
      "loss": 2.8618,
      "step": 54
    },
    {
      "epoch": 0.0031567547064342894,
      "grad_norm": 0.27515849471092224,
      "learning_rate": 0.000593800177955499,
      "loss": 2.802,
      "step": 55
    },
    {
      "epoch": 0.0032141502465512766,
      "grad_norm": 0.2030380666255951,
      "learning_rate": 0.0005935235906942563,
      "loss": 2.8229,
      "step": 56
    },
    {
      "epoch": 0.003271545786668264,
      "grad_norm": 0.2384052276611328,
      "learning_rate": 0.0005932411037403436,
      "loss": 2.8122,
      "step": 57
    },
    {
      "epoch": 0.003328941326785251,
      "grad_norm": 0.2543489336967468,
      "learning_rate": 0.000592952728705693,
      "loss": 2.8302,
      "step": 58
    },
    {
      "epoch": 0.003386336866902238,
      "grad_norm": 0.2387794405221939,
      "learning_rate": 0.000592658477444273,
      "loss": 2.835,
      "step": 59
    },
    {
      "epoch": 0.003443732407019225,
      "grad_norm": 0.2748169004917145,
      "learning_rate": 0.0005923583620516003,
      "loss": 2.834,
      "step": 60
    },
    {
      "epoch": 0.003501127947136212,
      "grad_norm": 0.2565017640590668,
      "learning_rate": 0.0005920523948642431,
      "loss": 2.8452,
      "step": 61
    },
    {
      "epoch": 0.0035585234872531992,
      "grad_norm": 0.25502678751945496,
      "learning_rate": 0.0005917405884593144,
      "loss": 2.8345,
      "step": 62
    },
    {
      "epoch": 0.0036159190273701864,
      "grad_norm": 0.22830121219158173,
      "learning_rate": 0.0005914229556539538,
      "loss": 2.7989,
      "step": 63
    },
    {
      "epoch": 0.003673314567487173,
      "grad_norm": 0.3146669268608093,
      "learning_rate": 0.0005910995095048024,
      "loss": 2.845,
      "step": 64
    },
    {
      "epoch": 0.0037307101076041603,
      "grad_norm": 0.2924383580684662,
      "learning_rate": 0.000590770263307464,
      "loss": 2.8303,
      "step": 65
    },
    {
      "epoch": 0.0037881056477211475,
      "grad_norm": 0.2577711343765259,
      "learning_rate": 0.0005904352305959605,
      "loss": 2.8156,
      "step": 66
    },
    {
      "epoch": 0.0038455011878381347,
      "grad_norm": 0.2631978988647461,
      "learning_rate": 0.0005900944251421745,
      "loss": 2.833,
      "step": 67
    },
    {
      "epoch": 0.003902896727955122,
      "grad_norm": 0.21994397044181824,
      "learning_rate": 0.000589747860955283,
      "loss": 2.8136,
      "step": 68
    },
    {
      "epoch": 0.003960292268072109,
      "grad_norm": 0.3000943064689636,
      "learning_rate": 0.0005893955522811827,
      "loss": 2.8415,
      "step": 69
    },
    {
      "epoch": 0.004017687808189096,
      "grad_norm": 0.24310976266860962,
      "learning_rate": 0.0005890375136019032,
      "loss": 2.8148,
      "step": 70
    },
    {
      "epoch": 0.004075083348306083,
      "grad_norm": 0.24616850912570953,
      "learning_rate": 0.0005886737596350122,
      "loss": 2.8329,
      "step": 71
    },
    {
      "epoch": 0.00413247888842307,
      "grad_norm": 0.2714521884918213,
      "learning_rate": 0.0005883043053330105,
      "loss": 2.8356,
      "step": 72
    },
    {
      "epoch": 0.004189874428540057,
      "grad_norm": 0.2601388096809387,
      "learning_rate": 0.0005879291658827176,
      "loss": 2.8228,
      "step": 73
    },
    {
      "epoch": 0.004247269968657044,
      "grad_norm": 0.22764116525650024,
      "learning_rate": 0.0005875483567046467,
      "loss": 2.801,
      "step": 74
    },
    {
      "epoch": 0.004304665508774032,
      "grad_norm": 0.22346433997154236,
      "learning_rate": 0.0005871618934523719,
      "loss": 2.7948,
      "step": 75
    },
    {
      "epoch": 0.004362061048891018,
      "grad_norm": 0.18839874863624573,
      "learning_rate": 0.0005867697920118835,
      "loss": 2.8341,
      "step": 76
    },
    {
      "epoch": 0.004419456589008005,
      "grad_norm": 0.25794312357902527,
      "learning_rate": 0.0005863720685009362,
      "loss": 2.815,
      "step": 77
    },
    {
      "epoch": 0.004476852129124993,
      "grad_norm": 0.2352106124162674,
      "learning_rate": 0.0005859687392683856,
      "loss": 2.8169,
      "step": 78
    },
    {
      "epoch": 0.0045342476692419795,
      "grad_norm": 0.28784099221229553,
      "learning_rate": 0.0005855598208935169,
      "loss": 2.8506,
      "step": 79
    },
    {
      "epoch": 0.004591643209358967,
      "grad_norm": 0.22999855875968933,
      "learning_rate": 0.0005851453301853628,
      "loss": 2.8377,
      "step": 80
    },
    {
      "epoch": 0.004649038749475954,
      "grad_norm": 0.21411263942718506,
      "learning_rate": 0.0005847252841820128,
      "loss": 2.8137,
      "step": 81
    },
    {
      "epoch": 0.0047064342895929406,
      "grad_norm": 0.2420736700296402,
      "learning_rate": 0.0005842997001499129,
      "loss": 2.7929,
      "step": 82
    },
    {
      "epoch": 0.004763829829709928,
      "grad_norm": 0.24426190555095673,
      "learning_rate": 0.0005838685955831558,
      "loss": 2.8273,
      "step": 83
    },
    {
      "epoch": 0.004821225369826915,
      "grad_norm": 0.20297811925411224,
      "learning_rate": 0.0005834319882027617,
      "loss": 2.7993,
      "step": 84
    },
    {
      "epoch": 0.0048786209099439025,
      "grad_norm": 0.2474389523267746,
      "learning_rate": 0.00058298989595595,
      "loss": 2.8252,
      "step": 85
    },
    {
      "epoch": 0.004936016450060889,
      "grad_norm": 0.22601982951164246,
      "learning_rate": 0.0005825423370154012,
      "loss": 2.8421,
      "step": 86
    },
    {
      "epoch": 0.004993411990177876,
      "grad_norm": 0.24997788667678833,
      "learning_rate": 0.0005820893297785106,
      "loss": 2.8485,
      "step": 87
    },
    {
      "epoch": 0.005050807530294864,
      "grad_norm": 0.19994623959064484,
      "learning_rate": 0.0005816308928666314,
      "loss": 2.8456,
      "step": 88
    },
    {
      "epoch": 0.00510820307041185,
      "grad_norm": 0.19206245243549347,
      "learning_rate": 0.0005811670451243093,
      "loss": 2.8035,
      "step": 89
    },
    {
      "epoch": 0.005165598610528837,
      "grad_norm": 0.2515026032924652,
      "learning_rate": 0.0005806978056185083,
      "loss": 2.8232,
      "step": 90
    },
    {
      "epoch": 0.005222994150645825,
      "grad_norm": 0.22921022772789001,
      "learning_rate": 0.0005802231936378267,
      "loss": 2.8366,
      "step": 91
    },
    {
      "epoch": 0.0052803896907628114,
      "grad_norm": 0.248809352517128,
      "learning_rate": 0.000579743228691704,
      "loss": 2.8331,
      "step": 92
    },
    {
      "epoch": 0.005337785230879799,
      "grad_norm": 0.18247073888778687,
      "learning_rate": 0.0005792579305096191,
      "loss": 2.8249,
      "step": 93
    },
    {
      "epoch": 0.005395180770996786,
      "grad_norm": 0.2440440058708191,
      "learning_rate": 0.0005787673190402799,
      "loss": 2.837,
      "step": 94
    },
    {
      "epoch": 0.0054525763111137725,
      "grad_norm": 0.21160444617271423,
      "learning_rate": 0.0005782714144508019,
      "loss": 2.7864,
      "step": 95
    },
    {
      "epoch": 0.00550997185123076,
      "grad_norm": 0.21344538033008575,
      "learning_rate": 0.0005777702371258806,
      "loss": 2.847,
      "step": 96
    },
    {
      "epoch": 0.005567367391347747,
      "grad_norm": 0.24861139059066772,
      "learning_rate": 0.0005772638076669529,
      "loss": 2.8267,
      "step": 97
    },
    {
      "epoch": 0.0056247629314647345,
      "grad_norm": 0.290520042181015,
      "learning_rate": 0.0005767521468913501,
      "loss": 2.827,
      "step": 98
    },
    {
      "epoch": 0.005682158471581721,
      "grad_norm": 0.20536312460899353,
      "learning_rate": 0.0005762352758314429,
      "loss": 2.8476,
      "step": 99
    },
    {
      "epoch": 0.005739554011698708,
      "grad_norm": 0.21782469749450684,
      "learning_rate": 0.000575713215733776,
      "loss": 2.844,
      "step": 100
    },
    {
      "epoch": 0.005739554011698708,
      "eval_loss": 2.7509028911590576,
      "eval_runtime": 85.2068,
      "eval_samples_per_second": 50.641,
      "eval_steps_per_second": 12.663,
      "step": 100
    },
    {
      "epoch": 0.005796949551815696,
      "grad_norm": 0.2523731291294098,
      "learning_rate": 0.0005751859880581954,
      "loss": 2.8125,
      "step": 101
    },
    {
      "epoch": 0.005854345091932682,
      "grad_norm": 0.30107325315475464,
      "learning_rate": 0.0005746536144769656,
      "loss": 2.8108,
      "step": 102
    },
    {
      "epoch": 0.00591174063204967,
      "grad_norm": 0.24103832244873047,
      "learning_rate": 0.0005741161168738794,
      "loss": 2.8282,
      "step": 103
    },
    {
      "epoch": 0.005969136172166657,
      "grad_norm": 0.31273001432418823,
      "learning_rate": 0.0005735735173433582,
      "loss": 2.8104,
      "step": 104
    },
    {
      "epoch": 0.006026531712283643,
      "grad_norm": 0.19059035181999207,
      "learning_rate": 0.0005730258381895433,
      "loss": 2.8186,
      "step": 105
    },
    {
      "epoch": 0.006083927252400631,
      "grad_norm": 0.25082021951675415,
      "learning_rate": 0.0005724731019253797,
      "loss": 2.8154,
      "step": 106
    },
    {
      "epoch": 0.006141322792517618,
      "grad_norm": 0.23254480957984924,
      "learning_rate": 0.0005719153312716904,
      "loss": 2.8121,
      "step": 107
    },
    {
      "epoch": 0.006198718332634605,
      "grad_norm": 0.24095705151557922,
      "learning_rate": 0.0005713525491562421,
      "loss": 2.8361,
      "step": 108
    },
    {
      "epoch": 0.006256113872751592,
      "grad_norm": 0.17760275304317474,
      "learning_rate": 0.0005707847787128034,
      "loss": 2.8396,
      "step": 109
    },
    {
      "epoch": 0.006313509412868579,
      "grad_norm": 0.20905229449272156,
      "learning_rate": 0.0005702120432801934,
      "loss": 2.8284,
      "step": 110
    },
    {
      "epoch": 0.0063709049529855665,
      "grad_norm": 0.19538630545139313,
      "learning_rate": 0.0005696343664013227,
      "loss": 2.8417,
      "step": 111
    },
    {
      "epoch": 0.006428300493102553,
      "grad_norm": 0.2408672571182251,
      "learning_rate": 0.0005690517718222248,
      "loss": 2.8416,
      "step": 112
    },
    {
      "epoch": 0.006485696033219541,
      "grad_norm": 0.19618412852287292,
      "learning_rate": 0.0005684642834910813,
      "loss": 2.8683,
      "step": 113
    },
    {
      "epoch": 0.006543091573336528,
      "grad_norm": 0.17854906618595123,
      "learning_rate": 0.0005678719255572363,
      "loss": 2.8232,
      "step": 114
    },
    {
      "epoch": 0.006600487113453514,
      "grad_norm": 0.2527766227722168,
      "learning_rate": 0.0005672747223702044,
      "loss": 2.8219,
      "step": 115
    },
    {
      "epoch": 0.006657882653570502,
      "grad_norm": 0.21465440094470978,
      "learning_rate": 0.0005666726984786695,
      "loss": 2.8308,
      "step": 116
    },
    {
      "epoch": 0.006715278193687489,
      "grad_norm": 0.2080729454755783,
      "learning_rate": 0.000566065878629476,
      "loss": 2.8369,
      "step": 117
    },
    {
      "epoch": 0.006772673733804476,
      "grad_norm": 0.18979360163211823,
      "learning_rate": 0.0005654542877666108,
      "loss": 2.7997,
      "step": 118
    },
    {
      "epoch": 0.006830069273921463,
      "grad_norm": 0.20258580148220062,
      "learning_rate": 0.0005648379510301792,
      "loss": 2.846,
      "step": 119
    },
    {
      "epoch": 0.00688746481403845,
      "grad_norm": 0.2112026810646057,
      "learning_rate": 0.0005642168937553701,
      "loss": 2.8521,
      "step": 120
    },
    {
      "epoch": 0.006944860354155437,
      "grad_norm": 0.25105029344558716,
      "learning_rate": 0.0005635911414714158,
      "loss": 2.8081,
      "step": 121
    },
    {
      "epoch": 0.007002255894272424,
      "grad_norm": 0.21830224990844727,
      "learning_rate": 0.0005629607199005416,
      "loss": 2.8161,
      "step": 122
    },
    {
      "epoch": 0.007059651434389411,
      "grad_norm": 0.19216330349445343,
      "learning_rate": 0.0005623256549569091,
      "loss": 2.805,
      "step": 123
    },
    {
      "epoch": 0.0071170469745063985,
      "grad_norm": 0.19969609379768372,
      "learning_rate": 0.000561685972745551,
      "loss": 2.7859,
      "step": 124
    },
    {
      "epoch": 0.007174442514623385,
      "grad_norm": 0.22093947231769562,
      "learning_rate": 0.0005610416995612973,
      "loss": 2.8194,
      "step": 125
    },
    {
      "epoch": 0.007231838054740373,
      "grad_norm": 0.2148187905550003,
      "learning_rate": 0.0005603928618876952,
      "loss": 2.8565,
      "step": 126
    },
    {
      "epoch": 0.0072892335948573595,
      "grad_norm": 0.18277674913406372,
      "learning_rate": 0.0005597394863959201,
      "loss": 2.8187,
      "step": 127
    },
    {
      "epoch": 0.007346629134974346,
      "grad_norm": 0.22607837617397308,
      "learning_rate": 0.0005590815999436795,
      "loss": 2.8607,
      "step": 128
    },
    {
      "epoch": 0.007404024675091334,
      "grad_norm": 0.22417186200618744,
      "learning_rate": 0.0005584192295741086,
      "loss": 2.8198,
      "step": 129
    },
    {
      "epoch": 0.007461420215208321,
      "grad_norm": 0.229670912027359,
      "learning_rate": 0.0005577524025146591,
      "loss": 2.8477,
      "step": 130
    },
    {
      "epoch": 0.007518815755325308,
      "grad_norm": 0.1985808163881302,
      "learning_rate": 0.0005570811461759794,
      "loss": 2.8058,
      "step": 131
    },
    {
      "epoch": 0.007576211295442295,
      "grad_norm": 0.22260330617427826,
      "learning_rate": 0.0005564054881507886,
      "loss": 2.8369,
      "step": 132
    },
    {
      "epoch": 0.007633606835559282,
      "grad_norm": 0.20925524830818176,
      "learning_rate": 0.0005557254562127417,
      "loss": 2.8205,
      "step": 133
    },
    {
      "epoch": 0.007691002375676269,
      "grad_norm": 0.26581674814224243,
      "learning_rate": 0.0005550410783152882,
      "loss": 2.8164,
      "step": 134
    },
    {
      "epoch": 0.007748397915793256,
      "grad_norm": 0.2182077318429947,
      "learning_rate": 0.0005543523825905229,
      "loss": 2.8279,
      "step": 135
    },
    {
      "epoch": 0.007805793455910244,
      "grad_norm": 0.24468722939491272,
      "learning_rate": 0.0005536593973480297,
      "loss": 2.8281,
      "step": 136
    },
    {
      "epoch": 0.007863188996027231,
      "grad_norm": 0.22021321952342987,
      "learning_rate": 0.0005529621510737175,
      "loss": 2.8028,
      "step": 137
    },
    {
      "epoch": 0.007920584536144217,
      "grad_norm": 0.20566654205322266,
      "learning_rate": 0.0005522606724286498,
      "loss": 2.7937,
      "step": 138
    },
    {
      "epoch": 0.007977980076261205,
      "grad_norm": 0.1960543841123581,
      "learning_rate": 0.0005515549902478665,
      "loss": 2.8089,
      "step": 139
    },
    {
      "epoch": 0.008035375616378192,
      "grad_norm": 0.2689999043941498,
      "learning_rate": 0.0005508451335391975,
      "loss": 2.7959,
      "step": 140
    },
    {
      "epoch": 0.008092771156495178,
      "grad_norm": 0.19776718318462372,
      "learning_rate": 0.0005501311314820721,
      "loss": 2.8442,
      "step": 141
    },
    {
      "epoch": 0.008150166696612166,
      "grad_norm": 0.2156287282705307,
      "learning_rate": 0.0005494130134263184,
      "loss": 2.8224,
      "step": 142
    },
    {
      "epoch": 0.008207562236729153,
      "grad_norm": 0.17528703808784485,
      "learning_rate": 0.0005486908088909568,
      "loss": 2.8659,
      "step": 143
    },
    {
      "epoch": 0.00826495777684614,
      "grad_norm": 0.1757359504699707,
      "learning_rate": 0.0005479645475629872,
      "loss": 2.8119,
      "step": 144
    },
    {
      "epoch": 0.008322353316963127,
      "grad_norm": 0.1916513890028,
      "learning_rate": 0.0005472342592961683,
      "loss": 2.8069,
      "step": 145
    },
    {
      "epoch": 0.008379748857080115,
      "grad_norm": 0.19162799417972565,
      "learning_rate": 0.0005464999741097901,
      "loss": 2.8211,
      "step": 146
    },
    {
      "epoch": 0.0084371443971971,
      "grad_norm": 0.1881379634141922,
      "learning_rate": 0.0005457617221874408,
      "loss": 2.7954,
      "step": 147
    },
    {
      "epoch": 0.008494539937314088,
      "grad_norm": 0.22305060923099518,
      "learning_rate": 0.0005450195338757654,
      "loss": 2.8447,
      "step": 148
    },
    {
      "epoch": 0.008551935477431076,
      "grad_norm": 0.25081732869148254,
      "learning_rate": 0.0005442734396832185,
      "loss": 2.8205,
      "step": 149
    },
    {
      "epoch": 0.008609331017548063,
      "grad_norm": 0.24046167731285095,
      "learning_rate": 0.00054352347027881,
      "loss": 2.8246,
      "step": 150
    },
    {
      "epoch": 0.00866672655766505,
      "grad_norm": 0.20985569059848785,
      "learning_rate": 0.0005427696564908447,
      "loss": 2.8384,
      "step": 151
    },
    {
      "epoch": 0.008724122097782037,
      "grad_norm": 0.18979063630104065,
      "learning_rate": 0.000542012029305655,
      "loss": 2.8261,
      "step": 152
    },
    {
      "epoch": 0.008781517637899024,
      "grad_norm": 0.21513347327709198,
      "learning_rate": 0.0005412506198663268,
      "loss": 2.8197,
      "step": 153
    },
    {
      "epoch": 0.00883891317801601,
      "grad_norm": 0.25432831048965454,
      "learning_rate": 0.0005404854594714204,
      "loss": 2.8091,
      "step": 154
    },
    {
      "epoch": 0.008896308718132998,
      "grad_norm": 0.261273592710495,
      "learning_rate": 0.0005397165795736823,
      "loss": 2.8324,
      "step": 155
    },
    {
      "epoch": 0.008953704258249985,
      "grad_norm": 0.22144336998462677,
      "learning_rate": 0.0005389440117787538,
      "loss": 2.8459,
      "step": 156
    },
    {
      "epoch": 0.009011099798366971,
      "grad_norm": 0.1860560178756714,
      "learning_rate": 0.000538167787843871,
      "loss": 2.8552,
      "step": 157
    },
    {
      "epoch": 0.009068495338483959,
      "grad_norm": 0.2402401566505432,
      "learning_rate": 0.0005373879396765593,
      "loss": 2.8229,
      "step": 158
    },
    {
      "epoch": 0.009125890878600947,
      "grad_norm": 0.2112584114074707,
      "learning_rate": 0.0005366044993333228,
      "loss": 2.823,
      "step": 159
    },
    {
      "epoch": 0.009183286418717934,
      "grad_norm": 0.24757996201515198,
      "learning_rate": 0.0005358174990183254,
      "loss": 2.8458,
      "step": 160
    },
    {
      "epoch": 0.00924068195883492,
      "grad_norm": 0.20984984934329987,
      "learning_rate": 0.0005350269710820675,
      "loss": 2.8375,
      "step": 161
    },
    {
      "epoch": 0.009298077498951908,
      "grad_norm": 0.22329501807689667,
      "learning_rate": 0.0005342329480200562,
      "loss": 2.815,
      "step": 162
    },
    {
      "epoch": 0.009355473039068895,
      "grad_norm": 0.26144203543663025,
      "learning_rate": 0.0005334354624714697,
      "loss": 2.8286,
      "step": 163
    },
    {
      "epoch": 0.009412868579185881,
      "grad_norm": 0.20015327632427216,
      "learning_rate": 0.0005326345472178154,
      "loss": 2.8304,
      "step": 164
    },
    {
      "epoch": 0.009470264119302869,
      "grad_norm": 0.29256758093833923,
      "learning_rate": 0.0005318302351815823,
      "loss": 2.7884,
      "step": 165
    },
    {
      "epoch": 0.009527659659419856,
      "grad_norm": 0.22914084792137146,
      "learning_rate": 0.000531022559424888,
      "loss": 2.8253,
      "step": 166
    },
    {
      "epoch": 0.009585055199536842,
      "grad_norm": 0.2677003741264343,
      "learning_rate": 0.0005302115531481195,
      "loss": 2.8084,
      "step": 167
    },
    {
      "epoch": 0.00964245073965383,
      "grad_norm": 0.2672327756881714,
      "learning_rate": 0.000529397249688568,
      "loss": 2.8351,
      "step": 168
    },
    {
      "epoch": 0.009699846279770817,
      "grad_norm": 0.21281464397907257,
      "learning_rate": 0.0005285796825190598,
      "loss": 2.8463,
      "step": 169
    },
    {
      "epoch": 0.009757241819887805,
      "grad_norm": 0.22858156263828278,
      "learning_rate": 0.0005277588852465788,
      "loss": 2.8156,
      "step": 170
    },
    {
      "epoch": 0.009814637360004791,
      "grad_norm": 0.20694582164287567,
      "learning_rate": 0.0005269348916108859,
      "loss": 2.8392,
      "step": 171
    },
    {
      "epoch": 0.009872032900121779,
      "grad_norm": 0.22438685595989227,
      "learning_rate": 0.0005261077354831322,
      "loss": 2.8336,
      "step": 172
    },
    {
      "epoch": 0.009929428440238766,
      "grad_norm": 0.2279587984085083,
      "learning_rate": 0.0005252774508644666,
      "loss": 2.7972,
      "step": 173
    },
    {
      "epoch": 0.009986823980355752,
      "grad_norm": 0.21278439462184906,
      "learning_rate": 0.0005244440718846375,
      "loss": 2.7946,
      "step": 174
    },
    {
      "epoch": 0.01004421952047274,
      "grad_norm": 0.23399871587753296,
      "learning_rate": 0.0005236076328005906,
      "loss": 2.8648,
      "step": 175
    },
    {
      "epoch": 0.010101615060589727,
      "grad_norm": 0.2649572193622589,
      "learning_rate": 0.0005227681679950607,
      "loss": 2.8453,
      "step": 176
    },
    {
      "epoch": 0.010159010600706713,
      "grad_norm": 0.21067285537719727,
      "learning_rate": 0.0005219257119751581,
      "loss": 2.8357,
      "step": 177
    },
    {
      "epoch": 0.0102164061408237,
      "grad_norm": 0.22862860560417175,
      "learning_rate": 0.0005210802993709497,
      "loss": 2.8235,
      "step": 178
    },
    {
      "epoch": 0.010273801680940688,
      "grad_norm": 0.22179283201694489,
      "learning_rate": 0.0005202319649340369,
      "loss": 2.82,
      "step": 179
    },
    {
      "epoch": 0.010331197221057674,
      "grad_norm": 0.16690605878829956,
      "learning_rate": 0.0005193807435361252,
      "loss": 2.8237,
      "step": 180
    },
    {
      "epoch": 0.010388592761174662,
      "grad_norm": 0.21572506427764893,
      "learning_rate": 0.0005185266701675927,
      "loss": 2.8403,
      "step": 181
    },
    {
      "epoch": 0.01044598830129165,
      "grad_norm": 0.1778525710105896,
      "learning_rate": 0.0005176697799360502,
      "loss": 2.8204,
      "step": 182
    },
    {
      "epoch": 0.010503383841408637,
      "grad_norm": 0.18887534737586975,
      "learning_rate": 0.0005168101080648989,
      "loss": 2.8146,
      "step": 183
    },
    {
      "epoch": 0.010560779381525623,
      "grad_norm": 0.18108077347278595,
      "learning_rate": 0.0005159476898918823,
      "loss": 2.853,
      "step": 184
    },
    {
      "epoch": 0.01061817492164261,
      "grad_norm": 0.1870754212141037,
      "learning_rate": 0.0005150825608676336,
      "loss": 2.8537,
      "step": 185
    },
    {
      "epoch": 0.010675570461759598,
      "grad_norm": 0.16484060883522034,
      "learning_rate": 0.0005142147565542188,
      "loss": 2.8194,
      "step": 186
    },
    {
      "epoch": 0.010732966001876584,
      "grad_norm": 0.18527449667453766,
      "learning_rate": 0.0005133443126236739,
      "loss": 2.8402,
      "step": 187
    },
    {
      "epoch": 0.010790361541993572,
      "grad_norm": 0.17674389481544495,
      "learning_rate": 0.0005124712648565398,
      "loss": 2.8412,
      "step": 188
    },
    {
      "epoch": 0.01084775708211056,
      "grad_norm": 0.2521503269672394,
      "learning_rate": 0.0005115956491403907,
      "loss": 2.8348,
      "step": 189
    },
    {
      "epoch": 0.010905152622227545,
      "grad_norm": 0.17621657252311707,
      "learning_rate": 0.000510717501468359,
      "loss": 2.8293,
      "step": 190
    },
    {
      "epoch": 0.010962548162344533,
      "grad_norm": 0.2621336579322815,
      "learning_rate": 0.0005098368579376563,
      "loss": 2.8164,
      "step": 191
    },
    {
      "epoch": 0.01101994370246152,
      "grad_norm": 0.18950189650058746,
      "learning_rate": 0.0005089537547480885,
      "loss": 2.7976,
      "step": 192
    },
    {
      "epoch": 0.011077339242578508,
      "grad_norm": 0.24857239425182343,
      "learning_rate": 0.0005080682282005692,
      "loss": 2.8323,
      "step": 193
    },
    {
      "epoch": 0.011134734782695494,
      "grad_norm": 0.16708490252494812,
      "learning_rate": 0.0005071803146956262,
      "loss": 2.801,
      "step": 194
    },
    {
      "epoch": 0.011192130322812481,
      "grad_norm": 0.24443359673023224,
      "learning_rate": 0.000506290050731906,
      "loss": 2.8121,
      "step": 195
    },
    {
      "epoch": 0.011249525862929469,
      "grad_norm": 0.2458924949169159,
      "learning_rate": 0.0005053974729046734,
      "loss": 2.8325,
      "step": 196
    },
    {
      "epoch": 0.011306921403046455,
      "grad_norm": 0.2034812569618225,
      "learning_rate": 0.0005045026179043067,
      "loss": 2.8123,
      "step": 197
    },
    {
      "epoch": 0.011364316943163442,
      "grad_norm": 0.2774895429611206,
      "learning_rate": 0.0005036055225147901,
      "loss": 2.8324,
      "step": 198
    },
    {
      "epoch": 0.01142171248328043,
      "grad_norm": 0.22201013565063477,
      "learning_rate": 0.0005027062236122014,
      "loss": 2.8195,
      "step": 199
    },
    {
      "epoch": 0.011479108023397416,
      "grad_norm": 0.1893691122531891,
      "learning_rate": 0.0005018047581631961,
      "loss": 2.8177,
      "step": 200
    },
    {
      "epoch": 0.011479108023397416,
      "eval_loss": 2.749150037765503,
      "eval_runtime": 85.2258,
      "eval_samples_per_second": 50.63,
      "eval_steps_per_second": 12.66,
      "step": 200
    },
    {
      "epoch": 0.011536503563514404,
      "grad_norm": 0.2689765691757202,
      "learning_rate": 0.0005009011632234881,
      "loss": 2.8438,
      "step": 201
    },
    {
      "epoch": 0.011593899103631391,
      "grad_norm": 0.2234533727169037,
      "learning_rate": 0.0004999954759363262,
      "loss": 2.8103,
      "step": 202
    },
    {
      "epoch": 0.011651294643748379,
      "grad_norm": 0.25140801072120667,
      "learning_rate": 0.0004990877335309675,
      "loss": 2.8178,
      "step": 203
    },
    {
      "epoch": 0.011708690183865365,
      "grad_norm": 0.3070688843727112,
      "learning_rate": 0.0004981779733211468,
      "loss": 2.8518,
      "step": 204
    },
    {
      "epoch": 0.011766085723982352,
      "grad_norm": 0.25637757778167725,
      "learning_rate": 0.0004972662327035431,
      "loss": 2.8578,
      "step": 205
    },
    {
      "epoch": 0.01182348126409934,
      "grad_norm": 0.2551119923591614,
      "learning_rate": 0.0004963525491562421,
      "loss": 2.8237,
      "step": 206
    },
    {
      "epoch": 0.011880876804216326,
      "grad_norm": 0.2416735738515854,
      "learning_rate": 0.0004954369602371958,
      "loss": 2.8195,
      "step": 207
    },
    {
      "epoch": 0.011938272344333313,
      "grad_norm": 0.3950039744377136,
      "learning_rate": 0.0004945195035826785,
      "loss": 2.8087,
      "step": 208
    },
    {
      "epoch": 0.011995667884450301,
      "grad_norm": 0.16370531916618347,
      "learning_rate": 0.00049360021690574,
      "loss": 2.8464,
      "step": 209
    },
    {
      "epoch": 0.012053063424567287,
      "grad_norm": 0.28070008754730225,
      "learning_rate": 0.0004926791379946549,
      "loss": 2.8377,
      "step": 210
    },
    {
      "epoch": 0.012110458964684274,
      "grad_norm": 0.1902085244655609,
      "learning_rate": 0.0004917563047113695,
      "loss": 2.8279,
      "step": 211
    },
    {
      "epoch": 0.012167854504801262,
      "grad_norm": 0.27748385071754456,
      "learning_rate": 0.0004908317549899456,
      "loss": 2.837,
      "step": 212
    },
    {
      "epoch": 0.012225250044918248,
      "grad_norm": 0.18437190353870392,
      "learning_rate": 0.0004899055268350012,
      "loss": 2.8301,
      "step": 213
    },
    {
      "epoch": 0.012282645585035236,
      "grad_norm": 0.22971947491168976,
      "learning_rate": 0.0004889776583201479,
      "loss": 2.8051,
      "step": 214
    },
    {
      "epoch": 0.012340041125152223,
      "grad_norm": 0.238089457154274,
      "learning_rate": 0.0004880481875864261,
      "loss": 2.8162,
      "step": 215
    },
    {
      "epoch": 0.01239743666526921,
      "grad_norm": 0.24253320693969727,
      "learning_rate": 0.0004871171528407371,
      "loss": 2.8181,
      "step": 216
    },
    {
      "epoch": 0.012454832205386197,
      "grad_norm": 0.2351958006620407,
      "learning_rate": 0.0004861845923542728,
      "loss": 2.8136,
      "step": 217
    },
    {
      "epoch": 0.012512227745503184,
      "grad_norm": 0.23203608393669128,
      "learning_rate": 0.0004852505444609422,
      "loss": 2.804,
      "step": 218
    },
    {
      "epoch": 0.012569623285620172,
      "grad_norm": 0.1896822452545166,
      "learning_rate": 0.00048431504755579575,
      "loss": 2.8118,
      "step": 219
    },
    {
      "epoch": 0.012627018825737158,
      "grad_norm": 0.18357349932193756,
      "learning_rate": 0.0004833781400934471,
      "loss": 2.8205,
      "step": 220
    },
    {
      "epoch": 0.012684414365854145,
      "grad_norm": 0.23723295331001282,
      "learning_rate": 0.00048243986058649246,
      "loss": 2.8291,
      "step": 221
    },
    {
      "epoch": 0.012741809905971133,
      "grad_norm": 0.1937919706106186,
      "learning_rate": 0.0004815002476039273,
      "loss": 2.8416,
      "step": 222
    },
    {
      "epoch": 0.012799205446088119,
      "grad_norm": 0.19754467904567719,
      "learning_rate": 0.0004805593397695613,
      "loss": 2.7963,
      "step": 223
    },
    {
      "epoch": 0.012856600986205106,
      "grad_norm": 0.1592610776424408,
      "learning_rate": 0.00047961717576043,
      "loss": 2.8264,
      "step": 224
    },
    {
      "epoch": 0.012913996526322094,
      "grad_norm": 0.2083783745765686,
      "learning_rate": 0.00047867379430520585,
      "loss": 2.8348,
      "step": 225
    },
    {
      "epoch": 0.012971392066439082,
      "grad_norm": 0.1895647495985031,
      "learning_rate": 0.00047772923418260525,
      "loss": 2.8212,
      "step": 226
    },
    {
      "epoch": 0.013028787606556068,
      "grad_norm": 0.2173570841550827,
      "learning_rate": 0.0004767835342197954,
      "loss": 2.8098,
      "step": 227
    },
    {
      "epoch": 0.013086183146673055,
      "grad_norm": 0.1693475991487503,
      "learning_rate": 0.0004758367332907978,
      "loss": 2.796,
      "step": 228
    },
    {
      "epoch": 0.013143578686790043,
      "grad_norm": 0.21635355055332184,
      "learning_rate": 0.00047488887031489017,
      "loss": 2.843,
      "step": 229
    },
    {
      "epoch": 0.013200974226907029,
      "grad_norm": 0.18521156907081604,
      "learning_rate": 0.0004739399842550068,
      "loss": 2.8296,
      "step": 230
    },
    {
      "epoch": 0.013258369767024016,
      "grad_norm": 0.22925664484500885,
      "learning_rate": 0.00047299011411613734,
      "loss": 2.8287,
      "step": 231
    },
    {
      "epoch": 0.013315765307141004,
      "grad_norm": 0.24881386756896973,
      "learning_rate": 0.00047203929894372264,
      "loss": 2.8257,
      "step": 232
    },
    {
      "epoch": 0.01337316084725799,
      "grad_norm": 0.20801618695259094,
      "learning_rate": 0.00047108757782205043,
      "loss": 2.8241,
      "step": 233
    },
    {
      "epoch": 0.013430556387374977,
      "grad_norm": 0.199665367603302,
      "learning_rate": 0.0004701349898726483,
      "loss": 2.7916,
      "step": 234
    },
    {
      "epoch": 0.013487951927491965,
      "grad_norm": 0.25221607089042664,
      "learning_rate": 0.00046918157425267584,
      "loss": 2.8233,
      "step": 235
    },
    {
      "epoch": 0.013545347467608953,
      "grad_norm": 0.1931813657283783,
      "learning_rate": 0.00046822737015331505,
      "loss": 2.8016,
      "step": 236
    },
    {
      "epoch": 0.013602743007725938,
      "grad_norm": 0.17353369295597076,
      "learning_rate": 0.00046727241679815894,
      "loss": 2.8125,
      "step": 237
    },
    {
      "epoch": 0.013660138547842926,
      "grad_norm": 0.22225958108901978,
      "learning_rate": 0.0004663167534415996,
      "loss": 2.824,
      "step": 238
    },
    {
      "epoch": 0.013717534087959914,
      "grad_norm": 0.17010116577148438,
      "learning_rate": 0.0004653604193672147,
      "loss": 2.8425,
      "step": 239
    },
    {
      "epoch": 0.0137749296280769,
      "grad_norm": 0.2103683203458786,
      "learning_rate": 0.00046440345388615225,
      "loss": 2.8641,
      "step": 240
    },
    {
      "epoch": 0.013832325168193887,
      "grad_norm": 0.17934557795524597,
      "learning_rate": 0.00046344589633551497,
      "loss": 2.8069,
      "step": 241
    },
    {
      "epoch": 0.013889720708310875,
      "grad_norm": 0.2116999328136444,
      "learning_rate": 0.0004624877860767434,
      "loss": 2.8601,
      "step": 242
    },
    {
      "epoch": 0.01394711624842786,
      "grad_norm": 0.20861205458641052,
      "learning_rate": 0.0004615291624939975,
      "loss": 2.8232,
      "step": 243
    },
    {
      "epoch": 0.014004511788544848,
      "grad_norm": 0.24393285810947418,
      "learning_rate": 0.0004605700649925381,
      "loss": 2.8041,
      "step": 244
    },
    {
      "epoch": 0.014061907328661836,
      "grad_norm": 0.2089577168226242,
      "learning_rate": 0.0004596105329971069,
      "loss": 2.8351,
      "step": 245
    },
    {
      "epoch": 0.014119302868778822,
      "grad_norm": 0.20232421159744263,
      "learning_rate": 0.00045865060595030616,
      "loss": 2.8171,
      "step": 246
    },
    {
      "epoch": 0.01417669840889581,
      "grad_norm": 0.22081732749938965,
      "learning_rate": 0.00045769032331097686,
      "loss": 2.8202,
      "step": 247
    },
    {
      "epoch": 0.014234093949012797,
      "grad_norm": 0.17081516981124878,
      "learning_rate": 0.00045672972455257723,
      "loss": 2.8358,
      "step": 248
    },
    {
      "epoch": 0.014291489489129785,
      "grad_norm": 0.3317008316516876,
      "learning_rate": 0.0004557688491615597,
      "loss": 2.8302,
      "step": 249
    },
    {
      "epoch": 0.01434888502924677,
      "grad_norm": 0.23239760100841522,
      "learning_rate": 0.0004548077366357483,
      "loss": 2.8191,
      "step": 250
    },
    {
      "epoch": 0.014406280569363758,
      "grad_norm": 0.22138993442058563,
      "learning_rate": 0.0004538464264827143,
      "loss": 2.8096,
      "step": 251
    },
    {
      "epoch": 0.014463676109480746,
      "grad_norm": 0.23655574023723602,
      "learning_rate": 0.000452884958218153,
      "loss": 2.8295,
      "step": 252
    },
    {
      "epoch": 0.014521071649597731,
      "grad_norm": 0.2227945327758789,
      "learning_rate": 0.000451923371364259,
      "loss": 2.8158,
      "step": 253
    },
    {
      "epoch": 0.014578467189714719,
      "grad_norm": 0.20443300902843475,
      "learning_rate": 0.0004509617054481017,
      "loss": 2.83,
      "step": 254
    },
    {
      "epoch": 0.014635862729831707,
      "grad_norm": 0.22221451997756958,
      "learning_rate": 0.00045,
      "loss": 2.8253,
      "step": 255
    },
    {
      "epoch": 0.014693258269948693,
      "grad_norm": 0.1941068023443222,
      "learning_rate": 0.00044903829455189825,
      "loss": 2.83,
      "step": 256
    },
    {
      "epoch": 0.01475065381006568,
      "grad_norm": 0.1914331614971161,
      "learning_rate": 0.0004480766286357409,
      "loss": 2.8162,
      "step": 257
    },
    {
      "epoch": 0.014808049350182668,
      "grad_norm": 0.21014779806137085,
      "learning_rate": 0.0004471150417818469,
      "loss": 2.7993,
      "step": 258
    },
    {
      "epoch": 0.014865444890299655,
      "grad_norm": 0.2057676762342453,
      "learning_rate": 0.00044615357351728566,
      "loss": 2.8223,
      "step": 259
    },
    {
      "epoch": 0.014922840430416641,
      "grad_norm": 0.19875939190387726,
      "learning_rate": 0.00044519226336425165,
      "loss": 2.8016,
      "step": 260
    },
    {
      "epoch": 0.014980235970533629,
      "grad_norm": 0.23691999912261963,
      "learning_rate": 0.0004442311508384402,
      "loss": 2.8373,
      "step": 261
    },
    {
      "epoch": 0.015037631510650616,
      "grad_norm": 0.1729947328567505,
      "learning_rate": 0.0004432702754474228,
      "loss": 2.8233,
      "step": 262
    },
    {
      "epoch": 0.015095027050767602,
      "grad_norm": 0.18821187317371368,
      "learning_rate": 0.00044230967668902306,
      "loss": 2.8128,
      "step": 263
    },
    {
      "epoch": 0.01515242259088459,
      "grad_norm": 0.2283882200717926,
      "learning_rate": 0.00044134939404969387,
      "loss": 2.8178,
      "step": 264
    },
    {
      "epoch": 0.015209818131001578,
      "grad_norm": 0.16724412143230438,
      "learning_rate": 0.000440389467002893,
      "loss": 2.8249,
      "step": 265
    },
    {
      "epoch": 0.015267213671118563,
      "grad_norm": 0.18209712207317352,
      "learning_rate": 0.00043942993500746183,
      "loss": 2.8095,
      "step": 266
    },
    {
      "epoch": 0.015324609211235551,
      "grad_norm": 0.1857995092868805,
      "learning_rate": 0.00043847083750600253,
      "loss": 2.806,
      "step": 267
    },
    {
      "epoch": 0.015382004751352539,
      "grad_norm": 0.20734605193138123,
      "learning_rate": 0.0004375122139232566,
      "loss": 2.8695,
      "step": 268
    },
    {
      "epoch": 0.015439400291469526,
      "grad_norm": 0.23138895630836487,
      "learning_rate": 0.00043655410366448495,
      "loss": 2.8033,
      "step": 269
    },
    {
      "epoch": 0.015496795831586512,
      "grad_norm": 0.20481987297534943,
      "learning_rate": 0.0004355965461138477,
      "loss": 2.8269,
      "step": 270
    },
    {
      "epoch": 0.0155541913717035,
      "grad_norm": 0.2318529337644577,
      "learning_rate": 0.00043463958063278524,
      "loss": 2.8332,
      "step": 271
    },
    {
      "epoch": 0.015611586911820487,
      "grad_norm": 0.2501411736011505,
      "learning_rate": 0.00043368324655840035,
      "loss": 2.8445,
      "step": 272
    },
    {
      "epoch": 0.015668982451937475,
      "grad_norm": 0.26137158274650574,
      "learning_rate": 0.0004327275832018411,
      "loss": 2.8279,
      "step": 273
    },
    {
      "epoch": 0.015726377992054463,
      "grad_norm": 0.19074887037277222,
      "learning_rate": 0.0004317726298466849,
      "loss": 2.8132,
      "step": 274
    },
    {
      "epoch": 0.015783773532171447,
      "grad_norm": 0.26000818610191345,
      "learning_rate": 0.0004308184257473241,
      "loss": 2.8091,
      "step": 275
    },
    {
      "epoch": 0.015841169072288434,
      "grad_norm": 0.16060984134674072,
      "learning_rate": 0.0004298650101273517,
      "loss": 2.8206,
      "step": 276
    },
    {
      "epoch": 0.015898564612405422,
      "grad_norm": 0.284445583820343,
      "learning_rate": 0.00042891242217794954,
      "loss": 2.7867,
      "step": 277
    },
    {
      "epoch": 0.01595596015252241,
      "grad_norm": 0.15903466939926147,
      "learning_rate": 0.0004279607010562773,
      "loss": 2.83,
      "step": 278
    },
    {
      "epoch": 0.016013355692639397,
      "grad_norm": 0.24330751597881317,
      "learning_rate": 0.0004270098858838626,
      "loss": 2.817,
      "step": 279
    },
    {
      "epoch": 0.016070751232756385,
      "grad_norm": 0.1687777042388916,
      "learning_rate": 0.0004260600157449931,
      "loss": 2.8112,
      "step": 280
    },
    {
      "epoch": 0.01612814677287337,
      "grad_norm": 0.18230785429477692,
      "learning_rate": 0.0004251111296851098,
      "loss": 2.8394,
      "step": 281
    },
    {
      "epoch": 0.016185542312990357,
      "grad_norm": 0.1889660507440567,
      "learning_rate": 0.00042416326670920217,
      "loss": 2.8109,
      "step": 282
    },
    {
      "epoch": 0.016242937853107344,
      "grad_norm": 0.16135123372077942,
      "learning_rate": 0.0004232164657802045,
      "loss": 2.7953,
      "step": 283
    },
    {
      "epoch": 0.016300333393224332,
      "grad_norm": 0.15787218511104584,
      "learning_rate": 0.00042227076581739467,
      "loss": 2.7921,
      "step": 284
    },
    {
      "epoch": 0.01635772893334132,
      "grad_norm": 0.16313977539539337,
      "learning_rate": 0.0004213262056947942,
      "loss": 2.8107,
      "step": 285
    },
    {
      "epoch": 0.016415124473458307,
      "grad_norm": 0.18806132674217224,
      "learning_rate": 0.0004203828242395699,
      "loss": 2.8451,
      "step": 286
    },
    {
      "epoch": 0.016472520013575295,
      "grad_norm": 0.17279674112796783,
      "learning_rate": 0.00041944066023043866,
      "loss": 2.8333,
      "step": 287
    },
    {
      "epoch": 0.01652991555369228,
      "grad_norm": 0.17451834678649902,
      "learning_rate": 0.00041849975239607255,
      "loss": 2.7798,
      "step": 288
    },
    {
      "epoch": 0.016587311093809266,
      "grad_norm": 0.1943039745092392,
      "learning_rate": 0.00041756013941350747,
      "loss": 2.8011,
      "step": 289
    },
    {
      "epoch": 0.016644706633926254,
      "grad_norm": 0.1578904092311859,
      "learning_rate": 0.0004166218599065528,
      "loss": 2.852,
      "step": 290
    },
    {
      "epoch": 0.01670210217404324,
      "grad_norm": 0.20066620409488678,
      "learning_rate": 0.0004156849524442042,
      "loss": 2.7876,
      "step": 291
    },
    {
      "epoch": 0.01675949771416023,
      "grad_norm": 0.18306495249271393,
      "learning_rate": 0.0004147494555390577,
      "loss": 2.817,
      "step": 292
    },
    {
      "epoch": 0.016816893254277217,
      "grad_norm": 0.1622687727212906,
      "learning_rate": 0.0004138154076457271,
      "loss": 2.815,
      "step": 293
    },
    {
      "epoch": 0.0168742887943942,
      "grad_norm": 0.2056518942117691,
      "learning_rate": 0.0004128828471592628,
      "loss": 2.8131,
      "step": 294
    },
    {
      "epoch": 0.01693168433451119,
      "grad_norm": 0.17123937606811523,
      "learning_rate": 0.00041195181241357383,
      "loss": 2.8025,
      "step": 295
    },
    {
      "epoch": 0.016989079874628176,
      "grad_norm": 0.2233334332704544,
      "learning_rate": 0.00041102234167985204,
      "loss": 2.8347,
      "step": 296
    },
    {
      "epoch": 0.017046475414745164,
      "grad_norm": 0.20740529894828796,
      "learning_rate": 0.0004100944731649987,
      "loss": 2.8099,
      "step": 297
    },
    {
      "epoch": 0.01710387095486215,
      "grad_norm": 0.20391066372394562,
      "learning_rate": 0.0004091682450100543,
      "loss": 2.8363,
      "step": 298
    },
    {
      "epoch": 0.01716126649497914,
      "grad_norm": 0.17306548357009888,
      "learning_rate": 0.0004082436952886305,
      "loss": 2.8211,
      "step": 299
    },
    {
      "epoch": 0.017218662035096127,
      "grad_norm": 0.24933576583862305,
      "learning_rate": 0.0004073208620053451,
      "loss": 2.8048,
      "step": 300
    },
    {
      "epoch": 0.017218662035096127,
      "eval_loss": 2.7432332038879395,
      "eval_runtime": 85.2508,
      "eval_samples_per_second": 50.615,
      "eval_steps_per_second": 12.657,
      "step": 300
    },
    {
      "epoch": 0.01727605757521311,
      "grad_norm": 0.231708824634552,
      "learning_rate": 0.00040639978309425995,
      "loss": 2.8025,
      "step": 301
    },
    {
      "epoch": 0.0173334531153301,
      "grad_norm": 0.15970614552497864,
      "learning_rate": 0.00040548049641732137,
      "loss": 2.8392,
      "step": 302
    },
    {
      "epoch": 0.017390848655447086,
      "grad_norm": 0.20457029342651367,
      "learning_rate": 0.0004045630397628042,
      "loss": 2.8247,
      "step": 303
    },
    {
      "epoch": 0.017448244195564074,
      "grad_norm": 0.1734900325536728,
      "learning_rate": 0.00040364745084375787,
      "loss": 2.7979,
      "step": 304
    },
    {
      "epoch": 0.01750563973568106,
      "grad_norm": 0.19265452027320862,
      "learning_rate": 0.00040273376729645685,
      "loss": 2.8033,
      "step": 305
    },
    {
      "epoch": 0.01756303527579805,
      "grad_norm": 0.19174844026565552,
      "learning_rate": 0.00040182202667885317,
      "loss": 2.8354,
      "step": 306
    },
    {
      "epoch": 0.017620430815915036,
      "grad_norm": 0.27793413400650024,
      "learning_rate": 0.00040091226646903245,
      "loss": 2.797,
      "step": 307
    },
    {
      "epoch": 0.01767782635603202,
      "grad_norm": 0.1806309074163437,
      "learning_rate": 0.00040000452406367367,
      "loss": 2.8046,
      "step": 308
    },
    {
      "epoch": 0.017735221896149008,
      "grad_norm": 0.2249089479446411,
      "learning_rate": 0.0003990988367765118,
      "loss": 2.8125,
      "step": 309
    },
    {
      "epoch": 0.017792617436265996,
      "grad_norm": 0.27839699387550354,
      "learning_rate": 0.00039819524183680384,
      "loss": 2.8183,
      "step": 310
    },
    {
      "epoch": 0.017850012976382983,
      "grad_norm": 0.1877232789993286,
      "learning_rate": 0.00039729377638779857,
      "loss": 2.7989,
      "step": 311
    },
    {
      "epoch": 0.01790740851649997,
      "grad_norm": 0.25160273909568787,
      "learning_rate": 0.00039639447748520985,
      "loss": 2.8536,
      "step": 312
    },
    {
      "epoch": 0.01796480405661696,
      "grad_norm": 0.23843353986740112,
      "learning_rate": 0.0003954973820956932,
      "loss": 2.8064,
      "step": 313
    },
    {
      "epoch": 0.018022199596733943,
      "grad_norm": 0.2549470365047455,
      "learning_rate": 0.00039460252709532656,
      "loss": 2.8415,
      "step": 314
    },
    {
      "epoch": 0.01807959513685093,
      "grad_norm": 0.39248892664909363,
      "learning_rate": 0.0003937099492680938,
      "loss": 2.8137,
      "step": 315
    },
    {
      "epoch": 0.018136990676967918,
      "grad_norm": 0.24034982919692993,
      "learning_rate": 0.0003928196853043737,
      "loss": 2.8301,
      "step": 316
    },
    {
      "epoch": 0.018194386217084905,
      "grad_norm": 0.29434794187545776,
      "learning_rate": 0.00039193177179943083,
      "loss": 2.8288,
      "step": 317
    },
    {
      "epoch": 0.018251781757201893,
      "grad_norm": 0.21636317670345306,
      "learning_rate": 0.0003910462452519114,
      "loss": 2.8121,
      "step": 318
    },
    {
      "epoch": 0.01830917729731888,
      "grad_norm": 0.2217407375574112,
      "learning_rate": 0.0003901631420623437,
      "loss": 2.8551,
      "step": 319
    },
    {
      "epoch": 0.01836657283743587,
      "grad_norm": 0.20126426219940186,
      "learning_rate": 0.0003892824985316409,
      "loss": 2.7812,
      "step": 320
    },
    {
      "epoch": 0.018423968377552852,
      "grad_norm": 0.20343463122844696,
      "learning_rate": 0.0003884043508596093,
      "loss": 2.7959,
      "step": 321
    },
    {
      "epoch": 0.01848136391766984,
      "grad_norm": 0.22265484929084778,
      "learning_rate": 0.00038752873514346015,
      "loss": 2.8254,
      "step": 322
    },
    {
      "epoch": 0.018538759457786828,
      "grad_norm": 0.20545947551727295,
      "learning_rate": 0.000386655687376326,
      "loss": 2.8166,
      "step": 323
    },
    {
      "epoch": 0.018596154997903815,
      "grad_norm": 0.17015507817268372,
      "learning_rate": 0.00038578524344578115,
      "loss": 2.806,
      "step": 324
    },
    {
      "epoch": 0.018653550538020803,
      "grad_norm": 0.19378258287906647,
      "learning_rate": 0.00038491743913236624,
      "loss": 2.7979,
      "step": 325
    },
    {
      "epoch": 0.01871094607813779,
      "grad_norm": 0.2112617790699005,
      "learning_rate": 0.0003840523101081177,
      "loss": 2.8149,
      "step": 326
    },
    {
      "epoch": 0.018768341618254775,
      "grad_norm": 0.18846029043197632,
      "learning_rate": 0.0003831898919351011,
      "loss": 2.8334,
      "step": 327
    },
    {
      "epoch": 0.018825737158371762,
      "grad_norm": 0.20672033727169037,
      "learning_rate": 0.00038233022006394976,
      "loss": 2.8061,
      "step": 328
    },
    {
      "epoch": 0.01888313269848875,
      "grad_norm": 0.2700256109237671,
      "learning_rate": 0.00038147332983240717,
      "loss": 2.8101,
      "step": 329
    },
    {
      "epoch": 0.018940528238605737,
      "grad_norm": 0.16990099847316742,
      "learning_rate": 0.00038061925646387467,
      "loss": 2.8227,
      "step": 330
    },
    {
      "epoch": 0.018997923778722725,
      "grad_norm": 0.2140357792377472,
      "learning_rate": 0.0003797680350659631,
      "loss": 2.8018,
      "step": 331
    },
    {
      "epoch": 0.019055319318839713,
      "grad_norm": 0.2538260221481323,
      "learning_rate": 0.0003789197006290502,
      "loss": 2.7725,
      "step": 332
    },
    {
      "epoch": 0.0191127148589567,
      "grad_norm": 0.1694011092185974,
      "learning_rate": 0.0003780742880248419,
      "loss": 2.7973,
      "step": 333
    },
    {
      "epoch": 0.019170110399073684,
      "grad_norm": 0.2092764526605606,
      "learning_rate": 0.0003772318320049391,
      "loss": 2.8256,
      "step": 334
    },
    {
      "epoch": 0.019227505939190672,
      "grad_norm": 0.22675682604312897,
      "learning_rate": 0.0003763923671994093,
      "loss": 2.8092,
      "step": 335
    },
    {
      "epoch": 0.01928490147930766,
      "grad_norm": 0.20571155846118927,
      "learning_rate": 0.0003755559281153625,
      "loss": 2.8176,
      "step": 336
    },
    {
      "epoch": 0.019342297019424647,
      "grad_norm": 0.18606650829315186,
      "learning_rate": 0.0003747225491355334,
      "loss": 2.8019,
      "step": 337
    },
    {
      "epoch": 0.019399692559541635,
      "grad_norm": 0.19859890639781952,
      "learning_rate": 0.00037389226451686763,
      "loss": 2.8036,
      "step": 338
    },
    {
      "epoch": 0.019457088099658622,
      "grad_norm": 0.1632896512746811,
      "learning_rate": 0.00037306510838911404,
      "loss": 2.797,
      "step": 339
    },
    {
      "epoch": 0.01951448363977561,
      "grad_norm": 0.17494754493236542,
      "learning_rate": 0.00037224111475342116,
      "loss": 2.8152,
      "step": 340
    },
    {
      "epoch": 0.019571879179892594,
      "grad_norm": 0.20659732818603516,
      "learning_rate": 0.00037142031748094016,
      "loss": 2.8061,
      "step": 341
    },
    {
      "epoch": 0.019629274720009582,
      "grad_norm": 0.18716713786125183,
      "learning_rate": 0.00037060275031143184,
      "loss": 2.8419,
      "step": 342
    },
    {
      "epoch": 0.01968667026012657,
      "grad_norm": 0.2575749158859253,
      "learning_rate": 0.0003697884468518805,
      "loss": 2.7814,
      "step": 343
    },
    {
      "epoch": 0.019744065800243557,
      "grad_norm": 0.19076134264469147,
      "learning_rate": 0.0003689774405751119,
      "loss": 2.797,
      "step": 344
    },
    {
      "epoch": 0.019801461340360545,
      "grad_norm": 0.19563442468643188,
      "learning_rate": 0.00036816976481841764,
      "loss": 2.8269,
      "step": 345
    },
    {
      "epoch": 0.019858856880477532,
      "grad_norm": 0.1790810525417328,
      "learning_rate": 0.0003673654527821846,
      "loss": 2.7856,
      "step": 346
    },
    {
      "epoch": 0.019916252420594516,
      "grad_norm": 0.2125868797302246,
      "learning_rate": 0.00036656453752853025,
      "loss": 2.7973,
      "step": 347
    },
    {
      "epoch": 0.019973647960711504,
      "grad_norm": 0.1454995572566986,
      "learning_rate": 0.00036576705197994376,
      "loss": 2.7869,
      "step": 348
    },
    {
      "epoch": 0.02003104350082849,
      "grad_norm": 0.2808379530906677,
      "learning_rate": 0.00036497302891793255,
      "loss": 2.7923,
      "step": 349
    },
    {
      "epoch": 0.02008843904094548,
      "grad_norm": 0.1776140034198761,
      "learning_rate": 0.0003641825009816745,
      "loss": 2.8194,
      "step": 350
    },
    {
      "epoch": 0.020145834581062467,
      "grad_norm": 0.22207793593406677,
      "learning_rate": 0.0003633955006666771,
      "loss": 2.8234,
      "step": 351
    },
    {
      "epoch": 0.020203230121179454,
      "grad_norm": 0.24642404913902283,
      "learning_rate": 0.0003626120603234406,
      "loss": 2.8351,
      "step": 352
    },
    {
      "epoch": 0.020260625661296442,
      "grad_norm": 0.24731726944446564,
      "learning_rate": 0.000361832212156129,
      "loss": 2.7983,
      "step": 353
    },
    {
      "epoch": 0.020318021201413426,
      "grad_norm": 0.21677981317043304,
      "learning_rate": 0.0003610559882212461,
      "loss": 2.8372,
      "step": 354
    },
    {
      "epoch": 0.020375416741530414,
      "grad_norm": 0.28350090980529785,
      "learning_rate": 0.00036028342042631755,
      "loss": 2.8138,
      "step": 355
    },
    {
      "epoch": 0.0204328122816474,
      "grad_norm": 0.22418756783008575,
      "learning_rate": 0.00035951454052857954,
      "loss": 2.7897,
      "step": 356
    },
    {
      "epoch": 0.02049020782176439,
      "grad_norm": 0.27765804529190063,
      "learning_rate": 0.000358749380133673,
      "loss": 2.8139,
      "step": 357
    },
    {
      "epoch": 0.020547603361881377,
      "grad_norm": 0.2694258391857147,
      "learning_rate": 0.000357987970694345,
      "loss": 2.7881,
      "step": 358
    },
    {
      "epoch": 0.020604998901998364,
      "grad_norm": 0.3746117055416107,
      "learning_rate": 0.00035723034350915525,
      "loss": 2.8108,
      "step": 359
    },
    {
      "epoch": 0.02066239444211535,
      "grad_norm": 0.22864773869514465,
      "learning_rate": 0.00035647652972119,
      "loss": 2.8102,
      "step": 360
    },
    {
      "epoch": 0.020719789982232336,
      "grad_norm": 0.2728801369667053,
      "learning_rate": 0.0003557265603167814,
      "loss": 2.8046,
      "step": 361
    },
    {
      "epoch": 0.020777185522349324,
      "grad_norm": 0.2561710774898529,
      "learning_rate": 0.0003549804661242345,
      "loss": 2.8242,
      "step": 362
    },
    {
      "epoch": 0.02083458106246631,
      "grad_norm": 0.26235631108283997,
      "learning_rate": 0.00035423827781255914,
      "loss": 2.847,
      "step": 363
    },
    {
      "epoch": 0.0208919766025833,
      "grad_norm": 0.24725806713104248,
      "learning_rate": 0.0003535000258902099,
      "loss": 2.7873,
      "step": 364
    },
    {
      "epoch": 0.020949372142700286,
      "grad_norm": 0.2562279999256134,
      "learning_rate": 0.0003527657407038317,
      "loss": 2.799,
      "step": 365
    },
    {
      "epoch": 0.021006767682817274,
      "grad_norm": 0.20368199050426483,
      "learning_rate": 0.00035203545243701266,
      "loss": 2.8011,
      "step": 366
    },
    {
      "epoch": 0.021064163222934258,
      "grad_norm": 0.25594958662986755,
      "learning_rate": 0.0003513091911090431,
      "loss": 2.8099,
      "step": 367
    },
    {
      "epoch": 0.021121558763051246,
      "grad_norm": 0.20084761083126068,
      "learning_rate": 0.00035058698657368154,
      "loss": 2.8249,
      "step": 368
    },
    {
      "epoch": 0.021178954303168233,
      "grad_norm": 0.24110020697116852,
      "learning_rate": 0.00034986886851792775,
      "loss": 2.8058,
      "step": 369
    },
    {
      "epoch": 0.02123634984328522,
      "grad_norm": 0.2016633003950119,
      "learning_rate": 0.0003491548664608024,
      "loss": 2.7935,
      "step": 370
    },
    {
      "epoch": 0.02129374538340221,
      "grad_norm": 0.2722468376159668,
      "learning_rate": 0.0003484450097521336,
      "loss": 2.8146,
      "step": 371
    },
    {
      "epoch": 0.021351140923519196,
      "grad_norm": 0.2089434564113617,
      "learning_rate": 0.0003477393275713501,
      "loss": 2.8231,
      "step": 372
    },
    {
      "epoch": 0.021408536463636184,
      "grad_norm": 0.24770453572273254,
      "learning_rate": 0.0003470378489262824,
      "loss": 2.7994,
      "step": 373
    },
    {
      "epoch": 0.021465932003753168,
      "grad_norm": 0.21104897558689117,
      "learning_rate": 0.00034634060265197026,
      "loss": 2.8189,
      "step": 374
    },
    {
      "epoch": 0.021523327543870156,
      "grad_norm": 0.23374824225902557,
      "learning_rate": 0.000345647617409477,
      "loss": 2.783,
      "step": 375
    },
    {
      "epoch": 0.021580723083987143,
      "grad_norm": 0.24334168434143066,
      "learning_rate": 0.00034495892168471176,
      "loss": 2.8092,
      "step": 376
    },
    {
      "epoch": 0.02163811862410413,
      "grad_norm": 0.22772932052612305,
      "learning_rate": 0.00034427454378725827,
      "loss": 2.8178,
      "step": 377
    },
    {
      "epoch": 0.02169551416422112,
      "grad_norm": 0.22545067965984344,
      "learning_rate": 0.00034359451184921125,
      "loss": 2.7961,
      "step": 378
    },
    {
      "epoch": 0.021752909704338106,
      "grad_norm": 0.2873929738998413,
      "learning_rate": 0.00034291885382402044,
      "loss": 2.8408,
      "step": 379
    },
    {
      "epoch": 0.02181030524445509,
      "grad_norm": 0.2099824994802475,
      "learning_rate": 0.00034224759748534083,
      "loss": 2.782,
      "step": 380
    },
    {
      "epoch": 0.021867700784572078,
      "grad_norm": 0.32221996784210205,
      "learning_rate": 0.0003415807704258913,
      "loss": 2.8337,
      "step": 381
    },
    {
      "epoch": 0.021925096324689065,
      "grad_norm": 0.2531490623950958,
      "learning_rate": 0.0003409184000563204,
      "loss": 2.8273,
      "step": 382
    },
    {
      "epoch": 0.021982491864806053,
      "grad_norm": 0.3075484037399292,
      "learning_rate": 0.00034026051360407973,
      "loss": 2.7805,
      "step": 383
    },
    {
      "epoch": 0.02203988740492304,
      "grad_norm": 0.2366313338279724,
      "learning_rate": 0.0003396071381123047,
      "loss": 2.8278,
      "step": 384
    },
    {
      "epoch": 0.022097282945040028,
      "grad_norm": 0.2348204106092453,
      "learning_rate": 0.00033895830043870266,
      "loss": 2.7922,
      "step": 385
    },
    {
      "epoch": 0.022154678485157016,
      "grad_norm": 0.28124627470970154,
      "learning_rate": 0.00033831402725444896,
      "loss": 2.8065,
      "step": 386
    },
    {
      "epoch": 0.022212074025274,
      "grad_norm": 0.1927008032798767,
      "learning_rate": 0.0003376743450430907,
      "loss": 2.7958,
      "step": 387
    },
    {
      "epoch": 0.022269469565390988,
      "grad_norm": 0.26325997710227966,
      "learning_rate": 0.0003370392800994583,
      "loss": 2.8313,
      "step": 388
    },
    {
      "epoch": 0.022326865105507975,
      "grad_norm": 0.23394963145256042,
      "learning_rate": 0.0003364088585285842,
      "loss": 2.8126,
      "step": 389
    },
    {
      "epoch": 0.022384260645624963,
      "grad_norm": 0.26055994629859924,
      "learning_rate": 0.00033578310624462983,
      "loss": 2.787,
      "step": 390
    },
    {
      "epoch": 0.02244165618574195,
      "grad_norm": 0.2207145392894745,
      "learning_rate": 0.0003351620489698208,
      "loss": 2.796,
      "step": 391
    },
    {
      "epoch": 0.022499051725858938,
      "grad_norm": 0.34231698513031006,
      "learning_rate": 0.0003345457122333891,
      "loss": 2.7951,
      "step": 392
    },
    {
      "epoch": 0.022556447265975922,
      "grad_norm": 0.22361671924591064,
      "learning_rate": 0.00033393412137052396,
      "loss": 2.8251,
      "step": 393
    },
    {
      "epoch": 0.02261384280609291,
      "grad_norm": 0.24573372304439545,
      "learning_rate": 0.0003333273015213304,
      "loss": 2.7899,
      "step": 394
    },
    {
      "epoch": 0.022671238346209897,
      "grad_norm": 0.22109688818454742,
      "learning_rate": 0.0003327252776297955,
      "loss": 2.8178,
      "step": 395
    },
    {
      "epoch": 0.022728633886326885,
      "grad_norm": 0.22289875149726868,
      "learning_rate": 0.00033212807444276364,
      "loss": 2.8053,
      "step": 396
    },
    {
      "epoch": 0.022786029426443873,
      "grad_norm": 0.21445147693157196,
      "learning_rate": 0.00033153571650891865,
      "loss": 2.7998,
      "step": 397
    },
    {
      "epoch": 0.02284342496656086,
      "grad_norm": 0.25061139464378357,
      "learning_rate": 0.00033094822817777514,
      "loss": 2.8055,
      "step": 398
    },
    {
      "epoch": 0.022900820506677848,
      "grad_norm": 0.24680854380130768,
      "learning_rate": 0.0003303656335986773,
      "loss": 2.8143,
      "step": 399
    },
    {
      "epoch": 0.022958216046794832,
      "grad_norm": 0.16644932329654694,
      "learning_rate": 0.0003297879567198065,
      "loss": 2.8192,
      "step": 400
    },
    {
      "epoch": 0.022958216046794832,
      "eval_loss": 2.738191604614258,
      "eval_runtime": 85.3252,
      "eval_samples_per_second": 50.571,
      "eval_steps_per_second": 12.646,
      "step": 400
    },
    {
      "epoch": 0.02301561158691182,
      "grad_norm": 0.2816384434700012,
      "learning_rate": 0.00032921522128719657,
      "loss": 2.8209,
      "step": 401
    },
    {
      "epoch": 0.023073007127028807,
      "grad_norm": 0.20395685732364655,
      "learning_rate": 0.00032864745084375783,
      "loss": 2.8021,
      "step": 402
    },
    {
      "epoch": 0.023130402667145795,
      "grad_norm": 0.24216794967651367,
      "learning_rate": 0.00032808466872830957,
      "loss": 2.8447,
      "step": 403
    },
    {
      "epoch": 0.023187798207262782,
      "grad_norm": 0.2526738941669464,
      "learning_rate": 0.00032752689807462017,
      "loss": 2.7906,
      "step": 404
    },
    {
      "epoch": 0.02324519374737977,
      "grad_norm": 0.21725283563137054,
      "learning_rate": 0.0003269741618104566,
      "loss": 2.7943,
      "step": 405
    },
    {
      "epoch": 0.023302589287496758,
      "grad_norm": 0.2765718102455139,
      "learning_rate": 0.00032642648265664175,
      "loss": 2.8109,
      "step": 406
    },
    {
      "epoch": 0.02335998482761374,
      "grad_norm": 0.20015880465507507,
      "learning_rate": 0.00032588388312612053,
      "loss": 2.8239,
      "step": 407
    },
    {
      "epoch": 0.02341738036773073,
      "grad_norm": 0.26865240931510925,
      "learning_rate": 0.0003253463855230344,
      "loss": 2.8279,
      "step": 408
    },
    {
      "epoch": 0.023474775907847717,
      "grad_norm": 0.23522211611270905,
      "learning_rate": 0.0003248140119418046,
      "loss": 2.8123,
      "step": 409
    },
    {
      "epoch": 0.023532171447964705,
      "grad_norm": 0.2388644963502884,
      "learning_rate": 0.0003242867842662239,
      "loss": 2.8057,
      "step": 410
    },
    {
      "epoch": 0.023589566988081692,
      "grad_norm": 0.18323197960853577,
      "learning_rate": 0.00032376472416855703,
      "loss": 2.8193,
      "step": 411
    },
    {
      "epoch": 0.02364696252819868,
      "grad_norm": 0.24734856188297272,
      "learning_rate": 0.00032324785310864983,
      "loss": 2.7924,
      "step": 412
    },
    {
      "epoch": 0.023704358068315664,
      "grad_norm": 0.1722363829612732,
      "learning_rate": 0.0003227361923330471,
      "loss": 2.8242,
      "step": 413
    },
    {
      "epoch": 0.02376175360843265,
      "grad_norm": 0.2052358090877533,
      "learning_rate": 0.00032222976287411934,
      "loss": 2.8129,
      "step": 414
    },
    {
      "epoch": 0.02381914914854964,
      "grad_norm": 0.2536105811595917,
      "learning_rate": 0.00032172858554919807,
      "loss": 2.8207,
      "step": 415
    },
    {
      "epoch": 0.023876544688666627,
      "grad_norm": 0.23084022104740143,
      "learning_rate": 0.00032123268095972005,
      "loss": 2.8156,
      "step": 416
    },
    {
      "epoch": 0.023933940228783614,
      "grad_norm": 0.28741586208343506,
      "learning_rate": 0.00032074206949038073,
      "loss": 2.8008,
      "step": 417
    },
    {
      "epoch": 0.023991335768900602,
      "grad_norm": 0.2419297993183136,
      "learning_rate": 0.0003202567713082959,
      "loss": 2.8112,
      "step": 418
    },
    {
      "epoch": 0.02404873130901759,
      "grad_norm": 0.19744537770748138,
      "learning_rate": 0.0003197768063621732,
      "loss": 2.7894,
      "step": 419
    },
    {
      "epoch": 0.024106126849134574,
      "grad_norm": 0.22780993580818176,
      "learning_rate": 0.0003193021943814916,
      "loss": 2.8019,
      "step": 420
    },
    {
      "epoch": 0.02416352238925156,
      "grad_norm": 0.2176397144794464,
      "learning_rate": 0.00031883295487569063,
      "loss": 2.8183,
      "step": 421
    },
    {
      "epoch": 0.02422091792936855,
      "grad_norm": 0.23891203105449677,
      "learning_rate": 0.00031836910713336857,
      "loss": 2.8022,
      "step": 422
    },
    {
      "epoch": 0.024278313469485537,
      "grad_norm": 0.18507017195224762,
      "learning_rate": 0.0003179106702214893,
      "loss": 2.8013,
      "step": 423
    },
    {
      "epoch": 0.024335709009602524,
      "grad_norm": 0.20408926904201508,
      "learning_rate": 0.0003174576629845987,
      "loss": 2.8085,
      "step": 424
    },
    {
      "epoch": 0.024393104549719512,
      "grad_norm": 0.18055075407028198,
      "learning_rate": 0.00031701010404404996,
      "loss": 2.8341,
      "step": 425
    },
    {
      "epoch": 0.024450500089836496,
      "grad_norm": 0.22974956035614014,
      "learning_rate": 0.0003165680117972382,
      "loss": 2.8044,
      "step": 426
    },
    {
      "epoch": 0.024507895629953484,
      "grad_norm": 0.17688511312007904,
      "learning_rate": 0.00031613140441684413,
      "loss": 2.7866,
      "step": 427
    },
    {
      "epoch": 0.02456529117007047,
      "grad_norm": 0.22350828349590302,
      "learning_rate": 0.000315700299850087,
      "loss": 2.7939,
      "step": 428
    },
    {
      "epoch": 0.02462268671018746,
      "grad_norm": 0.2138863056898117,
      "learning_rate": 0.0003152747158179871,
      "loss": 2.8112,
      "step": 429
    },
    {
      "epoch": 0.024680082250304446,
      "grad_norm": 0.1666262447834015,
      "learning_rate": 0.0003148546698146371,
      "loss": 2.8464,
      "step": 430
    },
    {
      "epoch": 0.024737477790421434,
      "grad_norm": 0.23217864334583282,
      "learning_rate": 0.00031444017910648293,
      "loss": 2.8154,
      "step": 431
    },
    {
      "epoch": 0.02479487333053842,
      "grad_norm": 0.23967209458351135,
      "learning_rate": 0.00031403126073161424,
      "loss": 2.8068,
      "step": 432
    },
    {
      "epoch": 0.024852268870655406,
      "grad_norm": 0.2363416850566864,
      "learning_rate": 0.0003136279314990637,
      "loss": 2.832,
      "step": 433
    },
    {
      "epoch": 0.024909664410772393,
      "grad_norm": 0.20204566419124603,
      "learning_rate": 0.00031323020798811643,
      "loss": 2.8118,
      "step": 434
    },
    {
      "epoch": 0.02496705995088938,
      "grad_norm": 0.2645012438297272,
      "learning_rate": 0.00031283810654762816,
      "loss": 2.7988,
      "step": 435
    },
    {
      "epoch": 0.02502445549100637,
      "grad_norm": 0.31096434593200684,
      "learning_rate": 0.0003124516432953532,
      "loss": 2.8021,
      "step": 436
    },
    {
      "epoch": 0.025081851031123356,
      "grad_norm": 0.25740697979927063,
      "learning_rate": 0.00031207083411728236,
      "loss": 2.828,
      "step": 437
    },
    {
      "epoch": 0.025139246571240344,
      "grad_norm": 0.24895477294921875,
      "learning_rate": 0.00031169569466698937,
      "loss": 2.8073,
      "step": 438
    },
    {
      "epoch": 0.02519664211135733,
      "grad_norm": 0.2860502004623413,
      "learning_rate": 0.00031132624036498774,
      "loss": 2.8275,
      "step": 439
    },
    {
      "epoch": 0.025254037651474315,
      "grad_norm": 0.3134096562862396,
      "learning_rate": 0.00031096248639809674,
      "loss": 2.816,
      "step": 440
    },
    {
      "epoch": 0.025311433191591303,
      "grad_norm": 0.2185070812702179,
      "learning_rate": 0.0003106044477188172,
      "loss": 2.7799,
      "step": 441
    },
    {
      "epoch": 0.02536882873170829,
      "grad_norm": 0.3582714796066284,
      "learning_rate": 0.0003102521390447169,
      "loss": 2.7923,
      "step": 442
    },
    {
      "epoch": 0.02542622427182528,
      "grad_norm": 0.19494207203388214,
      "learning_rate": 0.00030990557485782553,
      "loss": 2.7999,
      "step": 443
    },
    {
      "epoch": 0.025483619811942266,
      "grad_norm": 0.2574940025806427,
      "learning_rate": 0.0003095647694040394,
      "loss": 2.8087,
      "step": 444
    },
    {
      "epoch": 0.025541015352059254,
      "grad_norm": 0.17501215636730194,
      "learning_rate": 0.0003092297366925359,
      "loss": 2.7817,
      "step": 445
    },
    {
      "epoch": 0.025598410892176238,
      "grad_norm": 0.4073377251625061,
      "learning_rate": 0.0003089004904951976,
      "loss": 2.813,
      "step": 446
    },
    {
      "epoch": 0.025655806432293225,
      "grad_norm": 0.21654489636421204,
      "learning_rate": 0.000308577044346046,
      "loss": 2.8165,
      "step": 447
    },
    {
      "epoch": 0.025713201972410213,
      "grad_norm": 0.26500189304351807,
      "learning_rate": 0.0003082594115406856,
      "loss": 2.8229,
      "step": 448
    },
    {
      "epoch": 0.0257705975125272,
      "grad_norm": 0.188262477517128,
      "learning_rate": 0.00030794760513575675,
      "loss": 2.8112,
      "step": 449
    },
    {
      "epoch": 0.025827993052644188,
      "grad_norm": 0.3432970643043518,
      "learning_rate": 0.00030764163794839966,
      "loss": 2.8241,
      "step": 450
    },
    {
      "epoch": 0.025885388592761176,
      "grad_norm": 0.23415225744247437,
      "learning_rate": 0.0003073415225557269,
      "loss": 2.8039,
      "step": 451
    },
    {
      "epoch": 0.025942784132878163,
      "grad_norm": 0.2670385241508484,
      "learning_rate": 0.0003070472712943069,
      "loss": 2.8215,
      "step": 452
    },
    {
      "epoch": 0.026000179672995147,
      "grad_norm": 0.17434735596179962,
      "learning_rate": 0.00030675889625965646,
      "loss": 2.8352,
      "step": 453
    },
    {
      "epoch": 0.026057575213112135,
      "grad_norm": 0.2789264917373657,
      "learning_rate": 0.0003064764093057437,
      "loss": 2.7856,
      "step": 454
    },
    {
      "epoch": 0.026114970753229123,
      "grad_norm": 0.2666022479534149,
      "learning_rate": 0.0003061998220445009,
      "loss": 2.8063,
      "step": 455
    },
    {
      "epoch": 0.02617236629334611,
      "grad_norm": 0.22438260912895203,
      "learning_rate": 0.00030592914584534706,
      "loss": 2.7783,
      "step": 456
    },
    {
      "epoch": 0.026229761833463098,
      "grad_norm": 0.2177169770002365,
      "learning_rate": 0.00030566439183472063,
      "loss": 2.786,
      "step": 457
    },
    {
      "epoch": 0.026287157373580086,
      "grad_norm": 0.22771142423152924,
      "learning_rate": 0.000305405570895622,
      "loss": 2.7881,
      "step": 458
    },
    {
      "epoch": 0.02634455291369707,
      "grad_norm": 0.29228097200393677,
      "learning_rate": 0.00030515269366716613,
      "loss": 2.7876,
      "step": 459
    },
    {
      "epoch": 0.026401948453814057,
      "grad_norm": 0.18204721808433533,
      "learning_rate": 0.00030490577054414553,
      "loss": 2.8153,
      "step": 460
    },
    {
      "epoch": 0.026459343993931045,
      "grad_norm": 0.19830970466136932,
      "learning_rate": 0.0003046648116766027,
      "loss": 2.7884,
      "step": 461
    },
    {
      "epoch": 0.026516739534048032,
      "grad_norm": 0.17311398684978485,
      "learning_rate": 0.00030442982696941276,
      "loss": 2.8055,
      "step": 462
    },
    {
      "epoch": 0.02657413507416502,
      "grad_norm": 0.21194536983966827,
      "learning_rate": 0.0003042008260818768,
      "loss": 2.815,
      "step": 463
    },
    {
      "epoch": 0.026631530614282008,
      "grad_norm": 0.22366400063037872,
      "learning_rate": 0.0003039778184273243,
      "loss": 2.7994,
      "step": 464
    },
    {
      "epoch": 0.026688926154398995,
      "grad_norm": 0.17785237729549408,
      "learning_rate": 0.00030376081317272645,
      "loss": 2.8049,
      "step": 465
    },
    {
      "epoch": 0.02674632169451598,
      "grad_norm": 0.2285715490579605,
      "learning_rate": 0.00030354981923831934,
      "loss": 2.8105,
      "step": 466
    },
    {
      "epoch": 0.026803717234632967,
      "grad_norm": 0.17985928058624268,
      "learning_rate": 0.0003033448452972373,
      "loss": 2.8246,
      "step": 467
    },
    {
      "epoch": 0.026861112774749955,
      "grad_norm": 0.2026437669992447,
      "learning_rate": 0.000303145899775156,
      "loss": 2.8192,
      "step": 468
    },
    {
      "epoch": 0.026918508314866942,
      "grad_norm": 0.2605213522911072,
      "learning_rate": 0.0003029529908499469,
      "loss": 2.826,
      "step": 469
    },
    {
      "epoch": 0.02697590385498393,
      "grad_norm": 0.22592206299304962,
      "learning_rate": 0.00030276612645134017,
      "loss": 2.7987,
      "step": 470
    },
    {
      "epoch": 0.027033299395100917,
      "grad_norm": 0.2988434433937073,
      "learning_rate": 0.0003025853142605994,
      "loss": 2.826,
      "step": 471
    },
    {
      "epoch": 0.027090694935217905,
      "grad_norm": 0.2247052788734436,
      "learning_rate": 0.0003024105617102055,
      "loss": 2.815,
      "step": 472
    },
    {
      "epoch": 0.02714809047533489,
      "grad_norm": 0.26565778255462646,
      "learning_rate": 0.00030224187598355145,
      "loss": 2.8283,
      "step": 473
    },
    {
      "epoch": 0.027205486015451877,
      "grad_norm": 0.2834932804107666,
      "learning_rate": 0.00030207926401464675,
      "loss": 2.8088,
      "step": 474
    },
    {
      "epoch": 0.027262881555568864,
      "grad_norm": 0.2396688312292099,
      "learning_rate": 0.0003019227324878324,
      "loss": 2.8024,
      "step": 475
    },
    {
      "epoch": 0.027320277095685852,
      "grad_norm": 0.2600051760673523,
      "learning_rate": 0.0003017722878375066,
      "loss": 2.8258,
      "step": 476
    },
    {
      "epoch": 0.02737767263580284,
      "grad_norm": 0.26368406414985657,
      "learning_rate": 0.00030162793624785957,
      "loss": 2.7875,
      "step": 477
    },
    {
      "epoch": 0.027435068175919827,
      "grad_norm": 0.389852911233902,
      "learning_rate": 0.0003014896836526197,
      "loss": 2.8166,
      "step": 478
    },
    {
      "epoch": 0.02749246371603681,
      "grad_norm": 0.23984675109386444,
      "learning_rate": 0.0003013575357348098,
      "loss": 2.8025,
      "step": 479
    },
    {
      "epoch": 0.0275498592561538,
      "grad_norm": 0.24591901898384094,
      "learning_rate": 0.00030123149792651307,
      "loss": 2.7898,
      "step": 480
    },
    {
      "epoch": 0.027607254796270787,
      "grad_norm": 0.24797213077545166,
      "learning_rate": 0.00030111157540865026,
      "loss": 2.8291,
      "step": 481
    },
    {
      "epoch": 0.027664650336387774,
      "grad_norm": 0.2542579770088196,
      "learning_rate": 0.0003009977731107663,
      "loss": 2.7868,
      "step": 482
    },
    {
      "epoch": 0.027722045876504762,
      "grad_norm": 0.21780452132225037,
      "learning_rate": 0.00030089009571082794,
      "loss": 2.8051,
      "step": 483
    },
    {
      "epoch": 0.02777944141662175,
      "grad_norm": 0.2790198028087616,
      "learning_rate": 0.0003007885476350314,
      "loss": 2.8004,
      "step": 484
    },
    {
      "epoch": 0.027836836956738737,
      "grad_norm": 0.2793212831020355,
      "learning_rate": 0.00030069313305762025,
      "loss": 2.8077,
      "step": 485
    },
    {
      "epoch": 0.02789423249685572,
      "grad_norm": 0.2663847506046295,
      "learning_rate": 0.0003006038559007141,
      "loss": 2.805,
      "step": 486
    },
    {
      "epoch": 0.02795162803697271,
      "grad_norm": 0.2695571482181549,
      "learning_rate": 0.0003005207198341473,
      "loss": 2.8102,
      "step": 487
    },
    {
      "epoch": 0.028009023577089696,
      "grad_norm": 0.3027716875076294,
      "learning_rate": 0.0003004437282753177,
      "loss": 2.7944,
      "step": 488
    },
    {
      "epoch": 0.028066419117206684,
      "grad_norm": 0.25220444798469543,
      "learning_rate": 0.0003003728843890469,
      "loss": 2.781,
      "step": 489
    },
    {
      "epoch": 0.02812381465732367,
      "grad_norm": 0.2733742594718933,
      "learning_rate": 0.0003003081910874495,
      "loss": 2.8138,
      "step": 490
    },
    {
      "epoch": 0.02818121019744066,
      "grad_norm": 0.23873530328273773,
      "learning_rate": 0.00030024965102981387,
      "loss": 2.8017,
      "step": 491
    },
    {
      "epoch": 0.028238605737557643,
      "grad_norm": 0.29158100485801697,
      "learning_rate": 0.0003001972666224923,
      "loss": 2.8084,
      "step": 492
    },
    {
      "epoch": 0.02829600127767463,
      "grad_norm": 0.3079324960708618,
      "learning_rate": 0.00030015104001880274,
      "loss": 2.8061,
      "step": 493
    },
    {
      "epoch": 0.02835339681779162,
      "grad_norm": 0.2448122203350067,
      "learning_rate": 0.00030011097311893984,
      "loss": 2.7817,
      "step": 494
    },
    {
      "epoch": 0.028410792357908606,
      "grad_norm": 0.3495275378227234,
      "learning_rate": 0.00030007706756989683,
      "loss": 2.8053,
      "step": 495
    },
    {
      "epoch": 0.028468187898025594,
      "grad_norm": 0.19935691356658936,
      "learning_rate": 0.000300049324765398,
      "loss": 2.7985,
      "step": 496
    },
    {
      "epoch": 0.02852558343814258,
      "grad_norm": 0.30157798528671265,
      "learning_rate": 0.0003000277458458415,
      "loss": 2.8271,
      "step": 497
    },
    {
      "epoch": 0.02858297897825957,
      "grad_norm": 0.23343823850154877,
      "learning_rate": 0.00030001233169825214,
      "loss": 2.807,
      "step": 498
    },
    {
      "epoch": 0.028640374518376553,
      "grad_norm": 0.25404173135757446,
      "learning_rate": 0.0003000030829562451,
      "loss": 2.8072,
      "step": 499
    },
    {
      "epoch": 0.02869777005849354,
      "grad_norm": 0.28863540291786194,
      "learning_rate": 0.0003,
      "loss": 2.8088,
      "step": 500
    },
    {
      "epoch": 0.02869777005849354,
      "eval_loss": 2.735079288482666,
      "eval_runtime": 85.4355,
      "eval_samples_per_second": 50.506,
      "eval_steps_per_second": 12.629,
      "step": 500
    }
  ],
  "logging_steps": 1,
  "max_steps": 500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 150,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4.69922551431168e+17,
  "train_batch_size": 22,
  "trial_name": null,
  "trial_params": null
}