{
  "best_global_step": 50000,
  "best_metric": 2.1760547161102295,
  "best_model_checkpoint": "./sky-389m-tx-project/checkpoint-50000",
  "epoch": 1.7269964078474715,
  "eval_steps": 1000,
  "global_step": 50000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0034539928156949434,
      "grad_norm": 3.3880717754364014,
      "learning_rate": 2.4750000000000002e-05,
      "loss": 8.5386,
      "step": 100
    },
    {
      "epoch": 0.006907985631389887,
      "grad_norm": 2.3290209770202637,
      "learning_rate": 4.975e-05,
      "loss": 6.7703,
      "step": 200
    },
    {
      "epoch": 0.01036197844708483,
      "grad_norm": 2.278391122817993,
      "learning_rate": 7.475e-05,
      "loss": 6.0778,
      "step": 300
    },
    {
      "epoch": 0.013815971262779773,
      "grad_norm": 1.8386310338974,
      "learning_rate": 9.975000000000001e-05,
      "loss": 5.7081,
      "step": 400
    },
    {
      "epoch": 0.017269964078474715,
      "grad_norm": 1.0589734315872192,
      "learning_rate": 0.00012475,
      "loss": 5.3779,
      "step": 500
    },
    {
      "epoch": 0.02072395689416966,
      "grad_norm": 1.060039758682251,
      "learning_rate": 0.00014975,
      "loss": 5.0624,
      "step": 600
    },
    {
      "epoch": 0.024177949709864602,
      "grad_norm": 1.0565826892852783,
      "learning_rate": 0.00017475,
      "loss": 4.8215,
      "step": 700
    },
    {
      "epoch": 0.027631942525559547,
      "grad_norm": 0.9314415454864502,
      "learning_rate": 0.00019975,
      "loss": 4.5897,
      "step": 800
    },
    {
      "epoch": 0.03108593534125449,
      "grad_norm": 0.9964447021484375,
      "learning_rate": 0.00022475000000000001,
      "loss": 4.4049,
      "step": 900
    },
    {
      "epoch": 0.03453992815694943,
      "grad_norm": 0.9212857484817505,
      "learning_rate": 0.00024975,
      "loss": 4.2051,
      "step": 1000
    },
    {
      "epoch": 0.03453992815694943,
      "eval_loss": 4.235040187835693,
      "eval_runtime": 935.7314,
      "eval_samples_per_second": 162.843,
      "eval_steps_per_second": 1.629,
      "step": 1000
    },
    {
      "epoch": 0.037993920972644375,
      "grad_norm": 0.8937363028526306,
      "learning_rate": 0.00027475,
      "loss": 4.0112,
      "step": 1100
    },
    {
      "epoch": 0.04144791378833932,
      "grad_norm": 0.8522709012031555,
      "learning_rate": 0.00029975000000000005,
      "loss": 3.8575,
      "step": 1200
    },
    {
      "epoch": 0.044901906604034265,
      "grad_norm": 0.8380929231643677,
      "learning_rate": 0.00032475,
      "loss": 3.7379,
      "step": 1300
    },
    {
      "epoch": 0.048355899419729204,
      "grad_norm": 0.704521894454956,
      "learning_rate": 0.00034975,
      "loss": 3.6267,
      "step": 1400
    },
    {
      "epoch": 0.05180989223542415,
      "grad_norm": 0.7526060938835144,
      "learning_rate": 0.00037475000000000003,
      "loss": 3.5288,
      "step": 1500
    },
    {
      "epoch": 0.055263885051119094,
      "grad_norm": 0.8213881254196167,
      "learning_rate": 0.00039975,
      "loss": 3.4769,
      "step": 1600
    },
    {
      "epoch": 0.05871787786681404,
      "grad_norm": 0.6610364317893982,
      "learning_rate": 0.00042475000000000005,
      "loss": 3.4406,
      "step": 1700
    },
    {
      "epoch": 0.06217187068250898,
      "grad_norm": 0.8810706734657288,
      "learning_rate": 0.00044975,
      "loss": 3.3477,
      "step": 1800
    },
    {
      "epoch": 0.06562586349820393,
      "grad_norm": 1.3641518354415894,
      "learning_rate": 0.00047475,
      "loss": 3.3183,
      "step": 1900
    },
    {
      "epoch": 0.06907985631389886,
      "grad_norm": 0.6155968904495239,
      "learning_rate": 0.0004997500000000001,
      "loss": 3.3016,
      "step": 2000
    },
    {
      "epoch": 0.06907985631389886,
      "eval_loss": 3.551506280899048,
      "eval_runtime": 937.0574,
      "eval_samples_per_second": 162.612,
      "eval_steps_per_second": 1.626,
      "step": 2000
    },
    {
      "epoch": 0.0725338491295938,
      "grad_norm": 0.5413870215415955,
      "learning_rate": 0.0004994375,
      "loss": 3.2393,
      "step": 2100
    },
    {
      "epoch": 0.07598784194528875,
      "grad_norm": 0.5018215775489807,
      "learning_rate": 0.0004988693181818182,
      "loss": 3.1889,
      "step": 2200
    },
    {
      "epoch": 0.0794418347609837,
      "grad_norm": 0.5307313203811646,
      "learning_rate": 0.0004983011363636364,
      "loss": 3.1391,
      "step": 2300
    },
    {
      "epoch": 0.08289582757667864,
      "grad_norm": 0.5371428728103638,
      "learning_rate": 0.0004977329545454545,
      "loss": 3.1102,
      "step": 2400
    },
    {
      "epoch": 0.08634982039237359,
      "grad_norm": 0.5079624652862549,
      "learning_rate": 0.0004971647727272727,
      "loss": 3.0868,
      "step": 2500
    },
    {
      "epoch": 0.08980381320806853,
      "grad_norm": 0.4562855660915375,
      "learning_rate": 0.000496596590909091,
      "loss": 3.0448,
      "step": 2600
    },
    {
      "epoch": 0.09325780602376348,
      "grad_norm": 0.4660443067550659,
      "learning_rate": 0.0004960284090909092,
      "loss": 3.0341,
      "step": 2700
    },
    {
      "epoch": 0.09671179883945841,
      "grad_norm": 0.48204541206359863,
      "learning_rate": 0.0004954602272727273,
      "loss": 2.9917,
      "step": 2800
    },
    {
      "epoch": 0.10016579165515335,
      "grad_norm": 0.43557730317115784,
      "learning_rate": 0.0004948920454545454,
      "loss": 2.9464,
      "step": 2900
    },
    {
      "epoch": 0.1036197844708483,
      "grad_norm": 0.5063506364822388,
      "learning_rate": 0.0004943238636363637,
      "loss": 2.9463,
      "step": 3000
    },
    {
      "epoch": 0.1036197844708483,
      "eval_loss": 3.2142741680145264,
      "eval_runtime": 937.7254,
      "eval_samples_per_second": 162.496,
      "eval_steps_per_second": 1.625,
      "step": 3000
    },
    {
      "epoch": 0.10707377728654324,
      "grad_norm": 0.4616130590438843,
      "learning_rate": 0.0004937556818181818,
      "loss": 2.9168,
      "step": 3100
    },
    {
      "epoch": 0.11052777010223819,
      "grad_norm": 0.447933554649353,
      "learning_rate": 0.0004931875,
      "loss": 2.9172,
      "step": 3200
    },
    {
      "epoch": 0.11398176291793313,
      "grad_norm": 0.4423768222332001,
      "learning_rate": 0.0004926193181818183,
      "loss": 2.8891,
      "step": 3300
    },
    {
      "epoch": 0.11743575573362808,
      "grad_norm": 0.4318563640117645,
      "learning_rate": 0.0004920511363636364,
      "loss": 2.8479,
      "step": 3400
    },
    {
      "epoch": 0.12088974854932302,
      "grad_norm": 0.41672056913375854,
      "learning_rate": 0.0004914829545454545,
      "loss": 2.8462,
      "step": 3500
    },
    {
      "epoch": 0.12434374136501795,
      "grad_norm": 0.3930817246437073,
      "learning_rate": 0.0004909147727272727,
      "loss": 2.8219,
      "step": 3600
    },
    {
      "epoch": 0.1277977341807129,
      "grad_norm": 0.4133651852607727,
      "learning_rate": 0.0004903465909090909,
      "loss": 2.7957,
      "step": 3700
    },
    {
      "epoch": 0.13125172699640786,
      "grad_norm": 0.40811586380004883,
      "learning_rate": 0.0004897784090909091,
      "loss": 2.7879,
      "step": 3800
    },
    {
      "epoch": 0.1347057198121028,
      "grad_norm": 0.42227643728256226,
      "learning_rate": 0.0004892102272727273,
      "loss": 2.7716,
      "step": 3900
    },
    {
      "epoch": 0.13815971262779772,
      "grad_norm": 0.41413313150405884,
      "learning_rate": 0.0004886420454545455,
      "loss": 2.7606,
      "step": 4000
    },
    {
      "epoch": 0.13815971262779772,
      "eval_loss": 3.061166286468506,
      "eval_runtime": 936.0728,
      "eval_samples_per_second": 162.783,
      "eval_steps_per_second": 1.628,
      "step": 4000
    },
    {
      "epoch": 0.14161370544349267,
      "grad_norm": 0.40972092747688293,
      "learning_rate": 0.00048807386363636365,
      "loss": 2.7386,
      "step": 4100
    },
    {
      "epoch": 0.1450676982591876,
      "grad_norm": 0.4020697772502899,
      "learning_rate": 0.00048750568181818183,
      "loss": 2.7522,
      "step": 4200
    },
    {
      "epoch": 0.14852169107488256,
      "grad_norm": 0.40231621265411377,
      "learning_rate": 0.0004869375,
      "loss": 2.7442,
      "step": 4300
    },
    {
      "epoch": 0.1519756838905775,
      "grad_norm": 0.455773264169693,
      "learning_rate": 0.0004863693181818182,
      "loss": 2.7146,
      "step": 4400
    },
    {
      "epoch": 0.15542967670627245,
      "grad_norm": 0.38691282272338867,
      "learning_rate": 0.00048580113636363637,
      "loss": 2.6924,
      "step": 4500
    },
    {
      "epoch": 0.1588836695219674,
      "grad_norm": 0.3897066116333008,
      "learning_rate": 0.00048523295454545455,
      "loss": 2.6964,
      "step": 4600
    },
    {
      "epoch": 0.16233766233766234,
      "grad_norm": 0.3786475360393524,
      "learning_rate": 0.00048466477272727273,
      "loss": 2.6566,
      "step": 4700
    },
    {
      "epoch": 0.16579165515335728,
      "grad_norm": 0.3838929235935211,
      "learning_rate": 0.0004840965909090909,
      "loss": 2.6634,
      "step": 4800
    },
    {
      "epoch": 0.16924564796905223,
      "grad_norm": 0.3646841049194336,
      "learning_rate": 0.0004835284090909091,
      "loss": 2.6708,
      "step": 4900
    },
    {
      "epoch": 0.17269964078474717,
      "grad_norm": 0.37178680300712585,
      "learning_rate": 0.0004829602272727273,
      "loss": 2.6389,
      "step": 5000
    },
    {
      "epoch": 0.17269964078474717,
      "eval_loss": 2.940995216369629,
      "eval_runtime": 935.4231,
      "eval_samples_per_second": 162.896,
      "eval_steps_per_second": 1.629,
      "step": 5000
    },
    {
      "epoch": 0.17615363360044212,
      "grad_norm": 0.37742722034454346,
      "learning_rate": 0.00048239204545454545,
      "loss": 2.644,
      "step": 5100
    },
    {
      "epoch": 0.17960762641613706,
      "grad_norm": 0.3702583611011505,
      "learning_rate": 0.00048182386363636363,
      "loss": 2.624,
      "step": 5200
    },
    {
      "epoch": 0.183061619231832,
      "grad_norm": 0.4044618308544159,
      "learning_rate": 0.0004812556818181818,
      "loss": 2.6197,
      "step": 5300
    },
    {
      "epoch": 0.18651561204752695,
      "grad_norm": 0.3829458951950073,
      "learning_rate": 0.0004806875,
      "loss": 2.614,
      "step": 5400
    },
    {
      "epoch": 0.1899696048632219,
      "grad_norm": 0.3829841911792755,
      "learning_rate": 0.0004801193181818182,
      "loss": 2.6118,
      "step": 5500
    },
    {
      "epoch": 0.19342359767891681,
      "grad_norm": 0.3528871238231659,
      "learning_rate": 0.0004795511363636364,
      "loss": 2.6041,
      "step": 5600
    },
    {
      "epoch": 0.19687759049461176,
      "grad_norm": 0.3476055860519409,
      "learning_rate": 0.00047898295454545454,
      "loss": 2.5908,
      "step": 5700
    },
    {
      "epoch": 0.2003315833103067,
      "grad_norm": 0.3490158021450043,
      "learning_rate": 0.0004784147727272727,
      "loss": 2.569,
      "step": 5800
    },
    {
      "epoch": 0.20378557612600165,
      "grad_norm": 0.3507535457611084,
      "learning_rate": 0.00047784659090909095,
      "loss": 2.5502,
      "step": 5900
    },
    {
      "epoch": 0.2072395689416966,
      "grad_norm": 0.37472763657569885,
      "learning_rate": 0.0004772784090909091,
      "loss": 2.5656,
      "step": 6000
    },
    {
      "epoch": 0.2072395689416966,
      "eval_loss": 2.869264602661133,
      "eval_runtime": 927.5758,
      "eval_samples_per_second": 164.274,
      "eval_steps_per_second": 1.027,
      "step": 6000
    },
    {
      "epoch": 0.21069356175739154,
      "grad_norm": 0.34653300046920776,
      "learning_rate": 0.00047671022727272726,
      "loss": 2.5509,
      "step": 6100
    },
    {
      "epoch": 0.21414755457308648,
      "grad_norm": 0.3335779011249542,
      "learning_rate": 0.0004761420454545455,
      "loss": 2.5421,
      "step": 6200
    },
    {
      "epoch": 0.21760154738878143,
      "grad_norm": 0.37146443128585815,
      "learning_rate": 0.0004755738636363636,
      "loss": 2.5438,
      "step": 6300
    },
    {
      "epoch": 0.22105554020447638,
      "grad_norm": 0.33024120330810547,
      "learning_rate": 0.0004750056818181818,
      "loss": 2.5318,
      "step": 6400
    },
    {
      "epoch": 0.22450953302017132,
      "grad_norm": 0.3545812666416168,
      "learning_rate": 0.00047443750000000003,
      "loss": 2.5167,
      "step": 6500
    },
    {
      "epoch": 0.22796352583586627,
      "grad_norm": 0.3502351641654968,
      "learning_rate": 0.00047386931818181816,
      "loss": 2.5247,
      "step": 6600
    },
    {
      "epoch": 0.2314175186515612,
      "grad_norm": 0.35102933645248413,
      "learning_rate": 0.00047330113636363634,
      "loss": 2.5271,
      "step": 6700
    },
    {
      "epoch": 0.23487151146725616,
      "grad_norm": 0.34355252981185913,
      "learning_rate": 0.0004727329545454546,
      "loss": 2.536,
      "step": 6800
    },
    {
      "epoch": 0.2383255042829511,
      "grad_norm": 0.3270651400089264,
      "learning_rate": 0.00047216477272727275,
      "loss": 2.5081,
      "step": 6900
    },
    {
      "epoch": 0.24177949709864605,
      "grad_norm": 0.35053566098213196,
      "learning_rate": 0.0004715965909090909,
      "loss": 2.4945,
      "step": 7000
    },
    {
      "epoch": 0.24177949709864605,
      "eval_loss": 2.804372549057007,
      "eval_runtime": 927.2887,
      "eval_samples_per_second": 164.325,
      "eval_steps_per_second": 1.028,
      "step": 7000
    },
    {
      "epoch": 0.245233489914341,
      "grad_norm": 0.3321439325809479,
      "learning_rate": 0.0004710284090909091,
      "loss": 2.482,
      "step": 7100
    },
    {
      "epoch": 0.2486874827300359,
      "grad_norm": 0.3228578567504883,
      "learning_rate": 0.0004704602272727273,
      "loss": 2.4787,
      "step": 7200
    },
    {
      "epoch": 0.25214147554573085,
      "grad_norm": 0.3319440186023712,
      "learning_rate": 0.0004698920454545454,
      "loss": 2.4704,
      "step": 7300
    },
    {
      "epoch": 0.2555954683614258,
      "grad_norm": 0.34676915407180786,
      "learning_rate": 0.00046932386363636366,
      "loss": 2.479,
      "step": 7400
    },
    {
      "epoch": 0.25904946117712074,
      "grad_norm": 0.3456803560256958,
      "learning_rate": 0.00046875568181818184,
      "loss": 2.462,
      "step": 7500
    },
    {
      "epoch": 0.2625034539928157,
      "grad_norm": 0.330388605594635,
      "learning_rate": 0.00046818749999999996,
      "loss": 2.4638,
      "step": 7600
    },
    {
      "epoch": 0.26595744680851063,
      "grad_norm": 0.3278537690639496,
      "learning_rate": 0.0004676193181818182,
      "loss": 2.456,
      "step": 7700
    },
    {
      "epoch": 0.2694114396242056,
      "grad_norm": 0.331632137298584,
      "learning_rate": 0.0004670511363636364,
      "loss": 2.4459,
      "step": 7800
    },
    {
      "epoch": 0.2728654324399005,
      "grad_norm": 0.34204795956611633,
      "learning_rate": 0.0004664829545454545,
      "loss": 2.4545,
      "step": 7900
    },
    {
      "epoch": 0.27631942525559544,
      "grad_norm": 0.33582791686058044,
      "learning_rate": 0.00046591477272727274,
      "loss": 2.4377,
      "step": 8000
    },
    {
      "epoch": 0.27631942525559544,
      "eval_loss": 2.753157138824463,
      "eval_runtime": 927.4163,
      "eval_samples_per_second": 164.303,
      "eval_steps_per_second": 1.028,
      "step": 8000
    },
    {
      "epoch": 0.2797734180712904,
      "grad_norm": 0.3626213073730469,
      "learning_rate": 0.0004653465909090909,
      "loss": 2.4395,
      "step": 8100
    },
    {
      "epoch": 0.28322741088698533,
      "grad_norm": 0.33439400792121887,
      "learning_rate": 0.00046477840909090915,
      "loss": 2.4267,
      "step": 8200
    },
    {
      "epoch": 0.2866814037026803,
      "grad_norm": 0.31855249404907227,
      "learning_rate": 0.0004642102272727273,
      "loss": 2.4349,
      "step": 8300
    },
    {
      "epoch": 0.2901353965183752,
      "grad_norm": 0.3519601821899414,
      "learning_rate": 0.00046364204545454546,
      "loss": 2.4248,
      "step": 8400
    },
    {
      "epoch": 0.2935893893340702,
      "grad_norm": 0.31838154792785645,
      "learning_rate": 0.0004630738636363637,
      "loss": 2.3968,
      "step": 8500
    },
    {
      "epoch": 0.2970433821497651,
      "grad_norm": 0.3294484317302704,
      "learning_rate": 0.0004625056818181818,
      "loss": 2.4162,
      "step": 8600
    },
    {
      "epoch": 0.3004973749654601,
      "grad_norm": 0.31714752316474915,
      "learning_rate": 0.0004619375,
      "loss": 2.4073,
      "step": 8700
    },
    {
      "epoch": 0.303951367781155,
      "grad_norm": 0.32918691635131836,
      "learning_rate": 0.00046136931818181823,
      "loss": 2.4229,
      "step": 8800
    },
    {
      "epoch": 0.30740536059685,
      "grad_norm": 0.3097570538520813,
      "learning_rate": 0.00046080113636363636,
      "loss": 2.3966,
      "step": 8900
    },
    {
      "epoch": 0.3108593534125449,
      "grad_norm": 0.3247508406639099,
      "learning_rate": 0.00046023295454545454,
      "loss": 2.3925,
      "step": 9000
    },
    {
      "epoch": 0.3108593534125449,
      "eval_loss": 2.705599308013916,
      "eval_runtime": 927.4293,
      "eval_samples_per_second": 164.3,
      "eval_steps_per_second": 1.028,
      "step": 9000
    },
    {
      "epoch": 0.31431334622823986,
      "grad_norm": 0.3189142048358917,
      "learning_rate": 0.0004596647727272728,
      "loss": 2.3932,
      "step": 9100
    },
    {
      "epoch": 0.3177673390439348,
      "grad_norm": 0.3028543293476105,
      "learning_rate": 0.0004590965909090909,
      "loss": 2.3787,
      "step": 9200
    },
    {
      "epoch": 0.32122133185962976,
      "grad_norm": 0.3109678030014038,
      "learning_rate": 0.0004585284090909091,
      "loss": 2.3665,
      "step": 9300
    },
    {
      "epoch": 0.3246753246753247,
      "grad_norm": 0.31394320726394653,
      "learning_rate": 0.0004579602272727273,
      "loss": 2.3722,
      "step": 9400
    },
    {
      "epoch": 0.32812931749101965,
      "grad_norm": 0.3214563727378845,
      "learning_rate": 0.0004573920454545455,
      "loss": 2.3586,
      "step": 9500
    },
    {
      "epoch": 0.33158331030671456,
      "grad_norm": 0.33052927255630493,
      "learning_rate": 0.0004568238636363636,
      "loss": 2.3838,
      "step": 9600
    },
    {
      "epoch": 0.3350373031224095,
      "grad_norm": 0.3511188328266144,
      "learning_rate": 0.00045625568181818186,
      "loss": 2.3588,
      "step": 9700
    },
    {
      "epoch": 0.33849129593810445,
      "grad_norm": 0.31076422333717346,
      "learning_rate": 0.00045568750000000004,
      "loss": 2.3552,
      "step": 9800
    },
    {
      "epoch": 0.34194528875379937,
      "grad_norm": 0.32571229338645935,
      "learning_rate": 0.00045511931818181816,
      "loss": 2.3496,
      "step": 9900
    },
    {
      "epoch": 0.34539928156949434,
      "grad_norm": 0.3375560939311981,
      "learning_rate": 0.0004545511363636364,
      "loss": 2.3526,
      "step": 10000
    },
    {
      "epoch": 0.34539928156949434,
      "eval_loss": 2.6650397777557373,
      "eval_runtime": 927.3482,
      "eval_samples_per_second": 164.315,
      "eval_steps_per_second": 1.028,
      "step": 10000
    },
    {
      "epoch": 0.34885327438518926,
      "grad_norm": 0.3159004747867584,
      "learning_rate": 0.0004539829545454546,
      "loss": 2.3606,
      "step": 10100
    },
    {
      "epoch": 0.35230726720088423,
      "grad_norm": 0.32001519203186035,
      "learning_rate": 0.0004534147727272727,
      "loss": 2.37,
      "step": 10200
    },
    {
      "epoch": 0.35576126001657915,
      "grad_norm": 0.328933447599411,
      "learning_rate": 0.00045284659090909094,
      "loss": 2.3515,
      "step": 10300
    },
    {
      "epoch": 0.3592152528322741,
      "grad_norm": 0.3076813817024231,
      "learning_rate": 0.0004522784090909091,
      "loss": 2.3276,
      "step": 10400
    },
    {
      "epoch": 0.36266924564796904,
      "grad_norm": 0.3153810501098633,
      "learning_rate": 0.00045171022727272725,
      "loss": 2.3373,
      "step": 10500
    },
    {
      "epoch": 0.366123238463664,
      "grad_norm": 0.32247108221054077,
      "learning_rate": 0.0004511420454545455,
      "loss": 2.3335,
      "step": 10600
    },
    {
      "epoch": 0.36957723127935893,
      "grad_norm": 0.3074076771736145,
      "learning_rate": 0.00045057386363636366,
      "loss": 2.325,
      "step": 10700
    },
    {
      "epoch": 0.3730312240950539,
      "grad_norm": 0.31907033920288086,
      "learning_rate": 0.0004500056818181818,
      "loss": 2.3155,
      "step": 10800
    },
    {
      "epoch": 0.3764852169107488,
      "grad_norm": 0.32912886142730713,
      "learning_rate": 0.0004494375,
      "loss": 2.324,
      "step": 10900
    },
    {
      "epoch": 0.3799392097264438,
      "grad_norm": 0.3003767430782318,
      "learning_rate": 0.0004488693181818182,
      "loss": 2.3222,
      "step": 11000
    },
    {
      "epoch": 0.3799392097264438,
      "eval_loss": 2.633434772491455,
      "eval_runtime": 927.254,
      "eval_samples_per_second": 164.331,
      "eval_steps_per_second": 1.028,
      "step": 11000
    },
    {
      "epoch": 0.3833932025421387,
      "grad_norm": 0.3144666254520416,
      "learning_rate": 0.0004483011363636364,
      "loss": 2.3251,
      "step": 11100
    },
    {
      "epoch": 0.38684719535783363,
      "grad_norm": 0.3284156322479248,
      "learning_rate": 0.00044773295454545456,
      "loss": 2.3033,
      "step": 11200
    },
    {
      "epoch": 0.3903011881735286,
      "grad_norm": 0.3226972222328186,
      "learning_rate": 0.00044716477272727274,
      "loss": 2.296,
      "step": 11300
    },
    {
      "epoch": 0.3937551809892235,
      "grad_norm": 0.34044623374938965,
      "learning_rate": 0.0004465965909090909,
      "loss": 2.3198,
      "step": 11400
    },
    {
      "epoch": 0.3972091738049185,
      "grad_norm": 0.3101319372653961,
      "learning_rate": 0.0004460284090909091,
      "loss": 2.3107,
      "step": 11500
    },
    {
      "epoch": 0.4006631666206134,
      "grad_norm": 0.3044012486934662,
      "learning_rate": 0.0004454602272727273,
      "loss": 2.2984,
      "step": 11600
    },
    {
      "epoch": 0.4041171594363084,
      "grad_norm": 0.3155890107154846,
      "learning_rate": 0.00044489204545454546,
      "loss": 2.2968,
      "step": 11700
    },
    {
      "epoch": 0.4075711522520033,
      "grad_norm": 0.33918723464012146,
      "learning_rate": 0.00044432386363636364,
      "loss": 2.2707,
      "step": 11800
    },
    {
      "epoch": 0.41102514506769827,
      "grad_norm": 0.30243411660194397,
      "learning_rate": 0.0004437556818181818,
      "loss": 2.2979,
      "step": 11900
    },
    {
      "epoch": 0.4144791378833932,
      "grad_norm": 0.3046514391899109,
      "learning_rate": 0.0004431875,
      "loss": 2.2809,
      "step": 12000
    },
    {
      "epoch": 0.4144791378833932,
      "eval_loss": 2.61051344871521,
      "eval_runtime": 927.0521,
      "eval_samples_per_second": 164.367,
      "eval_steps_per_second": 1.028,
      "step": 12000
    },
    {
      "epoch": 0.41793313069908816,
      "grad_norm": 0.32584163546562195,
      "learning_rate": 0.0004426193181818182,
      "loss": 2.2876,
      "step": 12100
    },
    {
      "epoch": 0.4213871235147831,
      "grad_norm": 0.34489238262176514,
      "learning_rate": 0.00044205113636363637,
      "loss": 2.298,
      "step": 12200
    },
    {
      "epoch": 0.42484111633047805,
      "grad_norm": 0.30355241894721985,
      "learning_rate": 0.00044148295454545455,
      "loss": 2.2767,
      "step": 12300
    },
    {
      "epoch": 0.42829510914617297,
      "grad_norm": 0.3140780031681061,
      "learning_rate": 0.0004409147727272728,
      "loss": 2.2779,
      "step": 12400
    },
    {
      "epoch": 0.43174910196186794,
      "grad_norm": 0.31298449635505676,
      "learning_rate": 0.0004403465909090909,
      "loss": 2.2831,
      "step": 12500
    },
    {
      "epoch": 0.43520309477756286,
      "grad_norm": 0.32630786299705505,
      "learning_rate": 0.0004397784090909091,
      "loss": 2.2698,
      "step": 12600
    },
    {
      "epoch": 0.43865708759325783,
      "grad_norm": 0.303371399641037,
      "learning_rate": 0.0004392102272727273,
      "loss": 2.2767,
      "step": 12700
    },
    {
      "epoch": 0.44211108040895275,
      "grad_norm": 0.30070436000823975,
      "learning_rate": 0.00043864204545454545,
      "loss": 2.2449,
      "step": 12800
    },
    {
      "epoch": 0.44556507322464767,
      "grad_norm": 0.2887287139892578,
      "learning_rate": 0.00043807386363636363,
      "loss": 2.2688,
      "step": 12900
    },
    {
      "epoch": 0.44901906604034264,
      "grad_norm": 0.306916743516922,
      "learning_rate": 0.00043750568181818186,
      "loss": 2.2557,
      "step": 13000
    },
    {
      "epoch": 0.44901906604034264,
      "eval_loss": 2.5854439735412598,
      "eval_runtime": 926.6658,
      "eval_samples_per_second": 164.436,
      "eval_steps_per_second": 1.028,
      "step": 13000
    },
    {
      "epoch": 0.45247305885603756,
      "grad_norm": 0.34850597381591797,
      "learning_rate": 0.0004369375,
      "loss": 2.2423,
      "step": 13100
    },
    {
      "epoch": 0.45592705167173253,
      "grad_norm": 0.35393500328063965,
      "learning_rate": 0.00043636931818181817,
      "loss": 2.2543,
      "step": 13200
    },
    {
      "epoch": 0.45938104448742745,
      "grad_norm": 0.3059336543083191,
      "learning_rate": 0.0004358011363636364,
      "loss": 2.2516,
      "step": 13300
    },
    {
      "epoch": 0.4628350373031224,
      "grad_norm": 0.3357197344303131,
      "learning_rate": 0.00043523295454545453,
      "loss": 2.2328,
      "step": 13400
    },
    {
      "epoch": 0.46628903011881734,
      "grad_norm": 0.31849172711372375,
      "learning_rate": 0.0004346647727272727,
      "loss": 2.2424,
      "step": 13500
    },
    {
      "epoch": 0.4697430229345123,
      "grad_norm": 0.31968438625335693,
      "learning_rate": 0.00043409659090909094,
      "loss": 2.2228,
      "step": 13600
    },
    {
      "epoch": 0.47319701575020723,
      "grad_norm": 0.3293677568435669,
      "learning_rate": 0.0004335284090909091,
      "loss": 2.2555,
      "step": 13700
    },
    {
      "epoch": 0.4766510085659022,
      "grad_norm": 0.3031880855560303,
      "learning_rate": 0.00043296022727272725,
      "loss": 2.2387,
      "step": 13800
    },
    {
      "epoch": 0.4801050013815971,
      "grad_norm": 0.2914179563522339,
      "learning_rate": 0.0004323920454545455,
      "loss": 2.2494,
      "step": 13900
    },
    {
      "epoch": 0.4835589941972921,
      "grad_norm": 0.3345280587673187,
      "learning_rate": 0.00043182386363636367,
      "loss": 2.2322,
      "step": 14000
    },
    {
      "epoch": 0.4835589941972921,
      "eval_loss": 2.5606906414031982,
      "eval_runtime": 929.2705,
      "eval_samples_per_second": 163.975,
      "eval_steps_per_second": 1.026,
      "step": 14000
    },
    {
      "epoch": 0.487012987012987,
      "grad_norm": 0.3165434002876282,
      "learning_rate": 0.0004312556818181818,
      "loss": 2.2266,
      "step": 14100
    },
    {
      "epoch": 0.490466979828682,
      "grad_norm": 0.30577775835990906,
      "learning_rate": 0.0004306875,
      "loss": 2.2401,
      "step": 14200
    },
    {
      "epoch": 0.4939209726443769,
      "grad_norm": 0.2920292019844055,
      "learning_rate": 0.0004301193181818182,
      "loss": 2.2203,
      "step": 14300
    },
    {
      "epoch": 0.4973749654600718,
      "grad_norm": 0.32168078422546387,
      "learning_rate": 0.00042955113636363633,
      "loss": 2.2064,
      "step": 14400
    },
    {
      "epoch": 0.5008289582757668,
      "grad_norm": 0.31879886984825134,
      "learning_rate": 0.00042898295454545457,
      "loss": 2.219,
      "step": 14500
    },
    {
      "epoch": 0.5042829510914617,
      "grad_norm": 0.2906869351863861,
      "learning_rate": 0.00042841477272727275,
      "loss": 2.2055,
      "step": 14600
    },
    {
      "epoch": 0.5077369439071566,
      "grad_norm": 0.3648407757282257,
      "learning_rate": 0.0004278465909090909,
      "loss": 2.2157,
      "step": 14700
    },
    {
      "epoch": 0.5111909367228517,
      "grad_norm": 0.30823054909706116,
      "learning_rate": 0.0004272784090909091,
      "loss": 2.2158,
      "step": 14800
    },
    {
      "epoch": 0.5146449295385466,
      "grad_norm": 0.3004588782787323,
      "learning_rate": 0.0004267102272727273,
      "loss": 2.2009,
      "step": 14900
    },
    {
      "epoch": 0.5180989223542415,
      "grad_norm": 0.29552149772644043,
      "learning_rate": 0.00042614204545454547,
      "loss": 2.2194,
      "step": 15000
    },
    {
      "epoch": 0.5180989223542415,
      "eval_loss": 2.537440538406372,
      "eval_runtime": 928.9697,
      "eval_samples_per_second": 164.028,
      "eval_steps_per_second": 1.026,
      "step": 15000
    },
    {
      "epoch": 0.5215529151699364,
      "grad_norm": 0.3077145516872406,
      "learning_rate": 0.00042557386363636365,
      "loss": 2.199,
      "step": 15100
    },
    {
      "epoch": 0.5250069079856314,
      "grad_norm": 0.32205095887184143,
      "learning_rate": 0.00042500568181818183,
      "loss": 2.2045,
      "step": 15200
    },
    {
      "epoch": 0.5284609008013263,
      "grad_norm": 0.30157867074012756,
      "learning_rate": 0.0004244375,
      "loss": 2.1926,
      "step": 15300
    },
    {
      "epoch": 0.5319148936170213,
      "grad_norm": 0.35868486762046814,
      "learning_rate": 0.0004238693181818182,
      "loss": 2.1911,
      "step": 15400
    },
    {
      "epoch": 0.5353688864327162,
      "grad_norm": 0.3132970631122589,
      "learning_rate": 0.00042330113636363637,
      "loss": 2.193,
      "step": 15500
    },
    {
      "epoch": 0.5388228792484112,
      "grad_norm": 0.31356823444366455,
      "learning_rate": 0.00042273295454545455,
      "loss": 2.1959,
      "step": 15600
    },
    {
      "epoch": 0.5422768720641061,
      "grad_norm": 0.31471192836761475,
      "learning_rate": 0.00042216477272727273,
      "loss": 2.2069,
      "step": 15700
    },
    {
      "epoch": 0.545730864879801,
      "grad_norm": 0.33163174986839294,
      "learning_rate": 0.0004215965909090909,
      "loss": 2.1929,
      "step": 15800
    },
    {
      "epoch": 0.549184857695496,
      "grad_norm": 0.31774455308914185,
      "learning_rate": 0.0004210284090909091,
      "loss": 2.1816,
      "step": 15900
    },
    {
      "epoch": 0.5526388505111909,
      "grad_norm": 0.30572381615638733,
      "learning_rate": 0.00042046022727272727,
      "loss": 2.206,
      "step": 16000
    },
    {
      "epoch": 0.5526388505111909,
      "eval_loss": 2.52417254447937,
      "eval_runtime": 928.7275,
      "eval_samples_per_second": 164.071,
      "eval_steps_per_second": 1.026,
      "step": 16000
    },
    {
      "epoch": 0.5560928433268859,
      "grad_norm": 0.3196762502193451,
      "learning_rate": 0.00041989204545454545,
      "loss": 2.1801,
      "step": 16100
    },
    {
      "epoch": 0.5595468361425808,
      "grad_norm": 0.3148038685321808,
      "learning_rate": 0.00041932386363636363,
      "loss": 2.1722,
      "step": 16200
    },
    {
      "epoch": 0.5630008289582757,
      "grad_norm": 0.32507434487342834,
      "learning_rate": 0.0004187556818181818,
      "loss": 2.1836,
      "step": 16300
    },
    {
      "epoch": 0.5664548217739707,
      "grad_norm": 0.3227043151855469,
      "learning_rate": 0.0004181875,
      "loss": 2.1794,
      "step": 16400
    },
    {
      "epoch": 0.5699088145896657,
      "grad_norm": 0.3271748721599579,
      "learning_rate": 0.0004176193181818182,
      "loss": 2.1786,
      "step": 16500
    },
    {
      "epoch": 0.5733628074053606,
      "grad_norm": 0.31076040863990784,
      "learning_rate": 0.0004170511363636364,
      "loss": 2.1616,
      "step": 16600
    },
    {
      "epoch": 0.5768168002210555,
      "grad_norm": 0.32442960143089294,
      "learning_rate": 0.00041648295454545453,
      "loss": 2.1642,
      "step": 16700
    },
    {
      "epoch": 0.5802707930367504,
      "grad_norm": 0.2945985794067383,
      "learning_rate": 0.0004159147727272727,
      "loss": 2.1641,
      "step": 16800
    },
    {
      "epoch": 0.5837247858524455,
      "grad_norm": 0.32005414366722107,
      "learning_rate": 0.00041534659090909095,
      "loss": 2.1968,
      "step": 16900
    },
    {
      "epoch": 0.5871787786681404,
      "grad_norm": 0.31035128235816956,
      "learning_rate": 0.0004147784090909091,
      "loss": 2.1735,
      "step": 17000
    },
    {
      "epoch": 0.5871787786681404,
      "eval_loss": 2.5003573894500732,
      "eval_runtime": 929.6579,
      "eval_samples_per_second": 163.907,
      "eval_steps_per_second": 1.025,
      "step": 17000
    },
    {
      "epoch": 0.5906327714838353,
      "grad_norm": 0.3103092908859253,
      "learning_rate": 0.00041421022727272726,
      "loss": 2.1625,
      "step": 17100
    },
    {
      "epoch": 0.5940867642995302,
      "grad_norm": 0.3217906057834625,
      "learning_rate": 0.0004136420454545455,
      "loss": 2.1485,
      "step": 17200
    },
    {
      "epoch": 0.5975407571152253,
      "grad_norm": 0.2988424301147461,
      "learning_rate": 0.0004130738636363636,
      "loss": 2.1628,
      "step": 17300
    },
    {
      "epoch": 0.6009947499309202,
      "grad_norm": 0.3058546185493469,
      "learning_rate": 0.0004125056818181818,
      "loss": 2.1701,
      "step": 17400
    },
    {
      "epoch": 0.6044487427466151,
      "grad_norm": 0.3056589961051941,
      "learning_rate": 0.00041193750000000003,
      "loss": 2.1515,
      "step": 17500
    },
    {
      "epoch": 0.60790273556231,
      "grad_norm": 0.31840789318084717,
      "learning_rate": 0.00041136931818181816,
      "loss": 2.1536,
      "step": 17600
    },
    {
      "epoch": 0.6113567283780049,
      "grad_norm": 0.3044828772544861,
      "learning_rate": 0.00041080113636363634,
      "loss": 2.162,
      "step": 17700
    },
    {
      "epoch": 0.6148107211937,
      "grad_norm": 0.30973371863365173,
      "learning_rate": 0.00041023295454545457,
      "loss": 2.1498,
      "step": 17800
    },
    {
      "epoch": 0.6182647140093949,
      "grad_norm": 0.30947718024253845,
      "learning_rate": 0.00040966477272727275,
      "loss": 2.1435,
      "step": 17900
    },
    {
      "epoch": 0.6217187068250898,
      "grad_norm": 0.34587281942367554,
      "learning_rate": 0.0004090965909090909,
      "loss": 2.1504,
      "step": 18000
    },
    {
      "epoch": 0.6217187068250898,
      "eval_loss": 2.484160900115967,
      "eval_runtime": 927.1891,
      "eval_samples_per_second": 164.343,
      "eval_steps_per_second": 1.028,
      "step": 18000
    },
    {
      "epoch": 0.6251726996407847,
      "grad_norm": 0.30945053696632385,
      "learning_rate": 0.0004085284090909091,
      "loss": 2.1545,
      "step": 18100
    },
    {
      "epoch": 0.6286266924564797,
      "grad_norm": 0.3018719255924225,
      "learning_rate": 0.0004079602272727273,
      "loss": 2.1439,
      "step": 18200
    },
    {
      "epoch": 0.6320806852721746,
      "grad_norm": 0.3113386332988739,
      "learning_rate": 0.0004073920454545454,
      "loss": 2.1225,
      "step": 18300
    },
    {
      "epoch": 0.6355346780878696,
      "grad_norm": 0.29737088084220886,
      "learning_rate": 0.00040682386363636365,
      "loss": 2.1286,
      "step": 18400
    },
    {
      "epoch": 0.6389886709035645,
      "grad_norm": 0.31960177421569824,
      "learning_rate": 0.00040625568181818183,
      "loss": 2.1249,
      "step": 18500
    },
    {
      "epoch": 0.6424426637192595,
      "grad_norm": 0.3072162866592407,
      "learning_rate": 0.00040568749999999996,
      "loss": 2.1348,
      "step": 18600
    },
    {
      "epoch": 0.6458966565349544,
      "grad_norm": 0.3196597397327423,
      "learning_rate": 0.0004051193181818182,
      "loss": 2.1408,
      "step": 18700
    },
    {
      "epoch": 0.6493506493506493,
      "grad_norm": 0.3315812051296234,
      "learning_rate": 0.0004045511363636364,
      "loss": 2.1439,
      "step": 18800
    },
    {
      "epoch": 0.6528046421663443,
      "grad_norm": 0.2933200001716614,
      "learning_rate": 0.0004039829545454545,
      "loss": 2.1465,
      "step": 18900
    },
    {
      "epoch": 0.6562586349820393,
      "grad_norm": 0.33558085560798645,
      "learning_rate": 0.00040341477272727274,
      "loss": 2.1416,
      "step": 19000
    },
    {
      "epoch": 0.6562586349820393,
      "eval_loss": 2.473646640777588,
      "eval_runtime": 926.9255,
      "eval_samples_per_second": 164.39,
      "eval_steps_per_second": 1.028,
      "step": 19000
    },
    {
      "epoch": 0.6597126277977342,
      "grad_norm": 0.2992997169494629,
      "learning_rate": 0.0004028465909090909,
      "loss": 2.1386,
      "step": 19100
    },
    {
      "epoch": 0.6631666206134291,
      "grad_norm": 0.3051714599132538,
      "learning_rate": 0.00040227840909090915,
      "loss": 2.1225,
      "step": 19200
    },
    {
      "epoch": 0.666620613429124,
      "grad_norm": 0.31724849343299866,
      "learning_rate": 0.0004017102272727273,
      "loss": 2.1174,
      "step": 19300
    },
    {
      "epoch": 0.670074606244819,
      "grad_norm": 0.2937643826007843,
      "learning_rate": 0.00040114204545454546,
      "loss": 2.1279,
      "step": 19400
    },
    {
      "epoch": 0.673528599060514,
      "grad_norm": 0.31908687949180603,
      "learning_rate": 0.0004005738636363637,
      "loss": 2.1151,
      "step": 19500
    },
    {
      "epoch": 0.6769825918762089,
      "grad_norm": 0.31399762630462646,
      "learning_rate": 0.0004000056818181818,
      "loss": 2.1378,
      "step": 19600
    },
    {
      "epoch": 0.6804365846919038,
      "grad_norm": 0.3157575726509094,
      "learning_rate": 0.0003994375,
      "loss": 2.1149,
      "step": 19700
    },
    {
      "epoch": 0.6838905775075987,
      "grad_norm": 0.32018882036209106,
      "learning_rate": 0.00039886931818181823,
      "loss": 2.0993,
      "step": 19800
    },
    {
      "epoch": 0.6873445703232938,
      "grad_norm": 0.31708574295043945,
      "learning_rate": 0.00039830113636363636,
      "loss": 2.1132,
      "step": 19900
    },
    {
      "epoch": 0.6907985631389887,
      "grad_norm": 0.2904827892780304,
      "learning_rate": 0.00039773295454545454,
      "loss": 2.1088,
      "step": 20000
    },
    {
      "epoch": 0.6907985631389887,
      "eval_loss": 2.4520211219787598,
      "eval_runtime": 926.891,
      "eval_samples_per_second": 164.396,
      "eval_steps_per_second": 1.028,
      "step": 20000
    },
    {
      "epoch": 0.6942525559546836,
      "grad_norm": 0.3298169672489166,
      "learning_rate": 0.0003971647727272728,
      "loss": 2.1177,
      "step": 20100
    },
    {
      "epoch": 0.6977065487703785,
      "grad_norm": 0.291166752576828,
      "learning_rate": 0.0003965965909090909,
      "loss": 2.0954,
      "step": 20200
    },
    {
      "epoch": 0.7011605415860735,
      "grad_norm": 0.3211086094379425,
      "learning_rate": 0.0003960284090909091,
      "loss": 2.1209,
      "step": 20300
    },
    {
      "epoch": 0.7046145344017685,
      "grad_norm": 0.3161545395851135,
      "learning_rate": 0.0003954602272727273,
      "loss": 2.1149,
      "step": 20400
    },
    {
      "epoch": 0.7080685272174634,
      "grad_norm": 0.3262562155723572,
      "learning_rate": 0.0003948920454545455,
      "loss": 2.1204,
      "step": 20500
    },
    {
      "epoch": 0.7115225200331583,
      "grad_norm": 0.3347005546092987,
      "learning_rate": 0.0003943238636363636,
      "loss": 2.104,
      "step": 20600
    },
    {
      "epoch": 0.7149765128488533,
      "grad_norm": 0.30474451184272766,
      "learning_rate": 0.00039375568181818186,
      "loss": 2.0955,
      "step": 20700
    },
    {
      "epoch": 0.7184305056645482,
      "grad_norm": 0.32672184705734253,
      "learning_rate": 0.00039318750000000004,
      "loss": 2.0998,
      "step": 20800
    },
    {
      "epoch": 0.7218844984802432,
      "grad_norm": 0.3041098713874817,
      "learning_rate": 0.00039261931818181816,
      "loss": 2.0897,
      "step": 20900
    },
    {
      "epoch": 0.7253384912959381,
      "grad_norm": 0.351904034614563,
      "learning_rate": 0.0003920511363636364,
      "loss": 2.0925,
      "step": 21000
    },
    {
      "epoch": 0.7253384912959381,
      "eval_loss": 2.4404454231262207,
      "eval_runtime": 927.0383,
      "eval_samples_per_second": 164.37,
      "eval_steps_per_second": 1.028,
      "step": 21000
    },
    {
      "epoch": 0.728792484111633,
      "grad_norm": 0.34308210015296936,
      "learning_rate": 0.0003914829545454546,
      "loss": 2.1039,
      "step": 21100
    },
    {
      "epoch": 0.732246476927328,
      "grad_norm": 0.3298318088054657,
      "learning_rate": 0.0003909147727272727,
      "loss": 2.0774,
      "step": 21200
    },
    {
      "epoch": 0.735700469743023,
      "grad_norm": 0.3102123737335205,
      "learning_rate": 0.00039034659090909094,
      "loss": 2.1111,
      "step": 21300
    },
    {
      "epoch": 0.7391544625587179,
      "grad_norm": 0.3186514973640442,
      "learning_rate": 0.0003897784090909091,
      "loss": 2.084,
      "step": 21400
    },
    {
      "epoch": 0.7426084553744128,
      "grad_norm": 0.31114721298217773,
      "learning_rate": 0.00038921022727272724,
      "loss": 2.1037,
      "step": 21500
    },
    {
      "epoch": 0.7460624481901078,
      "grad_norm": 0.330563485622406,
      "learning_rate": 0.0003886420454545455,
      "loss": 2.0831,
      "step": 21600
    },
    {
      "epoch": 0.7495164410058027,
      "grad_norm": 0.3088129460811615,
      "learning_rate": 0.00038807386363636366,
      "loss": 2.0914,
      "step": 21700
    },
    {
      "epoch": 0.7529704338214976,
      "grad_norm": 0.28733545541763306,
      "learning_rate": 0.0003875056818181818,
      "loss": 2.0955,
      "step": 21800
    },
    {
      "epoch": 0.7564244266371926,
      "grad_norm": 0.3190239667892456,
      "learning_rate": 0.0003869375,
      "loss": 2.0828,
      "step": 21900
    },
    {
      "epoch": 0.7598784194528876,
      "grad_norm": 0.3163771331310272,
      "learning_rate": 0.0003863693181818182,
      "loss": 2.0786,
      "step": 22000
    },
    {
      "epoch": 0.7598784194528876,
      "eval_loss": 2.4309139251708984,
      "eval_runtime": 926.6419,
      "eval_samples_per_second": 164.44,
      "eval_steps_per_second": 1.028,
      "step": 22000
    },
    {
      "epoch": 0.7633324122685825,
      "grad_norm": 0.2819238603115082,
      "learning_rate": 0.0003858011363636364,
      "loss": 2.092,
      "step": 22100
    },
    {
      "epoch": 0.7667864050842774,
      "grad_norm": 0.31991979479789734,
      "learning_rate": 0.00038523295454545456,
      "loss": 2.0628,
      "step": 22200
    },
    {
      "epoch": 0.7702403978999723,
      "grad_norm": 0.3094194233417511,
      "learning_rate": 0.00038466477272727274,
      "loss": 2.0826,
      "step": 22300
    },
    {
      "epoch": 0.7736943907156673,
      "grad_norm": 0.30959707498550415,
      "learning_rate": 0.0003840965909090909,
      "loss": 2.0858,
      "step": 22400
    },
    {
      "epoch": 0.7771483835313623,
      "grad_norm": 0.30589380860328674,
      "learning_rate": 0.0003835284090909091,
      "loss": 2.0864,
      "step": 22500
    },
    {
      "epoch": 0.7806023763470572,
      "grad_norm": 0.3400673270225525,
      "learning_rate": 0.0003829602272727273,
      "loss": 2.069,
      "step": 22600
    },
    {
      "epoch": 0.7840563691627521,
      "grad_norm": 0.3428845703601837,
      "learning_rate": 0.00038239204545454546,
      "loss": 2.0622,
      "step": 22700
    },
    {
      "epoch": 0.787510361978447,
      "grad_norm": 0.3274592459201813,
      "learning_rate": 0.00038182386363636364,
      "loss": 2.0714,
      "step": 22800
    },
    {
      "epoch": 0.7909643547941421,
      "grad_norm": 0.3281017243862152,
      "learning_rate": 0.0003812556818181818,
      "loss": 2.0856,
      "step": 22900
    },
    {
      "epoch": 0.794418347609837,
      "grad_norm": 0.32381513714790344,
      "learning_rate": 0.0003806875,
      "loss": 2.0687,
      "step": 23000
    },
    {
      "epoch": 0.794418347609837,
      "eval_loss": 2.416405439376831,
      "eval_runtime": 926.9677,
      "eval_samples_per_second": 164.382,
      "eval_steps_per_second": 1.028,
      "step": 23000
    },
    {
      "epoch": 0.7978723404255319,
      "grad_norm": 0.31997501850128174,
      "learning_rate": 0.0003801193181818182,
      "loss": 2.0923,
      "step": 23100
    },
    {
      "epoch": 0.8013263332412268,
      "grad_norm": 0.315775603055954,
      "learning_rate": 0.00037955113636363636,
      "loss": 2.0578,
      "step": 23200
    },
    {
      "epoch": 0.8047803260569218,
      "grad_norm": 0.3135242462158203,
      "learning_rate": 0.00037898295454545454,
      "loss": 2.0604,
      "step": 23300
    },
    {
      "epoch": 0.8082343188726168,
      "grad_norm": 0.33324697613716125,
      "learning_rate": 0.0003784147727272728,
      "loss": 2.0776,
      "step": 23400
    },
    {
      "epoch": 0.8116883116883117,
      "grad_norm": 0.3114740252494812,
      "learning_rate": 0.0003778465909090909,
      "loss": 2.0679,
      "step": 23500
    },
    {
      "epoch": 0.8151423045040066,
      "grad_norm": 0.37432342767715454,
      "learning_rate": 0.0003772784090909091,
      "loss": 2.0685,
      "step": 23600
    },
    {
      "epoch": 0.8185962973197016,
      "grad_norm": 0.31538712978363037,
      "learning_rate": 0.0003767102272727273,
      "loss": 2.0687,
      "step": 23700
    },
    {
      "epoch": 0.8220502901353965,
      "grad_norm": 0.3598659336566925,
      "learning_rate": 0.00037614204545454545,
      "loss": 2.0909,
      "step": 23800
    },
    {
      "epoch": 0.8255042829510915,
      "grad_norm": 0.3034459948539734,
      "learning_rate": 0.0003755738636363636,
      "loss": 2.0588,
      "step": 23900
    },
    {
      "epoch": 0.8289582757667864,
      "grad_norm": 0.3221229016780853,
      "learning_rate": 0.00037500568181818186,
      "loss": 2.0661,
      "step": 24000
    },
    {
      "epoch": 0.8289582757667864,
      "eval_loss": 2.4008617401123047,
      "eval_runtime": 927.2556,
      "eval_samples_per_second": 164.331,
      "eval_steps_per_second": 1.028,
      "step": 24000
    },
    {
      "epoch": 0.8324122685824813,
      "grad_norm": 0.3049459755420685,
      "learning_rate": 0.0003744375,
      "loss": 2.0428,
      "step": 24100
    },
    {
      "epoch": 0.8358662613981763,
      "grad_norm": 0.3034842908382416,
      "learning_rate": 0.00037386931818181817,
      "loss": 2.0639,
      "step": 24200
    },
    {
      "epoch": 0.8393202542138712,
      "grad_norm": 0.3170601427555084,
      "learning_rate": 0.0003733011363636364,
      "loss": 2.0606,
      "step": 24300
    },
    {
      "epoch": 0.8427742470295662,
      "grad_norm": 0.3232339918613434,
      "learning_rate": 0.00037273295454545453,
      "loss": 2.0394,
      "step": 24400
    },
    {
      "epoch": 0.8462282398452611,
      "grad_norm": 0.3366962671279907,
      "learning_rate": 0.0003721647727272727,
      "loss": 2.0415,
      "step": 24500
    },
    {
      "epoch": 0.8496822326609561,
      "grad_norm": 0.3091275095939636,
      "learning_rate": 0.00037159659090909094,
      "loss": 2.0789,
      "step": 24600
    },
    {
      "epoch": 0.853136225476651,
      "grad_norm": 0.3144051432609558,
      "learning_rate": 0.0003710284090909091,
      "loss": 2.059,
      "step": 24700
    },
    {
      "epoch": 0.8565902182923459,
      "grad_norm": 0.3365747332572937,
      "learning_rate": 0.00037046022727272725,
      "loss": 2.0388,
      "step": 24800
    },
    {
      "epoch": 0.8600442111080409,
      "grad_norm": 0.2965666949748993,
      "learning_rate": 0.0003698920454545455,
      "loss": 2.0576,
      "step": 24900
    },
    {
      "epoch": 0.8634982039237359,
      "grad_norm": 0.3322639465332031,
      "learning_rate": 0.00036932386363636366,
      "loss": 2.0633,
      "step": 25000
    },
    {
      "epoch": 0.8634982039237359,
      "eval_loss": 2.392946243286133,
      "eval_runtime": 926.5204,
      "eval_samples_per_second": 164.462,
      "eval_steps_per_second": 1.029,
      "step": 25000
    },
    {
      "epoch": 0.8669521967394308,
      "grad_norm": 0.3184923827648163,
      "learning_rate": 0.0003687556818181818,
      "loss": 2.0442,
      "step": 25100
    },
    {
      "epoch": 0.8704061895551257,
      "grad_norm": 0.30526450276374817,
      "learning_rate": 0.0003681875,
      "loss": 2.0364,
      "step": 25200
    },
    {
      "epoch": 0.8738601823708206,
      "grad_norm": 0.3035339117050171,
      "learning_rate": 0.0003676193181818182,
      "loss": 2.0399,
      "step": 25300
    },
    {
      "epoch": 0.8773141751865157,
      "grad_norm": 0.3300335705280304,
      "learning_rate": 0.00036705113636363633,
      "loss": 2.0388,
      "step": 25400
    },
    {
      "epoch": 0.8807681680022106,
      "grad_norm": 0.33707037568092346,
      "learning_rate": 0.00036648295454545457,
      "loss": 2.0364,
      "step": 25500
    },
    {
      "epoch": 0.8842221608179055,
      "grad_norm": 0.3057771623134613,
      "learning_rate": 0.00036591477272727275,
      "loss": 2.0377,
      "step": 25600
    },
    {
      "epoch": 0.8876761536336004,
      "grad_norm": 0.33993765711784363,
      "learning_rate": 0.00036534659090909087,
      "loss": 2.0485,
      "step": 25700
    },
    {
      "epoch": 0.8911301464492953,
      "grad_norm": 0.3075715899467468,
      "learning_rate": 0.0003647784090909091,
      "loss": 2.0256,
      "step": 25800
    },
    {
      "epoch": 0.8945841392649904,
      "grad_norm": 0.30490240454673767,
      "learning_rate": 0.0003642102272727273,
      "loss": 2.0489,
      "step": 25900
    },
    {
      "epoch": 0.8980381320806853,
      "grad_norm": 0.3403315246105194,
      "learning_rate": 0.00036364204545454547,
      "loss": 2.0476,
      "step": 26000
    },
    {
      "epoch": 0.8980381320806853,
      "eval_loss": 2.382169008255005,
      "eval_runtime": 932.2661,
      "eval_samples_per_second": 163.448,
      "eval_steps_per_second": 1.635,
      "step": 26000
    },
    {
      "epoch": 0.9014921248963802,
      "grad_norm": 0.31369808316230774,
      "learning_rate": 0.00036307386363636365,
      "loss": 2.0265,
      "step": 26100
    },
    {
      "epoch": 0.9049461177120751,
      "grad_norm": 0.30494198203086853,
      "learning_rate": 0.00036250568181818183,
      "loss": 2.0328,
      "step": 26200
    },
    {
      "epoch": 0.9084001105277701,
      "grad_norm": 0.2981790006160736,
      "learning_rate": 0.0003619375,
      "loss": 2.0196,
      "step": 26300
    },
    {
      "epoch": 0.9118541033434651,
      "grad_norm": 0.3235887587070465,
      "learning_rate": 0.0003613693181818182,
      "loss": 2.0224,
      "step": 26400
    },
    {
      "epoch": 0.91530809615916,
      "grad_norm": 0.32602986693382263,
      "learning_rate": 0.00036080113636363637,
      "loss": 2.0169,
      "step": 26500
    },
    {
      "epoch": 0.9187620889748549,
      "grad_norm": 0.3355056643486023,
      "learning_rate": 0.00036023295454545455,
      "loss": 2.0338,
      "step": 26600
    },
    {
      "epoch": 0.9222160817905499,
      "grad_norm": 0.3180111348628998,
      "learning_rate": 0.00035966477272727273,
      "loss": 2.0297,
      "step": 26700
    },
    {
      "epoch": 0.9256700746062448,
      "grad_norm": 0.2988349199295044,
      "learning_rate": 0.0003590965909090909,
      "loss": 2.0189,
      "step": 26800
    },
    {
      "epoch": 0.9291240674219398,
      "grad_norm": 0.30824485421180725,
      "learning_rate": 0.0003585284090909091,
      "loss": 2.0086,
      "step": 26900
    },
    {
      "epoch": 0.9325780602376347,
      "grad_norm": 0.33140483498573303,
      "learning_rate": 0.00035796022727272727,
      "loss": 2.0127,
      "step": 27000
    },
    {
      "epoch": 0.9325780602376347,
      "eval_loss": 2.3799469470977783,
      "eval_runtime": 931.9535,
      "eval_samples_per_second": 163.503,
      "eval_steps_per_second": 1.635,
      "step": 27000
    },
    {
      "epoch": 0.9360320530533297,
      "grad_norm": 0.31175485253334045,
      "learning_rate": 0.00035739204545454545,
      "loss": 2.027,
      "step": 27100
    },
    {
      "epoch": 0.9394860458690246,
      "grad_norm": 0.3109052777290344,
      "learning_rate": 0.00035682386363636363,
      "loss": 2.029,
      "step": 27200
    },
    {
      "epoch": 0.9429400386847195,
      "grad_norm": 0.3299388885498047,
      "learning_rate": 0.0003562556818181818,
      "loss": 2.0194,
      "step": 27300
    },
    {
      "epoch": 0.9463940315004145,
      "grad_norm": 0.35121017694473267,
      "learning_rate": 0.0003556875,
      "loss": 2.0158,
      "step": 27400
    },
    {
      "epoch": 0.9498480243161094,
      "grad_norm": 0.3052006959915161,
      "learning_rate": 0.00035511931818181817,
      "loss": 2.0109,
      "step": 27500
    },
    {
      "epoch": 0.9533020171318044,
      "grad_norm": 0.3126027584075928,
      "learning_rate": 0.0003545511363636364,
      "loss": 2.0215,
      "step": 27600
    },
    {
      "epoch": 0.9567560099474993,
      "grad_norm": 0.32444655895233154,
      "learning_rate": 0.00035398295454545453,
      "loss": 2.0108,
      "step": 27700
    },
    {
      "epoch": 0.9602100027631942,
      "grad_norm": 0.31381282210350037,
      "learning_rate": 0.0003534147727272727,
      "loss": 2.0151,
      "step": 27800
    },
    {
      "epoch": 0.9636639955788892,
      "grad_norm": 0.3093770444393158,
      "learning_rate": 0.00035284659090909095,
      "loss": 1.9959,
      "step": 27900
    },
    {
      "epoch": 0.9671179883945842,
      "grad_norm": 0.3137684762477875,
      "learning_rate": 0.0003522784090909091,
      "loss": 2.0223,
      "step": 28000
    },
    {
      "epoch": 0.9671179883945842,
      "eval_loss": 2.3616411685943604,
      "eval_runtime": 936.0723,
      "eval_samples_per_second": 162.783,
      "eval_steps_per_second": 1.628,
      "step": 28000
    },
    {
      "epoch": 0.9705719812102791,
      "grad_norm": 0.3130528926849365,
      "learning_rate": 0.00035171022727272725,
      "loss": 2.0078,
      "step": 28100
    },
    {
      "epoch": 0.974025974025974,
      "grad_norm": 0.33664995431900024,
      "learning_rate": 0.0003511420454545455,
      "loss": 2.0087,
      "step": 28200
    },
    {
      "epoch": 0.9774799668416689,
      "grad_norm": 0.32277122139930725,
      "learning_rate": 0.0003505738636363636,
      "loss": 2.0106,
      "step": 28300
    },
    {
      "epoch": 0.980933959657364,
      "grad_norm": 0.33459389209747314,
      "learning_rate": 0.0003500056818181818,
      "loss": 2.019,
      "step": 28400
    },
    {
      "epoch": 0.9843879524730589,
      "grad_norm": 0.31769075989723206,
      "learning_rate": 0.00034943750000000003,
      "loss": 2.0105,
      "step": 28500
    },
    {
      "epoch": 0.9878419452887538,
      "grad_norm": 0.3090764582157135,
      "learning_rate": 0.00034886931818181816,
      "loss": 2.0121,
      "step": 28600
    },
    {
      "epoch": 0.9912959381044487,
      "grad_norm": 0.3254571557044983,
      "learning_rate": 0.00034830113636363634,
      "loss": 2.0069,
      "step": 28700
    },
    {
      "epoch": 0.9947499309201436,
      "grad_norm": 0.3087945878505707,
      "learning_rate": 0.00034773295454545457,
      "loss": 1.9956,
      "step": 28800
    },
    {
      "epoch": 0.9982039237358387,
      "grad_norm": 0.2959256172180176,
      "learning_rate": 0.00034716477272727275,
      "loss": 2.0202,
      "step": 28900
    },
    {
      "epoch": 1.0016579165515336,
      "grad_norm": 0.3626255691051483,
      "learning_rate": 0.0003465965909090909,
      "loss": 1.9733,
      "step": 29000
    },
    {
      "epoch": 1.0016579165515336,
      "eval_loss": 2.3518831729888916,
      "eval_runtime": 933.6764,
      "eval_samples_per_second": 163.201,
      "eval_steps_per_second": 1.632,
      "step": 29000
    },
    {
      "epoch": 1.0051119093672285,
      "grad_norm": 0.3299137353897095,
      "learning_rate": 0.0003460284090909091,
      "loss": 1.9406,
      "step": 29100
    },
    {
      "epoch": 1.0085659021829234,
      "grad_norm": 0.3189757168292999,
      "learning_rate": 0.0003454602272727273,
      "loss": 1.9547,
      "step": 29200
    },
    {
      "epoch": 1.0120198949986183,
      "grad_norm": 0.33895236253738403,
      "learning_rate": 0.0003448920454545454,
      "loss": 1.9462,
      "step": 29300
    },
    {
      "epoch": 1.0154738878143132,
      "grad_norm": 0.3329538106918335,
      "learning_rate": 0.00034432386363636365,
      "loss": 1.9445,
      "step": 29400
    },
    {
      "epoch": 1.0189278806300084,
      "grad_norm": 0.33972305059432983,
      "learning_rate": 0.00034375568181818183,
      "loss": 1.9482,
      "step": 29500
    },
    {
      "epoch": 1.0223818734457033,
      "grad_norm": 0.3170960545539856,
      "learning_rate": 0.00034318749999999996,
      "loss": 1.9322,
      "step": 29600
    },
    {
      "epoch": 1.0258358662613982,
      "grad_norm": 0.3435528576374054,
      "learning_rate": 0.0003426193181818182,
      "loss": 1.9651,
      "step": 29700
    },
    {
      "epoch": 1.0292898590770931,
      "grad_norm": 0.3118680715560913,
      "learning_rate": 0.0003420511363636364,
      "loss": 1.9553,
      "step": 29800
    },
    {
      "epoch": 1.032743851892788,
      "grad_norm": 0.30952584743499756,
      "learning_rate": 0.0003414829545454545,
      "loss": 1.9594,
      "step": 29900
    },
    {
      "epoch": 1.036197844708483,
      "grad_norm": 0.3205563724040985,
      "learning_rate": 0.00034091477272727274,
      "loss": 1.951,
      "step": 30000
    },
    {
      "epoch": 1.036197844708483,
      "eval_loss": 2.3421385288238525,
      "eval_runtime": 931.9003,
      "eval_samples_per_second": 163.512,
      "eval_steps_per_second": 1.635,
      "step": 30000
    },
    {
      "epoch": 1.039651837524178,
      "grad_norm": 0.3193325400352478,
      "learning_rate": 0.0003403465909090909,
      "loss": 1.9781,
      "step": 30100
    },
    {
      "epoch": 1.0431058303398728,
      "grad_norm": 0.3476419448852539,
      "learning_rate": 0.00033977840909090915,
      "loss": 1.9804,
      "step": 30200
    },
    {
      "epoch": 1.046559823155568,
      "grad_norm": 0.334945946931839,
      "learning_rate": 0.0003392102272727273,
      "loss": 1.9956,
      "step": 30300
    },
    {
      "epoch": 1.0500138159712629,
      "grad_norm": 0.3205523192882538,
      "learning_rate": 0.00033864204545454546,
      "loss": 1.9738,
      "step": 30400
    },
    {
      "epoch": 1.0534678087869578,
      "grad_norm": 0.3324650824069977,
      "learning_rate": 0.0003380738636363637,
      "loss": 1.9851,
      "step": 30500
    },
    {
      "epoch": 1.0569218016026527,
      "grad_norm": 0.3181789815425873,
      "learning_rate": 0.0003375056818181818,
      "loss": 1.9993,
      "step": 30600
    },
    {
      "epoch": 1.0603757944183476,
      "grad_norm": 0.3182109594345093,
      "learning_rate": 0.0003369375,
      "loss": 1.9808,
      "step": 30700
    },
    {
      "epoch": 1.0638297872340425,
      "grad_norm": 0.3040473163127899,
      "learning_rate": 0.00033636931818181823,
      "loss": 1.9697,
      "step": 30800
    },
    {
      "epoch": 1.0672837800497375,
      "grad_norm": 0.3187369108200073,
      "learning_rate": 0.00033580113636363636,
      "loss": 1.9668,
      "step": 30900
    },
    {
      "epoch": 1.0707377728654324,
      "grad_norm": 0.31757599115371704,
      "learning_rate": 0.00033523295454545454,
      "loss": 1.9797,
      "step": 31000
    },
    {
      "epoch": 1.0707377728654324,
      "eval_loss": 2.334416151046753,
      "eval_runtime": 932.4289,
      "eval_samples_per_second": 163.419,
      "eval_steps_per_second": 1.634,
      "step": 31000
    },
    {
      "epoch": 1.0741917656811273,
      "grad_norm": 0.3234330713748932,
      "learning_rate": 0.0003346647727272728,
      "loss": 1.9646,
      "step": 31100
    },
    {
      "epoch": 1.0776457584968224,
      "grad_norm": 0.346343457698822,
      "learning_rate": 0.0003340965909090909,
      "loss": 1.9633,
      "step": 31200
    },
    {
      "epoch": 1.0810997513125173,
      "grad_norm": 0.33652421832084656,
      "learning_rate": 0.0003335284090909091,
      "loss": 1.9635,
      "step": 31300
    },
    {
      "epoch": 1.0845537441282123,
      "grad_norm": 0.3355984091758728,
      "learning_rate": 0.0003329602272727273,
      "loss": 1.9714,
      "step": 31400
    },
    {
      "epoch": 1.0880077369439072,
      "grad_norm": 0.3155532479286194,
      "learning_rate": 0.0003323920454545455,
      "loss": 1.9579,
      "step": 31500
    },
    {
      "epoch": 1.091461729759602,
      "grad_norm": 0.3124435842037201,
      "learning_rate": 0.0003318238636363636,
      "loss": 1.9896,
      "step": 31600
    },
    {
      "epoch": 1.094915722575297,
      "grad_norm": 0.3473125100135803,
      "learning_rate": 0.00033125568181818185,
      "loss": 1.9604,
      "step": 31700
    },
    {
      "epoch": 1.098369715390992,
      "grad_norm": 0.33051636815071106,
      "learning_rate": 0.00033068750000000004,
      "loss": 1.9703,
      "step": 31800
    },
    {
      "epoch": 1.1018237082066868,
      "grad_norm": 0.3092711865901947,
      "learning_rate": 0.00033011931818181816,
      "loss": 1.9583,
      "step": 31900
    },
    {
      "epoch": 1.105277701022382,
      "grad_norm": 0.32419732213020325,
      "learning_rate": 0.0003295511363636364,
      "loss": 1.9603,
      "step": 32000
    },
    {
      "epoch": 1.105277701022382,
      "eval_loss": 2.3255245685577393,
      "eval_runtime": 932.6931,
      "eval_samples_per_second": 163.373,
      "eval_steps_per_second": 1.634,
      "step": 32000
    },
    {
      "epoch": 1.108731693838077,
      "grad_norm": 0.332787424325943,
      "learning_rate": 0.0003289829545454546,
      "loss": 1.992,
      "step": 32100
    },
    {
      "epoch": 1.1121856866537718,
      "grad_norm": 0.3273712992668152,
      "learning_rate": 0.0003284147727272727,
      "loss": 1.9632,
      "step": 32200
    },
    {
      "epoch": 1.1156396794694667,
      "grad_norm": 0.32147789001464844,
      "learning_rate": 0.00032784659090909094,
      "loss": 1.9838,
      "step": 32300
    },
    {
      "epoch": 1.1190936722851617,
      "grad_norm": 0.3235771358013153,
      "learning_rate": 0.0003272784090909091,
      "loss": 1.9594,
      "step": 32400
    },
    {
      "epoch": 1.1225476651008566,
      "grad_norm": 0.31604549288749695,
      "learning_rate": 0.00032671022727272724,
      "loss": 1.9716,
      "step": 32500
    },
    {
      "epoch": 1.1260016579165515,
      "grad_norm": 0.3200394809246063,
      "learning_rate": 0.0003261420454545455,
      "loss": 1.9598,
      "step": 32600
    },
    {
      "epoch": 1.1294556507322464,
      "grad_norm": 0.31569093465805054,
      "learning_rate": 0.00032557386363636366,
      "loss": 1.9598,
      "step": 32700
    },
    {
      "epoch": 1.1329096435479413,
      "grad_norm": 0.3108920753002167,
      "learning_rate": 0.0003250056818181818,
      "loss": 1.9333,
      "step": 32800
    },
    {
      "epoch": 1.1363636363636362,
      "grad_norm": 0.31714916229248047,
      "learning_rate": 0.0003244375,
      "loss": 1.9665,
      "step": 32900
    },
    {
      "epoch": 1.1398176291793314,
      "grad_norm": 0.3428919017314911,
      "learning_rate": 0.0003238693181818182,
      "loss": 1.9367,
      "step": 33000
    },
    {
      "epoch": 1.1398176291793314,
      "eval_loss": 2.314099073410034,
      "eval_runtime": 933.8501,
      "eval_samples_per_second": 163.171,
      "eval_steps_per_second": 1.632,
      "step": 33000
    },
    {
      "epoch": 1.1432716219950263,
      "grad_norm": 0.31503021717071533,
      "learning_rate": 0.0003233011363636364,
      "loss": 1.952,
      "step": 33100
    },
    {
      "epoch": 1.1467256148107212,
      "grad_norm": 0.3151177763938904,
      "learning_rate": 0.00032273295454545456,
      "loss": 1.9711,
      "step": 33200
    },
    {
      "epoch": 1.1501796076264161,
      "grad_norm": 0.33299991488456726,
      "learning_rate": 0.00032216477272727274,
      "loss": 1.966,
      "step": 33300
    },
    {
      "epoch": 1.153633600442111,
      "grad_norm": 0.35912394523620605,
      "learning_rate": 0.0003215965909090909,
      "loss": 1.9345,
      "step": 33400
    },
    {
      "epoch": 1.157087593257806,
      "grad_norm": 0.3316855728626251,
      "learning_rate": 0.0003210284090909091,
      "loss": 1.9473,
      "step": 33500
    },
    {
      "epoch": 1.1605415860735009,
      "grad_norm": 0.32025349140167236,
      "learning_rate": 0.0003204602272727273,
      "loss": 1.9512,
      "step": 33600
    },
    {
      "epoch": 1.163995578889196,
      "grad_norm": 0.31566309928894043,
      "learning_rate": 0.00031989204545454546,
      "loss": 1.9451,
      "step": 33700
    },
    {
      "epoch": 1.167449571704891,
      "grad_norm": 0.32200607657432556,
      "learning_rate": 0.00031932386363636364,
      "loss": 1.9382,
      "step": 33800
    },
    {
      "epoch": 1.1709035645205859,
      "grad_norm": 0.3362364172935486,
      "learning_rate": 0.0003187556818181818,
      "loss": 1.9504,
      "step": 33900
    },
    {
      "epoch": 1.1743575573362808,
      "grad_norm": 0.3156588077545166,
      "learning_rate": 0.0003181875,
      "loss": 1.9488,
      "step": 34000
    },
    {
      "epoch": 1.1743575573362808,
      "eval_loss": 2.308772563934326,
      "eval_runtime": 932.5965,
      "eval_samples_per_second": 163.39,
      "eval_steps_per_second": 1.634,
      "step": 34000
    },
    {
      "epoch": 1.1778115501519757,
      "grad_norm": 0.3278816342353821,
      "learning_rate": 0.0003176193181818182,
      "loss": 1.9547,
      "step": 34100
    },
    {
      "epoch": 1.1812655429676706,
      "grad_norm": 0.3398403227329254,
      "learning_rate": 0.00031705113636363636,
      "loss": 1.9293,
      "step": 34200
    },
    {
      "epoch": 1.1847195357833655,
      "grad_norm": 0.34434807300567627,
      "learning_rate": 0.00031648295454545454,
      "loss": 1.9497,
      "step": 34300
    },
    {
      "epoch": 1.1881735285990604,
      "grad_norm": 0.33737897872924805,
      "learning_rate": 0.0003159147727272728,
      "loss": 1.9471,
      "step": 34400
    },
    {
      "epoch": 1.1916275214147554,
      "grad_norm": 0.3157757520675659,
      "learning_rate": 0.0003153465909090909,
      "loss": 1.9395,
      "step": 34500
    },
    {
      "epoch": 1.1950815142304503,
      "grad_norm": 0.3554360866546631,
      "learning_rate": 0.0003147784090909091,
      "loss": 1.9589,
      "step": 34600
    },
    {
      "epoch": 1.1985355070461454,
      "grad_norm": 0.31714192032814026,
      "learning_rate": 0.0003142102272727273,
      "loss": 1.9382,
      "step": 34700
    },
    {
      "epoch": 1.2019894998618403,
      "grad_norm": 0.3395540416240692,
      "learning_rate": 0.00031364204545454545,
      "loss": 1.9245,
      "step": 34800
    },
    {
      "epoch": 1.2054434926775353,
      "grad_norm": 0.38380250334739685,
      "learning_rate": 0.0003130738636363636,
      "loss": 1.9379,
      "step": 34900
    },
    {
      "epoch": 1.2088974854932302,
      "grad_norm": 0.3237415552139282,
      "learning_rate": 0.00031250568181818186,
      "loss": 1.9433,
      "step": 35000
    },
    {
      "epoch": 1.2088974854932302,
      "eval_loss": 2.299807548522949,
      "eval_runtime": 932.2028,
      "eval_samples_per_second": 163.459,
      "eval_steps_per_second": 1.635,
      "step": 35000
    },
    {
      "epoch": 1.212351478308925,
      "grad_norm": 0.3568110764026642,
      "learning_rate": 0.0003119375,
      "loss": 1.9359,
      "step": 35100
    },
    {
      "epoch": 1.21580547112462,
      "grad_norm": 0.3228346109390259,
      "learning_rate": 0.00031136931818181817,
      "loss": 1.9398,
      "step": 35200
    },
    {
      "epoch": 1.219259463940315,
      "grad_norm": 0.4409060478210449,
      "learning_rate": 0.0003108011363636364,
      "loss": 1.9271,
      "step": 35300
    },
    {
      "epoch": 1.22271345675601,
      "grad_norm": 0.3323960602283478,
      "learning_rate": 0.0003102329545454545,
      "loss": 1.9351,
      "step": 35400
    },
    {
      "epoch": 1.226167449571705,
      "grad_norm": 0.33286628127098083,
      "learning_rate": 0.0003096647727272727,
      "loss": 1.9261,
      "step": 35500
    },
    {
      "epoch": 1.2296214423874,
      "grad_norm": 0.32433241605758667,
      "learning_rate": 0.00030909659090909094,
      "loss": 1.9235,
      "step": 35600
    },
    {
      "epoch": 1.2330754352030948,
      "grad_norm": 0.33505016565322876,
      "learning_rate": 0.0003085284090909091,
      "loss": 1.9463,
      "step": 35700
    },
    {
      "epoch": 1.2365294280187897,
      "grad_norm": 0.33028197288513184,
      "learning_rate": 0.00030796022727272725,
      "loss": 1.9425,
      "step": 35800
    },
    {
      "epoch": 1.2399834208344847,
      "grad_norm": 0.32460519671440125,
      "learning_rate": 0.0003073920454545455,
      "loss": 1.9237,
      "step": 35900
    },
    {
      "epoch": 1.2434374136501796,
      "grad_norm": 0.34961310029029846,
      "learning_rate": 0.00030682386363636366,
      "loss": 1.927,
      "step": 36000
    },
    {
      "epoch": 1.2434374136501796,
      "eval_loss": 2.2926623821258545,
      "eval_runtime": 933.7737,
      "eval_samples_per_second": 163.184,
      "eval_steps_per_second": 1.632,
      "step": 36000
    },
    {
      "epoch": 1.2468914064658745,
      "grad_norm": 0.3421266973018646,
      "learning_rate": 0.0003062556818181818,
      "loss": 1.9172,
      "step": 36100
    },
    {
      "epoch": 1.2503453992815694,
      "grad_norm": 0.31496691703796387,
      "learning_rate": 0.0003056875,
      "loss": 1.9283,
      "step": 36200
    },
    {
      "epoch": 1.2537993920972643,
      "grad_norm": 0.3333700895309448,
      "learning_rate": 0.0003051193181818182,
      "loss": 1.9083,
      "step": 36300
    },
    {
      "epoch": 1.2572533849129595,
      "grad_norm": 0.33785733580589294,
      "learning_rate": 0.00030455113636363633,
      "loss": 1.9364,
      "step": 36400
    },
    {
      "epoch": 1.2607073777286544,
      "grad_norm": 0.3140362799167633,
      "learning_rate": 0.00030398295454545456,
      "loss": 1.9202,
      "step": 36500
    },
    {
      "epoch": 1.2641613705443493,
      "grad_norm": 0.332356721162796,
      "learning_rate": 0.00030341477272727275,
      "loss": 1.9219,
      "step": 36600
    },
    {
      "epoch": 1.2676153633600442,
      "grad_norm": 0.30988287925720215,
      "learning_rate": 0.00030284659090909087,
      "loss": 1.9247,
      "step": 36700
    },
    {
      "epoch": 1.2710693561757391,
      "grad_norm": 0.3257978856563568,
      "learning_rate": 0.0003022784090909091,
      "loss": 1.9274,
      "step": 36800
    },
    {
      "epoch": 1.274523348991434,
      "grad_norm": 0.3108922243118286,
      "learning_rate": 0.0003017102272727273,
      "loss": 1.9182,
      "step": 36900
    },
    {
      "epoch": 1.277977341807129,
      "grad_norm": 0.32838690280914307,
      "learning_rate": 0.00030114204545454547,
      "loss": 1.921,
      "step": 37000
    },
    {
      "epoch": 1.277977341807129,
      "eval_loss": 2.28013014793396,
      "eval_runtime": 932.9674,
      "eval_samples_per_second": 163.325,
      "eval_steps_per_second": 1.633,
      "step": 37000
    },
    {
      "epoch": 1.281431334622824,
      "grad_norm": 0.33043205738067627,
      "learning_rate": 0.00030057386363636365,
      "loss": 1.9282,
      "step": 37100
    },
    {
      "epoch": 1.284885327438519,
      "grad_norm": 0.3355056047439575,
      "learning_rate": 0.00030000568181818183,
      "loss": 1.9146,
      "step": 37200
    },
    {
      "epoch": 1.288339320254214,
      "grad_norm": 0.34499314427375793,
      "learning_rate": 0.0002994375,
      "loss": 1.9121,
      "step": 37300
    },
    {
      "epoch": 1.2917933130699089,
      "grad_norm": 0.33857813477516174,
      "learning_rate": 0.0002988693181818182,
      "loss": 1.906,
      "step": 37400
    },
    {
      "epoch": 1.2952473058856038,
      "grad_norm": 0.34451091289520264,
      "learning_rate": 0.00029830113636363637,
      "loss": 1.9069,
      "step": 37500
    },
    {
      "epoch": 1.2987012987012987,
      "grad_norm": 0.31819987297058105,
      "learning_rate": 0.00029773295454545455,
      "loss": 1.905,
      "step": 37600
    },
    {
      "epoch": 1.3021552915169936,
      "grad_norm": 0.32892873883247375,
      "learning_rate": 0.00029716477272727273,
      "loss": 1.9358,
      "step": 37700
    },
    {
      "epoch": 1.3056092843326885,
      "grad_norm": 0.3139948844909668,
      "learning_rate": 0.0002965965909090909,
      "loss": 1.917,
      "step": 37800
    },
    {
      "epoch": 1.3090632771483834,
      "grad_norm": 0.3358207046985626,
      "learning_rate": 0.0002960284090909091,
      "loss": 1.8979,
      "step": 37900
    },
    {
      "epoch": 1.3125172699640784,
      "grad_norm": 0.3274485468864441,
      "learning_rate": 0.00029546022727272727,
      "loss": 1.9147,
      "step": 38000
    },
    {
      "epoch": 1.3125172699640784,
      "eval_loss": 2.2716429233551025,
      "eval_runtime": 932.4022,
      "eval_samples_per_second": 163.424,
      "eval_steps_per_second": 1.634,
      "step": 38000
    },
    {
      "epoch": 1.3159712627797735,
      "grad_norm": 0.3326353430747986,
      "learning_rate": 0.00029489204545454545,
      "loss": 1.9151,
      "step": 38100
    },
    {
      "epoch": 1.3194252555954684,
      "grad_norm": 0.33048099279403687,
      "learning_rate": 0.00029432386363636363,
      "loss": 1.9003,
      "step": 38200
    },
    {
      "epoch": 1.3228792484111633,
      "grad_norm": 0.3198449909687042,
      "learning_rate": 0.0002937556818181818,
      "loss": 1.9012,
      "step": 38300
    },
    {
      "epoch": 1.3263332412268583,
      "grad_norm": 0.3347759246826172,
      "learning_rate": 0.0002931875,
      "loss": 1.889,
      "step": 38400
    },
    {
      "epoch": 1.3297872340425532,
      "grad_norm": 0.344235360622406,
      "learning_rate": 0.00029261931818181817,
      "loss": 1.9096,
      "step": 38500
    },
    {
      "epoch": 1.333241226858248,
      "grad_norm": 0.34197336435317993,
      "learning_rate": 0.0002920511363636364,
      "loss": 1.9083,
      "step": 38600
    },
    {
      "epoch": 1.336695219673943,
      "grad_norm": 0.3257678747177124,
      "learning_rate": 0.00029148295454545453,
      "loss": 1.9007,
      "step": 38700
    },
    {
      "epoch": 1.3401492124896381,
      "grad_norm": 0.3299179971218109,
      "learning_rate": 0.0002909147727272727,
      "loss": 1.8992,
      "step": 38800
    },
    {
      "epoch": 1.343603205305333,
      "grad_norm": 0.32206007838249207,
      "learning_rate": 0.00029034659090909095,
      "loss": 1.8853,
      "step": 38900
    },
    {
      "epoch": 1.347057198121028,
      "grad_norm": 0.3281271159648895,
      "learning_rate": 0.0002897784090909091,
      "loss": 1.9075,
      "step": 39000
    },
    {
      "epoch": 1.347057198121028,
      "eval_loss": 2.266144275665283,
      "eval_runtime": 933.0379,
      "eval_samples_per_second": 163.313,
      "eval_steps_per_second": 1.633,
      "step": 39000
    },
    {
      "epoch": 1.350511190936723,
      "grad_norm": 0.32982590794563293,
      "learning_rate": 0.00028921022727272725,
      "loss": 1.9255,
      "step": 39100
    },
    {
      "epoch": 1.3539651837524178,
      "grad_norm": 0.33906838297843933,
      "learning_rate": 0.0002886420454545455,
      "loss": 1.9119,
      "step": 39200
    },
    {
      "epoch": 1.3574191765681127,
      "grad_norm": 0.32768332958221436,
      "learning_rate": 0.0002880738636363636,
      "loss": 1.8838,
      "step": 39300
    },
    {
      "epoch": 1.3608731693838076,
      "grad_norm": 0.3550179600715637,
      "learning_rate": 0.0002875056818181818,
      "loss": 1.8889,
      "step": 39400
    },
    {
      "epoch": 1.3643271621995026,
      "grad_norm": 0.32649099826812744,
      "learning_rate": 0.00028693750000000003,
      "loss": 1.8983,
      "step": 39500
    },
    {
      "epoch": 1.3677811550151975,
      "grad_norm": 0.33756542205810547,
      "learning_rate": 0.00028636931818181816,
      "loss": 1.8982,
      "step": 39600
    },
    {
      "epoch": 1.3712351478308924,
      "grad_norm": 0.3554450571537018,
      "learning_rate": 0.00028580113636363634,
      "loss": 1.8831,
      "step": 39700
    },
    {
      "epoch": 1.3746891406465875,
      "grad_norm": 0.3348751962184906,
      "learning_rate": 0.00028523295454545457,
      "loss": 1.9022,
      "step": 39800
    },
    {
      "epoch": 1.3781431334622825,
      "grad_norm": 0.3384929895401001,
      "learning_rate": 0.00028466477272727275,
      "loss": 1.8973,
      "step": 39900
    },
    {
      "epoch": 1.3815971262779774,
      "grad_norm": 0.3346748352050781,
      "learning_rate": 0.0002840965909090909,
      "loss": 1.897,
      "step": 40000
    },
    {
      "epoch": 1.3815971262779774,
      "eval_loss": 2.258094072341919,
      "eval_runtime": 932.2639,
      "eval_samples_per_second": 163.448,
      "eval_steps_per_second": 1.635,
      "step": 40000
    },
    {
      "epoch": 1.3850511190936723,
      "grad_norm": 0.3488174378871918,
      "learning_rate": 0.0002835284090909091,
      "loss": 1.899,
      "step": 40100
    },
    {
      "epoch": 1.3885051119093672,
      "grad_norm": 0.357048898935318,
      "learning_rate": 0.0002829602272727273,
      "loss": 1.8874,
      "step": 40200
    },
    {
      "epoch": 1.3919591047250621,
      "grad_norm": 0.34619608521461487,
      "learning_rate": 0.0002823920454545454,
      "loss": 1.8971,
      "step": 40300
    },
    {
      "epoch": 1.395413097540757,
      "grad_norm": 0.3450053930282593,
      "learning_rate": 0.00028182386363636365,
      "loss": 1.8951,
      "step": 40400
    },
    {
      "epoch": 1.3988670903564522,
      "grad_norm": 0.3244158923625946,
      "learning_rate": 0.00028125568181818183,
      "loss": 1.887,
      "step": 40500
    },
    {
      "epoch": 1.402321083172147,
      "grad_norm": 0.36656075716018677,
      "learning_rate": 0.00028068749999999996,
      "loss": 1.8961,
      "step": 40600
    },
    {
      "epoch": 1.405775075987842,
      "grad_norm": 0.3427944481372833,
      "learning_rate": 0.0002801193181818182,
      "loss": 1.8801,
      "step": 40700
    },
    {
      "epoch": 1.409229068803537,
      "grad_norm": 0.3511246144771576,
      "learning_rate": 0.0002795511363636364,
      "loss": 1.8856,
      "step": 40800
    },
    {
      "epoch": 1.4126830616192319,
      "grad_norm": 0.34178775548934937,
      "learning_rate": 0.0002789829545454545,
      "loss": 1.8888,
      "step": 40900
    },
    {
      "epoch": 1.4161370544349268,
      "grad_norm": 0.35453692078590393,
      "learning_rate": 0.00027841477272727273,
      "loss": 1.8867,
      "step": 41000
    },
    {
      "epoch": 1.4161370544349268,
      "eval_loss": 2.2483203411102295,
      "eval_runtime": 932.6422,
      "eval_samples_per_second": 163.382,
      "eval_steps_per_second": 1.634,
      "step": 41000
    },
    {
      "epoch": 1.4195910472506217,
      "grad_norm": 0.38095447421073914,
      "learning_rate": 0.0002778465909090909,
      "loss": 1.8847,
      "step": 41100
    },
    {
      "epoch": 1.4230450400663166,
      "grad_norm": 0.3299073576927185,
      "learning_rate": 0.00027727840909090915,
      "loss": 1.8848,
      "step": 41200
    },
    {
      "epoch": 1.4264990328820115,
      "grad_norm": 0.3188841640949249,
      "learning_rate": 0.0002767102272727273,
      "loss": 1.9009,
      "step": 41300
    },
    {
      "epoch": 1.4299530256977064,
      "grad_norm": 0.3500712811946869,
      "learning_rate": 0.00027614204545454546,
      "loss": 1.885,
      "step": 41400
    },
    {
      "epoch": 1.4334070185134014,
      "grad_norm": 0.34655386209487915,
      "learning_rate": 0.0002755738636363637,
      "loss": 1.8862,
      "step": 41500
    },
    {
      "epoch": 1.4368610113290965,
      "grad_norm": 0.34666162729263306,
      "learning_rate": 0.0002750056818181818,
      "loss": 1.8859,
      "step": 41600
    },
    {
      "epoch": 1.4403150041447914,
      "grad_norm": 0.3630838692188263,
      "learning_rate": 0.0002744375,
      "loss": 1.8796,
      "step": 41700
    },
    {
      "epoch": 1.4437689969604863,
      "grad_norm": 0.40710654854774475,
      "learning_rate": 0.00027386931818181823,
      "loss": 1.8822,
      "step": 41800
    },
    {
      "epoch": 1.4472229897761812,
      "grad_norm": 0.33801448345184326,
      "learning_rate": 0.00027330113636363636,
      "loss": 1.8788,
      "step": 41900
    },
    {
      "epoch": 1.4506769825918762,
      "grad_norm": 0.3448280692100525,
      "learning_rate": 0.00027273295454545454,
      "loss": 1.8685,
      "step": 42000
    },
    {
      "epoch": 1.4506769825918762,
      "eval_loss": 2.24458909034729,
      "eval_runtime": 932.8306,
      "eval_samples_per_second": 163.349,
      "eval_steps_per_second": 1.634,
      "step": 42000
    },
    {
      "epoch": 1.454130975407571,
      "grad_norm": 0.35361775755882263,
      "learning_rate": 0.00027216477272727277,
      "loss": 1.8657,
      "step": 42100
    },
    {
      "epoch": 1.4575849682232662,
      "grad_norm": 0.3468896448612213,
      "learning_rate": 0.0002715965909090909,
      "loss": 1.8701,
      "step": 42200
    },
    {
      "epoch": 1.4610389610389611,
      "grad_norm": 0.3501305878162384,
      "learning_rate": 0.0002710284090909091,
      "loss": 1.8729,
      "step": 42300
    },
    {
      "epoch": 1.464492953854656,
      "grad_norm": 0.3370625078678131,
      "learning_rate": 0.0002704602272727273,
      "loss": 1.8723,
      "step": 42400
    },
    {
      "epoch": 1.467946946670351,
      "grad_norm": 0.33096930384635925,
      "learning_rate": 0.0002698920454545455,
      "loss": 1.8642,
      "step": 42500
    },
    {
      "epoch": 1.471400939486046,
      "grad_norm": 0.3265809118747711,
      "learning_rate": 0.0002693238636363636,
      "loss": 1.8757,
      "step": 42600
    },
    {
      "epoch": 1.4748549323017408,
      "grad_norm": 0.3586813509464264,
      "learning_rate": 0.00026875568181818185,
      "loss": 1.8639,
      "step": 42700
    },
    {
      "epoch": 1.4783089251174357,
      "grad_norm": 0.3498245179653168,
      "learning_rate": 0.00026818750000000003,
      "loss": 1.888,
      "step": 42800
    },
    {
      "epoch": 1.4817629179331306,
      "grad_norm": 0.34165388345718384,
      "learning_rate": 0.00026761931818181816,
      "loss": 1.8644,
      "step": 42900
    },
    {
      "epoch": 1.4852169107488256,
      "grad_norm": 0.32099393010139465,
      "learning_rate": 0.0002670511363636364,
      "loss": 1.8747,
      "step": 43000
    },
    {
      "epoch": 1.4852169107488256,
      "eval_loss": 2.237309455871582,
      "eval_runtime": 932.7872,
      "eval_samples_per_second": 163.357,
      "eval_steps_per_second": 1.634,
      "step": 43000
    },
    {
      "epoch": 1.4886709035645205,
      "grad_norm": 0.4318270981311798,
      "learning_rate": 0.0002664829545454546,
      "loss": 1.8684,
      "step": 43100
    },
    {
      "epoch": 1.4921248963802154,
      "grad_norm": 0.34946203231811523,
      "learning_rate": 0.0002659147727272727,
      "loss": 1.8813,
      "step": 43200
    },
    {
      "epoch": 1.4955788891959105,
      "grad_norm": 0.33623960614204407,
      "learning_rate": 0.00026534659090909094,
      "loss": 1.8566,
      "step": 43300
    },
    {
      "epoch": 1.4990328820116054,
      "grad_norm": 0.3431924283504486,
      "learning_rate": 0.0002647784090909091,
      "loss": 1.8555,
      "step": 43400
    },
    {
      "epoch": 1.5024868748273004,
      "grad_norm": 0.3669569492340088,
      "learning_rate": 0.00026421022727272724,
      "loss": 1.8656,
      "step": 43500
    },
    {
      "epoch": 1.5059408676429953,
      "grad_norm": 0.3411414623260498,
      "learning_rate": 0.0002636420454545455,
      "loss": 1.8533,
      "step": 43600
    },
    {
      "epoch": 1.5093948604586902,
      "grad_norm": 0.348023384809494,
      "learning_rate": 0.00026307386363636366,
      "loss": 1.8583,
      "step": 43700
    },
    {
      "epoch": 1.5128488532743853,
      "grad_norm": 0.3822565972805023,
      "learning_rate": 0.0002625056818181818,
      "loss": 1.8669,
      "step": 43800
    },
    {
      "epoch": 1.5163028460900803,
      "grad_norm": 0.34821194410324097,
      "learning_rate": 0.0002619375,
      "loss": 1.8513,
      "step": 43900
    },
    {
      "epoch": 1.5197568389057752,
      "grad_norm": 0.35662829875946045,
      "learning_rate": 0.0002613693181818182,
      "loss": 1.8699,
      "step": 44000
    },
    {
      "epoch": 1.5197568389057752,
      "eval_loss": 2.2242226600646973,
      "eval_runtime": 933.1522,
      "eval_samples_per_second": 163.293,
      "eval_steps_per_second": 1.633,
      "step": 44000
    },
    {
      "epoch": 1.52321083172147,
      "grad_norm": 0.34279394149780273,
      "learning_rate": 0.0002608011363636364,
      "loss": 1.8583,
      "step": 44100
    },
    {
      "epoch": 1.526664824537165,
      "grad_norm": 0.35233989357948303,
      "learning_rate": 0.00026023295454545456,
      "loss": 1.8434,
      "step": 44200
    },
    {
      "epoch": 1.53011881735286,
      "grad_norm": 0.34149396419525146,
      "learning_rate": 0.00025966477272727274,
      "loss": 1.8593,
      "step": 44300
    },
    {
      "epoch": 1.5335728101685548,
      "grad_norm": 0.35298213362693787,
      "learning_rate": 0.0002590965909090909,
      "loss": 1.8439,
      "step": 44400
    },
    {
      "epoch": 1.5370268029842498,
      "grad_norm": 0.3766247630119324,
      "learning_rate": 0.0002585284090909091,
      "loss": 1.8645,
      "step": 44500
    },
    {
      "epoch": 1.5404807957999447,
      "grad_norm": 0.3492392301559448,
      "learning_rate": 0.0002579602272727273,
      "loss": 1.8551,
      "step": 44600
    },
    {
      "epoch": 1.5439347886156396,
      "grad_norm": 0.324101060628891,
      "learning_rate": 0.00025739204545454546,
      "loss": 1.8657,
      "step": 44700
    },
    {
      "epoch": 1.5473887814313345,
      "grad_norm": 0.3346399664878845,
      "learning_rate": 0.00025682386363636364,
      "loss": 1.8483,
      "step": 44800
    },
    {
      "epoch": 1.5508427742470294,
      "grad_norm": 0.35447120666503906,
      "learning_rate": 0.0002562556818181818,
      "loss": 1.8424,
      "step": 44900
    },
    {
      "epoch": 1.5542967670627243,
      "grad_norm": 0.3583132326602936,
      "learning_rate": 0.0002556875,
      "loss": 1.8619,
      "step": 45000
    },
    {
      "epoch": 1.5542967670627243,
      "eval_loss": 2.2166972160339355,
      "eval_runtime": 933.428,
      "eval_samples_per_second": 163.245,
      "eval_steps_per_second": 1.633,
      "step": 45000
    },
    {
      "epoch": 1.5577507598784195,
      "grad_norm": 0.34049317240715027,
      "learning_rate": 0.0002551193181818182,
      "loss": 1.8577,
      "step": 45100
    },
    {
      "epoch": 1.5612047526941144,
      "grad_norm": 0.3376822769641876,
      "learning_rate": 0.00025455113636363636,
      "loss": 1.8448,
      "step": 45200
    },
    {
      "epoch": 1.5646587455098093,
      "grad_norm": 0.3559693396091461,
      "learning_rate": 0.00025398295454545454,
      "loss": 1.8366,
      "step": 45300
    },
    {
      "epoch": 1.5681127383255042,
      "grad_norm": 0.34435904026031494,
      "learning_rate": 0.0002534147727272728,
      "loss": 1.8485,
      "step": 45400
    },
    {
      "epoch": 1.5715667311411994,
      "grad_norm": 0.35500675439834595,
      "learning_rate": 0.0002528465909090909,
      "loss": 1.8516,
      "step": 45500
    },
    {
      "epoch": 1.5750207239568943,
      "grad_norm": 0.34272322058677673,
      "learning_rate": 0.0002522784090909091,
      "loss": 1.8296,
      "step": 45600
    },
    {
      "epoch": 1.5784747167725892,
      "grad_norm": 0.36497625708580017,
      "learning_rate": 0.0002517102272727273,
      "loss": 1.8255,
      "step": 45700
    },
    {
      "epoch": 1.5819287095882841,
      "grad_norm": 0.31943902373313904,
      "learning_rate": 0.00025114204545454544,
      "loss": 1.8657,
      "step": 45800
    },
    {
      "epoch": 1.585382702403979,
      "grad_norm": 0.3567992150783539,
      "learning_rate": 0.0002505738636363636,
      "loss": 1.8727,
      "step": 45900
    },
    {
      "epoch": 1.588836695219674,
      "grad_norm": 0.3523275554180145,
      "learning_rate": 0.00025000568181818186,
      "loss": 1.8348,
      "step": 46000
    },
    {
      "epoch": 1.588836695219674,
      "eval_loss": 2.211845874786377,
      "eval_runtime": 932.6736,
      "eval_samples_per_second": 163.377,
      "eval_steps_per_second": 1.634,
      "step": 46000
    },
    {
      "epoch": 1.5922906880353689,
      "grad_norm": 0.3533009886741638,
      "learning_rate": 0.0002494375,
      "loss": 1.8324,
      "step": 46100
    },
    {
      "epoch": 1.5957446808510638,
      "grad_norm": 0.35436585545539856,
      "learning_rate": 0.00024886931818181817,
      "loss": 1.8329,
      "step": 46200
    },
    {
      "epoch": 1.5991986736667587,
      "grad_norm": 0.35463017225265503,
      "learning_rate": 0.0002483011363636364,
      "loss": 1.848,
      "step": 46300
    },
    {
      "epoch": 1.6026526664824536,
      "grad_norm": 0.33948197960853577,
      "learning_rate": 0.0002477329545454546,
      "loss": 1.8416,
      "step": 46400
    },
    {
      "epoch": 1.6061066592981486,
      "grad_norm": 0.3487997353076935,
      "learning_rate": 0.0002471647727272727,
      "loss": 1.8331,
      "step": 46500
    },
    {
      "epoch": 1.6095606521138435,
      "grad_norm": 0.3553692698478699,
      "learning_rate": 0.00024659659090909094,
      "loss": 1.8443,
      "step": 46600
    },
    {
      "epoch": 1.6130146449295384,
      "grad_norm": 0.3699355721473694,
      "learning_rate": 0.0002460284090909091,
      "loss": 1.8396,
      "step": 46700
    },
    {
      "epoch": 1.6164686377452335,
      "grad_norm": 0.33341851830482483,
      "learning_rate": 0.00024546022727272725,
      "loss": 1.8266,
      "step": 46800
    },
    {
      "epoch": 1.6199226305609284,
      "grad_norm": 0.3703523874282837,
      "learning_rate": 0.0002448920454545455,
      "loss": 1.8356,
      "step": 46900
    },
    {
      "epoch": 1.6233766233766234,
      "grad_norm": 0.34331998229026794,
      "learning_rate": 0.00024432386363636366,
      "loss": 1.8506,
      "step": 47000
    },
    {
      "epoch": 1.6233766233766234,
      "eval_loss": 2.201261281967163,
      "eval_runtime": 932.8465,
      "eval_samples_per_second": 163.346,
      "eval_steps_per_second": 1.634,
      "step": 47000
    },
    {
      "epoch": 1.6268306161923183,
      "grad_norm": 0.3524048924446106,
      "learning_rate": 0.00024375568181818184,
      "loss": 1.8276,
      "step": 47100
    },
    {
      "epoch": 1.6302846090080134,
      "grad_norm": 0.6397112607955933,
      "learning_rate": 0.0002431875,
      "loss": 1.8358,
      "step": 47200
    },
    {
      "epoch": 1.6337386018237083,
      "grad_norm": 0.3624354600906372,
      "learning_rate": 0.00024261931818181818,
      "loss": 1.819,
      "step": 47300
    },
    {
      "epoch": 1.6371925946394033,
      "grad_norm": 0.3678456246852875,
      "learning_rate": 0.00024205113636363638,
      "loss": 1.8151,
      "step": 47400
    },
    {
      "epoch": 1.6406465874550982,
      "grad_norm": 0.38248035311698914,
      "learning_rate": 0.00024148295454545454,
      "loss": 1.8303,
      "step": 47500
    },
    {
      "epoch": 1.644100580270793,
      "grad_norm": 0.36703070998191833,
      "learning_rate": 0.00024091477272727272,
      "loss": 1.8375,
      "step": 47600
    },
    {
      "epoch": 1.647554573086488,
      "grad_norm": 0.34606924653053284,
      "learning_rate": 0.00024034659090909092,
      "loss": 1.8261,
      "step": 47700
    },
    {
      "epoch": 1.651008565902183,
      "grad_norm": 0.35459455847740173,
      "learning_rate": 0.00023977840909090908,
      "loss": 1.8541,
      "step": 47800
    },
    {
      "epoch": 1.6544625587178778,
      "grad_norm": 0.35106080770492554,
      "learning_rate": 0.00023921022727272728,
      "loss": 1.8434,
      "step": 47900
    },
    {
      "epoch": 1.6579165515335728,
      "grad_norm": 0.3380804657936096,
      "learning_rate": 0.00023864204545454547,
      "loss": 1.8323,
      "step": 48000
    },
    {
      "epoch": 1.6579165515335728,
      "eval_loss": 2.1915159225463867,
      "eval_runtime": 932.8372,
      "eval_samples_per_second": 163.348,
      "eval_steps_per_second": 1.634,
      "step": 48000
    },
    {
      "epoch": 1.6613705443492677,
      "grad_norm": 0.36180025339126587,
      "learning_rate": 0.00023807386363636362,
      "loss": 1.8347,
      "step": 48100
    },
    {
      "epoch": 1.6648245371649626,
      "grad_norm": 0.33836793899536133,
      "learning_rate": 0.00023750568181818183,
      "loss": 1.8169,
      "step": 48200
    },
    {
      "epoch": 1.6682785299806575,
      "grad_norm": 0.34874165058135986,
      "learning_rate": 0.0002369375,
      "loss": 1.8206,
      "step": 48300
    },
    {
      "epoch": 1.6717325227963524,
      "grad_norm": 0.3255716562271118,
      "learning_rate": 0.0002363693181818182,
      "loss": 1.8319,
      "step": 48400
    },
    {
      "epoch": 1.6751865156120476,
      "grad_norm": 0.3886810839176178,
      "learning_rate": 0.00023580113636363637,
      "loss": 1.8208,
      "step": 48500
    },
    {
      "epoch": 1.6786405084277425,
      "grad_norm": 0.38673707842826843,
      "learning_rate": 0.00023523295454545455,
      "loss": 1.8294,
      "step": 48600
    },
    {
      "epoch": 1.6820945012434374,
      "grad_norm": 0.3884912431240082,
      "learning_rate": 0.00023466477272727273,
      "loss": 1.8137,
      "step": 48700
    },
    {
      "epoch": 1.6855484940591323,
      "grad_norm": 0.35155996680259705,
      "learning_rate": 0.0002340965909090909,
      "loss": 1.8135,
      "step": 48800
    },
    {
      "epoch": 1.6890024868748275,
      "grad_norm": 0.34583061933517456,
      "learning_rate": 0.0002335284090909091,
      "loss": 1.8125,
      "step": 48900
    },
    {
      "epoch": 1.6924564796905224,
      "grad_norm": 0.3412420451641083,
      "learning_rate": 0.00023296022727272727,
      "loss": 1.8238,
      "step": 49000
    },
    {
      "epoch": 1.6924564796905224,
      "eval_loss": 2.1860053539276123,
      "eval_runtime": 932.5574,
      "eval_samples_per_second": 163.397,
      "eval_steps_per_second": 1.634,
      "step": 49000
    },
    {
      "epoch": 1.6959104725062173,
      "grad_norm": 0.36108842492103577,
      "learning_rate": 0.00023239204545454545,
      "loss": 1.8195,
      "step": 49100
    },
    {
      "epoch": 1.6993644653219122,
      "grad_norm": 0.3617706000804901,
      "learning_rate": 0.00023182386363636366,
      "loss": 1.8032,
      "step": 49200
    },
    {
      "epoch": 1.7028184581376071,
      "grad_norm": 0.36145681142807007,
      "learning_rate": 0.00023125568181818184,
      "loss": 1.8441,
      "step": 49300
    },
    {
      "epoch": 1.706272450953302,
      "grad_norm": 0.3923262059688568,
      "learning_rate": 0.0002306875,
      "loss": 1.8136,
      "step": 49400
    },
    {
      "epoch": 1.709726443768997,
      "grad_norm": 0.3287799656391144,
      "learning_rate": 0.0002301193181818182,
      "loss": 1.8211,
      "step": 49500
    },
    {
      "epoch": 1.7131804365846919,
      "grad_norm": 0.35752880573272705,
      "learning_rate": 0.00022955113636363638,
      "loss": 1.8108,
      "step": 49600
    },
    {
      "epoch": 1.7166344294003868,
      "grad_norm": 0.3737923204898834,
      "learning_rate": 0.00022898295454545456,
      "loss": 1.8033,
      "step": 49700
    },
    {
      "epoch": 1.7200884222160817,
      "grad_norm": 0.374796599149704,
      "learning_rate": 0.00022841477272727274,
      "loss": 1.8097,
      "step": 49800
    },
    {
      "epoch": 1.7235424150317766,
      "grad_norm": 0.386203408241272,
      "learning_rate": 0.00022784659090909092,
      "loss": 1.811,
      "step": 49900
    },
    {
      "epoch": 1.7269964078474715,
      "grad_norm": 0.3648054003715515,
      "learning_rate": 0.0002272784090909091,
      "loss": 1.8061,
      "step": 50000
    },
    {
      "epoch": 1.7269964078474715,
      "eval_loss": 2.1760547161102295,
      "eval_runtime": 932.5357,
      "eval_samples_per_second": 163.401,
      "eval_steps_per_second": 1.634,
      "step": 50000
    }
  ],
  "logging_steps": 100,
  "max_steps": 90000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 5000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 4.64606111435273e+18,
  "train_batch_size": 100,
  "trial_name": null,
  "trial_params": null
}