{
  "best_global_step": 35000,
  "best_metric": 0.0021512035746127367,
  "best_model_checkpoint": "D:\\Task_design\\Scene\\outputs\\qwen7b-lora-will_half_fp16_v2\\checkpoint-35000",
  "epoch": 1.0,
  "eval_steps": 1250,
  "global_step": 35821,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0013958633589357939,
      "grad_norm": 2320.0,
      "learning_rate": 9.116279069767441e-06,
      "loss": 120.7821,
      "step": 50
    },
    {
      "epoch": 0.0027917267178715877,
      "grad_norm": 752.0,
      "learning_rate": 1.841860465116279e-05,
      "loss": 1.6562,
      "step": 100
    },
    {
      "epoch": 0.004187590076807381,
      "grad_norm": 264.0,
      "learning_rate": 2.772093023255814e-05,
      "loss": 0.5144,
      "step": 150
    },
    {
      "epoch": 0.005583453435743175,
      "grad_norm": 3120.0,
      "learning_rate": 3.702325581395349e-05,
      "loss": 0.9009,
      "step": 200
    },
    {
      "epoch": 0.006979316794678969,
      "grad_norm": 1296.0,
      "learning_rate": 4.632558139534884e-05,
      "loss": 1.4696,
      "step": 250
    },
    {
      "epoch": 0.008375180153614763,
      "grad_norm": 3632.0,
      "learning_rate": 5.562790697674419e-05,
      "loss": 1.8122,
      "step": 300
    },
    {
      "epoch": 0.009771043512550556,
      "grad_norm": 600.0,
      "learning_rate": 6.493023255813954e-05,
      "loss": 1.605,
      "step": 350
    },
    {
      "epoch": 0.01116690687148635,
      "grad_norm": 1888.0,
      "learning_rate": 7.423255813953489e-05,
      "loss": 1.046,
      "step": 400
    },
    {
      "epoch": 0.012562770230422144,
      "grad_norm": 137.0,
      "learning_rate": 8.353488372093023e-05,
      "loss": 1.1465,
      "step": 450
    },
    {
      "epoch": 0.013958633589357937,
      "grad_norm": 1984.0,
      "learning_rate": 9.283720930232559e-05,
      "loss": 5.8899,
      "step": 500
    },
    {
      "epoch": 0.015354496948293732,
      "grad_norm": 2528.0,
      "learning_rate": 0.00010213953488372094,
      "loss": 1.0712,
      "step": 550
    },
    {
      "epoch": 0.016750360307229525,
      "grad_norm": 4.34375,
      "learning_rate": 0.00011144186046511629,
      "loss": 0.4232,
      "step": 600
    },
    {
      "epoch": 0.01814622366616532,
      "grad_norm": 249.0,
      "learning_rate": 0.00012074418604651163,
      "loss": 0.837,
      "step": 650
    },
    {
      "epoch": 0.019542087025101112,
      "grad_norm": 1224.0,
      "learning_rate": 0.000130046511627907,
      "loss": 0.4405,
      "step": 700
    },
    {
      "epoch": 0.020937950384036907,
      "grad_norm": 2800.0,
      "learning_rate": 0.00013934883720930234,
      "loss": 1.175,
      "step": 750
    },
    {
      "epoch": 0.0223338137429727,
      "grad_norm": 124.0,
      "learning_rate": 0.0001486511627906977,
      "loss": 1.2591,
      "step": 800
    },
    {
      "epoch": 0.023729677101908493,
      "grad_norm": 1056.0,
      "learning_rate": 0.00015795348837209302,
      "loss": 0.4401,
      "step": 850
    },
    {
      "epoch": 0.025125540460844288,
      "grad_norm": 1208.0,
      "learning_rate": 0.00016725581395348837,
      "loss": 0.4283,
      "step": 900
    },
    {
      "epoch": 0.026521403819780083,
      "grad_norm": 1048.0,
      "learning_rate": 0.00017655813953488373,
      "loss": 0.4223,
      "step": 950
    },
    {
      "epoch": 0.027917267178715875,
      "grad_norm": 22.25,
      "learning_rate": 0.00018586046511627908,
      "loss": 0.1113,
      "step": 1000
    },
    {
      "epoch": 0.02931313053765167,
      "grad_norm": 127.5,
      "learning_rate": 0.00019516279069767444,
      "loss": 0.0873,
      "step": 1050
    },
    {
      "epoch": 0.030708993896587464,
      "grad_norm": 712.0,
      "learning_rate": 0.00019986185460196858,
      "loss": 0.5109,
      "step": 1100
    },
    {
      "epoch": 0.032104857255523256,
      "grad_norm": 180.0,
      "learning_rate": 0.0001995740516894031,
      "loss": 0.4199,
      "step": 1150
    },
    {
      "epoch": 0.03350072061445905,
      "grad_norm": 984.0,
      "learning_rate": 0.00019928624877683763,
      "loss": 0.6015,
      "step": 1200
    },
    {
      "epoch": 0.034896583973394846,
      "grad_norm": 616.0,
      "learning_rate": 0.00019899844586427216,
      "loss": 0.5867,
      "step": 1250
    },
    {
      "epoch": 0.034896583973394846,
      "eval_loss": 0.0031845432240515947,
      "eval_mae": 0.045285664498806,
      "eval_rmse": 0.05643175542354584,
      "eval_runtime": 320.3726,
      "eval_samples_per_second": 6.243,
      "eval_steps_per_second": 6.243,
      "step": 1250
    },
    {
      "epoch": 0.03629244733233064,
      "grad_norm": 132.0,
      "learning_rate": 0.00019871064295170666,
      "loss": 0.3113,
      "step": 1300
    },
    {
      "epoch": 0.03768831069126643,
      "grad_norm": 26.375,
      "learning_rate": 0.0001984228400391412,
      "loss": 0.0702,
      "step": 1350
    },
    {
      "epoch": 0.039084174050202224,
      "grad_norm": 212.0,
      "learning_rate": 0.00019813503712657574,
      "loss": 0.2048,
      "step": 1400
    },
    {
      "epoch": 0.04048003740913802,
      "grad_norm": 260.0,
      "learning_rate": 0.00019784723421401027,
      "loss": 0.0669,
      "step": 1450
    },
    {
      "epoch": 0.041875900768073814,
      "grad_norm": 113.5,
      "learning_rate": 0.0001975594313014448,
      "loss": 0.0604,
      "step": 1500
    },
    {
      "epoch": 0.04327176412700961,
      "grad_norm": 36.0,
      "learning_rate": 0.00019727162838887932,
      "loss": 0.0539,
      "step": 1550
    },
    {
      "epoch": 0.0446676274859454,
      "grad_norm": 290.0,
      "learning_rate": 0.00019698382547631382,
      "loss": 0.0539,
      "step": 1600
    },
    {
      "epoch": 0.04606349084488119,
      "grad_norm": 202.0,
      "learning_rate": 0.00019669602256374834,
      "loss": 0.0621,
      "step": 1650
    },
    {
      "epoch": 0.047459354203816986,
      "grad_norm": 464.0,
      "learning_rate": 0.00019640821965118287,
      "loss": 0.178,
      "step": 1700
    },
    {
      "epoch": 0.04885521756275278,
      "grad_norm": 108.5,
      "learning_rate": 0.0001961204167386174,
      "loss": 0.1804,
      "step": 1750
    },
    {
      "epoch": 0.050251080921688576,
      "grad_norm": 252.0,
      "learning_rate": 0.00019583261382605195,
      "loss": 0.1206,
      "step": 1800
    },
    {
      "epoch": 0.05164694428062437,
      "grad_norm": 1376.0,
      "learning_rate": 0.00019554481091348648,
      "loss": 0.8041,
      "step": 1850
    },
    {
      "epoch": 0.053042807639560166,
      "grad_norm": 214.0,
      "learning_rate": 0.00019525700800092098,
      "loss": 0.2037,
      "step": 1900
    },
    {
      "epoch": 0.054438670998495954,
      "grad_norm": 324.0,
      "learning_rate": 0.0001949692050883555,
      "loss": 0.2246,
      "step": 1950
    },
    {
      "epoch": 0.05583453435743175,
      "grad_norm": 148.0,
      "learning_rate": 0.00019468140217579003,
      "loss": 0.1815,
      "step": 2000
    },
    {
      "epoch": 0.057230397716367544,
      "grad_norm": 270.0,
      "learning_rate": 0.00019439359926322455,
      "loss": 0.1532,
      "step": 2050
    },
    {
      "epoch": 0.05862626107530334,
      "grad_norm": 145.0,
      "learning_rate": 0.00019410579635065908,
      "loss": 0.1351,
      "step": 2100
    },
    {
      "epoch": 0.060022124434239134,
      "grad_norm": 130.0,
      "learning_rate": 0.00019381799343809358,
      "loss": 0.1393,
      "step": 2150
    },
    {
      "epoch": 0.06141798779317493,
      "grad_norm": 231.0,
      "learning_rate": 0.00019353019052552813,
      "loss": 0.1446,
      "step": 2200
    },
    {
      "epoch": 0.06281385115211072,
      "grad_norm": 3.25,
      "learning_rate": 0.00019324238761296266,
      "loss": 0.1403,
      "step": 2250
    },
    {
      "epoch": 0.06420971451104651,
      "grad_norm": 123.5,
      "learning_rate": 0.00019295458470039719,
      "loss": 0.3684,
      "step": 2300
    },
    {
      "epoch": 0.0656055778699823,
      "grad_norm": 20.125,
      "learning_rate": 0.0001926667817878317,
      "loss": 0.0694,
      "step": 2350
    },
    {
      "epoch": 0.0670014412289181,
      "grad_norm": 1.734375,
      "learning_rate": 0.00019237897887526624,
      "loss": 0.0897,
      "step": 2400
    },
    {
      "epoch": 0.0683973045878539,
      "grad_norm": 25.0,
      "learning_rate": 0.00019209117596270074,
      "loss": 0.128,
      "step": 2450
    },
    {
      "epoch": 0.06979316794678969,
      "grad_norm": 24.125,
      "learning_rate": 0.00019180337305013526,
      "loss": 0.1388,
      "step": 2500
    },
    {
      "epoch": 0.06979316794678969,
      "eval_loss": 0.011298904195427895,
      "eval_mae": 0.09956549108028412,
      "eval_rmse": 0.10629630088806152,
      "eval_runtime": 316.8013,
      "eval_samples_per_second": 6.313,
      "eval_steps_per_second": 6.313,
      "step": 2500
    },
    {
      "epoch": 0.07118903130572549,
      "grad_norm": 19.375,
      "learning_rate": 0.0001915155701375698,
      "loss": 0.1087,
      "step": 2550
    },
    {
      "epoch": 0.07258489466466128,
      "grad_norm": 7.8125,
      "learning_rate": 0.00019122776722500432,
      "loss": 0.0907,
      "step": 2600
    },
    {
      "epoch": 0.07398075802359708,
      "grad_norm": 13.8125,
      "learning_rate": 0.00019093996431243887,
      "loss": 0.0812,
      "step": 2650
    },
    {
      "epoch": 0.07537662138253286,
      "grad_norm": 24.25,
      "learning_rate": 0.0001906521613998734,
      "loss": 0.0707,
      "step": 2700
    },
    {
      "epoch": 0.07677248474146865,
      "grad_norm": 18.125,
      "learning_rate": 0.0001903643584873079,
      "loss": 0.0657,
      "step": 2750
    },
    {
      "epoch": 0.07816834810040445,
      "grad_norm": 9.5625,
      "learning_rate": 0.00019007655557474242,
      "loss": 0.0598,
      "step": 2800
    },
    {
      "epoch": 0.07956421145934024,
      "grad_norm": 15.3125,
      "learning_rate": 0.00018978875266217695,
      "loss": 0.0549,
      "step": 2850
    },
    {
      "epoch": 0.08096007481827604,
      "grad_norm": 9.9375,
      "learning_rate": 0.00018950094974961147,
      "loss": 0.052,
      "step": 2900
    },
    {
      "epoch": 0.08235593817721183,
      "grad_norm": 22.625,
      "learning_rate": 0.000189213146837046,
      "loss": 0.0501,
      "step": 2950
    },
    {
      "epoch": 0.08375180153614763,
      "grad_norm": 16.125,
      "learning_rate": 0.00018892534392448053,
      "loss": 0.0433,
      "step": 3000
    },
    {
      "epoch": 0.08514766489508342,
      "grad_norm": 19.875,
      "learning_rate": 0.00018863754101191505,
      "loss": 0.0489,
      "step": 3050
    },
    {
      "epoch": 0.08654352825401922,
      "grad_norm": 15.625,
      "learning_rate": 0.00018834973809934958,
      "loss": 0.0422,
      "step": 3100
    },
    {
      "epoch": 0.08793939161295501,
      "grad_norm": 15.0625,
      "learning_rate": 0.0001880619351867841,
      "loss": 0.0415,
      "step": 3150
    },
    {
      "epoch": 0.0893352549718908,
      "grad_norm": 12.5625,
      "learning_rate": 0.00018777413227421863,
      "loss": 0.0372,
      "step": 3200
    },
    {
      "epoch": 0.0907311183308266,
      "grad_norm": 13.875,
      "learning_rate": 0.00018748632936165316,
      "loss": 0.0393,
      "step": 3250
    },
    {
      "epoch": 0.09212698168976238,
      "grad_norm": 19.5,
      "learning_rate": 0.00018719852644908766,
      "loss": 0.0396,
      "step": 3300
    },
    {
      "epoch": 0.09352284504869818,
      "grad_norm": 14.875,
      "learning_rate": 0.00018691072353652218,
      "loss": 0.0293,
      "step": 3350
    },
    {
      "epoch": 0.09491870840763397,
      "grad_norm": 76.5,
      "learning_rate": 0.0001866229206239567,
      "loss": 0.0334,
      "step": 3400
    },
    {
      "epoch": 0.09631457176656977,
      "grad_norm": 9.625,
      "learning_rate": 0.00018633511771139124,
      "loss": 0.0627,
      "step": 3450
    },
    {
      "epoch": 0.09771043512550556,
      "grad_norm": 15.3125,
      "learning_rate": 0.0001860473147988258,
      "loss": 0.0262,
      "step": 3500
    },
    {
      "epoch": 0.09910629848444136,
      "grad_norm": 15.625,
      "learning_rate": 0.00018575951188626032,
      "loss": 0.0318,
      "step": 3550
    },
    {
      "epoch": 0.10050216184337715,
      "grad_norm": 17.0,
      "learning_rate": 0.00018547170897369482,
      "loss": 0.0431,
      "step": 3600
    },
    {
      "epoch": 0.10189802520231295,
      "grad_norm": 3.3125,
      "learning_rate": 0.00018518390606112934,
      "loss": 0.0086,
      "step": 3650
    },
    {
      "epoch": 0.10329388856124874,
      "grad_norm": 1.0546875,
      "learning_rate": 0.00018489610314856387,
      "loss": 0.0084,
      "step": 3700
    },
    {
      "epoch": 0.10468975192018454,
      "grad_norm": 3.21875,
      "learning_rate": 0.0001846083002359984,
      "loss": 0.0117,
      "step": 3750
    },
    {
      "epoch": 0.10468975192018454,
      "eval_loss": 0.0015581471379846334,
      "eval_mae": 0.036334387958049774,
      "eval_rmse": 0.03947337344288826,
      "eval_runtime": 319.7128,
      "eval_samples_per_second": 6.256,
      "eval_steps_per_second": 6.256,
      "step": 3750
    },
    {
      "epoch": 0.10608561527912033,
      "grad_norm": 42.75,
      "learning_rate": 0.00018432049732343292,
      "loss": 0.0319,
      "step": 3800
    },
    {
      "epoch": 0.10748147863805613,
      "grad_norm": 39.25,
      "learning_rate": 0.00018403269441086745,
      "loss": 0.0341,
      "step": 3850
    },
    {
      "epoch": 0.10887734199699191,
      "grad_norm": 44.25,
      "learning_rate": 0.00018374489149830197,
      "loss": 0.0326,
      "step": 3900
    },
    {
      "epoch": 0.1102732053559277,
      "grad_norm": 35.0,
      "learning_rate": 0.0001834570885857365,
      "loss": 0.032,
      "step": 3950
    },
    {
      "epoch": 0.1116690687148635,
      "grad_norm": 36.75,
      "learning_rate": 0.00018316928567317103,
      "loss": 0.0306,
      "step": 4000
    },
    {
      "epoch": 0.11306493207379929,
      "grad_norm": 25.875,
      "learning_rate": 0.00018288148276060555,
      "loss": 0.0298,
      "step": 4050
    },
    {
      "epoch": 0.11446079543273509,
      "grad_norm": 38.0,
      "learning_rate": 0.00018259367984804008,
      "loss": 0.031,
      "step": 4100
    },
    {
      "epoch": 0.11585665879167088,
      "grad_norm": 33.0,
      "learning_rate": 0.0001823058769354746,
      "loss": 0.0284,
      "step": 4150
    },
    {
      "epoch": 0.11725252215060668,
      "grad_norm": 30.125,
      "learning_rate": 0.0001820180740229091,
      "loss": 0.0229,
      "step": 4200
    },
    {
      "epoch": 0.11864838550954247,
      "grad_norm": 14.375,
      "learning_rate": 0.00018173027111034363,
      "loss": 0.0119,
      "step": 4250
    },
    {
      "epoch": 0.12004424886847827,
      "grad_norm": 40.5,
      "learning_rate": 0.00018144246819777818,
      "loss": 0.0351,
      "step": 4300
    },
    {
      "epoch": 0.12144011222741406,
      "grad_norm": 50.0,
      "learning_rate": 0.0001811546652852127,
      "loss": 0.0157,
      "step": 4350
    },
    {
      "epoch": 0.12283597558634986,
      "grad_norm": 12.25,
      "learning_rate": 0.00018086686237264724,
      "loss": 0.0222,
      "step": 4400
    },
    {
      "epoch": 0.12423183894528565,
      "grad_norm": 27.0,
      "learning_rate": 0.00018057905946008174,
      "loss": 0.0129,
      "step": 4450
    },
    {
      "epoch": 0.12562770230422143,
      "grad_norm": 4.6875,
      "learning_rate": 0.00018029125654751626,
      "loss": 0.0162,
      "step": 4500
    },
    {
      "epoch": 0.12702356566315723,
      "grad_norm": 6.9375,
      "learning_rate": 0.0001800034536349508,
      "loss": 0.0038,
      "step": 4550
    },
    {
      "epoch": 0.12841942902209302,
      "grad_norm": 2.34375,
      "learning_rate": 0.00017971565072238531,
      "loss": 0.0032,
      "step": 4600
    },
    {
      "epoch": 0.12981529238102882,
      "grad_norm": 9.0,
      "learning_rate": 0.00017942784780981984,
      "loss": 0.0035,
      "step": 4650
    },
    {
      "epoch": 0.1312111557399646,
      "grad_norm": 5.0625,
      "learning_rate": 0.00017914004489725437,
      "loss": 0.0022,
      "step": 4700
    },
    {
      "epoch": 0.1326070190989004,
      "grad_norm": 9.4375,
      "learning_rate": 0.0001788522419846889,
      "loss": 0.0017,
      "step": 4750
    },
    {
      "epoch": 0.1340028824578362,
      "grad_norm": 3.53125,
      "learning_rate": 0.00017856443907212342,
      "loss": 0.0024,
      "step": 4800
    },
    {
      "epoch": 0.135398745816772,
      "grad_norm": 11.4375,
      "learning_rate": 0.00017827663615955795,
      "loss": 0.0022,
      "step": 4850
    },
    {
      "epoch": 0.1367946091757078,
      "grad_norm": 11.875,
      "learning_rate": 0.00017798883324699247,
      "loss": 0.0038,
      "step": 4900
    },
    {
      "epoch": 0.1381904725346436,
      "grad_norm": 1.8125,
      "learning_rate": 0.000177701030334427,
      "loss": 0.0036,
      "step": 4950
    },
    {
      "epoch": 0.13958633589357938,
      "grad_norm": 10.75,
      "learning_rate": 0.00017741322742186153,
      "loss": 0.0028,
      "step": 5000
    },
    {
      "epoch": 0.13958633589357938,
      "eval_loss": 0.00022272480418905616,
      "eval_mae": 0.012231973931193352,
      "eval_rmse": 0.01492396742105484,
      "eval_runtime": 319.6535,
      "eval_samples_per_second": 6.257,
      "eval_steps_per_second": 6.257,
      "step": 5000
    },
    {
      "epoch": 0.14098219925251518,
      "grad_norm": 7.15625,
      "learning_rate": 0.00017712542450929602,
      "loss": 0.0055,
      "step": 5050
    },
    {
      "epoch": 0.14237806261145097,
      "grad_norm": 6.84375,
      "learning_rate": 0.00017683762159673055,
      "loss": 0.0032,
      "step": 5100
    },
    {
      "epoch": 0.14377392597038677,
      "grad_norm": 11.75,
      "learning_rate": 0.0001765498186841651,
      "loss": 0.0031,
      "step": 5150
    },
    {
      "epoch": 0.14516978932932256,
      "grad_norm": 8.1875,
      "learning_rate": 0.00017626201577159963,
      "loss": 0.0027,
      "step": 5200
    },
    {
      "epoch": 0.14656565268825836,
      "grad_norm": 10.0625,
      "learning_rate": 0.00017597421285903416,
      "loss": 0.0025,
      "step": 5250
    },
    {
      "epoch": 0.14796151604719415,
      "grad_norm": 10.9375,
      "learning_rate": 0.00017568640994646868,
      "loss": 0.0027,
      "step": 5300
    },
    {
      "epoch": 0.14935737940612995,
      "grad_norm": 9.875,
      "learning_rate": 0.00017539860703390318,
      "loss": 0.0028,
      "step": 5350
    },
    {
      "epoch": 0.15075324276506571,
      "grad_norm": 7.5625,
      "learning_rate": 0.0001751108041213377,
      "loss": 0.0026,
      "step": 5400
    },
    {
      "epoch": 0.1521491061240015,
      "grad_norm": 22.875,
      "learning_rate": 0.00017482300120877223,
      "loss": 0.0032,
      "step": 5450
    },
    {
      "epoch": 0.1535449694829373,
      "grad_norm": 50.75,
      "learning_rate": 0.00017453519829620676,
      "loss": 0.0356,
      "step": 5500
    },
    {
      "epoch": 0.1549408328418731,
      "grad_norm": 48.25,
      "learning_rate": 0.0001742473953836413,
      "loss": 0.0495,
      "step": 5550
    },
    {
      "epoch": 0.1563366962008089,
      "grad_norm": 8.8125,
      "learning_rate": 0.00017395959247107581,
      "loss": 0.048,
      "step": 5600
    },
    {
      "epoch": 0.1577325595597447,
      "grad_norm": 54.25,
      "learning_rate": 0.00017367178955851034,
      "loss": 0.0461,
      "step": 5650
    },
    {
      "epoch": 0.15912842291868048,
      "grad_norm": 63.75,
      "learning_rate": 0.00017338398664594487,
      "loss": 0.0495,
      "step": 5700
    },
    {
      "epoch": 0.16052428627761628,
      "grad_norm": 55.0,
      "learning_rate": 0.0001730961837333794,
      "loss": 0.033,
      "step": 5750
    },
    {
      "epoch": 0.16192014963655207,
      "grad_norm": 39.75,
      "learning_rate": 0.00017280838082081392,
      "loss": 0.0453,
      "step": 5800
    },
    {
      "epoch": 0.16331601299548787,
      "grad_norm": 32.75,
      "learning_rate": 0.00017252057790824845,
      "loss": 0.0417,
      "step": 5850
    },
    {
      "epoch": 0.16471187635442366,
      "grad_norm": 44.5,
      "learning_rate": 0.00017223277499568294,
      "loss": 0.044,
      "step": 5900
    },
    {
      "epoch": 0.16610773971335946,
      "grad_norm": 30.875,
      "learning_rate": 0.00017194497208311747,
      "loss": 0.0414,
      "step": 5950
    },
    {
      "epoch": 0.16750360307229525,
      "grad_norm": 31.0,
      "learning_rate": 0.00017165716917055202,
      "loss": 0.0392,
      "step": 6000
    },
    {
      "epoch": 0.16889946643123105,
      "grad_norm": 52.75,
      "learning_rate": 0.00017136936625798655,
      "loss": 0.0404,
      "step": 6050
    },
    {
      "epoch": 0.17029532979016684,
      "grad_norm": 39.5,
      "learning_rate": 0.00017108156334542108,
      "loss": 0.042,
      "step": 6100
    },
    {
      "epoch": 0.17169119314910264,
      "grad_norm": 19.375,
      "learning_rate": 0.0001707937604328556,
      "loss": 0.006,
      "step": 6150
    },
    {
      "epoch": 0.17308705650803843,
      "grad_norm": 42.5,
      "learning_rate": 0.0001705059575202901,
      "loss": 0.014,
      "step": 6200
    },
    {
      "epoch": 0.17448291986697423,
      "grad_norm": 18.5,
      "learning_rate": 0.00017021815460772463,
      "loss": 0.0145,
      "step": 6250
    },
    {
      "epoch": 0.17448291986697423,
      "eval_loss": 0.0018714327597990632,
      "eval_mae": 0.04104918614029884,
      "eval_rmse": 0.043260060250759125,
      "eval_runtime": 318.582,
      "eval_samples_per_second": 6.278,
      "eval_steps_per_second": 6.278,
      "step": 6250
    },
    {
      "epoch": 0.17587878322591002,
      "grad_norm": 7.4375,
      "learning_rate": 0.00016993035169515915,
      "loss": 0.0104,
      "step": 6300
    },
    {
      "epoch": 0.17727464658484582,
      "grad_norm": 34.25,
      "learning_rate": 0.00016964254878259368,
      "loss": 0.0038,
      "step": 6350
    },
    {
      "epoch": 0.1786705099437816,
      "grad_norm": 18.125,
      "learning_rate": 0.0001693547458700282,
      "loss": 0.015,
      "step": 6400
    },
    {
      "epoch": 0.1800663733027174,
      "grad_norm": 0.494140625,
      "learning_rate": 0.00016906694295746276,
      "loss": 0.0137,
      "step": 6450
    },
    {
      "epoch": 0.1814622366616532,
      "grad_norm": 12.5,
      "learning_rate": 0.00016877914004489726,
      "loss": 0.0044,
      "step": 6500
    },
    {
      "epoch": 0.182858100020589,
      "grad_norm": 9.625,
      "learning_rate": 0.0001684913371323318,
      "loss": 0.0156,
      "step": 6550
    },
    {
      "epoch": 0.18425396337952477,
      "grad_norm": 6.34375,
      "learning_rate": 0.0001682035342197663,
      "loss": 0.0021,
      "step": 6600
    },
    {
      "epoch": 0.18564982673846056,
      "grad_norm": 11.9375,
      "learning_rate": 0.00016791573130720084,
      "loss": 0.0019,
      "step": 6650
    },
    {
      "epoch": 0.18704569009739636,
      "grad_norm": 5.65625,
      "learning_rate": 0.00016762792839463537,
      "loss": 0.0019,
      "step": 6700
    },
    {
      "epoch": 0.18844155345633215,
      "grad_norm": 7.625,
      "learning_rate": 0.00016734012548206986,
      "loss": 0.0019,
      "step": 6750
    },
    {
      "epoch": 0.18983741681526795,
      "grad_norm": 27.375,
      "learning_rate": 0.00016705232256950442,
      "loss": 0.0029,
      "step": 6800
    },
    {
      "epoch": 0.19123328017420374,
      "grad_norm": 3.171875,
      "learning_rate": 0.00016676451965693894,
      "loss": 0.0114,
      "step": 6850
    },
    {
      "epoch": 0.19262914353313954,
      "grad_norm": 6.4375,
      "learning_rate": 0.00016647671674437347,
      "loss": 0.0166,
      "step": 6900
    },
    {
      "epoch": 0.19402500689207533,
      "grad_norm": 16.125,
      "learning_rate": 0.000166188913831808,
      "loss": 0.0129,
      "step": 6950
    },
    {
      "epoch": 0.19542087025101113,
      "grad_norm": 7.21875,
      "learning_rate": 0.00016590111091924252,
      "loss": 0.0052,
      "step": 7000
    },
    {
      "epoch": 0.19681673360994692,
      "grad_norm": 15.1875,
      "learning_rate": 0.00016561330800667702,
      "loss": 0.0051,
      "step": 7050
    },
    {
      "epoch": 0.19821259696888271,
      "grad_norm": 6.46875,
      "learning_rate": 0.00016532550509411155,
      "loss": 0.0049,
      "step": 7100
    },
    {
      "epoch": 0.1996084603278185,
      "grad_norm": 12.0625,
      "learning_rate": 0.00016503770218154608,
      "loss": 0.0051,
      "step": 7150
    },
    {
      "epoch": 0.2010043236867543,
      "grad_norm": 3.53125,
      "learning_rate": 0.0001647498992689806,
      "loss": 0.0044,
      "step": 7200
    },
    {
      "epoch": 0.2024001870456901,
      "grad_norm": 4.84375,
      "learning_rate": 0.00016446209635641513,
      "loss": 0.0066,
      "step": 7250
    },
    {
      "epoch": 0.2037960504046259,
      "grad_norm": 4.03125,
      "learning_rate": 0.00016417429344384968,
      "loss": 0.0072,
      "step": 7300
    },
    {
      "epoch": 0.2051919137635617,
      "grad_norm": 3.203125,
      "learning_rate": 0.00016388649053128418,
      "loss": 0.0007,
      "step": 7350
    },
    {
      "epoch": 0.20658777712249748,
      "grad_norm": 4.59375,
      "learning_rate": 0.0001635986876187187,
      "loss": 0.001,
      "step": 7400
    },
    {
      "epoch": 0.20798364048143328,
      "grad_norm": 8.375,
      "learning_rate": 0.00016331088470615323,
      "loss": 0.0017,
      "step": 7450
    },
    {
      "epoch": 0.20937950384036907,
      "grad_norm": 7.09375,
      "learning_rate": 0.00016302308179358776,
      "loss": 0.0018,
      "step": 7500
    },
    {
      "epoch": 0.20937950384036907,
      "eval_loss": 0.00019140982476528734,
      "eval_mae": 0.012697141617536545,
      "eval_rmse": 0.013835093937814236,
      "eval_runtime": 321.0771,
      "eval_samples_per_second": 6.229,
      "eval_steps_per_second": 6.229,
      "step": 7500
    },
    {
      "epoch": 0.21077536719930487,
      "grad_norm": 5.3125,
      "learning_rate": 0.00016273527888102229,
      "loss": 0.0018,
      "step": 7550
    },
    {
      "epoch": 0.21217123055824066,
      "grad_norm": 12.4375,
      "learning_rate": 0.0001624474759684568,
      "loss": 0.0018,
      "step": 7600
    },
    {
      "epoch": 0.21356709391717646,
      "grad_norm": 7.75,
      "learning_rate": 0.00016215967305589134,
      "loss": 0.0012,
      "step": 7650
    },
    {
      "epoch": 0.21496295727611225,
      "grad_norm": 1.765625,
      "learning_rate": 0.00016187187014332586,
      "loss": 0.0029,
      "step": 7700
    },
    {
      "epoch": 0.21635882063504802,
      "grad_norm": 13.6875,
      "learning_rate": 0.0001615840672307604,
      "loss": 0.0057,
      "step": 7750
    },
    {
      "epoch": 0.21775468399398382,
      "grad_norm": 4.1875,
      "learning_rate": 0.00016129626431819492,
      "loss": 0.0058,
      "step": 7800
    },
    {
      "epoch": 0.2191505473529196,
      "grad_norm": 29.375,
      "learning_rate": 0.00016100846140562944,
      "loss": 0.0038,
      "step": 7850
    },
    {
      "epoch": 0.2205464107118554,
      "grad_norm": 3.15625,
      "learning_rate": 0.00016072065849306394,
      "loss": 0.0031,
      "step": 7900
    },
    {
      "epoch": 0.2219422740707912,
      "grad_norm": 1.140625,
      "learning_rate": 0.00016043285558049847,
      "loss": 0.0017,
      "step": 7950
    },
    {
      "epoch": 0.223338137429727,
      "grad_norm": 2.703125,
      "learning_rate": 0.000160145052667933,
      "loss": 0.0019,
      "step": 8000
    },
    {
      "epoch": 0.2247340007886628,
      "grad_norm": 13.0625,
      "learning_rate": 0.00015985724975536752,
      "loss": 0.0015,
      "step": 8050
    },
    {
      "epoch": 0.22612986414759859,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00015956944684280208,
      "loss": 0.0025,
      "step": 8100
    },
    {
      "epoch": 0.22752572750653438,
      "grad_norm": 20.0,
      "learning_rate": 0.0001592816439302366,
      "loss": 0.0018,
      "step": 8150
    },
    {
      "epoch": 0.22892159086547018,
      "grad_norm": 3.625,
      "learning_rate": 0.0001589938410176711,
      "loss": 0.0024,
      "step": 8200
    },
    {
      "epoch": 0.23031745422440597,
      "grad_norm": 11.625,
      "learning_rate": 0.00015870603810510563,
      "loss": 0.0071,
      "step": 8250
    },
    {
      "epoch": 0.23171331758334177,
      "grad_norm": 13.125,
      "learning_rate": 0.00015841823519254015,
      "loss": 0.0128,
      "step": 8300
    },
    {
      "epoch": 0.23310918094227756,
      "grad_norm": 17.625,
      "learning_rate": 0.00015813043227997468,
      "loss": 0.0122,
      "step": 8350
    },
    {
      "epoch": 0.23450504430121336,
      "grad_norm": 14.0625,
      "learning_rate": 0.0001578426293674092,
      "loss": 0.0125,
      "step": 8400
    },
    {
      "epoch": 0.23590090766014915,
      "grad_norm": 11.125,
      "learning_rate": 0.00015755482645484373,
      "loss": 0.0129,
      "step": 8450
    },
    {
      "epoch": 0.23729677101908495,
      "grad_norm": 22.875,
      "learning_rate": 0.00015726702354227826,
      "loss": 0.0136,
      "step": 8500
    },
    {
      "epoch": 0.23869263437802074,
      "grad_norm": 11.4375,
      "learning_rate": 0.00015697922062971278,
      "loss": 0.0118,
      "step": 8550
    },
    {
      "epoch": 0.24008849773695654,
      "grad_norm": 14.5625,
      "learning_rate": 0.0001566914177171473,
      "loss": 0.0032,
      "step": 8600
    },
    {
      "epoch": 0.24148436109589233,
      "grad_norm": 9.5625,
      "learning_rate": 0.00015640361480458184,
      "loss": 0.0014,
      "step": 8650
    },
    {
      "epoch": 0.24288022445482813,
      "grad_norm": 7.28125,
      "learning_rate": 0.00015611581189201636,
      "loss": 0.0016,
      "step": 8700
    },
    {
      "epoch": 0.24427608781376392,
      "grad_norm": 4.53125,
      "learning_rate": 0.0001558280089794509,
      "loss": 0.0013,
      "step": 8750
    },
    {
      "epoch": 0.24427608781376392,
      "eval_loss": 0.00014836130139883608,
      "eval_mae": 0.01122231688350439,
      "eval_rmse": 0.01218036562204361,
      "eval_runtime": 319.6629,
      "eval_samples_per_second": 6.257,
      "eval_steps_per_second": 6.257,
      "step": 8750
    },
    {
      "epoch": 0.24567195117269972,
      "grad_norm": 3.875,
      "learning_rate": 0.0001555402060668854,
      "loss": 0.0013,
      "step": 8800
    },
    {
      "epoch": 0.2470678145316355,
      "grad_norm": 10.4375,
      "learning_rate": 0.00015525240315431992,
      "loss": 0.0017,
      "step": 8850
    },
    {
      "epoch": 0.2484636778905713,
      "grad_norm": 2.96875,
      "learning_rate": 0.00015496460024175444,
      "loss": 0.0024,
      "step": 8900
    },
    {
      "epoch": 0.24985954124950707,
      "grad_norm": 10.1875,
      "learning_rate": 0.000154676797329189,
      "loss": 0.0051,
      "step": 8950
    },
    {
      "epoch": 0.25125540460844287,
      "grad_norm": 3.015625,
      "learning_rate": 0.00015438899441662352,
      "loss": 0.0012,
      "step": 9000
    },
    {
      "epoch": 0.2526512679673787,
      "grad_norm": 7.90625,
      "learning_rate": 0.00015410119150405802,
      "loss": 0.0103,
      "step": 9050
    },
    {
      "epoch": 0.25404713132631446,
      "grad_norm": 2.796875,
      "learning_rate": 0.00015381338859149255,
      "loss": 0.0014,
      "step": 9100
    },
    {
      "epoch": 0.2554429946852503,
      "grad_norm": 27.75,
      "learning_rate": 0.00015352558567892707,
      "loss": 0.0141,
      "step": 9150
    },
    {
      "epoch": 0.25683885804418605,
      "grad_norm": 2.65625,
      "learning_rate": 0.0001532377827663616,
      "loss": 0.0078,
      "step": 9200
    },
    {
      "epoch": 0.25823472140312187,
      "grad_norm": 16.125,
      "learning_rate": 0.00015294997985379613,
      "loss": 0.0141,
      "step": 9250
    },
    {
      "epoch": 0.25963058476205764,
      "grad_norm": 0.609375,
      "learning_rate": 0.00015266217694123065,
      "loss": 0.0038,
      "step": 9300
    },
    {
      "epoch": 0.26102644812099346,
      "grad_norm": 25.0,
      "learning_rate": 0.00015237437402866518,
      "loss": 0.0035,
      "step": 9350
    },
    {
      "epoch": 0.2624223114799292,
      "grad_norm": 16.5,
      "learning_rate": 0.0001520865711160997,
      "loss": 0.0106,
      "step": 9400
    },
    {
      "epoch": 0.26381817483886505,
      "grad_norm": 18.375,
      "learning_rate": 0.00015179876820353423,
      "loss": 0.0106,
      "step": 9450
    },
    {
      "epoch": 0.2652140381978008,
      "grad_norm": 16.5,
      "learning_rate": 0.00015151096529096876,
      "loss": 0.0104,
      "step": 9500
    },
    {
      "epoch": 0.2666099015567366,
      "grad_norm": 18.25,
      "learning_rate": 0.00015122316237840328,
      "loss": 0.0103,
      "step": 9550
    },
    {
      "epoch": 0.2680057649156724,
      "grad_norm": 18.875,
      "learning_rate": 0.0001509353594658378,
      "loss": 0.0098,
      "step": 9600
    },
    {
      "epoch": 0.2694016282746082,
      "grad_norm": 18.625,
      "learning_rate": 0.0001506475565532723,
      "loss": 0.0098,
      "step": 9650
    },
    {
      "epoch": 0.270797491633544,
      "grad_norm": 21.625,
      "learning_rate": 0.00015035975364070684,
      "loss": 0.0097,
      "step": 9700
    },
    {
      "epoch": 0.27219335499247976,
      "grad_norm": 21.0,
      "learning_rate": 0.00015007195072814136,
      "loss": 0.0094,
      "step": 9750
    },
    {
      "epoch": 0.2735892183514156,
      "grad_norm": 18.25,
      "learning_rate": 0.00014978414781557592,
      "loss": 0.0094,
      "step": 9800
    },
    {
      "epoch": 0.27498508171035135,
      "grad_norm": 14.25,
      "learning_rate": 0.00014949634490301044,
      "loss": 0.0095,
      "step": 9850
    },
    {
      "epoch": 0.2763809450692872,
      "grad_norm": 16.25,
      "learning_rate": 0.00014920854199044497,
      "loss": 0.0098,
      "step": 9900
    },
    {
      "epoch": 0.27777680842822294,
      "grad_norm": 18.5,
      "learning_rate": 0.00014892073907787947,
      "loss": 0.0092,
      "step": 9950
    },
    {
      "epoch": 0.27917267178715877,
      "grad_norm": 15.4375,
      "learning_rate": 0.000148632936165314,
      "loss": 0.0093,
      "step": 10000
    },
    {
      "epoch": 0.27917267178715877,
      "eval_loss": 8.570039790356532e-05,
      "eval_mae": 0.00781923346221447,
      "eval_rmse": 0.009257450699806213,
      "eval_runtime": 319.3051,
      "eval_samples_per_second": 6.264,
      "eval_steps_per_second": 6.264,
      "step": 10000
    },
    {
      "epoch": 0.28056853514609453,
      "grad_norm": 17.0,
      "learning_rate": 0.00014834513325274852,
      "loss": 0.0093,
      "step": 10050
    },
    {
      "epoch": 0.28196439850503036,
      "grad_norm": 12.3125,
      "learning_rate": 0.00014805733034018305,
      "loss": 0.0093,
      "step": 10100
    },
    {
      "epoch": 0.2833602618639661,
      "grad_norm": 14.875,
      "learning_rate": 0.00014776952742761757,
      "loss": 0.0094,
      "step": 10150
    },
    {
      "epoch": 0.28475612522290195,
      "grad_norm": 15.6875,
      "learning_rate": 0.0001474817245150521,
      "loss": 0.0095,
      "step": 10200
    },
    {
      "epoch": 0.2861519885818377,
      "grad_norm": 5.65625,
      "learning_rate": 0.00014719392160248663,
      "loss": 0.003,
      "step": 10250
    },
    {
      "epoch": 0.28754785194077354,
      "grad_norm": 2.40625,
      "learning_rate": 0.00014690611868992115,
      "loss": 0.0037,
      "step": 10300
    },
    {
      "epoch": 0.2889437152997093,
      "grad_norm": 15.5625,
      "learning_rate": 0.00014661831577735568,
      "loss": 0.0031,
      "step": 10350
    },
    {
      "epoch": 0.2903395786586451,
      "grad_norm": 7.21875,
      "learning_rate": 0.0001463305128647902,
      "loss": 0.0011,
      "step": 10400
    },
    {
      "epoch": 0.2917354420175809,
      "grad_norm": 14.375,
      "learning_rate": 0.00014604270995222473,
      "loss": 0.001,
      "step": 10450
    },
    {
      "epoch": 0.2931313053765167,
      "grad_norm": 24.5,
      "learning_rate": 0.00014575490703965923,
      "loss": 0.0058,
      "step": 10500
    },
    {
      "epoch": 0.2945271687354525,
      "grad_norm": 21.75,
      "learning_rate": 0.00014546710412709376,
      "loss": 0.0087,
      "step": 10550
    },
    {
      "epoch": 0.2959230320943883,
      "grad_norm": 23.375,
      "learning_rate": 0.0001451793012145283,
      "loss": 0.0082,
      "step": 10600
    },
    {
      "epoch": 0.2973188954533241,
      "grad_norm": 20.875,
      "learning_rate": 0.00014489149830196284,
      "loss": 0.0084,
      "step": 10650
    },
    {
      "epoch": 0.2987147588122599,
      "grad_norm": 23.375,
      "learning_rate": 0.00014460369538939736,
      "loss": 0.0079,
      "step": 10700
    },
    {
      "epoch": 0.30011062217119566,
      "grad_norm": 25.75,
      "learning_rate": 0.0001443158924768319,
      "loss": 0.0086,
      "step": 10750
    },
    {
      "epoch": 0.30150648553013143,
      "grad_norm": 8.6875,
      "learning_rate": 0.0001440280895642664,
      "loss": 0.0018,
      "step": 10800
    },
    {
      "epoch": 0.30290234888906725,
      "grad_norm": 20.375,
      "learning_rate": 0.00014374028665170091,
      "loss": 0.0011,
      "step": 10850
    },
    {
      "epoch": 0.304298212248003,
      "grad_norm": 11.75,
      "learning_rate": 0.00014345248373913544,
      "loss": 0.0047,
      "step": 10900
    },
    {
      "epoch": 0.30569407560693884,
      "grad_norm": 10.375,
      "learning_rate": 0.00014316468082656997,
      "loss": 0.0027,
      "step": 10950
    },
    {
      "epoch": 0.3070899389658746,
      "grad_norm": 7.21875,
      "learning_rate": 0.0001428768779140045,
      "loss": 0.0026,
      "step": 11000
    },
    {
      "epoch": 0.30848580232481043,
      "grad_norm": 9.0625,
      "learning_rate": 0.00014258907500143902,
      "loss": 0.0026,
      "step": 11050
    },
    {
      "epoch": 0.3098816656837462,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.00014230127208887355,
      "loss": 0.0026,
      "step": 11100
    },
    {
      "epoch": 0.311277529042682,
      "grad_norm": 5.78125,
      "learning_rate": 0.00014201346917630807,
      "loss": 0.0016,
      "step": 11150
    },
    {
      "epoch": 0.3126733924016178,
      "grad_norm": 16.125,
      "learning_rate": 0.0001417256662637426,
      "loss": 0.0027,
      "step": 11200
    },
    {
      "epoch": 0.3140692557605536,
      "grad_norm": 5.6875,
      "learning_rate": 0.00014143786335117712,
      "loss": 0.0033,
      "step": 11250
    },
    {
      "epoch": 0.3140692557605536,
      "eval_loss": 0.00012493817484937608,
      "eval_mae": 0.009413574822247028,
      "eval_rmse": 0.011177574284374714,
      "eval_runtime": 314.115,
      "eval_samples_per_second": 6.367,
      "eval_steps_per_second": 6.367,
      "step": 11250
    },
    {
      "epoch": 0.3154651191194894,
      "grad_norm": 10.0625,
      "learning_rate": 0.00014115006043861165,
      "loss": 0.013,
      "step": 11300
    },
    {
      "epoch": 0.3168609824784252,
      "grad_norm": 5.5625,
      "learning_rate": 0.00014086225752604615,
      "loss": 0.0025,
      "step": 11350
    },
    {
      "epoch": 0.31825684583736097,
      "grad_norm": 8.375,
      "learning_rate": 0.00014057445461348068,
      "loss": 0.0025,
      "step": 11400
    },
    {
      "epoch": 0.3196527091962968,
      "grad_norm": 9.0,
      "learning_rate": 0.00014028665170091523,
      "loss": 0.0024,
      "step": 11450
    },
    {
      "epoch": 0.32104857255523256,
      "grad_norm": 13.75,
      "learning_rate": 0.00013999884878834976,
      "loss": 0.0025,
      "step": 11500
    },
    {
      "epoch": 0.3224444359141684,
      "grad_norm": 3.453125,
      "learning_rate": 0.00013971104587578428,
      "loss": 0.0025,
      "step": 11550
    },
    {
      "epoch": 0.32384029927310415,
      "grad_norm": 8.375,
      "learning_rate": 0.0001394232429632188,
      "loss": 0.0024,
      "step": 11600
    },
    {
      "epoch": 0.32523616263203997,
      "grad_norm": 8.875,
      "learning_rate": 0.0001391354400506533,
      "loss": 0.0025,
      "step": 11650
    },
    {
      "epoch": 0.32663202599097574,
      "grad_norm": 11.8125,
      "learning_rate": 0.00013884763713808783,
      "loss": 0.0025,
      "step": 11700
    },
    {
      "epoch": 0.32802788934991156,
      "grad_norm": 3.1875,
      "learning_rate": 0.00013855983422552236,
      "loss": 0.0028,
      "step": 11750
    },
    {
      "epoch": 0.32942375270884733,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0001382720313129569,
      "loss": 0.0016,
      "step": 11800
    },
    {
      "epoch": 0.33081961606778315,
      "grad_norm": 7.15625,
      "learning_rate": 0.0001379842284003914,
      "loss": 0.0044,
      "step": 11850
    },
    {
      "epoch": 0.3322154794267189,
      "grad_norm": 4.71875,
      "learning_rate": 0.00013769642548782597,
      "loss": 0.0022,
      "step": 11900
    },
    {
      "epoch": 0.3336113427856547,
      "grad_norm": 13.9375,
      "learning_rate": 0.00013740862257526047,
      "loss": 0.0024,
      "step": 11950
    },
    {
      "epoch": 0.3350072061445905,
      "grad_norm": 6.75,
      "learning_rate": 0.000137120819662695,
      "loss": 0.0025,
      "step": 12000
    },
    {
      "epoch": 0.3364030695035263,
      "grad_norm": 7.15625,
      "learning_rate": 0.00013683301675012952,
      "loss": 0.0023,
      "step": 12050
    },
    {
      "epoch": 0.3377989328624621,
      "grad_norm": 3.515625,
      "learning_rate": 0.00013654521383756404,
      "loss": 0.0024,
      "step": 12100
    },
    {
      "epoch": 0.33919479622139787,
      "grad_norm": 12.875,
      "learning_rate": 0.00013625741092499857,
      "loss": 0.0024,
      "step": 12150
    },
    {
      "epoch": 0.3405906595803337,
      "grad_norm": 11.25,
      "learning_rate": 0.0001359696080124331,
      "loss": 0.0036,
      "step": 12200
    },
    {
      "epoch": 0.34198652293926946,
      "grad_norm": 8.8125,
      "learning_rate": 0.0001356818050998676,
      "loss": 0.0025,
      "step": 12250
    },
    {
      "epoch": 0.3433823862982053,
      "grad_norm": 0.07080078125,
      "learning_rate": 0.00013539400218730215,
      "loss": 0.0023,
      "step": 12300
    },
    {
      "epoch": 0.34477824965714104,
      "grad_norm": 7.40625,
      "learning_rate": 0.00013510619927473668,
      "loss": 0.005,
      "step": 12350
    },
    {
      "epoch": 0.34617411301607687,
      "grad_norm": 8.0,
      "learning_rate": 0.0001348183963621712,
      "loss": 0.0022,
      "step": 12400
    },
    {
      "epoch": 0.34756997637501263,
      "grad_norm": 4.1875,
      "learning_rate": 0.00013453059344960573,
      "loss": 0.0023,
      "step": 12450
    },
    {
      "epoch": 0.34896583973394846,
      "grad_norm": 15.5625,
      "learning_rate": 0.00013424279053704023,
      "loss": 0.0048,
      "step": 12500
    },
    {
      "epoch": 0.34896583973394846,
      "eval_loss": 0.0007875896408222616,
      "eval_mae": 0.027495475485920906,
      "eval_rmse": 0.028064027428627014,
      "eval_runtime": 313.9427,
      "eval_samples_per_second": 6.371,
      "eval_steps_per_second": 6.371,
      "step": 12500
    },
    {
      "epoch": 0.3503617030928842,
      "grad_norm": 10.125,
      "learning_rate": 0.00013395498762447475,
      "loss": 0.0012,
      "step": 12550
    },
    {
      "epoch": 0.35175756645182005,
      "grad_norm": 1.46875,
      "learning_rate": 0.00013366718471190928,
      "loss": 0.0025,
      "step": 12600
    },
    {
      "epoch": 0.3531534298107558,
      "grad_norm": 6.59375,
      "learning_rate": 0.0001333793817993438,
      "loss": 0.0009,
      "step": 12650
    },
    {
      "epoch": 0.35454929316969164,
      "grad_norm": 14.9375,
      "learning_rate": 0.00013309157888677833,
      "loss": 0.0024,
      "step": 12700
    },
    {
      "epoch": 0.3559451565286274,
      "grad_norm": 5.46875,
      "learning_rate": 0.0001328037759742129,
      "loss": 0.001,
      "step": 12750
    },
    {
      "epoch": 0.3573410198875632,
      "grad_norm": 2.25,
      "learning_rate": 0.00013251597306164739,
      "loss": 0.0007,
      "step": 12800
    },
    {
      "epoch": 0.358736883246499,
      "grad_norm": 3.265625,
      "learning_rate": 0.0001322281701490819,
      "loss": 0.0007,
      "step": 12850
    },
    {
      "epoch": 0.3601327466054348,
      "grad_norm": 4.53125,
      "learning_rate": 0.00013194036723651644,
      "loss": 0.0007,
      "step": 12900
    },
    {
      "epoch": 0.3615286099643706,
      "grad_norm": 3.671875,
      "learning_rate": 0.00013165256432395096,
      "loss": 0.0007,
      "step": 12950
    },
    {
      "epoch": 0.3629244733233064,
      "grad_norm": 2.75,
      "learning_rate": 0.0001313647614113855,
      "loss": 0.0007,
      "step": 13000
    },
    {
      "epoch": 0.3643203366822422,
      "grad_norm": 2.09375,
      "learning_rate": 0.00013107695849882002,
      "loss": 0.001,
      "step": 13050
    },
    {
      "epoch": 0.365716200041178,
      "grad_norm": 4.8125,
      "learning_rate": 0.00013078915558625454,
      "loss": 0.0026,
      "step": 13100
    },
    {
      "epoch": 0.36711206340011376,
      "grad_norm": 14.625,
      "learning_rate": 0.00013050135267368907,
      "loss": 0.0014,
      "step": 13150
    },
    {
      "epoch": 0.36850792675904953,
      "grad_norm": 11.875,
      "learning_rate": 0.0001302135497611236,
      "loss": 0.0011,
      "step": 13200
    },
    {
      "epoch": 0.36990379011798535,
      "grad_norm": 10.5625,
      "learning_rate": 0.00012992574684855812,
      "loss": 0.002,
      "step": 13250
    },
    {
      "epoch": 0.3712996534769211,
      "grad_norm": 12.75,
      "learning_rate": 0.00012963794393599265,
      "loss": 0.0025,
      "step": 13300
    },
    {
      "epoch": 0.37269551683585694,
      "grad_norm": 2.484375,
      "learning_rate": 0.00012935014102342718,
      "loss": 0.0019,
      "step": 13350
    },
    {
      "epoch": 0.3740913801947927,
      "grad_norm": 2.953125,
      "learning_rate": 0.00012906233811086167,
      "loss": 0.0004,
      "step": 13400
    },
    {
      "epoch": 0.37548724355372853,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0001287745351982962,
      "loss": 0.0009,
      "step": 13450
    },
    {
      "epoch": 0.3768831069126643,
      "grad_norm": 23.25,
      "learning_rate": 0.00012848673228573073,
      "loss": 0.0023,
      "step": 13500
    },
    {
      "epoch": 0.3782789702716001,
      "grad_norm": 5.875,
      "learning_rate": 0.00012819892937316525,
      "loss": 0.0061,
      "step": 13550
    },
    {
      "epoch": 0.3796748336305359,
      "grad_norm": 11.4375,
      "learning_rate": 0.0001279111264605998,
      "loss": 0.0043,
      "step": 13600
    },
    {
      "epoch": 0.3810706969894717,
      "grad_norm": 1.34375,
      "learning_rate": 0.0001276233235480343,
      "loss": 0.0021,
      "step": 13650
    },
    {
      "epoch": 0.3824665603484075,
      "grad_norm": 1.671875,
      "learning_rate": 0.00012733552063546883,
      "loss": 0.0022,
      "step": 13700
    },
    {
      "epoch": 0.3838624237073433,
      "grad_norm": 12.0625,
      "learning_rate": 0.00012704771772290336,
      "loss": 0.0009,
      "step": 13750
    },
    {
      "epoch": 0.3838624237073433,
      "eval_loss": 0.00010729853966040537,
      "eval_mae": 0.009244485758244991,
      "eval_rmse": 0.010358501225709915,
      "eval_runtime": 314.0246,
      "eval_samples_per_second": 6.369,
      "eval_steps_per_second": 6.369,
      "step": 13750
    },
    {
      "epoch": 0.38525828706627907,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00012675991481033788,
      "loss": 0.0029,
      "step": 13800
    },
    {
      "epoch": 0.3866541504252149,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0001264721118977724,
      "loss": 0.0017,
      "step": 13850
    },
    {
      "epoch": 0.38805001378415066,
      "grad_norm": 5.09375,
      "learning_rate": 0.00012618430898520694,
      "loss": 0.002,
      "step": 13900
    },
    {
      "epoch": 0.3894458771430865,
      "grad_norm": 6.21875,
      "learning_rate": 0.00012589650607264146,
      "loss": 0.0015,
      "step": 13950
    },
    {
      "epoch": 0.39084174050202225,
      "grad_norm": 7.78125,
      "learning_rate": 0.000125608703160076,
      "loss": 0.0019,
      "step": 14000
    },
    {
      "epoch": 0.3922376038609581,
      "grad_norm": 8.6875,
      "learning_rate": 0.00012532090024751052,
      "loss": 0.0019,
      "step": 14050
    },
    {
      "epoch": 0.39363346721989384,
      "grad_norm": 8.125,
      "learning_rate": 0.00012503309733494504,
      "loss": 0.0018,
      "step": 14100
    },
    {
      "epoch": 0.39502933057882966,
      "grad_norm": 10.375,
      "learning_rate": 0.00012474529442237957,
      "loss": 0.002,
      "step": 14150
    },
    {
      "epoch": 0.39642519393776543,
      "grad_norm": 3.5,
      "learning_rate": 0.0001244574915098141,
      "loss": 0.0018,
      "step": 14200
    },
    {
      "epoch": 0.39782105729670125,
      "grad_norm": 5.0625,
      "learning_rate": 0.0001241696885972486,
      "loss": 0.0023,
      "step": 14250
    },
    {
      "epoch": 0.399216920655637,
      "grad_norm": 7.15625,
      "learning_rate": 0.00012388188568468312,
      "loss": 0.0019,
      "step": 14300
    },
    {
      "epoch": 0.4006127840145728,
      "grad_norm": 2.65625,
      "learning_rate": 0.00012359408277211765,
      "loss": 0.003,
      "step": 14350
    },
    {
      "epoch": 0.4020086473735086,
      "grad_norm": 4.3125,
      "learning_rate": 0.0001233062798595522,
      "loss": 0.0024,
      "step": 14400
    },
    {
      "epoch": 0.4034045107324444,
      "grad_norm": 4.96875,
      "learning_rate": 0.00012301847694698673,
      "loss": 0.0032,
      "step": 14450
    },
    {
      "epoch": 0.4048003740913802,
      "grad_norm": 7.5625,
      "learning_rate": 0.00012273067403442125,
      "loss": 0.001,
      "step": 14500
    },
    {
      "epoch": 0.40619623745031597,
      "grad_norm": 7.1875,
      "learning_rate": 0.00012244287112185575,
      "loss": 0.0017,
      "step": 14550
    },
    {
      "epoch": 0.4075921008092518,
      "grad_norm": 7.875,
      "learning_rate": 0.00012215506820929028,
      "loss": 0.0017,
      "step": 14600
    },
    {
      "epoch": 0.40898796416818756,
      "grad_norm": 9.75,
      "learning_rate": 0.0001218672652967248,
      "loss": 0.0018,
      "step": 14650
    },
    {
      "epoch": 0.4103838275271234,
      "grad_norm": 6.125,
      "learning_rate": 0.00012157946238415933,
      "loss": 0.0016,
      "step": 14700
    },
    {
      "epoch": 0.41177969088605915,
      "grad_norm": 11.5625,
      "learning_rate": 0.00012129165947159387,
      "loss": 0.0018,
      "step": 14750
    },
    {
      "epoch": 0.41317555424499497,
      "grad_norm": 3.375,
      "learning_rate": 0.00012100385655902837,
      "loss": 0.0017,
      "step": 14800
    },
    {
      "epoch": 0.41457141760393074,
      "grad_norm": 4.3125,
      "learning_rate": 0.0001207160536464629,
      "loss": 0.0019,
      "step": 14850
    },
    {
      "epoch": 0.41596728096286656,
      "grad_norm": 6.96875,
      "learning_rate": 0.00012042825073389742,
      "loss": 0.0021,
      "step": 14900
    },
    {
      "epoch": 0.4173631443218023,
      "grad_norm": 4.34375,
      "learning_rate": 0.00012014044782133196,
      "loss": 0.0005,
      "step": 14950
    },
    {
      "epoch": 0.41875900768073815,
      "grad_norm": 3.890625,
      "learning_rate": 0.00011985264490876649,
      "loss": 0.0004,
      "step": 15000
    },
    {
      "epoch": 0.41875900768073815,
      "eval_loss": 2.5809065846260637e-05,
      "eval_mae": 0.004102489911019802,
      "eval_rmse": 0.005080262199044228,
      "eval_runtime": 313.9897,
      "eval_samples_per_second": 6.37,
      "eval_steps_per_second": 6.37,
      "step": 15000
    },
    {
      "epoch": 0.4201548710396739,
      "grad_norm": 6.03125,
      "learning_rate": 0.00011956484199620102,
      "loss": 0.0015,
      "step": 15050
    },
    {
      "epoch": 0.42155073439860974,
      "grad_norm": 10.0625,
      "learning_rate": 0.00011927703908363553,
      "loss": 0.0017,
      "step": 15100
    },
    {
      "epoch": 0.4229465977575455,
      "grad_norm": 4.03125,
      "learning_rate": 0.00011898923617107005,
      "loss": 0.0017,
      "step": 15150
    },
    {
      "epoch": 0.42434246111648133,
      "grad_norm": 6.21875,
      "learning_rate": 0.00011870143325850458,
      "loss": 0.0017,
      "step": 15200
    },
    {
      "epoch": 0.4257383244754171,
      "grad_norm": 0.8984375,
      "learning_rate": 0.00011841363034593911,
      "loss": 0.0016,
      "step": 15250
    },
    {
      "epoch": 0.4271341878343529,
      "grad_norm": 8.8125,
      "learning_rate": 0.00011812582743337363,
      "loss": 0.0015,
      "step": 15300
    },
    {
      "epoch": 0.4285300511932887,
      "grad_norm": 4.4375,
      "learning_rate": 0.00011783802452080816,
      "loss": 0.0016,
      "step": 15350
    },
    {
      "epoch": 0.4299259145522245,
      "grad_norm": 10.125,
      "learning_rate": 0.00011755022160824267,
      "loss": 0.0016,
      "step": 15400
    },
    {
      "epoch": 0.4313217779111603,
      "grad_norm": 7.5625,
      "learning_rate": 0.0001172624186956772,
      "loss": 0.0017,
      "step": 15450
    },
    {
      "epoch": 0.43271764127009604,
      "grad_norm": 6.46875,
      "learning_rate": 0.00011697461578311173,
      "loss": 0.0015,
      "step": 15500
    },
    {
      "epoch": 0.43411350462903187,
      "grad_norm": 2.421875,
      "learning_rate": 0.00011668681287054625,
      "loss": 0.0016,
      "step": 15550
    },
    {
      "epoch": 0.43550936798796763,
      "grad_norm": 5.75,
      "learning_rate": 0.00011639900995798079,
      "loss": 0.0016,
      "step": 15600
    },
    {
      "epoch": 0.43690523134690346,
      "grad_norm": 5.28125,
      "learning_rate": 0.00011611120704541532,
      "loss": 0.0021,
      "step": 15650
    },
    {
      "epoch": 0.4383010947058392,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00011582340413284982,
      "loss": 0.0009,
      "step": 15700
    },
    {
      "epoch": 0.43969695806477505,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00011553560122028436,
      "loss": 0.0003,
      "step": 15750
    },
    {
      "epoch": 0.4410928214237108,
      "grad_norm": 12.5625,
      "learning_rate": 0.00011524779830771888,
      "loss": 0.0006,
      "step": 15800
    },
    {
      "epoch": 0.44248868478264664,
      "grad_norm": 4.625,
      "learning_rate": 0.00011495999539515341,
      "loss": 0.001,
      "step": 15850
    },
    {
      "epoch": 0.4438845481415824,
      "grad_norm": 15.5,
      "learning_rate": 0.00011467219248258794,
      "loss": 0.0027,
      "step": 15900
    },
    {
      "epoch": 0.4452804115005182,
      "grad_norm": 13.125,
      "learning_rate": 0.00011438438957002245,
      "loss": 0.0032,
      "step": 15950
    },
    {
      "epoch": 0.446676274859454,
      "grad_norm": 14.6875,
      "learning_rate": 0.00011409658665745697,
      "loss": 0.0033,
      "step": 16000
    },
    {
      "epoch": 0.4480721382183898,
      "grad_norm": 15.1875,
      "learning_rate": 0.0001138087837448915,
      "loss": 0.0032,
      "step": 16050
    },
    {
      "epoch": 0.4494680015773256,
      "grad_norm": 10.4375,
      "learning_rate": 0.00011352098083232603,
      "loss": 0.0033,
      "step": 16100
    },
    {
      "epoch": 0.4508638649362614,
      "grad_norm": 14.5,
      "learning_rate": 0.00011323317791976055,
      "loss": 0.0032,
      "step": 16150
    },
    {
      "epoch": 0.45225972829519717,
      "grad_norm": 11.625,
      "learning_rate": 0.00011294537500719508,
      "loss": 0.0032,
      "step": 16200
    },
    {
      "epoch": 0.453655591654133,
      "grad_norm": 12.5625,
      "learning_rate": 0.00011265757209462959,
      "loss": 0.0032,
      "step": 16250
    },
    {
      "epoch": 0.453655591654133,
      "eval_loss": 0.0005641469615511596,
      "eval_mae": 0.023370979353785515,
      "eval_rmse": 0.02375177852809429,
      "eval_runtime": 313.9972,
      "eval_samples_per_second": 6.369,
      "eval_steps_per_second": 6.369,
      "step": 16250
    },
    {
      "epoch": 0.45505145501306876,
      "grad_norm": 13.0625,
      "learning_rate": 0.00011236976918206412,
      "loss": 0.0032,
      "step": 16300
    },
    {
      "epoch": 0.4564473183720046,
      "grad_norm": 9.875,
      "learning_rate": 0.00011208196626949865,
      "loss": 0.0031,
      "step": 16350
    },
    {
      "epoch": 0.45784318173094035,
      "grad_norm": 10.0625,
      "learning_rate": 0.00011179416335693319,
      "loss": 0.0031,
      "step": 16400
    },
    {
      "epoch": 0.4592390450898762,
      "grad_norm": 11.25,
      "learning_rate": 0.00011150636044436771,
      "loss": 0.0031,
      "step": 16450
    },
    {
      "epoch": 0.46063490844881194,
      "grad_norm": 11.6875,
      "learning_rate": 0.00011121855753180224,
      "loss": 0.003,
      "step": 16500
    },
    {
      "epoch": 0.46203077180774776,
      "grad_norm": 12.25,
      "learning_rate": 0.00011093075461923674,
      "loss": 0.003,
      "step": 16550
    },
    {
      "epoch": 0.46342663516668353,
      "grad_norm": 11.5,
      "learning_rate": 0.00011064295170667128,
      "loss": 0.003,
      "step": 16600
    },
    {
      "epoch": 0.46482249852561935,
      "grad_norm": 14.75,
      "learning_rate": 0.0001103551487941058,
      "loss": 0.003,
      "step": 16650
    },
    {
      "epoch": 0.4662183618845551,
      "grad_norm": 13.875,
      "learning_rate": 0.00011006734588154033,
      "loss": 0.0029,
      "step": 16700
    },
    {
      "epoch": 0.4676142252434909,
      "grad_norm": 13.6875,
      "learning_rate": 0.00010977954296897486,
      "loss": 0.0031,
      "step": 16750
    },
    {
      "epoch": 0.4690100886024267,
      "grad_norm": 3.796875,
      "learning_rate": 0.00010949174005640938,
      "loss": 0.0019,
      "step": 16800
    },
    {
      "epoch": 0.4704059519613625,
      "grad_norm": 5.59375,
      "learning_rate": 0.0001092039371438439,
      "loss": 0.0012,
      "step": 16850
    },
    {
      "epoch": 0.4718018153202983,
      "grad_norm": 2.921875,
      "learning_rate": 0.00010891613423127842,
      "loss": 0.0012,
      "step": 16900
    },
    {
      "epoch": 0.47319767867923407,
      "grad_norm": 8.6875,
      "learning_rate": 0.00010862833131871295,
      "loss": 0.0012,
      "step": 16950
    },
    {
      "epoch": 0.4745935420381699,
      "grad_norm": 3.96875,
      "learning_rate": 0.00010834052840614747,
      "loss": 0.0012,
      "step": 17000
    },
    {
      "epoch": 0.47598940539710566,
      "grad_norm": 10.1875,
      "learning_rate": 0.00010805272549358201,
      "loss": 0.0012,
      "step": 17050
    },
    {
      "epoch": 0.4773852687560415,
      "grad_norm": 0.12255859375,
      "learning_rate": 0.00010776492258101651,
      "loss": 0.0015,
      "step": 17100
    },
    {
      "epoch": 0.47878113211497725,
      "grad_norm": 6.1875,
      "learning_rate": 0.00010747711966845104,
      "loss": 0.0015,
      "step": 17150
    },
    {
      "epoch": 0.48017699547391307,
      "grad_norm": 3.1875,
      "learning_rate": 0.00010718931675588557,
      "loss": 0.0012,
      "step": 17200
    },
    {
      "epoch": 0.48157285883284884,
      "grad_norm": 6.09375,
      "learning_rate": 0.0001069015138433201,
      "loss": 0.001,
      "step": 17250
    },
    {
      "epoch": 0.48296872219178466,
      "grad_norm": 11.875,
      "learning_rate": 0.00010661371093075463,
      "loss": 0.0018,
      "step": 17300
    },
    {
      "epoch": 0.48436458555072043,
      "grad_norm": 14.9375,
      "learning_rate": 0.00010632590801818916,
      "loss": 0.0029,
      "step": 17350
    },
    {
      "epoch": 0.48576044890965625,
      "grad_norm": 15.75,
      "learning_rate": 0.00010603810510562366,
      "loss": 0.0027,
      "step": 17400
    },
    {
      "epoch": 0.487156312268592,
      "grad_norm": 2.328125,
      "learning_rate": 0.0001057503021930582,
      "loss": 0.002,
      "step": 17450
    },
    {
      "epoch": 0.48855217562752784,
      "grad_norm": 4.875,
      "learning_rate": 0.00010546249928049272,
      "loss": 0.0018,
      "step": 17500
    },
    {
      "epoch": 0.48855217562752784,
      "eval_loss": 8.424516272498295e-05,
      "eval_mae": 0.00828312523663044,
      "eval_rmse": 0.009178516454994678,
      "eval_runtime": 314.273,
      "eval_samples_per_second": 6.364,
      "eval_steps_per_second": 6.364,
      "step": 17500
    },
    {
      "epoch": 0.4899480389864636,
      "grad_norm": 5.65625,
      "learning_rate": 0.00010517469636792725,
      "loss": 0.0016,
      "step": 17550
    },
    {
      "epoch": 0.49134390234539943,
      "grad_norm": 3.375,
      "learning_rate": 0.00010488689345536178,
      "loss": 0.0016,
      "step": 17600
    },
    {
      "epoch": 0.4927397657043352,
      "grad_norm": 9.25,
      "learning_rate": 0.0001045990905427963,
      "loss": 0.0006,
      "step": 17650
    },
    {
      "epoch": 0.494135629063271,
      "grad_norm": 2.6875,
      "learning_rate": 0.00010431128763023082,
      "loss": 0.0005,
      "step": 17700
    },
    {
      "epoch": 0.4955314924222068,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00010402348471766534,
      "loss": 0.0015,
      "step": 17750
    },
    {
      "epoch": 0.4969273557811426,
      "grad_norm": 2.390625,
      "learning_rate": 0.00010373568180509987,
      "loss": 0.0013,
      "step": 17800
    },
    {
      "epoch": 0.4983232191400784,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0001034478788925344,
      "loss": 0.0012,
      "step": 17850
    },
    {
      "epoch": 0.49971908249901414,
      "grad_norm": 13.0625,
      "learning_rate": 0.00010316007597996893,
      "loss": 0.0011,
      "step": 17900
    },
    {
      "epoch": 0.5011149458579499,
      "grad_norm": 1.1953125,
      "learning_rate": 0.00010287227306740346,
      "loss": 0.0006,
      "step": 17950
    },
    {
      "epoch": 0.5025108092168857,
      "grad_norm": 3.578125,
      "learning_rate": 0.00010258447015483796,
      "loss": 0.0003,
      "step": 18000
    },
    {
      "epoch": 0.5039066725758216,
      "grad_norm": 0.1259765625,
      "learning_rate": 0.00010229666724227249,
      "loss": 0.0003,
      "step": 18050
    },
    {
      "epoch": 0.5053025359347574,
      "grad_norm": 5.34375,
      "learning_rate": 0.00010200886432970703,
      "loss": 0.0009,
      "step": 18100
    },
    {
      "epoch": 0.5066983992936931,
      "grad_norm": 0.134765625,
      "learning_rate": 0.00010172106141714155,
      "loss": 0.0023,
      "step": 18150
    },
    {
      "epoch": 0.5080942626526289,
      "grad_norm": 0.703125,
      "learning_rate": 0.00010143325850457608,
      "loss": 0.001,
      "step": 18200
    },
    {
      "epoch": 0.5094901260115647,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00010114545559201059,
      "loss": 0.0023,
      "step": 18250
    },
    {
      "epoch": 0.5108859893705006,
      "grad_norm": 7.0,
      "learning_rate": 0.00010085765267944512,
      "loss": 0.001,
      "step": 18300
    },
    {
      "epoch": 0.5122818527294363,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00010056984976687964,
      "loss": 0.0006,
      "step": 18350
    },
    {
      "epoch": 0.5136777160883721,
      "grad_norm": 3.53125,
      "learning_rate": 0.00010028204685431417,
      "loss": 0.0002,
      "step": 18400
    },
    {
      "epoch": 0.5150735794473079,
      "grad_norm": 0.1396484375,
      "learning_rate": 9.99942439417487e-05,
      "loss": 0.0003,
      "step": 18450
    },
    {
      "epoch": 0.5164694428062437,
      "grad_norm": 1.3203125,
      "learning_rate": 9.970644102918322e-05,
      "loss": 0.0003,
      "step": 18500
    },
    {
      "epoch": 0.5178653061651795,
      "grad_norm": 1.7890625,
      "learning_rate": 9.941863811661775e-05,
      "loss": 0.0005,
      "step": 18550
    },
    {
      "epoch": 0.5192611695241153,
      "grad_norm": 0.66015625,
      "learning_rate": 9.913083520405228e-05,
      "loss": 0.0009,
      "step": 18600
    },
    {
      "epoch": 0.5206570328830511,
      "grad_norm": 0.08349609375,
      "learning_rate": 9.884303229148679e-05,
      "loss": 0.0002,
      "step": 18650
    },
    {
      "epoch": 0.5220528962419869,
      "grad_norm": 4.125,
      "learning_rate": 9.855522937892131e-05,
      "loss": 0.0007,
      "step": 18700
    },
    {
      "epoch": 0.5234487596009226,
      "grad_norm": 5.53125,
      "learning_rate": 9.826742646635585e-05,
      "loss": 0.0008,
      "step": 18750
    },
    {
      "epoch": 0.5234487596009226,
      "eval_loss": 0.00011440851085353643,
      "eval_mae": 0.010100271552801132,
      "eval_rmse": 0.01069619134068489,
      "eval_runtime": 318.3188,
      "eval_samples_per_second": 6.283,
      "eval_steps_per_second": 6.283,
      "step": 18750
    },
    {
      "epoch": 0.5248446229598585,
      "grad_norm": 1.0625,
      "learning_rate": 9.797962355379037e-05,
      "loss": 0.0008,
      "step": 18800
    },
    {
      "epoch": 0.5262404863187943,
      "grad_norm": 0.8984375,
      "learning_rate": 9.76918206412249e-05,
      "loss": 0.0007,
      "step": 18850
    },
    {
      "epoch": 0.5276363496777301,
      "grad_norm": 5.6875,
      "learning_rate": 9.740401772865942e-05,
      "loss": 0.0009,
      "step": 18900
    },
    {
      "epoch": 0.5290322130366658,
      "grad_norm": 8.25,
      "learning_rate": 9.711621481609395e-05,
      "loss": 0.0005,
      "step": 18950
    },
    {
      "epoch": 0.5304280763956016,
      "grad_norm": 2.21875,
      "learning_rate": 9.682841190352847e-05,
      "loss": 0.0007,
      "step": 19000
    },
    {
      "epoch": 0.5318239397545375,
      "grad_norm": 0.73046875,
      "learning_rate": 9.654060899096299e-05,
      "loss": 0.0003,
      "step": 19050
    },
    {
      "epoch": 0.5332198031134732,
      "grad_norm": 5.90625,
      "learning_rate": 9.625280607839751e-05,
      "loss": 0.0007,
      "step": 19100
    },
    {
      "epoch": 0.534615666472409,
      "grad_norm": 1.5859375,
      "learning_rate": 9.596500316583205e-05,
      "loss": 0.0006,
      "step": 19150
    },
    {
      "epoch": 0.5360115298313448,
      "grad_norm": 0.546875,
      "learning_rate": 9.567720025326656e-05,
      "loss": 0.0004,
      "step": 19200
    },
    {
      "epoch": 0.5374073931902806,
      "grad_norm": 2.9375,
      "learning_rate": 9.538939734070109e-05,
      "loss": 0.001,
      "step": 19250
    },
    {
      "epoch": 0.5388032565492163,
      "grad_norm": 9.6875,
      "learning_rate": 9.510159442813562e-05,
      "loss": 0.0012,
      "step": 19300
    },
    {
      "epoch": 0.5401991199081522,
      "grad_norm": 2.328125,
      "learning_rate": 9.481379151557014e-05,
      "loss": 0.0005,
      "step": 19350
    },
    {
      "epoch": 0.541594983267088,
      "grad_norm": 0.038330078125,
      "learning_rate": 9.452598860300467e-05,
      "loss": 0.0002,
      "step": 19400
    },
    {
      "epoch": 0.5429908466260238,
      "grad_norm": 4.71875,
      "learning_rate": 9.42381856904392e-05,
      "loss": 0.0011,
      "step": 19450
    },
    {
      "epoch": 0.5443867099849595,
      "grad_norm": 0.34765625,
      "learning_rate": 9.395038277787371e-05,
      "loss": 0.0003,
      "step": 19500
    },
    {
      "epoch": 0.5457825733438953,
      "grad_norm": 6.46875,
      "learning_rate": 9.366257986530825e-05,
      "loss": 0.0011,
      "step": 19550
    },
    {
      "epoch": 0.5471784367028312,
      "grad_norm": 0.2451171875,
      "learning_rate": 9.337477695274277e-05,
      "loss": 0.0018,
      "step": 19600
    },
    {
      "epoch": 0.548574300061767,
      "grad_norm": 3.90625,
      "learning_rate": 9.308697404017729e-05,
      "loss": 0.0008,
      "step": 19650
    },
    {
      "epoch": 0.5499701634207027,
      "grad_norm": 8.75,
      "learning_rate": 9.279917112761181e-05,
      "loss": 0.0008,
      "step": 19700
    },
    {
      "epoch": 0.5513660267796385,
      "grad_norm": 9.0,
      "learning_rate": 9.251136821504634e-05,
      "loss": 0.0019,
      "step": 19750
    },
    {
      "epoch": 0.5527618901385744,
      "grad_norm": 8.75,
      "learning_rate": 9.222356530248087e-05,
      "loss": 0.0019,
      "step": 19800
    },
    {
      "epoch": 0.5541577534975102,
      "grad_norm": 9.1875,
      "learning_rate": 9.193576238991539e-05,
      "loss": 0.0014,
      "step": 19850
    },
    {
      "epoch": 0.5555536168564459,
      "grad_norm": 0.345703125,
      "learning_rate": 9.164795947734992e-05,
      "loss": 0.0018,
      "step": 19900
    },
    {
      "epoch": 0.5569494802153817,
      "grad_norm": 3.34375,
      "learning_rate": 9.136015656478443e-05,
      "loss": 0.0005,
      "step": 19950
    },
    {
      "epoch": 0.5583453435743175,
      "grad_norm": 1.15625,
      "learning_rate": 9.107235365221897e-05,
      "loss": 0.0007,
      "step": 20000
    },
    {
      "epoch": 0.5583453435743175,
      "eval_loss": 3.620574716478586e-05,
      "eval_mae": 0.0052015818655490875,
      "eval_rmse": 0.006017121020704508,
      "eval_runtime": 318.2368,
      "eval_samples_per_second": 6.285,
      "eval_steps_per_second": 6.285,
      "step": 20000
    },
    {
      "epoch": 0.5597412069332534,
      "grad_norm": 3.375,
      "learning_rate": 9.078455073965348e-05,
      "loss": 0.0002,
      "step": 20050
    },
    {
      "epoch": 0.5611370702921891,
      "grad_norm": 3.6875,
      "learning_rate": 9.049674782708801e-05,
      "loss": 0.0003,
      "step": 20100
    },
    {
      "epoch": 0.5625329336511249,
      "grad_norm": 3.640625,
      "learning_rate": 9.020894491452254e-05,
      "loss": 0.0006,
      "step": 20150
    },
    {
      "epoch": 0.5639287970100607,
      "grad_norm": 2.34375,
      "learning_rate": 8.992114200195706e-05,
      "loss": 0.0003,
      "step": 20200
    },
    {
      "epoch": 0.5653246603689965,
      "grad_norm": 2.171875,
      "learning_rate": 8.963333908939159e-05,
      "loss": 0.0004,
      "step": 20250
    },
    {
      "epoch": 0.5667205237279322,
      "grad_norm": 2.078125,
      "learning_rate": 8.934553617682612e-05,
      "loss": 0.0003,
      "step": 20300
    },
    {
      "epoch": 0.5681163870868681,
      "grad_norm": 2.203125,
      "learning_rate": 8.905773326426063e-05,
      "loss": 0.0007,
      "step": 20350
    },
    {
      "epoch": 0.5695122504458039,
      "grad_norm": 11.9375,
      "learning_rate": 8.876993035169517e-05,
      "loss": 0.0008,
      "step": 20400
    },
    {
      "epoch": 0.5709081138047396,
      "grad_norm": 0.9296875,
      "learning_rate": 8.84821274391297e-05,
      "loss": 0.001,
      "step": 20450
    },
    {
      "epoch": 0.5723039771636754,
      "grad_norm": 7.78125,
      "learning_rate": 8.819432452656421e-05,
      "loss": 0.0007,
      "step": 20500
    },
    {
      "epoch": 0.5736998405226112,
      "grad_norm": 2.40625,
      "learning_rate": 8.790652161399873e-05,
      "loss": 0.0003,
      "step": 20550
    },
    {
      "epoch": 0.5750957038815471,
      "grad_norm": 0.8359375,
      "learning_rate": 8.761871870143326e-05,
      "loss": 0.0004,
      "step": 20600
    },
    {
      "epoch": 0.5764915672404828,
      "grad_norm": 3.40625,
      "learning_rate": 8.733091578886779e-05,
      "loss": 0.0005,
      "step": 20650
    },
    {
      "epoch": 0.5778874305994186,
      "grad_norm": 7.53125,
      "learning_rate": 8.704311287630231e-05,
      "loss": 0.0012,
      "step": 20700
    },
    {
      "epoch": 0.5792832939583544,
      "grad_norm": 2.953125,
      "learning_rate": 8.675530996373684e-05,
      "loss": 0.0014,
      "step": 20750
    },
    {
      "epoch": 0.5806791573172903,
      "grad_norm": 0.2060546875,
      "learning_rate": 8.646750705117137e-05,
      "loss": 0.0003,
      "step": 20800
    },
    {
      "epoch": 0.582075020676226,
      "grad_norm": 5.875,
      "learning_rate": 8.617970413860589e-05,
      "loss": 0.0004,
      "step": 20850
    },
    {
      "epoch": 0.5834708840351618,
      "grad_norm": 2.703125,
      "learning_rate": 8.589190122604042e-05,
      "loss": 0.0004,
      "step": 20900
    },
    {
      "epoch": 0.5848667473940976,
      "grad_norm": 5.34375,
      "learning_rate": 8.560409831347493e-05,
      "loss": 0.0004,
      "step": 20950
    },
    {
      "epoch": 0.5862626107530334,
      "grad_norm": 0.6171875,
      "learning_rate": 8.531629540090946e-05,
      "loss": 0.0002,
      "step": 21000
    },
    {
      "epoch": 0.5876584741119691,
      "grad_norm": 3.703125,
      "learning_rate": 8.5028492488344e-05,
      "loss": 0.0003,
      "step": 21050
    },
    {
      "epoch": 0.589054337470905,
      "grad_norm": 1.890625,
      "learning_rate": 8.474068957577851e-05,
      "loss": 0.0002,
      "step": 21100
    },
    {
      "epoch": 0.5904502008298408,
      "grad_norm": 0.6640625,
      "learning_rate": 8.445288666321304e-05,
      "loss": 0.0003,
      "step": 21150
    },
    {
      "epoch": 0.5918460641887766,
      "grad_norm": 0.031005859375,
      "learning_rate": 8.416508375064755e-05,
      "loss": 0.0004,
      "step": 21200
    },
    {
      "epoch": 0.5932419275477123,
      "grad_norm": 7.21875,
      "learning_rate": 8.387728083808209e-05,
      "loss": 0.0005,
      "step": 21250
    },
    {
      "epoch": 0.5932419275477123,
      "eval_loss": 0.00024837159435264766,
      "eval_mae": 0.015309196896851063,
      "eval_rmse": 0.01575980894267559,
      "eval_runtime": 314.8323,
      "eval_samples_per_second": 6.353,
      "eval_steps_per_second": 6.353,
      "step": 21250
    },
    {
      "epoch": 0.5946377909066481,
      "grad_norm": 0.150390625,
      "learning_rate": 8.358947792551661e-05,
      "loss": 0.0006,
      "step": 21300
    },
    {
      "epoch": 0.596033654265584,
      "grad_norm": 0.287109375,
      "learning_rate": 8.330167501295113e-05,
      "loss": 0.0002,
      "step": 21350
    },
    {
      "epoch": 0.5974295176245198,
      "grad_norm": 4.40625,
      "learning_rate": 8.301387210038565e-05,
      "loss": 0.0013,
      "step": 21400
    },
    {
      "epoch": 0.5988253809834555,
      "grad_norm": 1.8515625,
      "learning_rate": 8.27260691878202e-05,
      "loss": 0.0003,
      "step": 21450
    },
    {
      "epoch": 0.6002212443423913,
      "grad_norm": 7.625,
      "learning_rate": 8.24382662752547e-05,
      "loss": 0.0003,
      "step": 21500
    },
    {
      "epoch": 0.6016171077013271,
      "grad_norm": 0.90625,
      "learning_rate": 8.215046336268923e-05,
      "loss": 0.0005,
      "step": 21550
    },
    {
      "epoch": 0.6030129710602629,
      "grad_norm": 2.0625,
      "learning_rate": 8.186266045012376e-05,
      "loss": 0.0006,
      "step": 21600
    },
    {
      "epoch": 0.6044088344191987,
      "grad_norm": 0.0751953125,
      "learning_rate": 8.157485753755829e-05,
      "loss": 0.0002,
      "step": 21650
    },
    {
      "epoch": 0.6058046977781345,
      "grad_norm": 4.6875,
      "learning_rate": 8.128705462499281e-05,
      "loss": 0.0002,
      "step": 21700
    },
    {
      "epoch": 0.6072005611370703,
      "grad_norm": 0.392578125,
      "learning_rate": 8.099925171242734e-05,
      "loss": 0.0005,
      "step": 21750
    },
    {
      "epoch": 0.608596424496006,
      "grad_norm": 0.609375,
      "learning_rate": 8.071144879986185e-05,
      "loss": 0.0003,
      "step": 21800
    },
    {
      "epoch": 0.6099922878549419,
      "grad_norm": 0.71484375,
      "learning_rate": 8.042364588729638e-05,
      "loss": 0.0002,
      "step": 21850
    },
    {
      "epoch": 0.6113881512138777,
      "grad_norm": 2.296875,
      "learning_rate": 8.013584297473092e-05,
      "loss": 0.0002,
      "step": 21900
    },
    {
      "epoch": 0.6127840145728135,
      "grad_norm": 1.0234375,
      "learning_rate": 7.984804006216543e-05,
      "loss": 0.0002,
      "step": 21950
    },
    {
      "epoch": 0.6141798779317492,
      "grad_norm": 3.59375,
      "learning_rate": 7.956023714959996e-05,
      "loss": 0.0006,
      "step": 22000
    },
    {
      "epoch": 0.615575741290685,
      "grad_norm": 0.345703125,
      "learning_rate": 7.927243423703448e-05,
      "loss": 0.0005,
      "step": 22050
    },
    {
      "epoch": 0.6169716046496209,
      "grad_norm": 0.921875,
      "learning_rate": 7.898463132446901e-05,
      "loss": 0.0002,
      "step": 22100
    },
    {
      "epoch": 0.6183674680085567,
      "grad_norm": 3.40625,
      "learning_rate": 7.869682841190354e-05,
      "loss": 0.0003,
      "step": 22150
    },
    {
      "epoch": 0.6197633313674924,
      "grad_norm": 2.953125,
      "learning_rate": 7.840902549933806e-05,
      "loss": 0.0003,
      "step": 22200
    },
    {
      "epoch": 0.6211591947264282,
      "grad_norm": 2.484375,
      "learning_rate": 7.812122258677257e-05,
      "loss": 0.0005,
      "step": 22250
    },
    {
      "epoch": 0.622555058085364,
      "grad_norm": 2.15625,
      "learning_rate": 7.783341967420711e-05,
      "loss": 0.0002,
      "step": 22300
    },
    {
      "epoch": 0.6239509214442999,
      "grad_norm": 0.734375,
      "learning_rate": 7.754561676164163e-05,
      "loss": 0.0002,
      "step": 22350
    },
    {
      "epoch": 0.6253467848032356,
      "grad_norm": 0.0380859375,
      "learning_rate": 7.725781384907615e-05,
      "loss": 0.0002,
      "step": 22400
    },
    {
      "epoch": 0.6267426481621714,
      "grad_norm": 14.0625,
      "learning_rate": 7.697001093651068e-05,
      "loss": 0.0017,
      "step": 22450
    },
    {
      "epoch": 0.6281385115211072,
      "grad_norm": 8.625,
      "learning_rate": 7.66822080239452e-05,
      "loss": 0.0023,
      "step": 22500
    },
    {
      "epoch": 0.6281385115211072,
      "eval_loss": 6.291436875471845e-05,
      "eval_mae": 0.00715098949149251,
      "eval_rmse": 0.00793185830116272,
      "eval_runtime": 315.2915,
      "eval_samples_per_second": 6.343,
      "eval_steps_per_second": 6.343,
      "step": 22500
    },
    {
      "epoch": 0.629534374880043,
      "grad_norm": 9.0,
      "learning_rate": 7.639440511137973e-05,
      "loss": 0.0021,
      "step": 22550
    },
    {
      "epoch": 0.6309302382389788,
      "grad_norm": 10.875,
      "learning_rate": 7.610660219881426e-05,
      "loss": 0.0022,
      "step": 22600
    },
    {
      "epoch": 0.6323261015979146,
      "grad_norm": 1.9453125,
      "learning_rate": 7.581879928624877e-05,
      "loss": 0.002,
      "step": 22650
    },
    {
      "epoch": 0.6337219649568504,
      "grad_norm": 1.15625,
      "learning_rate": 7.553099637368331e-05,
      "loss": 0.0006,
      "step": 22700
    },
    {
      "epoch": 0.6351178283157861,
      "grad_norm": 2.40625,
      "learning_rate": 7.524319346111784e-05,
      "loss": 0.0002,
      "step": 22750
    },
    {
      "epoch": 0.6365136916747219,
      "grad_norm": 1.203125,
      "learning_rate": 7.495539054855235e-05,
      "loss": 0.0003,
      "step": 22800
    },
    {
      "epoch": 0.6379095550336578,
      "grad_norm": 3.46875,
      "learning_rate": 7.466758763598688e-05,
      "loss": 0.0003,
      "step": 22850
    },
    {
      "epoch": 0.6393054183925936,
      "grad_norm": 0.484375,
      "learning_rate": 7.43797847234214e-05,
      "loss": 0.0003,
      "step": 22900
    },
    {
      "epoch": 0.6407012817515293,
      "grad_norm": 8.0625,
      "learning_rate": 7.409198181085593e-05,
      "loss": 0.0005,
      "step": 22950
    },
    {
      "epoch": 0.6420971451104651,
      "grad_norm": 0.158203125,
      "learning_rate": 7.380417889829046e-05,
      "loss": 0.0003,
      "step": 23000
    },
    {
      "epoch": 0.6434930084694009,
      "grad_norm": 0.1728515625,
      "learning_rate": 7.351637598572498e-05,
      "loss": 0.0002,
      "step": 23050
    },
    {
      "epoch": 0.6448888718283368,
      "grad_norm": 0.4765625,
      "learning_rate": 7.32285730731595e-05,
      "loss": 0.0002,
      "step": 23100
    },
    {
      "epoch": 0.6462847351872725,
      "grad_norm": 4.28125,
      "learning_rate": 7.294077016059403e-05,
      "loss": 0.0002,
      "step": 23150
    },
    {
      "epoch": 0.6476805985462083,
      "grad_norm": 0.0625,
      "learning_rate": 7.265296724802856e-05,
      "loss": 0.0009,
      "step": 23200
    },
    {
      "epoch": 0.6490764619051441,
      "grad_norm": 0.361328125,
      "learning_rate": 7.236516433546307e-05,
      "loss": 0.0002,
      "step": 23250
    },
    {
      "epoch": 0.6504723252640799,
      "grad_norm": 0.21875,
      "learning_rate": 7.20773614228976e-05,
      "loss": 0.0001,
      "step": 23300
    },
    {
      "epoch": 0.6518681886230157,
      "grad_norm": 4.5,
      "learning_rate": 7.178955851033214e-05,
      "loss": 0.0003,
      "step": 23350
    },
    {
      "epoch": 0.6532640519819515,
      "grad_norm": 2.90625,
      "learning_rate": 7.150175559776665e-05,
      "loss": 0.0003,
      "step": 23400
    },
    {
      "epoch": 0.6546599153408873,
      "grad_norm": 0.1669921875,
      "learning_rate": 7.121395268520118e-05,
      "loss": 0.0002,
      "step": 23450
    },
    {
      "epoch": 0.6560557786998231,
      "grad_norm": 3.78125,
      "learning_rate": 7.092614977263569e-05,
      "loss": 0.0002,
      "step": 23500
    },
    {
      "epoch": 0.6574516420587588,
      "grad_norm": 3.234375,
      "learning_rate": 7.063834686007023e-05,
      "loss": 0.0003,
      "step": 23550
    },
    {
      "epoch": 0.6588475054176947,
      "grad_norm": 2.6875,
      "learning_rate": 7.035054394750476e-05,
      "loss": 0.0002,
      "step": 23600
    },
    {
      "epoch": 0.6602433687766305,
      "grad_norm": 0.75,
      "learning_rate": 7.006274103493927e-05,
      "loss": 0.0003,
      "step": 23650
    },
    {
      "epoch": 0.6616392321355663,
      "grad_norm": 0.11865234375,
      "learning_rate": 6.97749381223738e-05,
      "loss": 0.0002,
      "step": 23700
    },
    {
      "epoch": 0.663035095494502,
      "grad_norm": 0.53515625,
      "learning_rate": 6.948713520980832e-05,
      "loss": 0.0002,
      "step": 23750
    },
    {
      "epoch": 0.663035095494502,
      "eval_loss": 1.540686389489565e-05,
      "eval_mae": 0.0031748104374855757,
      "eval_rmse": 0.0039251577109098434,
      "eval_runtime": 315.0516,
      "eval_samples_per_second": 6.348,
      "eval_steps_per_second": 6.348,
      "step": 23750
    },
    {
      "epoch": 0.6644309588534378,
      "grad_norm": 2.734375,
      "learning_rate": 6.919933229724285e-05,
      "loss": 0.0002,
      "step": 23800
    },
    {
      "epoch": 0.6658268222123737,
      "grad_norm": 2.3125,
      "learning_rate": 6.891152938467738e-05,
      "loss": 0.0001,
      "step": 23850
    },
    {
      "epoch": 0.6672226855713094,
      "grad_norm": 0.34765625,
      "learning_rate": 6.86237264721119e-05,
      "loss": 0.0001,
      "step": 23900
    },
    {
      "epoch": 0.6686185489302452,
      "grad_norm": 0.41796875,
      "learning_rate": 6.833592355954643e-05,
      "loss": 0.0002,
      "step": 23950
    },
    {
      "epoch": 0.670014412289181,
      "grad_norm": 4.78125,
      "learning_rate": 6.804812064698095e-05,
      "loss": 0.0002,
      "step": 24000
    },
    {
      "epoch": 0.6714102756481168,
      "grad_norm": 2.96875,
      "learning_rate": 6.776031773441548e-05,
      "loss": 0.0003,
      "step": 24050
    },
    {
      "epoch": 0.6728061390070526,
      "grad_norm": 0.7265625,
      "learning_rate": 6.747251482185e-05,
      "loss": 0.0002,
      "step": 24100
    },
    {
      "epoch": 0.6742020023659884,
      "grad_norm": 1.1328125,
      "learning_rate": 6.718471190928452e-05,
      "loss": 0.0002,
      "step": 24150
    },
    {
      "epoch": 0.6755978657249242,
      "grad_norm": 0.84765625,
      "learning_rate": 6.689690899671906e-05,
      "loss": 0.0003,
      "step": 24200
    },
    {
      "epoch": 0.67699372908386,
      "grad_norm": 0.2421875,
      "learning_rate": 6.660910608415357e-05,
      "loss": 0.0002,
      "step": 24250
    },
    {
      "epoch": 0.6783895924427957,
      "grad_norm": 4.40625,
      "learning_rate": 6.63213031715881e-05,
      "loss": 0.0003,
      "step": 24300
    },
    {
      "epoch": 0.6797854558017316,
      "grad_norm": 0.30078125,
      "learning_rate": 6.603350025902263e-05,
      "loss": 0.0002,
      "step": 24350
    },
    {
      "epoch": 0.6811813191606674,
      "grad_norm": 2.78125,
      "learning_rate": 6.574569734645715e-05,
      "loss": 0.0002,
      "step": 24400
    },
    {
      "epoch": 0.6825771825196032,
      "grad_norm": 0.984375,
      "learning_rate": 6.545789443389168e-05,
      "loss": 0.0002,
      "step": 24450
    },
    {
      "epoch": 0.6839730458785389,
      "grad_norm": 3.3125,
      "learning_rate": 6.51700915213262e-05,
      "loss": 0.0006,
      "step": 24500
    },
    {
      "epoch": 0.6853689092374747,
      "grad_norm": 1.5625,
      "learning_rate": 6.488228860876072e-05,
      "loss": 0.0001,
      "step": 24550
    },
    {
      "epoch": 0.6867647725964106,
      "grad_norm": 2.53125,
      "learning_rate": 6.459448569619526e-05,
      "loss": 0.0002,
      "step": 24600
    },
    {
      "epoch": 0.6881606359553464,
      "grad_norm": 2.65625,
      "learning_rate": 6.430668278362977e-05,
      "loss": 0.0002,
      "step": 24650
    },
    {
      "epoch": 0.6895564993142821,
      "grad_norm": 0.6328125,
      "learning_rate": 6.40188798710643e-05,
      "loss": 0.0002,
      "step": 24700
    },
    {
      "epoch": 0.6909523626732179,
      "grad_norm": 3.015625,
      "learning_rate": 6.373107695849882e-05,
      "loss": 0.0004,
      "step": 24750
    },
    {
      "epoch": 0.6923482260321537,
      "grad_norm": 3.390625,
      "learning_rate": 6.344327404593335e-05,
      "loss": 0.0003,
      "step": 24800
    },
    {
      "epoch": 0.6937440893910896,
      "grad_norm": 0.55078125,
      "learning_rate": 6.315547113336787e-05,
      "loss": 0.0003,
      "step": 24850
    },
    {
      "epoch": 0.6951399527500253,
      "grad_norm": 4.65625,
      "learning_rate": 6.28676682208024e-05,
      "loss": 0.0001,
      "step": 24900
    },
    {
      "epoch": 0.6965358161089611,
      "grad_norm": 3.4375,
      "learning_rate": 6.257986530823691e-05,
      "loss": 0.0003,
      "step": 24950
    },
    {
      "epoch": 0.6979316794678969,
      "grad_norm": 1.1953125,
      "learning_rate": 6.229206239567144e-05,
      "loss": 0.0003,
      "step": 25000
    },
    {
      "epoch": 0.6979316794678969,
      "eval_loss": 9.060095180757344e-06,
      "eval_mae": 0.002397725125774741,
      "eval_rmse": 0.003009999170899391,
      "eval_runtime": 314.8136,
      "eval_samples_per_second": 6.353,
      "eval_steps_per_second": 6.353,
      "step": 25000
    },
    {
      "epoch": 0.6993275428268326,
      "grad_norm": 1.2421875,
      "learning_rate": 6.200425948310598e-05,
      "loss": 0.0001,
      "step": 25050
    },
    {
      "epoch": 0.7007234061857684,
      "grad_norm": 3.671875,
      "learning_rate": 6.171645657054049e-05,
      "loss": 0.0002,
      "step": 25100
    },
    {
      "epoch": 0.7021192695447043,
      "grad_norm": 0.8046875,
      "learning_rate": 6.142865365797502e-05,
      "loss": 0.0002,
      "step": 25150
    },
    {
      "epoch": 0.7035151329036401,
      "grad_norm": 0.2890625,
      "learning_rate": 6.114085074540955e-05,
      "loss": 0.0001,
      "step": 25200
    },
    {
      "epoch": 0.7049109962625758,
      "grad_norm": 0.439453125,
      "learning_rate": 6.0853047832844065e-05,
      "loss": 0.0001,
      "step": 25250
    },
    {
      "epoch": 0.7063068596215116,
      "grad_norm": 1.2265625,
      "learning_rate": 6.05652449202786e-05,
      "loss": 0.0001,
      "step": 25300
    },
    {
      "epoch": 0.7077027229804475,
      "grad_norm": 3.21875,
      "learning_rate": 6.0277442007713124e-05,
      "loss": 0.0002,
      "step": 25350
    },
    {
      "epoch": 0.7090985863393833,
      "grad_norm": 0.1982421875,
      "learning_rate": 5.9989639095147644e-05,
      "loss": 0.0003,
      "step": 25400
    },
    {
      "epoch": 0.710494449698319,
      "grad_norm": 2.625,
      "learning_rate": 5.970183618258217e-05,
      "loss": 0.0003,
      "step": 25450
    },
    {
      "epoch": 0.7118903130572548,
      "grad_norm": 0.193359375,
      "learning_rate": 5.94140332700167e-05,
      "loss": 0.0002,
      "step": 25500
    },
    {
      "epoch": 0.7132861764161906,
      "grad_norm": 3.8125,
      "learning_rate": 5.9126230357451216e-05,
      "loss": 0.0002,
      "step": 25550
    },
    {
      "epoch": 0.7146820397751265,
      "grad_norm": 1.0390625,
      "learning_rate": 5.883842744488575e-05,
      "loss": 0.0003,
      "step": 25600
    },
    {
      "epoch": 0.7160779031340622,
      "grad_norm": 4.28125,
      "learning_rate": 5.8550624532320275e-05,
      "loss": 0.0004,
      "step": 25650
    },
    {
      "epoch": 0.717473766492998,
      "grad_norm": 1.1015625,
      "learning_rate": 5.8262821619754795e-05,
      "loss": 0.0002,
      "step": 25700
    },
    {
      "epoch": 0.7188696298519338,
      "grad_norm": 1.5390625,
      "learning_rate": 5.797501870718932e-05,
      "loss": 0.0003,
      "step": 25750
    },
    {
      "epoch": 0.7202654932108696,
      "grad_norm": 0.9765625,
      "learning_rate": 5.768721579462384e-05,
      "loss": 0.0002,
      "step": 25800
    },
    {
      "epoch": 0.7216613565698053,
      "grad_norm": 1.9140625,
      "learning_rate": 5.739941288205837e-05,
      "loss": 0.0001,
      "step": 25850
    },
    {
      "epoch": 0.7230572199287412,
      "grad_norm": 1.5234375,
      "learning_rate": 5.711160996949289e-05,
      "loss": 0.0002,
      "step": 25900
    },
    {
      "epoch": 0.724453083287677,
      "grad_norm": 2.234375,
      "learning_rate": 5.682380705692741e-05,
      "loss": 0.0002,
      "step": 25950
    },
    {
      "epoch": 0.7258489466466128,
      "grad_norm": 0.392578125,
      "learning_rate": 5.6536004144361946e-05,
      "loss": 0.0002,
      "step": 26000
    },
    {
      "epoch": 0.7272448100055485,
      "grad_norm": 1.546875,
      "learning_rate": 5.624820123179647e-05,
      "loss": 0.0002,
      "step": 26050
    },
    {
      "epoch": 0.7286406733644843,
      "grad_norm": 1.2265625,
      "learning_rate": 5.596039831923099e-05,
      "loss": 0.0001,
      "step": 26100
    },
    {
      "epoch": 0.7300365367234202,
      "grad_norm": 0.8125,
      "learning_rate": 5.567259540666552e-05,
      "loss": 0.0002,
      "step": 26150
    },
    {
      "epoch": 0.731432400082356,
      "grad_norm": 0.265625,
      "learning_rate": 5.5384792494100044e-05,
      "loss": 0.0001,
      "step": 26200
    },
    {
      "epoch": 0.7328282634412917,
      "grad_norm": 0.050537109375,
      "learning_rate": 5.5096989581534564e-05,
      "loss": 0.0001,
      "step": 26250
    },
    {
      "epoch": 0.7328282634412917,
      "eval_loss": 9.440889698453248e-06,
      "eval_mae": 0.0024416493251919746,
      "eval_rmse": 0.003072603140026331,
      "eval_runtime": 310.9978,
      "eval_samples_per_second": 6.431,
      "eval_steps_per_second": 6.431,
      "step": 26250
    },
    {
      "epoch": 0.7342241268002275,
      "grad_norm": 2.734375,
      "learning_rate": 5.480918666896909e-05,
      "loss": 0.0002,
      "step": 26300
    },
    {
      "epoch": 0.7356199901591634,
      "grad_norm": 1.5625,
      "learning_rate": 5.452138375640362e-05,
      "loss": 0.0002,
      "step": 26350
    },
    {
      "epoch": 0.7370158535180991,
      "grad_norm": 3.15625,
      "learning_rate": 5.4233580843838136e-05,
      "loss": 0.0001,
      "step": 26400
    },
    {
      "epoch": 0.7384117168770349,
      "grad_norm": 0.07080078125,
      "learning_rate": 5.394577793127267e-05,
      "loss": 0.0002,
      "step": 26450
    },
    {
      "epoch": 0.7398075802359707,
      "grad_norm": 0.035400390625,
      "learning_rate": 5.3657975018707195e-05,
      "loss": 0.0001,
      "step": 26500
    },
    {
      "epoch": 0.7412034435949065,
      "grad_norm": 0.0390625,
      "learning_rate": 5.3370172106141715e-05,
      "loss": 0.0001,
      "step": 26550
    },
    {
      "epoch": 0.7425993069538422,
      "grad_norm": 2.171875,
      "learning_rate": 5.308236919357624e-05,
      "loss": 0.0001,
      "step": 26600
    },
    {
      "epoch": 0.7439951703127781,
      "grad_norm": 0.796875,
      "learning_rate": 5.2794566281010774e-05,
      "loss": 0.0002,
      "step": 26650
    },
    {
      "epoch": 0.7453910336717139,
      "grad_norm": 2.65625,
      "learning_rate": 5.250676336844529e-05,
      "loss": 0.0002,
      "step": 26700
    },
    {
      "epoch": 0.7467868970306497,
      "grad_norm": 0.6171875,
      "learning_rate": 5.221896045587982e-05,
      "loss": 0.0002,
      "step": 26750
    },
    {
      "epoch": 0.7481827603895854,
      "grad_norm": 1.078125,
      "learning_rate": 5.1931157543314347e-05,
      "loss": 0.0001,
      "step": 26800
    },
    {
      "epoch": 0.7495786237485212,
      "grad_norm": 1.6875,
      "learning_rate": 5.1643354630748866e-05,
      "loss": 0.0001,
      "step": 26850
    },
    {
      "epoch": 0.7509744871074571,
      "grad_norm": 2.640625,
      "learning_rate": 5.135555171818339e-05,
      "loss": 0.0001,
      "step": 26900
    },
    {
      "epoch": 0.7523703504663929,
      "grad_norm": 0.028564453125,
      "learning_rate": 5.106774880561791e-05,
      "loss": 0.0002,
      "step": 26950
    },
    {
      "epoch": 0.7537662138253286,
      "grad_norm": 2.640625,
      "learning_rate": 5.077994589305244e-05,
      "loss": 0.0001,
      "step": 27000
    },
    {
      "epoch": 0.7551620771842644,
      "grad_norm": 0.2412109375,
      "learning_rate": 5.0492142980486965e-05,
      "loss": 0.0001,
      "step": 27050
    },
    {
      "epoch": 0.7565579405432002,
      "grad_norm": 0.0478515625,
      "learning_rate": 5.0204340067921484e-05,
      "loss": 0.0002,
      "step": 27100
    },
    {
      "epoch": 0.7579538039021361,
      "grad_norm": 0.25390625,
      "learning_rate": 4.991653715535601e-05,
      "loss": 0.0001,
      "step": 27150
    },
    {
      "epoch": 0.7593496672610718,
      "grad_norm": 1.703125,
      "learning_rate": 4.9628734242790544e-05,
      "loss": 0.0002,
      "step": 27200
    },
    {
      "epoch": 0.7607455306200076,
      "grad_norm": 1.7578125,
      "learning_rate": 4.934093133022506e-05,
      "loss": 0.0002,
      "step": 27250
    },
    {
      "epoch": 0.7621413939789434,
      "grad_norm": 0.79296875,
      "learning_rate": 4.905312841765959e-05,
      "loss": 0.0002,
      "step": 27300
    },
    {
      "epoch": 0.7635372573378792,
      "grad_norm": 0.369140625,
      "learning_rate": 4.876532550509411e-05,
      "loss": 0.0001,
      "step": 27350
    },
    {
      "epoch": 0.764933120696815,
      "grad_norm": 0.6875,
      "learning_rate": 4.847752259252864e-05,
      "loss": 0.0001,
      "step": 27400
    },
    {
      "epoch": 0.7663289840557508,
      "grad_norm": 0.53125,
      "learning_rate": 4.818971967996316e-05,
      "loss": 0.0001,
      "step": 27450
    },
    {
      "epoch": 0.7677248474146866,
      "grad_norm": 0.240234375,
      "learning_rate": 4.790191676739769e-05,
      "loss": 0.0001,
      "step": 27500
    },
    {
      "epoch": 0.7677248474146866,
      "eval_loss": 1.0368624316470232e-05,
      "eval_mae": 0.0025949301198124886,
      "eval_rmse": 0.0032200347632169724,
      "eval_runtime": 317.1945,
      "eval_samples_per_second": 6.305,
      "eval_steps_per_second": 6.305,
      "step": 27500
    },
    {
      "epoch": 0.7691207107736223,
      "grad_norm": 0.5234375,
      "learning_rate": 4.7614113854832214e-05,
      "loss": 0.0001,
      "step": 27550
    },
    {
      "epoch": 0.7705165741325581,
      "grad_norm": 1.4765625,
      "learning_rate": 4.732631094226674e-05,
      "loss": 0.0002,
      "step": 27600
    },
    {
      "epoch": 0.771912437491494,
      "grad_norm": 0.455078125,
      "learning_rate": 4.703850802970126e-05,
      "loss": 0.0002,
      "step": 27650
    },
    {
      "epoch": 0.7733083008504298,
      "grad_norm": 0.5390625,
      "learning_rate": 4.675070511713579e-05,
      "loss": 0.0001,
      "step": 27700
    },
    {
      "epoch": 0.7747041642093655,
      "grad_norm": 0.96484375,
      "learning_rate": 4.646290220457031e-05,
      "loss": 0.0002,
      "step": 27750
    },
    {
      "epoch": 0.7761000275683013,
      "grad_norm": 0.73046875,
      "learning_rate": 4.617509929200484e-05,
      "loss": 0.0001,
      "step": 27800
    },
    {
      "epoch": 0.7774958909272371,
      "grad_norm": 0.1923828125,
      "learning_rate": 4.588729637943936e-05,
      "loss": 0.0001,
      "step": 27850
    },
    {
      "epoch": 0.778891754286173,
      "grad_norm": 1.25,
      "learning_rate": 4.559949346687389e-05,
      "loss": 0.0001,
      "step": 27900
    },
    {
      "epoch": 0.7802876176451087,
      "grad_norm": 3.453125,
      "learning_rate": 4.531169055430841e-05,
      "loss": 0.0001,
      "step": 27950
    },
    {
      "epoch": 0.7816834810040445,
      "grad_norm": 2.296875,
      "learning_rate": 4.502388764174294e-05,
      "loss": 0.0002,
      "step": 28000
    },
    {
      "epoch": 0.7830793443629803,
      "grad_norm": 3.109375,
      "learning_rate": 4.4736084729177464e-05,
      "loss": 0.0001,
      "step": 28050
    },
    {
      "epoch": 0.7844752077219161,
      "grad_norm": 1.640625,
      "learning_rate": 4.444828181661198e-05,
      "loss": 0.0001,
      "step": 28100
    },
    {
      "epoch": 0.7858710710808519,
      "grad_norm": 0.2001953125,
      "learning_rate": 4.416047890404651e-05,
      "loss": 0.0002,
      "step": 28150
    },
    {
      "epoch": 0.7872669344397877,
      "grad_norm": 2.453125,
      "learning_rate": 4.3872675991481036e-05,
      "loss": 0.0002,
      "step": 28200
    },
    {
      "epoch": 0.7886627977987235,
      "grad_norm": 0.69921875,
      "learning_rate": 4.358487307891556e-05,
      "loss": 0.0001,
      "step": 28250
    },
    {
      "epoch": 0.7900586611576593,
      "grad_norm": 0.734375,
      "learning_rate": 4.329707016635008e-05,
      "loss": 0.0001,
      "step": 28300
    },
    {
      "epoch": 0.791454524516595,
      "grad_norm": 0.02294921875,
      "learning_rate": 4.3009267253784615e-05,
      "loss": 0.0001,
      "step": 28350
    },
    {
      "epoch": 0.7928503878755309,
      "grad_norm": 0.84765625,
      "learning_rate": 4.2721464341219134e-05,
      "loss": 0.0001,
      "step": 28400
    },
    {
      "epoch": 0.7942462512344667,
      "grad_norm": 1.3046875,
      "learning_rate": 4.243366142865366e-05,
      "loss": 0.0001,
      "step": 28450
    },
    {
      "epoch": 0.7956421145934025,
      "grad_norm": 0.625,
      "learning_rate": 4.214585851608818e-05,
      "loss": 0.0001,
      "step": 28500
    },
    {
      "epoch": 0.7970379779523382,
      "grad_norm": 0.19140625,
      "learning_rate": 4.185805560352271e-05,
      "loss": 0.0001,
      "step": 28550
    },
    {
      "epoch": 0.798433841311274,
      "grad_norm": 0.66796875,
      "learning_rate": 4.157025269095723e-05,
      "loss": 0.0001,
      "step": 28600
    },
    {
      "epoch": 0.7998297046702099,
      "grad_norm": 0.390625,
      "learning_rate": 4.128244977839176e-05,
      "loss": 0.0002,
      "step": 28650
    },
    {
      "epoch": 0.8012255680291456,
      "grad_norm": 2.53125,
      "learning_rate": 4.0994646865826285e-05,
      "loss": 0.0001,
      "step": 28700
    },
    {
      "epoch": 0.8026214313880814,
      "grad_norm": 0.54296875,
      "learning_rate": 4.070684395326081e-05,
      "loss": 0.0001,
      "step": 28750
    },
    {
      "epoch": 0.8026214313880814,
      "eval_loss": 8.319076187035535e-06,
      "eval_mae": 0.002299492945894599,
      "eval_rmse": 0.0028842808678746223,
      "eval_runtime": 319.4261,
      "eval_samples_per_second": 6.261,
      "eval_steps_per_second": 6.261,
      "step": 28750
    },
    {
      "epoch": 0.8040172947470172,
      "grad_norm": 1.5703125,
      "learning_rate": 4.041904104069533e-05,
      "loss": 0.0001,
      "step": 28800
    },
    {
      "epoch": 0.805413158105953,
      "grad_norm": 2.203125,
      "learning_rate": 4.0131238128129864e-05,
      "loss": 0.0001,
      "step": 28850
    },
    {
      "epoch": 0.8068090214648888,
      "grad_norm": 3.296875,
      "learning_rate": 3.9843435215564384e-05,
      "loss": 0.0001,
      "step": 28900
    },
    {
      "epoch": 0.8082048848238246,
      "grad_norm": 0.671875,
      "learning_rate": 3.955563230299891e-05,
      "loss": 0.0001,
      "step": 28950
    },
    {
      "epoch": 0.8096007481827604,
      "grad_norm": 1.453125,
      "learning_rate": 3.926782939043343e-05,
      "loss": 0.0001,
      "step": 29000
    },
    {
      "epoch": 0.8109966115416962,
      "grad_norm": 1.0859375,
      "learning_rate": 3.8980026477867956e-05,
      "loss": 0.0001,
      "step": 29050
    },
    {
      "epoch": 0.8123924749006319,
      "grad_norm": 0.89453125,
      "learning_rate": 3.869222356530248e-05,
      "loss": 0.0001,
      "step": 29100
    },
    {
      "epoch": 0.8137883382595678,
      "grad_norm": 1.453125,
      "learning_rate": 3.840442065273701e-05,
      "loss": 0.0001,
      "step": 29150
    },
    {
      "epoch": 0.8151842016185036,
      "grad_norm": 0.51953125,
      "learning_rate": 3.8116617740171535e-05,
      "loss": 0.0002,
      "step": 29200
    },
    {
      "epoch": 0.8165800649774394,
      "grad_norm": 0.85546875,
      "learning_rate": 3.7828814827606055e-05,
      "loss": 0.0001,
      "step": 29250
    },
    {
      "epoch": 0.8179759283363751,
      "grad_norm": 0.33203125,
      "learning_rate": 3.754101191504058e-05,
      "loss": 0.0001,
      "step": 29300
    },
    {
      "epoch": 0.8193717916953109,
      "grad_norm": 0.37109375,
      "learning_rate": 3.725320900247511e-05,
      "loss": 0.0001,
      "step": 29350
    },
    {
      "epoch": 0.8207676550542468,
      "grad_norm": 0.98828125,
      "learning_rate": 3.6965406089909633e-05,
      "loss": 0.0001,
      "step": 29400
    },
    {
      "epoch": 0.8221635184131826,
      "grad_norm": 0.232421875,
      "learning_rate": 3.667760317734415e-05,
      "loss": 0.0001,
      "step": 29450
    },
    {
      "epoch": 0.8235593817721183,
      "grad_norm": 0.89453125,
      "learning_rate": 3.6389800264778686e-05,
      "loss": 0.0001,
      "step": 29500
    },
    {
      "epoch": 0.8249552451310541,
      "grad_norm": 1.0703125,
      "learning_rate": 3.6101997352213206e-05,
      "loss": 0.0001,
      "step": 29550
    },
    {
      "epoch": 0.8263511084899899,
      "grad_norm": 0.47265625,
      "learning_rate": 3.581419443964773e-05,
      "loss": 0.0001,
      "step": 29600
    },
    {
      "epoch": 0.8277469718489258,
      "grad_norm": 0.70703125,
      "learning_rate": 3.552639152708225e-05,
      "loss": 0.0001,
      "step": 29650
    },
    {
      "epoch": 0.8291428352078615,
      "grad_norm": 0.36328125,
      "learning_rate": 3.5238588614516785e-05,
      "loss": 0.0001,
      "step": 29700
    },
    {
      "epoch": 0.8305386985667973,
      "grad_norm": 0.84375,
      "learning_rate": 3.4950785701951304e-05,
      "loss": 0.0001,
      "step": 29750
    },
    {
      "epoch": 0.8319345619257331,
      "grad_norm": 2.5625,
      "learning_rate": 3.466298278938583e-05,
      "loss": 0.0001,
      "step": 29800
    },
    {
      "epoch": 0.8333304252846688,
      "grad_norm": 0.029052734375,
      "learning_rate": 3.437517987682036e-05,
      "loss": 0.0001,
      "step": 29850
    },
    {
      "epoch": 0.8347262886436047,
      "grad_norm": 0.84765625,
      "learning_rate": 3.408737696425488e-05,
      "loss": 0.0001,
      "step": 29900
    },
    {
      "epoch": 0.8361221520025405,
      "grad_norm": 0.5546875,
      "learning_rate": 3.37995740516894e-05,
      "loss": 0.0001,
      "step": 29950
    },
    {
      "epoch": 0.8375180153614763,
      "grad_norm": 0.302734375,
      "learning_rate": 3.351177113912393e-05,
      "loss": 0.0001,
      "step": 30000
    },
    {
      "epoch": 0.8375180153614763,
      "eval_loss": 7.90274134487845e-06,
      "eval_mae": 0.00223693554289639,
      "eval_rmse": 0.002811181591823697,
      "eval_runtime": 359.2158,
      "eval_samples_per_second": 5.568,
      "eval_steps_per_second": 5.568,
      "step": 30000
    },
    {
      "epoch": 0.838913878720412,
      "grad_norm": 0.451171875,
      "learning_rate": 3.3223968226558455e-05,
      "loss": 0.0001,
      "step": 30050
    },
    {
      "epoch": 0.8403097420793478,
      "grad_norm": 0.9921875,
      "learning_rate": 3.293616531399298e-05,
      "loss": 0.0001,
      "step": 30100
    },
    {
      "epoch": 0.8417056054382837,
      "grad_norm": 0.0576171875,
      "learning_rate": 3.26483624014275e-05,
      "loss": 0.0001,
      "step": 30150
    },
    {
      "epoch": 0.8431014687972195,
      "grad_norm": 1.515625,
      "learning_rate": 3.236055948886203e-05,
      "loss": 0.0001,
      "step": 30200
    },
    {
      "epoch": 0.8444973321561552,
      "grad_norm": 0.6953125,
      "learning_rate": 3.2072756576296554e-05,
      "loss": 0.0001,
      "step": 30250
    },
    {
      "epoch": 0.845893195515091,
      "grad_norm": 0.23046875,
      "learning_rate": 3.178495366373107e-05,
      "loss": 0.0001,
      "step": 30300
    },
    {
      "epoch": 0.8472890588740268,
      "grad_norm": 0.55859375,
      "learning_rate": 3.1497150751165606e-05,
      "loss": 0.0001,
      "step": 30350
    },
    {
      "epoch": 0.8486849222329627,
      "grad_norm": 0.11328125,
      "learning_rate": 3.1209347838600126e-05,
      "loss": 0.0001,
      "step": 30400
    },
    {
      "epoch": 0.8500807855918984,
      "grad_norm": 1.0234375,
      "learning_rate": 3.092154492603465e-05,
      "loss": 0.0001,
      "step": 30450
    },
    {
      "epoch": 0.8514766489508342,
      "grad_norm": 0.2099609375,
      "learning_rate": 3.063374201346918e-05,
      "loss": 0.0001,
      "step": 30500
    },
    {
      "epoch": 0.85287251230977,
      "grad_norm": 0.078125,
      "learning_rate": 3.03459391009037e-05,
      "loss": 0.0001,
      "step": 30550
    },
    {
      "epoch": 0.8542683756687058,
      "grad_norm": 1.125,
      "learning_rate": 3.0058136188338228e-05,
      "loss": 0.0001,
      "step": 30600
    },
    {
      "epoch": 0.8556642390276415,
      "grad_norm": 0.70703125,
      "learning_rate": 2.9770333275772754e-05,
      "loss": 0.0001,
      "step": 30650
    },
    {
      "epoch": 0.8570601023865774,
      "grad_norm": 1.5390625,
      "learning_rate": 2.9482530363207277e-05,
      "loss": 0.0001,
      "step": 30700
    },
    {
      "epoch": 0.8584559657455132,
      "grad_norm": 0.1689453125,
      "learning_rate": 2.91947274506418e-05,
      "loss": 0.0001,
      "step": 30750
    },
    {
      "epoch": 0.859851829104449,
      "grad_norm": 0.51171875,
      "learning_rate": 2.8906924538076323e-05,
      "loss": 0.0001,
      "step": 30800
    },
    {
      "epoch": 0.8612476924633847,
      "grad_norm": 0.28515625,
      "learning_rate": 2.8619121625510852e-05,
      "loss": 0.0001,
      "step": 30850
    },
    {
      "epoch": 0.8626435558223206,
      "grad_norm": 0.8671875,
      "learning_rate": 2.8331318712945375e-05,
      "loss": 0.0001,
      "step": 30900
    },
    {
      "epoch": 0.8640394191812564,
      "grad_norm": 1.125,
      "learning_rate": 2.80435158003799e-05,
      "loss": 0.0001,
      "step": 30950
    },
    {
      "epoch": 0.8654352825401921,
      "grad_norm": 2.421875,
      "learning_rate": 2.7755712887814428e-05,
      "loss": 0.0001,
      "step": 31000
    },
    {
      "epoch": 0.8668311458991279,
      "grad_norm": 0.78515625,
      "learning_rate": 2.746790997524895e-05,
      "loss": 0.0001,
      "step": 31050
    },
    {
      "epoch": 0.8682270092580637,
      "grad_norm": 0.083984375,
      "learning_rate": 2.7180107062683474e-05,
      "loss": 0.0001,
      "step": 31100
    },
    {
      "epoch": 0.8696228726169996,
      "grad_norm": 1.890625,
      "learning_rate": 2.6892304150118004e-05,
      "loss": 0.0001,
      "step": 31150
    },
    {
      "epoch": 0.8710187359759353,
      "grad_norm": 0.466796875,
      "learning_rate": 2.6604501237552526e-05,
      "loss": 0.0001,
      "step": 31200
    },
    {
      "epoch": 0.8724145993348711,
      "grad_norm": 1.1015625,
      "learning_rate": 2.631669832498705e-05,
      "loss": 0.0001,
      "step": 31250
    },
    {
      "epoch": 0.8724145993348711,
      "eval_loss": 7.70491715229582e-06,
      "eval_mae": 0.002213448518887162,
      "eval_rmse": 0.002775773173198104,
      "eval_runtime": 314.7817,
      "eval_samples_per_second": 6.354,
      "eval_steps_per_second": 6.354,
      "step": 31250
    },
    {
      "epoch": 0.8738104626938069,
      "grad_norm": 1.734375,
      "learning_rate": 2.6028895412421572e-05,
      "loss": 0.0001,
      "step": 31300
    },
    {
      "epoch": 0.8752063260527427,
      "grad_norm": 0.5625,
      "learning_rate": 2.5741092499856102e-05,
      "loss": 0.0001,
      "step": 31350
    },
    {
      "epoch": 0.8766021894116784,
      "grad_norm": 2.203125,
      "learning_rate": 2.5453289587290625e-05,
      "loss": 0.0001,
      "step": 31400
    },
    {
      "epoch": 0.8779980527706143,
      "grad_norm": 2.921875,
      "learning_rate": 2.5165486674725148e-05,
      "loss": 0.0001,
      "step": 31450
    },
    {
      "epoch": 0.8793939161295501,
      "grad_norm": 0.1865234375,
      "learning_rate": 2.4877683762159674e-05,
      "loss": 0.0001,
      "step": 31500
    },
    {
      "epoch": 0.8807897794884859,
      "grad_norm": 1.171875,
      "learning_rate": 2.45898808495942e-05,
      "loss": 0.0001,
      "step": 31550
    },
    {
      "epoch": 0.8821856428474216,
      "grad_norm": 0.8515625,
      "learning_rate": 2.4302077937028723e-05,
      "loss": 0.0001,
      "step": 31600
    },
    {
      "epoch": 0.8835815062063574,
      "grad_norm": 0.625,
      "learning_rate": 2.401427502446325e-05,
      "loss": 0.0001,
      "step": 31650
    },
    {
      "epoch": 0.8849773695652933,
      "grad_norm": 0.2060546875,
      "learning_rate": 2.3726472111897773e-05,
      "loss": 0.0001,
      "step": 31700
    },
    {
      "epoch": 0.8863732329242291,
      "grad_norm": 1.1484375,
      "learning_rate": 2.3438669199332296e-05,
      "loss": 0.0001,
      "step": 31750
    },
    {
      "epoch": 0.8877690962831648,
      "grad_norm": 0.3359375,
      "learning_rate": 2.3150866286766822e-05,
      "loss": 0.0001,
      "step": 31800
    },
    {
      "epoch": 0.8891649596421006,
      "grad_norm": 1.2890625,
      "learning_rate": 2.2863063374201348e-05,
      "loss": 0.0001,
      "step": 31850
    },
    {
      "epoch": 0.8905608230010365,
      "grad_norm": 0.51953125,
      "learning_rate": 2.257526046163587e-05,
      "loss": 0.0001,
      "step": 31900
    },
    {
      "epoch": 0.8919566863599723,
      "grad_norm": 0.455078125,
      "learning_rate": 2.2287457549070397e-05,
      "loss": 0.0001,
      "step": 31950
    },
    {
      "epoch": 0.893352549718908,
      "grad_norm": 0.3046875,
      "learning_rate": 2.1999654636504924e-05,
      "loss": 0.0001,
      "step": 32000
    },
    {
      "epoch": 0.8947484130778438,
      "grad_norm": 0.146484375,
      "learning_rate": 2.1711851723939447e-05,
      "loss": 0.0001,
      "step": 32050
    },
    {
      "epoch": 0.8961442764367796,
      "grad_norm": 0.166015625,
      "learning_rate": 2.1424048811373973e-05,
      "loss": 0.0001,
      "step": 32100
    },
    {
      "epoch": 0.8975401397957155,
      "grad_norm": 0.58984375,
      "learning_rate": 2.1136245898808496e-05,
      "loss": 0.0001,
      "step": 32150
    },
    {
      "epoch": 0.8989360031546512,
      "grad_norm": 0.326171875,
      "learning_rate": 2.0848442986243022e-05,
      "loss": 0.0001,
      "step": 32200
    },
    {
      "epoch": 0.900331866513587,
      "grad_norm": 0.50390625,
      "learning_rate": 2.056064007367755e-05,
      "loss": 0.0001,
      "step": 32250
    },
    {
      "epoch": 0.9017277298725228,
      "grad_norm": 0.33203125,
      "learning_rate": 2.027283716111207e-05,
      "loss": 0.0001,
      "step": 32300
    },
    {
      "epoch": 0.9031235932314585,
      "grad_norm": 0.9453125,
      "learning_rate": 1.9985034248546598e-05,
      "loss": 0.0001,
      "step": 32350
    },
    {
      "epoch": 0.9045194565903943,
      "grad_norm": 1.0546875,
      "learning_rate": 1.969723133598112e-05,
      "loss": 0.0001,
      "step": 32400
    },
    {
      "epoch": 0.9059153199493302,
      "grad_norm": 2.03125,
      "learning_rate": 1.9409428423415647e-05,
      "loss": 0.0001,
      "step": 32450
    },
    {
      "epoch": 0.907311183308266,
      "grad_norm": 0.1025390625,
      "learning_rate": 1.9121625510850173e-05,
      "loss": 0.0001,
      "step": 32500
    },
    {
      "epoch": 0.907311183308266,
      "eval_loss": 8.019745109777432e-06,
      "eval_mae": 0.0022684482391923666,
      "eval_rmse": 0.002831915393471718,
      "eval_runtime": 314.5488,
      "eval_samples_per_second": 6.358,
      "eval_steps_per_second": 6.358,
      "step": 32500
    },
    {
      "epoch": 0.9087070466672017,
      "grad_norm": 0.248046875,
      "learning_rate": 1.8833822598284696e-05,
      "loss": 0.0001,
      "step": 32550
    },
    {
      "epoch": 0.9101029100261375,
      "grad_norm": 0.28125,
      "learning_rate": 1.8546019685719223e-05,
      "loss": 0.0001,
      "step": 32600
    },
    {
      "epoch": 0.9114987733850733,
      "grad_norm": 0.4296875,
      "learning_rate": 1.8258216773153745e-05,
      "loss": 0.0001,
      "step": 32650
    },
    {
      "epoch": 0.9128946367440092,
      "grad_norm": 1.5234375,
      "learning_rate": 1.797041386058827e-05,
      "loss": 0.0001,
      "step": 32700
    },
    {
      "epoch": 0.9142905001029449,
      "grad_norm": 0.2353515625,
      "learning_rate": 1.7682610948022795e-05,
      "loss": 0.0001,
      "step": 32750
    },
    {
      "epoch": 0.9156863634618807,
      "grad_norm": 0.6328125,
      "learning_rate": 1.7394808035457318e-05,
      "loss": 0.0001,
      "step": 32800
    },
    {
      "epoch": 0.9170822268208165,
      "grad_norm": 0.06591796875,
      "learning_rate": 1.7107005122891844e-05,
      "loss": 0.0001,
      "step": 32850
    },
    {
      "epoch": 0.9184780901797523,
      "grad_norm": 0.177734375,
      "learning_rate": 1.6819202210326367e-05,
      "loss": 0.0001,
      "step": 32900
    },
    {
      "epoch": 0.9198739535386881,
      "grad_norm": 0.234375,
      "learning_rate": 1.6531399297760893e-05,
      "loss": 0.0001,
      "step": 32950
    },
    {
      "epoch": 0.9212698168976239,
      "grad_norm": 0.208984375,
      "learning_rate": 1.624359638519542e-05,
      "loss": 0.0001,
      "step": 33000
    },
    {
      "epoch": 0.9226656802565597,
      "grad_norm": 0.74609375,
      "learning_rate": 1.5955793472629942e-05,
      "loss": 0.0001,
      "step": 33050
    },
    {
      "epoch": 0.9240615436154955,
      "grad_norm": 0.58984375,
      "learning_rate": 1.566799056006447e-05,
      "loss": 0.0001,
      "step": 33100
    },
    {
      "epoch": 0.9254574069744312,
      "grad_norm": 1.203125,
      "learning_rate": 1.5380187647498995e-05,
      "loss": 0.0001,
      "step": 33150
    },
    {
      "epoch": 0.9268532703333671,
      "grad_norm": 0.953125,
      "learning_rate": 1.5092384734933518e-05,
      "loss": 0.0001,
      "step": 33200
    },
    {
      "epoch": 0.9282491336923029,
      "grad_norm": 0.19140625,
      "learning_rate": 1.4804581822368044e-05,
      "loss": 0.0001,
      "step": 33250
    },
    {
      "epoch": 0.9296449970512387,
      "grad_norm": 0.99609375,
      "learning_rate": 1.4516778909802567e-05,
      "loss": 0.0001,
      "step": 33300
    },
    {
      "epoch": 0.9310408604101744,
      "grad_norm": 0.138671875,
      "learning_rate": 1.4228975997237094e-05,
      "loss": 0.0001,
      "step": 33350
    },
    {
      "epoch": 0.9324367237691102,
      "grad_norm": 0.5546875,
      "learning_rate": 1.3941173084671618e-05,
      "loss": 0.0001,
      "step": 33400
    },
    {
      "epoch": 0.9338325871280461,
      "grad_norm": 0.2255859375,
      "learning_rate": 1.3653370172106141e-05,
      "loss": 0.0001,
      "step": 33450
    },
    {
      "epoch": 0.9352284504869818,
      "grad_norm": 0.431640625,
      "learning_rate": 1.3365567259540667e-05,
      "loss": 0.0001,
      "step": 33500
    },
    {
      "epoch": 0.9366243138459176,
      "grad_norm": 1.359375,
      "learning_rate": 1.307776434697519e-05,
      "loss": 0.0001,
      "step": 33550
    },
    {
      "epoch": 0.9380201772048534,
      "grad_norm": 0.66015625,
      "learning_rate": 1.2789961434409717e-05,
      "loss": 0.0001,
      "step": 33600
    },
    {
      "epoch": 0.9394160405637892,
      "grad_norm": 1.609375,
      "learning_rate": 1.2502158521844243e-05,
      "loss": 0.0001,
      "step": 33650
    },
    {
      "epoch": 0.940811903922725,
      "grad_norm": 0.265625,
      "learning_rate": 1.2214355609278766e-05,
      "loss": 0.0001,
      "step": 33700
    },
    {
      "epoch": 0.9422077672816608,
      "grad_norm": 0.1513671875,
      "learning_rate": 1.1926552696713292e-05,
      "loss": 0.0001,
      "step": 33750
    },
    {
      "epoch": 0.9422077672816608,
      "eval_loss": 7.356254627666203e-06,
      "eval_mae": 0.0021641200874000788,
      "eval_rmse": 0.002712241606786847,
      "eval_runtime": 314.5626,
      "eval_samples_per_second": 6.358,
      "eval_steps_per_second": 6.358,
      "step": 33750
    },
    {
      "epoch": 0.9436036306405966,
      "grad_norm": 0.01300048828125,
      "learning_rate": 1.1638749784147817e-05,
      "loss": 0.0001,
      "step": 33800
    },
    {
      "epoch": 0.9449994939995324,
      "grad_norm": 0.056640625,
      "learning_rate": 1.1350946871582341e-05,
      "loss": 0.0001,
      "step": 33850
    },
    {
      "epoch": 0.9463953573584681,
      "grad_norm": 0.70703125,
      "learning_rate": 1.1063143959016866e-05,
      "loss": 0.0001,
      "step": 33900
    },
    {
      "epoch": 0.947791220717404,
      "grad_norm": 0.3515625,
      "learning_rate": 1.077534104645139e-05,
      "loss": 0.0001,
      "step": 33950
    },
    {
      "epoch": 0.9491870840763398,
      "grad_norm": 0.365234375,
      "learning_rate": 1.0487538133885915e-05,
      "loss": 0.0001,
      "step": 34000
    },
    {
      "epoch": 0.9505829474352756,
      "grad_norm": 0.283203125,
      "learning_rate": 1.019973522132044e-05,
      "loss": 0.0001,
      "step": 34050
    },
    {
      "epoch": 0.9519788107942113,
      "grad_norm": 0.61328125,
      "learning_rate": 9.911932308754965e-06,
      "loss": 0.0001,
      "step": 34100
    },
    {
      "epoch": 0.9533746741531471,
      "grad_norm": 0.5546875,
      "learning_rate": 9.624129396189489e-06,
      "loss": 0.0001,
      "step": 34150
    },
    {
      "epoch": 0.954770537512083,
      "grad_norm": 0.400390625,
      "learning_rate": 9.336326483624015e-06,
      "loss": 0.0001,
      "step": 34200
    },
    {
      "epoch": 0.9561664008710188,
      "grad_norm": 0.2119140625,
      "learning_rate": 9.04852357105854e-06,
      "loss": 0.0001,
      "step": 34250
    },
    {
      "epoch": 0.9575622642299545,
      "grad_norm": 0.294921875,
      "learning_rate": 8.760720658493065e-06,
      "loss": 0.0001,
      "step": 34300
    },
    {
      "epoch": 0.9589581275888903,
      "grad_norm": 0.404296875,
      "learning_rate": 8.47291774592759e-06,
      "loss": 0.0001,
      "step": 34350
    },
    {
      "epoch": 0.9603539909478261,
      "grad_norm": 1.03125,
      "learning_rate": 8.185114833362114e-06,
      "loss": 0.0001,
      "step": 34400
    },
    {
      "epoch": 0.961749854306762,
      "grad_norm": 0.1357421875,
      "learning_rate": 7.897311920796639e-06,
      "loss": 0.0001,
      "step": 34450
    },
    {
      "epoch": 0.9631457176656977,
      "grad_norm": 0.341796875,
      "learning_rate": 7.609509008231164e-06,
      "loss": 0.0001,
      "step": 34500
    },
    {
      "epoch": 0.9645415810246335,
      "grad_norm": 0.71875,
      "learning_rate": 7.321706095665689e-06,
      "loss": 0.0001,
      "step": 34550
    },
    {
      "epoch": 0.9659374443835693,
      "grad_norm": 0.1787109375,
      "learning_rate": 7.033903183100212e-06,
      "loss": 0.0001,
      "step": 34600
    },
    {
      "epoch": 0.967333307742505,
      "grad_norm": 0.052734375,
      "learning_rate": 6.746100270534739e-06,
      "loss": 0.0001,
      "step": 34650
    },
    {
      "epoch": 0.9687291711014409,
      "grad_norm": 0.875,
      "learning_rate": 6.458297357969263e-06,
      "loss": 0.0001,
      "step": 34700
    },
    {
      "epoch": 0.9701250344603767,
      "grad_norm": 0.310546875,
      "learning_rate": 6.170494445403788e-06,
      "loss": 0.0001,
      "step": 34750
    },
    {
      "epoch": 0.9715208978193125,
      "grad_norm": 0.453125,
      "learning_rate": 5.8826915328383125e-06,
      "loss": 0.0001,
      "step": 34800
    },
    {
      "epoch": 0.9729167611782482,
      "grad_norm": 0.88671875,
      "learning_rate": 5.594888620272837e-06,
      "loss": 0.0001,
      "step": 34850
    },
    {
      "epoch": 0.974312624537184,
      "grad_norm": 0.032470703125,
      "learning_rate": 5.307085707707362e-06,
      "loss": 0.0001,
      "step": 34900
    },
    {
      "epoch": 0.9757084878961199,
      "grad_norm": 1.5546875,
      "learning_rate": 5.019282795141887e-06,
      "loss": 0.0001,
      "step": 34950
    },
    {
      "epoch": 0.9771043512550557,
      "grad_norm": 1.2578125,
      "learning_rate": 4.731479882576412e-06,
      "loss": 0.0001,
      "step": 35000
    },
    {
      "epoch": 0.9771043512550557,
      "eval_loss": 7.189828011178179e-06,
      "eval_mae": 0.0021512035746127367,
      "eval_rmse": 0.0026813854929059744,
      "eval_runtime": 314.4052,
      "eval_samples_per_second": 6.361,
      "eval_steps_per_second": 6.361,
      "step": 35000
    },
    {
      "epoch": 0.9785002146139914,
      "grad_norm": 0.99609375,
      "learning_rate": 4.443676970010937e-06,
      "loss": 0.0001,
      "step": 35050
    },
    {
      "epoch": 0.9798960779729272,
      "grad_norm": 0.5390625,
      "learning_rate": 4.155874057445461e-06,
      "loss": 0.0001,
      "step": 35100
    },
    {
      "epoch": 0.981291941331863,
      "grad_norm": 0.83203125,
      "learning_rate": 3.8680711448799866e-06,
      "loss": 0.0001,
      "step": 35150
    },
    {
      "epoch": 0.9826878046907989,
      "grad_norm": 0.48046875,
      "learning_rate": 3.580268232314511e-06,
      "loss": 0.0001,
      "step": 35200
    },
    {
      "epoch": 0.9840836680497346,
      "grad_norm": 1.078125,
      "learning_rate": 3.292465319749036e-06,
      "loss": 0.0001,
      "step": 35250
    },
    {
      "epoch": 0.9854795314086704,
      "grad_norm": 0.3828125,
      "learning_rate": 3.004662407183561e-06,
      "loss": 0.0001,
      "step": 35300
    },
    {
      "epoch": 0.9868753947676062,
      "grad_norm": 0.466796875,
      "learning_rate": 2.716859494618086e-06,
      "loss": 0.0001,
      "step": 35350
    },
    {
      "epoch": 0.988271258126542,
      "grad_norm": 0.7734375,
      "learning_rate": 2.4290565820526105e-06,
      "loss": 0.0001,
      "step": 35400
    },
    {
      "epoch": 0.9896671214854778,
      "grad_norm": 1.3359375,
      "learning_rate": 2.141253669487135e-06,
      "loss": 0.0001,
      "step": 35450
    },
    {
      "epoch": 0.9910629848444136,
      "grad_norm": 0.2119140625,
      "learning_rate": 1.8534507569216602e-06,
      "loss": 0.0001,
      "step": 35500
    },
    {
      "epoch": 0.9924588482033494,
      "grad_norm": 0.1728515625,
      "learning_rate": 1.565647844356185e-06,
      "loss": 0.0001,
      "step": 35550
    },
    {
      "epoch": 0.9938547115622852,
      "grad_norm": 0.294921875,
      "learning_rate": 1.2778449317907098e-06,
      "loss": 0.0001,
      "step": 35600
    },
    {
      "epoch": 0.9952505749212209,
      "grad_norm": 0.2734375,
      "learning_rate": 9.900420192252346e-07,
      "loss": 0.0001,
      "step": 35650
    },
    {
      "epoch": 0.9966464382801568,
      "grad_norm": 0.287109375,
      "learning_rate": 7.022391066597595e-07,
      "loss": 0.0001,
      "step": 35700
    },
    {
      "epoch": 0.9980423016390926,
      "grad_norm": 0.98046875,
      "learning_rate": 4.144361940942842e-07,
      "loss": 0.0001,
      "step": 35750
    },
    {
      "epoch": 0.9994381649980283,
      "grad_norm": 0.341796875,
      "learning_rate": 1.2663328152880908e-07,
      "loss": 0.0001,
      "step": 35800
    }
  ],
  "logging_steps": 50,
  "max_steps": 35821,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 1250,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.780150075109409e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}