{
  "best_global_step": 59376,
  "best_metric": 0.44603702425956726,
  "best_model_checkpoint": "./my_model1/checkpoint-59376",
  "epoch": 2.0,
  "eval_steps": 500,
  "global_step": 59376,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0033683643222850983,
      "grad_norm": 6.297862529754639,
      "learning_rate": 1.1115477460281817e-06,
      "loss": 4.6374,
      "step": 100
    },
    {
      "epoch": 0.006736728644570197,
      "grad_norm": 2.914098024368286,
      "learning_rate": 2.234323247066749e-06,
      "loss": 4.3734,
      "step": 200
    },
    {
      "epoch": 0.010105092966855295,
      "grad_norm": 2.6752781867980957,
      "learning_rate": 3.357098748105317e-06,
      "loss": 4.1151,
      "step": 300
    },
    {
      "epoch": 0.013473457289140393,
      "grad_norm": 2.557371139526367,
      "learning_rate": 4.479874249143884e-06,
      "loss": 3.8823,
      "step": 400
    },
    {
      "epoch": 0.016841821611425493,
      "grad_norm": 2.3797903060913086,
      "learning_rate": 5.602649750182451e-06,
      "loss": 3.6958,
      "step": 500
    },
    {
      "epoch": 0.02021018593371059,
      "grad_norm": 2.318178653717041,
      "learning_rate": 6.725425251221018e-06,
      "loss": 3.5736,
      "step": 600
    },
    {
      "epoch": 0.02357855025599569,
      "grad_norm": 2.263061046600342,
      "learning_rate": 7.848200752259587e-06,
      "loss": 3.4535,
      "step": 700
    },
    {
      "epoch": 0.026946914578280787,
      "grad_norm": 2.245070219039917,
      "learning_rate": 8.970976253298154e-06,
      "loss": 3.3254,
      "step": 800
    },
    {
      "epoch": 0.030315278900565887,
      "grad_norm": 2.1786885261535645,
      "learning_rate": 1.009375175433672e-05,
      "loss": 3.1968,
      "step": 900
    },
    {
      "epoch": 0.03368364322285099,
      "grad_norm": 2.1120216846466064,
      "learning_rate": 1.1216527255375288e-05,
      "loss": 3.0749,
      "step": 1000
    },
    {
      "epoch": 0.03705200754513608,
      "grad_norm": 2.225299835205078,
      "learning_rate": 1.2339302756413855e-05,
      "loss": 2.956,
      "step": 1100
    },
    {
      "epoch": 0.04042037186742118,
      "grad_norm": 1.9265443086624146,
      "learning_rate": 1.3462078257452423e-05,
      "loss": 2.8324,
      "step": 1200
    },
    {
      "epoch": 0.04378873618970628,
      "grad_norm": 4.846482276916504,
      "learning_rate": 1.458485375849099e-05,
      "loss": 2.7146,
      "step": 1300
    },
    {
      "epoch": 0.04715710051199138,
      "grad_norm": 8.298853874206543,
      "learning_rate": 1.5707629259529558e-05,
      "loss": 2.6336,
      "step": 1400
    },
    {
      "epoch": 0.05052546483427647,
      "grad_norm": 12.867733001708984,
      "learning_rate": 1.6830404760568124e-05,
      "loss": 2.5894,
      "step": 1500
    },
    {
      "epoch": 0.05389382915656157,
      "grad_norm": 17.92266082763672,
      "learning_rate": 1.7953180261606693e-05,
      "loss": 2.5615,
      "step": 1600
    },
    {
      "epoch": 0.057262193478846674,
      "grad_norm": 13.567904472351074,
      "learning_rate": 1.907595576264526e-05,
      "loss": 2.5376,
      "step": 1700
    },
    {
      "epoch": 0.060630557801131774,
      "grad_norm": 18.349245071411133,
      "learning_rate": 2.0198731263683825e-05,
      "loss": 2.5115,
      "step": 1800
    },
    {
      "epoch": 0.06399892212341687,
      "grad_norm": 18.910877227783203,
      "learning_rate": 2.1321506764722397e-05,
      "loss": 2.4836,
      "step": 1900
    },
    {
      "epoch": 0.06736728644570197,
      "grad_norm": 5.438470363616943,
      "learning_rate": 2.2444282265760963e-05,
      "loss": 2.448,
      "step": 2000
    },
    {
      "epoch": 0.07073565076798706,
      "grad_norm": 1.8990598917007446,
      "learning_rate": 2.356705776679953e-05,
      "loss": 2.3836,
      "step": 2100
    },
    {
      "epoch": 0.07410401509027216,
      "grad_norm": 1.7939313650131226,
      "learning_rate": 2.46898332678381e-05,
      "loss": 2.2869,
      "step": 2200
    },
    {
      "epoch": 0.07747237941255726,
      "grad_norm": 2.6316609382629395,
      "learning_rate": 2.581260876887666e-05,
      "loss": 2.1664,
      "step": 2300
    },
    {
      "epoch": 0.08084074373484236,
      "grad_norm": 3.9971001148223877,
      "learning_rate": 2.693538426991523e-05,
      "loss": 2.0635,
      "step": 2400
    },
    {
      "epoch": 0.08420910805712746,
      "grad_norm": 2.845649242401123,
      "learning_rate": 2.8058159770953803e-05,
      "loss": 2.0033,
      "step": 2500
    },
    {
      "epoch": 0.08757747237941256,
      "grad_norm": 11.22779655456543,
      "learning_rate": 2.9180935271992365e-05,
      "loss": 1.944,
      "step": 2600
    },
    {
      "epoch": 0.09094583670169766,
      "grad_norm": 8.039031982421875,
      "learning_rate": 3.0303710773030935e-05,
      "loss": 1.8935,
      "step": 2700
    },
    {
      "epoch": 0.09431420102398276,
      "grad_norm": 19.868438720703125,
      "learning_rate": 3.14264862740695e-05,
      "loss": 1.8509,
      "step": 2800
    },
    {
      "epoch": 0.09768256534626785,
      "grad_norm": 19.26648712158203,
      "learning_rate": 3.254926177510807e-05,
      "loss": 1.808,
      "step": 2900
    },
    {
      "epoch": 0.10105092966855295,
      "grad_norm": 10.993364334106445,
      "learning_rate": 3.367203727614663e-05,
      "loss": 1.7658,
      "step": 3000
    },
    {
      "epoch": 0.10441929399083805,
      "grad_norm": 12.577337265014648,
      "learning_rate": 3.47948127771852e-05,
      "loss": 1.7268,
      "step": 3100
    },
    {
      "epoch": 0.10778765831312315,
      "grad_norm": 15.279227256774902,
      "learning_rate": 3.591758827822377e-05,
      "loss": 1.6961,
      "step": 3200
    },
    {
      "epoch": 0.11115602263540825,
      "grad_norm": 15.154927253723145,
      "learning_rate": 3.704036377926234e-05,
      "loss": 1.6632,
      "step": 3300
    },
    {
      "epoch": 0.11452438695769335,
      "grad_norm": 5.024831295013428,
      "learning_rate": 3.816313928030091e-05,
      "loss": 1.627,
      "step": 3400
    },
    {
      "epoch": 0.11789275127997845,
      "grad_norm": 7.439777851104736,
      "learning_rate": 3.928591478133947e-05,
      "loss": 1.5909,
      "step": 3500
    },
    {
      "epoch": 0.12126111560226355,
      "grad_norm": 7.653560638427734,
      "learning_rate": 4.040869028237804e-05,
      "loss": 1.5621,
      "step": 3600
    },
    {
      "epoch": 0.12462947992454863,
      "grad_norm": 7.883094310760498,
      "learning_rate": 4.1531465783416603e-05,
      "loss": 1.5307,
      "step": 3700
    },
    {
      "epoch": 0.12799784424683375,
      "grad_norm": 3.2945971488952637,
      "learning_rate": 4.265424128445518e-05,
      "loss": 1.5016,
      "step": 3800
    },
    {
      "epoch": 0.13136620856911885,
      "grad_norm": 5.135283946990967,
      "learning_rate": 4.377701678549374e-05,
      "loss": 1.4741,
      "step": 3900
    },
    {
      "epoch": 0.13473457289140395,
      "grad_norm": 8.129427909851074,
      "learning_rate": 4.489979228653231e-05,
      "loss": 1.4423,
      "step": 4000
    },
    {
      "epoch": 0.13810293721368902,
      "grad_norm": 8.010125160217285,
      "learning_rate": 4.6022567787570874e-05,
      "loss": 1.4146,
      "step": 4100
    },
    {
      "epoch": 0.14147130153597412,
      "grad_norm": 3.1212265491485596,
      "learning_rate": 4.714534328860944e-05,
      "loss": 1.3919,
      "step": 4200
    },
    {
      "epoch": 0.14483966585825922,
      "grad_norm": 3.6468098163604736,
      "learning_rate": 4.826811878964801e-05,
      "loss": 1.373,
      "step": 4300
    },
    {
      "epoch": 0.14820803018054432,
      "grad_norm": 4.597881317138672,
      "learning_rate": 4.939089429068658e-05,
      "loss": 1.352,
      "step": 4400
    },
    {
      "epoch": 0.15157639450282942,
      "grad_norm": 4.9619622230529785,
      "learning_rate": 5.051366979172515e-05,
      "loss": 1.3299,
      "step": 4500
    },
    {
      "epoch": 0.15494475882511452,
      "grad_norm": 4.055070877075195,
      "learning_rate": 5.163644529276371e-05,
      "loss": 1.312,
      "step": 4600
    },
    {
      "epoch": 0.15831312314739962,
      "grad_norm": 4.076910018920898,
      "learning_rate": 5.2759220793802276e-05,
      "loss": 1.2963,
      "step": 4700
    },
    {
      "epoch": 0.16168148746968472,
      "grad_norm": 2.7936923503875732,
      "learning_rate": 5.388199629484085e-05,
      "loss": 1.2782,
      "step": 4800
    },
    {
      "epoch": 0.16504985179196982,
      "grad_norm": 3.8645057678222656,
      "learning_rate": 5.5004771795879414e-05,
      "loss": 1.2598,
      "step": 4900
    },
    {
      "epoch": 0.16841821611425492,
      "grad_norm": 3.8098433017730713,
      "learning_rate": 5.6127547296917983e-05,
      "loss": 1.2426,
      "step": 5000
    },
    {
      "epoch": 0.17178658043654002,
      "grad_norm": 3.690554618835449,
      "learning_rate": 5.7250322797956546e-05,
      "loss": 1.2257,
      "step": 5100
    },
    {
      "epoch": 0.17515494475882512,
      "grad_norm": 3.7821402549743652,
      "learning_rate": 5.837309829899512e-05,
      "loss": 1.2138,
      "step": 5200
    },
    {
      "epoch": 0.17852330908111022,
      "grad_norm": 4.070770263671875,
      "learning_rate": 5.9495873800033684e-05,
      "loss": 1.2005,
      "step": 5300
    },
    {
      "epoch": 0.18189167340339532,
      "grad_norm": 5.843082904815674,
      "learning_rate": 6.061864930107225e-05,
      "loss": 1.1795,
      "step": 5400
    },
    {
      "epoch": 0.18526003772568042,
      "grad_norm": 4.773739337921143,
      "learning_rate": 6.174142480211082e-05,
      "loss": 1.1665,
      "step": 5500
    },
    {
      "epoch": 0.18862840204796552,
      "grad_norm": 3.8879311084747314,
      "learning_rate": 6.286420030314939e-05,
      "loss": 1.1529,
      "step": 5600
    },
    {
      "epoch": 0.1919967663702506,
      "grad_norm": 4.927277088165283,
      "learning_rate": 6.398697580418795e-05,
      "loss": 1.1397,
      "step": 5700
    },
    {
      "epoch": 0.1953651306925357,
      "grad_norm": 3.640209913253784,
      "learning_rate": 6.510975130522652e-05,
      "loss": 1.1199,
      "step": 5800
    },
    {
      "epoch": 0.1987334950148208,
      "grad_norm": 5.0505595207214355,
      "learning_rate": 6.62325268062651e-05,
      "loss": 1.1073,
      "step": 5900
    },
    {
      "epoch": 0.2021018593371059,
      "grad_norm": 3.703660011291504,
      "learning_rate": 6.735530230730366e-05,
      "loss": 1.0966,
      "step": 6000
    },
    {
      "epoch": 0.205470223659391,
      "grad_norm": 3.3192944526672363,
      "learning_rate": 6.847807780834223e-05,
      "loss": 1.0823,
      "step": 6100
    },
    {
      "epoch": 0.2088385879816761,
      "grad_norm": 4.713069915771484,
      "learning_rate": 6.96008533093808e-05,
      "loss": 1.0718,
      "step": 6200
    },
    {
      "epoch": 0.2122069523039612,
      "grad_norm": 4.135160446166992,
      "learning_rate": 7.072362881041936e-05,
      "loss": 1.057,
      "step": 6300
    },
    {
      "epoch": 0.2155753166262463,
      "grad_norm": 4.193116664886475,
      "learning_rate": 7.184640431145793e-05,
      "loss": 1.0509,
      "step": 6400
    },
    {
      "epoch": 0.2189436809485314,
      "grad_norm": 4.028440475463867,
      "learning_rate": 7.296917981249649e-05,
      "loss": 1.0365,
      "step": 6500
    },
    {
      "epoch": 0.2223120452708165,
      "grad_norm": 4.614249229431152,
      "learning_rate": 7.409195531353507e-05,
      "loss": 1.0293,
      "step": 6600
    },
    {
      "epoch": 0.2256804095931016,
      "grad_norm": 4.366164684295654,
      "learning_rate": 7.521473081457363e-05,
      "loss": 1.0198,
      "step": 6700
    },
    {
      "epoch": 0.2290487739153867,
      "grad_norm": 5.207546710968018,
      "learning_rate": 7.63375063156122e-05,
      "loss": 1.0059,
      "step": 6800
    },
    {
      "epoch": 0.2324171382376718,
      "grad_norm": 3.651235342025757,
      "learning_rate": 7.746028181665077e-05,
      "loss": 1.0009,
      "step": 6900
    },
    {
      "epoch": 0.2357855025599569,
      "grad_norm": 4.040618896484375,
      "learning_rate": 7.858305731768933e-05,
      "loss": 0.9907,
      "step": 7000
    },
    {
      "epoch": 0.239153866882242,
      "grad_norm": 3.792742967605591,
      "learning_rate": 7.97058328187279e-05,
      "loss": 0.9847,
      "step": 7100
    },
    {
      "epoch": 0.2425222312045271,
      "grad_norm": 4.362412929534912,
      "learning_rate": 8.082860831976646e-05,
      "loss": 0.9738,
      "step": 7200
    },
    {
      "epoch": 0.24589059552681217,
      "grad_norm": 4.572664737701416,
      "learning_rate": 8.195138382080504e-05,
      "loss": 0.9678,
      "step": 7300
    },
    {
      "epoch": 0.24925895984909727,
      "grad_norm": 4.474113464355469,
      "learning_rate": 8.30741593218436e-05,
      "loss": 0.957,
      "step": 7400
    },
    {
      "epoch": 0.2526273241713824,
      "grad_norm": 4.847846984863281,
      "learning_rate": 8.419693482288217e-05,
      "loss": 0.9492,
      "step": 7500
    },
    {
      "epoch": 0.2559956884936675,
      "grad_norm": 4.326010227203369,
      "learning_rate": 8.531971032392074e-05,
      "loss": 0.9444,
      "step": 7600
    },
    {
      "epoch": 0.2593640528159526,
      "grad_norm": 4.634029388427734,
      "learning_rate": 8.64424858249593e-05,
      "loss": 0.9337,
      "step": 7700
    },
    {
      "epoch": 0.2627324171382377,
      "grad_norm": 3.841517925262451,
      "learning_rate": 8.756526132599788e-05,
      "loss": 0.9282,
      "step": 7800
    },
    {
      "epoch": 0.2661007814605228,
      "grad_norm": 4.89427375793457,
      "learning_rate": 8.868803682703643e-05,
      "loss": 0.9164,
      "step": 7900
    },
    {
      "epoch": 0.2694691457828079,
      "grad_norm": 4.296108245849609,
      "learning_rate": 8.9810812328075e-05,
      "loss": 0.9146,
      "step": 8000
    },
    {
      "epoch": 0.27283751010509294,
      "grad_norm": 4.8395586013793945,
      "learning_rate": 9.093358782911357e-05,
      "loss": 0.903,
      "step": 8100
    },
    {
      "epoch": 0.27620587442737804,
      "grad_norm": 4.250405788421631,
      "learning_rate": 9.205636333015214e-05,
      "loss": 0.9013,
      "step": 8200
    },
    {
      "epoch": 0.27957423874966314,
      "grad_norm": 3.9244723320007324,
      "learning_rate": 9.317913883119071e-05,
      "loss": 0.8968,
      "step": 8300
    },
    {
      "epoch": 0.28294260307194824,
      "grad_norm": 4.492284774780273,
      "learning_rate": 9.430191433222928e-05,
      "loss": 0.8924,
      "step": 8400
    },
    {
      "epoch": 0.28631096739423334,
      "grad_norm": 4.632638454437256,
      "learning_rate": 9.542468983326785e-05,
      "loss": 0.8822,
      "step": 8500
    },
    {
      "epoch": 0.28967933171651844,
      "grad_norm": 3.6097586154937744,
      "learning_rate": 9.65474653343064e-05,
      "loss": 0.8774,
      "step": 8600
    },
    {
      "epoch": 0.29304769603880354,
      "grad_norm": 3.6722657680511475,
      "learning_rate": 9.767024083534497e-05,
      "loss": 0.8697,
      "step": 8700
    },
    {
      "epoch": 0.29641606036108864,
      "grad_norm": 4.693965911865234,
      "learning_rate": 9.879301633638355e-05,
      "loss": 0.8583,
      "step": 8800
    },
    {
      "epoch": 0.29978442468337374,
      "grad_norm": 3.5417885780334473,
      "learning_rate": 9.991579183742211e-05,
      "loss": 0.8498,
      "step": 8900
    },
    {
      "epoch": 0.30315278900565884,
      "grad_norm": 5.091881275177002,
      "learning_rate": 0.00010103856733846069,
      "loss": 0.8396,
      "step": 9000
    },
    {
      "epoch": 0.30652115332794394,
      "grad_norm": 4.218757152557373,
      "learning_rate": 0.00010216134283949925,
      "loss": 0.8314,
      "step": 9100
    },
    {
      "epoch": 0.30988951765022904,
      "grad_norm": 3.600708246231079,
      "learning_rate": 0.00010328411834053782,
      "loss": 0.8249,
      "step": 9200
    },
    {
      "epoch": 0.31325788197251414,
      "grad_norm": 3.8332407474517822,
      "learning_rate": 0.00010440689384157639,
      "loss": 0.8187,
      "step": 9300
    },
    {
      "epoch": 0.31662624629479924,
      "grad_norm": 3.1585068702697754,
      "learning_rate": 0.00010552966934261494,
      "loss": 0.8087,
      "step": 9400
    },
    {
      "epoch": 0.31999461061708434,
      "grad_norm": 3.4112815856933594,
      "learning_rate": 0.00010665244484365351,
      "loss": 0.8015,
      "step": 9500
    },
    {
      "epoch": 0.32336297493936944,
      "grad_norm": 4.372965335845947,
      "learning_rate": 0.00010777522034469207,
      "loss": 0.7892,
      "step": 9600
    },
    {
      "epoch": 0.32673133926165454,
      "grad_norm": 3.7581305503845215,
      "learning_rate": 0.00010889799584573066,
      "loss": 0.7814,
      "step": 9700
    },
    {
      "epoch": 0.33009970358393964,
      "grad_norm": 4.480976581573486,
      "learning_rate": 0.00011002077134676922,
      "loss": 0.7625,
      "step": 9800
    },
    {
      "epoch": 0.33346806790622474,
      "grad_norm": 3.4865591526031494,
      "learning_rate": 0.00011114354684780779,
      "loss": 0.7524,
      "step": 9900
    },
    {
      "epoch": 0.33683643222850984,
      "grad_norm": 3.5094540119171143,
      "learning_rate": 0.00011226632234884636,
      "loss": 0.7421,
      "step": 10000
    },
    {
      "epoch": 0.34020479655079494,
      "grad_norm": 3.0365946292877197,
      "learning_rate": 0.00011338909784988491,
      "loss": 0.7354,
      "step": 10100
    },
    {
      "epoch": 0.34357316087308004,
      "grad_norm": 3.5247597694396973,
      "learning_rate": 0.00011451187335092348,
      "loss": 0.7224,
      "step": 10200
    },
    {
      "epoch": 0.34694152519536514,
      "grad_norm": 3.1095457077026367,
      "learning_rate": 0.00011563464885196205,
      "loss": 0.7195,
      "step": 10300
    },
    {
      "epoch": 0.35030988951765024,
      "grad_norm": 3.8091487884521484,
      "learning_rate": 0.00011675742435300064,
      "loss": 0.713,
      "step": 10400
    },
    {
      "epoch": 0.35367825383993534,
      "grad_norm": 2.9617044925689697,
      "learning_rate": 0.00011788019985403919,
      "loss": 0.7067,
      "step": 10500
    },
    {
      "epoch": 0.35704661816222044,
      "grad_norm": 4.0781331062316895,
      "learning_rate": 0.00011900297535507776,
      "loss": 0.7022,
      "step": 10600
    },
    {
      "epoch": 0.36041498248450554,
      "grad_norm": 2.9260106086730957,
      "learning_rate": 0.00012012575085611633,
      "loss": 0.6967,
      "step": 10700
    },
    {
      "epoch": 0.36378334680679064,
      "grad_norm": 3.00919508934021,
      "learning_rate": 0.00012124852635715489,
      "loss": 0.6934,
      "step": 10800
    },
    {
      "epoch": 0.36715171112907574,
      "grad_norm": 2.74841046333313,
      "learning_rate": 0.00012237130185819344,
      "loss": 0.6874,
      "step": 10900
    },
    {
      "epoch": 0.37052007545136084,
      "grad_norm": 2.3908281326293945,
      "learning_rate": 0.000123494077359232,
      "loss": 0.6843,
      "step": 11000
    },
    {
      "epoch": 0.37388843977364594,
      "grad_norm": 2.5212063789367676,
      "learning_rate": 0.0001246168528602706,
      "loss": 0.681,
      "step": 11100
    },
    {
      "epoch": 0.37725680409593104,
      "grad_norm": 2.342548370361328,
      "learning_rate": 0.00012573962836130918,
      "loss": 0.6755,
      "step": 11200
    },
    {
      "epoch": 0.3806251684182161,
      "grad_norm": 2.2817301750183105,
      "learning_rate": 0.00012686240386234775,
      "loss": 0.6762,
      "step": 11300
    },
    {
      "epoch": 0.3839935327405012,
      "grad_norm": 2.4880239963531494,
      "learning_rate": 0.0001279851793633863,
      "loss": 0.6696,
      "step": 11400
    },
    {
      "epoch": 0.3873618970627863,
      "grad_norm": 2.2513132095336914,
      "learning_rate": 0.00012910795486442486,
      "loss": 0.6698,
      "step": 11500
    },
    {
      "epoch": 0.3907302613850714,
      "grad_norm": 2.4084956645965576,
      "learning_rate": 0.00013023073036546343,
      "loss": 0.6669,
      "step": 11600
    },
    {
      "epoch": 0.3940986257073565,
      "grad_norm": 2.5854873657226562,
      "learning_rate": 0.000131353505866502,
      "loss": 0.6629,
      "step": 11700
    },
    {
      "epoch": 0.3974669900296416,
      "grad_norm": 2.377323627471924,
      "learning_rate": 0.00013247628136754056,
      "loss": 0.6607,
      "step": 11800
    },
    {
      "epoch": 0.4008353543519267,
      "grad_norm": 2.0934255123138428,
      "learning_rate": 0.00013359905686857913,
      "loss": 0.6557,
      "step": 11900
    },
    {
      "epoch": 0.4042037186742118,
      "grad_norm": 2.2876408100128174,
      "learning_rate": 0.0001347218323696177,
      "loss": 0.6537,
      "step": 12000
    },
    {
      "epoch": 0.4075720829964969,
      "grad_norm": 2.856818199157715,
      "learning_rate": 0.00013584460787065627,
      "loss": 0.6534,
      "step": 12100
    },
    {
      "epoch": 0.410940447318782,
      "grad_norm": 2.3577589988708496,
      "learning_rate": 0.00013696738337169484,
      "loss": 0.6468,
      "step": 12200
    },
    {
      "epoch": 0.4143088116410671,
      "grad_norm": 2.1369576454162598,
      "learning_rate": 0.0001380901588727334,
      "loss": 0.6466,
      "step": 12300
    },
    {
      "epoch": 0.4176771759633522,
      "grad_norm": 2.0527994632720947,
      "learning_rate": 0.00013921293437377195,
      "loss": 0.6423,
      "step": 12400
    },
    {
      "epoch": 0.4210455402856373,
      "grad_norm": 2.1849894523620605,
      "learning_rate": 0.00014033570987481052,
      "loss": 0.6408,
      "step": 12500
    },
    {
      "epoch": 0.4244139046079224,
      "grad_norm": 2.403149127960205,
      "learning_rate": 0.00014145848537584912,
      "loss": 0.6401,
      "step": 12600
    },
    {
      "epoch": 0.4277822689302075,
      "grad_norm": 1.983995795249939,
      "learning_rate": 0.0001425812608768877,
      "loss": 0.6387,
      "step": 12700
    },
    {
      "epoch": 0.4311506332524926,
      "grad_norm": 2.141962766647339,
      "learning_rate": 0.00014370403637792623,
      "loss": 0.635,
      "step": 12800
    },
    {
      "epoch": 0.4345189975747777,
      "grad_norm": 1.9785326719284058,
      "learning_rate": 0.0001448268118789648,
      "loss": 0.6314,
      "step": 12900
    },
    {
      "epoch": 0.4378873618970628,
      "grad_norm": 2.0606772899627686,
      "learning_rate": 0.00014594958738000337,
      "loss": 0.6285,
      "step": 13000
    },
    {
      "epoch": 0.4412557262193479,
      "grad_norm": 1.88225519657135,
      "learning_rate": 0.00014707236288104194,
      "loss": 0.6296,
      "step": 13100
    },
    {
      "epoch": 0.444624090541633,
      "grad_norm": 2.204674005508423,
      "learning_rate": 0.0001481951383820805,
      "loss": 0.628,
      "step": 13200
    },
    {
      "epoch": 0.4479924548639181,
      "grad_norm": 1.8650182485580444,
      "learning_rate": 0.00014931791388311908,
      "loss": 0.6264,
      "step": 13300
    },
    {
      "epoch": 0.4513608191862032,
      "grad_norm": 1.7972240447998047,
      "learning_rate": 0.00015044068938415765,
      "loss": 0.6211,
      "step": 13400
    },
    {
      "epoch": 0.4547291835084883,
      "grad_norm": 1.8085206747055054,
      "learning_rate": 0.00015156346488519621,
      "loss": 0.6223,
      "step": 13500
    },
    {
      "epoch": 0.4580975478307734,
      "grad_norm": 1.877871036529541,
      "learning_rate": 0.00015268624038623478,
      "loss": 0.624,
      "step": 13600
    },
    {
      "epoch": 0.4614659121530585,
      "grad_norm": 2.295692205429077,
      "learning_rate": 0.00015380901588727335,
      "loss": 0.6198,
      "step": 13700
    },
    {
      "epoch": 0.4648342764753436,
      "grad_norm": 2.4655864238739014,
      "learning_rate": 0.0001549317913883119,
      "loss": 0.6171,
      "step": 13800
    },
    {
      "epoch": 0.4682026407976287,
      "grad_norm": 1.9931831359863281,
      "learning_rate": 0.00015605456688935046,
      "loss": 0.6146,
      "step": 13900
    },
    {
      "epoch": 0.4715710051199138,
      "grad_norm": 1.7389591932296753,
      "learning_rate": 0.00015717734239038906,
      "loss": 0.6141,
      "step": 14000
    },
    {
      "epoch": 0.4749393694421989,
      "grad_norm": 2.0048677921295166,
      "learning_rate": 0.00015830011789142763,
      "loss": 0.613,
      "step": 14100
    },
    {
      "epoch": 0.478307733764484,
      "grad_norm": 2.0038020610809326,
      "learning_rate": 0.0001594228933924662,
      "loss": 0.6116,
      "step": 14200
    },
    {
      "epoch": 0.4816760980867691,
      "grad_norm": 1.8391730785369873,
      "learning_rate": 0.00016054566889350474,
      "loss": 0.6093,
      "step": 14300
    },
    {
      "epoch": 0.4850444624090542,
      "grad_norm": 1.769494652748108,
      "learning_rate": 0.0001616684443945433,
      "loss": 0.6081,
      "step": 14400
    },
    {
      "epoch": 0.4884128267313393,
      "grad_norm": 1.9740633964538574,
      "learning_rate": 0.00016279121989558188,
      "loss": 0.6069,
      "step": 14500
    },
    {
      "epoch": 0.49178119105362433,
      "grad_norm": 2.1322596073150635,
      "learning_rate": 0.00016391399539662045,
      "loss": 0.6067,
      "step": 14600
    },
    {
      "epoch": 0.49514955537590943,
      "grad_norm": 1.6382005214691162,
      "learning_rate": 0.00016503677089765902,
      "loss": 0.604,
      "step": 14700
    },
    {
      "epoch": 0.49851791969819453,
      "grad_norm": 1.49541175365448,
      "learning_rate": 0.0001661595463986976,
      "loss": 0.6027,
      "step": 14800
    },
    {
      "epoch": 0.5018862840204796,
      "grad_norm": 1.5882339477539062,
      "learning_rate": 0.00016728232189973616,
      "loss": 0.6014,
      "step": 14900
    },
    {
      "epoch": 0.5052546483427648,
      "grad_norm": 1.491133213043213,
      "learning_rate": 0.00016840509740077473,
      "loss": 0.5983,
      "step": 15000
    },
    {
      "epoch": 0.5086230126650498,
      "grad_norm": 1.7467178106307983,
      "learning_rate": 0.0001695278729018133,
      "loss": 0.5996,
      "step": 15100
    },
    {
      "epoch": 0.511991376987335,
      "grad_norm": 1.5445200204849243,
      "learning_rate": 0.00017065064840285186,
      "loss": 0.5937,
      "step": 15200
    },
    {
      "epoch": 0.51535974130962,
      "grad_norm": 1.613213300704956,
      "learning_rate": 0.0001717734239038904,
      "loss": 0.5924,
      "step": 15300
    },
    {
      "epoch": 0.5187281056319052,
      "grad_norm": 1.67715585231781,
      "learning_rate": 0.00017289619940492898,
      "loss": 0.594,
      "step": 15400
    },
    {
      "epoch": 0.5220964699541902,
      "grad_norm": 1.7080377340316772,
      "learning_rate": 0.00017401897490596757,
      "loss": 0.5935,
      "step": 15500
    },
    {
      "epoch": 0.5254648342764754,
      "grad_norm": 1.7722272872924805,
      "learning_rate": 0.00017514175040700614,
      "loss": 0.5914,
      "step": 15600
    },
    {
      "epoch": 0.5288331985987604,
      "grad_norm": 1.7470366954803467,
      "learning_rate": 0.00017626452590804468,
      "loss": 0.5883,
      "step": 15700
    },
    {
      "epoch": 0.5322015629210456,
      "grad_norm": 1.974663496017456,
      "learning_rate": 0.00017738730140908325,
      "loss": 0.5908,
      "step": 15800
    },
    {
      "epoch": 0.5355699272433306,
      "grad_norm": 1.4482321739196777,
      "learning_rate": 0.00017851007691012182,
      "loss": 0.5885,
      "step": 15900
    },
    {
      "epoch": 0.5389382915656158,
      "grad_norm": 1.750618815422058,
      "learning_rate": 0.0001796328524111604,
      "loss": 0.5855,
      "step": 16000
    },
    {
      "epoch": 0.5423066558879008,
      "grad_norm": 1.3821526765823364,
      "learning_rate": 0.00018075562791219896,
      "loss": 0.5884,
      "step": 16100
    },
    {
      "epoch": 0.5456750202101859,
      "grad_norm": 1.4892586469650269,
      "learning_rate": 0.00018187840341323753,
      "loss": 0.5838,
      "step": 16200
    },
    {
      "epoch": 0.549043384532471,
      "grad_norm": 1.5591208934783936,
      "learning_rate": 0.0001830011789142761,
      "loss": 0.5834,
      "step": 16300
    },
    {
      "epoch": 0.5524117488547561,
      "grad_norm": 1.326253056526184,
      "learning_rate": 0.00018412395441531467,
      "loss": 0.5828,
      "step": 16400
    },
    {
      "epoch": 0.5557801131770412,
      "grad_norm": 1.5288639068603516,
      "learning_rate": 0.00018524672991635324,
      "loss": 0.5793,
      "step": 16500
    },
    {
      "epoch": 0.5591484774993263,
      "grad_norm": 1.4673304557800293,
      "learning_rate": 0.0001863695054173918,
      "loss": 0.5791,
      "step": 16600
    },
    {
      "epoch": 0.5625168418216114,
      "grad_norm": 1.6291229724884033,
      "learning_rate": 0.00018749228091843035,
      "loss": 0.5792,
      "step": 16700
    },
    {
      "epoch": 0.5658852061438965,
      "grad_norm": 1.3908525705337524,
      "learning_rate": 0.00018861505641946892,
      "loss": 0.5795,
      "step": 16800
    },
    {
      "epoch": 0.5692535704661816,
      "grad_norm": 1.4598628282546997,
      "learning_rate": 0.00018973783192050752,
      "loss": 0.576,
      "step": 16900
    },
    {
      "epoch": 0.5726219347884667,
      "grad_norm": 1.2881489992141724,
      "learning_rate": 0.00019086060742154608,
      "loss": 0.575,
      "step": 17000
    },
    {
      "epoch": 0.5759902991107518,
      "grad_norm": 1.2719937562942505,
      "learning_rate": 0.00019198338292258465,
      "loss": 0.5747,
      "step": 17100
    },
    {
      "epoch": 0.5793586634330369,
      "grad_norm": 1.2574406862258911,
      "learning_rate": 0.0001931061584236232,
      "loss": 0.573,
      "step": 17200
    },
    {
      "epoch": 0.582727027755322,
      "grad_norm": 1.457133173942566,
      "learning_rate": 0.00019422893392466177,
      "loss": 0.5738,
      "step": 17300
    },
    {
      "epoch": 0.5860953920776071,
      "grad_norm": 1.2623742818832397,
      "learning_rate": 0.00019535170942570033,
      "loss": 0.571,
      "step": 17400
    },
    {
      "epoch": 0.5894637563998922,
      "grad_norm": 1.4135565757751465,
      "learning_rate": 0.0001964744849267389,
      "loss": 0.5706,
      "step": 17500
    },
    {
      "epoch": 0.5928321207221773,
      "grad_norm": 1.502484917640686,
      "learning_rate": 0.00019759726042777747,
      "loss": 0.5713,
      "step": 17600
    },
    {
      "epoch": 0.5962004850444624,
      "grad_norm": 1.3130122423171997,
      "learning_rate": 0.00019872003592881604,
      "loss": 0.5683,
      "step": 17700
    },
    {
      "epoch": 0.5995688493667475,
      "grad_norm": 1.2580504417419434,
      "learning_rate": 0.0001998428114298546,
      "loss": 0.5696,
      "step": 17800
    },
    {
      "epoch": 0.6029372136890326,
      "grad_norm": 1.204026460647583,
      "learning_rate": 0.00019975859987929996,
      "loss": 0.5664,
      "step": 17900
    },
    {
      "epoch": 0.6063055780113177,
      "grad_norm": 1.3051841259002686,
      "learning_rate": 0.00019947790206453243,
      "loss": 0.5666,
      "step": 18000
    },
    {
      "epoch": 0.6096739423336028,
      "grad_norm": 1.1939951181411743,
      "learning_rate": 0.00019919720424976494,
      "loss": 0.5634,
      "step": 18100
    },
    {
      "epoch": 0.6130423066558879,
      "grad_norm": 1.25477135181427,
      "learning_rate": 0.00019891650643499742,
      "loss": 0.5628,
      "step": 18200
    },
    {
      "epoch": 0.616410670978173,
      "grad_norm": 1.1275781393051147,
      "learning_rate": 0.0001986358086202299,
      "loss": 0.5624,
      "step": 18300
    },
    {
      "epoch": 0.6197790353004581,
      "grad_norm": 1.1167781352996826,
      "learning_rate": 0.00019835511080546237,
      "loss": 0.5617,
      "step": 18400
    },
    {
      "epoch": 0.6231473996227432,
      "grad_norm": 1.193454623222351,
      "learning_rate": 0.00019807441299069488,
      "loss": 0.5605,
      "step": 18500
    },
    {
      "epoch": 0.6265157639450283,
      "grad_norm": 1.1406720876693726,
      "learning_rate": 0.00019779371517592739,
      "loss": 0.5587,
      "step": 18600
    },
    {
      "epoch": 0.6298841282673134,
      "grad_norm": 1.2136386632919312,
      "learning_rate": 0.00019751301736115986,
      "loss": 0.5573,
      "step": 18700
    },
    {
      "epoch": 0.6332524925895985,
      "grad_norm": 1.216199278831482,
      "learning_rate": 0.00019723231954639234,
      "loss": 0.5563,
      "step": 18800
    },
    {
      "epoch": 0.6366208569118836,
      "grad_norm": 1.2443403005599976,
      "learning_rate": 0.00019695162173162482,
      "loss": 0.5519,
      "step": 18900
    },
    {
      "epoch": 0.6399892212341687,
      "grad_norm": 1.1415669918060303,
      "learning_rate": 0.0001966709239168573,
      "loss": 0.5551,
      "step": 19000
    },
    {
      "epoch": 0.6433575855564538,
      "grad_norm": 1.2228775024414062,
      "learning_rate": 0.0001963902261020898,
      "loss": 0.5547,
      "step": 19100
    },
    {
      "epoch": 0.6467259498787389,
      "grad_norm": 1.1878366470336914,
      "learning_rate": 0.0001961095282873223,
      "loss": 0.5537,
      "step": 19200
    },
    {
      "epoch": 0.650094314201024,
      "grad_norm": 1.1277652978897095,
      "learning_rate": 0.0001958288304725548,
      "loss": 0.5521,
      "step": 19300
    },
    {
      "epoch": 0.6534626785233091,
      "grad_norm": 1.2011772394180298,
      "learning_rate": 0.00019554813265778727,
      "loss": 0.5519,
      "step": 19400
    },
    {
      "epoch": 0.6568310428455941,
      "grad_norm": 1.1792044639587402,
      "learning_rate": 0.00019526743484301975,
      "loss": 0.5493,
      "step": 19500
    },
    {
      "epoch": 0.6601994071678793,
      "grad_norm": 1.1553574800491333,
      "learning_rate": 0.00019498673702825225,
      "loss": 0.5464,
      "step": 19600
    },
    {
      "epoch": 0.6635677714901643,
      "grad_norm": 1.1871212720870972,
      "learning_rate": 0.00019470603921348473,
      "loss": 0.5489,
      "step": 19700
    },
    {
      "epoch": 0.6669361358124495,
      "grad_norm": 1.0879842042922974,
      "learning_rate": 0.0001944253413987172,
      "loss": 0.5476,
      "step": 19800
    },
    {
      "epoch": 0.6703045001347345,
      "grad_norm": 1.3135937452316284,
      "learning_rate": 0.0001941446435839497,
      "loss": 0.5482,
      "step": 19900
    },
    {
      "epoch": 0.6736728644570197,
      "grad_norm": 1.0638514757156372,
      "learning_rate": 0.0001938639457691822,
      "loss": 0.546,
      "step": 20000
    },
    {
      "epoch": 0.6770412287793047,
      "grad_norm": 1.139218807220459,
      "learning_rate": 0.0001935832479544147,
      "loss": 0.5434,
      "step": 20100
    },
    {
      "epoch": 0.6804095931015899,
      "grad_norm": 1.0563747882843018,
      "learning_rate": 0.00019330255013964718,
      "loss": 0.5462,
      "step": 20200
    },
    {
      "epoch": 0.6837779574238749,
      "grad_norm": 1.0997061729431152,
      "learning_rate": 0.00019302185232487965,
      "loss": 0.5401,
      "step": 20300
    },
    {
      "epoch": 0.6871463217461601,
      "grad_norm": 1.0555341243743896,
      "learning_rate": 0.00019274115451011213,
      "loss": 0.5413,
      "step": 20400
    },
    {
      "epoch": 0.6905146860684451,
      "grad_norm": 1.1296801567077637,
      "learning_rate": 0.00019246045669534464,
      "loss": 0.5394,
      "step": 20500
    },
    {
      "epoch": 0.6938830503907303,
      "grad_norm": 1.1637988090515137,
      "learning_rate": 0.00019217975888057714,
      "loss": 0.5405,
      "step": 20600
    },
    {
      "epoch": 0.6972514147130153,
      "grad_norm": 1.1942201852798462,
      "learning_rate": 0.00019189906106580962,
      "loss": 0.5401,
      "step": 20700
    },
    {
      "epoch": 0.7006197790353005,
      "grad_norm": 1.104561686515808,
      "learning_rate": 0.0001916183632510421,
      "loss": 0.5385,
      "step": 20800
    },
    {
      "epoch": 0.7039881433575855,
      "grad_norm": 1.0518121719360352,
      "learning_rate": 0.00019133766543627458,
      "loss": 0.5394,
      "step": 20900
    },
    {
      "epoch": 0.7073565076798707,
      "grad_norm": 1.0300666093826294,
      "learning_rate": 0.00019105696762150706,
      "loss": 0.5361,
      "step": 21000
    },
    {
      "epoch": 0.7107248720021557,
      "grad_norm": 0.9076865315437317,
      "learning_rate": 0.00019077626980673956,
      "loss": 0.5384,
      "step": 21100
    },
    {
      "epoch": 0.7140932363244409,
      "grad_norm": 1.170762062072754,
      "learning_rate": 0.00019049557199197204,
      "loss": 0.5356,
      "step": 21200
    },
    {
      "epoch": 0.7174616006467259,
      "grad_norm": 1.102295160293579,
      "learning_rate": 0.00019021487417720455,
      "loss": 0.5359,
      "step": 21300
    },
    {
      "epoch": 0.7208299649690111,
      "grad_norm": 1.102849006652832,
      "learning_rate": 0.00018993417636243703,
      "loss": 0.535,
      "step": 21400
    },
    {
      "epoch": 0.7241983292912961,
      "grad_norm": 0.9895302653312683,
      "learning_rate": 0.0001896534785476695,
      "loss": 0.533,
      "step": 21500
    },
    {
      "epoch": 0.7275666936135813,
      "grad_norm": 1.0017067193984985,
      "learning_rate": 0.000189372780732902,
      "loss": 0.5328,
      "step": 21600
    },
    {
      "epoch": 0.7309350579358663,
      "grad_norm": 1.068293809890747,
      "learning_rate": 0.0001890920829181345,
      "loss": 0.5355,
      "step": 21700
    },
    {
      "epoch": 0.7343034222581515,
      "grad_norm": 1.092910647392273,
      "learning_rate": 0.00018881138510336697,
      "loss": 0.5322,
      "step": 21800
    },
    {
      "epoch": 0.7376717865804365,
      "grad_norm": 1.0329002141952515,
      "learning_rate": 0.00018853068728859947,
      "loss": 0.5308,
      "step": 21900
    },
    {
      "epoch": 0.7410401509027217,
      "grad_norm": 1.1431453227996826,
      "learning_rate": 0.00018824998947383195,
      "loss": 0.5312,
      "step": 22000
    },
    {
      "epoch": 0.7444085152250067,
      "grad_norm": 0.9961342811584473,
      "learning_rate": 0.00018796929165906446,
      "loss": 0.5316,
      "step": 22100
    },
    {
      "epoch": 0.7477768795472919,
      "grad_norm": 0.9267546534538269,
      "learning_rate": 0.00018768859384429693,
      "loss": 0.5308,
      "step": 22200
    },
    {
      "epoch": 0.7511452438695769,
      "grad_norm": 1.0788689851760864,
      "learning_rate": 0.0001874078960295294,
      "loss": 0.5297,
      "step": 22300
    },
    {
      "epoch": 0.7545136081918621,
      "grad_norm": 1.0680807828903198,
      "learning_rate": 0.0001871271982147619,
      "loss": 0.5283,
      "step": 22400
    },
    {
      "epoch": 0.7578819725141471,
      "grad_norm": 1.122947096824646,
      "learning_rate": 0.0001868465003999944,
      "loss": 0.5268,
      "step": 22500
    },
    {
      "epoch": 0.7612503368364322,
      "grad_norm": 1.0286208391189575,
      "learning_rate": 0.0001865658025852269,
      "loss": 0.5264,
      "step": 22600
    },
    {
      "epoch": 0.7646187011587173,
      "grad_norm": 1.0122915506362915,
      "learning_rate": 0.00018628510477045938,
      "loss": 0.5261,
      "step": 22700
    },
    {
      "epoch": 0.7679870654810024,
      "grad_norm": 1.0254476070404053,
      "learning_rate": 0.00018600440695569186,
      "loss": 0.5253,
      "step": 22800
    },
    {
      "epoch": 0.7713554298032875,
      "grad_norm": 0.9192175269126892,
      "learning_rate": 0.00018572370914092434,
      "loss": 0.5235,
      "step": 22900
    },
    {
      "epoch": 0.7747237941255726,
      "grad_norm": 1.0937845706939697,
      "learning_rate": 0.00018544301132615684,
      "loss": 0.5243,
      "step": 23000
    },
    {
      "epoch": 0.7780921584478577,
      "grad_norm": 1.0288293361663818,
      "learning_rate": 0.00018516231351138932,
      "loss": 0.5221,
      "step": 23100
    },
    {
      "epoch": 0.7814605227701428,
      "grad_norm": 1.0520168542861938,
      "learning_rate": 0.0001848816156966218,
      "loss": 0.5237,
      "step": 23200
    },
    {
      "epoch": 0.7848288870924279,
      "grad_norm": 0.9760498404502869,
      "learning_rate": 0.0001846009178818543,
      "loss": 0.5245,
      "step": 23300
    },
    {
      "epoch": 0.788197251414713,
      "grad_norm": 1.0123729705810547,
      "learning_rate": 0.00018432022006708678,
      "loss": 0.5238,
      "step": 23400
    },
    {
      "epoch": 0.7915656157369981,
      "grad_norm": 0.9239659905433655,
      "learning_rate": 0.0001840395222523193,
      "loss": 0.5228,
      "step": 23500
    },
    {
      "epoch": 0.7949339800592832,
      "grad_norm": 0.964204728603363,
      "learning_rate": 0.00018375882443755177,
      "loss": 0.5202,
      "step": 23600
    },
    {
      "epoch": 0.7983023443815683,
      "grad_norm": 1.024375081062317,
      "learning_rate": 0.00018347812662278425,
      "loss": 0.5214,
      "step": 23700
    },
    {
      "epoch": 0.8016707087038534,
      "grad_norm": 0.9285891652107239,
      "learning_rate": 0.00018319742880801672,
      "loss": 0.5216,
      "step": 23800
    },
    {
      "epoch": 0.8050390730261385,
      "grad_norm": 0.9374035000801086,
      "learning_rate": 0.00018291673099324923,
      "loss": 0.5199,
      "step": 23900
    },
    {
      "epoch": 0.8084074373484236,
      "grad_norm": 0.9423925280570984,
      "learning_rate": 0.00018263603317848174,
      "loss": 0.5182,
      "step": 24000
    },
    {
      "epoch": 0.8117758016707087,
      "grad_norm": 0.9198417663574219,
      "learning_rate": 0.00018235533536371421,
      "loss": 0.5195,
      "step": 24100
    },
    {
      "epoch": 0.8151441659929938,
      "grad_norm": 0.8950690627098083,
      "learning_rate": 0.0001820746375489467,
      "loss": 0.5174,
      "step": 24200
    },
    {
      "epoch": 0.8185125303152789,
      "grad_norm": 0.9775617718696594,
      "learning_rate": 0.00018179393973417917,
      "loss": 0.5163,
      "step": 24300
    },
    {
      "epoch": 0.821880894637564,
      "grad_norm": 0.961654543876648,
      "learning_rate": 0.00018151324191941165,
      "loss": 0.5145,
      "step": 24400
    },
    {
      "epoch": 0.8252492589598491,
      "grad_norm": 0.884971559047699,
      "learning_rate": 0.00018123254410464415,
      "loss": 0.5159,
      "step": 24500
    },
    {
      "epoch": 0.8286176232821342,
      "grad_norm": 0.9463781118392944,
      "learning_rate": 0.00018095184628987666,
      "loss": 0.5147,
      "step": 24600
    },
    {
      "epoch": 0.8319859876044193,
      "grad_norm": 0.9335620999336243,
      "learning_rate": 0.00018067114847510914,
      "loss": 0.5148,
      "step": 24700
    },
    {
      "epoch": 0.8353543519267044,
      "grad_norm": 1.0065468549728394,
      "learning_rate": 0.00018039045066034162,
      "loss": 0.5145,
      "step": 24800
    },
    {
      "epoch": 0.8387227162489895,
      "grad_norm": 0.9249733686447144,
      "learning_rate": 0.0001801097528455741,
      "loss": 0.5144,
      "step": 24900
    },
    {
      "epoch": 0.8420910805712746,
      "grad_norm": 0.9696065783500671,
      "learning_rate": 0.0001798290550308066,
      "loss": 0.5146,
      "step": 25000
    },
    {
      "epoch": 0.8454594448935597,
      "grad_norm": 0.9490009546279907,
      "learning_rate": 0.00017954835721603908,
      "loss": 0.5128,
      "step": 25100
    },
    {
      "epoch": 0.8488278092158448,
      "grad_norm": 0.9294765591621399,
      "learning_rate": 0.00017926765940127156,
      "loss": 0.5128,
      "step": 25200
    },
    {
      "epoch": 0.8521961735381299,
      "grad_norm": 0.9910796284675598,
      "learning_rate": 0.00017898696158650406,
      "loss": 0.5118,
      "step": 25300
    },
    {
      "epoch": 0.855564537860415,
      "grad_norm": 0.9949105381965637,
      "learning_rate": 0.00017870626377173654,
      "loss": 0.511,
      "step": 25400
    },
    {
      "epoch": 0.8589329021827001,
      "grad_norm": 0.9345620274543762,
      "learning_rate": 0.00017842556595696905,
      "loss": 0.5119,
      "step": 25500
    },
    {
      "epoch": 0.8623012665049852,
      "grad_norm": 0.9553151726722717,
      "learning_rate": 0.00017814486814220153,
      "loss": 0.5103,
      "step": 25600
    },
    {
      "epoch": 0.8656696308272703,
      "grad_norm": 0.878685474395752,
      "learning_rate": 0.000177864170327434,
      "loss": 0.5112,
      "step": 25700
    },
    {
      "epoch": 0.8690379951495554,
      "grad_norm": 0.9728811979293823,
      "learning_rate": 0.00017758347251266648,
      "loss": 0.5088,
      "step": 25800
    },
    {
      "epoch": 0.8724063594718404,
      "grad_norm": 0.9711565375328064,
      "learning_rate": 0.000177302774697899,
      "loss": 0.5087,
      "step": 25900
    },
    {
      "epoch": 0.8757747237941256,
      "grad_norm": 0.9093062281608582,
      "learning_rate": 0.0001770220768831315,
      "loss": 0.5086,
      "step": 26000
    },
    {
      "epoch": 0.8791430881164106,
      "grad_norm": 0.9751853942871094,
      "learning_rate": 0.00017674137906836397,
      "loss": 0.5106,
      "step": 26100
    },
    {
      "epoch": 0.8825114524386958,
      "grad_norm": 0.9044291377067566,
      "learning_rate": 0.00017646068125359645,
      "loss": 0.5077,
      "step": 26200
    },
    {
      "epoch": 0.8858798167609808,
      "grad_norm": 0.9224226474761963,
      "learning_rate": 0.00017617998343882893,
      "loss": 0.5075,
      "step": 26300
    },
    {
      "epoch": 0.889248181083266,
      "grad_norm": 0.9981474876403809,
      "learning_rate": 0.0001758992856240614,
      "loss": 0.5048,
      "step": 26400
    },
    {
      "epoch": 0.892616545405551,
      "grad_norm": 0.8626927733421326,
      "learning_rate": 0.0001756185878092939,
      "loss": 0.506,
      "step": 26500
    },
    {
      "epoch": 0.8959849097278362,
      "grad_norm": 0.8800698518753052,
      "learning_rate": 0.00017533788999452642,
      "loss": 0.5067,
      "step": 26600
    },
    {
      "epoch": 0.8993532740501212,
      "grad_norm": 0.8937718272209167,
      "learning_rate": 0.0001750571921797589,
      "loss": 0.5059,
      "step": 26700
    },
    {
      "epoch": 0.9027216383724064,
      "grad_norm": 0.8680539727210999,
      "learning_rate": 0.00017477649436499138,
      "loss": 0.5074,
      "step": 26800
    },
    {
      "epoch": 0.9060900026946914,
      "grad_norm": 0.8701693415641785,
      "learning_rate": 0.00017449579655022385,
      "loss": 0.5048,
      "step": 26900
    },
    {
      "epoch": 0.9094583670169766,
      "grad_norm": 0.937451958656311,
      "learning_rate": 0.00017421509873545636,
      "loss": 0.5036,
      "step": 27000
    },
    {
      "epoch": 0.9128267313392616,
      "grad_norm": 0.845152735710144,
      "learning_rate": 0.00017393440092068884,
      "loss": 0.5015,
      "step": 27100
    },
    {
      "epoch": 0.9161950956615468,
      "grad_norm": 0.8485780358314514,
      "learning_rate": 0.00017365370310592132,
      "loss": 0.5021,
      "step": 27200
    },
    {
      "epoch": 0.9195634599838318,
      "grad_norm": 0.8812822699546814,
      "learning_rate": 0.00017337300529115382,
      "loss": 0.5028,
      "step": 27300
    },
    {
      "epoch": 0.922931824306117,
      "grad_norm": 0.9817461371421814,
      "learning_rate": 0.0001730923074763863,
      "loss": 0.5032,
      "step": 27400
    },
    {
      "epoch": 0.926300188628402,
      "grad_norm": 0.8648643493652344,
      "learning_rate": 0.0001728116096616188,
      "loss": 0.5023,
      "step": 27500
    },
    {
      "epoch": 0.9296685529506872,
      "grad_norm": 0.8859161734580994,
      "learning_rate": 0.00017253091184685128,
      "loss": 0.5022,
      "step": 27600
    },
    {
      "epoch": 0.9330369172729722,
      "grad_norm": 0.8662147521972656,
      "learning_rate": 0.00017225021403208376,
      "loss": 0.5,
      "step": 27700
    },
    {
      "epoch": 0.9364052815952574,
      "grad_norm": 0.9094113111495972,
      "learning_rate": 0.00017196951621731624,
      "loss": 0.5018,
      "step": 27800
    },
    {
      "epoch": 0.9397736459175424,
      "grad_norm": 0.924689531326294,
      "learning_rate": 0.00017168881840254875,
      "loss": 0.5008,
      "step": 27900
    },
    {
      "epoch": 0.9431420102398276,
      "grad_norm": 0.8770294785499573,
      "learning_rate": 0.00017140812058778125,
      "loss": 0.5023,
      "step": 28000
    },
    {
      "epoch": 0.9465103745621126,
      "grad_norm": 0.8615702390670776,
      "learning_rate": 0.00017112742277301373,
      "loss": 0.4988,
      "step": 28100
    },
    {
      "epoch": 0.9498787388843978,
      "grad_norm": 0.9163374304771423,
      "learning_rate": 0.0001708467249582462,
      "loss": 0.5004,
      "step": 28200
    },
    {
      "epoch": 0.9532471032066828,
      "grad_norm": 0.8876280784606934,
      "learning_rate": 0.0001705660271434787,
      "loss": 0.5005,
      "step": 28300
    },
    {
      "epoch": 0.956615467528968,
      "grad_norm": 0.9345399737358093,
      "learning_rate": 0.00017028532932871117,
      "loss": 0.498,
      "step": 28400
    },
    {
      "epoch": 0.959983831851253,
      "grad_norm": 0.8554583191871643,
      "learning_rate": 0.00017000463151394367,
      "loss": 0.4995,
      "step": 28500
    },
    {
      "epoch": 0.9633521961735382,
      "grad_norm": 0.910744845867157,
      "learning_rate": 0.00016972393369917615,
      "loss": 0.499,
      "step": 28600
    },
    {
      "epoch": 0.9667205604958232,
      "grad_norm": 0.9200494289398193,
      "learning_rate": 0.00016944323588440866,
      "loss": 0.497,
      "step": 28700
    },
    {
      "epoch": 0.9700889248181084,
      "grad_norm": 0.821864902973175,
      "learning_rate": 0.00016916253806964113,
      "loss": 0.4976,
      "step": 28800
    },
    {
      "epoch": 0.9734572891403934,
      "grad_norm": 0.8839085698127747,
      "learning_rate": 0.0001688818402548736,
      "loss": 0.4981,
      "step": 28900
    },
    {
      "epoch": 0.9768256534626786,
      "grad_norm": 0.8938930630683899,
      "learning_rate": 0.00016860114244010612,
      "loss": 0.4982,
      "step": 29000
    },
    {
      "epoch": 0.9801940177849636,
      "grad_norm": 0.8309621810913086,
      "learning_rate": 0.0001683204446253386,
      "loss": 0.4971,
      "step": 29100
    },
    {
      "epoch": 0.9835623821072487,
      "grad_norm": 0.8898798227310181,
      "learning_rate": 0.00016803974681057107,
      "loss": 0.4981,
      "step": 29200
    },
    {
      "epoch": 0.9869307464295338,
      "grad_norm": 0.9762869477272034,
      "learning_rate": 0.00016775904899580358,
      "loss": 0.4968,
      "step": 29300
    },
    {
      "epoch": 0.9902991107518189,
      "grad_norm": 0.8826524615287781,
      "learning_rate": 0.00016747835118103606,
      "loss": 0.4983,
      "step": 29400
    },
    {
      "epoch": 0.993667475074104,
      "grad_norm": 0.8983336687088013,
      "learning_rate": 0.00016719765336626856,
      "loss": 0.4964,
      "step": 29500
    },
    {
      "epoch": 0.9970358393963891,
      "grad_norm": 0.8700274229049683,
      "learning_rate": 0.00016691695555150104,
      "loss": 0.496,
      "step": 29600
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.49384912848472595,
      "eval_runtime": 9.0835,
      "eval_samples_per_second": 550.447,
      "eval_steps_per_second": 8.697,
      "step": 29688
    },
    {
      "epoch": 1.0004042037186742,
      "grad_norm": 0.9031352996826172,
      "learning_rate": 0.00016663625773673352,
      "loss": 0.4948,
      "step": 29700
    },
    {
      "epoch": 1.0037725680409593,
      "grad_norm": 0.8552715182304382,
      "learning_rate": 0.000166355559921966,
      "loss": 0.4954,
      "step": 29800
    },
    {
      "epoch": 1.0071409323632443,
      "grad_norm": 0.8794796466827393,
      "learning_rate": 0.0001660748621071985,
      "loss": 0.4944,
      "step": 29900
    },
    {
      "epoch": 1.0105092966855296,
      "grad_norm": 0.876146137714386,
      "learning_rate": 0.000165794164292431,
      "loss": 0.4954,
      "step": 30000
    },
    {
      "epoch": 1.0138776610078146,
      "grad_norm": 0.8548246026039124,
      "learning_rate": 0.0001655134664776635,
      "loss": 0.4957,
      "step": 30100
    },
    {
      "epoch": 1.0172460253300997,
      "grad_norm": 0.8883000016212463,
      "learning_rate": 0.00016523276866289597,
      "loss": 0.4939,
      "step": 30200
    },
    {
      "epoch": 1.0206143896523847,
      "grad_norm": 0.8102014064788818,
      "learning_rate": 0.00016495207084812845,
      "loss": 0.491,
      "step": 30300
    },
    {
      "epoch": 1.02398275397467,
      "grad_norm": 0.9280298948287964,
      "learning_rate": 0.00016467137303336095,
      "loss": 0.4939,
      "step": 30400
    },
    {
      "epoch": 1.027351118296955,
      "grad_norm": 0.9322350025177002,
      "learning_rate": 0.00016439067521859343,
      "loss": 0.4923,
      "step": 30500
    },
    {
      "epoch": 1.03071948261924,
      "grad_norm": 0.8731549978256226,
      "learning_rate": 0.0001641099774038259,
      "loss": 0.4929,
      "step": 30600
    },
    {
      "epoch": 1.0340878469415251,
      "grad_norm": 0.8500041365623474,
      "learning_rate": 0.00016382927958905841,
      "loss": 0.492,
      "step": 30700
    },
    {
      "epoch": 1.0374562112638104,
      "grad_norm": 0.8375087976455688,
      "learning_rate": 0.0001635485817742909,
      "loss": 0.4917,
      "step": 30800
    },
    {
      "epoch": 1.0408245755860954,
      "grad_norm": 0.8288936018943787,
      "learning_rate": 0.0001632678839595234,
      "loss": 0.4928,
      "step": 30900
    },
    {
      "epoch": 1.0441929399083805,
      "grad_norm": 0.8341562151908875,
      "learning_rate": 0.00016298718614475588,
      "loss": 0.4889,
      "step": 31000
    },
    {
      "epoch": 1.0475613042306655,
      "grad_norm": 0.8432872891426086,
      "learning_rate": 0.00016270648832998835,
      "loss": 0.4915,
      "step": 31100
    },
    {
      "epoch": 1.0509296685529508,
      "grad_norm": 0.8462439775466919,
      "learning_rate": 0.00016242579051522083,
      "loss": 0.4883,
      "step": 31200
    },
    {
      "epoch": 1.0542980328752358,
      "grad_norm": 0.8429282903671265,
      "learning_rate": 0.00016214509270045334,
      "loss": 0.4895,
      "step": 31300
    },
    {
      "epoch": 1.0576663971975209,
      "grad_norm": 0.8985344767570496,
      "learning_rate": 0.00016186439488568584,
      "loss": 0.4906,
      "step": 31400
    },
    {
      "epoch": 1.061034761519806,
      "grad_norm": 0.9159397482872009,
      "learning_rate": 0.00016158369707091832,
      "loss": 0.4891,
      "step": 31500
    },
    {
      "epoch": 1.0644031258420912,
      "grad_norm": 0.8448222279548645,
      "learning_rate": 0.0001613029992561508,
      "loss": 0.4891,
      "step": 31600
    },
    {
      "epoch": 1.0677714901643762,
      "grad_norm": 0.8303894400596619,
      "learning_rate": 0.00016102230144138328,
      "loss": 0.4902,
      "step": 31700
    },
    {
      "epoch": 1.0711398544866613,
      "grad_norm": 0.8498880863189697,
      "learning_rate": 0.00016074160362661576,
      "loss": 0.4871,
      "step": 31800
    },
    {
      "epoch": 1.0745082188089463,
      "grad_norm": 0.7907134294509888,
      "learning_rate": 0.00016046090581184826,
      "loss": 0.4885,
      "step": 31900
    },
    {
      "epoch": 1.0778765831312316,
      "grad_norm": 0.9202895164489746,
      "learning_rate": 0.00016018020799708077,
      "loss": 0.4888,
      "step": 32000
    },
    {
      "epoch": 1.0812449474535166,
      "grad_norm": 0.8670128583908081,
      "learning_rate": 0.00015989951018231325,
      "loss": 0.4859,
      "step": 32100
    },
    {
      "epoch": 1.0846133117758017,
      "grad_norm": 0.8007021546363831,
      "learning_rate": 0.00015961881236754573,
      "loss": 0.4885,
      "step": 32200
    },
    {
      "epoch": 1.0879816760980867,
      "grad_norm": 0.9113264083862305,
      "learning_rate": 0.0001593381145527782,
      "loss": 0.4876,
      "step": 32300
    },
    {
      "epoch": 1.0913500404203718,
      "grad_norm": 0.8807794451713562,
      "learning_rate": 0.0001590574167380107,
      "loss": 0.489,
      "step": 32400
    },
    {
      "epoch": 1.094718404742657,
      "grad_norm": 0.8606187105178833,
      "learning_rate": 0.0001587767189232432,
      "loss": 0.489,
      "step": 32500
    },
    {
      "epoch": 1.098086769064942,
      "grad_norm": 0.8390567898750305,
      "learning_rate": 0.00015849602110847567,
      "loss": 0.4874,
      "step": 32600
    },
    {
      "epoch": 1.1014551333872271,
      "grad_norm": 0.8143624663352966,
      "learning_rate": 0.00015821532329370817,
      "loss": 0.4883,
      "step": 32700
    },
    {
      "epoch": 1.1048234977095122,
      "grad_norm": 0.9023911356925964,
      "learning_rate": 0.00015793462547894065,
      "loss": 0.4884,
      "step": 32800
    },
    {
      "epoch": 1.1081918620317974,
      "grad_norm": 0.9291363954544067,
      "learning_rate": 0.00015765392766417316,
      "loss": 0.4869,
      "step": 32900
    },
    {
      "epoch": 1.1115602263540825,
      "grad_norm": 0.834904134273529,
      "learning_rate": 0.00015737322984940563,
      "loss": 0.4863,
      "step": 33000
    },
    {
      "epoch": 1.1149285906763675,
      "grad_norm": 0.8896390795707703,
      "learning_rate": 0.0001570925320346381,
      "loss": 0.485,
      "step": 33100
    },
    {
      "epoch": 1.1182969549986526,
      "grad_norm": 0.8215962648391724,
      "learning_rate": 0.0001568118342198706,
      "loss": 0.4867,
      "step": 33200
    },
    {
      "epoch": 1.1216653193209378,
      "grad_norm": 0.8174338936805725,
      "learning_rate": 0.0001565311364051031,
      "loss": 0.4865,
      "step": 33300
    },
    {
      "epoch": 1.1250336836432229,
      "grad_norm": 0.8599314093589783,
      "learning_rate": 0.0001562504385903356,
      "loss": 0.4832,
      "step": 33400
    },
    {
      "epoch": 1.128402047965508,
      "grad_norm": 0.7674278020858765,
      "learning_rate": 0.00015596974077556808,
      "loss": 0.4846,
      "step": 33500
    },
    {
      "epoch": 1.131770412287793,
      "grad_norm": 0.8474441170692444,
      "learning_rate": 0.00015568904296080056,
      "loss": 0.4848,
      "step": 33600
    },
    {
      "epoch": 1.1351387766100782,
      "grad_norm": 0.8045397996902466,
      "learning_rate": 0.00015540834514603304,
      "loss": 0.483,
      "step": 33700
    },
    {
      "epoch": 1.1385071409323633,
      "grad_norm": 0.8756964802742004,
      "learning_rate": 0.00015512764733126552,
      "loss": 0.4836,
      "step": 33800
    },
    {
      "epoch": 1.1418755052546483,
      "grad_norm": 0.8357768654823303,
      "learning_rate": 0.00015484694951649802,
      "loss": 0.4852,
      "step": 33900
    },
    {
      "epoch": 1.1452438695769334,
      "grad_norm": 0.9370204210281372,
      "learning_rate": 0.0001545662517017305,
      "loss": 0.4839,
      "step": 34000
    },
    {
      "epoch": 1.1486122338992186,
      "grad_norm": 0.8853762149810791,
      "learning_rate": 0.000154285553886963,
      "loss": 0.4844,
      "step": 34100
    },
    {
      "epoch": 1.1519805982215037,
      "grad_norm": 0.7827624678611755,
      "learning_rate": 0.00015400485607219548,
      "loss": 0.4832,
      "step": 34200
    },
    {
      "epoch": 1.1553489625437887,
      "grad_norm": 0.8665288090705872,
      "learning_rate": 0.00015372415825742796,
      "loss": 0.4838,
      "step": 34300
    },
    {
      "epoch": 1.1587173268660738,
      "grad_norm": 0.8360339403152466,
      "learning_rate": 0.00015344346044266047,
      "loss": 0.4821,
      "step": 34400
    },
    {
      "epoch": 1.162085691188359,
      "grad_norm": 0.8605954051017761,
      "learning_rate": 0.00015316276262789295,
      "loss": 0.4825,
      "step": 34500
    },
    {
      "epoch": 1.165454055510644,
      "grad_norm": 0.857475221157074,
      "learning_rate": 0.00015288206481312542,
      "loss": 0.4827,
      "step": 34600
    },
    {
      "epoch": 1.1688224198329291,
      "grad_norm": 0.8108141422271729,
      "learning_rate": 0.00015260136699835793,
      "loss": 0.4803,
      "step": 34700
    },
    {
      "epoch": 1.1721907841552142,
      "grad_norm": 0.8359714150428772,
      "learning_rate": 0.0001523206691835904,
      "loss": 0.4809,
      "step": 34800
    },
    {
      "epoch": 1.1755591484774994,
      "grad_norm": 0.8128540515899658,
      "learning_rate": 0.00015203997136882291,
      "loss": 0.4823,
      "step": 34900
    },
    {
      "epoch": 1.1789275127997845,
      "grad_norm": 0.8871669769287109,
      "learning_rate": 0.0001517592735540554,
      "loss": 0.4806,
      "step": 35000
    },
    {
      "epoch": 1.1822958771220695,
      "grad_norm": 0.8477233052253723,
      "learning_rate": 0.00015147857573928787,
      "loss": 0.481,
      "step": 35100
    },
    {
      "epoch": 1.1856642414443546,
      "grad_norm": 0.7827205061912537,
      "learning_rate": 0.00015119787792452035,
      "loss": 0.4792,
      "step": 35200
    },
    {
      "epoch": 1.1890326057666396,
      "grad_norm": 0.8286157250404358,
      "learning_rate": 0.00015091718010975286,
      "loss": 0.4782,
      "step": 35300
    },
    {
      "epoch": 1.1924009700889249,
      "grad_norm": 0.76893150806427,
      "learning_rate": 0.00015063648229498536,
      "loss": 0.4805,
      "step": 35400
    },
    {
      "epoch": 1.19576933441121,
      "grad_norm": 0.8076749444007874,
      "learning_rate": 0.00015035578448021784,
      "loss": 0.4813,
      "step": 35500
    },
    {
      "epoch": 1.199137698733495,
      "grad_norm": 0.8551127910614014,
      "learning_rate": 0.00015007508666545032,
      "loss": 0.4797,
      "step": 35600
    },
    {
      "epoch": 1.2025060630557802,
      "grad_norm": 0.9260111451148987,
      "learning_rate": 0.0001497943888506828,
      "loss": 0.4801,
      "step": 35700
    },
    {
      "epoch": 1.2058744273780653,
      "grad_norm": 0.9091964960098267,
      "learning_rate": 0.00014951369103591527,
      "loss": 0.4782,
      "step": 35800
    },
    {
      "epoch": 1.2092427917003503,
      "grad_norm": 0.8588406443595886,
      "learning_rate": 0.00014923299322114778,
      "loss": 0.4806,
      "step": 35900
    },
    {
      "epoch": 1.2126111560226354,
      "grad_norm": 0.8295513391494751,
      "learning_rate": 0.00014895229540638026,
      "loss": 0.479,
      "step": 36000
    },
    {
      "epoch": 1.2159795203449204,
      "grad_norm": 0.8360409736633301,
      "learning_rate": 0.00014867159759161276,
      "loss": 0.4793,
      "step": 36100
    },
    {
      "epoch": 1.2193478846672057,
      "grad_norm": 0.8704560995101929,
      "learning_rate": 0.00014839089977684524,
      "loss": 0.4788,
      "step": 36200
    },
    {
      "epoch": 1.2227162489894907,
      "grad_norm": 0.8278842568397522,
      "learning_rate": 0.00014811020196207772,
      "loss": 0.4796,
      "step": 36300
    },
    {
      "epoch": 1.2260846133117758,
      "grad_norm": 0.8524438142776489,
      "learning_rate": 0.00014782950414731023,
      "loss": 0.4784,
      "step": 36400
    },
    {
      "epoch": 1.2294529776340608,
      "grad_norm": 0.7825035452842712,
      "learning_rate": 0.0001475488063325427,
      "loss": 0.4783,
      "step": 36500
    },
    {
      "epoch": 1.232821341956346,
      "grad_norm": 0.8001949787139893,
      "learning_rate": 0.00014726810851777518,
      "loss": 0.4789,
      "step": 36600
    },
    {
      "epoch": 1.2361897062786311,
      "grad_norm": 0.7923149466514587,
      "learning_rate": 0.0001469874107030077,
      "loss": 0.4788,
      "step": 36700
    },
    {
      "epoch": 1.2395580706009162,
      "grad_norm": 0.8405751585960388,
      "learning_rate": 0.0001467067128882402,
      "loss": 0.4773,
      "step": 36800
    },
    {
      "epoch": 1.2429264349232012,
      "grad_norm": 0.8324115872383118,
      "learning_rate": 0.00014642601507347267,
      "loss": 0.4782,
      "step": 36900
    },
    {
      "epoch": 1.2462947992454865,
      "grad_norm": 0.8548023700714111,
      "learning_rate": 0.00014614531725870515,
      "loss": 0.4798,
      "step": 37000
    },
    {
      "epoch": 1.2496631635677715,
      "grad_norm": 0.8439319729804993,
      "learning_rate": 0.00014586461944393763,
      "loss": 0.4757,
      "step": 37100
    },
    {
      "epoch": 1.2530315278900566,
      "grad_norm": 0.7825635075569153,
      "learning_rate": 0.0001455839216291701,
      "loss": 0.4783,
      "step": 37200
    },
    {
      "epoch": 1.2563998922123416,
      "grad_norm": 0.8164156675338745,
      "learning_rate": 0.0001453032238144026,
      "loss": 0.4779,
      "step": 37300
    },
    {
      "epoch": 1.2597682565346267,
      "grad_norm": 0.8076338768005371,
      "learning_rate": 0.00014502252599963512,
      "loss": 0.4773,
      "step": 37400
    },
    {
      "epoch": 1.263136620856912,
      "grad_norm": 0.8112064003944397,
      "learning_rate": 0.0001447418281848676,
      "loss": 0.4754,
      "step": 37500
    },
    {
      "epoch": 1.266504985179197,
      "grad_norm": 0.7940359711647034,
      "learning_rate": 0.00014446113037010008,
      "loss": 0.4745,
      "step": 37600
    },
    {
      "epoch": 1.269873349501482,
      "grad_norm": 0.8495946526527405,
      "learning_rate": 0.00014418043255533255,
      "loss": 0.4758,
      "step": 37700
    },
    {
      "epoch": 1.2732417138237673,
      "grad_norm": 0.8374922275543213,
      "learning_rate": 0.00014389973474056506,
      "loss": 0.4771,
      "step": 37800
    },
    {
      "epoch": 1.2766100781460523,
      "grad_norm": 0.8647417426109314,
      "learning_rate": 0.00014361903692579754,
      "loss": 0.4771,
      "step": 37900
    },
    {
      "epoch": 1.2799784424683374,
      "grad_norm": 0.8156632781028748,
      "learning_rate": 0.00014333833911103002,
      "loss": 0.4747,
      "step": 38000
    },
    {
      "epoch": 1.2833468067906224,
      "grad_norm": 0.7802369594573975,
      "learning_rate": 0.00014305764129626252,
      "loss": 0.4741,
      "step": 38100
    },
    {
      "epoch": 1.2867151711129075,
      "grad_norm": 0.7542524337768555,
      "learning_rate": 0.000142776943481495,
      "loss": 0.4761,
      "step": 38200
    },
    {
      "epoch": 1.2900835354351927,
      "grad_norm": 0.8326511383056641,
      "learning_rate": 0.0001424962456667275,
      "loss": 0.4734,
      "step": 38300
    },
    {
      "epoch": 1.2934518997574778,
      "grad_norm": 0.7556424736976624,
      "learning_rate": 0.00014221554785195998,
      "loss": 0.4757,
      "step": 38400
    },
    {
      "epoch": 1.2968202640797628,
      "grad_norm": 0.8151201605796814,
      "learning_rate": 0.00014193485003719246,
      "loss": 0.4743,
      "step": 38500
    },
    {
      "epoch": 1.300188628402048,
      "grad_norm": 0.8914119601249695,
      "learning_rate": 0.00014165415222242494,
      "loss": 0.4769,
      "step": 38600
    },
    {
      "epoch": 1.3035569927243331,
      "grad_norm": 0.8541133999824524,
      "learning_rate": 0.00014137345440765745,
      "loss": 0.4744,
      "step": 38700
    },
    {
      "epoch": 1.3069253570466182,
      "grad_norm": 0.8853744864463806,
      "learning_rate": 0.00014109275659288995,
      "loss": 0.474,
      "step": 38800
    },
    {
      "epoch": 1.3102937213689032,
      "grad_norm": 0.8547524809837341,
      "learning_rate": 0.00014081205877812243,
      "loss": 0.474,
      "step": 38900
    },
    {
      "epoch": 1.3136620856911883,
      "grad_norm": 0.7881298661231995,
      "learning_rate": 0.0001405313609633549,
      "loss": 0.4727,
      "step": 39000
    },
    {
      "epoch": 1.3170304500134735,
      "grad_norm": 0.7588589191436768,
      "learning_rate": 0.0001402506631485874,
      "loss": 0.473,
      "step": 39100
    },
    {
      "epoch": 1.3203988143357586,
      "grad_norm": 0.7980801463127136,
      "learning_rate": 0.00013996996533381987,
      "loss": 0.4727,
      "step": 39200
    },
    {
      "epoch": 1.3237671786580436,
      "grad_norm": 0.8034206628799438,
      "learning_rate": 0.00013968926751905237,
      "loss": 0.4737,
      "step": 39300
    },
    {
      "epoch": 1.3271355429803289,
      "grad_norm": 0.7804720401763916,
      "learning_rate": 0.00013940856970428485,
      "loss": 0.4754,
      "step": 39400
    },
    {
      "epoch": 1.330503907302614,
      "grad_norm": 0.8541818261146545,
      "learning_rate": 0.00013912787188951736,
      "loss": 0.4733,
      "step": 39500
    },
    {
      "epoch": 1.333872271624899,
      "grad_norm": 0.8339990377426147,
      "learning_rate": 0.00013884717407474983,
      "loss": 0.4721,
      "step": 39600
    },
    {
      "epoch": 1.337240635947184,
      "grad_norm": 0.8007979393005371,
      "learning_rate": 0.0001385664762599823,
      "loss": 0.4745,
      "step": 39700
    },
    {
      "epoch": 1.340609000269469,
      "grad_norm": 0.848199188709259,
      "learning_rate": 0.00013828577844521482,
      "loss": 0.4725,
      "step": 39800
    },
    {
      "epoch": 1.3439773645917543,
      "grad_norm": 0.9129810333251953,
      "learning_rate": 0.0001380050806304473,
      "loss": 0.4716,
      "step": 39900
    },
    {
      "epoch": 1.3473457289140394,
      "grad_norm": 0.869888186454773,
      "learning_rate": 0.00013772438281567978,
      "loss": 0.4744,
      "step": 40000
    },
    {
      "epoch": 1.3507140932363244,
      "grad_norm": 0.8916295170783997,
      "learning_rate": 0.00013744368500091228,
      "loss": 0.4712,
      "step": 40100
    },
    {
      "epoch": 1.3540824575586097,
      "grad_norm": 0.8144074082374573,
      "learning_rate": 0.00013716298718614476,
      "loss": 0.4734,
      "step": 40200
    },
    {
      "epoch": 1.3574508218808947,
      "grad_norm": 0.7844826579093933,
      "learning_rate": 0.00013688228937137726,
      "loss": 0.473,
      "step": 40300
    },
    {
      "epoch": 1.3608191862031798,
      "grad_norm": 0.8559306859970093,
      "learning_rate": 0.00013660159155660974,
      "loss": 0.4708,
      "step": 40400
    },
    {
      "epoch": 1.3641875505254648,
      "grad_norm": 0.7995209693908691,
      "learning_rate": 0.00013632089374184222,
      "loss": 0.472,
      "step": 40500
    },
    {
      "epoch": 1.3675559148477499,
      "grad_norm": 0.845758855342865,
      "learning_rate": 0.0001360401959270747,
      "loss": 0.4714,
      "step": 40600
    },
    {
      "epoch": 1.3709242791700351,
      "grad_norm": 0.8122411370277405,
      "learning_rate": 0.0001357594981123072,
      "loss": 0.4715,
      "step": 40700
    },
    {
      "epoch": 1.3742926434923202,
      "grad_norm": 0.7860530614852905,
      "learning_rate": 0.0001354788002975397,
      "loss": 0.4718,
      "step": 40800
    },
    {
      "epoch": 1.3776610078146052,
      "grad_norm": 0.7795781493186951,
      "learning_rate": 0.0001351981024827722,
      "loss": 0.4696,
      "step": 40900
    },
    {
      "epoch": 1.3810293721368903,
      "grad_norm": 0.7595000267028809,
      "learning_rate": 0.00013491740466800467,
      "loss": 0.4703,
      "step": 41000
    },
    {
      "epoch": 1.3843977364591753,
      "grad_norm": 0.8687454462051392,
      "learning_rate": 0.00013463670685323715,
      "loss": 0.4698,
      "step": 41100
    },
    {
      "epoch": 1.3877661007814606,
      "grad_norm": 0.8719391226768494,
      "learning_rate": 0.00013435600903846962,
      "loss": 0.4689,
      "step": 41200
    },
    {
      "epoch": 1.3911344651037456,
      "grad_norm": 0.8451808094978333,
      "learning_rate": 0.00013407531122370213,
      "loss": 0.4681,
      "step": 41300
    },
    {
      "epoch": 1.3945028294260307,
      "grad_norm": 0.8027797341346741,
      "learning_rate": 0.0001337946134089346,
      "loss": 0.4717,
      "step": 41400
    },
    {
      "epoch": 1.397871193748316,
      "grad_norm": 0.7488086819648743,
      "learning_rate": 0.00013351391559416711,
      "loss": 0.4694,
      "step": 41500
    },
    {
      "epoch": 1.401239558070601,
      "grad_norm": 0.8326307535171509,
      "learning_rate": 0.0001332332177793996,
      "loss": 0.4693,
      "step": 41600
    },
    {
      "epoch": 1.404607922392886,
      "grad_norm": 0.8087652325630188,
      "learning_rate": 0.00013295251996463207,
      "loss": 0.4684,
      "step": 41700
    },
    {
      "epoch": 1.407976286715171,
      "grad_norm": 0.7918603420257568,
      "learning_rate": 0.00013267182214986458,
      "loss": 0.47,
      "step": 41800
    },
    {
      "epoch": 1.411344651037456,
      "grad_norm": 0.8231304883956909,
      "learning_rate": 0.00013239112433509705,
      "loss": 0.4694,
      "step": 41900
    },
    {
      "epoch": 1.4147130153597414,
      "grad_norm": 0.7812530994415283,
      "learning_rate": 0.00013211042652032953,
      "loss": 0.4695,
      "step": 42000
    },
    {
      "epoch": 1.4180813796820264,
      "grad_norm": 0.854972779750824,
      "learning_rate": 0.00013182972870556204,
      "loss": 0.47,
      "step": 42100
    },
    {
      "epoch": 1.4214497440043115,
      "grad_norm": 0.8728025555610657,
      "learning_rate": 0.00013154903089079452,
      "loss": 0.468,
      "step": 42200
    },
    {
      "epoch": 1.4248181083265967,
      "grad_norm": 0.8394129276275635,
      "learning_rate": 0.00013126833307602702,
      "loss": 0.4698,
      "step": 42300
    },
    {
      "epoch": 1.4281864726488818,
      "grad_norm": 0.7810468673706055,
      "learning_rate": 0.0001309876352612595,
      "loss": 0.4694,
      "step": 42400
    },
    {
      "epoch": 1.4315548369711668,
      "grad_norm": 0.8251649737358093,
      "learning_rate": 0.00013070693744649198,
      "loss": 0.4651,
      "step": 42500
    },
    {
      "epoch": 1.4349232012934519,
      "grad_norm": 0.8438547253608704,
      "learning_rate": 0.00013042623963172446,
      "loss": 0.4685,
      "step": 42600
    },
    {
      "epoch": 1.438291565615737,
      "grad_norm": 0.7687946557998657,
      "learning_rate": 0.00013014554181695696,
      "loss": 0.4657,
      "step": 42700
    },
    {
      "epoch": 1.4416599299380222,
      "grad_norm": 0.7573995590209961,
      "learning_rate": 0.00012986484400218947,
      "loss": 0.4667,
      "step": 42800
    },
    {
      "epoch": 1.4450282942603072,
      "grad_norm": 0.8200283646583557,
      "learning_rate": 0.00012958414618742195,
      "loss": 0.4666,
      "step": 42900
    },
    {
      "epoch": 1.4483966585825923,
      "grad_norm": 0.8411341905593872,
      "learning_rate": 0.00012930344837265443,
      "loss": 0.4679,
      "step": 43000
    },
    {
      "epoch": 1.4517650229048775,
      "grad_norm": 0.8489885330200195,
      "learning_rate": 0.0001290227505578869,
      "loss": 0.4679,
      "step": 43100
    },
    {
      "epoch": 1.4551333872271626,
      "grad_norm": 0.8161250352859497,
      "learning_rate": 0.00012874205274311938,
      "loss": 0.4688,
      "step": 43200
    },
    {
      "epoch": 1.4585017515494476,
      "grad_norm": 0.7844269871711731,
      "learning_rate": 0.0001284613549283519,
      "loss": 0.4666,
      "step": 43300
    },
    {
      "epoch": 1.4618701158717327,
      "grad_norm": 0.7773265838623047,
      "learning_rate": 0.00012818065711358437,
      "loss": 0.4687,
      "step": 43400
    },
    {
      "epoch": 1.4652384801940177,
      "grad_norm": 0.8081590533256531,
      "learning_rate": 0.00012789995929881687,
      "loss": 0.4643,
      "step": 43500
    },
    {
      "epoch": 1.468606844516303,
      "grad_norm": 0.7888718843460083,
      "learning_rate": 0.00012761926148404935,
      "loss": 0.4682,
      "step": 43600
    },
    {
      "epoch": 1.471975208838588,
      "grad_norm": 0.7907763719558716,
      "learning_rate": 0.00012733856366928186,
      "loss": 0.4653,
      "step": 43700
    },
    {
      "epoch": 1.475343573160873,
      "grad_norm": 0.7945205569267273,
      "learning_rate": 0.00012705786585451433,
      "loss": 0.4648,
      "step": 43800
    },
    {
      "epoch": 1.478711937483158,
      "grad_norm": 0.8834030032157898,
      "learning_rate": 0.0001267771680397468,
      "loss": 0.4664,
      "step": 43900
    },
    {
      "epoch": 1.4820803018054431,
      "grad_norm": 0.7815008759498596,
      "learning_rate": 0.0001264964702249793,
      "loss": 0.4662,
      "step": 44000
    },
    {
      "epoch": 1.4854486661277284,
      "grad_norm": 0.8282730579376221,
      "learning_rate": 0.0001262157724102118,
      "loss": 0.4652,
      "step": 44100
    },
    {
      "epoch": 1.4888170304500135,
      "grad_norm": 0.7864588499069214,
      "learning_rate": 0.0001259350745954443,
      "loss": 0.4651,
      "step": 44200
    },
    {
      "epoch": 1.4921853947722985,
      "grad_norm": 0.7972845435142517,
      "learning_rate": 0.00012565437678067678,
      "loss": 0.4656,
      "step": 44300
    },
    {
      "epoch": 1.4955537590945838,
      "grad_norm": 0.8192013502120972,
      "learning_rate": 0.00012537367896590926,
      "loss": 0.4665,
      "step": 44400
    },
    {
      "epoch": 1.4989221234168688,
      "grad_norm": 0.8526120185852051,
      "learning_rate": 0.00012509298115114174,
      "loss": 0.4654,
      "step": 44500
    },
    {
      "epoch": 1.5022904877391539,
      "grad_norm": 0.8241577744483948,
      "learning_rate": 0.00012481228333637422,
      "loss": 0.4648,
      "step": 44600
    },
    {
      "epoch": 1.5056588520614391,
      "grad_norm": 0.8311729431152344,
      "learning_rate": 0.00012453158552160672,
      "loss": 0.4662,
      "step": 44700
    },
    {
      "epoch": 1.509027216383724,
      "grad_norm": 0.7880195379257202,
      "learning_rate": 0.00012425088770683923,
      "loss": 0.4637,
      "step": 44800
    },
    {
      "epoch": 1.5123955807060092,
      "grad_norm": 0.7668688893318176,
      "learning_rate": 0.0001239701898920717,
      "loss": 0.465,
      "step": 44900
    },
    {
      "epoch": 1.5157639450282943,
      "grad_norm": 0.8149063587188721,
      "learning_rate": 0.00012368949207730418,
      "loss": 0.4634,
      "step": 45000
    },
    {
      "epoch": 1.5191323093505793,
      "grad_norm": 0.7656127214431763,
      "learning_rate": 0.00012340879426253666,
      "loss": 0.4635,
      "step": 45100
    },
    {
      "epoch": 1.5225006736728646,
      "grad_norm": 0.8114592432975769,
      "learning_rate": 0.00012312809644776917,
      "loss": 0.4635,
      "step": 45200
    },
    {
      "epoch": 1.5258690379951494,
      "grad_norm": 0.8734049797058105,
      "learning_rate": 0.00012284739863300165,
      "loss": 0.4629,
      "step": 45300
    },
    {
      "epoch": 1.5292374023174347,
      "grad_norm": 0.806281328201294,
      "learning_rate": 0.00012256670081823413,
      "loss": 0.4644,
      "step": 45400
    },
    {
      "epoch": 1.5326057666397197,
      "grad_norm": 0.8073423504829407,
      "learning_rate": 0.00012228600300346663,
      "loss": 0.4626,
      "step": 45500
    },
    {
      "epoch": 1.5359741309620047,
      "grad_norm": 0.8023707270622253,
      "learning_rate": 0.00012200530518869911,
      "loss": 0.4637,
      "step": 45600
    },
    {
      "epoch": 1.53934249528429,
      "grad_norm": 0.821060299873352,
      "learning_rate": 0.00012172460737393161,
      "loss": 0.4624,
      "step": 45700
    },
    {
      "epoch": 1.542710859606575,
      "grad_norm": 0.7743229866027832,
      "learning_rate": 0.00012144390955916409,
      "loss": 0.4631,
      "step": 45800
    },
    {
      "epoch": 1.54607922392886,
      "grad_norm": 0.8501706719398499,
      "learning_rate": 0.00012116321174439657,
      "loss": 0.4646,
      "step": 45900
    },
    {
      "epoch": 1.5494475882511454,
      "grad_norm": 0.798643946647644,
      "learning_rate": 0.00012088251392962906,
      "loss": 0.4618,
      "step": 46000
    },
    {
      "epoch": 1.5528159525734302,
      "grad_norm": 0.771360456943512,
      "learning_rate": 0.00012060181611486154,
      "loss": 0.464,
      "step": 46100
    },
    {
      "epoch": 1.5561843168957155,
      "grad_norm": 0.7841131687164307,
      "learning_rate": 0.00012032111830009405,
      "loss": 0.4618,
      "step": 46200
    },
    {
      "epoch": 1.5595526812180005,
      "grad_norm": 0.7240998148918152,
      "learning_rate": 0.00012004042048532653,
      "loss": 0.4648,
      "step": 46300
    },
    {
      "epoch": 1.5629210455402855,
      "grad_norm": 0.8445931673049927,
      "learning_rate": 0.00011975972267055902,
      "loss": 0.4606,
      "step": 46400
    },
    {
      "epoch": 1.5662894098625708,
      "grad_norm": 0.8375403881072998,
      "learning_rate": 0.0001194790248557915,
      "loss": 0.4633,
      "step": 46500
    },
    {
      "epoch": 1.5696577741848559,
      "grad_norm": 0.7885960340499878,
      "learning_rate": 0.00011919832704102399,
      "loss": 0.4632,
      "step": 46600
    },
    {
      "epoch": 1.573026138507141,
      "grad_norm": 0.8243712186813354,
      "learning_rate": 0.0001189176292262565,
      "loss": 0.4618,
      "step": 46700
    },
    {
      "epoch": 1.5763945028294262,
      "grad_norm": 0.8182551860809326,
      "learning_rate": 0.00011863693141148897,
      "loss": 0.4607,
      "step": 46800
    },
    {
      "epoch": 1.579762867151711,
      "grad_norm": 0.7784871459007263,
      "learning_rate": 0.00011835623359672145,
      "loss": 0.4628,
      "step": 46900
    },
    {
      "epoch": 1.5831312314739963,
      "grad_norm": 0.8082338571548462,
      "learning_rate": 0.00011807553578195394,
      "loss": 0.4621,
      "step": 47000
    },
    {
      "epoch": 1.5864995957962813,
      "grad_norm": 0.8203257322311401,
      "learning_rate": 0.00011779483796718642,
      "loss": 0.461,
      "step": 47100
    },
    {
      "epoch": 1.5898679601185663,
      "grad_norm": 0.7920771837234497,
      "learning_rate": 0.00011751414015241893,
      "loss": 0.4611,
      "step": 47200
    },
    {
      "epoch": 1.5932363244408516,
      "grad_norm": 0.8124784827232361,
      "learning_rate": 0.0001172334423376514,
      "loss": 0.4598,
      "step": 47300
    },
    {
      "epoch": 1.5966046887631367,
      "grad_norm": 0.8094605803489685,
      "learning_rate": 0.0001169527445228839,
      "loss": 0.4605,
      "step": 47400
    },
    {
      "epoch": 1.5999730530854217,
      "grad_norm": 0.7639499306678772,
      "learning_rate": 0.00011667204670811638,
      "loss": 0.46,
      "step": 47500
    },
    {
      "epoch": 1.603341417407707,
      "grad_norm": 0.8600967526435852,
      "learning_rate": 0.00011639134889334887,
      "loss": 0.4623,
      "step": 47600
    },
    {
      "epoch": 1.6067097817299918,
      "grad_norm": 0.7747792601585388,
      "learning_rate": 0.00011611065107858137,
      "loss": 0.463,
      "step": 47700
    },
    {
      "epoch": 1.610078146052277,
      "grad_norm": 0.8040998578071594,
      "learning_rate": 0.00011582995326381385,
      "loss": 0.459,
      "step": 47800
    },
    {
      "epoch": 1.613446510374562,
      "grad_norm": 0.7648651003837585,
      "learning_rate": 0.00011554925544904633,
      "loss": 0.4618,
      "step": 47900
    },
    {
      "epoch": 1.6168148746968471,
      "grad_norm": 0.789125382900238,
      "learning_rate": 0.00011526855763427882,
      "loss": 0.4599,
      "step": 48000
    },
    {
      "epoch": 1.6201832390191324,
      "grad_norm": 0.8133670687675476,
      "learning_rate": 0.0001149878598195113,
      "loss": 0.4594,
      "step": 48100
    },
    {
      "epoch": 1.6235516033414175,
      "grad_norm": 0.7992141842842102,
      "learning_rate": 0.0001147071620047438,
      "loss": 0.4602,
      "step": 48200
    },
    {
      "epoch": 1.6269199676637025,
      "grad_norm": 0.780681312084198,
      "learning_rate": 0.00011442646418997628,
      "loss": 0.4587,
      "step": 48300
    },
    {
      "epoch": 1.6302883319859878,
      "grad_norm": 0.7979656457901001,
      "learning_rate": 0.00011414576637520878,
      "loss": 0.4587,
      "step": 48400
    },
    {
      "epoch": 1.6336566963082726,
      "grad_norm": 0.8527476787567139,
      "learning_rate": 0.00011386506856044125,
      "loss": 0.4586,
      "step": 48500
    },
    {
      "epoch": 1.6370250606305579,
      "grad_norm": 0.8187114000320435,
      "learning_rate": 0.00011358437074567375,
      "loss": 0.4611,
      "step": 48600
    },
    {
      "epoch": 1.640393424952843,
      "grad_norm": 0.7977433204650879,
      "learning_rate": 0.00011330367293090625,
      "loss": 0.4581,
      "step": 48700
    },
    {
      "epoch": 1.643761789275128,
      "grad_norm": 0.8355839252471924,
      "learning_rate": 0.00011302297511613873,
      "loss": 0.46,
      "step": 48800
    },
    {
      "epoch": 1.6471301535974132,
      "grad_norm": 0.7887241840362549,
      "learning_rate": 0.00011274227730137121,
      "loss": 0.4595,
      "step": 48900
    },
    {
      "epoch": 1.650498517919698,
      "grad_norm": 0.8219642639160156,
      "learning_rate": 0.0001124615794866037,
      "loss": 0.4605,
      "step": 49000
    },
    {
      "epoch": 1.6538668822419833,
      "grad_norm": 0.797517716884613,
      "learning_rate": 0.00011218088167183618,
      "loss": 0.46,
      "step": 49100
    },
    {
      "epoch": 1.6572352465642683,
      "grad_norm": 0.81880784034729,
      "learning_rate": 0.00011190018385706868,
      "loss": 0.4602,
      "step": 49200
    },
    {
      "epoch": 1.6606036108865534,
      "grad_norm": 0.8267971277236938,
      "learning_rate": 0.00011161948604230116,
      "loss": 0.4584,
      "step": 49300
    },
    {
      "epoch": 1.6639719752088387,
      "grad_norm": 0.8257302045822144,
      "learning_rate": 0.00011133878822753366,
      "loss": 0.4602,
      "step": 49400
    },
    {
      "epoch": 1.6673403395311237,
      "grad_norm": 0.7903374433517456,
      "learning_rate": 0.00011105809041276613,
      "loss": 0.4558,
      "step": 49500
    },
    {
      "epoch": 1.6707087038534087,
      "grad_norm": 0.7741321921348572,
      "learning_rate": 0.00011077739259799863,
      "loss": 0.4596,
      "step": 49600
    },
    {
      "epoch": 1.674077068175694,
      "grad_norm": 0.771134078502655,
      "learning_rate": 0.00011049669478323113,
      "loss": 0.4568,
      "step": 49700
    },
    {
      "epoch": 1.6774454324979788,
      "grad_norm": 0.7859461307525635,
      "learning_rate": 0.00011021599696846361,
      "loss": 0.4577,
      "step": 49800
    },
    {
      "epoch": 1.680813796820264,
      "grad_norm": 0.7759444117546082,
      "learning_rate": 0.00010993529915369609,
      "loss": 0.457,
      "step": 49900
    },
    {
      "epoch": 1.6841821611425492,
      "grad_norm": 0.8348528742790222,
      "learning_rate": 0.00010965460133892858,
      "loss": 0.4569,
      "step": 50000
    },
    {
      "epoch": 1.6875505254648342,
      "grad_norm": 0.8011546730995178,
      "learning_rate": 0.00010937390352416106,
      "loss": 0.4585,
      "step": 50100
    },
    {
      "epoch": 1.6909188897871195,
      "grad_norm": 0.790429413318634,
      "learning_rate": 0.00010909320570939356,
      "loss": 0.4582,
      "step": 50200
    },
    {
      "epoch": 1.6942872541094045,
      "grad_norm": 0.8371046781539917,
      "learning_rate": 0.00010881250789462604,
      "loss": 0.4591,
      "step": 50300
    },
    {
      "epoch": 1.6976556184316896,
      "grad_norm": 0.7836015820503235,
      "learning_rate": 0.00010853181007985853,
      "loss": 0.4581,
      "step": 50400
    },
    {
      "epoch": 1.7010239827539748,
      "grad_norm": 0.846708357334137,
      "learning_rate": 0.00010825111226509101,
      "loss": 0.4569,
      "step": 50500
    },
    {
      "epoch": 1.7043923470762596,
      "grad_norm": 0.797223687171936,
      "learning_rate": 0.00010797041445032352,
      "loss": 0.4569,
      "step": 50600
    },
    {
      "epoch": 1.707760711398545,
      "grad_norm": 0.8466051816940308,
      "learning_rate": 0.00010768971663555601,
      "loss": 0.4567,
      "step": 50700
    },
    {
      "epoch": 1.71112907572083,
      "grad_norm": 0.7285684943199158,
      "learning_rate": 0.00010740901882078849,
      "loss": 0.456,
      "step": 50800
    },
    {
      "epoch": 1.714497440043115,
      "grad_norm": 0.8624778985977173,
      "learning_rate": 0.00010712832100602097,
      "loss": 0.4588,
      "step": 50900
    },
    {
      "epoch": 1.7178658043654003,
      "grad_norm": 0.7958481311798096,
      "learning_rate": 0.00010684762319125346,
      "loss": 0.4566,
      "step": 51000
    },
    {
      "epoch": 1.7212341686876853,
      "grad_norm": 0.7974202036857605,
      "learning_rate": 0.00010656692537648596,
      "loss": 0.4566,
      "step": 51100
    },
    {
      "epoch": 1.7246025330099704,
      "grad_norm": 0.8782477378845215,
      "learning_rate": 0.00010628622756171844,
      "loss": 0.4577,
      "step": 51200
    },
    {
      "epoch": 1.7279708973322556,
      "grad_norm": 0.8142967820167542,
      "learning_rate": 0.00010600552974695092,
      "loss": 0.4543,
      "step": 51300
    },
    {
      "epoch": 1.7313392616545404,
      "grad_norm": 0.7704757452011108,
      "learning_rate": 0.00010572483193218341,
      "loss": 0.4565,
      "step": 51400
    },
    {
      "epoch": 1.7347076259768257,
      "grad_norm": 0.8298918604850769,
      "learning_rate": 0.00010544413411741589,
      "loss": 0.4564,
      "step": 51500
    },
    {
      "epoch": 1.7380759902991108,
      "grad_norm": 0.7840197682380676,
      "learning_rate": 0.0001051634363026484,
      "loss": 0.457,
      "step": 51600
    },
    {
      "epoch": 1.7414443546213958,
      "grad_norm": 0.8080000281333923,
      "learning_rate": 0.00010488273848788088,
      "loss": 0.4563,
      "step": 51700
    },
    {
      "epoch": 1.744812718943681,
      "grad_norm": 0.8133041262626648,
      "learning_rate": 0.00010460204067311337,
      "loss": 0.4529,
      "step": 51800
    },
    {
      "epoch": 1.7481810832659659,
      "grad_norm": 0.8792639374732971,
      "learning_rate": 0.00010432134285834585,
      "loss": 0.4536,
      "step": 51900
    },
    {
      "epoch": 1.7515494475882512,
      "grad_norm": 0.8580865263938904,
      "learning_rate": 0.00010404064504357834,
      "loss": 0.4542,
      "step": 52000
    },
    {
      "epoch": 1.7549178119105362,
      "grad_norm": 0.7759612798690796,
      "learning_rate": 0.00010375994722881084,
      "loss": 0.4557,
      "step": 52100
    },
    {
      "epoch": 1.7582861762328212,
      "grad_norm": 0.748423159122467,
      "learning_rate": 0.00010347924941404332,
      "loss": 0.454,
      "step": 52200
    },
    {
      "epoch": 1.7616545405551065,
      "grad_norm": 0.7873731851577759,
      "learning_rate": 0.0001031985515992758,
      "loss": 0.4543,
      "step": 52300
    },
    {
      "epoch": 1.7650229048773916,
      "grad_norm": 0.7736590504646301,
      "learning_rate": 0.00010291785378450829,
      "loss": 0.4556,
      "step": 52400
    },
    {
      "epoch": 1.7683912691996766,
      "grad_norm": 0.7629456520080566,
      "learning_rate": 0.00010263715596974077,
      "loss": 0.4545,
      "step": 52500
    },
    {
      "epoch": 1.7717596335219619,
      "grad_norm": 0.8270254731178284,
      "learning_rate": 0.00010235645815497328,
      "loss": 0.4546,
      "step": 52600
    },
    {
      "epoch": 1.7751279978442467,
      "grad_norm": 0.7610684633255005,
      "learning_rate": 0.00010207576034020576,
      "loss": 0.4527,
      "step": 52700
    },
    {
      "epoch": 1.778496362166532,
      "grad_norm": 0.8228756785392761,
      "learning_rate": 0.00010179506252543825,
      "loss": 0.4568,
      "step": 52800
    },
    {
      "epoch": 1.781864726488817,
      "grad_norm": 0.8317448496818542,
      "learning_rate": 0.00010151436471067073,
      "loss": 0.4543,
      "step": 52900
    },
    {
      "epoch": 1.785233090811102,
      "grad_norm": 0.7914367318153381,
      "learning_rate": 0.00010123366689590322,
      "loss": 0.4529,
      "step": 53000
    },
    {
      "epoch": 1.7886014551333873,
      "grad_norm": 0.8205628395080566,
      "learning_rate": 0.00010095296908113572,
      "loss": 0.4537,
      "step": 53100
    },
    {
      "epoch": 1.7919698194556724,
      "grad_norm": 0.794956386089325,
      "learning_rate": 0.0001006722712663682,
      "loss": 0.455,
      "step": 53200
    },
    {
      "epoch": 1.7953381837779574,
      "grad_norm": 0.8285955786705017,
      "learning_rate": 0.00010039157345160068,
      "loss": 0.4535,
      "step": 53300
    },
    {
      "epoch": 1.7987065481002427,
      "grad_norm": 0.8204521536827087,
      "learning_rate": 0.00010011087563683317,
      "loss": 0.4561,
      "step": 53400
    },
    {
      "epoch": 1.8020749124225275,
      "grad_norm": 0.8407822251319885,
      "learning_rate": 9.983017782206566e-05,
      "loss": 0.4563,
      "step": 53500
    },
    {
      "epoch": 1.8054432767448128,
      "grad_norm": 0.8138654828071594,
      "learning_rate": 9.954948000729814e-05,
      "loss": 0.4547,
      "step": 53600
    },
    {
      "epoch": 1.8088116410670978,
      "grad_norm": 0.8514792323112488,
      "learning_rate": 9.926878219253063e-05,
      "loss": 0.453,
      "step": 53700
    },
    {
      "epoch": 1.8121800053893828,
      "grad_norm": 0.836942195892334,
      "learning_rate": 9.898808437776313e-05,
      "loss": 0.4554,
      "step": 53800
    },
    {
      "epoch": 1.815548369711668,
      "grad_norm": 0.8424620628356934,
      "learning_rate": 9.87073865629956e-05,
      "loss": 0.4541,
      "step": 53900
    },
    {
      "epoch": 1.8189167340339532,
      "grad_norm": 0.7823119163513184,
      "learning_rate": 9.84266887482281e-05,
      "loss": 0.4539,
      "step": 54000
    },
    {
      "epoch": 1.8222850983562382,
      "grad_norm": 0.8232121467590332,
      "learning_rate": 9.814599093346059e-05,
      "loss": 0.4518,
      "step": 54100
    },
    {
      "epoch": 1.8256534626785235,
      "grad_norm": 0.7991457581520081,
      "learning_rate": 9.786529311869308e-05,
      "loss": 0.4516,
      "step": 54200
    },
    {
      "epoch": 1.8290218270008083,
      "grad_norm": 0.7749050855636597,
      "learning_rate": 9.758459530392556e-05,
      "loss": 0.4528,
      "step": 54300
    },
    {
      "epoch": 1.8323901913230936,
      "grad_norm": 0.7452788949012756,
      "learning_rate": 9.730389748915805e-05,
      "loss": 0.4555,
      "step": 54400
    },
    {
      "epoch": 1.8357585556453786,
      "grad_norm": 0.816150963306427,
      "learning_rate": 9.702319967439054e-05,
      "loss": 0.4514,
      "step": 54500
    },
    {
      "epoch": 1.8391269199676636,
      "grad_norm": 0.785351037979126,
      "learning_rate": 9.674250185962302e-05,
      "loss": 0.4517,
      "step": 54600
    },
    {
      "epoch": 1.842495284289949,
      "grad_norm": 0.828187108039856,
      "learning_rate": 9.646180404485551e-05,
      "loss": 0.4533,
      "step": 54700
    },
    {
      "epoch": 1.845863648612234,
      "grad_norm": 0.7950621247291565,
      "learning_rate": 9.6181106230088e-05,
      "loss": 0.4523,
      "step": 54800
    },
    {
      "epoch": 1.849232012934519,
      "grad_norm": 0.7881097197532654,
      "learning_rate": 9.590040841532048e-05,
      "loss": 0.4516,
      "step": 54900
    },
    {
      "epoch": 1.852600377256804,
      "grad_norm": 0.7643069624900818,
      "learning_rate": 9.561971060055298e-05,
      "loss": 0.453,
      "step": 55000
    },
    {
      "epoch": 1.855968741579089,
      "grad_norm": 0.7741556167602539,
      "learning_rate": 9.533901278578547e-05,
      "loss": 0.4528,
      "step": 55100
    },
    {
      "epoch": 1.8593371059013744,
      "grad_norm": 0.8289052844047546,
      "learning_rate": 9.505831497101796e-05,
      "loss": 0.452,
      "step": 55200
    },
    {
      "epoch": 1.8627054702236594,
      "grad_norm": 0.7747401595115662,
      "learning_rate": 9.477761715625044e-05,
      "loss": 0.453,
      "step": 55300
    },
    {
      "epoch": 1.8660738345459444,
      "grad_norm": 0.837910532951355,
      "learning_rate": 9.449691934148293e-05,
      "loss": 0.4532,
      "step": 55400
    },
    {
      "epoch": 1.8694421988682297,
      "grad_norm": 0.7754988670349121,
      "learning_rate": 9.421622152671542e-05,
      "loss": 0.4497,
      "step": 55500
    },
    {
      "epoch": 1.8728105631905145,
      "grad_norm": 0.8681314587593079,
      "learning_rate": 9.39355237119479e-05,
      "loss": 0.451,
      "step": 55600
    },
    {
      "epoch": 1.8761789275127998,
      "grad_norm": 0.8410942554473877,
      "learning_rate": 9.365482589718039e-05,
      "loss": 0.451,
      "step": 55700
    },
    {
      "epoch": 1.8795472918350848,
      "grad_norm": 0.8542850613594055,
      "learning_rate": 9.337412808241288e-05,
      "loss": 0.4524,
      "step": 55800
    },
    {
      "epoch": 1.8829156561573699,
      "grad_norm": 0.806122899055481,
      "learning_rate": 9.309343026764538e-05,
      "loss": 0.4535,
      "step": 55900
    },
    {
      "epoch": 1.8862840204796552,
      "grad_norm": 0.8103610277175903,
      "learning_rate": 9.281273245287786e-05,
      "loss": 0.4514,
      "step": 56000
    },
    {
      "epoch": 1.8896523848019402,
      "grad_norm": 0.7982548475265503,
      "learning_rate": 9.253203463811035e-05,
      "loss": 0.4504,
      "step": 56100
    },
    {
      "epoch": 1.8930207491242252,
      "grad_norm": 0.8081793189048767,
      "learning_rate": 9.225133682334284e-05,
      "loss": 0.4522,
      "step": 56200
    },
    {
      "epoch": 1.8963891134465105,
      "grad_norm": 0.8284481763839722,
      "learning_rate": 9.197063900857532e-05,
      "loss": 0.4501,
      "step": 56300
    },
    {
      "epoch": 1.8997574777687953,
      "grad_norm": 0.7722172737121582,
      "learning_rate": 9.168994119380781e-05,
      "loss": 0.4528,
      "step": 56400
    },
    {
      "epoch": 1.9031258420910806,
      "grad_norm": 0.8065896034240723,
      "learning_rate": 9.14092433790403e-05,
      "loss": 0.4527,
      "step": 56500
    },
    {
      "epoch": 1.9064942064133656,
      "grad_norm": 0.8267763257026672,
      "learning_rate": 9.112854556427278e-05,
      "loss": 0.4547,
      "step": 56600
    },
    {
      "epoch": 1.9098625707356507,
      "grad_norm": 0.803359866142273,
      "learning_rate": 9.084784774950527e-05,
      "loss": 0.4506,
      "step": 56700
    },
    {
      "epoch": 1.913230935057936,
      "grad_norm": 0.7984471321105957,
      "learning_rate": 9.056714993473776e-05,
      "loss": 0.4498,
      "step": 56800
    },
    {
      "epoch": 1.916599299380221,
      "grad_norm": 0.8118926286697388,
      "learning_rate": 9.028645211997026e-05,
      "loss": 0.4511,
      "step": 56900
    },
    {
      "epoch": 1.919967663702506,
      "grad_norm": 0.7954909205436707,
      "learning_rate": 9.000575430520273e-05,
      "loss": 0.45,
      "step": 57000
    },
    {
      "epoch": 1.9233360280247913,
      "grad_norm": 0.7925546765327454,
      "learning_rate": 8.972505649043523e-05,
      "loss": 0.4503,
      "step": 57100
    },
    {
      "epoch": 1.9267043923470761,
      "grad_norm": 0.7257952690124512,
      "learning_rate": 8.944435867566772e-05,
      "loss": 0.4501,
      "step": 57200
    },
    {
      "epoch": 1.9300727566693614,
      "grad_norm": 0.7644702196121216,
      "learning_rate": 8.91636608609002e-05,
      "loss": 0.4502,
      "step": 57300
    },
    {
      "epoch": 1.9334411209916464,
      "grad_norm": 0.8492504358291626,
      "learning_rate": 8.888296304613269e-05,
      "loss": 0.451,
      "step": 57400
    },
    {
      "epoch": 1.9368094853139315,
      "grad_norm": 0.7511376142501831,
      "learning_rate": 8.860226523136518e-05,
      "loss": 0.4511,
      "step": 57500
    },
    {
      "epoch": 1.9401778496362168,
      "grad_norm": 0.8549360036849976,
      "learning_rate": 8.832156741659766e-05,
      "loss": 0.4504,
      "step": 57600
    },
    {
      "epoch": 1.9435462139585018,
      "grad_norm": 0.7821473479270935,
      "learning_rate": 8.804086960183015e-05,
      "loss": 0.4508,
      "step": 57700
    },
    {
      "epoch": 1.9469145782807868,
      "grad_norm": 0.8527407050132751,
      "learning_rate": 8.776017178706264e-05,
      "loss": 0.4514,
      "step": 57800
    },
    {
      "epoch": 1.9502829426030721,
      "grad_norm": 0.8409647941589355,
      "learning_rate": 8.747947397229514e-05,
      "loss": 0.4498,
      "step": 57900
    },
    {
      "epoch": 1.953651306925357,
      "grad_norm": 0.8430731296539307,
      "learning_rate": 8.719877615752761e-05,
      "loss": 0.4498,
      "step": 58000
    },
    {
      "epoch": 1.9570196712476422,
      "grad_norm": 0.8346706032752991,
      "learning_rate": 8.69180783427601e-05,
      "loss": 0.4475,
      "step": 58100
    },
    {
      "epoch": 1.9603880355699272,
      "grad_norm": 0.7488289475440979,
      "learning_rate": 8.66373805279926e-05,
      "loss": 0.4488,
      "step": 58200
    },
    {
      "epoch": 1.9637563998922123,
      "grad_norm": 0.836130678653717,
      "learning_rate": 8.635668271322508e-05,
      "loss": 0.451,
      "step": 58300
    },
    {
      "epoch": 1.9671247642144976,
      "grad_norm": 0.7900556921958923,
      "learning_rate": 8.607598489845757e-05,
      "loss": 0.4463,
      "step": 58400
    },
    {
      "epoch": 1.9704931285367824,
      "grad_norm": 0.8496758341789246,
      "learning_rate": 8.579528708369006e-05,
      "loss": 0.4475,
      "step": 58500
    },
    {
      "epoch": 1.9738614928590676,
      "grad_norm": 0.8665506839752197,
      "learning_rate": 8.551458926892254e-05,
      "loss": 0.4474,
      "step": 58600
    },
    {
      "epoch": 1.9772298571813527,
      "grad_norm": 0.8058724999427795,
      "learning_rate": 8.523389145415503e-05,
      "loss": 0.4496,
      "step": 58700
    },
    {
      "epoch": 1.9805982215036377,
      "grad_norm": 0.8007978796958923,
      "learning_rate": 8.495319363938752e-05,
      "loss": 0.4494,
      "step": 58800
    },
    {
      "epoch": 1.983966585825923,
      "grad_norm": 0.7893068790435791,
      "learning_rate": 8.467249582462001e-05,
      "loss": 0.4477,
      "step": 58900
    },
    {
      "epoch": 1.987334950148208,
      "grad_norm": 0.8267046213150024,
      "learning_rate": 8.439179800985249e-05,
      "loss": 0.4479,
      "step": 59000
    },
    {
      "epoch": 1.990703314470493,
      "grad_norm": 0.8301923274993896,
      "learning_rate": 8.411110019508498e-05,
      "loss": 0.4486,
      "step": 59100
    },
    {
      "epoch": 1.9940716787927784,
      "grad_norm": 0.7466899156570435,
      "learning_rate": 8.383040238031748e-05,
      "loss": 0.4481,
      "step": 59200
    },
    {
      "epoch": 1.9974400431150632,
      "grad_norm": 0.8137242794036865,
      "learning_rate": 8.354970456554995e-05,
      "loss": 0.4501,
      "step": 59300
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.44603702425956726,
      "eval_runtime": 7.7293,
      "eval_samples_per_second": 646.889,
      "eval_steps_per_second": 10.221,
      "step": 59376
    }
  ],
  "logging_steps": 100,
  "max_steps": 89064,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2413913702400000.0,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}