{
  "best_metric": 4.588395118713379,
  "best_model_checkpoint": "learning_source_20260316/rna/bert-output/rna-medium/checkpoint-59600",
  "epoch": 0.9115595435441549,
  "eval_steps": 100,
  "global_step": 60000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0015192659059069249,
      "grad_norm": 0.36328116059303284,
      "learning_rate": 3e-06,
      "loss": 10.2311,
      "step": 100
    },
    {
      "epoch": 0.0015192659059069249,
      "eval_loss": 10.090826988220215,
      "eval_runtime": 193.145,
      "eval_samples_per_second": 51.775,
      "eval_steps_per_second": 6.472,
      "step": 100
    },
    {
      "epoch": 0.0030385318118138498,
      "grad_norm": 0.2686520218849182,
      "learning_rate": 6e-06,
      "loss": 9.9461,
      "step": 200
    },
    {
      "epoch": 0.0030385318118138498,
      "eval_loss": 9.758237838745117,
      "eval_runtime": 193.1826,
      "eval_samples_per_second": 51.764,
      "eval_steps_per_second": 6.471,
      "step": 200
    },
    {
      "epoch": 0.004557797717720775,
      "grad_norm": 0.9466120004653931,
      "learning_rate": 5.989966555183947e-06,
      "loss": 9.6291,
      "step": 300
    },
    {
      "epoch": 0.004557797717720775,
      "eval_loss": 9.439615249633789,
      "eval_runtime": 193.0329,
      "eval_samples_per_second": 51.805,
      "eval_steps_per_second": 6.476,
      "step": 300
    },
    {
      "epoch": 0.0060770636236276996,
      "grad_norm": 0.4738225042819977,
      "learning_rate": 5.979933110367893e-06,
      "loss": 9.3896,
      "step": 400
    },
    {
      "epoch": 0.0060770636236276996,
      "eval_loss": 9.214252471923828,
      "eval_runtime": 193.5666,
      "eval_samples_per_second": 51.662,
      "eval_steps_per_second": 6.458,
      "step": 400
    },
    {
      "epoch": 0.007596329529534624,
      "grad_norm": 0.7529183626174927,
      "learning_rate": 5.96989966555184e-06,
      "loss": 9.2425,
      "step": 500
    },
    {
      "epoch": 0.007596329529534624,
      "eval_loss": 9.07589340209961,
      "eval_runtime": 193.2214,
      "eval_samples_per_second": 51.754,
      "eval_steps_per_second": 6.469,
      "step": 500
    },
    {
      "epoch": 0.00911559543544155,
      "grad_norm": 0.48392170667648315,
      "learning_rate": 5.959866220735786e-06,
      "loss": 9.1413,
      "step": 600
    },
    {
      "epoch": 0.00911559543544155,
      "eval_loss": 8.97410774230957,
      "eval_runtime": 192.9985,
      "eval_samples_per_second": 51.814,
      "eval_steps_per_second": 6.477,
      "step": 600
    },
    {
      "epoch": 0.010634861341348474,
      "grad_norm": 0.6194415092468262,
      "learning_rate": 5.949832775919732e-06,
      "loss": 9.0633,
      "step": 700
    },
    {
      "epoch": 0.010634861341348474,
      "eval_loss": 8.891473770141602,
      "eval_runtime": 193.0661,
      "eval_samples_per_second": 51.796,
      "eval_steps_per_second": 6.474,
      "step": 700
    },
    {
      "epoch": 0.012154127247255399,
      "grad_norm": 2.9033119678497314,
      "learning_rate": 5.939799331103679e-06,
      "loss": 9.0036,
      "step": 800
    },
    {
      "epoch": 0.012154127247255399,
      "eval_loss": 8.827642440795898,
      "eval_runtime": 192.8551,
      "eval_samples_per_second": 51.852,
      "eval_steps_per_second": 6.482,
      "step": 800
    },
    {
      "epoch": 0.013673393153162324,
      "grad_norm": 2.6778995990753174,
      "learning_rate": 5.929765886287626e-06,
      "loss": 8.9573,
      "step": 900
    },
    {
      "epoch": 0.013673393153162324,
      "eval_loss": 8.794682502746582,
      "eval_runtime": 193.0047,
      "eval_samples_per_second": 51.812,
      "eval_steps_per_second": 6.477,
      "step": 900
    },
    {
      "epoch": 0.015192659059069248,
      "grad_norm": 2.586425304412842,
      "learning_rate": 5.919732441471572e-06,
      "loss": 8.927,
      "step": 1000
    },
    {
      "epoch": 0.015192659059069248,
      "eval_loss": 8.765641212463379,
      "eval_runtime": 193.0239,
      "eval_samples_per_second": 51.807,
      "eval_steps_per_second": 6.476,
      "step": 1000
    },
    {
      "epoch": 0.016711924964976175,
      "grad_norm": 3.287247657775879,
      "learning_rate": 5.9096989966555185e-06,
      "loss": 8.8995,
      "step": 1100
    },
    {
      "epoch": 0.016711924964976175,
      "eval_loss": 8.736359596252441,
      "eval_runtime": 193.2903,
      "eval_samples_per_second": 51.736,
      "eval_steps_per_second": 6.467,
      "step": 1100
    },
    {
      "epoch": 0.0182311908708831,
      "grad_norm": 3.2760348320007324,
      "learning_rate": 5.899665551839465e-06,
      "loss": 8.8734,
      "step": 1200
    },
    {
      "epoch": 0.0182311908708831,
      "eval_loss": 8.70866870880127,
      "eval_runtime": 193.2723,
      "eval_samples_per_second": 51.74,
      "eval_steps_per_second": 6.468,
      "step": 1200
    },
    {
      "epoch": 0.019750456776790024,
      "grad_norm": 3.7369821071624756,
      "learning_rate": 5.889632107023412e-06,
      "loss": 8.8472,
      "step": 1300
    },
    {
      "epoch": 0.019750456776790024,
      "eval_loss": 8.686373710632324,
      "eval_runtime": 193.3013,
      "eval_samples_per_second": 51.733,
      "eval_steps_per_second": 6.467,
      "step": 1300
    },
    {
      "epoch": 0.02126972268269695,
      "grad_norm": 3.6638362407684326,
      "learning_rate": 5.879598662207358e-06,
      "loss": 8.8219,
      "step": 1400
    },
    {
      "epoch": 0.02126972268269695,
      "eval_loss": 8.66162109375,
      "eval_runtime": 193.4171,
      "eval_samples_per_second": 51.702,
      "eval_steps_per_second": 6.463,
      "step": 1400
    },
    {
      "epoch": 0.022788988588603874,
      "grad_norm": 3.1928629875183105,
      "learning_rate": 5.869565217391305e-06,
      "loss": 8.7973,
      "step": 1500
    },
    {
      "epoch": 0.022788988588603874,
      "eval_loss": 8.633343696594238,
      "eval_runtime": 193.7794,
      "eval_samples_per_second": 51.605,
      "eval_steps_per_second": 6.451,
      "step": 1500
    },
    {
      "epoch": 0.024308254494510798,
      "grad_norm": 3.5108275413513184,
      "learning_rate": 5.8595317725752514e-06,
      "loss": 8.7682,
      "step": 1600
    },
    {
      "epoch": 0.024308254494510798,
      "eval_loss": 8.609291076660156,
      "eval_runtime": 193.2885,
      "eval_samples_per_second": 51.736,
      "eval_steps_per_second": 6.467,
      "step": 1600
    },
    {
      "epoch": 0.025827520400417723,
      "grad_norm": 6.164127349853516,
      "learning_rate": 5.849498327759197e-06,
      "loss": 8.7411,
      "step": 1700
    },
    {
      "epoch": 0.025827520400417723,
      "eval_loss": 8.578601837158203,
      "eval_runtime": 193.259,
      "eval_samples_per_second": 51.744,
      "eval_steps_per_second": 6.468,
      "step": 1700
    },
    {
      "epoch": 0.027346786306324648,
      "grad_norm": 2.5621981620788574,
      "learning_rate": 5.839464882943144e-06,
      "loss": 8.7198,
      "step": 1800
    },
    {
      "epoch": 0.027346786306324648,
      "eval_loss": 8.555196762084961,
      "eval_runtime": 193.4982,
      "eval_samples_per_second": 51.68,
      "eval_steps_per_second": 6.46,
      "step": 1800
    },
    {
      "epoch": 0.028866052212231572,
      "grad_norm": 2.957981586456299,
      "learning_rate": 5.829431438127091e-06,
      "loss": 8.6935,
      "step": 1900
    },
    {
      "epoch": 0.028866052212231572,
      "eval_loss": 8.530313491821289,
      "eval_runtime": 193.7009,
      "eval_samples_per_second": 51.626,
      "eval_steps_per_second": 6.453,
      "step": 1900
    },
    {
      "epoch": 0.030385318118138497,
      "grad_norm": 5.7702836990356445,
      "learning_rate": 5.819397993311037e-06,
      "loss": 8.6684,
      "step": 2000
    },
    {
      "epoch": 0.030385318118138497,
      "eval_loss": 8.509552001953125,
      "eval_runtime": 193.4646,
      "eval_samples_per_second": 51.689,
      "eval_steps_per_second": 6.461,
      "step": 2000
    },
    {
      "epoch": 0.03190458402404542,
      "grad_norm": 3.653986930847168,
      "learning_rate": 5.8093645484949836e-06,
      "loss": 8.6505,
      "step": 2100
    },
    {
      "epoch": 0.03190458402404542,
      "eval_loss": 8.499613761901855,
      "eval_runtime": 193.2316,
      "eval_samples_per_second": 51.751,
      "eval_steps_per_second": 6.469,
      "step": 2100
    },
    {
      "epoch": 0.03342384992995235,
      "grad_norm": 4.66618537902832,
      "learning_rate": 5.79933110367893e-06,
      "loss": 8.6175,
      "step": 2200
    },
    {
      "epoch": 0.03342384992995235,
      "eval_loss": 8.473803520202637,
      "eval_runtime": 193.4189,
      "eval_samples_per_second": 51.701,
      "eval_steps_per_second": 6.463,
      "step": 2200
    },
    {
      "epoch": 0.034943115835859274,
      "grad_norm": 0.7005074620246887,
      "learning_rate": 5.789297658862876e-06,
      "loss": 8.5932,
      "step": 2300
    },
    {
      "epoch": 0.034943115835859274,
      "eval_loss": 8.452431678771973,
      "eval_runtime": 193.2263,
      "eval_samples_per_second": 51.753,
      "eval_steps_per_second": 6.469,
      "step": 2300
    },
    {
      "epoch": 0.0364623817417662,
      "grad_norm": 5.592404842376709,
      "learning_rate": 5.779264214046823e-06,
      "loss": 8.572,
      "step": 2400
    },
    {
      "epoch": 0.0364623817417662,
      "eval_loss": 8.448452949523926,
      "eval_runtime": 193.5678,
      "eval_samples_per_second": 51.661,
      "eval_steps_per_second": 6.458,
      "step": 2400
    },
    {
      "epoch": 0.037981647647673124,
      "grad_norm": 4.363527297973633,
      "learning_rate": 5.76923076923077e-06,
      "loss": 8.5536,
      "step": 2500
    },
    {
      "epoch": 0.037981647647673124,
      "eval_loss": 8.417658805847168,
      "eval_runtime": 193.2714,
      "eval_samples_per_second": 51.741,
      "eval_steps_per_second": 6.468,
      "step": 2500
    },
    {
      "epoch": 0.03950091355358005,
      "grad_norm": 4.716485023498535,
      "learning_rate": 5.759197324414716e-06,
      "loss": 8.5332,
      "step": 2600
    },
    {
      "epoch": 0.03950091355358005,
      "eval_loss": 8.41653823852539,
      "eval_runtime": 193.336,
      "eval_samples_per_second": 51.723,
      "eval_steps_per_second": 6.465,
      "step": 2600
    },
    {
      "epoch": 0.04102017945948697,
      "grad_norm": 2.145522117614746,
      "learning_rate": 5.7491638795986624e-06,
      "loss": 8.5152,
      "step": 2700
    },
    {
      "epoch": 0.04102017945948697,
      "eval_loss": 8.391885757446289,
      "eval_runtime": 193.7068,
      "eval_samples_per_second": 51.624,
      "eval_steps_per_second": 6.453,
      "step": 2700
    },
    {
      "epoch": 0.0425394453653939,
      "grad_norm": 3.36438250541687,
      "learning_rate": 5.739130434782609e-06,
      "loss": 8.4964,
      "step": 2800
    },
    {
      "epoch": 0.0425394453653939,
      "eval_loss": 8.382240295410156,
      "eval_runtime": 193.7119,
      "eval_samples_per_second": 51.623,
      "eval_steps_per_second": 6.453,
      "step": 2800
    },
    {
      "epoch": 0.04405871127130082,
      "grad_norm": 3.0056991577148438,
      "learning_rate": 5.729096989966555e-06,
      "loss": 8.4811,
      "step": 2900
    },
    {
      "epoch": 0.04405871127130082,
      "eval_loss": 8.374021530151367,
      "eval_runtime": 193.9566,
      "eval_samples_per_second": 51.558,
      "eval_steps_per_second": 6.445,
      "step": 2900
    },
    {
      "epoch": 0.04557797717720775,
      "grad_norm": 2.388469696044922,
      "learning_rate": 5.719063545150502e-06,
      "loss": 8.4762,
      "step": 3000
    },
    {
      "epoch": 0.04557797717720775,
      "eval_loss": 8.371816635131836,
      "eval_runtime": 193.5842,
      "eval_samples_per_second": 51.657,
      "eval_steps_per_second": 6.457,
      "step": 3000
    },
    {
      "epoch": 0.04709724308311467,
      "grad_norm": 4.248419761657715,
      "learning_rate": 5.709030100334449e-06,
      "loss": 8.458,
      "step": 3100
    },
    {
      "epoch": 0.04709724308311467,
      "eval_loss": 8.359615325927734,
      "eval_runtime": 193.612,
      "eval_samples_per_second": 51.65,
      "eval_steps_per_second": 6.456,
      "step": 3100
    },
    {
      "epoch": 0.048616508989021597,
      "grad_norm": 1.2234629392623901,
      "learning_rate": 5.698996655518395e-06,
      "loss": 8.442,
      "step": 3200
    },
    {
      "epoch": 0.048616508989021597,
      "eval_loss": 8.356290817260742,
      "eval_runtime": 193.4203,
      "eval_samples_per_second": 51.701,
      "eval_steps_per_second": 6.463,
      "step": 3200
    },
    {
      "epoch": 0.05013577489492852,
      "grad_norm": 1.149261236190796,
      "learning_rate": 5.688963210702341e-06,
      "loss": 8.434,
      "step": 3300
    },
    {
      "epoch": 0.05013577489492852,
      "eval_loss": 8.348698616027832,
      "eval_runtime": 193.5122,
      "eval_samples_per_second": 51.676,
      "eval_steps_per_second": 6.46,
      "step": 3300
    },
    {
      "epoch": 0.051655040800835446,
      "grad_norm": 3.746015787124634,
      "learning_rate": 5.678929765886288e-06,
      "loss": 8.4225,
      "step": 3400
    },
    {
      "epoch": 0.051655040800835446,
      "eval_loss": 8.341509819030762,
      "eval_runtime": 193.694,
      "eval_samples_per_second": 51.628,
      "eval_steps_per_second": 6.453,
      "step": 3400
    },
    {
      "epoch": 0.05317430670674237,
      "grad_norm": 3.512450933456421,
      "learning_rate": 5.668896321070235e-06,
      "loss": 8.4084,
      "step": 3500
    },
    {
      "epoch": 0.05317430670674237,
      "eval_loss": 8.333552360534668,
      "eval_runtime": 193.637,
      "eval_samples_per_second": 51.643,
      "eval_steps_per_second": 6.455,
      "step": 3500
    },
    {
      "epoch": 0.054693572612649295,
      "grad_norm": 2.823720693588257,
      "learning_rate": 5.658862876254181e-06,
      "loss": 8.401,
      "step": 3600
    },
    {
      "epoch": 0.054693572612649295,
      "eval_loss": 8.334371566772461,
      "eval_runtime": 193.5758,
      "eval_samples_per_second": 51.659,
      "eval_steps_per_second": 6.457,
      "step": 3600
    },
    {
      "epoch": 0.05621283851855622,
      "grad_norm": 3.2911577224731445,
      "learning_rate": 5.6488294314381275e-06,
      "loss": 8.3905,
      "step": 3700
    },
    {
      "epoch": 0.05621283851855622,
      "eval_loss": 8.324334144592285,
      "eval_runtime": 193.6614,
      "eval_samples_per_second": 51.637,
      "eval_steps_per_second": 6.455,
      "step": 3700
    },
    {
      "epoch": 0.057732104424463145,
      "grad_norm": 2.3814852237701416,
      "learning_rate": 5.638795986622074e-06,
      "loss": 8.3799,
      "step": 3800
    },
    {
      "epoch": 0.057732104424463145,
      "eval_loss": 8.320505142211914,
      "eval_runtime": 193.6578,
      "eval_samples_per_second": 51.637,
      "eval_steps_per_second": 6.455,
      "step": 3800
    },
    {
      "epoch": 0.05925137033037007,
      "grad_norm": 3.9368467330932617,
      "learning_rate": 5.62876254180602e-06,
      "loss": 8.3716,
      "step": 3900
    },
    {
      "epoch": 0.05925137033037007,
      "eval_loss": 8.320087432861328,
      "eval_runtime": 193.6177,
      "eval_samples_per_second": 51.648,
      "eval_steps_per_second": 6.456,
      "step": 3900
    },
    {
      "epoch": 0.060770636236276994,
      "grad_norm": 3.7462780475616455,
      "learning_rate": 5.618729096989967e-06,
      "loss": 8.366,
      "step": 4000
    },
    {
      "epoch": 0.060770636236276994,
      "eval_loss": 8.314221382141113,
      "eval_runtime": 193.8249,
      "eval_samples_per_second": 51.593,
      "eval_steps_per_second": 6.449,
      "step": 4000
    },
    {
      "epoch": 0.06228990214218392,
      "grad_norm": 4.8095598220825195,
      "learning_rate": 5.608695652173914e-06,
      "loss": 8.3588,
      "step": 4100
    },
    {
      "epoch": 0.06228990214218392,
      "eval_loss": 8.31184196472168,
      "eval_runtime": 193.6735,
      "eval_samples_per_second": 51.633,
      "eval_steps_per_second": 6.454,
      "step": 4100
    },
    {
      "epoch": 0.06380916804809084,
      "grad_norm": 1.4702892303466797,
      "learning_rate": 5.59866220735786e-06,
      "loss": 8.349,
      "step": 4200
    },
    {
      "epoch": 0.06380916804809084,
      "eval_loss": 8.315442085266113,
      "eval_runtime": 193.7492,
      "eval_samples_per_second": 51.613,
      "eval_steps_per_second": 6.452,
      "step": 4200
    },
    {
      "epoch": 0.06532843395399776,
      "grad_norm": 1.3424737453460693,
      "learning_rate": 5.588628762541806e-06,
      "loss": 8.3377,
      "step": 4300
    },
    {
      "epoch": 0.06532843395399776,
      "eval_loss": 8.299623489379883,
      "eval_runtime": 193.8901,
      "eval_samples_per_second": 51.576,
      "eval_steps_per_second": 6.447,
      "step": 4300
    },
    {
      "epoch": 0.0668476998599047,
      "grad_norm": 3.2085587978363037,
      "learning_rate": 5.578595317725753e-06,
      "loss": 8.3276,
      "step": 4400
    },
    {
      "epoch": 0.0668476998599047,
      "eval_loss": 8.291953086853027,
      "eval_runtime": 193.3945,
      "eval_samples_per_second": 51.708,
      "eval_steps_per_second": 6.463,
      "step": 4400
    },
    {
      "epoch": 0.06836696576581162,
      "grad_norm": 3.0818777084350586,
      "learning_rate": 5.568561872909699e-06,
      "loss": 8.3213,
      "step": 4500
    },
    {
      "epoch": 0.06836696576581162,
      "eval_loss": 8.284076690673828,
      "eval_runtime": 193.6893,
      "eval_samples_per_second": 51.629,
      "eval_steps_per_second": 6.454,
      "step": 4500
    },
    {
      "epoch": 0.06988623167171855,
      "grad_norm": 2.9899518489837646,
      "learning_rate": 5.558528428093646e-06,
      "loss": 8.3146,
      "step": 4600
    },
    {
      "epoch": 0.06988623167171855,
      "eval_loss": 8.288785934448242,
      "eval_runtime": 193.4136,
      "eval_samples_per_second": 51.703,
      "eval_steps_per_second": 6.463,
      "step": 4600
    },
    {
      "epoch": 0.07140549757762547,
      "grad_norm": 3.5509963035583496,
      "learning_rate": 5.548494983277593e-06,
      "loss": 8.3073,
      "step": 4700
    },
    {
      "epoch": 0.07140549757762547,
      "eval_loss": 8.283821105957031,
      "eval_runtime": 193.5669,
      "eval_samples_per_second": 51.662,
      "eval_steps_per_second": 6.458,
      "step": 4700
    },
    {
      "epoch": 0.0729247634835324,
      "grad_norm": 3.2348263263702393,
      "learning_rate": 5.5384615384615385e-06,
      "loss": 8.3002,
      "step": 4800
    },
    {
      "epoch": 0.0729247634835324,
      "eval_loss": 8.275022506713867,
      "eval_runtime": 193.5313,
      "eval_samples_per_second": 51.671,
      "eval_steps_per_second": 6.459,
      "step": 4800
    },
    {
      "epoch": 0.07444402938943932,
      "grad_norm": 3.035083293914795,
      "learning_rate": 5.528428093645485e-06,
      "loss": 8.2929,
      "step": 4900
    },
    {
      "epoch": 0.07444402938943932,
      "eval_loss": 8.270652770996094,
      "eval_runtime": 193.6056,
      "eval_samples_per_second": 51.651,
      "eval_steps_per_second": 6.456,
      "step": 4900
    },
    {
      "epoch": 0.07596329529534625,
      "grad_norm": 2.820732593536377,
      "learning_rate": 5.518394648829432e-06,
      "loss": 8.2858,
      "step": 5000
    },
    {
      "epoch": 0.07596329529534625,
      "eval_loss": 8.268174171447754,
      "eval_runtime": 193.8467,
      "eval_samples_per_second": 51.587,
      "eval_steps_per_second": 6.448,
      "step": 5000
    },
    {
      "epoch": 0.07748256120125317,
      "grad_norm": 3.0247511863708496,
      "learning_rate": 5.508361204013378e-06,
      "loss": 8.2786,
      "step": 5100
    },
    {
      "epoch": 0.07748256120125317,
      "eval_loss": 8.26013469696045,
      "eval_runtime": 193.8849,
      "eval_samples_per_second": 51.577,
      "eval_steps_per_second": 6.447,
      "step": 5100
    },
    {
      "epoch": 0.0790018271071601,
      "grad_norm": 3.4587104320526123,
      "learning_rate": 5.498327759197324e-06,
      "loss": 8.2727,
      "step": 5200
    },
    {
      "epoch": 0.0790018271071601,
      "eval_loss": 8.258410453796387,
      "eval_runtime": 193.8157,
      "eval_samples_per_second": 51.595,
      "eval_steps_per_second": 6.449,
      "step": 5200
    },
    {
      "epoch": 0.08052109301306702,
      "grad_norm": 3.1752476692199707,
      "learning_rate": 5.488294314381271e-06,
      "loss": 8.269,
      "step": 5300
    },
    {
      "epoch": 0.08052109301306702,
      "eval_loss": 8.251901626586914,
      "eval_runtime": 193.7661,
      "eval_samples_per_second": 51.609,
      "eval_steps_per_second": 6.451,
      "step": 5300
    },
    {
      "epoch": 0.08204035891897395,
      "grad_norm": 2.231090784072876,
      "learning_rate": 5.478260869565217e-06,
      "loss": 8.2612,
      "step": 5400
    },
    {
      "epoch": 0.08204035891897395,
      "eval_loss": 8.248543739318848,
      "eval_runtime": 193.7807,
      "eval_samples_per_second": 51.605,
      "eval_steps_per_second": 6.451,
      "step": 5400
    },
    {
      "epoch": 0.08355962482488087,
      "grad_norm": 1.8496346473693848,
      "learning_rate": 5.468227424749163e-06,
      "loss": 8.2594,
      "step": 5500
    },
    {
      "epoch": 0.08355962482488087,
      "eval_loss": 8.25257396697998,
      "eval_runtime": 193.5194,
      "eval_samples_per_second": 51.674,
      "eval_steps_per_second": 6.459,
      "step": 5500
    },
    {
      "epoch": 0.0850788907307878,
      "grad_norm": 2.26971435546875,
      "learning_rate": 5.45819397993311e-06,
      "loss": 8.2519,
      "step": 5600
    },
    {
      "epoch": 0.0850788907307878,
      "eval_loss": 8.239155769348145,
      "eval_runtime": 193.6858,
      "eval_samples_per_second": 51.63,
      "eval_steps_per_second": 6.454,
      "step": 5600
    },
    {
      "epoch": 0.08659815663669472,
      "grad_norm": 4.062191963195801,
      "learning_rate": 5.448160535117057e-06,
      "loss": 8.2494,
      "step": 5700
    },
    {
      "epoch": 0.08659815663669472,
      "eval_loss": 8.248674392700195,
      "eval_runtime": 193.7941,
      "eval_samples_per_second": 51.601,
      "eval_steps_per_second": 6.45,
      "step": 5700
    },
    {
      "epoch": 0.08811742254260164,
      "grad_norm": 2.0019612312316895,
      "learning_rate": 5.438127090301003e-06,
      "loss": 8.246,
      "step": 5800
    },
    {
      "epoch": 0.08811742254260164,
      "eval_loss": 8.234210968017578,
      "eval_runtime": 193.7021,
      "eval_samples_per_second": 51.626,
      "eval_steps_per_second": 6.453,
      "step": 5800
    },
    {
      "epoch": 0.08963668844850857,
      "grad_norm": 3.5080573558807373,
      "learning_rate": 5.4280936454849495e-06,
      "loss": 8.2391,
      "step": 5900
    },
    {
      "epoch": 0.08963668844850857,
      "eval_loss": 8.240001678466797,
      "eval_runtime": 193.5894,
      "eval_samples_per_second": 51.656,
      "eval_steps_per_second": 6.457,
      "step": 5900
    },
    {
      "epoch": 0.0911559543544155,
      "grad_norm": 2.578500747680664,
      "learning_rate": 5.418060200668896e-06,
      "loss": 8.2361,
      "step": 6000
    },
    {
      "epoch": 0.0911559543544155,
      "eval_loss": 8.238499641418457,
      "eval_runtime": 193.7443,
      "eval_samples_per_second": 51.614,
      "eval_steps_per_second": 6.452,
      "step": 6000
    },
    {
      "epoch": 0.09267522026032242,
      "grad_norm": 2.7456629276275635,
      "learning_rate": 5.408026755852843e-06,
      "loss": 8.2331,
      "step": 6100
    },
    {
      "epoch": 0.09267522026032242,
      "eval_loss": 8.225603103637695,
      "eval_runtime": 193.7051,
      "eval_samples_per_second": 51.625,
      "eval_steps_per_second": 6.453,
      "step": 6100
    },
    {
      "epoch": 0.09419448616622934,
      "grad_norm": 1.1776982545852661,
      "learning_rate": 5.397993311036789e-06,
      "loss": 8.2294,
      "step": 6200
    },
    {
      "epoch": 0.09419448616622934,
      "eval_loss": 8.235060691833496,
      "eval_runtime": 193.5474,
      "eval_samples_per_second": 51.667,
      "eval_steps_per_second": 6.458,
      "step": 6200
    },
    {
      "epoch": 0.09571375207213627,
      "grad_norm": 3.159752130508423,
      "learning_rate": 5.387959866220736e-06,
      "loss": 8.2273,
      "step": 6300
    },
    {
      "epoch": 0.09571375207213627,
      "eval_loss": 8.22216510772705,
      "eval_runtime": 193.5026,
      "eval_samples_per_second": 51.679,
      "eval_steps_per_second": 6.46,
      "step": 6300
    },
    {
      "epoch": 0.09723301797804319,
      "grad_norm": 2.37727427482605,
      "learning_rate": 5.3779264214046825e-06,
      "loss": 8.2231,
      "step": 6400
    },
    {
      "epoch": 0.09723301797804319,
      "eval_loss": 8.222684860229492,
      "eval_runtime": 193.5974,
      "eval_samples_per_second": 51.654,
      "eval_steps_per_second": 6.457,
      "step": 6400
    },
    {
      "epoch": 0.09875228388395012,
      "grad_norm": 2.0136072635650635,
      "learning_rate": 5.367892976588628e-06,
      "loss": 8.2203,
      "step": 6500
    },
    {
      "epoch": 0.09875228388395012,
      "eval_loss": 8.220030784606934,
      "eval_runtime": 193.6795,
      "eval_samples_per_second": 51.632,
      "eval_steps_per_second": 6.454,
      "step": 6500
    },
    {
      "epoch": 0.10027154978985704,
      "grad_norm": 2.404653787612915,
      "learning_rate": 5.357859531772575e-06,
      "loss": 8.2154,
      "step": 6600
    },
    {
      "epoch": 0.10027154978985704,
      "eval_loss": 8.219395637512207,
      "eval_runtime": 193.5124,
      "eval_samples_per_second": 51.676,
      "eval_steps_per_second": 6.46,
      "step": 6600
    },
    {
      "epoch": 0.10179081569576397,
      "grad_norm": 1.6043188571929932,
      "learning_rate": 5.347826086956522e-06,
      "loss": 8.2128,
      "step": 6700
    },
    {
      "epoch": 0.10179081569576397,
      "eval_loss": 8.216435432434082,
      "eval_runtime": 193.766,
      "eval_samples_per_second": 51.609,
      "eval_steps_per_second": 6.451,
      "step": 6700
    },
    {
      "epoch": 0.10331008160167089,
      "grad_norm": 2.3386034965515137,
      "learning_rate": 5.337792642140468e-06,
      "loss": 8.2079,
      "step": 6800
    },
    {
      "epoch": 0.10331008160167089,
      "eval_loss": 8.212626457214355,
      "eval_runtime": 193.6166,
      "eval_samples_per_second": 51.648,
      "eval_steps_per_second": 6.456,
      "step": 6800
    },
    {
      "epoch": 0.10482934750757782,
      "grad_norm": 2.259270668029785,
      "learning_rate": 5.327759197324415e-06,
      "loss": 8.2067,
      "step": 6900
    },
    {
      "epoch": 0.10482934750757782,
      "eval_loss": 8.208475112915039,
      "eval_runtime": 193.3797,
      "eval_samples_per_second": 51.712,
      "eval_steps_per_second": 6.464,
      "step": 6900
    },
    {
      "epoch": 0.10634861341348474,
      "grad_norm": 2.469719409942627,
      "learning_rate": 5.317725752508361e-06,
      "loss": 8.1994,
      "step": 7000
    },
    {
      "epoch": 0.10634861341348474,
      "eval_loss": 8.199501037597656,
      "eval_runtime": 193.3429,
      "eval_samples_per_second": 51.722,
      "eval_steps_per_second": 6.465,
      "step": 7000
    },
    {
      "epoch": 0.10786787931939167,
      "grad_norm": 4.370075702667236,
      "learning_rate": 5.307692307692307e-06,
      "loss": 8.1678,
      "step": 7100
    },
    {
      "epoch": 0.10786787931939167,
      "eval_loss": 8.09277629852295,
      "eval_runtime": 193.6702,
      "eval_samples_per_second": 51.634,
      "eval_steps_per_second": 6.454,
      "step": 7100
    },
    {
      "epoch": 0.10938714522529859,
      "grad_norm": 5.548232555389404,
      "learning_rate": 5.297658862876254e-06,
      "loss": 8.0856,
      "step": 7200
    },
    {
      "epoch": 0.10938714522529859,
      "eval_loss": 8.040851593017578,
      "eval_runtime": 193.617,
      "eval_samples_per_second": 51.648,
      "eval_steps_per_second": 6.456,
      "step": 7200
    },
    {
      "epoch": 0.11090641113120552,
      "grad_norm": 2.152247428894043,
      "learning_rate": 5.287625418060201e-06,
      "loss": 8.0478,
      "step": 7300
    },
    {
      "epoch": 0.11090641113120552,
      "eval_loss": 7.996228218078613,
      "eval_runtime": 193.613,
      "eval_samples_per_second": 51.649,
      "eval_steps_per_second": 6.456,
      "step": 7300
    },
    {
      "epoch": 0.11242567703711244,
      "grad_norm": 5.204161167144775,
      "learning_rate": 5.277591973244147e-06,
      "loss": 8.0095,
      "step": 7400
    },
    {
      "epoch": 0.11242567703711244,
      "eval_loss": 7.958820343017578,
      "eval_runtime": 193.5944,
      "eval_samples_per_second": 51.654,
      "eval_steps_per_second": 6.457,
      "step": 7400
    },
    {
      "epoch": 0.11394494294301936,
      "grad_norm": 7.082394123077393,
      "learning_rate": 5.2675585284280935e-06,
      "loss": 7.978,
      "step": 7500
    },
    {
      "epoch": 0.11394494294301936,
      "eval_loss": 7.932178020477295,
      "eval_runtime": 193.798,
      "eval_samples_per_second": 51.6,
      "eval_steps_per_second": 6.45,
      "step": 7500
    },
    {
      "epoch": 0.11546420884892629,
      "grad_norm": 8.926252365112305,
      "learning_rate": 5.25752508361204e-06,
      "loss": 7.9505,
      "step": 7600
    },
    {
      "epoch": 0.11546420884892629,
      "eval_loss": 7.882853031158447,
      "eval_runtime": 193.6404,
      "eval_samples_per_second": 51.642,
      "eval_steps_per_second": 6.455,
      "step": 7600
    },
    {
      "epoch": 0.11698347475483321,
      "grad_norm": 3.5671885013580322,
      "learning_rate": 5.247491638795986e-06,
      "loss": 7.9086,
      "step": 7700
    },
    {
      "epoch": 0.11698347475483321,
      "eval_loss": 7.840451717376709,
      "eval_runtime": 193.8911,
      "eval_samples_per_second": 51.575,
      "eval_steps_per_second": 6.447,
      "step": 7700
    },
    {
      "epoch": 0.11850274066074014,
      "grad_norm": 5.790298938751221,
      "learning_rate": 5.237458193979933e-06,
      "loss": 7.861,
      "step": 7800
    },
    {
      "epoch": 0.11850274066074014,
      "eval_loss": 7.790124416351318,
      "eval_runtime": 193.8987,
      "eval_samples_per_second": 51.573,
      "eval_steps_per_second": 6.447,
      "step": 7800
    },
    {
      "epoch": 0.12002200656664706,
      "grad_norm": 4.439774513244629,
      "learning_rate": 5.22742474916388e-06,
      "loss": 7.8082,
      "step": 7900
    },
    {
      "epoch": 0.12002200656664706,
      "eval_loss": 7.72878885269165,
      "eval_runtime": 193.9191,
      "eval_samples_per_second": 51.568,
      "eval_steps_per_second": 6.446,
      "step": 7900
    },
    {
      "epoch": 0.12154127247255399,
      "grad_norm": 3.937167167663574,
      "learning_rate": 5.2173913043478265e-06,
      "loss": 7.757,
      "step": 8000
    },
    {
      "epoch": 0.12154127247255399,
      "eval_loss": 7.679111003875732,
      "eval_runtime": 193.7697,
      "eval_samples_per_second": 51.608,
      "eval_steps_per_second": 6.451,
      "step": 8000
    },
    {
      "epoch": 0.12306053837846091,
      "grad_norm": 4.227074146270752,
      "learning_rate": 5.207357859531772e-06,
      "loss": 7.7088,
      "step": 8100
    },
    {
      "epoch": 0.12306053837846091,
      "eval_loss": 7.634475231170654,
      "eval_runtime": 193.766,
      "eval_samples_per_second": 51.609,
      "eval_steps_per_second": 6.451,
      "step": 8100
    },
    {
      "epoch": 0.12457980428436784,
      "grad_norm": 3.042202949523926,
      "learning_rate": 5.197324414715719e-06,
      "loss": 7.6639,
      "step": 8200
    },
    {
      "epoch": 0.12457980428436784,
      "eval_loss": 7.605250835418701,
      "eval_runtime": 193.8104,
      "eval_samples_per_second": 51.597,
      "eval_steps_per_second": 6.45,
      "step": 8200
    },
    {
      "epoch": 0.12609907019027475,
      "grad_norm": 4.436267375946045,
      "learning_rate": 5.187290969899666e-06,
      "loss": 7.6256,
      "step": 8300
    },
    {
      "epoch": 0.12609907019027475,
      "eval_loss": 7.549579620361328,
      "eval_runtime": 193.7749,
      "eval_samples_per_second": 51.606,
      "eval_steps_per_second": 6.451,
      "step": 8300
    },
    {
      "epoch": 0.12761833609618167,
      "grad_norm": 3.9829390048980713,
      "learning_rate": 5.177257525083612e-06,
      "loss": 7.5838,
      "step": 8400
    },
    {
      "epoch": 0.12761833609618167,
      "eval_loss": 7.504631042480469,
      "eval_runtime": 193.7766,
      "eval_samples_per_second": 51.606,
      "eval_steps_per_second": 6.451,
      "step": 8400
    },
    {
      "epoch": 0.1291376020020886,
      "grad_norm": 3.072918176651001,
      "learning_rate": 5.167224080267559e-06,
      "loss": 7.5446,
      "step": 8500
    },
    {
      "epoch": 0.1291376020020886,
      "eval_loss": 7.467813968658447,
      "eval_runtime": 194.0927,
      "eval_samples_per_second": 51.522,
      "eval_steps_per_second": 6.44,
      "step": 8500
    },
    {
      "epoch": 0.13065686790799552,
      "grad_norm": 3.6358697414398193,
      "learning_rate": 5.157190635451505e-06,
      "loss": 7.5114,
      "step": 8600
    },
    {
      "epoch": 0.13065686790799552,
      "eval_loss": 7.4314045906066895,
      "eval_runtime": 197.5998,
      "eval_samples_per_second": 50.607,
      "eval_steps_per_second": 6.326,
      "step": 8600
    },
    {
      "epoch": 0.13217613381390245,
      "grad_norm": 2.4115982055664062,
      "learning_rate": 5.147157190635451e-06,
      "loss": 7.4749,
      "step": 8700
    },
    {
      "epoch": 0.13217613381390245,
      "eval_loss": 7.399141311645508,
      "eval_runtime": 193.7763,
      "eval_samples_per_second": 51.606,
      "eval_steps_per_second": 6.451,
      "step": 8700
    },
    {
      "epoch": 0.1336953997198094,
      "grad_norm": 3.8994717597961426,
      "learning_rate": 5.137123745819398e-06,
      "loss": 7.4388,
      "step": 8800
    },
    {
      "epoch": 0.1336953997198094,
      "eval_loss": 7.3639349937438965,
      "eval_runtime": 193.6905,
      "eval_samples_per_second": 51.629,
      "eval_steps_per_second": 6.454,
      "step": 8800
    },
    {
      "epoch": 0.13521466562571632,
      "grad_norm": 3.6934337615966797,
      "learning_rate": 5.127090301003345e-06,
      "loss": 7.4034,
      "step": 8900
    },
    {
      "epoch": 0.13521466562571632,
      "eval_loss": 7.327520370483398,
      "eval_runtime": 193.686,
      "eval_samples_per_second": 51.63,
      "eval_steps_per_second": 6.454,
      "step": 8900
    },
    {
      "epoch": 0.13673393153162325,
      "grad_norm": 3.4741897583007812,
      "learning_rate": 5.117056856187291e-06,
      "loss": 7.3684,
      "step": 9000
    },
    {
      "epoch": 0.13673393153162325,
      "eval_loss": 7.294392108917236,
      "eval_runtime": 193.3544,
      "eval_samples_per_second": 51.719,
      "eval_steps_per_second": 6.465,
      "step": 9000
    },
    {
      "epoch": 0.13825319743753017,
      "grad_norm": 4.130598545074463,
      "learning_rate": 5.1070234113712375e-06,
      "loss": 7.3363,
      "step": 9100
    },
    {
      "epoch": 0.13825319743753017,
      "eval_loss": 7.256102561950684,
      "eval_runtime": 193.8255,
      "eval_samples_per_second": 51.593,
      "eval_steps_per_second": 6.449,
      "step": 9100
    },
    {
      "epoch": 0.1397724633434371,
      "grad_norm": 3.8802666664123535,
      "learning_rate": 5.096989966555184e-06,
      "loss": 7.3054,
      "step": 9200
    },
    {
      "epoch": 0.1397724633434371,
      "eval_loss": 7.220945358276367,
      "eval_runtime": 193.6267,
      "eval_samples_per_second": 51.646,
      "eval_steps_per_second": 6.456,
      "step": 9200
    },
    {
      "epoch": 0.14129172924934402,
      "grad_norm": 3.072411298751831,
      "learning_rate": 5.08695652173913e-06,
      "loss": 7.2674,
      "step": 9300
    },
    {
      "epoch": 0.14129172924934402,
      "eval_loss": 7.181826591491699,
      "eval_runtime": 193.6566,
      "eval_samples_per_second": 51.638,
      "eval_steps_per_second": 6.455,
      "step": 9300
    },
    {
      "epoch": 0.14281099515525095,
      "grad_norm": 4.051361560821533,
      "learning_rate": 5.076923076923077e-06,
      "loss": 7.2294,
      "step": 9400
    },
    {
      "epoch": 0.14281099515525095,
      "eval_loss": 7.154284477233887,
      "eval_runtime": 193.737,
      "eval_samples_per_second": 51.616,
      "eval_steps_per_second": 6.452,
      "step": 9400
    },
    {
      "epoch": 0.14433026106115787,
      "grad_norm": 3.4815194606781006,
      "learning_rate": 5.066889632107024e-06,
      "loss": 7.1993,
      "step": 9500
    },
    {
      "epoch": 0.14433026106115787,
      "eval_loss": 7.109873294830322,
      "eval_runtime": 193.7018,
      "eval_samples_per_second": 51.626,
      "eval_steps_per_second": 6.453,
      "step": 9500
    },
    {
      "epoch": 0.1458495269670648,
      "grad_norm": 4.168730735778809,
      "learning_rate": 5.05685618729097e-06,
      "loss": 7.1617,
      "step": 9600
    },
    {
      "epoch": 0.1458495269670648,
      "eval_loss": 7.068033695220947,
      "eval_runtime": 193.7844,
      "eval_samples_per_second": 51.604,
      "eval_steps_per_second": 6.45,
      "step": 9600
    },
    {
      "epoch": 0.14736879287297172,
      "grad_norm": 4.632892608642578,
      "learning_rate": 5.046822742474916e-06,
      "loss": 7.1265,
      "step": 9700
    },
    {
      "epoch": 0.14736879287297172,
      "eval_loss": 7.029054641723633,
      "eval_runtime": 193.7033,
      "eval_samples_per_second": 51.625,
      "eval_steps_per_second": 6.453,
      "step": 9700
    },
    {
      "epoch": 0.14888805877887865,
      "grad_norm": 5.668432235717773,
      "learning_rate": 5.036789297658863e-06,
      "loss": 7.0973,
      "step": 9800
    },
    {
      "epoch": 0.14888805877887865,
      "eval_loss": 7.001068115234375,
      "eval_runtime": 193.7831,
      "eval_samples_per_second": 51.604,
      "eval_steps_per_second": 6.451,
      "step": 9800
    },
    {
      "epoch": 0.15040732468478557,
      "grad_norm": 6.07447624206543,
      "learning_rate": 5.02675585284281e-06,
      "loss": 7.0693,
      "step": 9900
    },
    {
      "epoch": 0.15040732468478557,
      "eval_loss": 6.974251747131348,
      "eval_runtime": 193.7698,
      "eval_samples_per_second": 51.608,
      "eval_steps_per_second": 6.451,
      "step": 9900
    },
    {
      "epoch": 0.1519265905906925,
      "grad_norm": 5.610072135925293,
      "learning_rate": 5.016722408026756e-06,
      "loss": 7.0395,
      "step": 10000
    },
    {
      "epoch": 0.1519265905906925,
      "eval_loss": 6.959811687469482,
      "eval_runtime": 193.7123,
      "eval_samples_per_second": 51.623,
      "eval_steps_per_second": 6.453,
      "step": 10000
    },
    {
      "epoch": 0.15344585649659942,
      "grad_norm": 4.722342491149902,
      "learning_rate": 5.0066889632107026e-06,
      "loss": 7.0146,
      "step": 10100
    },
    {
      "epoch": 0.15344585649659942,
      "eval_loss": 6.919780254364014,
      "eval_runtime": 193.9627,
      "eval_samples_per_second": 51.556,
      "eval_steps_per_second": 6.445,
      "step": 10100
    },
    {
      "epoch": 0.15496512240250634,
      "grad_norm": 2.454202175140381,
      "learning_rate": 4.996655518394649e-06,
      "loss": 6.979,
      "step": 10200
    },
    {
      "epoch": 0.15496512240250634,
      "eval_loss": 6.8777360916137695,
      "eval_runtime": 193.5746,
      "eval_samples_per_second": 51.66,
      "eval_steps_per_second": 6.457,
      "step": 10200
    },
    {
      "epoch": 0.15648438830841327,
      "grad_norm": 6.628566265106201,
      "learning_rate": 4.986622073578595e-06,
      "loss": 6.9576,
      "step": 10300
    },
    {
      "epoch": 0.15648438830841327,
      "eval_loss": 6.851335048675537,
      "eval_runtime": 193.6238,
      "eval_samples_per_second": 51.647,
      "eval_steps_per_second": 6.456,
      "step": 10300
    },
    {
      "epoch": 0.1580036542143202,
      "grad_norm": 4.226571559906006,
      "learning_rate": 4.976588628762542e-06,
      "loss": 6.9294,
      "step": 10400
    },
    {
      "epoch": 0.1580036542143202,
      "eval_loss": 6.837319374084473,
      "eval_runtime": 193.6321,
      "eval_samples_per_second": 51.644,
      "eval_steps_per_second": 6.456,
      "step": 10400
    },
    {
      "epoch": 0.15952292012022712,
      "grad_norm": 3.949143648147583,
      "learning_rate": 4.966555183946489e-06,
      "loss": 6.906,
      "step": 10500
    },
    {
      "epoch": 0.15952292012022712,
      "eval_loss": 6.798065662384033,
      "eval_runtime": 193.7227,
      "eval_samples_per_second": 51.62,
      "eval_steps_per_second": 6.453,
      "step": 10500
    },
    {
      "epoch": 0.16104218602613404,
      "grad_norm": 4.327299118041992,
      "learning_rate": 4.956521739130435e-06,
      "loss": 6.8789,
      "step": 10600
    },
    {
      "epoch": 0.16104218602613404,
      "eval_loss": 6.793569564819336,
      "eval_runtime": 193.6196,
      "eval_samples_per_second": 51.648,
      "eval_steps_per_second": 6.456,
      "step": 10600
    },
    {
      "epoch": 0.16256145193204097,
      "grad_norm": 3.8152856826782227,
      "learning_rate": 4.9464882943143815e-06,
      "loss": 6.8557,
      "step": 10700
    },
    {
      "epoch": 0.16256145193204097,
      "eval_loss": 6.754009246826172,
      "eval_runtime": 193.7319,
      "eval_samples_per_second": 51.618,
      "eval_steps_per_second": 6.452,
      "step": 10700
    },
    {
      "epoch": 0.1640807178379479,
      "grad_norm": 4.621021747589111,
      "learning_rate": 4.936454849498328e-06,
      "loss": 6.8387,
      "step": 10800
    },
    {
      "epoch": 0.1640807178379479,
      "eval_loss": 6.748414993286133,
      "eval_runtime": 193.8639,
      "eval_samples_per_second": 51.583,
      "eval_steps_per_second": 6.448,
      "step": 10800
    },
    {
      "epoch": 0.16559998374385482,
      "grad_norm": 4.906980514526367,
      "learning_rate": 4.926421404682274e-06,
      "loss": 6.8054,
      "step": 10900
    },
    {
      "epoch": 0.16559998374385482,
      "eval_loss": 6.722209453582764,
      "eval_runtime": 193.5438,
      "eval_samples_per_second": 51.668,
      "eval_steps_per_second": 6.458,
      "step": 10900
    },
    {
      "epoch": 0.16711924964976174,
      "grad_norm": 3.9837253093719482,
      "learning_rate": 4.916387959866221e-06,
      "loss": 6.7829,
      "step": 11000
    },
    {
      "epoch": 0.16711924964976174,
      "eval_loss": 6.689162731170654,
      "eval_runtime": 193.4992,
      "eval_samples_per_second": 51.68,
      "eval_steps_per_second": 6.46,
      "step": 11000
    },
    {
      "epoch": 0.16863851555566867,
      "grad_norm": 4.781426906585693,
      "learning_rate": 4.906354515050168e-06,
      "loss": 6.7597,
      "step": 11100
    },
    {
      "epoch": 0.16863851555566867,
      "eval_loss": 6.658721923828125,
      "eval_runtime": 193.7146,
      "eval_samples_per_second": 51.622,
      "eval_steps_per_second": 6.453,
      "step": 11100
    },
    {
      "epoch": 0.1701577814615756,
      "grad_norm": 6.702068328857422,
      "learning_rate": 4.8963210702341136e-06,
      "loss": 6.7416,
      "step": 11200
    },
    {
      "epoch": 0.1701577814615756,
      "eval_loss": 6.642455577850342,
      "eval_runtime": 193.6222,
      "eval_samples_per_second": 51.647,
      "eval_steps_per_second": 6.456,
      "step": 11200
    },
    {
      "epoch": 0.17167704736748252,
      "grad_norm": 3.1839189529418945,
      "learning_rate": 4.88628762541806e-06,
      "loss": 6.7201,
      "step": 11300
    },
    {
      "epoch": 0.17167704736748252,
      "eval_loss": 6.614835262298584,
      "eval_runtime": 193.735,
      "eval_samples_per_second": 51.617,
      "eval_steps_per_second": 6.452,
      "step": 11300
    },
    {
      "epoch": 0.17319631327338944,
      "grad_norm": 5.427370071411133,
      "learning_rate": 4.876254180602007e-06,
      "loss": 6.6993,
      "step": 11400
    },
    {
      "epoch": 0.17319631327338944,
      "eval_loss": 6.601010799407959,
      "eval_runtime": 193.6047,
      "eval_samples_per_second": 51.652,
      "eval_steps_per_second": 6.456,
      "step": 11400
    },
    {
      "epoch": 0.17471557917929637,
      "grad_norm": 4.759448051452637,
      "learning_rate": 4.866220735785953e-06,
      "loss": 6.6775,
      "step": 11500
    },
    {
      "epoch": 0.17471557917929637,
      "eval_loss": 6.579466342926025,
      "eval_runtime": 193.6792,
      "eval_samples_per_second": 51.632,
      "eval_steps_per_second": 6.454,
      "step": 11500
    },
    {
      "epoch": 0.1762348450852033,
      "grad_norm": 3.7401344776153564,
      "learning_rate": 4.8561872909699e-06,
      "loss": 6.6565,
      "step": 11600
    },
    {
      "epoch": 0.1762348450852033,
      "eval_loss": 6.576225757598877,
      "eval_runtime": 194.0381,
      "eval_samples_per_second": 51.536,
      "eval_steps_per_second": 6.442,
      "step": 11600
    },
    {
      "epoch": 0.17775411099111021,
      "grad_norm": 5.589729309082031,
      "learning_rate": 4.8461538461538465e-06,
      "loss": 6.6419,
      "step": 11700
    },
    {
      "epoch": 0.17775411099111021,
      "eval_loss": 6.542896270751953,
      "eval_runtime": 193.798,
      "eval_samples_per_second": 51.6,
      "eval_steps_per_second": 6.45,
      "step": 11700
    },
    {
      "epoch": 0.17927337689701714,
      "grad_norm": 4.623971939086914,
      "learning_rate": 4.8361204013377925e-06,
      "loss": 6.6199,
      "step": 11800
    },
    {
      "epoch": 0.17927337689701714,
      "eval_loss": 6.519240856170654,
      "eval_runtime": 193.739,
      "eval_samples_per_second": 51.616,
      "eval_steps_per_second": 6.452,
      "step": 11800
    },
    {
      "epoch": 0.18079264280292406,
      "grad_norm": 4.685464859008789,
      "learning_rate": 4.826086956521739e-06,
      "loss": 6.6012,
      "step": 11900
    },
    {
      "epoch": 0.18079264280292406,
      "eval_loss": 6.489596843719482,
      "eval_runtime": 193.7453,
      "eval_samples_per_second": 51.614,
      "eval_steps_per_second": 6.452,
      "step": 11900
    },
    {
      "epoch": 0.182311908708831,
      "grad_norm": 3.054800271987915,
      "learning_rate": 4.816053511705686e-06,
      "loss": 6.5813,
      "step": 12000
    },
    {
      "epoch": 0.182311908708831,
      "eval_loss": 6.497661113739014,
      "eval_runtime": 193.7138,
      "eval_samples_per_second": 51.623,
      "eval_steps_per_second": 6.453,
      "step": 12000
    },
    {
      "epoch": 0.1838311746147379,
      "grad_norm": 3.547619342803955,
      "learning_rate": 4.806020066889633e-06,
      "loss": 6.5623,
      "step": 12100
    },
    {
      "epoch": 0.1838311746147379,
      "eval_loss": 6.468958377838135,
      "eval_runtime": 193.766,
      "eval_samples_per_second": 51.609,
      "eval_steps_per_second": 6.451,
      "step": 12100
    },
    {
      "epoch": 0.18535044052064484,
      "grad_norm": 4.697444915771484,
      "learning_rate": 4.795986622073579e-06,
      "loss": 6.5448,
      "step": 12200
    },
    {
      "epoch": 0.18535044052064484,
      "eval_loss": 6.436464309692383,
      "eval_runtime": 193.7105,
      "eval_samples_per_second": 51.623,
      "eval_steps_per_second": 6.453,
      "step": 12200
    },
    {
      "epoch": 0.18686970642655176,
      "grad_norm": 4.79019021987915,
      "learning_rate": 4.785953177257525e-06,
      "loss": 6.525,
      "step": 12300
    },
    {
      "epoch": 0.18686970642655176,
      "eval_loss": 6.422084331512451,
      "eval_runtime": 193.7424,
      "eval_samples_per_second": 51.615,
      "eval_steps_per_second": 6.452,
      "step": 12300
    },
    {
      "epoch": 0.1883889723324587,
      "grad_norm": 3.7939579486846924,
      "learning_rate": 4.775919732441472e-06,
      "loss": 6.5131,
      "step": 12400
    },
    {
      "epoch": 0.1883889723324587,
      "eval_loss": 6.425159931182861,
      "eval_runtime": 193.6634,
      "eval_samples_per_second": 51.636,
      "eval_steps_per_second": 6.454,
      "step": 12400
    },
    {
      "epoch": 0.1899082382383656,
      "grad_norm": 3.271348714828491,
      "learning_rate": 4.765886287625418e-06,
      "loss": 6.4978,
      "step": 12500
    },
    {
      "epoch": 0.1899082382383656,
      "eval_loss": 6.395818710327148,
      "eval_runtime": 193.5299,
      "eval_samples_per_second": 51.672,
      "eval_steps_per_second": 6.459,
      "step": 12500
    },
    {
      "epoch": 0.19142750414427254,
      "grad_norm": 4.119296073913574,
      "learning_rate": 4.755852842809365e-06,
      "loss": 6.483,
      "step": 12600
    },
    {
      "epoch": 0.19142750414427254,
      "eval_loss": 6.397064208984375,
      "eval_runtime": 193.5731,
      "eval_samples_per_second": 51.66,
      "eval_steps_per_second": 6.458,
      "step": 12600
    },
    {
      "epoch": 0.19294677005017946,
      "grad_norm": 3.7907373905181885,
      "learning_rate": 4.745819397993312e-06,
      "loss": 6.4639,
      "step": 12700
    },
    {
      "epoch": 0.19294677005017946,
      "eval_loss": 6.348308563232422,
      "eval_runtime": 193.6279,
      "eval_samples_per_second": 51.645,
      "eval_steps_per_second": 6.456,
      "step": 12700
    },
    {
      "epoch": 0.19446603595608639,
      "grad_norm": 3.8455281257629395,
      "learning_rate": 4.7357859531772575e-06,
      "loss": 6.4471,
      "step": 12800
    },
    {
      "epoch": 0.19446603595608639,
      "eval_loss": 6.347524642944336,
      "eval_runtime": 193.9737,
      "eval_samples_per_second": 51.553,
      "eval_steps_per_second": 6.444,
      "step": 12800
    },
    {
      "epoch": 0.1959853018619933,
      "grad_norm": 3.5916056632995605,
      "learning_rate": 4.725752508361204e-06,
      "loss": 6.4303,
      "step": 12900
    },
    {
      "epoch": 0.1959853018619933,
      "eval_loss": 6.33302640914917,
      "eval_runtime": 193.6018,
      "eval_samples_per_second": 51.652,
      "eval_steps_per_second": 6.457,
      "step": 12900
    },
    {
      "epoch": 0.19750456776790024,
      "grad_norm": 3.734985589981079,
      "learning_rate": 4.715719063545151e-06,
      "loss": 6.4158,
      "step": 13000
    },
    {
      "epoch": 0.19750456776790024,
      "eval_loss": 6.3155083656311035,
      "eval_runtime": 193.6987,
      "eval_samples_per_second": 51.627,
      "eval_steps_per_second": 6.453,
      "step": 13000
    },
    {
      "epoch": 0.19902383367380716,
      "grad_norm": 3.579678535461426,
      "learning_rate": 4.705685618729097e-06,
      "loss": 6.4024,
      "step": 13100
    },
    {
      "epoch": 0.19902383367380716,
      "eval_loss": 6.29377555847168,
      "eval_runtime": 193.6889,
      "eval_samples_per_second": 51.629,
      "eval_steps_per_second": 6.454,
      "step": 13100
    },
    {
      "epoch": 0.20054309957971408,
      "grad_norm": 4.257501125335693,
      "learning_rate": 4.695652173913044e-06,
      "loss": 6.3894,
      "step": 13200
    },
    {
      "epoch": 0.20054309957971408,
      "eval_loss": 6.288681507110596,
      "eval_runtime": 193.6264,
      "eval_samples_per_second": 51.646,
      "eval_steps_per_second": 6.456,
      "step": 13200
    },
    {
      "epoch": 0.202062365485621,
      "grad_norm": 3.8430824279785156,
      "learning_rate": 4.6856187290969905e-06,
      "loss": 6.3715,
      "step": 13300
    },
    {
      "epoch": 0.202062365485621,
      "eval_loss": 6.247255802154541,
      "eval_runtime": 193.7628,
      "eval_samples_per_second": 51.609,
      "eval_steps_per_second": 6.451,
      "step": 13300
    },
    {
      "epoch": 0.20358163139152793,
      "grad_norm": 3.9459517002105713,
      "learning_rate": 4.675585284280936e-06,
      "loss": 6.3583,
      "step": 13400
    },
    {
      "epoch": 0.20358163139152793,
      "eval_loss": 6.250117301940918,
      "eval_runtime": 193.7665,
      "eval_samples_per_second": 51.609,
      "eval_steps_per_second": 6.451,
      "step": 13400
    },
    {
      "epoch": 0.20510089729743486,
      "grad_norm": 3.475034475326538,
      "learning_rate": 4.665551839464883e-06,
      "loss": 6.3431,
      "step": 13500
    },
    {
      "epoch": 0.20510089729743486,
      "eval_loss": 6.22703742980957,
      "eval_runtime": 193.7742,
      "eval_samples_per_second": 51.606,
      "eval_steps_per_second": 6.451,
      "step": 13500
    },
    {
      "epoch": 0.20662016320334178,
      "grad_norm": 4.17089319229126,
      "learning_rate": 4.65551839464883e-06,
      "loss": 6.3288,
      "step": 13600
    },
    {
      "epoch": 0.20662016320334178,
      "eval_loss": 6.230484962463379,
      "eval_runtime": 193.7687,
      "eval_samples_per_second": 51.608,
      "eval_steps_per_second": 6.451,
      "step": 13600
    },
    {
      "epoch": 0.2081394291092487,
      "grad_norm": 2.118986129760742,
      "learning_rate": 4.645484949832776e-06,
      "loss": 6.3169,
      "step": 13700
    },
    {
      "epoch": 0.2081394291092487,
      "eval_loss": 6.206001281738281,
      "eval_runtime": 193.8247,
      "eval_samples_per_second": 51.593,
      "eval_steps_per_second": 6.449,
      "step": 13700
    },
    {
      "epoch": 0.20965869501515563,
      "grad_norm": 4.810153007507324,
      "learning_rate": 4.635451505016723e-06,
      "loss": 6.3032,
      "step": 13800
    },
    {
      "epoch": 0.20965869501515563,
      "eval_loss": 6.18707275390625,
      "eval_runtime": 193.7442,
      "eval_samples_per_second": 51.614,
      "eval_steps_per_second": 6.452,
      "step": 13800
    },
    {
      "epoch": 0.21117796092106256,
      "grad_norm": 3.7797763347625732,
      "learning_rate": 4.625418060200669e-06,
      "loss": 6.2918,
      "step": 13900
    },
    {
      "epoch": 0.21117796092106256,
      "eval_loss": 6.1838603019714355,
      "eval_runtime": 193.7881,
      "eval_samples_per_second": 51.603,
      "eval_steps_per_second": 6.45,
      "step": 13900
    },
    {
      "epoch": 0.21269722682696948,
      "grad_norm": 4.482378959655762,
      "learning_rate": 4.615384615384616e-06,
      "loss": 6.2757,
      "step": 14000
    },
    {
      "epoch": 0.21269722682696948,
      "eval_loss": 6.161965847015381,
      "eval_runtime": 193.7356,
      "eval_samples_per_second": 51.617,
      "eval_steps_per_second": 6.452,
      "step": 14000
    },
    {
      "epoch": 0.2142164927328764,
      "grad_norm": 4.001418590545654,
      "learning_rate": 4.605351170568562e-06,
      "loss": 6.2647,
      "step": 14100
    },
    {
      "epoch": 0.2142164927328764,
      "eval_loss": 6.15457820892334,
      "eval_runtime": 193.9234,
      "eval_samples_per_second": 51.567,
      "eval_steps_per_second": 6.446,
      "step": 14100
    },
    {
      "epoch": 0.21573575863878333,
      "grad_norm": 3.8982086181640625,
      "learning_rate": 4.595317725752509e-06,
      "loss": 6.2545,
      "step": 14200
    },
    {
      "epoch": 0.21573575863878333,
      "eval_loss": 6.143900394439697,
      "eval_runtime": 193.7808,
      "eval_samples_per_second": 51.605,
      "eval_steps_per_second": 6.451,
      "step": 14200
    },
    {
      "epoch": 0.21725502454469026,
      "grad_norm": 3.459050416946411,
      "learning_rate": 4.585284280936456e-06,
      "loss": 6.2398,
      "step": 14300
    },
    {
      "epoch": 0.21725502454469026,
      "eval_loss": 6.131939888000488,
      "eval_runtime": 193.8856,
      "eval_samples_per_second": 51.577,
      "eval_steps_per_second": 6.447,
      "step": 14300
    },
    {
      "epoch": 0.21877429045059718,
      "grad_norm": 3.335505962371826,
      "learning_rate": 4.5752508361204015e-06,
      "loss": 6.2327,
      "step": 14400
    },
    {
      "epoch": 0.21877429045059718,
      "eval_loss": 6.106751918792725,
      "eval_runtime": 193.844,
      "eval_samples_per_second": 51.588,
      "eval_steps_per_second": 6.448,
      "step": 14400
    },
    {
      "epoch": 0.2202935563565041,
      "grad_norm": 3.845909357070923,
      "learning_rate": 4.565217391304348e-06,
      "loss": 6.2144,
      "step": 14500
    },
    {
      "epoch": 0.2202935563565041,
      "eval_loss": 6.094777584075928,
      "eval_runtime": 193.5802,
      "eval_samples_per_second": 51.658,
      "eval_steps_per_second": 6.457,
      "step": 14500
    },
    {
      "epoch": 0.22181282226241103,
      "grad_norm": 3.846149206161499,
      "learning_rate": 4.555183946488295e-06,
      "loss": 6.2022,
      "step": 14600
    },
    {
      "epoch": 0.22181282226241103,
      "eval_loss": 6.085541248321533,
      "eval_runtime": 193.8098,
      "eval_samples_per_second": 51.597,
      "eval_steps_per_second": 6.45,
      "step": 14600
    },
    {
      "epoch": 0.22333208816831795,
      "grad_norm": 3.50091814994812,
      "learning_rate": 4.545150501672241e-06,
      "loss": 6.1915,
      "step": 14700
    },
    {
      "epoch": 0.22333208816831795,
      "eval_loss": 6.058828830718994,
      "eval_runtime": 193.4542,
      "eval_samples_per_second": 51.692,
      "eval_steps_per_second": 6.461,
      "step": 14700
    },
    {
      "epoch": 0.22485135407422488,
      "grad_norm": 4.312457084655762,
      "learning_rate": 4.535117056856188e-06,
      "loss": 6.1776,
      "step": 14800
    },
    {
      "epoch": 0.22485135407422488,
      "eval_loss": 6.067806720733643,
      "eval_runtime": 193.5484,
      "eval_samples_per_second": 51.667,
      "eval_steps_per_second": 6.458,
      "step": 14800
    },
    {
      "epoch": 0.2263706199801318,
      "grad_norm": 3.6476268768310547,
      "learning_rate": 4.5250836120401345e-06,
      "loss": 6.1703,
      "step": 14900
    },
    {
      "epoch": 0.2263706199801318,
      "eval_loss": 6.045175552368164,
      "eval_runtime": 193.3937,
      "eval_samples_per_second": 51.708,
      "eval_steps_per_second": 6.463,
      "step": 14900
    },
    {
      "epoch": 0.22788988588603873,
      "grad_norm": 4.1377739906311035,
      "learning_rate": 4.51505016722408e-06,
      "loss": 6.1577,
      "step": 15000
    },
    {
      "epoch": 0.22788988588603873,
      "eval_loss": 6.038886547088623,
      "eval_runtime": 193.5749,
      "eval_samples_per_second": 51.66,
      "eval_steps_per_second": 6.457,
      "step": 15000
    },
    {
      "epoch": 0.22940915179194565,
      "grad_norm": 4.192631244659424,
      "learning_rate": 4.505016722408027e-06,
      "loss": 6.1477,
      "step": 15100
    },
    {
      "epoch": 0.22940915179194565,
      "eval_loss": 6.030833721160889,
      "eval_runtime": 193.5655,
      "eval_samples_per_second": 51.662,
      "eval_steps_per_second": 6.458,
      "step": 15100
    },
    {
      "epoch": 0.23092841769785258,
      "grad_norm": 3.234416961669922,
      "learning_rate": 4.494983277591973e-06,
      "loss": 6.1363,
      "step": 15200
    },
    {
      "epoch": 0.23092841769785258,
      "eval_loss": 6.008749008178711,
      "eval_runtime": 193.3663,
      "eval_samples_per_second": 51.715,
      "eval_steps_per_second": 6.464,
      "step": 15200
    },
    {
      "epoch": 0.2324476836037595,
      "grad_norm": 4.860428810119629,
      "learning_rate": 4.48494983277592e-06,
      "loss": 6.1298,
      "step": 15300
    },
    {
      "epoch": 0.2324476836037595,
      "eval_loss": 5.996873378753662,
      "eval_runtime": 193.6007,
      "eval_samples_per_second": 51.653,
      "eval_steps_per_second": 6.457,
      "step": 15300
    },
    {
      "epoch": 0.23396694950966643,
      "grad_norm": 4.0561323165893555,
      "learning_rate": 4.474916387959866e-06,
      "loss": 6.1122,
      "step": 15400
    },
    {
      "epoch": 0.23396694950966643,
      "eval_loss": 5.984120845794678,
      "eval_runtime": 193.5721,
      "eval_samples_per_second": 51.66,
      "eval_steps_per_second": 6.458,
      "step": 15400
    },
    {
      "epoch": 0.23548621541557335,
      "grad_norm": 2.9819724559783936,
      "learning_rate": 4.4648829431438125e-06,
      "loss": 6.1024,
      "step": 15500
    },
    {
      "epoch": 0.23548621541557335,
      "eval_loss": 5.982254981994629,
      "eval_runtime": 193.7425,
      "eval_samples_per_second": 51.615,
      "eval_steps_per_second": 6.452,
      "step": 15500
    },
    {
      "epoch": 0.23700548132148028,
      "grad_norm": 3.733194351196289,
      "learning_rate": 4.454849498327759e-06,
      "loss": 6.0924,
      "step": 15600
    },
    {
      "epoch": 0.23700548132148028,
      "eval_loss": 5.969741344451904,
      "eval_runtime": 193.8217,
      "eval_samples_per_second": 51.594,
      "eval_steps_per_second": 6.449,
      "step": 15600
    },
    {
      "epoch": 0.2385247472273872,
      "grad_norm": 5.688018321990967,
      "learning_rate": 4.444816053511705e-06,
      "loss": 6.0871,
      "step": 15700
    },
    {
      "epoch": 0.2385247472273872,
      "eval_loss": 5.9461445808410645,
      "eval_runtime": 193.8283,
      "eval_samples_per_second": 51.592,
      "eval_steps_per_second": 6.449,
      "step": 15700
    },
    {
      "epoch": 0.24004401313329413,
      "grad_norm": 2.9404726028442383,
      "learning_rate": 4.434782608695652e-06,
      "loss": 6.0706,
      "step": 15800
    },
    {
      "epoch": 0.24004401313329413,
      "eval_loss": 5.936134338378906,
      "eval_runtime": 193.8629,
      "eval_samples_per_second": 51.583,
      "eval_steps_per_second": 6.448,
      "step": 15800
    },
    {
      "epoch": 0.24156327903920105,
      "grad_norm": 4.436812877655029,
      "learning_rate": 4.424749163879599e-06,
      "loss": 6.0652,
      "step": 15900
    },
    {
      "epoch": 0.24156327903920105,
      "eval_loss": 5.9289655685424805,
      "eval_runtime": 193.8246,
      "eval_samples_per_second": 51.593,
      "eval_steps_per_second": 6.449,
      "step": 15900
    },
    {
      "epoch": 0.24308254494510798,
      "grad_norm": 4.113779544830322,
      "learning_rate": 4.414715719063545e-06,
      "loss": 6.0497,
      "step": 16000
    },
    {
      "epoch": 0.24308254494510798,
      "eval_loss": 5.926904678344727,
      "eval_runtime": 194.0466,
      "eval_samples_per_second": 51.534,
      "eval_steps_per_second": 6.442,
      "step": 16000
    },
    {
      "epoch": 0.2446018108510149,
      "grad_norm": 3.2827975749969482,
      "learning_rate": 4.404682274247491e-06,
      "loss": 6.0365,
      "step": 16100
    },
    {
      "epoch": 0.2446018108510149,
      "eval_loss": 5.9020185470581055,
      "eval_runtime": 193.842,
      "eval_samples_per_second": 51.588,
      "eval_steps_per_second": 6.449,
      "step": 16100
    },
    {
      "epoch": 0.24612107675692182,
      "grad_norm": 3.8352739810943604,
      "learning_rate": 4.394648829431438e-06,
      "loss": 6.0305,
      "step": 16200
    },
    {
      "epoch": 0.24612107675692182,
      "eval_loss": 5.900501251220703,
      "eval_runtime": 193.7914,
      "eval_samples_per_second": 51.602,
      "eval_steps_per_second": 6.45,
      "step": 16200
    },
    {
      "epoch": 0.24764034266282875,
      "grad_norm": 3.2179617881774902,
      "learning_rate": 4.384615384615384e-06,
      "loss": 6.0166,
      "step": 16300
    },
    {
      "epoch": 0.24764034266282875,
      "eval_loss": 5.891448497772217,
      "eval_runtime": 193.74,
      "eval_samples_per_second": 51.616,
      "eval_steps_per_second": 6.452,
      "step": 16300
    },
    {
      "epoch": 0.24915960856873567,
      "grad_norm": 3.446993112564087,
      "learning_rate": 4.374581939799331e-06,
      "loss": 6.0121,
      "step": 16400
    },
    {
      "epoch": 0.24915960856873567,
      "eval_loss": 5.874625205993652,
      "eval_runtime": 193.8125,
      "eval_samples_per_second": 51.596,
      "eval_steps_per_second": 6.45,
      "step": 16400
    },
    {
      "epoch": 0.2506788744746426,
      "grad_norm": 4.3962578773498535,
      "learning_rate": 4.364548494983278e-06,
      "loss": 6.0029,
      "step": 16500
    },
    {
      "epoch": 0.2506788744746426,
      "eval_loss": 5.884474754333496,
      "eval_runtime": 193.754,
      "eval_samples_per_second": 51.612,
      "eval_steps_per_second": 6.451,
      "step": 16500
    },
    {
      "epoch": 0.2521981403805495,
      "grad_norm": 4.52181339263916,
      "learning_rate": 4.354515050167224e-06,
      "loss": 5.9925,
      "step": 16600
    },
    {
      "epoch": 0.2521981403805495,
      "eval_loss": 5.867855548858643,
      "eval_runtime": 193.7648,
      "eval_samples_per_second": 51.609,
      "eval_steps_per_second": 6.451,
      "step": 16600
    },
    {
      "epoch": 0.25371740628645645,
      "grad_norm": 3.847750186920166,
      "learning_rate": 4.34448160535117e-06,
      "loss": 5.9839,
      "step": 16700
    },
    {
      "epoch": 0.25371740628645645,
      "eval_loss": 5.851235389709473,
      "eval_runtime": 193.6623,
      "eval_samples_per_second": 51.636,
      "eval_steps_per_second": 6.455,
      "step": 16700
    },
    {
      "epoch": 0.25523667219236335,
      "grad_norm": 2.9024147987365723,
      "learning_rate": 4.334448160535117e-06,
      "loss": 5.9744,
      "step": 16800
    },
    {
      "epoch": 0.25523667219236335,
      "eval_loss": 5.854368686676025,
      "eval_runtime": 193.8613,
      "eval_samples_per_second": 51.583,
      "eval_steps_per_second": 6.448,
      "step": 16800
    },
    {
      "epoch": 0.2567559380982703,
      "grad_norm": 3.2213125228881836,
      "learning_rate": 4.324414715719064e-06,
      "loss": 5.9653,
      "step": 16900
    },
    {
      "epoch": 0.2567559380982703,
      "eval_loss": 5.836233139038086,
      "eval_runtime": 193.5642,
      "eval_samples_per_second": 51.662,
      "eval_steps_per_second": 6.458,
      "step": 16900
    },
    {
      "epoch": 0.2582752040041772,
      "grad_norm": 4.198850631713867,
      "learning_rate": 4.31438127090301e-06,
      "loss": 5.957,
      "step": 17000
    },
    {
      "epoch": 0.2582752040041772,
      "eval_loss": 5.818154811859131,
      "eval_runtime": 193.5777,
      "eval_samples_per_second": 51.659,
      "eval_steps_per_second": 6.457,
      "step": 17000
    },
    {
      "epoch": 0.25979446991008415,
      "grad_norm": 2.9214396476745605,
      "learning_rate": 4.3043478260869565e-06,
      "loss": 5.9417,
      "step": 17100
    },
    {
      "epoch": 0.25979446991008415,
      "eval_loss": 5.829405784606934,
      "eval_runtime": 193.6055,
      "eval_samples_per_second": 51.651,
      "eval_steps_per_second": 6.456,
      "step": 17100
    },
    {
      "epoch": 0.26131373581599104,
      "grad_norm": 3.7691545486450195,
      "learning_rate": 4.294314381270903e-06,
      "loss": 5.934,
      "step": 17200
    },
    {
      "epoch": 0.26131373581599104,
      "eval_loss": 5.794999122619629,
      "eval_runtime": 193.5657,
      "eval_samples_per_second": 51.662,
      "eval_steps_per_second": 6.458,
      "step": 17200
    },
    {
      "epoch": 0.262833001721898,
      "grad_norm": 4.013944625854492,
      "learning_rate": 4.284280936454849e-06,
      "loss": 5.9269,
      "step": 17300
    },
    {
      "epoch": 0.262833001721898,
      "eval_loss": 5.787894248962402,
      "eval_runtime": 193.7935,
      "eval_samples_per_second": 51.601,
      "eval_steps_per_second": 6.45,
      "step": 17300
    },
    {
      "epoch": 0.2643522676278049,
      "grad_norm": 3.784191370010376,
      "learning_rate": 4.274247491638796e-06,
      "loss": 5.9224,
      "step": 17400
    },
    {
      "epoch": 0.2643522676278049,
      "eval_loss": 5.795870780944824,
      "eval_runtime": 193.6051,
      "eval_samples_per_second": 51.652,
      "eval_steps_per_second": 6.456,
      "step": 17400
    },
    {
      "epoch": 0.26587153353371185,
      "grad_norm": 4.354425430297852,
      "learning_rate": 4.264214046822743e-06,
      "loss": 5.909,
      "step": 17500
    },
    {
      "epoch": 0.26587153353371185,
      "eval_loss": 5.785282611846924,
      "eval_runtime": 193.5413,
      "eval_samples_per_second": 51.669,
      "eval_steps_per_second": 6.459,
      "step": 17500
    },
    {
      "epoch": 0.2673907994396188,
      "grad_norm": 3.2807064056396484,
      "learning_rate": 4.254180602006689e-06,
      "loss": 5.9017,
      "step": 17600
    },
    {
      "epoch": 0.2673907994396188,
      "eval_loss": 5.772453308105469,
      "eval_runtime": 193.741,
      "eval_samples_per_second": 51.615,
      "eval_steps_per_second": 6.452,
      "step": 17600
    },
    {
      "epoch": 0.2689100653455257,
      "grad_norm": 3.0385000705718994,
      "learning_rate": 4.244147157190635e-06,
      "loss": 5.8906,
      "step": 17700
    },
    {
      "epoch": 0.2689100653455257,
      "eval_loss": 5.765667915344238,
      "eval_runtime": 193.8777,
      "eval_samples_per_second": 51.579,
      "eval_steps_per_second": 6.447,
      "step": 17700
    },
    {
      "epoch": 0.27042933125143265,
      "grad_norm": 2.746528148651123,
      "learning_rate": 4.234113712374582e-06,
      "loss": 5.8847,
      "step": 17800
    },
    {
      "epoch": 0.27042933125143265,
      "eval_loss": 5.7541351318359375,
      "eval_runtime": 193.9065,
      "eval_samples_per_second": 51.571,
      "eval_steps_per_second": 6.446,
      "step": 17800
    },
    {
      "epoch": 0.27194859715733954,
      "grad_norm": 3.3728785514831543,
      "learning_rate": 4.224080267558528e-06,
      "loss": 5.8769,
      "step": 17900
    },
    {
      "epoch": 0.27194859715733954,
      "eval_loss": 5.7371392250061035,
      "eval_runtime": 193.8325,
      "eval_samples_per_second": 51.591,
      "eval_steps_per_second": 6.449,
      "step": 17900
    },
    {
      "epoch": 0.2734678630632465,
      "grad_norm": 3.4341955184936523,
      "learning_rate": 4.214046822742475e-06,
      "loss": 5.8711,
      "step": 18000
    },
    {
      "epoch": 0.2734678630632465,
      "eval_loss": 5.715305328369141,
      "eval_runtime": 193.9066,
      "eval_samples_per_second": 51.571,
      "eval_steps_per_second": 6.446,
      "step": 18000
    },
    {
      "epoch": 0.2749871289691534,
      "grad_norm": 4.6379313468933105,
      "learning_rate": 4.2040133779264216e-06,
      "loss": 5.861,
      "step": 18100
    },
    {
      "epoch": 0.2749871289691534,
      "eval_loss": 5.71766996383667,
      "eval_runtime": 193.7937,
      "eval_samples_per_second": 51.601,
      "eval_steps_per_second": 6.45,
      "step": 18100
    },
    {
      "epoch": 0.27650639487506035,
      "grad_norm": 3.901848554611206,
      "learning_rate": 4.1939799331103675e-06,
      "loss": 5.855,
      "step": 18200
    },
    {
      "epoch": 0.27650639487506035,
      "eval_loss": 5.7228240966796875,
      "eval_runtime": 194.0011,
      "eval_samples_per_second": 51.546,
      "eval_steps_per_second": 6.443,
      "step": 18200
    },
    {
      "epoch": 0.27802566078096724,
      "grad_norm": 2.7498176097869873,
      "learning_rate": 4.183946488294314e-06,
      "loss": 5.8388,
      "step": 18300
    },
    {
      "epoch": 0.27802566078096724,
      "eval_loss": 5.699355125427246,
      "eval_runtime": 193.8501,
      "eval_samples_per_second": 51.586,
      "eval_steps_per_second": 6.448,
      "step": 18300
    },
    {
      "epoch": 0.2795449266868742,
      "grad_norm": 3.4318690299987793,
      "learning_rate": 4.173913043478261e-06,
      "loss": 5.8356,
      "step": 18400
    },
    {
      "epoch": 0.2795449266868742,
      "eval_loss": 5.697088241577148,
      "eval_runtime": 193.7892,
      "eval_samples_per_second": 51.602,
      "eval_steps_per_second": 6.45,
      "step": 18400
    },
    {
      "epoch": 0.2810641925927811,
      "grad_norm": 3.5657687187194824,
      "learning_rate": 4.163879598662208e-06,
      "loss": 5.8233,
      "step": 18500
    },
    {
      "epoch": 0.2810641925927811,
      "eval_loss": 5.683408260345459,
      "eval_runtime": 193.7355,
      "eval_samples_per_second": 51.617,
      "eval_steps_per_second": 6.452,
      "step": 18500
    },
    {
      "epoch": 0.28258345849868804,
      "grad_norm": 4.344554424285889,
      "learning_rate": 4.153846153846154e-06,
      "loss": 5.8187,
      "step": 18600
    },
    {
      "epoch": 0.28258345849868804,
      "eval_loss": 5.675909042358398,
      "eval_runtime": 193.8113,
      "eval_samples_per_second": 51.597,
      "eval_steps_per_second": 6.45,
      "step": 18600
    },
    {
      "epoch": 0.28410272440459494,
      "grad_norm": 3.3455545902252197,
      "learning_rate": 4.1438127090301005e-06,
      "loss": 5.8091,
      "step": 18700
    },
    {
      "epoch": 0.28410272440459494,
      "eval_loss": 5.665746688842773,
      "eval_runtime": 194.1351,
      "eval_samples_per_second": 51.511,
      "eval_steps_per_second": 6.439,
      "step": 18700
    },
    {
      "epoch": 0.2856219903105019,
      "grad_norm": 3.412184476852417,
      "learning_rate": 4.133779264214047e-06,
      "loss": 5.8026,
      "step": 18800
    },
    {
      "epoch": 0.2856219903105019,
      "eval_loss": 5.6578497886657715,
      "eval_runtime": 193.7841,
      "eval_samples_per_second": 51.604,
      "eval_steps_per_second": 6.45,
      "step": 18800
    },
    {
      "epoch": 0.2871412562164088,
      "grad_norm": 3.717855215072632,
      "learning_rate": 4.123745819397993e-06,
      "loss": 5.7957,
      "step": 18900
    },
    {
      "epoch": 0.2871412562164088,
      "eval_loss": 5.665693759918213,
      "eval_runtime": 193.7661,
      "eval_samples_per_second": 51.609,
      "eval_steps_per_second": 6.451,
      "step": 18900
    },
    {
      "epoch": 0.28866052212231574,
      "grad_norm": 3.876275062561035,
      "learning_rate": 4.11371237458194e-06,
      "loss": 5.7846,
      "step": 19000
    },
    {
      "epoch": 0.28866052212231574,
      "eval_loss": 5.648958206176758,
      "eval_runtime": 193.7195,
      "eval_samples_per_second": 51.621,
      "eval_steps_per_second": 6.453,
      "step": 19000
    },
    {
      "epoch": 0.29017978802822264,
      "grad_norm": 3.8186490535736084,
      "learning_rate": 4.103678929765887e-06,
      "loss": 5.7777,
      "step": 19100
    },
    {
      "epoch": 0.29017978802822264,
      "eval_loss": 5.629169940948486,
      "eval_runtime": 193.5999,
      "eval_samples_per_second": 51.653,
      "eval_steps_per_second": 6.457,
      "step": 19100
    },
    {
      "epoch": 0.2916990539341296,
      "grad_norm": 5.3280839920043945,
      "learning_rate": 4.0936454849498326e-06,
      "loss": 5.77,
      "step": 19200
    },
    {
      "epoch": 0.2916990539341296,
      "eval_loss": 5.620713233947754,
      "eval_runtime": 193.6523,
      "eval_samples_per_second": 51.639,
      "eval_steps_per_second": 6.455,
      "step": 19200
    },
    {
      "epoch": 0.2932183198400365,
      "grad_norm": 3.260324478149414,
      "learning_rate": 4.083612040133779e-06,
      "loss": 5.7611,
      "step": 19300
    },
    {
      "epoch": 0.2932183198400365,
      "eval_loss": 5.629894733428955,
      "eval_runtime": 193.685,
      "eval_samples_per_second": 51.63,
      "eval_steps_per_second": 6.454,
      "step": 19300
    },
    {
      "epoch": 0.29473758574594344,
      "grad_norm": 4.145829200744629,
      "learning_rate": 4.073578595317726e-06,
      "loss": 5.7538,
      "step": 19400
    },
    {
      "epoch": 0.29473758574594344,
      "eval_loss": 5.6320037841796875,
      "eval_runtime": 193.4857,
      "eval_samples_per_second": 51.683,
      "eval_steps_per_second": 6.46,
      "step": 19400
    },
    {
      "epoch": 0.29625685165185034,
      "grad_norm": 4.071881294250488,
      "learning_rate": 4.063545150501672e-06,
      "loss": 5.745,
      "step": 19500
    },
    {
      "epoch": 0.29625685165185034,
      "eval_loss": 5.607526779174805,
      "eval_runtime": 193.5349,
      "eval_samples_per_second": 51.67,
      "eval_steps_per_second": 6.459,
      "step": 19500
    },
    {
      "epoch": 0.2977761175577573,
      "grad_norm": 3.4075276851654053,
      "learning_rate": 4.053511705685619e-06,
      "loss": 5.7404,
      "step": 19600
    },
    {
      "epoch": 0.2977761175577573,
      "eval_loss": 5.603940010070801,
      "eval_runtime": 193.5688,
      "eval_samples_per_second": 51.661,
      "eval_steps_per_second": 6.458,
      "step": 19600
    },
    {
      "epoch": 0.2992953834636642,
      "grad_norm": 3.371760129928589,
      "learning_rate": 4.0434782608695655e-06,
      "loss": 5.7343,
      "step": 19700
    },
    {
      "epoch": 0.2992953834636642,
      "eval_loss": 5.597903728485107,
      "eval_runtime": 193.9636,
      "eval_samples_per_second": 51.556,
      "eval_steps_per_second": 6.445,
      "step": 19700
    },
    {
      "epoch": 0.30081464936957114,
      "grad_norm": 3.1230831146240234,
      "learning_rate": 4.0334448160535115e-06,
      "loss": 5.7284,
      "step": 19800
    },
    {
      "epoch": 0.30081464936957114,
      "eval_loss": 5.580268859863281,
      "eval_runtime": 194.0245,
      "eval_samples_per_second": 51.54,
      "eval_steps_per_second": 6.442,
      "step": 19800
    },
    {
      "epoch": 0.30233391527547804,
      "grad_norm": 3.339742422103882,
      "learning_rate": 4.023411371237458e-06,
      "loss": 5.7206,
      "step": 19900
    },
    {
      "epoch": 0.30233391527547804,
      "eval_loss": 5.571849822998047,
      "eval_runtime": 193.8323,
      "eval_samples_per_second": 51.591,
      "eval_steps_per_second": 6.449,
      "step": 19900
    },
    {
      "epoch": 0.303853181181385,
      "grad_norm": 3.2297468185424805,
      "learning_rate": 4.013377926421405e-06,
      "loss": 5.7086,
      "step": 20000
    },
    {
      "epoch": 0.303853181181385,
      "eval_loss": 5.5632548332214355,
      "eval_runtime": 193.7563,
      "eval_samples_per_second": 51.611,
      "eval_steps_per_second": 6.451,
      "step": 20000
    },
    {
      "epoch": 0.3053724470872919,
      "grad_norm": 2.8698532581329346,
      "learning_rate": 4.003344481605351e-06,
      "loss": 5.7027,
      "step": 20100
    },
    {
      "epoch": 0.3053724470872919,
      "eval_loss": 5.559244632720947,
      "eval_runtime": 193.8672,
      "eval_samples_per_second": 51.582,
      "eval_steps_per_second": 6.448,
      "step": 20100
    },
    {
      "epoch": 0.30689171299319884,
      "grad_norm": 2.990452289581299,
      "learning_rate": 3.993311036789298e-06,
      "loss": 5.6953,
      "step": 20200
    },
    {
      "epoch": 0.30689171299319884,
      "eval_loss": 5.560790061950684,
      "eval_runtime": 193.8061,
      "eval_samples_per_second": 51.598,
      "eval_steps_per_second": 6.45,
      "step": 20200
    },
    {
      "epoch": 0.30841097889910574,
      "grad_norm": 3.821631669998169,
      "learning_rate": 3.9832775919732444e-06,
      "loss": 5.6881,
      "step": 20300
    },
    {
      "epoch": 0.30841097889910574,
      "eval_loss": 5.551888465881348,
      "eval_runtime": 194.0615,
      "eval_samples_per_second": 51.53,
      "eval_steps_per_second": 6.441,
      "step": 20300
    },
    {
      "epoch": 0.3099302448050127,
      "grad_norm": 3.209308624267578,
      "learning_rate": 3.97324414715719e-06,
      "loss": 5.683,
      "step": 20400
    },
    {
      "epoch": 0.3099302448050127,
      "eval_loss": 5.5436787605285645,
      "eval_runtime": 193.9187,
      "eval_samples_per_second": 51.568,
      "eval_steps_per_second": 6.446,
      "step": 20400
    },
    {
      "epoch": 0.3114495107109196,
      "grad_norm": 4.5453901290893555,
      "learning_rate": 3.963210702341137e-06,
      "loss": 5.6747,
      "step": 20500
    },
    {
      "epoch": 0.3114495107109196,
      "eval_loss": 5.523691177368164,
      "eval_runtime": 193.8312,
      "eval_samples_per_second": 51.591,
      "eval_steps_per_second": 6.449,
      "step": 20500
    },
    {
      "epoch": 0.31296877661682654,
      "grad_norm": 3.86855411529541,
      "learning_rate": 3.953177257525084e-06,
      "loss": 5.6753,
      "step": 20600
    },
    {
      "epoch": 0.31296877661682654,
      "eval_loss": 5.530142784118652,
      "eval_runtime": 193.8761,
      "eval_samples_per_second": 51.579,
      "eval_steps_per_second": 6.447,
      "step": 20600
    },
    {
      "epoch": 0.31448804252273344,
      "grad_norm": 3.029080390930176,
      "learning_rate": 3.943143812709031e-06,
      "loss": 5.6683,
      "step": 20700
    },
    {
      "epoch": 0.31448804252273344,
      "eval_loss": 5.527863025665283,
      "eval_runtime": 193.8252,
      "eval_samples_per_second": 51.593,
      "eval_steps_per_second": 6.449,
      "step": 20700
    },
    {
      "epoch": 0.3160073084286404,
      "grad_norm": 3.5344836711883545,
      "learning_rate": 3.9331103678929765e-06,
      "loss": 5.6554,
      "step": 20800
    },
    {
      "epoch": 0.3160073084286404,
      "eval_loss": 5.510525226593018,
      "eval_runtime": 193.8394,
      "eval_samples_per_second": 51.589,
      "eval_steps_per_second": 6.449,
      "step": 20800
    },
    {
      "epoch": 0.3175265743345473,
      "grad_norm": 3.153604507446289,
      "learning_rate": 3.923076923076923e-06,
      "loss": 5.6508,
      "step": 20900
    },
    {
      "epoch": 0.3175265743345473,
      "eval_loss": 5.508999824523926,
      "eval_runtime": 194.0796,
      "eval_samples_per_second": 51.525,
      "eval_steps_per_second": 6.441,
      "step": 20900
    },
    {
      "epoch": 0.31904584024045424,
      "grad_norm": 3.87959623336792,
      "learning_rate": 3.91304347826087e-06,
      "loss": 5.644,
      "step": 21000
    },
    {
      "epoch": 0.31904584024045424,
      "eval_loss": 5.511682987213135,
      "eval_runtime": 193.8814,
      "eval_samples_per_second": 51.578,
      "eval_steps_per_second": 6.447,
      "step": 21000
    },
    {
      "epoch": 0.32056510614636113,
      "grad_norm": 3.9517741203308105,
      "learning_rate": 3.903010033444816e-06,
      "loss": 5.6387,
      "step": 21100
    },
    {
      "epoch": 0.32056510614636113,
      "eval_loss": 5.499752521514893,
      "eval_runtime": 193.8141,
      "eval_samples_per_second": 51.596,
      "eval_steps_per_second": 6.449,
      "step": 21100
    },
    {
      "epoch": 0.3220843720522681,
      "grad_norm": 3.191702127456665,
      "learning_rate": 3.892976588628763e-06,
      "loss": 5.6333,
      "step": 21200
    },
    {
      "epoch": 0.3220843720522681,
      "eval_loss": 5.476820945739746,
      "eval_runtime": 193.9667,
      "eval_samples_per_second": 51.555,
      "eval_steps_per_second": 6.444,
      "step": 21200
    },
    {
      "epoch": 0.323603637958175,
      "grad_norm": 3.1419906616210938,
      "learning_rate": 3.8829431438127095e-06,
      "loss": 5.6243,
      "step": 21300
    },
    {
      "epoch": 0.323603637958175,
      "eval_loss": 5.486774444580078,
      "eval_runtime": 193.7733,
      "eval_samples_per_second": 51.607,
      "eval_steps_per_second": 6.451,
      "step": 21300
    },
    {
      "epoch": 0.32512290386408194,
      "grad_norm": 4.059791088104248,
      "learning_rate": 3.8729096989966554e-06,
      "loss": 5.6163,
      "step": 21400
    },
    {
      "epoch": 0.32512290386408194,
      "eval_loss": 5.477799415588379,
      "eval_runtime": 193.6285,
      "eval_samples_per_second": 51.645,
      "eval_steps_per_second": 6.456,
      "step": 21400
    },
    {
      "epoch": 0.32664216976998883,
      "grad_norm": 2.990511417388916,
      "learning_rate": 3.862876254180602e-06,
      "loss": 5.6133,
      "step": 21500
    },
    {
      "epoch": 0.32664216976998883,
      "eval_loss": 5.47875452041626,
      "eval_runtime": 193.5641,
      "eval_samples_per_second": 51.662,
      "eval_steps_per_second": 6.458,
      "step": 21500
    },
    {
      "epoch": 0.3281614356758958,
      "grad_norm": 2.3832523822784424,
      "learning_rate": 3.852842809364549e-06,
      "loss": 5.6062,
      "step": 21600
    },
    {
      "epoch": 0.3281614356758958,
      "eval_loss": 5.4584455490112305,
      "eval_runtime": 193.6584,
      "eval_samples_per_second": 51.637,
      "eval_steps_per_second": 6.455,
      "step": 21600
    },
    {
      "epoch": 0.3296807015818027,
      "grad_norm": 3.010307788848877,
      "learning_rate": 3.842809364548495e-06,
      "loss": 5.5959,
      "step": 21700
    },
    {
      "epoch": 0.3296807015818027,
      "eval_loss": 5.451364517211914,
      "eval_runtime": 193.6921,
      "eval_samples_per_second": 51.628,
      "eval_steps_per_second": 6.454,
      "step": 21700
    },
    {
      "epoch": 0.33119996748770963,
      "grad_norm": 3.718315601348877,
      "learning_rate": 3.832775919732442e-06,
      "loss": 5.5919,
      "step": 21800
    },
    {
      "epoch": 0.33119996748770963,
      "eval_loss": 5.446727752685547,
      "eval_runtime": 193.8195,
      "eval_samples_per_second": 51.594,
      "eval_steps_per_second": 6.449,
      "step": 21800
    },
    {
      "epoch": 0.33271923339361653,
      "grad_norm": 4.131709098815918,
      "learning_rate": 3.822742474916388e-06,
      "loss": 5.5859,
      "step": 21900
    },
    {
      "epoch": 0.33271923339361653,
      "eval_loss": 5.43417501449585,
      "eval_runtime": 193.7876,
      "eval_samples_per_second": 51.603,
      "eval_steps_per_second": 6.45,
      "step": 21900
    },
    {
      "epoch": 0.3342384992995235,
      "grad_norm": 3.7145907878875732,
      "learning_rate": 3.8127090301003347e-06,
      "loss": 5.5805,
      "step": 22000
    },
    {
      "epoch": 0.3342384992995235,
      "eval_loss": 5.443439960479736,
      "eval_runtime": 193.7659,
      "eval_samples_per_second": 51.609,
      "eval_steps_per_second": 6.451,
      "step": 22000
    },
    {
      "epoch": 0.3357577652054304,
      "grad_norm": 3.167874574661255,
      "learning_rate": 3.802675585284281e-06,
      "loss": 5.5724,
      "step": 22100
    },
    {
      "epoch": 0.3357577652054304,
      "eval_loss": 5.419732093811035,
      "eval_runtime": 193.7654,
      "eval_samples_per_second": 51.609,
      "eval_steps_per_second": 6.451,
      "step": 22100
    },
    {
      "epoch": 0.33727703111133733,
      "grad_norm": 3.820495367050171,
      "learning_rate": 3.792642140468228e-06,
      "loss": 5.5694,
      "step": 22200
    },
    {
      "epoch": 0.33727703111133733,
      "eval_loss": 5.4181647300720215,
      "eval_runtime": 193.8601,
      "eval_samples_per_second": 51.584,
      "eval_steps_per_second": 6.448,
      "step": 22200
    },
    {
      "epoch": 0.33879629701724423,
      "grad_norm": 3.4039466381073,
      "learning_rate": 3.782608695652174e-06,
      "loss": 5.565,
      "step": 22300
    },
    {
      "epoch": 0.33879629701724423,
      "eval_loss": 5.419365406036377,
      "eval_runtime": 194.0048,
      "eval_samples_per_second": 51.545,
      "eval_steps_per_second": 6.443,
      "step": 22300
    },
    {
      "epoch": 0.3403155629231512,
      "grad_norm": 2.805332660675049,
      "learning_rate": 3.7725752508361205e-06,
      "loss": 5.556,
      "step": 22400
    },
    {
      "epoch": 0.3403155629231512,
      "eval_loss": 5.415971755981445,
      "eval_runtime": 193.9692,
      "eval_samples_per_second": 51.555,
      "eval_steps_per_second": 6.444,
      "step": 22400
    },
    {
      "epoch": 0.3418348288290581,
      "grad_norm": 2.43111252784729,
      "learning_rate": 3.7625418060200673e-06,
      "loss": 5.5536,
      "step": 22500
    },
    {
      "epoch": 0.3418348288290581,
      "eval_loss": 5.405710220336914,
      "eval_runtime": 193.9758,
      "eval_samples_per_second": 51.553,
      "eval_steps_per_second": 6.444,
      "step": 22500
    },
    {
      "epoch": 0.34335409473496503,
      "grad_norm": 3.9612550735473633,
      "learning_rate": 3.7525083612040136e-06,
      "loss": 5.544,
      "step": 22600
    },
    {
      "epoch": 0.34335409473496503,
      "eval_loss": 5.40699577331543,
      "eval_runtime": 193.9672,
      "eval_samples_per_second": 51.555,
      "eval_steps_per_second": 6.444,
      "step": 22600
    },
    {
      "epoch": 0.34487336064087193,
      "grad_norm": 2.8571434020996094,
      "learning_rate": 3.74247491638796e-06,
      "loss": 5.5392,
      "step": 22700
    },
    {
      "epoch": 0.34487336064087193,
      "eval_loss": 5.397378921508789,
      "eval_runtime": 194.1852,
      "eval_samples_per_second": 51.497,
      "eval_steps_per_second": 6.437,
      "step": 22700
    },
    {
      "epoch": 0.3463926265467789,
      "grad_norm": 3.1463348865509033,
      "learning_rate": 3.7324414715719067e-06,
      "loss": 5.5296,
      "step": 22800
    },
    {
      "epoch": 0.3463926265467789,
      "eval_loss": 5.3807501792907715,
      "eval_runtime": 193.8656,
      "eval_samples_per_second": 51.582,
      "eval_steps_per_second": 6.448,
      "step": 22800
    },
    {
      "epoch": 0.3479118924526858,
      "grad_norm": 3.696991205215454,
      "learning_rate": 3.722408026755853e-06,
      "loss": 5.5319,
      "step": 22900
    },
    {
      "epoch": 0.3479118924526858,
      "eval_loss": 5.376627445220947,
      "eval_runtime": 193.8475,
      "eval_samples_per_second": 51.587,
      "eval_steps_per_second": 6.448,
      "step": 22900
    },
    {
      "epoch": 0.34943115835859273,
      "grad_norm": 3.691133737564087,
      "learning_rate": 3.7123745819398e-06,
      "loss": 5.5239,
      "step": 23000
    },
    {
      "epoch": 0.34943115835859273,
      "eval_loss": 5.379115104675293,
      "eval_runtime": 193.935,
      "eval_samples_per_second": 51.564,
      "eval_steps_per_second": 6.445,
      "step": 23000
    },
    {
      "epoch": 0.3509504242644996,
      "grad_norm": 2.994180679321289,
      "learning_rate": 3.702341137123746e-06,
      "loss": 5.5174,
      "step": 23100
    },
    {
      "epoch": 0.3509504242644996,
      "eval_loss": 5.36928129196167,
      "eval_runtime": 193.8929,
      "eval_samples_per_second": 51.575,
      "eval_steps_per_second": 6.447,
      "step": 23100
    },
    {
      "epoch": 0.3524696901704066,
      "grad_norm": 3.528660774230957,
      "learning_rate": 3.6923076923076925e-06,
      "loss": 5.5123,
      "step": 23200
    },
    {
      "epoch": 0.3524696901704066,
      "eval_loss": 5.366269588470459,
      "eval_runtime": 193.8307,
      "eval_samples_per_second": 51.591,
      "eval_steps_per_second": 6.449,
      "step": 23200
    },
    {
      "epoch": 0.3539889560763135,
      "grad_norm": 2.8609702587127686,
      "learning_rate": 3.6822742474916393e-06,
      "loss": 5.5024,
      "step": 23300
    },
    {
      "epoch": 0.3539889560763135,
      "eval_loss": 5.3636884689331055,
      "eval_runtime": 193.9144,
      "eval_samples_per_second": 51.569,
      "eval_steps_per_second": 6.446,
      "step": 23300
    },
    {
      "epoch": 0.35550822198222043,
      "grad_norm": 3.146467447280884,
      "learning_rate": 3.6722408026755856e-06,
      "loss": 5.4993,
      "step": 23400
    },
    {
      "epoch": 0.35550822198222043,
      "eval_loss": 5.3594536781311035,
      "eval_runtime": 193.8636,
      "eval_samples_per_second": 51.583,
      "eval_steps_per_second": 6.448,
      "step": 23400
    },
    {
      "epoch": 0.3570274878881273,
      "grad_norm": 2.4640018939971924,
      "learning_rate": 3.662207357859532e-06,
      "loss": 5.4944,
      "step": 23500
    },
    {
      "epoch": 0.3570274878881273,
      "eval_loss": 5.346569538116455,
      "eval_runtime": 193.9228,
      "eval_samples_per_second": 51.567,
      "eval_steps_per_second": 6.446,
      "step": 23500
    },
    {
      "epoch": 0.3585467537940343,
      "grad_norm": 4.175319671630859,
      "learning_rate": 3.6521739130434787e-06,
      "loss": 5.4874,
      "step": 23600
    },
    {
      "epoch": 0.3585467537940343,
      "eval_loss": 5.343349456787109,
      "eval_runtime": 193.585,
      "eval_samples_per_second": 51.657,
      "eval_steps_per_second": 6.457,
      "step": 23600
    },
    {
      "epoch": 0.3600660196999412,
      "grad_norm": 3.4799277782440186,
      "learning_rate": 3.642140468227425e-06,
      "loss": 5.4874,
      "step": 23700
    },
    {
      "epoch": 0.3600660196999412,
      "eval_loss": 5.342945098876953,
      "eval_runtime": 193.6611,
      "eval_samples_per_second": 51.637,
      "eval_steps_per_second": 6.455,
      "step": 23700
    },
    {
      "epoch": 0.36158528560584813,
      "grad_norm": 1.949639916419983,
      "learning_rate": 3.6321070234113714e-06,
      "loss": 5.4786,
      "step": 23800
    },
    {
      "epoch": 0.36158528560584813,
      "eval_loss": 5.325855255126953,
      "eval_runtime": 193.5983,
      "eval_samples_per_second": 51.653,
      "eval_steps_per_second": 6.457,
      "step": 23800
    },
    {
      "epoch": 0.363104551511755,
      "grad_norm": 2.983280658721924,
      "learning_rate": 3.622073578595318e-06,
      "loss": 5.4736,
      "step": 23900
    },
    {
      "epoch": 0.363104551511755,
      "eval_loss": 5.320173263549805,
      "eval_runtime": 193.5482,
      "eval_samples_per_second": 51.667,
      "eval_steps_per_second": 6.458,
      "step": 23900
    },
    {
      "epoch": 0.364623817417662,
      "grad_norm": 3.912425994873047,
      "learning_rate": 3.6120401337792645e-06,
      "loss": 5.4694,
      "step": 24000
    },
    {
      "epoch": 0.364623817417662,
      "eval_loss": 5.3176751136779785,
      "eval_runtime": 193.8093,
      "eval_samples_per_second": 51.597,
      "eval_steps_per_second": 6.45,
      "step": 24000
    },
    {
      "epoch": 0.3661430833235689,
      "grad_norm": 3.230281114578247,
      "learning_rate": 3.6020066889632112e-06,
      "loss": 5.465,
      "step": 24100
    },
    {
      "epoch": 0.3661430833235689,
      "eval_loss": 5.319676399230957,
      "eval_runtime": 193.9617,
      "eval_samples_per_second": 51.557,
      "eval_steps_per_second": 6.445,
      "step": 24100
    },
    {
      "epoch": 0.3676623492294758,
      "grad_norm": 2.6516830921173096,
      "learning_rate": 3.5919732441471576e-06,
      "loss": 5.4568,
      "step": 24200
    },
    {
      "epoch": 0.3676623492294758,
      "eval_loss": 5.306182384490967,
      "eval_runtime": 193.9303,
      "eval_samples_per_second": 51.565,
      "eval_steps_per_second": 6.446,
      "step": 24200
    },
    {
      "epoch": 0.3691816151353827,
      "grad_norm": 3.398289442062378,
      "learning_rate": 3.581939799331104e-06,
      "loss": 5.4555,
      "step": 24300
    },
    {
      "epoch": 0.3691816151353827,
      "eval_loss": 5.304970741271973,
      "eval_runtime": 193.8994,
      "eval_samples_per_second": 51.573,
      "eval_steps_per_second": 6.447,
      "step": 24300
    },
    {
      "epoch": 0.3707008810412897,
      "grad_norm": 2.9263579845428467,
      "learning_rate": 3.5719063545150507e-06,
      "loss": 5.446,
      "step": 24400
    },
    {
      "epoch": 0.3707008810412897,
      "eval_loss": 5.304412364959717,
      "eval_runtime": 193.8605,
      "eval_samples_per_second": 51.583,
      "eval_steps_per_second": 6.448,
      "step": 24400
    },
    {
      "epoch": 0.3722201469471966,
      "grad_norm": 3.2696564197540283,
      "learning_rate": 3.561872909698997e-06,
      "loss": 5.4418,
      "step": 24500
    },
    {
      "epoch": 0.3722201469471966,
      "eval_loss": 5.291959285736084,
      "eval_runtime": 193.8303,
      "eval_samples_per_second": 51.592,
      "eval_steps_per_second": 6.449,
      "step": 24500
    },
    {
      "epoch": 0.3737394128531035,
      "grad_norm": 3.3699710369110107,
      "learning_rate": 3.5518394648829434e-06,
      "loss": 5.4367,
      "step": 24600
    },
    {
      "epoch": 0.3737394128531035,
      "eval_loss": 5.292627334594727,
      "eval_runtime": 193.9116,
      "eval_samples_per_second": 51.57,
      "eval_steps_per_second": 6.446,
      "step": 24600
    },
    {
      "epoch": 0.3752586787590104,
      "grad_norm": 3.646376848220825,
      "learning_rate": 3.54180602006689e-06,
      "loss": 5.4389,
      "step": 24700
    },
    {
      "epoch": 0.3752586787590104,
      "eval_loss": 5.2781982421875,
      "eval_runtime": 193.9384,
      "eval_samples_per_second": 51.563,
      "eval_steps_per_second": 6.445,
      "step": 24700
    },
    {
      "epoch": 0.3767779446649174,
      "grad_norm": 2.873612880706787,
      "learning_rate": 3.5317725752508365e-06,
      "loss": 5.4344,
      "step": 24800
    },
    {
      "epoch": 0.3767779446649174,
      "eval_loss": 5.286219596862793,
      "eval_runtime": 193.9969,
      "eval_samples_per_second": 51.547,
      "eval_steps_per_second": 6.443,
      "step": 24800
    },
    {
      "epoch": 0.37829721057082427,
      "grad_norm": 3.312747001647949,
      "learning_rate": 3.521739130434783e-06,
      "loss": 5.427,
      "step": 24900
    },
    {
      "epoch": 0.37829721057082427,
      "eval_loss": 5.281394004821777,
      "eval_runtime": 193.9463,
      "eval_samples_per_second": 51.561,
      "eval_steps_per_second": 6.445,
      "step": 24900
    },
    {
      "epoch": 0.3798164764767312,
      "grad_norm": 3.727271556854248,
      "learning_rate": 3.5117056856187296e-06,
      "loss": 5.4212,
      "step": 25000
    },
    {
      "epoch": 0.3798164764767312,
      "eval_loss": 5.266263484954834,
      "eval_runtime": 193.9471,
      "eval_samples_per_second": 51.56,
      "eval_steps_per_second": 6.445,
      "step": 25000
    },
    {
      "epoch": 0.3813357423826381,
      "grad_norm": 3.3630518913269043,
      "learning_rate": 3.501672240802676e-06,
      "loss": 5.4173,
      "step": 25100
    },
    {
      "epoch": 0.3813357423826381,
      "eval_loss": 5.276744365692139,
      "eval_runtime": 193.8804,
      "eval_samples_per_second": 51.578,
      "eval_steps_per_second": 6.447,
      "step": 25100
    },
    {
      "epoch": 0.3828550082885451,
      "grad_norm": 4.12694787979126,
      "learning_rate": 3.491638795986622e-06,
      "loss": 5.413,
      "step": 25200
    },
    {
      "epoch": 0.3828550082885451,
      "eval_loss": 5.260261535644531,
      "eval_runtime": 193.919,
      "eval_samples_per_second": 51.568,
      "eval_steps_per_second": 6.446,
      "step": 25200
    },
    {
      "epoch": 0.38437427419445197,
      "grad_norm": 3.921342611312866,
      "learning_rate": 3.481605351170568e-06,
      "loss": 5.4041,
      "step": 25300
    },
    {
      "epoch": 0.38437427419445197,
      "eval_loss": 5.2696661949157715,
      "eval_runtime": 193.8783,
      "eval_samples_per_second": 51.579,
      "eval_steps_per_second": 6.447,
      "step": 25300
    },
    {
      "epoch": 0.3858935401003589,
      "grad_norm": 2.464872360229492,
      "learning_rate": 3.471571906354515e-06,
      "loss": 5.4035,
      "step": 25400
    },
    {
      "epoch": 0.3858935401003589,
      "eval_loss": 5.251010894775391,
      "eval_runtime": 193.8872,
      "eval_samples_per_second": 51.576,
      "eval_steps_per_second": 6.447,
      "step": 25400
    },
    {
      "epoch": 0.3874128060062658,
      "grad_norm": 2.675010919570923,
      "learning_rate": 3.4615384615384613e-06,
      "loss": 5.3946,
      "step": 25500
    },
    {
      "epoch": 0.3874128060062658,
      "eval_loss": 5.2538347244262695,
      "eval_runtime": 193.8933,
      "eval_samples_per_second": 51.575,
      "eval_steps_per_second": 6.447,
      "step": 25500
    },
    {
      "epoch": 0.38893207191217277,
      "grad_norm": 2.195725202560425,
      "learning_rate": 3.4515050167224076e-06,
      "loss": 5.3919,
      "step": 25600
    },
    {
      "epoch": 0.38893207191217277,
      "eval_loss": 5.230504035949707,
      "eval_runtime": 194.2054,
      "eval_samples_per_second": 51.492,
      "eval_steps_per_second": 6.436,
      "step": 25600
    },
    {
      "epoch": 0.39045133781807967,
      "grad_norm": 3.359039545059204,
      "learning_rate": 3.4414715719063544e-06,
      "loss": 5.3855,
      "step": 25700
    },
    {
      "epoch": 0.39045133781807967,
      "eval_loss": 5.245420455932617,
      "eval_runtime": 193.8867,
      "eval_samples_per_second": 51.577,
      "eval_steps_per_second": 6.447,
      "step": 25700
    },
    {
      "epoch": 0.3919706037239866,
      "grad_norm": 3.5205583572387695,
      "learning_rate": 3.4314381270903007e-06,
      "loss": 5.3822,
      "step": 25800
    },
    {
      "epoch": 0.3919706037239866,
      "eval_loss": 5.227876663208008,
      "eval_runtime": 194.0636,
      "eval_samples_per_second": 51.529,
      "eval_steps_per_second": 6.441,
      "step": 25800
    },
    {
      "epoch": 0.3934898696298935,
      "grad_norm": 3.5619242191314697,
      "learning_rate": 3.4214046822742475e-06,
      "loss": 5.3773,
      "step": 25900
    },
    {
      "epoch": 0.3934898696298935,
      "eval_loss": 5.234467029571533,
      "eval_runtime": 193.7401,
      "eval_samples_per_second": 51.616,
      "eval_steps_per_second": 6.452,
      "step": 25900
    },
    {
      "epoch": 0.39500913553580047,
      "grad_norm": 3.9920406341552734,
      "learning_rate": 3.411371237458194e-06,
      "loss": 5.3735,
      "step": 26000
    },
    {
      "epoch": 0.39500913553580047,
      "eval_loss": 5.22184944152832,
      "eval_runtime": 193.7394,
      "eval_samples_per_second": 51.616,
      "eval_steps_per_second": 6.452,
      "step": 26000
    },
    {
      "epoch": 0.39652840144170737,
      "grad_norm": 3.559217691421509,
      "learning_rate": 3.40133779264214e-06,
      "loss": 5.3695,
      "step": 26100
    },
    {
      "epoch": 0.39652840144170737,
      "eval_loss": 5.22100830078125,
      "eval_runtime": 193.849,
      "eval_samples_per_second": 51.587,
      "eval_steps_per_second": 6.448,
      "step": 26100
    },
    {
      "epoch": 0.3980476673476143,
      "grad_norm": 4.232235908508301,
      "learning_rate": 3.391304347826087e-06,
      "loss": 5.3703,
      "step": 26200
    },
    {
      "epoch": 0.3980476673476143,
      "eval_loss": 5.208474159240723,
      "eval_runtime": 193.8974,
      "eval_samples_per_second": 51.574,
      "eval_steps_per_second": 6.447,
      "step": 26200
    },
    {
      "epoch": 0.3995669332535212,
      "grad_norm": 1.947100043296814,
      "learning_rate": 3.3812709030100333e-06,
      "loss": 5.3627,
      "step": 26300
    },
    {
      "epoch": 0.3995669332535212,
      "eval_loss": 5.217953681945801,
      "eval_runtime": 193.928,
      "eval_samples_per_second": 51.566,
      "eval_steps_per_second": 6.446,
      "step": 26300
    },
    {
      "epoch": 0.40108619915942817,
      "grad_norm": 3.8494338989257812,
      "learning_rate": 3.3712374581939796e-06,
      "loss": 5.3584,
      "step": 26400
    },
    {
      "epoch": 0.40108619915942817,
      "eval_loss": 5.212357044219971,
      "eval_runtime": 193.9466,
      "eval_samples_per_second": 51.561,
      "eval_steps_per_second": 6.445,
      "step": 26400
    },
    {
      "epoch": 0.40260546506533507,
      "grad_norm": 3.837324619293213,
      "learning_rate": 3.3612040133779264e-06,
      "loss": 5.3555,
      "step": 26500
    },
    {
      "epoch": 0.40260546506533507,
      "eval_loss": 5.211539268493652,
      "eval_runtime": 193.9781,
      "eval_samples_per_second": 51.552,
      "eval_steps_per_second": 6.444,
      "step": 26500
    },
    {
      "epoch": 0.404124730971242,
      "grad_norm": 3.7754664421081543,
      "learning_rate": 3.3511705685618727e-06,
      "loss": 5.3476,
      "step": 26600
    },
    {
      "epoch": 0.404124730971242,
      "eval_loss": 5.1926679611206055,
      "eval_runtime": 194.0189,
      "eval_samples_per_second": 51.541,
      "eval_steps_per_second": 6.443,
      "step": 26600
    },
    {
      "epoch": 0.4056439968771489,
      "grad_norm": 2.4836502075195312,
      "learning_rate": 3.3411371237458195e-06,
      "loss": 5.3471,
      "step": 26700
    },
    {
      "epoch": 0.4056439968771489,
      "eval_loss": 5.188870429992676,
      "eval_runtime": 194.0466,
      "eval_samples_per_second": 51.534,
      "eval_steps_per_second": 6.442,
      "step": 26700
    },
    {
      "epoch": 0.40716326278305587,
      "grad_norm": 4.591010093688965,
      "learning_rate": 3.331103678929766e-06,
      "loss": 5.3431,
      "step": 26800
    },
    {
      "epoch": 0.40716326278305587,
      "eval_loss": 5.2042717933654785,
      "eval_runtime": 193.9239,
      "eval_samples_per_second": 51.567,
      "eval_steps_per_second": 6.446,
      "step": 26800
    },
    {
      "epoch": 0.40868252868896277,
      "grad_norm": 3.4716506004333496,
      "learning_rate": 3.321070234113712e-06,
      "loss": 5.3363,
      "step": 26900
    },
    {
      "epoch": 0.40868252868896277,
      "eval_loss": 5.18259859085083,
      "eval_runtime": 193.9467,
      "eval_samples_per_second": 51.561,
      "eval_steps_per_second": 6.445,
      "step": 26900
    },
    {
      "epoch": 0.4102017945948697,
      "grad_norm": 2.3968818187713623,
      "learning_rate": 3.311036789297659e-06,
      "loss": 5.335,
      "step": 27000
    },
    {
      "epoch": 0.4102017945948697,
      "eval_loss": 5.189505577087402,
      "eval_runtime": 193.9236,
      "eval_samples_per_second": 51.567,
      "eval_steps_per_second": 6.446,
      "step": 27000
    },
    {
      "epoch": 0.4117210605007766,
      "grad_norm": 3.8948540687561035,
      "learning_rate": 3.3010033444816052e-06,
      "loss": 5.3306,
      "step": 27100
    },
    {
      "epoch": 0.4117210605007766,
      "eval_loss": 5.193852424621582,
      "eval_runtime": 193.9813,
      "eval_samples_per_second": 51.551,
      "eval_steps_per_second": 6.444,
      "step": 27100
    },
    {
      "epoch": 0.41324032640668357,
      "grad_norm": 2.8864169120788574,
      "learning_rate": 3.2909698996655516e-06,
      "loss": 5.3292,
      "step": 27200
    },
    {
      "epoch": 0.41324032640668357,
      "eval_loss": 5.173651695251465,
      "eval_runtime": 193.9832,
      "eval_samples_per_second": 51.551,
      "eval_steps_per_second": 6.444,
      "step": 27200
    },
    {
      "epoch": 0.41475959231259046,
      "grad_norm": 2.733299970626831,
      "learning_rate": 3.2809364548494983e-06,
      "loss": 5.33,
      "step": 27300
    },
    {
      "epoch": 0.41475959231259046,
      "eval_loss": 5.169619083404541,
      "eval_runtime": 193.8848,
      "eval_samples_per_second": 51.577,
      "eval_steps_per_second": 6.447,
      "step": 27300
    },
    {
      "epoch": 0.4162788582184974,
      "grad_norm": 2.9062700271606445,
      "learning_rate": 3.2709030100334447e-06,
      "loss": 5.3173,
      "step": 27400
    },
    {
      "epoch": 0.4162788582184974,
      "eval_loss": 5.1664323806762695,
      "eval_runtime": 193.9119,
      "eval_samples_per_second": 51.57,
      "eval_steps_per_second": 6.446,
      "step": 27400
    },
    {
      "epoch": 0.4177981241244043,
      "grad_norm": 3.473586320877075,
      "learning_rate": 3.260869565217391e-06,
      "loss": 5.3132,
      "step": 27500
    },
    {
      "epoch": 0.4177981241244043,
      "eval_loss": 5.160322666168213,
      "eval_runtime": 193.6677,
      "eval_samples_per_second": 51.635,
      "eval_steps_per_second": 6.454,
      "step": 27500
    },
    {
      "epoch": 0.41931739003031127,
      "grad_norm": 3.763826847076416,
      "learning_rate": 3.2508361204013378e-06,
      "loss": 5.3079,
      "step": 27600
    },
    {
      "epoch": 0.41931739003031127,
      "eval_loss": 5.159815788269043,
      "eval_runtime": 193.6881,
      "eval_samples_per_second": 51.629,
      "eval_steps_per_second": 6.454,
      "step": 27600
    },
    {
      "epoch": 0.42083665593621816,
      "grad_norm": 3.552210807800293,
      "learning_rate": 3.240802675585284e-06,
      "loss": 5.3065,
      "step": 27700
    },
    {
      "epoch": 0.42083665593621816,
      "eval_loss": 5.150642395019531,
      "eval_runtime": 193.6169,
      "eval_samples_per_second": 51.648,
      "eval_steps_per_second": 6.456,
      "step": 27700
    },
    {
      "epoch": 0.4223559218421251,
      "grad_norm": 4.059215545654297,
      "learning_rate": 3.230769230769231e-06,
      "loss": 5.2979,
      "step": 27800
    },
    {
      "epoch": 0.4223559218421251,
      "eval_loss": 5.1397881507873535,
      "eval_runtime": 193.6252,
      "eval_samples_per_second": 51.646,
      "eval_steps_per_second": 6.456,
      "step": 27800
    },
    {
      "epoch": 0.423875187748032,
      "grad_norm": 3.116863250732422,
      "learning_rate": 3.2207357859531772e-06,
      "loss": 5.2986,
      "step": 27900
    },
    {
      "epoch": 0.423875187748032,
      "eval_loss": 5.141936779022217,
      "eval_runtime": 193.8766,
      "eval_samples_per_second": 51.579,
      "eval_steps_per_second": 6.447,
      "step": 27900
    },
    {
      "epoch": 0.42539445365393896,
      "grad_norm": 3.474275588989258,
      "learning_rate": 3.2107023411371236e-06,
      "loss": 5.2969,
      "step": 28000
    },
    {
      "epoch": 0.42539445365393896,
      "eval_loss": 5.130954742431641,
      "eval_runtime": 193.6114,
      "eval_samples_per_second": 51.65,
      "eval_steps_per_second": 6.456,
      "step": 28000
    },
    {
      "epoch": 0.42691371955984586,
      "grad_norm": 4.147261619567871,
      "learning_rate": 3.2006688963210703e-06,
      "loss": 5.2919,
      "step": 28100
    },
    {
      "epoch": 0.42691371955984586,
      "eval_loss": 5.131519794464111,
      "eval_runtime": 193.5876,
      "eval_samples_per_second": 51.656,
      "eval_steps_per_second": 6.457,
      "step": 28100
    },
    {
      "epoch": 0.4284329854657528,
      "grad_norm": 3.2498297691345215,
      "learning_rate": 3.1906354515050167e-06,
      "loss": 5.281,
      "step": 28200
    },
    {
      "epoch": 0.4284329854657528,
      "eval_loss": 5.137979984283447,
      "eval_runtime": 193.6213,
      "eval_samples_per_second": 51.647,
      "eval_steps_per_second": 6.456,
      "step": 28200
    },
    {
      "epoch": 0.4299522513716597,
      "grad_norm": 2.9977059364318848,
      "learning_rate": 3.180602006688963e-06,
      "loss": 5.2799,
      "step": 28300
    },
    {
      "epoch": 0.4299522513716597,
      "eval_loss": 5.123497009277344,
      "eval_runtime": 193.6764,
      "eval_samples_per_second": 51.633,
      "eval_steps_per_second": 6.454,
      "step": 28300
    },
    {
      "epoch": 0.43147151727756666,
      "grad_norm": 3.6998023986816406,
      "learning_rate": 3.1705685618729098e-06,
      "loss": 5.2772,
      "step": 28400
    },
    {
      "epoch": 0.43147151727756666,
      "eval_loss": 5.125461101531982,
      "eval_runtime": 194.1824,
      "eval_samples_per_second": 51.498,
      "eval_steps_per_second": 6.437,
      "step": 28400
    },
    {
      "epoch": 0.43299078318347356,
      "grad_norm": 2.8865628242492676,
      "learning_rate": 3.160535117056856e-06,
      "loss": 5.2778,
      "step": 28500
    },
    {
      "epoch": 0.43299078318347356,
      "eval_loss": 5.130805492401123,
      "eval_runtime": 194.0322,
      "eval_samples_per_second": 51.538,
      "eval_steps_per_second": 6.442,
      "step": 28500
    },
    {
      "epoch": 0.4345100490893805,
      "grad_norm": 3.853248357772827,
      "learning_rate": 3.1505016722408024e-06,
      "loss": 5.2722,
      "step": 28600
    },
    {
      "epoch": 0.4345100490893805,
      "eval_loss": 5.125495910644531,
      "eval_runtime": 194.031,
      "eval_samples_per_second": 51.538,
      "eval_steps_per_second": 6.442,
      "step": 28600
    },
    {
      "epoch": 0.4360293149952874,
      "grad_norm": 2.8595046997070312,
      "learning_rate": 3.140468227424749e-06,
      "loss": 5.2644,
      "step": 28700
    },
    {
      "epoch": 0.4360293149952874,
      "eval_loss": 5.113553524017334,
      "eval_runtime": 194.0586,
      "eval_samples_per_second": 51.531,
      "eval_steps_per_second": 6.441,
      "step": 28700
    },
    {
      "epoch": 0.43754858090119436,
      "grad_norm": 3.5894057750701904,
      "learning_rate": 3.1304347826086955e-06,
      "loss": 5.261,
      "step": 28800
    },
    {
      "epoch": 0.43754858090119436,
      "eval_loss": 5.1062846183776855,
      "eval_runtime": 194.0309,
      "eval_samples_per_second": 51.538,
      "eval_steps_per_second": 6.442,
      "step": 28800
    },
    {
      "epoch": 0.43906784680710126,
      "grad_norm": 2.79595685005188,
      "learning_rate": 3.1204013377926423e-06,
      "loss": 5.257,
      "step": 28900
    },
    {
      "epoch": 0.43906784680710126,
      "eval_loss": 5.108764171600342,
      "eval_runtime": 194.0394,
      "eval_samples_per_second": 51.536,
      "eval_steps_per_second": 6.442,
      "step": 28900
    },
    {
      "epoch": 0.4405871127130082,
      "grad_norm": 3.3071796894073486,
      "learning_rate": 3.1103678929765886e-06,
      "loss": 5.2543,
      "step": 29000
    },
    {
      "epoch": 0.4405871127130082,
      "eval_loss": 5.101233005523682,
      "eval_runtime": 194.0058,
      "eval_samples_per_second": 51.545,
      "eval_steps_per_second": 6.443,
      "step": 29000
    },
    {
      "epoch": 0.4421063786189151,
      "grad_norm": 2.916874408721924,
      "learning_rate": 3.100334448160535e-06,
      "loss": 5.2474,
      "step": 29100
    },
    {
      "epoch": 0.4421063786189151,
      "eval_loss": 5.100154876708984,
      "eval_runtime": 194.0356,
      "eval_samples_per_second": 51.537,
      "eval_steps_per_second": 6.442,
      "step": 29100
    },
    {
      "epoch": 0.44362564452482206,
      "grad_norm": 2.6649153232574463,
      "learning_rate": 3.0903010033444818e-06,
      "loss": 5.2504,
      "step": 29200
    },
    {
      "epoch": 0.44362564452482206,
      "eval_loss": 5.0921311378479,
      "eval_runtime": 194.0892,
      "eval_samples_per_second": 51.523,
      "eval_steps_per_second": 6.44,
      "step": 29200
    },
    {
      "epoch": 0.44514491043072896,
      "grad_norm": 2.398049831390381,
      "learning_rate": 3.080267558528428e-06,
      "loss": 5.2441,
      "step": 29300
    },
    {
      "epoch": 0.44514491043072896,
      "eval_loss": 5.0853142738342285,
      "eval_runtime": 193.8364,
      "eval_samples_per_second": 51.59,
      "eval_steps_per_second": 6.449,
      "step": 29300
    },
    {
      "epoch": 0.4466641763366359,
      "grad_norm": 2.485322952270508,
      "learning_rate": 3.0702341137123744e-06,
      "loss": 5.2415,
      "step": 29400
    },
    {
      "epoch": 0.4466641763366359,
      "eval_loss": 5.091442584991455,
      "eval_runtime": 193.9724,
      "eval_samples_per_second": 51.554,
      "eval_steps_per_second": 6.444,
      "step": 29400
    },
    {
      "epoch": 0.4481834422425428,
      "grad_norm": 3.5554513931274414,
      "learning_rate": 3.060200668896321e-06,
      "loss": 5.2374,
      "step": 29500
    },
    {
      "epoch": 0.4481834422425428,
      "eval_loss": 5.077342510223389,
      "eval_runtime": 194.0745,
      "eval_samples_per_second": 51.527,
      "eval_steps_per_second": 6.441,
      "step": 29500
    },
    {
      "epoch": 0.44970270814844976,
      "grad_norm": 3.598982810974121,
      "learning_rate": 3.0501672240802675e-06,
      "loss": 5.2324,
      "step": 29600
    },
    {
      "epoch": 0.44970270814844976,
      "eval_loss": 5.088211536407471,
      "eval_runtime": 193.9862,
      "eval_samples_per_second": 51.55,
      "eval_steps_per_second": 6.444,
      "step": 29600
    },
    {
      "epoch": 0.45122197405435666,
      "grad_norm": 3.2339296340942383,
      "learning_rate": 3.0401337792642143e-06,
      "loss": 5.2295,
      "step": 29700
    },
    {
      "epoch": 0.45122197405435666,
      "eval_loss": 5.077876567840576,
      "eval_runtime": 193.8777,
      "eval_samples_per_second": 51.579,
      "eval_steps_per_second": 6.447,
      "step": 29700
    },
    {
      "epoch": 0.4527412399602636,
      "grad_norm": 2.627495765686035,
      "learning_rate": 3.0301003344481606e-06,
      "loss": 5.2275,
      "step": 29800
    },
    {
      "epoch": 0.4527412399602636,
      "eval_loss": 5.074822902679443,
      "eval_runtime": 193.8311,
      "eval_samples_per_second": 51.591,
      "eval_steps_per_second": 6.449,
      "step": 29800
    },
    {
      "epoch": 0.4542605058661705,
      "grad_norm": 2.9252991676330566,
      "learning_rate": 3.020066889632107e-06,
      "loss": 5.2238,
      "step": 29900
    },
    {
      "epoch": 0.4542605058661705,
      "eval_loss": 5.063547611236572,
      "eval_runtime": 193.7302,
      "eval_samples_per_second": 51.618,
      "eval_steps_per_second": 6.452,
      "step": 29900
    },
    {
      "epoch": 0.45577977177207746,
      "grad_norm": 3.155406951904297,
      "learning_rate": 3.0100334448160537e-06,
      "loss": 5.2218,
      "step": 30000
    },
    {
      "epoch": 0.45577977177207746,
      "eval_loss": 5.066218852996826,
      "eval_runtime": 193.6072,
      "eval_samples_per_second": 51.651,
      "eval_steps_per_second": 6.456,
      "step": 30000
    },
    {
      "epoch": 0.45729903767798435,
      "grad_norm": 3.476306915283203,
      "learning_rate": 3e-06,
      "loss": 5.2166,
      "step": 30100
    },
    {
      "epoch": 0.45729903767798435,
      "eval_loss": 5.068021774291992,
      "eval_runtime": 193.6477,
      "eval_samples_per_second": 51.64,
      "eval_steps_per_second": 6.455,
      "step": 30100
    },
    {
      "epoch": 0.4588183035838913,
      "grad_norm": 3.618774175643921,
      "learning_rate": 2.9899665551839464e-06,
      "loss": 5.2154,
      "step": 30200
    },
    {
      "epoch": 0.4588183035838913,
      "eval_loss": 5.0593461990356445,
      "eval_runtime": 193.5821,
      "eval_samples_per_second": 51.658,
      "eval_steps_per_second": 6.457,
      "step": 30200
    },
    {
      "epoch": 0.4603375694897982,
      "grad_norm": 2.838336229324341,
      "learning_rate": 2.979933110367893e-06,
      "loss": 5.2082,
      "step": 30300
    },
    {
      "epoch": 0.4603375694897982,
      "eval_loss": 5.061206817626953,
      "eval_runtime": 193.644,
      "eval_samples_per_second": 51.641,
      "eval_steps_per_second": 6.455,
      "step": 30300
    },
    {
      "epoch": 0.46185683539570516,
      "grad_norm": 2.840545654296875,
      "learning_rate": 2.9698996655518395e-06,
      "loss": 5.2028,
      "step": 30400
    },
    {
      "epoch": 0.46185683539570516,
      "eval_loss": 5.051755428314209,
      "eval_runtime": 193.6726,
      "eval_samples_per_second": 51.634,
      "eval_steps_per_second": 6.454,
      "step": 30400
    },
    {
      "epoch": 0.46337610130161205,
      "grad_norm": 2.4346399307250977,
      "learning_rate": 2.959866220735786e-06,
      "loss": 5.2001,
      "step": 30500
    },
    {
      "epoch": 0.46337610130161205,
      "eval_loss": 5.050179481506348,
      "eval_runtime": 193.6621,
      "eval_samples_per_second": 51.636,
      "eval_steps_per_second": 6.455,
      "step": 30500
    },
    {
      "epoch": 0.464895367207519,
      "grad_norm": 2.331064224243164,
      "learning_rate": 2.9498327759197326e-06,
      "loss": 5.2018,
      "step": 30600
    },
    {
      "epoch": 0.464895367207519,
      "eval_loss": 5.039993762969971,
      "eval_runtime": 193.9744,
      "eval_samples_per_second": 51.553,
      "eval_steps_per_second": 6.444,
      "step": 30600
    },
    {
      "epoch": 0.4664146331134259,
      "grad_norm": 3.012594223022461,
      "learning_rate": 2.939799331103679e-06,
      "loss": 5.1991,
      "step": 30700
    },
    {
      "epoch": 0.4664146331134259,
      "eval_loss": 5.039401054382324,
      "eval_runtime": 194.0713,
      "eval_samples_per_second": 51.527,
      "eval_steps_per_second": 6.441,
      "step": 30700
    },
    {
      "epoch": 0.46793389901933286,
      "grad_norm": 3.4017112255096436,
      "learning_rate": 2.9297658862876257e-06,
      "loss": 5.1937,
      "step": 30800
    },
    {
      "epoch": 0.46793389901933286,
      "eval_loss": 5.0479512214660645,
      "eval_runtime": 194.0394,
      "eval_samples_per_second": 51.536,
      "eval_steps_per_second": 6.442,
      "step": 30800
    },
    {
      "epoch": 0.46945316492523975,
      "grad_norm": 2.848475694656372,
      "learning_rate": 2.919732441471572e-06,
      "loss": 5.1898,
      "step": 30900
    },
    {
      "epoch": 0.46945316492523975,
      "eval_loss": 5.043004035949707,
      "eval_runtime": 194.2051,
      "eval_samples_per_second": 51.492,
      "eval_steps_per_second": 6.436,
      "step": 30900
    },
    {
      "epoch": 0.4709724308311467,
      "grad_norm": 2.964001178741455,
      "learning_rate": 2.9096989966555184e-06,
      "loss": 5.1887,
      "step": 31000
    },
    {
      "epoch": 0.4709724308311467,
      "eval_loss": 5.029993534088135,
      "eval_runtime": 194.1479,
      "eval_samples_per_second": 51.507,
      "eval_steps_per_second": 6.438,
      "step": 31000
    },
    {
      "epoch": 0.4724916967370536,
      "grad_norm": 2.698634147644043,
      "learning_rate": 2.899665551839465e-06,
      "loss": 5.1879,
      "step": 31100
    },
    {
      "epoch": 0.4724916967370536,
      "eval_loss": 5.028534412384033,
      "eval_runtime": 194.0408,
      "eval_samples_per_second": 51.536,
      "eval_steps_per_second": 6.442,
      "step": 31100
    },
    {
      "epoch": 0.47401096264296055,
      "grad_norm": 2.757293224334717,
      "learning_rate": 2.8896321070234115e-06,
      "loss": 5.1818,
      "step": 31200
    },
    {
      "epoch": 0.47401096264296055,
      "eval_loss": 5.024392127990723,
      "eval_runtime": 194.1644,
      "eval_samples_per_second": 51.503,
      "eval_steps_per_second": 6.438,
      "step": 31200
    },
    {
      "epoch": 0.47553022854886745,
      "grad_norm": 3.269547700881958,
      "learning_rate": 2.879598662207358e-06,
      "loss": 5.1784,
      "step": 31300
    },
    {
      "epoch": 0.47553022854886745,
      "eval_loss": 5.026421546936035,
      "eval_runtime": 193.9523,
      "eval_samples_per_second": 51.559,
      "eval_steps_per_second": 6.445,
      "step": 31300
    },
    {
      "epoch": 0.4770494944547744,
      "grad_norm": 3.1080405712127686,
      "learning_rate": 2.8695652173913046e-06,
      "loss": 5.1725,
      "step": 31400
    },
    {
      "epoch": 0.4770494944547744,
      "eval_loss": 5.025778770446777,
      "eval_runtime": 193.9136,
      "eval_samples_per_second": 51.569,
      "eval_steps_per_second": 6.446,
      "step": 31400
    },
    {
      "epoch": 0.4785687603606813,
      "grad_norm": 4.382852554321289,
      "learning_rate": 2.859531772575251e-06,
      "loss": 5.1691,
      "step": 31500
    },
    {
      "epoch": 0.4785687603606813,
      "eval_loss": 5.0218424797058105,
      "eval_runtime": 194.0079,
      "eval_samples_per_second": 51.544,
      "eval_steps_per_second": 6.443,
      "step": 31500
    },
    {
      "epoch": 0.48008802626658825,
      "grad_norm": 2.4219489097595215,
      "learning_rate": 2.8494983277591977e-06,
      "loss": 5.1675,
      "step": 31600
    },
    {
      "epoch": 0.48008802626658825,
      "eval_loss": 5.009864807128906,
      "eval_runtime": 194.1924,
      "eval_samples_per_second": 51.495,
      "eval_steps_per_second": 6.437,
      "step": 31600
    },
    {
      "epoch": 0.48160729217249515,
      "grad_norm": 3.9848620891571045,
      "learning_rate": 2.839464882943144e-06,
      "loss": 5.1607,
      "step": 31700
    },
    {
      "epoch": 0.48160729217249515,
      "eval_loss": 5.008971214294434,
      "eval_runtime": 194.2985,
      "eval_samples_per_second": 51.467,
      "eval_steps_per_second": 6.433,
      "step": 31700
    },
    {
      "epoch": 0.4831265580784021,
      "grad_norm": 3.3474831581115723,
      "learning_rate": 2.8294314381270904e-06,
      "loss": 5.1598,
      "step": 31800
    },
    {
      "epoch": 0.4831265580784021,
      "eval_loss": 5.004793167114258,
      "eval_runtime": 194.03,
      "eval_samples_per_second": 51.538,
      "eval_steps_per_second": 6.442,
      "step": 31800
    },
    {
      "epoch": 0.484645823984309,
      "grad_norm": 3.074587821960449,
      "learning_rate": 2.819397993311037e-06,
      "loss": 5.1588,
      "step": 31900
    },
    {
      "epoch": 0.484645823984309,
      "eval_loss": 5.007466793060303,
      "eval_runtime": 193.9052,
      "eval_samples_per_second": 51.572,
      "eval_steps_per_second": 6.446,
      "step": 31900
    },
    {
      "epoch": 0.48616508989021595,
      "grad_norm": 2.631606340408325,
      "learning_rate": 2.8093645484949835e-06,
      "loss": 5.155,
      "step": 32000
    },
    {
      "epoch": 0.48616508989021595,
      "eval_loss": 5.00339937210083,
      "eval_runtime": 194.0167,
      "eval_samples_per_second": 51.542,
      "eval_steps_per_second": 6.443,
      "step": 32000
    },
    {
      "epoch": 0.48768435579612285,
      "grad_norm": 2.5506277084350586,
      "learning_rate": 2.79933110367893e-06,
      "loss": 5.1544,
      "step": 32100
    },
    {
      "epoch": 0.48768435579612285,
      "eval_loss": 4.995656967163086,
      "eval_runtime": 193.7711,
      "eval_samples_per_second": 51.607,
      "eval_steps_per_second": 6.451,
      "step": 32100
    },
    {
      "epoch": 0.4892036217020298,
      "grad_norm": 2.9476144313812256,
      "learning_rate": 2.7892976588628766e-06,
      "loss": 5.1477,
      "step": 32200
    },
    {
      "epoch": 0.4892036217020298,
      "eval_loss": 4.994040012359619,
      "eval_runtime": 193.6615,
      "eval_samples_per_second": 51.636,
      "eval_steps_per_second": 6.455,
      "step": 32200
    },
    {
      "epoch": 0.4907228876079367,
      "grad_norm": 3.5395162105560303,
      "learning_rate": 2.779264214046823e-06,
      "loss": 5.1424,
      "step": 32300
    },
    {
      "epoch": 0.4907228876079367,
      "eval_loss": 4.992614269256592,
      "eval_runtime": 193.7065,
      "eval_samples_per_second": 51.624,
      "eval_steps_per_second": 6.453,
      "step": 32300
    },
    {
      "epoch": 0.49224215351384365,
      "grad_norm": 2.805767297744751,
      "learning_rate": 2.7692307692307693e-06,
      "loss": 5.1446,
      "step": 32400
    },
    {
      "epoch": 0.49224215351384365,
      "eval_loss": 4.987194538116455,
      "eval_runtime": 193.7203,
      "eval_samples_per_second": 51.621,
      "eval_steps_per_second": 6.453,
      "step": 32400
    },
    {
      "epoch": 0.49376141941975055,
      "grad_norm": 3.9371492862701416,
      "learning_rate": 2.759197324414716e-06,
      "loss": 5.1391,
      "step": 32500
    },
    {
      "epoch": 0.49376141941975055,
      "eval_loss": 4.9901838302612305,
      "eval_runtime": 193.6911,
      "eval_samples_per_second": 51.629,
      "eval_steps_per_second": 6.454,
      "step": 32500
    },
    {
      "epoch": 0.4952806853256575,
      "grad_norm": 2.755789041519165,
      "learning_rate": 2.749163879598662e-06,
      "loss": 5.1393,
      "step": 32600
    },
    {
      "epoch": 0.4952806853256575,
      "eval_loss": 4.992640018463135,
      "eval_runtime": 193.6445,
      "eval_samples_per_second": 51.641,
      "eval_steps_per_second": 6.455,
      "step": 32600
    },
    {
      "epoch": 0.4967999512315644,
      "grad_norm": 3.4700164794921875,
      "learning_rate": 2.7391304347826087e-06,
      "loss": 5.1375,
      "step": 32700
    },
    {
      "epoch": 0.4967999512315644,
      "eval_loss": 4.975983142852783,
      "eval_runtime": 193.7046,
      "eval_samples_per_second": 51.625,
      "eval_steps_per_second": 6.453,
      "step": 32700
    },
    {
      "epoch": 0.49831921713747135,
      "grad_norm": 2.9584505558013916,
      "learning_rate": 2.729096989966555e-06,
      "loss": 5.1305,
      "step": 32800
    },
    {
      "epoch": 0.49831921713747135,
      "eval_loss": 4.978539943695068,
      "eval_runtime": 193.9644,
      "eval_samples_per_second": 51.556,
      "eval_steps_per_second": 6.444,
      "step": 32800
    },
    {
      "epoch": 0.49983848304337825,
      "grad_norm": 3.1944355964660645,
      "learning_rate": 2.7190635451505014e-06,
      "loss": 5.1202,
      "step": 32900
    },
    {
      "epoch": 0.49983848304337825,
      "eval_loss": 4.972556114196777,
      "eval_runtime": 194.0092,
      "eval_samples_per_second": 51.544,
      "eval_steps_per_second": 6.443,
      "step": 32900
    },
    {
      "epoch": 0.5013577489492852,
      "grad_norm": 2.980757713317871,
      "learning_rate": 2.709030100334448e-06,
      "loss": 5.1282,
      "step": 33000
    },
    {
      "epoch": 0.5013577489492852,
      "eval_loss": 4.974079132080078,
      "eval_runtime": 194.0276,
      "eval_samples_per_second": 51.539,
      "eval_steps_per_second": 6.442,
      "step": 33000
    },
    {
      "epoch": 0.5028770148551921,
      "grad_norm": 3.100187063217163,
      "learning_rate": 2.6989966555183945e-06,
      "loss": 5.1259,
      "step": 33100
    },
    {
      "epoch": 0.5028770148551921,
      "eval_loss": 4.963293552398682,
      "eval_runtime": 194.0336,
      "eval_samples_per_second": 51.537,
      "eval_steps_per_second": 6.442,
      "step": 33100
    },
    {
      "epoch": 0.504396280761099,
      "grad_norm": 2.542158603668213,
      "learning_rate": 2.6889632107023413e-06,
      "loss": 5.1217,
      "step": 33200
    },
    {
      "epoch": 0.504396280761099,
      "eval_loss": 4.9611406326293945,
      "eval_runtime": 193.9855,
      "eval_samples_per_second": 51.55,
      "eval_steps_per_second": 6.444,
      "step": 33200
    },
    {
      "epoch": 0.505915546667006,
      "grad_norm": 2.545457363128662,
      "learning_rate": 2.6789297658862876e-06,
      "loss": 5.1158,
      "step": 33300
    },
    {
      "epoch": 0.505915546667006,
      "eval_loss": 4.967195510864258,
      "eval_runtime": 194.147,
      "eval_samples_per_second": 51.507,
      "eval_steps_per_second": 6.438,
      "step": 33300
    },
    {
      "epoch": 0.5074348125729129,
      "grad_norm": 2.822507858276367,
      "learning_rate": 2.668896321070234e-06,
      "loss": 5.1109,
      "step": 33400
    },
    {
      "epoch": 0.5074348125729129,
      "eval_loss": 4.9572014808654785,
      "eval_runtime": 194.2258,
      "eval_samples_per_second": 51.486,
      "eval_steps_per_second": 6.436,
      "step": 33400
    },
    {
      "epoch": 0.5089540784788198,
      "grad_norm": 2.361830949783325,
      "learning_rate": 2.6588628762541807e-06,
      "loss": 5.1154,
      "step": 33500
    },
    {
      "epoch": 0.5089540784788198,
      "eval_loss": 4.94895076751709,
      "eval_runtime": 194.1601,
      "eval_samples_per_second": 51.504,
      "eval_steps_per_second": 6.438,
      "step": 33500
    },
    {
      "epoch": 0.5104733443847267,
      "grad_norm": 2.3638288974761963,
      "learning_rate": 2.648829431438127e-06,
      "loss": 5.1055,
      "step": 33600
    },
    {
      "epoch": 0.5104733443847267,
      "eval_loss": 4.947831153869629,
      "eval_runtime": 194.2013,
      "eval_samples_per_second": 51.493,
      "eval_steps_per_second": 6.437,
      "step": 33600
    },
    {
      "epoch": 0.5119926102906337,
      "grad_norm": 2.163120746612549,
      "learning_rate": 2.6387959866220734e-06,
      "loss": 5.1048,
      "step": 33700
    },
    {
      "epoch": 0.5119926102906337,
      "eval_loss": 4.943573951721191,
      "eval_runtime": 194.2102,
      "eval_samples_per_second": 51.491,
      "eval_steps_per_second": 6.436,
      "step": 33700
    },
    {
      "epoch": 0.5135118761965406,
      "grad_norm": 2.234380006790161,
      "learning_rate": 2.62876254180602e-06,
      "loss": 5.1042,
      "step": 33800
    },
    {
      "epoch": 0.5135118761965406,
      "eval_loss": 4.945695400238037,
      "eval_runtime": 194.1949,
      "eval_samples_per_second": 51.495,
      "eval_steps_per_second": 6.437,
      "step": 33800
    },
    {
      "epoch": 0.5150311421024475,
      "grad_norm": 2.8607873916625977,
      "learning_rate": 2.6187290969899665e-06,
      "loss": 5.0977,
      "step": 33900
    },
    {
      "epoch": 0.5150311421024475,
      "eval_loss": 4.940700531005859,
      "eval_runtime": 194.1567,
      "eval_samples_per_second": 51.505,
      "eval_steps_per_second": 6.438,
      "step": 33900
    },
    {
      "epoch": 0.5165504080083544,
      "grad_norm": 2.85111403465271,
      "learning_rate": 2.6086956521739132e-06,
      "loss": 5.0939,
      "step": 34000
    },
    {
      "epoch": 0.5165504080083544,
      "eval_loss": 4.934571266174316,
      "eval_runtime": 194.0792,
      "eval_samples_per_second": 51.525,
      "eval_steps_per_second": 6.441,
      "step": 34000
    },
    {
      "epoch": 0.5180696739142614,
      "grad_norm": 3.2021050453186035,
      "learning_rate": 2.5986622073578596e-06,
      "loss": 5.0902,
      "step": 34100
    },
    {
      "epoch": 0.5180696739142614,
      "eval_loss": 4.940134048461914,
      "eval_runtime": 194.0612,
      "eval_samples_per_second": 51.53,
      "eval_steps_per_second": 6.441,
      "step": 34100
    },
    {
      "epoch": 0.5195889398201683,
      "grad_norm": 2.500246047973633,
      "learning_rate": 2.588628762541806e-06,
      "loss": 5.0851,
      "step": 34200
    },
    {
      "epoch": 0.5195889398201683,
      "eval_loss": 4.938769340515137,
      "eval_runtime": 194.1164,
      "eval_samples_per_second": 51.515,
      "eval_steps_per_second": 6.439,
      "step": 34200
    },
    {
      "epoch": 0.5211082057260752,
      "grad_norm": 2.7174882888793945,
      "learning_rate": 2.5785953177257527e-06,
      "loss": 5.0917,
      "step": 34300
    },
    {
      "epoch": 0.5211082057260752,
      "eval_loss": 4.933419704437256,
      "eval_runtime": 194.3056,
      "eval_samples_per_second": 51.465,
      "eval_steps_per_second": 6.433,
      "step": 34300
    },
    {
      "epoch": 0.5226274716319821,
      "grad_norm": 3.255512237548828,
      "learning_rate": 2.568561872909699e-06,
      "loss": 5.0836,
      "step": 34400
    },
    {
      "epoch": 0.5226274716319821,
      "eval_loss": 4.930218696594238,
      "eval_runtime": 193.8112,
      "eval_samples_per_second": 51.597,
      "eval_steps_per_second": 6.45,
      "step": 34400
    },
    {
      "epoch": 0.5241467375378891,
      "grad_norm": 2.2356820106506348,
      "learning_rate": 2.5585284280936454e-06,
      "loss": 5.0815,
      "step": 34500
    },
    {
      "epoch": 0.5241467375378891,
      "eval_loss": 4.932159423828125,
      "eval_runtime": 193.6954,
      "eval_samples_per_second": 51.627,
      "eval_steps_per_second": 6.453,
      "step": 34500
    },
    {
      "epoch": 0.525666003443796,
      "grad_norm": 2.4992058277130127,
      "learning_rate": 2.548494983277592e-06,
      "loss": 5.0844,
      "step": 34600
    },
    {
      "epoch": 0.525666003443796,
      "eval_loss": 4.924154758453369,
      "eval_runtime": 193.7231,
      "eval_samples_per_second": 51.62,
      "eval_steps_per_second": 6.453,
      "step": 34600
    },
    {
      "epoch": 0.5271852693497029,
      "grad_norm": 2.348440647125244,
      "learning_rate": 2.5384615384615385e-06,
      "loss": 5.0789,
      "step": 34700
    },
    {
      "epoch": 0.5271852693497029,
      "eval_loss": 4.925171852111816,
      "eval_runtime": 193.7816,
      "eval_samples_per_second": 51.604,
      "eval_steps_per_second": 6.451,
      "step": 34700
    },
    {
      "epoch": 0.5287045352556098,
      "grad_norm": 2.589172840118408,
      "learning_rate": 2.528428093645485e-06,
      "loss": 5.0708,
      "step": 34800
    },
    {
      "epoch": 0.5287045352556098,
      "eval_loss": 4.919689178466797,
      "eval_runtime": 193.7778,
      "eval_samples_per_second": 51.605,
      "eval_steps_per_second": 6.451,
      "step": 34800
    },
    {
      "epoch": 0.5302238011615168,
      "grad_norm": 2.950510263442993,
      "learning_rate": 2.5183946488294316e-06,
      "loss": 5.0707,
      "step": 34900
    },
    {
      "epoch": 0.5302238011615168,
      "eval_loss": 4.9157304763793945,
      "eval_runtime": 193.5504,
      "eval_samples_per_second": 51.666,
      "eval_steps_per_second": 6.458,
      "step": 34900
    },
    {
      "epoch": 0.5317430670674237,
      "grad_norm": 3.1693990230560303,
      "learning_rate": 2.508361204013378e-06,
      "loss": 5.0653,
      "step": 35000
    },
    {
      "epoch": 0.5317430670674237,
      "eval_loss": 4.910171985626221,
      "eval_runtime": 194.0296,
      "eval_samples_per_second": 51.539,
      "eval_steps_per_second": 6.442,
      "step": 35000
    },
    {
      "epoch": 0.5332623329733306,
      "grad_norm": 2.8548085689544678,
      "learning_rate": 2.4983277591973247e-06,
      "loss": 5.0706,
      "step": 35100
    },
    {
      "epoch": 0.5332623329733306,
      "eval_loss": 4.9105353355407715,
      "eval_runtime": 193.9374,
      "eval_samples_per_second": 51.563,
      "eval_steps_per_second": 6.445,
      "step": 35100
    },
    {
      "epoch": 0.5347815988792376,
      "grad_norm": 1.8217041492462158,
      "learning_rate": 2.488294314381271e-06,
      "loss": 5.064,
      "step": 35200
    },
    {
      "epoch": 0.5347815988792376,
      "eval_loss": 4.906797885894775,
      "eval_runtime": 194.1314,
      "eval_samples_per_second": 51.511,
      "eval_steps_per_second": 6.439,
      "step": 35200
    },
    {
      "epoch": 0.5363008647851445,
      "grad_norm": 2.089233875274658,
      "learning_rate": 2.4782608695652173e-06,
      "loss": 5.0612,
      "step": 35300
    },
    {
      "epoch": 0.5363008647851445,
      "eval_loss": 4.904172420501709,
      "eval_runtime": 194.1107,
      "eval_samples_per_second": 51.517,
      "eval_steps_per_second": 6.44,
      "step": 35300
    },
    {
      "epoch": 0.5378201306910514,
      "grad_norm": 2.3225550651550293,
      "learning_rate": 2.468227424749164e-06,
      "loss": 5.06,
      "step": 35400
    },
    {
      "epoch": 0.5378201306910514,
      "eval_loss": 4.904652118682861,
      "eval_runtime": 194.1265,
      "eval_samples_per_second": 51.513,
      "eval_steps_per_second": 6.439,
      "step": 35400
    },
    {
      "epoch": 0.5393393965969583,
      "grad_norm": 3.1568684577941895,
      "learning_rate": 2.4581939799331104e-06,
      "loss": 5.0579,
      "step": 35500
    },
    {
      "epoch": 0.5393393965969583,
      "eval_loss": 4.90002965927124,
      "eval_runtime": 194.1042,
      "eval_samples_per_second": 51.519,
      "eval_steps_per_second": 6.44,
      "step": 35500
    },
    {
      "epoch": 0.5408586625028653,
      "grad_norm": 2.8267829418182373,
      "learning_rate": 2.4481605351170568e-06,
      "loss": 5.0568,
      "step": 35600
    },
    {
      "epoch": 0.5408586625028653,
      "eval_loss": 4.89033842086792,
      "eval_runtime": 194.0764,
      "eval_samples_per_second": 51.526,
      "eval_steps_per_second": 6.441,
      "step": 35600
    },
    {
      "epoch": 0.5423779284087722,
      "grad_norm": 1.987886667251587,
      "learning_rate": 2.4381270903010035e-06,
      "loss": 5.0541,
      "step": 35700
    },
    {
      "epoch": 0.5423779284087722,
      "eval_loss": 4.9011454582214355,
      "eval_runtime": 194.1549,
      "eval_samples_per_second": 51.505,
      "eval_steps_per_second": 6.438,
      "step": 35700
    },
    {
      "epoch": 0.5438971943146791,
      "grad_norm": 3.215435028076172,
      "learning_rate": 2.42809364548495e-06,
      "loss": 5.0506,
      "step": 35800
    },
    {
      "epoch": 0.5438971943146791,
      "eval_loss": 4.890650272369385,
      "eval_runtime": 194.1843,
      "eval_samples_per_second": 51.497,
      "eval_steps_per_second": 6.437,
      "step": 35800
    },
    {
      "epoch": 0.545416460220586,
      "grad_norm": 1.9231488704681396,
      "learning_rate": 2.4180602006688962e-06,
      "loss": 5.0466,
      "step": 35900
    },
    {
      "epoch": 0.545416460220586,
      "eval_loss": 4.890570163726807,
      "eval_runtime": 194.206,
      "eval_samples_per_second": 51.492,
      "eval_steps_per_second": 6.436,
      "step": 35900
    },
    {
      "epoch": 0.546935726126493,
      "grad_norm": 2.3541529178619385,
      "learning_rate": 2.408026755852843e-06,
      "loss": 5.0444,
      "step": 36000
    },
    {
      "epoch": 0.546935726126493,
      "eval_loss": 4.887938022613525,
      "eval_runtime": 194.1495,
      "eval_samples_per_second": 51.507,
      "eval_steps_per_second": 6.438,
      "step": 36000
    },
    {
      "epoch": 0.5484549920323999,
      "grad_norm": 2.646209478378296,
      "learning_rate": 2.3979933110367893e-06,
      "loss": 5.0381,
      "step": 36100
    },
    {
      "epoch": 0.5484549920323999,
      "eval_loss": 4.883460998535156,
      "eval_runtime": 194.0814,
      "eval_samples_per_second": 51.525,
      "eval_steps_per_second": 6.441,
      "step": 36100
    },
    {
      "epoch": 0.5499742579383068,
      "grad_norm": 2.2432219982147217,
      "learning_rate": 2.387959866220736e-06,
      "loss": 5.0363,
      "step": 36200
    },
    {
      "epoch": 0.5499742579383068,
      "eval_loss": 4.881083011627197,
      "eval_runtime": 194.1247,
      "eval_samples_per_second": 51.513,
      "eval_steps_per_second": 6.439,
      "step": 36200
    },
    {
      "epoch": 0.5514935238442137,
      "grad_norm": 2.482103109359741,
      "learning_rate": 2.3779264214046824e-06,
      "loss": 5.0416,
      "step": 36300
    },
    {
      "epoch": 0.5514935238442137,
      "eval_loss": 4.881221294403076,
      "eval_runtime": 194.1059,
      "eval_samples_per_second": 51.518,
      "eval_steps_per_second": 6.44,
      "step": 36300
    },
    {
      "epoch": 0.5530127897501207,
      "grad_norm": 2.0182697772979736,
      "learning_rate": 2.3678929765886288e-06,
      "loss": 5.0287,
      "step": 36400
    },
    {
      "epoch": 0.5530127897501207,
      "eval_loss": 4.877261161804199,
      "eval_runtime": 194.0469,
      "eval_samples_per_second": 51.534,
      "eval_steps_per_second": 6.442,
      "step": 36400
    },
    {
      "epoch": 0.5545320556560276,
      "grad_norm": 3.02773380279541,
      "learning_rate": 2.3578595317725755e-06,
      "loss": 5.0328,
      "step": 36500
    },
    {
      "epoch": 0.5545320556560276,
      "eval_loss": 4.869913101196289,
      "eval_runtime": 194.0627,
      "eval_samples_per_second": 51.53,
      "eval_steps_per_second": 6.441,
      "step": 36500
    },
    {
      "epoch": 0.5560513215619345,
      "grad_norm": 3.1895177364349365,
      "learning_rate": 2.347826086956522e-06,
      "loss": 5.0272,
      "step": 36600
    },
    {
      "epoch": 0.5560513215619345,
      "eval_loss": 4.872635364532471,
      "eval_runtime": 194.0337,
      "eval_samples_per_second": 51.537,
      "eval_steps_per_second": 6.442,
      "step": 36600
    },
    {
      "epoch": 0.5575705874678414,
      "grad_norm": 2.474367141723633,
      "learning_rate": 2.337792642140468e-06,
      "loss": 5.0285,
      "step": 36700
    },
    {
      "epoch": 0.5575705874678414,
      "eval_loss": 4.866065502166748,
      "eval_runtime": 193.983,
      "eval_samples_per_second": 51.551,
      "eval_steps_per_second": 6.444,
      "step": 36700
    },
    {
      "epoch": 0.5590898533737484,
      "grad_norm": 3.0734000205993652,
      "learning_rate": 2.327759197324415e-06,
      "loss": 5.0238,
      "step": 36800
    },
    {
      "epoch": 0.5590898533737484,
      "eval_loss": 4.873917102813721,
      "eval_runtime": 193.8114,
      "eval_samples_per_second": 51.597,
      "eval_steps_per_second": 6.45,
      "step": 36800
    },
    {
      "epoch": 0.5606091192796553,
      "grad_norm": 2.379478931427002,
      "learning_rate": 2.3177257525083613e-06,
      "loss": 5.0225,
      "step": 36900
    },
    {
      "epoch": 0.5606091192796553,
      "eval_loss": 4.864801406860352,
      "eval_runtime": 193.8549,
      "eval_samples_per_second": 51.585,
      "eval_steps_per_second": 6.448,
      "step": 36900
    },
    {
      "epoch": 0.5621283851855622,
      "grad_norm": 2.6084952354431152,
      "learning_rate": 2.307692307692308e-06,
      "loss": 5.0177,
      "step": 37000
    },
    {
      "epoch": 0.5621283851855622,
      "eval_loss": 4.863184452056885,
      "eval_runtime": 193.8212,
      "eval_samples_per_second": 51.594,
      "eval_steps_per_second": 6.449,
      "step": 37000
    },
    {
      "epoch": 0.5636476510914691,
      "grad_norm": 2.194261312484741,
      "learning_rate": 2.2976588628762544e-06,
      "loss": 5.0167,
      "step": 37100
    },
    {
      "epoch": 0.5636476510914691,
      "eval_loss": 4.855440139770508,
      "eval_runtime": 193.8552,
      "eval_samples_per_second": 51.585,
      "eval_steps_per_second": 6.448,
      "step": 37100
    },
    {
      "epoch": 0.5651669169973761,
      "grad_norm": 2.195667028427124,
      "learning_rate": 2.2876254180602008e-06,
      "loss": 5.0148,
      "step": 37200
    },
    {
      "epoch": 0.5651669169973761,
      "eval_loss": 4.857753753662109,
      "eval_runtime": 193.61,
      "eval_samples_per_second": 51.65,
      "eval_steps_per_second": 6.456,
      "step": 37200
    },
    {
      "epoch": 0.566686182903283,
      "grad_norm": 2.308091402053833,
      "learning_rate": 2.2775919732441475e-06,
      "loss": 5.0152,
      "step": 37300
    },
    {
      "epoch": 0.566686182903283,
      "eval_loss": 4.850945949554443,
      "eval_runtime": 193.675,
      "eval_samples_per_second": 51.633,
      "eval_steps_per_second": 6.454,
      "step": 37300
    },
    {
      "epoch": 0.5682054488091899,
      "grad_norm": 1.5866217613220215,
      "learning_rate": 2.267558528428094e-06,
      "loss": 5.0086,
      "step": 37400
    },
    {
      "epoch": 0.5682054488091899,
      "eval_loss": 4.856834411621094,
      "eval_runtime": 194.0621,
      "eval_samples_per_second": 51.53,
      "eval_steps_per_second": 6.441,
      "step": 37400
    },
    {
      "epoch": 0.5697247147150968,
      "grad_norm": 2.3778269290924072,
      "learning_rate": 2.25752508361204e-06,
      "loss": 5.008,
      "step": 37500
    },
    {
      "epoch": 0.5697247147150968,
      "eval_loss": 4.849526405334473,
      "eval_runtime": 193.9807,
      "eval_samples_per_second": 51.552,
      "eval_steps_per_second": 6.444,
      "step": 37500
    },
    {
      "epoch": 0.5712439806210038,
      "grad_norm": 2.434232234954834,
      "learning_rate": 2.2474916387959865e-06,
      "loss": 5.0049,
      "step": 37600
    },
    {
      "epoch": 0.5712439806210038,
      "eval_loss": 4.849723815917969,
      "eval_runtime": 194.1152,
      "eval_samples_per_second": 51.516,
      "eval_steps_per_second": 6.439,
      "step": 37600
    },
    {
      "epoch": 0.5727632465269107,
      "grad_norm": 1.9899414777755737,
      "learning_rate": 2.237458193979933e-06,
      "loss": 5.0034,
      "step": 37700
    },
    {
      "epoch": 0.5727632465269107,
      "eval_loss": 4.845240592956543,
      "eval_runtime": 194.1331,
      "eval_samples_per_second": 51.511,
      "eval_steps_per_second": 6.439,
      "step": 37700
    },
    {
      "epoch": 0.5742825124328176,
      "grad_norm": 2.168919086456299,
      "learning_rate": 2.2274247491638796e-06,
      "loss": 4.9989,
      "step": 37800
    },
    {
      "epoch": 0.5742825124328176,
      "eval_loss": 4.840480327606201,
      "eval_runtime": 194.2185,
      "eval_samples_per_second": 51.488,
      "eval_steps_per_second": 6.436,
      "step": 37800
    },
    {
      "epoch": 0.5758017783387245,
      "grad_norm": 2.4156546592712402,
      "learning_rate": 2.217391304347826e-06,
      "loss": 4.9981,
      "step": 37900
    },
    {
      "epoch": 0.5758017783387245,
      "eval_loss": 4.837850570678711,
      "eval_runtime": 194.2958,
      "eval_samples_per_second": 51.468,
      "eval_steps_per_second": 6.433,
      "step": 37900
    },
    {
      "epoch": 0.5773210442446315,
      "grad_norm": 2.725648880004883,
      "learning_rate": 2.2073578595317723e-06,
      "loss": 4.9999,
      "step": 38000
    },
    {
      "epoch": 0.5773210442446315,
      "eval_loss": 4.840028285980225,
      "eval_runtime": 194.1552,
      "eval_samples_per_second": 51.505,
      "eval_steps_per_second": 6.438,
      "step": 38000
    },
    {
      "epoch": 0.5788403101505384,
      "grad_norm": 2.447983503341675,
      "learning_rate": 2.197324414715719e-06,
      "loss": 4.9909,
      "step": 38100
    },
    {
      "epoch": 0.5788403101505384,
      "eval_loss": 4.840633392333984,
      "eval_runtime": 200.6709,
      "eval_samples_per_second": 49.833,
      "eval_steps_per_second": 6.229,
      "step": 38100
    },
    {
      "epoch": 0.5803595760564453,
      "grad_norm": 2.5275213718414307,
      "learning_rate": 2.1872909698996654e-06,
      "loss": 4.9924,
      "step": 38200
    },
    {
      "epoch": 0.5803595760564453,
      "eval_loss": 4.838108539581299,
      "eval_runtime": 194.1742,
      "eval_samples_per_second": 51.5,
      "eval_steps_per_second": 6.438,
      "step": 38200
    },
    {
      "epoch": 0.5818788419623522,
      "grad_norm": 3.0799427032470703,
      "learning_rate": 2.177257525083612e-06,
      "loss": 4.9892,
      "step": 38300
    },
    {
      "epoch": 0.5818788419623522,
      "eval_loss": 4.830769062042236,
      "eval_runtime": 194.1344,
      "eval_samples_per_second": 51.511,
      "eval_steps_per_second": 6.439,
      "step": 38300
    },
    {
      "epoch": 0.5833981078682592,
      "grad_norm": 2.262266159057617,
      "learning_rate": 2.1672240802675585e-06,
      "loss": 4.9869,
      "step": 38400
    },
    {
      "epoch": 0.5833981078682592,
      "eval_loss": 4.82758903503418,
      "eval_runtime": 194.1511,
      "eval_samples_per_second": 51.506,
      "eval_steps_per_second": 6.438,
      "step": 38400
    },
    {
      "epoch": 0.5849173737741661,
      "grad_norm": 2.2345926761627197,
      "learning_rate": 2.157190635451505e-06,
      "loss": 4.9879,
      "step": 38500
    },
    {
      "epoch": 0.5849173737741661,
      "eval_loss": 4.826181888580322,
      "eval_runtime": 194.2128,
      "eval_samples_per_second": 51.49,
      "eval_steps_per_second": 6.436,
      "step": 38500
    },
    {
      "epoch": 0.586436639680073,
      "grad_norm": 1.8996378183364868,
      "learning_rate": 2.1471571906354516e-06,
      "loss": 4.9854,
      "step": 38600
    },
    {
      "epoch": 0.586436639680073,
      "eval_loss": 4.823826789855957,
      "eval_runtime": 193.9959,
      "eval_samples_per_second": 51.547,
      "eval_steps_per_second": 6.443,
      "step": 38600
    },
    {
      "epoch": 0.5879559055859799,
      "grad_norm": 2.0965209007263184,
      "learning_rate": 2.137123745819398e-06,
      "loss": 4.9833,
      "step": 38700
    },
    {
      "epoch": 0.5879559055859799,
      "eval_loss": 4.819667816162109,
      "eval_runtime": 194.1201,
      "eval_samples_per_second": 51.515,
      "eval_steps_per_second": 6.439,
      "step": 38700
    },
    {
      "epoch": 0.5894751714918869,
      "grad_norm": 2.005686044692993,
      "learning_rate": 2.1270903010033443e-06,
      "loss": 4.9753,
      "step": 38800
    },
    {
      "epoch": 0.5894751714918869,
      "eval_loss": 4.818215847015381,
      "eval_runtime": 194.3711,
      "eval_samples_per_second": 51.448,
      "eval_steps_per_second": 6.431,
      "step": 38800
    },
    {
      "epoch": 0.5909944373977938,
      "grad_norm": 2.056711196899414,
      "learning_rate": 2.117056856187291e-06,
      "loss": 4.9729,
      "step": 38900
    },
    {
      "epoch": 0.5909944373977938,
      "eval_loss": 4.815535068511963,
      "eval_runtime": 194.0241,
      "eval_samples_per_second": 51.54,
      "eval_steps_per_second": 6.442,
      "step": 38900
    },
    {
      "epoch": 0.5925137033037007,
      "grad_norm": 2.186563730239868,
      "learning_rate": 2.1070234113712374e-06,
      "loss": 4.9738,
      "step": 39000
    },
    {
      "epoch": 0.5925137033037007,
      "eval_loss": 4.811450958251953,
      "eval_runtime": 193.7645,
      "eval_samples_per_second": 51.609,
      "eval_steps_per_second": 6.451,
      "step": 39000
    },
    {
      "epoch": 0.5940329692096076,
      "grad_norm": 2.0862069129943848,
      "learning_rate": 2.0969899665551837e-06,
      "loss": 4.9714,
      "step": 39100
    },
    {
      "epoch": 0.5940329692096076,
      "eval_loss": 4.812065601348877,
      "eval_runtime": 193.9277,
      "eval_samples_per_second": 51.566,
      "eval_steps_per_second": 6.446,
      "step": 39100
    },
    {
      "epoch": 0.5955522351155146,
      "grad_norm": 2.3990869522094727,
      "learning_rate": 2.0869565217391305e-06,
      "loss": 4.9745,
      "step": 39200
    },
    {
      "epoch": 0.5955522351155146,
      "eval_loss": 4.809053421020508,
      "eval_runtime": 194.0213,
      "eval_samples_per_second": 51.541,
      "eval_steps_per_second": 6.443,
      "step": 39200
    },
    {
      "epoch": 0.5970715010214215,
      "grad_norm": 2.380688428878784,
      "learning_rate": 2.076923076923077e-06,
      "loss": 4.9709,
      "step": 39300
    },
    {
      "epoch": 0.5970715010214215,
      "eval_loss": 4.810598373413086,
      "eval_runtime": 193.7901,
      "eval_samples_per_second": 51.602,
      "eval_steps_per_second": 6.45,
      "step": 39300
    },
    {
      "epoch": 0.5985907669273284,
      "grad_norm": 2.6398425102233887,
      "learning_rate": 2.0668896321070236e-06,
      "loss": 4.967,
      "step": 39400
    },
    {
      "epoch": 0.5985907669273284,
      "eval_loss": 4.807140827178955,
      "eval_runtime": 193.6791,
      "eval_samples_per_second": 51.632,
      "eval_steps_per_second": 6.454,
      "step": 39400
    },
    {
      "epoch": 0.6001100328332353,
      "grad_norm": 2.365203619003296,
      "learning_rate": 2.05685618729097e-06,
      "loss": 4.9623,
      "step": 39500
    },
    {
      "epoch": 0.6001100328332353,
      "eval_loss": 4.804749011993408,
      "eval_runtime": 193.728,
      "eval_samples_per_second": 51.619,
      "eval_steps_per_second": 6.452,
      "step": 39500
    },
    {
      "epoch": 0.6016292987391423,
      "grad_norm": 2.6509780883789062,
      "learning_rate": 2.0468227424749163e-06,
      "loss": 4.963,
      "step": 39600
    },
    {
      "epoch": 0.6016292987391423,
      "eval_loss": 4.8039093017578125,
      "eval_runtime": 194.0108,
      "eval_samples_per_second": 51.544,
      "eval_steps_per_second": 6.443,
      "step": 39600
    },
    {
      "epoch": 0.6031485646450492,
      "grad_norm": 2.182466506958008,
      "learning_rate": 2.036789297658863e-06,
      "loss": 4.9585,
      "step": 39700
    },
    {
      "epoch": 0.6031485646450492,
      "eval_loss": 4.798705577850342,
      "eval_runtime": 194.1051,
      "eval_samples_per_second": 51.518,
      "eval_steps_per_second": 6.44,
      "step": 39700
    },
    {
      "epoch": 0.6046678305509561,
      "grad_norm": 1.9312145709991455,
      "learning_rate": 2.0267558528428094e-06,
      "loss": 4.9604,
      "step": 39800
    },
    {
      "epoch": 0.6046678305509561,
      "eval_loss": 4.799111843109131,
      "eval_runtime": 194.0025,
      "eval_samples_per_second": 51.546,
      "eval_steps_per_second": 6.443,
      "step": 39800
    },
    {
      "epoch": 0.606187096456863,
      "grad_norm": 2.0514976978302,
      "learning_rate": 2.0167224080267557e-06,
      "loss": 4.9551,
      "step": 39900
    },
    {
      "epoch": 0.606187096456863,
      "eval_loss": 4.792530536651611,
      "eval_runtime": 194.0231,
      "eval_samples_per_second": 51.54,
      "eval_steps_per_second": 6.443,
      "step": 39900
    },
    {
      "epoch": 0.60770636236277,
      "grad_norm": 2.4416747093200684,
      "learning_rate": 2.0066889632107025e-06,
      "loss": 4.9522,
      "step": 40000
    },
    {
      "epoch": 0.60770636236277,
      "eval_loss": 4.7944655418396,
      "eval_runtime": 194.2247,
      "eval_samples_per_second": 51.487,
      "eval_steps_per_second": 6.436,
      "step": 40000
    },
    {
      "epoch": 0.6092256282686769,
      "grad_norm": 2.400484561920166,
      "learning_rate": 1.996655518394649e-06,
      "loss": 4.9543,
      "step": 40100
    },
    {
      "epoch": 0.6092256282686769,
      "eval_loss": 4.793302059173584,
      "eval_runtime": 194.2542,
      "eval_samples_per_second": 51.479,
      "eval_steps_per_second": 6.435,
      "step": 40100
    },
    {
      "epoch": 0.6107448941745838,
      "grad_norm": 1.9967873096466064,
      "learning_rate": 1.986622073578595e-06,
      "loss": 4.9507,
      "step": 40200
    },
    {
      "epoch": 0.6107448941745838,
      "eval_loss": 4.793440818786621,
      "eval_runtime": 194.3425,
      "eval_samples_per_second": 51.456,
      "eval_steps_per_second": 6.432,
      "step": 40200
    },
    {
      "epoch": 0.6122641600804907,
      "grad_norm": 1.917490839958191,
      "learning_rate": 1.976588628762542e-06,
      "loss": 4.9505,
      "step": 40300
    },
    {
      "epoch": 0.6122641600804907,
      "eval_loss": 4.786988258361816,
      "eval_runtime": 194.1703,
      "eval_samples_per_second": 51.501,
      "eval_steps_per_second": 6.438,
      "step": 40300
    },
    {
      "epoch": 0.6137834259863977,
      "grad_norm": 2.4164531230926514,
      "learning_rate": 1.9665551839464883e-06,
      "loss": 4.9423,
      "step": 40400
    },
    {
      "epoch": 0.6137834259863977,
      "eval_loss": 4.786272048950195,
      "eval_runtime": 194.6058,
      "eval_samples_per_second": 51.386,
      "eval_steps_per_second": 6.423,
      "step": 40400
    },
    {
      "epoch": 0.6153026918923046,
      "grad_norm": 2.5412399768829346,
      "learning_rate": 1.956521739130435e-06,
      "loss": 4.9447,
      "step": 40500
    },
    {
      "epoch": 0.6153026918923046,
      "eval_loss": 4.785825729370117,
      "eval_runtime": 194.2484,
      "eval_samples_per_second": 51.48,
      "eval_steps_per_second": 6.435,
      "step": 40500
    },
    {
      "epoch": 0.6168219577982115,
      "grad_norm": 2.2212436199188232,
      "learning_rate": 1.9464882943143814e-06,
      "loss": 4.9432,
      "step": 40600
    },
    {
      "epoch": 0.6168219577982115,
      "eval_loss": 4.7824625968933105,
      "eval_runtime": 194.1967,
      "eval_samples_per_second": 51.494,
      "eval_steps_per_second": 6.437,
      "step": 40600
    },
    {
      "epoch": 0.6183412237041184,
      "grad_norm": 2.1287331581115723,
      "learning_rate": 1.9364548494983277e-06,
      "loss": 4.9416,
      "step": 40700
    },
    {
      "epoch": 0.6183412237041184,
      "eval_loss": 4.776528358459473,
      "eval_runtime": 194.1119,
      "eval_samples_per_second": 51.517,
      "eval_steps_per_second": 6.44,
      "step": 40700
    },
    {
      "epoch": 0.6198604896100254,
      "grad_norm": 1.8793989419937134,
      "learning_rate": 1.9264214046822745e-06,
      "loss": 4.9357,
      "step": 40800
    },
    {
      "epoch": 0.6198604896100254,
      "eval_loss": 4.779613494873047,
      "eval_runtime": 194.0243,
      "eval_samples_per_second": 51.54,
      "eval_steps_per_second": 6.442,
      "step": 40800
    },
    {
      "epoch": 0.6213797555159323,
      "grad_norm": 1.943474531173706,
      "learning_rate": 1.916387959866221e-06,
      "loss": 4.9389,
      "step": 40900
    },
    {
      "epoch": 0.6213797555159323,
      "eval_loss": 4.774796009063721,
      "eval_runtime": 194.066,
      "eval_samples_per_second": 51.529,
      "eval_steps_per_second": 6.441,
      "step": 40900
    },
    {
      "epoch": 0.6228990214218392,
      "grad_norm": 2.138035774230957,
      "learning_rate": 1.9063545150501674e-06,
      "loss": 4.9344,
      "step": 41000
    },
    {
      "epoch": 0.6228990214218392,
      "eval_loss": 4.774413108825684,
      "eval_runtime": 194.289,
      "eval_samples_per_second": 51.47,
      "eval_steps_per_second": 6.434,
      "step": 41000
    },
    {
      "epoch": 0.6244182873277461,
      "grad_norm": 2.1911377906799316,
      "learning_rate": 1.896321070234114e-06,
      "loss": 4.9307,
      "step": 41100
    },
    {
      "epoch": 0.6244182873277461,
      "eval_loss": 4.7724833488464355,
      "eval_runtime": 194.0879,
      "eval_samples_per_second": 51.523,
      "eval_steps_per_second": 6.44,
      "step": 41100
    },
    {
      "epoch": 0.6259375532336531,
      "grad_norm": 2.186774730682373,
      "learning_rate": 1.8862876254180603e-06,
      "loss": 4.9316,
      "step": 41200
    },
    {
      "epoch": 0.6259375532336531,
      "eval_loss": 4.7727203369140625,
      "eval_runtime": 193.9834,
      "eval_samples_per_second": 51.551,
      "eval_steps_per_second": 6.444,
      "step": 41200
    },
    {
      "epoch": 0.62745681913956,
      "grad_norm": 2.706834554672241,
      "learning_rate": 1.8762541806020068e-06,
      "loss": 4.9244,
      "step": 41300
    },
    {
      "epoch": 0.62745681913956,
      "eval_loss": 4.769220352172852,
      "eval_runtime": 193.833,
      "eval_samples_per_second": 51.591,
      "eval_steps_per_second": 6.449,
      "step": 41300
    },
    {
      "epoch": 0.6289760850454669,
      "grad_norm": 2.0782527923583984,
      "learning_rate": 1.8662207357859534e-06,
      "loss": 4.9308,
      "step": 41400
    },
    {
      "epoch": 0.6289760850454669,
      "eval_loss": 4.769233703613281,
      "eval_runtime": 193.7092,
      "eval_samples_per_second": 51.624,
      "eval_steps_per_second": 6.453,
      "step": 41400
    },
    {
      "epoch": 0.6304953509513738,
      "grad_norm": 2.107680559158325,
      "learning_rate": 1.8561872909699e-06,
      "loss": 4.9286,
      "step": 41500
    },
    {
      "epoch": 0.6304953509513738,
      "eval_loss": 4.765684604644775,
      "eval_runtime": 193.8101,
      "eval_samples_per_second": 51.597,
      "eval_steps_per_second": 6.45,
      "step": 41500
    },
    {
      "epoch": 0.6320146168572808,
      "grad_norm": 1.861700177192688,
      "learning_rate": 1.8461538461538462e-06,
      "loss": 4.925,
      "step": 41600
    },
    {
      "epoch": 0.6320146168572808,
      "eval_loss": 4.761124134063721,
      "eval_runtime": 194.0209,
      "eval_samples_per_second": 51.541,
      "eval_steps_per_second": 6.443,
      "step": 41600
    },
    {
      "epoch": 0.6335338827631877,
      "grad_norm": 2.256538152694702,
      "learning_rate": 1.8361204013377928e-06,
      "loss": 4.9214,
      "step": 41700
    },
    {
      "epoch": 0.6335338827631877,
      "eval_loss": 4.761186122894287,
      "eval_runtime": 193.8553,
      "eval_samples_per_second": 51.585,
      "eval_steps_per_second": 6.448,
      "step": 41700
    },
    {
      "epoch": 0.6350531486690946,
      "grad_norm": 1.720786213874817,
      "learning_rate": 1.8260869565217394e-06,
      "loss": 4.9188,
      "step": 41800
    },
    {
      "epoch": 0.6350531486690946,
      "eval_loss": 4.75638484954834,
      "eval_runtime": 194.0169,
      "eval_samples_per_second": 51.542,
      "eval_steps_per_second": 6.443,
      "step": 41800
    },
    {
      "epoch": 0.6365724145750015,
      "grad_norm": 1.9223599433898926,
      "learning_rate": 1.8160535117056857e-06,
      "loss": 4.9162,
      "step": 41900
    },
    {
      "epoch": 0.6365724145750015,
      "eval_loss": 4.757732391357422,
      "eval_runtime": 194.1596,
      "eval_samples_per_second": 51.504,
      "eval_steps_per_second": 6.438,
      "step": 41900
    },
    {
      "epoch": 0.6380916804809085,
      "grad_norm": 1.7804436683654785,
      "learning_rate": 1.8060200668896322e-06,
      "loss": 4.9158,
      "step": 42000
    },
    {
      "epoch": 0.6380916804809085,
      "eval_loss": 4.757546424865723,
      "eval_runtime": 194.2282,
      "eval_samples_per_second": 51.486,
      "eval_steps_per_second": 6.436,
      "step": 42000
    },
    {
      "epoch": 0.6396109463868154,
      "grad_norm": 1.9580631256103516,
      "learning_rate": 1.7959866220735788e-06,
      "loss": 4.9095,
      "step": 42100
    },
    {
      "epoch": 0.6396109463868154,
      "eval_loss": 4.752386093139648,
      "eval_runtime": 194.1745,
      "eval_samples_per_second": 51.5,
      "eval_steps_per_second": 6.438,
      "step": 42100
    },
    {
      "epoch": 0.6411302122927223,
      "grad_norm": 2.1417272090911865,
      "learning_rate": 1.7859531772575253e-06,
      "loss": 4.9134,
      "step": 42200
    },
    {
      "epoch": 0.6411302122927223,
      "eval_loss": 4.749510765075684,
      "eval_runtime": 194.1938,
      "eval_samples_per_second": 51.495,
      "eval_steps_per_second": 6.437,
      "step": 42200
    },
    {
      "epoch": 0.6426494781986292,
      "grad_norm": 2.4839389324188232,
      "learning_rate": 1.7759197324414717e-06,
      "loss": 4.9116,
      "step": 42300
    },
    {
      "epoch": 0.6426494781986292,
      "eval_loss": 4.752679824829102,
      "eval_runtime": 194.1618,
      "eval_samples_per_second": 51.503,
      "eval_steps_per_second": 6.438,
      "step": 42300
    },
    {
      "epoch": 0.6441687441045362,
      "grad_norm": 2.5596067905426025,
      "learning_rate": 1.7658862876254182e-06,
      "loss": 4.9078,
      "step": 42400
    },
    {
      "epoch": 0.6441687441045362,
      "eval_loss": 4.742520332336426,
      "eval_runtime": 194.1697,
      "eval_samples_per_second": 51.501,
      "eval_steps_per_second": 6.438,
      "step": 42400
    },
    {
      "epoch": 0.6456880100104431,
      "grad_norm": 1.7020114660263062,
      "learning_rate": 1.7558528428093648e-06,
      "loss": 4.9063,
      "step": 42500
    },
    {
      "epoch": 0.6456880100104431,
      "eval_loss": 4.745018005371094,
      "eval_runtime": 194.2677,
      "eval_samples_per_second": 51.475,
      "eval_steps_per_second": 6.434,
      "step": 42500
    },
    {
      "epoch": 0.64720727591635,
      "grad_norm": 1.83507239818573,
      "learning_rate": 1.745819397993311e-06,
      "loss": 4.9067,
      "step": 42600
    },
    {
      "epoch": 0.64720727591635,
      "eval_loss": 4.749469757080078,
      "eval_runtime": 194.1266,
      "eval_samples_per_second": 51.513,
      "eval_steps_per_second": 6.439,
      "step": 42600
    },
    {
      "epoch": 0.6487265418222569,
      "grad_norm": 1.7852286100387573,
      "learning_rate": 1.7357859531772575e-06,
      "loss": 4.909,
      "step": 42700
    },
    {
      "epoch": 0.6487265418222569,
      "eval_loss": 4.74142599105835,
      "eval_runtime": 194.3029,
      "eval_samples_per_second": 51.466,
      "eval_steps_per_second": 6.433,
      "step": 42700
    },
    {
      "epoch": 0.6502458077281639,
      "grad_norm": 1.9356688261032104,
      "learning_rate": 1.7257525083612038e-06,
      "loss": 4.8968,
      "step": 42800
    },
    {
      "epoch": 0.6502458077281639,
      "eval_loss": 4.742361068725586,
      "eval_runtime": 194.1912,
      "eval_samples_per_second": 51.496,
      "eval_steps_per_second": 6.437,
      "step": 42800
    },
    {
      "epoch": 0.6517650736340708,
      "grad_norm": 2.4372880458831787,
      "learning_rate": 1.7157190635451504e-06,
      "loss": 4.9034,
      "step": 42900
    },
    {
      "epoch": 0.6517650736340708,
      "eval_loss": 4.737247467041016,
      "eval_runtime": 194.1333,
      "eval_samples_per_second": 51.511,
      "eval_steps_per_second": 6.439,
      "step": 42900
    },
    {
      "epoch": 0.6532843395399777,
      "grad_norm": 1.9416236877441406,
      "learning_rate": 1.705685618729097e-06,
      "loss": 4.8978,
      "step": 43000
    },
    {
      "epoch": 0.6532843395399777,
      "eval_loss": 4.7349853515625,
      "eval_runtime": 194.1706,
      "eval_samples_per_second": 51.501,
      "eval_steps_per_second": 6.438,
      "step": 43000
    },
    {
      "epoch": 0.6548036054458846,
      "grad_norm": 2.3514084815979004,
      "learning_rate": 1.6956521739130435e-06,
      "loss": 4.8963,
      "step": 43100
    },
    {
      "epoch": 0.6548036054458846,
      "eval_loss": 4.7388434410095215,
      "eval_runtime": 194.3316,
      "eval_samples_per_second": 51.458,
      "eval_steps_per_second": 6.432,
      "step": 43100
    },
    {
      "epoch": 0.6563228713517916,
      "grad_norm": 2.028310537338257,
      "learning_rate": 1.6856187290969898e-06,
      "loss": 4.8961,
      "step": 43200
    },
    {
      "epoch": 0.6563228713517916,
      "eval_loss": 4.735996723175049,
      "eval_runtime": 194.0261,
      "eval_samples_per_second": 51.539,
      "eval_steps_per_second": 6.442,
      "step": 43200
    },
    {
      "epoch": 0.6578421372576985,
      "grad_norm": 2.360321521759033,
      "learning_rate": 1.6755852842809363e-06,
      "loss": 4.8892,
      "step": 43300
    },
    {
      "epoch": 0.6578421372576985,
      "eval_loss": 4.731908798217773,
      "eval_runtime": 194.2382,
      "eval_samples_per_second": 51.483,
      "eval_steps_per_second": 6.435,
      "step": 43300
    },
    {
      "epoch": 0.6593614031636054,
      "grad_norm": 2.0614426136016846,
      "learning_rate": 1.665551839464883e-06,
      "loss": 4.8911,
      "step": 43400
    },
    {
      "epoch": 0.6593614031636054,
      "eval_loss": 4.727632999420166,
      "eval_runtime": 194.0495,
      "eval_samples_per_second": 51.533,
      "eval_steps_per_second": 6.442,
      "step": 43400
    },
    {
      "epoch": 0.6608806690695123,
      "grad_norm": 2.058509349822998,
      "learning_rate": 1.6555183946488294e-06,
      "loss": 4.8883,
      "step": 43500
    },
    {
      "epoch": 0.6608806690695123,
      "eval_loss": 4.72844123840332,
      "eval_runtime": 194.0456,
      "eval_samples_per_second": 51.534,
      "eval_steps_per_second": 6.442,
      "step": 43500
    },
    {
      "epoch": 0.6623999349754193,
      "grad_norm": 1.7108250856399536,
      "learning_rate": 1.6454849498327758e-06,
      "loss": 4.8866,
      "step": 43600
    },
    {
      "epoch": 0.6623999349754193,
      "eval_loss": 4.726889133453369,
      "eval_runtime": 193.8998,
      "eval_samples_per_second": 51.573,
      "eval_steps_per_second": 6.447,
      "step": 43600
    },
    {
      "epoch": 0.6639192008813262,
      "grad_norm": 1.871711254119873,
      "learning_rate": 1.6354515050167223e-06,
      "loss": 4.888,
      "step": 43700
    },
    {
      "epoch": 0.6639192008813262,
      "eval_loss": 4.726442813873291,
      "eval_runtime": 193.895,
      "eval_samples_per_second": 51.574,
      "eval_steps_per_second": 6.447,
      "step": 43700
    },
    {
      "epoch": 0.6654384667872331,
      "grad_norm": 1.9516098499298096,
      "learning_rate": 1.6254180602006689e-06,
      "loss": 4.887,
      "step": 43800
    },
    {
      "epoch": 0.6654384667872331,
      "eval_loss": 4.72707986831665,
      "eval_runtime": 193.7412,
      "eval_samples_per_second": 51.615,
      "eval_steps_per_second": 6.452,
      "step": 43800
    },
    {
      "epoch": 0.66695773269314,
      "grad_norm": 1.870690107345581,
      "learning_rate": 1.6153846153846154e-06,
      "loss": 4.8794,
      "step": 43900
    },
    {
      "epoch": 0.66695773269314,
      "eval_loss": 4.7214789390563965,
      "eval_runtime": 193.7498,
      "eval_samples_per_second": 51.613,
      "eval_steps_per_second": 6.452,
      "step": 43900
    },
    {
      "epoch": 0.668476998599047,
      "grad_norm": 1.8577009439468384,
      "learning_rate": 1.6053511705685618e-06,
      "loss": 4.8803,
      "step": 44000
    },
    {
      "epoch": 0.668476998599047,
      "eval_loss": 4.719671726226807,
      "eval_runtime": 193.9858,
      "eval_samples_per_second": 51.55,
      "eval_steps_per_second": 6.444,
      "step": 44000
    },
    {
      "epoch": 0.6699962645049539,
      "grad_norm": 2.1134140491485596,
      "learning_rate": 1.5953177257525083e-06,
      "loss": 4.879,
      "step": 44100
    },
    {
      "epoch": 0.6699962645049539,
      "eval_loss": 4.717536926269531,
      "eval_runtime": 193.7322,
      "eval_samples_per_second": 51.618,
      "eval_steps_per_second": 6.452,
      "step": 44100
    },
    {
      "epoch": 0.6715155304108608,
      "grad_norm": 2.10524845123291,
      "learning_rate": 1.5852842809364549e-06,
      "loss": 4.8782,
      "step": 44200
    },
    {
      "epoch": 0.6715155304108608,
      "eval_loss": 4.712420463562012,
      "eval_runtime": 194.1278,
      "eval_samples_per_second": 51.512,
      "eval_steps_per_second": 6.439,
      "step": 44200
    },
    {
      "epoch": 0.6730347963167677,
      "grad_norm": 1.9747872352600098,
      "learning_rate": 1.5752508361204012e-06,
      "loss": 4.8782,
      "step": 44300
    },
    {
      "epoch": 0.6730347963167677,
      "eval_loss": 4.716573238372803,
      "eval_runtime": 194.2422,
      "eval_samples_per_second": 51.482,
      "eval_steps_per_second": 6.435,
      "step": 44300
    },
    {
      "epoch": 0.6745540622226747,
      "grad_norm": 1.9124640226364136,
      "learning_rate": 1.5652173913043478e-06,
      "loss": 4.8808,
      "step": 44400
    },
    {
      "epoch": 0.6745540622226747,
      "eval_loss": 4.715909481048584,
      "eval_runtime": 199.7142,
      "eval_samples_per_second": 50.072,
      "eval_steps_per_second": 6.259,
      "step": 44400
    },
    {
      "epoch": 0.6760733281285816,
      "grad_norm": 1.971144676208496,
      "learning_rate": 1.5551839464882943e-06,
      "loss": 4.8739,
      "step": 44500
    },
    {
      "epoch": 0.6760733281285816,
      "eval_loss": 4.714458465576172,
      "eval_runtime": 194.1832,
      "eval_samples_per_second": 51.498,
      "eval_steps_per_second": 6.437,
      "step": 44500
    },
    {
      "epoch": 0.6775925940344885,
      "grad_norm": 2.0993101596832275,
      "learning_rate": 1.5451505016722409e-06,
      "loss": 4.8733,
      "step": 44600
    },
    {
      "epoch": 0.6775925940344885,
      "eval_loss": 4.708896636962891,
      "eval_runtime": 194.1323,
      "eval_samples_per_second": 51.511,
      "eval_steps_per_second": 6.439,
      "step": 44600
    },
    {
      "epoch": 0.6791118599403954,
      "grad_norm": 1.5517523288726807,
      "learning_rate": 1.5351170568561872e-06,
      "loss": 4.877,
      "step": 44700
    },
    {
      "epoch": 0.6791118599403954,
      "eval_loss": 4.706016540527344,
      "eval_runtime": 194.2224,
      "eval_samples_per_second": 51.487,
      "eval_steps_per_second": 6.436,
      "step": 44700
    },
    {
      "epoch": 0.6806311258463024,
      "grad_norm": 1.6051702499389648,
      "learning_rate": 1.5250836120401338e-06,
      "loss": 4.873,
      "step": 44800
    },
    {
      "epoch": 0.6806311258463024,
      "eval_loss": 4.71004581451416,
      "eval_runtime": 194.3369,
      "eval_samples_per_second": 51.457,
      "eval_steps_per_second": 6.432,
      "step": 44800
    },
    {
      "epoch": 0.6821503917522093,
      "grad_norm": 1.8578929901123047,
      "learning_rate": 1.5150501672240803e-06,
      "loss": 4.8645,
      "step": 44900
    },
    {
      "epoch": 0.6821503917522093,
      "eval_loss": 4.7041826248168945,
      "eval_runtime": 194.6352,
      "eval_samples_per_second": 51.378,
      "eval_steps_per_second": 6.422,
      "step": 44900
    },
    {
      "epoch": 0.6836696576581162,
      "grad_norm": 1.8288882970809937,
      "learning_rate": 1.5050167224080269e-06,
      "loss": 4.8717,
      "step": 45000
    },
    {
      "epoch": 0.6836696576581162,
      "eval_loss": 4.704262733459473,
      "eval_runtime": 194.5807,
      "eval_samples_per_second": 51.393,
      "eval_steps_per_second": 6.424,
      "step": 45000
    },
    {
      "epoch": 0.6851889235640231,
      "grad_norm": 1.766317367553711,
      "learning_rate": 1.4949832775919732e-06,
      "loss": 4.8658,
      "step": 45100
    },
    {
      "epoch": 0.6851889235640231,
      "eval_loss": 4.700209140777588,
      "eval_runtime": 194.2902,
      "eval_samples_per_second": 51.469,
      "eval_steps_per_second": 6.434,
      "step": 45100
    },
    {
      "epoch": 0.6867081894699301,
      "grad_norm": 2.1722605228424072,
      "learning_rate": 1.4849498327759198e-06,
      "loss": 4.868,
      "step": 45200
    },
    {
      "epoch": 0.6867081894699301,
      "eval_loss": 4.7045111656188965,
      "eval_runtime": 194.3122,
      "eval_samples_per_second": 51.464,
      "eval_steps_per_second": 6.433,
      "step": 45200
    },
    {
      "epoch": 0.688227455375837,
      "grad_norm": 2.2012276649475098,
      "learning_rate": 1.4749163879598663e-06,
      "loss": 4.861,
      "step": 45300
    },
    {
      "epoch": 0.688227455375837,
      "eval_loss": 4.699077606201172,
      "eval_runtime": 194.099,
      "eval_samples_per_second": 51.52,
      "eval_steps_per_second": 6.44,
      "step": 45300
    },
    {
      "epoch": 0.6897467212817439,
      "grad_norm": 1.9373100996017456,
      "learning_rate": 1.4648829431438129e-06,
      "loss": 4.8624,
      "step": 45400
    },
    {
      "epoch": 0.6897467212817439,
      "eval_loss": 4.699510097503662,
      "eval_runtime": 194.2648,
      "eval_samples_per_second": 51.476,
      "eval_steps_per_second": 6.435,
      "step": 45400
    },
    {
      "epoch": 0.6912659871876508,
      "grad_norm": 1.5436214208602905,
      "learning_rate": 1.4548494983277592e-06,
      "loss": 4.8669,
      "step": 45500
    },
    {
      "epoch": 0.6912659871876508,
      "eval_loss": 4.6950531005859375,
      "eval_runtime": 194.1491,
      "eval_samples_per_second": 51.507,
      "eval_steps_per_second": 6.438,
      "step": 45500
    },
    {
      "epoch": 0.6927852530935578,
      "grad_norm": 1.868397831916809,
      "learning_rate": 1.4448160535117058e-06,
      "loss": 4.8588,
      "step": 45600
    },
    {
      "epoch": 0.6927852530935578,
      "eval_loss": 4.699548244476318,
      "eval_runtime": 194.2333,
      "eval_samples_per_second": 51.484,
      "eval_steps_per_second": 6.436,
      "step": 45600
    },
    {
      "epoch": 0.6943045189994647,
      "grad_norm": 1.9601666927337646,
      "learning_rate": 1.4347826086956523e-06,
      "loss": 4.8583,
      "step": 45700
    },
    {
      "epoch": 0.6943045189994647,
      "eval_loss": 4.697216510772705,
      "eval_runtime": 194.113,
      "eval_samples_per_second": 51.516,
      "eval_steps_per_second": 6.44,
      "step": 45700
    },
    {
      "epoch": 0.6958237849053716,
      "grad_norm": 2.128359317779541,
      "learning_rate": 1.4247491638795989e-06,
      "loss": 4.8553,
      "step": 45800
    },
    {
      "epoch": 0.6958237849053716,
      "eval_loss": 4.695890426635742,
      "eval_runtime": 194.2141,
      "eval_samples_per_second": 51.49,
      "eval_steps_per_second": 6.436,
      "step": 45800
    },
    {
      "epoch": 0.6973430508112785,
      "grad_norm": 1.7737051248550415,
      "learning_rate": 1.4147157190635452e-06,
      "loss": 4.8552,
      "step": 45900
    },
    {
      "epoch": 0.6973430508112785,
      "eval_loss": 4.692898273468018,
      "eval_runtime": 194.0574,
      "eval_samples_per_second": 51.531,
      "eval_steps_per_second": 6.441,
      "step": 45900
    },
    {
      "epoch": 0.6988623167171855,
      "grad_norm": 1.8772127628326416,
      "learning_rate": 1.4046822742474917e-06,
      "loss": 4.8528,
      "step": 46000
    },
    {
      "epoch": 0.6988623167171855,
      "eval_loss": 4.690573215484619,
      "eval_runtime": 193.9137,
      "eval_samples_per_second": 51.569,
      "eval_steps_per_second": 6.446,
      "step": 46000
    },
    {
      "epoch": 0.7003815826230924,
      "grad_norm": 1.9277006387710571,
      "learning_rate": 1.3946488294314383e-06,
      "loss": 4.851,
      "step": 46100
    },
    {
      "epoch": 0.7003815826230924,
      "eval_loss": 4.688443183898926,
      "eval_runtime": 193.7729,
      "eval_samples_per_second": 51.607,
      "eval_steps_per_second": 6.451,
      "step": 46100
    },
    {
      "epoch": 0.7019008485289993,
      "grad_norm": 1.4775947332382202,
      "learning_rate": 1.3846153846153846e-06,
      "loss": 4.8477,
      "step": 46200
    },
    {
      "epoch": 0.7019008485289993,
      "eval_loss": 4.689602375030518,
      "eval_runtime": 193.799,
      "eval_samples_per_second": 51.6,
      "eval_steps_per_second": 6.45,
      "step": 46200
    },
    {
      "epoch": 0.7034201144349062,
      "grad_norm": 1.9227460622787476,
      "learning_rate": 1.374581939799331e-06,
      "loss": 4.8447,
      "step": 46300
    },
    {
      "epoch": 0.7034201144349062,
      "eval_loss": 4.6872076988220215,
      "eval_runtime": 193.971,
      "eval_samples_per_second": 51.554,
      "eval_steps_per_second": 6.444,
      "step": 46300
    },
    {
      "epoch": 0.7049393803408132,
      "grad_norm": 1.8744120597839355,
      "learning_rate": 1.3645484949832775e-06,
      "loss": 4.8443,
      "step": 46400
    },
    {
      "epoch": 0.7049393803408132,
      "eval_loss": 4.684128284454346,
      "eval_runtime": 193.7921,
      "eval_samples_per_second": 51.602,
      "eval_steps_per_second": 6.45,
      "step": 46400
    },
    {
      "epoch": 0.7064586462467201,
      "grad_norm": 1.858379602432251,
      "learning_rate": 1.354515050167224e-06,
      "loss": 4.8418,
      "step": 46500
    },
    {
      "epoch": 0.7064586462467201,
      "eval_loss": 4.681851387023926,
      "eval_runtime": 194.0781,
      "eval_samples_per_second": 51.526,
      "eval_steps_per_second": 6.441,
      "step": 46500
    },
    {
      "epoch": 0.707977912152627,
      "grad_norm": 1.8594979047775269,
      "learning_rate": 1.3444816053511706e-06,
      "loss": 4.8433,
      "step": 46600
    },
    {
      "epoch": 0.707977912152627,
      "eval_loss": 4.6782755851745605,
      "eval_runtime": 194.1927,
      "eval_samples_per_second": 51.495,
      "eval_steps_per_second": 6.437,
      "step": 46600
    },
    {
      "epoch": 0.7094971780585339,
      "grad_norm": 1.8931249380111694,
      "learning_rate": 1.334448160535117e-06,
      "loss": 4.8404,
      "step": 46700
    },
    {
      "epoch": 0.7094971780585339,
      "eval_loss": 4.683481216430664,
      "eval_runtime": 194.2623,
      "eval_samples_per_second": 51.477,
      "eval_steps_per_second": 6.435,
      "step": 46700
    },
    {
      "epoch": 0.7110164439644409,
      "grad_norm": 1.5091091394424438,
      "learning_rate": 1.3244147157190635e-06,
      "loss": 4.8423,
      "step": 46800
    },
    {
      "epoch": 0.7110164439644409,
      "eval_loss": 4.679195880889893,
      "eval_runtime": 194.1717,
      "eval_samples_per_second": 51.501,
      "eval_steps_per_second": 6.438,
      "step": 46800
    },
    {
      "epoch": 0.7125357098703478,
      "grad_norm": 1.5617057085037231,
      "learning_rate": 1.31438127090301e-06,
      "loss": 4.8384,
      "step": 46900
    },
    {
      "epoch": 0.7125357098703478,
      "eval_loss": 4.675555229187012,
      "eval_runtime": 195.1352,
      "eval_samples_per_second": 51.247,
      "eval_steps_per_second": 6.406,
      "step": 46900
    },
    {
      "epoch": 0.7140549757762547,
      "grad_norm": 1.5074530839920044,
      "learning_rate": 1.3043478260869566e-06,
      "loss": 4.8389,
      "step": 47000
    },
    {
      "epoch": 0.7140549757762547,
      "eval_loss": 4.67551851272583,
      "eval_runtime": 194.1856,
      "eval_samples_per_second": 51.497,
      "eval_steps_per_second": 6.437,
      "step": 47000
    },
    {
      "epoch": 0.7155742416821615,
      "grad_norm": 1.5850820541381836,
      "learning_rate": 1.294314381270903e-06,
      "loss": 4.8428,
      "step": 47100
    },
    {
      "epoch": 0.7155742416821615,
      "eval_loss": 4.677995681762695,
      "eval_runtime": 194.3756,
      "eval_samples_per_second": 51.447,
      "eval_steps_per_second": 6.431,
      "step": 47100
    },
    {
      "epoch": 0.7170935075880686,
      "grad_norm": 1.7918612957000732,
      "learning_rate": 1.2842809364548495e-06,
      "loss": 4.8399,
      "step": 47200
    },
    {
      "epoch": 0.7170935075880686,
      "eval_loss": 4.672911167144775,
      "eval_runtime": 194.224,
      "eval_samples_per_second": 51.487,
      "eval_steps_per_second": 6.436,
      "step": 47200
    },
    {
      "epoch": 0.7186127734939755,
      "grad_norm": 1.955620527267456,
      "learning_rate": 1.274247491638796e-06,
      "loss": 4.8338,
      "step": 47300
    },
    {
      "epoch": 0.7186127734939755,
      "eval_loss": 4.67067289352417,
      "eval_runtime": 194.1805,
      "eval_samples_per_second": 51.498,
      "eval_steps_per_second": 6.437,
      "step": 47300
    },
    {
      "epoch": 0.7201320393998824,
      "grad_norm": 1.994454264640808,
      "learning_rate": 1.2642140468227424e-06,
      "loss": 4.8314,
      "step": 47400
    },
    {
      "epoch": 0.7201320393998824,
      "eval_loss": 4.672824859619141,
      "eval_runtime": 194.2432,
      "eval_samples_per_second": 51.482,
      "eval_steps_per_second": 6.435,
      "step": 47400
    },
    {
      "epoch": 0.7216513053057892,
      "grad_norm": 1.8769866228103638,
      "learning_rate": 1.254180602006689e-06,
      "loss": 4.8321,
      "step": 47500
    },
    {
      "epoch": 0.7216513053057892,
      "eval_loss": 4.67031717300415,
      "eval_runtime": 194.2044,
      "eval_samples_per_second": 51.492,
      "eval_steps_per_second": 6.437,
      "step": 47500
    },
    {
      "epoch": 0.7231705712116963,
      "grad_norm": 1.7346811294555664,
      "learning_rate": 1.2441471571906355e-06,
      "loss": 4.8351,
      "step": 47600
    },
    {
      "epoch": 0.7231705712116963,
      "eval_loss": 4.667263031005859,
      "eval_runtime": 194.3279,
      "eval_samples_per_second": 51.459,
      "eval_steps_per_second": 6.432,
      "step": 47600
    },
    {
      "epoch": 0.7246898371176032,
      "grad_norm": 2.0054638385772705,
      "learning_rate": 1.234113712374582e-06,
      "loss": 4.8311,
      "step": 47700
    },
    {
      "epoch": 0.7246898371176032,
      "eval_loss": 4.670699119567871,
      "eval_runtime": 194.3103,
      "eval_samples_per_second": 51.464,
      "eval_steps_per_second": 6.433,
      "step": 47700
    },
    {
      "epoch": 0.72620910302351,
      "grad_norm": 1.9293532371520996,
      "learning_rate": 1.2240802675585284e-06,
      "loss": 4.8253,
      "step": 47800
    },
    {
      "epoch": 0.72620910302351,
      "eval_loss": 4.665504455566406,
      "eval_runtime": 194.5301,
      "eval_samples_per_second": 51.406,
      "eval_steps_per_second": 6.426,
      "step": 47800
    },
    {
      "epoch": 0.727728368929417,
      "grad_norm": 1.612265944480896,
      "learning_rate": 1.214046822742475e-06,
      "loss": 4.826,
      "step": 47900
    },
    {
      "epoch": 0.727728368929417,
      "eval_loss": 4.665849685668945,
      "eval_runtime": 194.1122,
      "eval_samples_per_second": 51.517,
      "eval_steps_per_second": 6.44,
      "step": 47900
    },
    {
      "epoch": 0.729247634835324,
      "grad_norm": 1.7139407396316528,
      "learning_rate": 1.2040133779264215e-06,
      "loss": 4.8267,
      "step": 48000
    },
    {
      "epoch": 0.729247634835324,
      "eval_loss": 4.663412570953369,
      "eval_runtime": 194.3177,
      "eval_samples_per_second": 51.462,
      "eval_steps_per_second": 6.433,
      "step": 48000
    },
    {
      "epoch": 0.7307669007412309,
      "grad_norm": 1.8362255096435547,
      "learning_rate": 1.193979933110368e-06,
      "loss": 4.826,
      "step": 48100
    },
    {
      "epoch": 0.7307669007412309,
      "eval_loss": 4.6637797355651855,
      "eval_runtime": 194.0467,
      "eval_samples_per_second": 51.534,
      "eval_steps_per_second": 6.442,
      "step": 48100
    },
    {
      "epoch": 0.7322861666471377,
      "grad_norm": 1.3808461427688599,
      "learning_rate": 1.1839464882943144e-06,
      "loss": 4.8203,
      "step": 48200
    },
    {
      "epoch": 0.7322861666471377,
      "eval_loss": 4.66359281539917,
      "eval_runtime": 194.0835,
      "eval_samples_per_second": 51.524,
      "eval_steps_per_second": 6.441,
      "step": 48200
    },
    {
      "epoch": 0.7338054325530446,
      "grad_norm": 2.090758800506592,
      "learning_rate": 1.173913043478261e-06,
      "loss": 4.8246,
      "step": 48300
    },
    {
      "epoch": 0.7338054325530446,
      "eval_loss": 4.658617973327637,
      "eval_runtime": 193.919,
      "eval_samples_per_second": 51.568,
      "eval_steps_per_second": 6.446,
      "step": 48300
    },
    {
      "epoch": 0.7353246984589517,
      "grad_norm": 1.410666584968567,
      "learning_rate": 1.1638795986622075e-06,
      "loss": 4.8198,
      "step": 48400
    },
    {
      "epoch": 0.7353246984589517,
      "eval_loss": 4.662432670593262,
      "eval_runtime": 193.8752,
      "eval_samples_per_second": 51.58,
      "eval_steps_per_second": 6.447,
      "step": 48400
    },
    {
      "epoch": 0.7368439643648586,
      "grad_norm": 1.5587624311447144,
      "learning_rate": 1.153846153846154e-06,
      "loss": 4.8185,
      "step": 48500
    },
    {
      "epoch": 0.7368439643648586,
      "eval_loss": 4.656804084777832,
      "eval_runtime": 193.773,
      "eval_samples_per_second": 51.607,
      "eval_steps_per_second": 6.451,
      "step": 48500
    },
    {
      "epoch": 0.7383632302707654,
      "grad_norm": 1.3816115856170654,
      "learning_rate": 1.1438127090301004e-06,
      "loss": 4.8168,
      "step": 48600
    },
    {
      "epoch": 0.7383632302707654,
      "eval_loss": 4.656231880187988,
      "eval_runtime": 193.8565,
      "eval_samples_per_second": 51.585,
      "eval_steps_per_second": 6.448,
      "step": 48600
    },
    {
      "epoch": 0.7398824961766723,
      "grad_norm": 1.927064299583435,
      "learning_rate": 1.133779264214047e-06,
      "loss": 4.8182,
      "step": 48700
    },
    {
      "epoch": 0.7398824961766723,
      "eval_loss": 4.656589031219482,
      "eval_runtime": 193.8744,
      "eval_samples_per_second": 51.58,
      "eval_steps_per_second": 6.447,
      "step": 48700
    },
    {
      "epoch": 0.7414017620825794,
      "grad_norm": 1.6699544191360474,
      "learning_rate": 1.1237458193979933e-06,
      "loss": 4.8185,
      "step": 48800
    },
    {
      "epoch": 0.7414017620825794,
      "eval_loss": 4.655017852783203,
      "eval_runtime": 193.8675,
      "eval_samples_per_second": 51.582,
      "eval_steps_per_second": 6.448,
      "step": 48800
    },
    {
      "epoch": 0.7429210279884862,
      "grad_norm": 1.3378312587738037,
      "learning_rate": 1.1137123745819398e-06,
      "loss": 4.815,
      "step": 48900
    },
    {
      "epoch": 0.7429210279884862,
      "eval_loss": 4.657501220703125,
      "eval_runtime": 194.1277,
      "eval_samples_per_second": 51.512,
      "eval_steps_per_second": 6.439,
      "step": 48900
    },
    {
      "epoch": 0.7444402938943931,
      "grad_norm": 1.6146018505096436,
      "learning_rate": 1.1036789297658862e-06,
      "loss": 4.8145,
      "step": 49000
    },
    {
      "epoch": 0.7444402938943931,
      "eval_loss": 4.6548943519592285,
      "eval_runtime": 194.2412,
      "eval_samples_per_second": 51.482,
      "eval_steps_per_second": 6.435,
      "step": 49000
    },
    {
      "epoch": 0.7459595598003,
      "grad_norm": 1.5952975749969482,
      "learning_rate": 1.0936454849498327e-06,
      "loss": 4.813,
      "step": 49100
    },
    {
      "epoch": 0.7459595598003,
      "eval_loss": 4.651684284210205,
      "eval_runtime": 194.2268,
      "eval_samples_per_second": 51.486,
      "eval_steps_per_second": 6.436,
      "step": 49100
    },
    {
      "epoch": 0.747478825706207,
      "grad_norm": 1.5946011543273926,
      "learning_rate": 1.0836120401337793e-06,
      "loss": 4.8148,
      "step": 49200
    },
    {
      "epoch": 0.747478825706207,
      "eval_loss": 4.651627540588379,
      "eval_runtime": 194.2502,
      "eval_samples_per_second": 51.48,
      "eval_steps_per_second": 6.435,
      "step": 49200
    },
    {
      "epoch": 0.748998091612114,
      "grad_norm": 1.4675341844558716,
      "learning_rate": 1.0735785953177258e-06,
      "loss": 4.81,
      "step": 49300
    },
    {
      "epoch": 0.748998091612114,
      "eval_loss": 4.650761127471924,
      "eval_runtime": 194.1574,
      "eval_samples_per_second": 51.505,
      "eval_steps_per_second": 6.438,
      "step": 49300
    },
    {
      "epoch": 0.7505173575180208,
      "grad_norm": 1.6807961463928223,
      "learning_rate": 1.0635451505016722e-06,
      "loss": 4.8115,
      "step": 49400
    },
    {
      "epoch": 0.7505173575180208,
      "eval_loss": 4.6511101722717285,
      "eval_runtime": 194.374,
      "eval_samples_per_second": 51.447,
      "eval_steps_per_second": 6.431,
      "step": 49400
    },
    {
      "epoch": 0.7520366234239277,
      "grad_norm": 1.4846396446228027,
      "learning_rate": 1.0535117056856187e-06,
      "loss": 4.8069,
      "step": 49500
    },
    {
      "epoch": 0.7520366234239277,
      "eval_loss": 4.647155284881592,
      "eval_runtime": 194.3314,
      "eval_samples_per_second": 51.458,
      "eval_steps_per_second": 6.432,
      "step": 49500
    },
    {
      "epoch": 0.7535558893298347,
      "grad_norm": 1.5872676372528076,
      "learning_rate": 1.0434782608695653e-06,
      "loss": 4.8084,
      "step": 49600
    },
    {
      "epoch": 0.7535558893298347,
      "eval_loss": 4.644804954528809,
      "eval_runtime": 194.3764,
      "eval_samples_per_second": 51.447,
      "eval_steps_per_second": 6.431,
      "step": 49600
    },
    {
      "epoch": 0.7550751552357416,
      "grad_norm": 1.6138330698013306,
      "learning_rate": 1.0334448160535118e-06,
      "loss": 4.8086,
      "step": 49700
    },
    {
      "epoch": 0.7550751552357416,
      "eval_loss": 4.644802093505859,
      "eval_runtime": 194.3935,
      "eval_samples_per_second": 51.442,
      "eval_steps_per_second": 6.43,
      "step": 49700
    },
    {
      "epoch": 0.7565944211416485,
      "grad_norm": 1.6802724599838257,
      "learning_rate": 1.0234113712374581e-06,
      "loss": 4.8052,
      "step": 49800
    },
    {
      "epoch": 0.7565944211416485,
      "eval_loss": 4.646471977233887,
      "eval_runtime": 194.4012,
      "eval_samples_per_second": 51.44,
      "eval_steps_per_second": 6.43,
      "step": 49800
    },
    {
      "epoch": 0.7581136870475554,
      "grad_norm": 1.7580209970474243,
      "learning_rate": 1.0133779264214047e-06,
      "loss": 4.805,
      "step": 49900
    },
    {
      "epoch": 0.7581136870475554,
      "eval_loss": 4.641211032867432,
      "eval_runtime": 194.5581,
      "eval_samples_per_second": 51.399,
      "eval_steps_per_second": 6.425,
      "step": 49900
    },
    {
      "epoch": 0.7596329529534624,
      "grad_norm": 1.732718586921692,
      "learning_rate": 1.0033444816053512e-06,
      "loss": 4.803,
      "step": 50000
    },
    {
      "epoch": 0.7596329529534624,
      "eval_loss": 4.643296241760254,
      "eval_runtime": 194.3028,
      "eval_samples_per_second": 51.466,
      "eval_steps_per_second": 6.433,
      "step": 50000
    },
    {
      "epoch": 0.7611522188593693,
      "grad_norm": 1.6775901317596436,
      "learning_rate": 9.933110367892976e-07,
      "loss": 4.8009,
      "step": 50100
    },
    {
      "epoch": 0.7611522188593693,
      "eval_loss": 4.639660358428955,
      "eval_runtime": 194.3411,
      "eval_samples_per_second": 51.456,
      "eval_steps_per_second": 6.432,
      "step": 50100
    },
    {
      "epoch": 0.7626714847652762,
      "grad_norm": 1.4055508375167847,
      "learning_rate": 9.832775919732441e-07,
      "loss": 4.8022,
      "step": 50200
    },
    {
      "epoch": 0.7626714847652762,
      "eval_loss": 4.637509346008301,
      "eval_runtime": 194.3272,
      "eval_samples_per_second": 51.46,
      "eval_steps_per_second": 6.432,
      "step": 50200
    },
    {
      "epoch": 0.7641907506711831,
      "grad_norm": 1.6316554546356201,
      "learning_rate": 9.732441471571907e-07,
      "loss": 4.8019,
      "step": 50300
    },
    {
      "epoch": 0.7641907506711831,
      "eval_loss": 4.6399359703063965,
      "eval_runtime": 194.5106,
      "eval_samples_per_second": 51.411,
      "eval_steps_per_second": 6.426,
      "step": 50300
    },
    {
      "epoch": 0.7657100165770901,
      "grad_norm": 1.87636137008667,
      "learning_rate": 9.632107023411372e-07,
      "loss": 4.8021,
      "step": 50400
    },
    {
      "epoch": 0.7657100165770901,
      "eval_loss": 4.637732028961182,
      "eval_runtime": 194.1555,
      "eval_samples_per_second": 51.505,
      "eval_steps_per_second": 6.438,
      "step": 50400
    },
    {
      "epoch": 0.767229282482997,
      "grad_norm": 1.5560215711593628,
      "learning_rate": 9.531772575250837e-07,
      "loss": 4.797,
      "step": 50500
    },
    {
      "epoch": 0.767229282482997,
      "eval_loss": 4.636757850646973,
      "eval_runtime": 194.187,
      "eval_samples_per_second": 51.497,
      "eval_steps_per_second": 6.437,
      "step": 50500
    },
    {
      "epoch": 0.7687485483889039,
      "grad_norm": 1.5681828260421753,
      "learning_rate": 9.431438127090301e-07,
      "loss": 4.7981,
      "step": 50600
    },
    {
      "epoch": 0.7687485483889039,
      "eval_loss": 4.63712215423584,
      "eval_runtime": 194.0875,
      "eval_samples_per_second": 51.523,
      "eval_steps_per_second": 6.44,
      "step": 50600
    },
    {
      "epoch": 0.7702678142948108,
      "grad_norm": 1.725135087966919,
      "learning_rate": 9.331103678929767e-07,
      "loss": 4.7988,
      "step": 50700
    },
    {
      "epoch": 0.7702678142948108,
      "eval_loss": 4.633908271789551,
      "eval_runtime": 193.9714,
      "eval_samples_per_second": 51.554,
      "eval_steps_per_second": 6.444,
      "step": 50700
    },
    {
      "epoch": 0.7717870802007178,
      "grad_norm": 1.5292387008666992,
      "learning_rate": 9.230769230769231e-07,
      "loss": 4.7942,
      "step": 50800
    },
    {
      "epoch": 0.7717870802007178,
      "eval_loss": 4.634795188903809,
      "eval_runtime": 193.9264,
      "eval_samples_per_second": 51.566,
      "eval_steps_per_second": 6.446,
      "step": 50800
    },
    {
      "epoch": 0.7733063461066247,
      "grad_norm": 1.313671350479126,
      "learning_rate": 9.130434782608697e-07,
      "loss": 4.7971,
      "step": 50900
    },
    {
      "epoch": 0.7733063461066247,
      "eval_loss": 4.632637977600098,
      "eval_runtime": 193.9004,
      "eval_samples_per_second": 51.573,
      "eval_steps_per_second": 6.447,
      "step": 50900
    },
    {
      "epoch": 0.7748256120125316,
      "grad_norm": 1.3143532276153564,
      "learning_rate": 9.030100334448161e-07,
      "loss": 4.7945,
      "step": 51000
    },
    {
      "epoch": 0.7748256120125316,
      "eval_loss": 4.6306681632995605,
      "eval_runtime": 194.3643,
      "eval_samples_per_second": 51.45,
      "eval_steps_per_second": 6.431,
      "step": 51000
    },
    {
      "epoch": 0.7763448779184385,
      "grad_norm": 1.3034121990203857,
      "learning_rate": 8.929765886287627e-07,
      "loss": 4.7888,
      "step": 51100
    },
    {
      "epoch": 0.7763448779184385,
      "eval_loss": 4.629621982574463,
      "eval_runtime": 194.0292,
      "eval_samples_per_second": 51.539,
      "eval_steps_per_second": 6.442,
      "step": 51100
    },
    {
      "epoch": 0.7778641438243455,
      "grad_norm": 1.739376425743103,
      "learning_rate": 8.829431438127091e-07,
      "loss": 4.7934,
      "step": 51200
    },
    {
      "epoch": 0.7778641438243455,
      "eval_loss": 4.62890625,
      "eval_runtime": 194.358,
      "eval_samples_per_second": 51.451,
      "eval_steps_per_second": 6.431,
      "step": 51200
    },
    {
      "epoch": 0.7793834097302524,
      "grad_norm": 1.3741992712020874,
      "learning_rate": 8.729096989966555e-07,
      "loss": 4.7887,
      "step": 51300
    },
    {
      "epoch": 0.7793834097302524,
      "eval_loss": 4.625428199768066,
      "eval_runtime": 194.4886,
      "eval_samples_per_second": 51.417,
      "eval_steps_per_second": 6.427,
      "step": 51300
    },
    {
      "epoch": 0.7809026756361593,
      "grad_norm": 1.423168420791626,
      "learning_rate": 8.628762541806019e-07,
      "loss": 4.7888,
      "step": 51400
    },
    {
      "epoch": 0.7809026756361593,
      "eval_loss": 4.626926422119141,
      "eval_runtime": 194.5901,
      "eval_samples_per_second": 51.39,
      "eval_steps_per_second": 6.424,
      "step": 51400
    },
    {
      "epoch": 0.7824219415420662,
      "grad_norm": 1.5038503408432007,
      "learning_rate": 8.528428093645485e-07,
      "loss": 4.791,
      "step": 51500
    },
    {
      "epoch": 0.7824219415420662,
      "eval_loss": 4.630486488342285,
      "eval_runtime": 194.4102,
      "eval_samples_per_second": 51.438,
      "eval_steps_per_second": 6.43,
      "step": 51500
    },
    {
      "epoch": 0.7839412074479732,
      "grad_norm": 1.6092890501022339,
      "learning_rate": 8.428093645484949e-07,
      "loss": 4.7863,
      "step": 51600
    },
    {
      "epoch": 0.7839412074479732,
      "eval_loss": 4.626857280731201,
      "eval_runtime": 194.4616,
      "eval_samples_per_second": 51.424,
      "eval_steps_per_second": 6.428,
      "step": 51600
    },
    {
      "epoch": 0.7854604733538801,
      "grad_norm": 1.6199829578399658,
      "learning_rate": 8.327759197324414e-07,
      "loss": 4.7875,
      "step": 51700
    },
    {
      "epoch": 0.7854604733538801,
      "eval_loss": 4.623871326446533,
      "eval_runtime": 194.5129,
      "eval_samples_per_second": 51.41,
      "eval_steps_per_second": 6.426,
      "step": 51700
    },
    {
      "epoch": 0.786979739259787,
      "grad_norm": 1.33729088306427,
      "learning_rate": 8.227424749163879e-07,
      "loss": 4.7836,
      "step": 51800
    },
    {
      "epoch": 0.786979739259787,
      "eval_loss": 4.625426769256592,
      "eval_runtime": 194.4935,
      "eval_samples_per_second": 51.416,
      "eval_steps_per_second": 6.427,
      "step": 51800
    },
    {
      "epoch": 0.7884990051656939,
      "grad_norm": 1.6848562955856323,
      "learning_rate": 8.127090301003344e-07,
      "loss": 4.7874,
      "step": 51900
    },
    {
      "epoch": 0.7884990051656939,
      "eval_loss": 4.626620292663574,
      "eval_runtime": 194.6564,
      "eval_samples_per_second": 51.373,
      "eval_steps_per_second": 6.422,
      "step": 51900
    },
    {
      "epoch": 0.7900182710716009,
      "grad_norm": 1.2945283651351929,
      "learning_rate": 8.026755852842809e-07,
      "loss": 4.7892,
      "step": 52000
    },
    {
      "epoch": 0.7900182710716009,
      "eval_loss": 4.624682903289795,
      "eval_runtime": 194.5982,
      "eval_samples_per_second": 51.388,
      "eval_steps_per_second": 6.423,
      "step": 52000
    },
    {
      "epoch": 0.7915375369775078,
      "grad_norm": 1.5469530820846558,
      "learning_rate": 7.926421404682274e-07,
      "loss": 4.7828,
      "step": 52100
    },
    {
      "epoch": 0.7915375369775078,
      "eval_loss": 4.622786521911621,
      "eval_runtime": 194.4896,
      "eval_samples_per_second": 51.417,
      "eval_steps_per_second": 6.427,
      "step": 52100
    },
    {
      "epoch": 0.7930568028834147,
      "grad_norm": 1.4468382596969604,
      "learning_rate": 7.826086956521739e-07,
      "loss": 4.7772,
      "step": 52200
    },
    {
      "epoch": 0.7930568028834147,
      "eval_loss": 4.625532150268555,
      "eval_runtime": 194.4728,
      "eval_samples_per_second": 51.421,
      "eval_steps_per_second": 6.428,
      "step": 52200
    },
    {
      "epoch": 0.7945760687893216,
      "grad_norm": 1.244032382965088,
      "learning_rate": 7.725752508361204e-07,
      "loss": 4.7794,
      "step": 52300
    },
    {
      "epoch": 0.7945760687893216,
      "eval_loss": 4.621998310089111,
      "eval_runtime": 194.4943,
      "eval_samples_per_second": 51.415,
      "eval_steps_per_second": 6.427,
      "step": 52300
    },
    {
      "epoch": 0.7960953346952286,
      "grad_norm": 1.416409969329834,
      "learning_rate": 7.625418060200669e-07,
      "loss": 4.784,
      "step": 52400
    },
    {
      "epoch": 0.7960953346952286,
      "eval_loss": 4.620311260223389,
      "eval_runtime": 194.4398,
      "eval_samples_per_second": 51.43,
      "eval_steps_per_second": 6.429,
      "step": 52400
    },
    {
      "epoch": 0.7976146006011355,
      "grad_norm": 1.3747918605804443,
      "learning_rate": 7.525083612040134e-07,
      "loss": 4.7776,
      "step": 52500
    },
    {
      "epoch": 0.7976146006011355,
      "eval_loss": 4.619593143463135,
      "eval_runtime": 194.5835,
      "eval_samples_per_second": 51.392,
      "eval_steps_per_second": 6.424,
      "step": 52500
    },
    {
      "epoch": 0.7991338665070424,
      "grad_norm": 1.4532439708709717,
      "learning_rate": 7.424749163879599e-07,
      "loss": 4.7805,
      "step": 52600
    },
    {
      "epoch": 0.7991338665070424,
      "eval_loss": 4.619747161865234,
      "eval_runtime": 194.2642,
      "eval_samples_per_second": 51.476,
      "eval_steps_per_second": 6.435,
      "step": 52600
    },
    {
      "epoch": 0.8006531324129494,
      "grad_norm": 1.34298574924469,
      "learning_rate": 7.324414715719064e-07,
      "loss": 4.7778,
      "step": 52700
    },
    {
      "epoch": 0.8006531324129494,
      "eval_loss": 4.61711311340332,
      "eval_runtime": 194.691,
      "eval_samples_per_second": 51.363,
      "eval_steps_per_second": 6.42,
      "step": 52700
    },
    {
      "epoch": 0.8021723983188563,
      "grad_norm": 1.4666342735290527,
      "learning_rate": 7.224080267558529e-07,
      "loss": 4.7792,
      "step": 52800
    },
    {
      "epoch": 0.8021723983188563,
      "eval_loss": 4.615002155303955,
      "eval_runtime": 194.4007,
      "eval_samples_per_second": 51.44,
      "eval_steps_per_second": 6.43,
      "step": 52800
    },
    {
      "epoch": 0.8036916642247632,
      "grad_norm": 1.1881191730499268,
      "learning_rate": 7.123745819397994e-07,
      "loss": 4.7789,
      "step": 52900
    },
    {
      "epoch": 0.8036916642247632,
      "eval_loss": 4.613386154174805,
      "eval_runtime": 194.3959,
      "eval_samples_per_second": 51.441,
      "eval_steps_per_second": 6.43,
      "step": 52900
    },
    {
      "epoch": 0.8052109301306701,
      "grad_norm": 1.1752644777297974,
      "learning_rate": 7.023411371237459e-07,
      "loss": 4.7766,
      "step": 53000
    },
    {
      "epoch": 0.8052109301306701,
      "eval_loss": 4.616655349731445,
      "eval_runtime": 194.0766,
      "eval_samples_per_second": 51.526,
      "eval_steps_per_second": 6.441,
      "step": 53000
    },
    {
      "epoch": 0.8067301960365771,
      "grad_norm": 1.3520350456237793,
      "learning_rate": 6.923076923076923e-07,
      "loss": 4.7748,
      "step": 53100
    },
    {
      "epoch": 0.8067301960365771,
      "eval_loss": 4.616769313812256,
      "eval_runtime": 194.2084,
      "eval_samples_per_second": 51.491,
      "eval_steps_per_second": 6.436,
      "step": 53100
    },
    {
      "epoch": 0.808249461942484,
      "grad_norm": 1.5536683797836304,
      "learning_rate": 6.822742474916388e-07,
      "loss": 4.7798,
      "step": 53200
    },
    {
      "epoch": 0.808249461942484,
      "eval_loss": 4.615866661071777,
      "eval_runtime": 193.8562,
      "eval_samples_per_second": 51.585,
      "eval_steps_per_second": 6.448,
      "step": 53200
    },
    {
      "epoch": 0.8097687278483909,
      "grad_norm": 1.2618976831436157,
      "learning_rate": 6.722408026755853e-07,
      "loss": 4.7762,
      "step": 53300
    },
    {
      "epoch": 0.8097687278483909,
      "eval_loss": 4.616024017333984,
      "eval_runtime": 193.9219,
      "eval_samples_per_second": 51.567,
      "eval_steps_per_second": 6.446,
      "step": 53300
    },
    {
      "epoch": 0.8112879937542978,
      "grad_norm": 1.8162367343902588,
      "learning_rate": 6.622073578595318e-07,
      "loss": 4.7761,
      "step": 53400
    },
    {
      "epoch": 0.8112879937542978,
      "eval_loss": 4.613333702087402,
      "eval_runtime": 194.0415,
      "eval_samples_per_second": 51.535,
      "eval_steps_per_second": 6.442,
      "step": 53400
    },
    {
      "epoch": 0.8128072596602048,
      "grad_norm": 1.1924686431884766,
      "learning_rate": 6.521739130434783e-07,
      "loss": 4.7721,
      "step": 53500
    },
    {
      "epoch": 0.8128072596602048,
      "eval_loss": 4.615184307098389,
      "eval_runtime": 193.9446,
      "eval_samples_per_second": 51.561,
      "eval_steps_per_second": 6.445,
      "step": 53500
    },
    {
      "epoch": 0.8143265255661117,
      "grad_norm": 1.1603306531906128,
      "learning_rate": 6.421404682274248e-07,
      "loss": 4.7746,
      "step": 53600
    },
    {
      "epoch": 0.8143265255661117,
      "eval_loss": 4.611873626708984,
      "eval_runtime": 194.2028,
      "eval_samples_per_second": 51.493,
      "eval_steps_per_second": 6.437,
      "step": 53600
    },
    {
      "epoch": 0.8158457914720186,
      "grad_norm": 1.202577829360962,
      "learning_rate": 6.321070234113712e-07,
      "loss": 4.7745,
      "step": 53700
    },
    {
      "epoch": 0.8158457914720186,
      "eval_loss": 4.610635757446289,
      "eval_runtime": 194.3713,
      "eval_samples_per_second": 51.448,
      "eval_steps_per_second": 6.431,
      "step": 53700
    },
    {
      "epoch": 0.8173650573779255,
      "grad_norm": 1.3371776342391968,
      "learning_rate": 6.220735785953178e-07,
      "loss": 4.7755,
      "step": 53800
    },
    {
      "epoch": 0.8173650573779255,
      "eval_loss": 4.611499786376953,
      "eval_runtime": 194.3936,
      "eval_samples_per_second": 51.442,
      "eval_steps_per_second": 6.43,
      "step": 53800
    },
    {
      "epoch": 0.8188843232838325,
      "grad_norm": 1.3666436672210693,
      "learning_rate": 6.120401337792642e-07,
      "loss": 4.7701,
      "step": 53900
    },
    {
      "epoch": 0.8188843232838325,
      "eval_loss": 4.610349655151367,
      "eval_runtime": 194.5735,
      "eval_samples_per_second": 51.394,
      "eval_steps_per_second": 6.424,
      "step": 53900
    },
    {
      "epoch": 0.8204035891897394,
      "grad_norm": 1.4433395862579346,
      "learning_rate": 6.020066889632107e-07,
      "loss": 4.7743,
      "step": 54000
    },
    {
      "epoch": 0.8204035891897394,
      "eval_loss": 4.610903263092041,
      "eval_runtime": 194.367,
      "eval_samples_per_second": 51.449,
      "eval_steps_per_second": 6.431,
      "step": 54000
    },
    {
      "epoch": 0.8219228550956463,
      "grad_norm": 1.2440968751907349,
      "learning_rate": 5.919732441471572e-07,
      "loss": 4.7701,
      "step": 54100
    },
    {
      "epoch": 0.8219228550956463,
      "eval_loss": 4.611226558685303,
      "eval_runtime": 194.4358,
      "eval_samples_per_second": 51.431,
      "eval_steps_per_second": 6.429,
      "step": 54100
    },
    {
      "epoch": 0.8234421210015532,
      "grad_norm": 1.311020016670227,
      "learning_rate": 5.819397993311037e-07,
      "loss": 4.767,
      "step": 54200
    },
    {
      "epoch": 0.8234421210015532,
      "eval_loss": 4.608744144439697,
      "eval_runtime": 194.5925,
      "eval_samples_per_second": 51.389,
      "eval_steps_per_second": 6.424,
      "step": 54200
    },
    {
      "epoch": 0.8249613869074602,
      "grad_norm": 1.2300583124160767,
      "learning_rate": 5.719063545150502e-07,
      "loss": 4.7713,
      "step": 54300
    },
    {
      "epoch": 0.8249613869074602,
      "eval_loss": 4.607234477996826,
      "eval_runtime": 194.4772,
      "eval_samples_per_second": 51.42,
      "eval_steps_per_second": 6.427,
      "step": 54300
    },
    {
      "epoch": 0.8264806528133671,
      "grad_norm": 1.3106154203414917,
      "learning_rate": 5.618729096989966e-07,
      "loss": 4.7698,
      "step": 54400
    },
    {
      "epoch": 0.8264806528133671,
      "eval_loss": 4.604393005371094,
      "eval_runtime": 194.687,
      "eval_samples_per_second": 51.364,
      "eval_steps_per_second": 6.421,
      "step": 54400
    },
    {
      "epoch": 0.827999918719274,
      "grad_norm": 1.2660140991210938,
      "learning_rate": 5.518394648829431e-07,
      "loss": 4.7655,
      "step": 54500
    },
    {
      "epoch": 0.827999918719274,
      "eval_loss": 4.602825164794922,
      "eval_runtime": 194.597,
      "eval_samples_per_second": 51.388,
      "eval_steps_per_second": 6.424,
      "step": 54500
    },
    {
      "epoch": 0.8295191846251809,
      "grad_norm": 1.4443926811218262,
      "learning_rate": 5.418060200668896e-07,
      "loss": 4.7727,
      "step": 54600
    },
    {
      "epoch": 0.8295191846251809,
      "eval_loss": 4.606249809265137,
      "eval_runtime": 194.4722,
      "eval_samples_per_second": 51.421,
      "eval_steps_per_second": 6.428,
      "step": 54600
    },
    {
      "epoch": 0.8310384505310879,
      "grad_norm": 1.339629888534546,
      "learning_rate": 5.317725752508361e-07,
      "loss": 4.7639,
      "step": 54700
    },
    {
      "epoch": 0.8310384505310879,
      "eval_loss": 4.604907512664795,
      "eval_runtime": 194.6528,
      "eval_samples_per_second": 51.374,
      "eval_steps_per_second": 6.422,
      "step": 54700
    },
    {
      "epoch": 0.8325577164369948,
      "grad_norm": 1.2703863382339478,
      "learning_rate": 5.217391304347826e-07,
      "loss": 4.762,
      "step": 54800
    },
    {
      "epoch": 0.8325577164369948,
      "eval_loss": 4.605154037475586,
      "eval_runtime": 194.4518,
      "eval_samples_per_second": 51.427,
      "eval_steps_per_second": 6.428,
      "step": 54800
    },
    {
      "epoch": 0.8340769823429017,
      "grad_norm": 1.1100186109542847,
      "learning_rate": 5.117056856187291e-07,
      "loss": 4.7635,
      "step": 54900
    },
    {
      "epoch": 0.8340769823429017,
      "eval_loss": 4.603663444519043,
      "eval_runtime": 194.4154,
      "eval_samples_per_second": 51.436,
      "eval_steps_per_second": 6.43,
      "step": 54900
    },
    {
      "epoch": 0.8355962482488086,
      "grad_norm": 1.6119050979614258,
      "learning_rate": 5.016722408026756e-07,
      "loss": 4.7627,
      "step": 55000
    },
    {
      "epoch": 0.8355962482488086,
      "eval_loss": 4.603806495666504,
      "eval_runtime": 194.3808,
      "eval_samples_per_second": 51.445,
      "eval_steps_per_second": 6.431,
      "step": 55000
    },
    {
      "epoch": 0.8371155141547156,
      "grad_norm": 1.22734534740448,
      "learning_rate": 4.916387959866221e-07,
      "loss": 4.764,
      "step": 55100
    },
    {
      "epoch": 0.8371155141547156,
      "eval_loss": 4.604480266571045,
      "eval_runtime": 194.4351,
      "eval_samples_per_second": 51.431,
      "eval_steps_per_second": 6.429,
      "step": 55100
    },
    {
      "epoch": 0.8386347800606225,
      "grad_norm": 1.1762231588363647,
      "learning_rate": 4.816053511705686e-07,
      "loss": 4.7674,
      "step": 55200
    },
    {
      "epoch": 0.8386347800606225,
      "eval_loss": 4.60023307800293,
      "eval_runtime": 194.3592,
      "eval_samples_per_second": 51.451,
      "eval_steps_per_second": 6.431,
      "step": 55200
    },
    {
      "epoch": 0.8401540459665294,
      "grad_norm": 1.0889923572540283,
      "learning_rate": 4.7157190635451506e-07,
      "loss": 4.762,
      "step": 55300
    },
    {
      "epoch": 0.8401540459665294,
      "eval_loss": 4.5993733406066895,
      "eval_runtime": 194.2327,
      "eval_samples_per_second": 51.485,
      "eval_steps_per_second": 6.436,
      "step": 55300
    },
    {
      "epoch": 0.8416733118724363,
      "grad_norm": 1.2975116968154907,
      "learning_rate": 4.6153846153846156e-07,
      "loss": 4.7635,
      "step": 55400
    },
    {
      "epoch": 0.8416733118724363,
      "eval_loss": 4.599579811096191,
      "eval_runtime": 194.1059,
      "eval_samples_per_second": 51.518,
      "eval_steps_per_second": 6.44,
      "step": 55400
    },
    {
      "epoch": 0.8431925777783433,
      "grad_norm": 1.257307767868042,
      "learning_rate": 4.5150501672240806e-07,
      "loss": 4.7607,
      "step": 55500
    },
    {
      "epoch": 0.8431925777783433,
      "eval_loss": 4.602155685424805,
      "eval_runtime": 193.9982,
      "eval_samples_per_second": 51.547,
      "eval_steps_per_second": 6.443,
      "step": 55500
    },
    {
      "epoch": 0.8447118436842502,
      "grad_norm": 1.2345635890960693,
      "learning_rate": 4.4147157190635456e-07,
      "loss": 4.7602,
      "step": 55600
    },
    {
      "epoch": 0.8447118436842502,
      "eval_loss": 4.60153341293335,
      "eval_runtime": 193.9915,
      "eval_samples_per_second": 51.549,
      "eval_steps_per_second": 6.444,
      "step": 55600
    },
    {
      "epoch": 0.8462311095901571,
      "grad_norm": 1.2262383699417114,
      "learning_rate": 4.3143812709030095e-07,
      "loss": 4.7619,
      "step": 55700
    },
    {
      "epoch": 0.8462311095901571,
      "eval_loss": 4.600053310394287,
      "eval_runtime": 194.0432,
      "eval_samples_per_second": 51.535,
      "eval_steps_per_second": 6.442,
      "step": 55700
    },
    {
      "epoch": 0.847750375496064,
      "grad_norm": 1.3070259094238281,
      "learning_rate": 4.2140468227424745e-07,
      "loss": 4.7564,
      "step": 55800
    },
    {
      "epoch": 0.847750375496064,
      "eval_loss": 4.597591876983643,
      "eval_runtime": 193.9858,
      "eval_samples_per_second": 51.55,
      "eval_steps_per_second": 6.444,
      "step": 55800
    },
    {
      "epoch": 0.849269641401971,
      "grad_norm": 1.2372263669967651,
      "learning_rate": 4.1137123745819395e-07,
      "loss": 4.7601,
      "step": 55900
    },
    {
      "epoch": 0.849269641401971,
      "eval_loss": 4.602851867675781,
      "eval_runtime": 194.1982,
      "eval_samples_per_second": 51.494,
      "eval_steps_per_second": 6.437,
      "step": 55900
    },
    {
      "epoch": 0.8507889073078779,
      "grad_norm": 1.1839525699615479,
      "learning_rate": 4.0133779264214045e-07,
      "loss": 4.7609,
      "step": 56000
    },
    {
      "epoch": 0.8507889073078779,
      "eval_loss": 4.595503330230713,
      "eval_runtime": 194.4031,
      "eval_samples_per_second": 51.44,
      "eval_steps_per_second": 6.43,
      "step": 56000
    },
    {
      "epoch": 0.8523081732137848,
      "grad_norm": 1.4197345972061157,
      "learning_rate": 3.9130434782608694e-07,
      "loss": 4.7594,
      "step": 56100
    },
    {
      "epoch": 0.8523081732137848,
      "eval_loss": 4.59796142578125,
      "eval_runtime": 194.4678,
      "eval_samples_per_second": 51.422,
      "eval_steps_per_second": 6.428,
      "step": 56100
    },
    {
      "epoch": 0.8538274391196917,
      "grad_norm": 1.1221038103103638,
      "learning_rate": 3.8127090301003344e-07,
      "loss": 4.7568,
      "step": 56200
    },
    {
      "epoch": 0.8538274391196917,
      "eval_loss": 4.596600532531738,
      "eval_runtime": 194.6362,
      "eval_samples_per_second": 51.378,
      "eval_steps_per_second": 6.422,
      "step": 56200
    },
    {
      "epoch": 0.8553467050255987,
      "grad_norm": 1.2606701850891113,
      "learning_rate": 3.7123745819397994e-07,
      "loss": 4.7543,
      "step": 56300
    },
    {
      "epoch": 0.8553467050255987,
      "eval_loss": 4.598119258880615,
      "eval_runtime": 194.3842,
      "eval_samples_per_second": 51.445,
      "eval_steps_per_second": 6.431,
      "step": 56300
    },
    {
      "epoch": 0.8568659709315056,
      "grad_norm": 1.3233997821807861,
      "learning_rate": 3.6120401337792644e-07,
      "loss": 4.7576,
      "step": 56400
    },
    {
      "epoch": 0.8568659709315056,
      "eval_loss": 4.596184730529785,
      "eval_runtime": 194.3736,
      "eval_samples_per_second": 51.447,
      "eval_steps_per_second": 6.431,
      "step": 56400
    },
    {
      "epoch": 0.8583852368374125,
      "grad_norm": 1.2004015445709229,
      "learning_rate": 3.5117056856187294e-07,
      "loss": 4.7616,
      "step": 56500
    },
    {
      "epoch": 0.8583852368374125,
      "eval_loss": 4.594801425933838,
      "eval_runtime": 194.5029,
      "eval_samples_per_second": 51.413,
      "eval_steps_per_second": 6.427,
      "step": 56500
    },
    {
      "epoch": 0.8599045027433194,
      "grad_norm": 1.2479798793792725,
      "learning_rate": 3.411371237458194e-07,
      "loss": 4.7628,
      "step": 56600
    },
    {
      "epoch": 0.8599045027433194,
      "eval_loss": 4.599001407623291,
      "eval_runtime": 194.5013,
      "eval_samples_per_second": 51.414,
      "eval_steps_per_second": 6.427,
      "step": 56600
    },
    {
      "epoch": 0.8614237686492264,
      "grad_norm": 1.2455825805664062,
      "learning_rate": 3.311036789297659e-07,
      "loss": 4.756,
      "step": 56700
    },
    {
      "epoch": 0.8614237686492264,
      "eval_loss": 4.596933364868164,
      "eval_runtime": 194.5096,
      "eval_samples_per_second": 51.411,
      "eval_steps_per_second": 6.426,
      "step": 56700
    },
    {
      "epoch": 0.8629430345551333,
      "grad_norm": 1.2096078395843506,
      "learning_rate": 3.210702341137124e-07,
      "loss": 4.7603,
      "step": 56800
    },
    {
      "epoch": 0.8629430345551333,
      "eval_loss": 4.5964884757995605,
      "eval_runtime": 194.6292,
      "eval_samples_per_second": 51.38,
      "eval_steps_per_second": 6.422,
      "step": 56800
    },
    {
      "epoch": 0.8644623004610402,
      "grad_norm": 0.9795971512794495,
      "learning_rate": 3.110367892976589e-07,
      "loss": 4.7533,
      "step": 56900
    },
    {
      "epoch": 0.8644623004610402,
      "eval_loss": 4.594615459442139,
      "eval_runtime": 194.678,
      "eval_samples_per_second": 51.367,
      "eval_steps_per_second": 6.421,
      "step": 56900
    },
    {
      "epoch": 0.8659815663669471,
      "grad_norm": 1.3727303743362427,
      "learning_rate": 3.010033444816054e-07,
      "loss": 4.7547,
      "step": 57000
    },
    {
      "epoch": 0.8659815663669471,
      "eval_loss": 4.596096515655518,
      "eval_runtime": 194.5316,
      "eval_samples_per_second": 51.406,
      "eval_steps_per_second": 6.426,
      "step": 57000
    },
    {
      "epoch": 0.8675008322728541,
      "grad_norm": 1.1338236331939697,
      "learning_rate": 2.9096989966555187e-07,
      "loss": 4.7542,
      "step": 57100
    },
    {
      "epoch": 0.8675008322728541,
      "eval_loss": 4.5944132804870605,
      "eval_runtime": 194.4861,
      "eval_samples_per_second": 51.418,
      "eval_steps_per_second": 6.427,
      "step": 57100
    },
    {
      "epoch": 0.869020098178761,
      "grad_norm": 1.1638000011444092,
      "learning_rate": 2.809364548494983e-07,
      "loss": 4.7509,
      "step": 57200
    },
    {
      "epoch": 0.869020098178761,
      "eval_loss": 4.593369483947754,
      "eval_runtime": 194.5214,
      "eval_samples_per_second": 51.408,
      "eval_steps_per_second": 6.426,
      "step": 57200
    },
    {
      "epoch": 0.8705393640846679,
      "grad_norm": 0.9814125299453735,
      "learning_rate": 2.709030100334448e-07,
      "loss": 4.7565,
      "step": 57300
    },
    {
      "epoch": 0.8705393640846679,
      "eval_loss": 4.595996856689453,
      "eval_runtime": 194.4485,
      "eval_samples_per_second": 51.427,
      "eval_steps_per_second": 6.428,
      "step": 57300
    },
    {
      "epoch": 0.8720586299905748,
      "grad_norm": 1.0250178575515747,
      "learning_rate": 2.608695652173913e-07,
      "loss": 4.7568,
      "step": 57400
    },
    {
      "epoch": 0.8720586299905748,
      "eval_loss": 4.59307336807251,
      "eval_runtime": 194.4712,
      "eval_samples_per_second": 51.421,
      "eval_steps_per_second": 6.428,
      "step": 57400
    },
    {
      "epoch": 0.8735778958964818,
      "grad_norm": 0.9920938014984131,
      "learning_rate": 2.508361204013378e-07,
      "loss": 4.7567,
      "step": 57500
    },
    {
      "epoch": 0.8735778958964818,
      "eval_loss": 4.5949625968933105,
      "eval_runtime": 194.5139,
      "eval_samples_per_second": 51.41,
      "eval_steps_per_second": 6.426,
      "step": 57500
    },
    {
      "epoch": 0.8750971618023887,
      "grad_norm": 1.0698268413543701,
      "learning_rate": 2.408026755852843e-07,
      "loss": 4.749,
      "step": 57600
    },
    {
      "epoch": 0.8750971618023887,
      "eval_loss": 4.590822696685791,
      "eval_runtime": 194.2365,
      "eval_samples_per_second": 51.484,
      "eval_steps_per_second": 6.435,
      "step": 57600
    },
    {
      "epoch": 0.8766164277082956,
      "grad_norm": 1.0088557004928589,
      "learning_rate": 2.3076923076923078e-07,
      "loss": 4.7556,
      "step": 57700
    },
    {
      "epoch": 0.8766164277082956,
      "eval_loss": 4.592673301696777,
      "eval_runtime": 194.2155,
      "eval_samples_per_second": 51.489,
      "eval_steps_per_second": 6.436,
      "step": 57700
    },
    {
      "epoch": 0.8781356936142025,
      "grad_norm": 0.989743173122406,
      "learning_rate": 2.2073578595317728e-07,
      "loss": 4.755,
      "step": 57800
    },
    {
      "epoch": 0.8781356936142025,
      "eval_loss": 4.594258785247803,
      "eval_runtime": 194.0368,
      "eval_samples_per_second": 51.537,
      "eval_steps_per_second": 6.442,
      "step": 57800
    },
    {
      "epoch": 0.8796549595201095,
      "grad_norm": 1.0593464374542236,
      "learning_rate": 2.1070234113712372e-07,
      "loss": 4.7553,
      "step": 57900
    },
    {
      "epoch": 0.8796549595201095,
      "eval_loss": 4.591804504394531,
      "eval_runtime": 193.9201,
      "eval_samples_per_second": 51.568,
      "eval_steps_per_second": 6.446,
      "step": 57900
    },
    {
      "epoch": 0.8811742254260164,
      "grad_norm": 1.0415208339691162,
      "learning_rate": 2.0066889632107022e-07,
      "loss": 4.7526,
      "step": 58000
    },
    {
      "epoch": 0.8811742254260164,
      "eval_loss": 4.591397285461426,
      "eval_runtime": 194.0639,
      "eval_samples_per_second": 51.529,
      "eval_steps_per_second": 6.441,
      "step": 58000
    },
    {
      "epoch": 0.8826934913319233,
      "grad_norm": 1.08748197555542,
      "learning_rate": 1.9063545150501672e-07,
      "loss": 4.748,
      "step": 58100
    },
    {
      "epoch": 0.8826934913319233,
      "eval_loss": 4.592258930206299,
      "eval_runtime": 193.9701,
      "eval_samples_per_second": 51.554,
      "eval_steps_per_second": 6.444,
      "step": 58100
    },
    {
      "epoch": 0.8842127572378302,
      "grad_norm": 0.875297486782074,
      "learning_rate": 1.8060200668896322e-07,
      "loss": 4.754,
      "step": 58200
    },
    {
      "epoch": 0.8842127572378302,
      "eval_loss": 4.590017318725586,
      "eval_runtime": 193.921,
      "eval_samples_per_second": 51.567,
      "eval_steps_per_second": 6.446,
      "step": 58200
    },
    {
      "epoch": 0.8857320231437372,
      "grad_norm": 0.9465267062187195,
      "learning_rate": 1.705685618729097e-07,
      "loss": 4.7541,
      "step": 58300
    },
    {
      "epoch": 0.8857320231437372,
      "eval_loss": 4.590794563293457,
      "eval_runtime": 193.8053,
      "eval_samples_per_second": 51.598,
      "eval_steps_per_second": 6.45,
      "step": 58300
    },
    {
      "epoch": 0.8872512890496441,
      "grad_norm": 1.108864426612854,
      "learning_rate": 1.605351170568562e-07,
      "loss": 4.7545,
      "step": 58400
    },
    {
      "epoch": 0.8872512890496441,
      "eval_loss": 4.590878963470459,
      "eval_runtime": 194.0226,
      "eval_samples_per_second": 51.54,
      "eval_steps_per_second": 6.443,
      "step": 58400
    },
    {
      "epoch": 0.888770554955551,
      "grad_norm": 0.9311940670013428,
      "learning_rate": 1.505016722408027e-07,
      "loss": 4.7537,
      "step": 58500
    },
    {
      "epoch": 0.888770554955551,
      "eval_loss": 4.589045524597168,
      "eval_runtime": 194.3809,
      "eval_samples_per_second": 51.445,
      "eval_steps_per_second": 6.431,
      "step": 58500
    },
    {
      "epoch": 0.8902898208614579,
      "grad_norm": 1.122527003288269,
      "learning_rate": 1.4046822742474916e-07,
      "loss": 4.7517,
      "step": 58600
    },
    {
      "epoch": 0.8902898208614579,
      "eval_loss": 4.590823650360107,
      "eval_runtime": 194.4167,
      "eval_samples_per_second": 51.436,
      "eval_steps_per_second": 6.429,
      "step": 58600
    },
    {
      "epoch": 0.8918090867673649,
      "grad_norm": 1.0384498834609985,
      "learning_rate": 1.3043478260869566e-07,
      "loss": 4.7491,
      "step": 58700
    },
    {
      "epoch": 0.8918090867673649,
      "eval_loss": 4.5913920402526855,
      "eval_runtime": 194.5657,
      "eval_samples_per_second": 51.397,
      "eval_steps_per_second": 6.425,
      "step": 58700
    },
    {
      "epoch": 0.8933283526732718,
      "grad_norm": 0.9574987292289734,
      "learning_rate": 1.2040133779264215e-07,
      "loss": 4.7512,
      "step": 58800
    },
    {
      "epoch": 0.8933283526732718,
      "eval_loss": 4.5905609130859375,
      "eval_runtime": 194.7064,
      "eval_samples_per_second": 51.359,
      "eval_steps_per_second": 6.42,
      "step": 58800
    },
    {
      "epoch": 0.8948476185791787,
      "grad_norm": 0.8835811614990234,
      "learning_rate": 1.1036789297658864e-07,
      "loss": 4.7493,
      "step": 58900
    },
    {
      "epoch": 0.8948476185791787,
      "eval_loss": 4.59054708480835,
      "eval_runtime": 194.6192,
      "eval_samples_per_second": 51.382,
      "eval_steps_per_second": 6.423,
      "step": 58900
    },
    {
      "epoch": 0.8963668844850856,
      "grad_norm": 0.8485853672027588,
      "learning_rate": 1.0033444816053511e-07,
      "loss": 4.7494,
      "step": 59000
    },
    {
      "epoch": 0.8963668844850856,
      "eval_loss": 4.590051651000977,
      "eval_runtime": 194.7537,
      "eval_samples_per_second": 51.347,
      "eval_steps_per_second": 6.418,
      "step": 59000
    },
    {
      "epoch": 0.8978861503909926,
      "grad_norm": 0.9415624737739563,
      "learning_rate": 9.030100334448161e-08,
      "loss": 4.7461,
      "step": 59100
    },
    {
      "epoch": 0.8978861503909926,
      "eval_loss": 4.593616962432861,
      "eval_runtime": 194.5307,
      "eval_samples_per_second": 51.406,
      "eval_steps_per_second": 6.426,
      "step": 59100
    },
    {
      "epoch": 0.8994054162968995,
      "grad_norm": 1.0554380416870117,
      "learning_rate": 8.02675585284281e-08,
      "loss": 4.7523,
      "step": 59200
    },
    {
      "epoch": 0.8994054162968995,
      "eval_loss": 4.5899271965026855,
      "eval_runtime": 194.6175,
      "eval_samples_per_second": 51.383,
      "eval_steps_per_second": 6.423,
      "step": 59200
    },
    {
      "epoch": 0.9009246822028064,
      "grad_norm": 0.8636355400085449,
      "learning_rate": 7.023411371237458e-08,
      "loss": 4.7511,
      "step": 59300
    },
    {
      "epoch": 0.9009246822028064,
      "eval_loss": 4.590203285217285,
      "eval_runtime": 194.5121,
      "eval_samples_per_second": 51.411,
      "eval_steps_per_second": 6.426,
      "step": 59300
    },
    {
      "epoch": 0.9024439481087133,
      "grad_norm": 0.7755019068717957,
      "learning_rate": 6.020066889632108e-08,
      "loss": 4.7495,
      "step": 59400
    },
    {
      "epoch": 0.9024439481087133,
      "eval_loss": 4.591348648071289,
      "eval_runtime": 194.53,
      "eval_samples_per_second": 51.406,
      "eval_steps_per_second": 6.426,
      "step": 59400
    },
    {
      "epoch": 0.9039632140146203,
      "grad_norm": 0.9905518293380737,
      "learning_rate": 5.0167224080267556e-08,
      "loss": 4.7507,
      "step": 59500
    },
    {
      "epoch": 0.9039632140146203,
      "eval_loss": 4.590855121612549,
      "eval_runtime": 194.486,
      "eval_samples_per_second": 51.418,
      "eval_steps_per_second": 6.427,
      "step": 59500
    },
    {
      "epoch": 0.9054824799205272,
      "grad_norm": 0.8361491560935974,
      "learning_rate": 4.013377926421405e-08,
      "loss": 4.7508,
      "step": 59600
    },
    {
      "epoch": 0.9054824799205272,
      "eval_loss": 4.588395118713379,
      "eval_runtime": 194.4894,
      "eval_samples_per_second": 51.417,
      "eval_steps_per_second": 6.427,
      "step": 59600
    },
    {
      "epoch": 0.9070017458264341,
      "grad_norm": 0.8528068661689758,
      "learning_rate": 3.010033444816054e-08,
      "loss": 4.7485,
      "step": 59700
    },
    {
      "epoch": 0.9070017458264341,
      "eval_loss": 4.589570999145508,
      "eval_runtime": 194.4665,
      "eval_samples_per_second": 51.423,
      "eval_steps_per_second": 6.428,
      "step": 59700
    },
    {
      "epoch": 0.908521011732341,
      "grad_norm": 0.9023746252059937,
      "learning_rate": 2.0066889632107024e-08,
      "loss": 4.7502,
      "step": 59800
    },
    {
      "epoch": 0.908521011732341,
      "eval_loss": 4.588865280151367,
      "eval_runtime": 194.2101,
      "eval_samples_per_second": 51.491,
      "eval_steps_per_second": 6.436,
      "step": 59800
    },
    {
      "epoch": 0.910040277638248,
      "grad_norm": 0.866371750831604,
      "learning_rate": 1.0033444816053512e-08,
      "loss": 4.7503,
      "step": 59900
    },
    {
      "epoch": 0.910040277638248,
      "eval_loss": 4.589888095855713,
      "eval_runtime": 194.6389,
      "eval_samples_per_second": 51.377,
      "eval_steps_per_second": 6.422,
      "step": 59900
    },
    {
      "epoch": 0.9115595435441549,
      "grad_norm": 0.7748922109603882,
      "learning_rate": 0.0,
      "loss": 4.7524,
      "step": 60000
    },
    {
      "epoch": 0.9115595435441549,
      "eval_loss": 4.588863372802734,
      "eval_runtime": 194.1121,
      "eval_samples_per_second": 51.517,
      "eval_steps_per_second": 6.44,
      "step": 60000
    }
  ],
  "logging_steps": 100,
  "max_steps": 60000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 7.15783283933184e+19,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}