{
  "best_global_step": 28000,
  "best_metric": 2.380680799484253,
  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-28000",
  "epoch": 0.56,
  "eval_steps": 100,
  "global_step": 28000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0005,
      "grad_norm": 27.027176292677446,
      "learning_rate": 4.8e-08,
      "loss": 3.52,
      "step": 25
    },
    {
      "epoch": 0.001,
      "grad_norm": 22.883614597253285,
      "learning_rate": 9.8e-08,
      "loss": 3.4361,
      "step": 50
    },
    {
      "epoch": 0.0015,
      "grad_norm": 14.88008652186332,
      "learning_rate": 1.4800000000000003e-07,
      "loss": 3.2752,
      "step": 75
    },
    {
      "epoch": 0.002,
      "grad_norm": 8.829920836438578,
      "learning_rate": 1.9800000000000003e-07,
      "loss": 3.073,
      "step": 100
    },
    {
      "epoch": 0.002,
      "eval_loss": 2.8928089141845703,
      "eval_runtime": 31.5789,
      "eval_samples_per_second": 3.23,
      "eval_steps_per_second": 1.615,
      "step": 100
    },
    {
      "epoch": 0.0025,
      "grad_norm": 6.672581323543055,
      "learning_rate": 2.48e-07,
      "loss": 2.8787,
      "step": 125
    },
    {
      "epoch": 0.003,
      "grad_norm": 3.485187933164644,
      "learning_rate": 2.9800000000000005e-07,
      "loss": 2.7569,
      "step": 150
    },
    {
      "epoch": 0.0035,
      "grad_norm": 1.6514027733962566,
      "learning_rate": 3.48e-07,
      "loss": 2.683,
      "step": 175
    },
    {
      "epoch": 0.004,
      "grad_norm": 1.714322054077562,
      "learning_rate": 3.9800000000000004e-07,
      "loss": 2.6417,
      "step": 200
    },
    {
      "epoch": 0.004,
      "eval_loss": 2.608551263809204,
      "eval_runtime": 31.7434,
      "eval_samples_per_second": 3.213,
      "eval_steps_per_second": 1.607,
      "step": 200
    },
    {
      "epoch": 0.0045,
      "grad_norm": 1.1166252829937406,
      "learning_rate": 4.4800000000000004e-07,
      "loss": 2.6075,
      "step": 225
    },
    {
      "epoch": 0.005,
      "grad_norm": 1.2360541139925998,
      "learning_rate": 4.98e-07,
      "loss": 2.5833,
      "step": 250
    },
    {
      "epoch": 0.0055,
      "grad_norm": 1.1186934925325145,
      "learning_rate": 5.480000000000001e-07,
      "loss": 2.568,
      "step": 275
    },
    {
      "epoch": 0.006,
      "grad_norm": 2.2165517261683907,
      "learning_rate": 5.98e-07,
      "loss": 2.5488,
      "step": 300
    },
    {
      "epoch": 0.006,
      "eval_loss": 2.532663345336914,
      "eval_runtime": 31.7717,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 300
    },
    {
      "epoch": 0.0065,
      "grad_norm": 1.9955553189401838,
      "learning_rate": 6.48e-07,
      "loss": 2.5186,
      "step": 325
    },
    {
      "epoch": 0.007,
      "grad_norm": 1.7134269827298882,
      "learning_rate": 6.98e-07,
      "loss": 2.5133,
      "step": 350
    },
    {
      "epoch": 0.0075,
      "grad_norm": 4.086994695184575,
      "learning_rate": 7.480000000000001e-07,
      "loss": 2.4979,
      "step": 375
    },
    {
      "epoch": 0.008,
      "grad_norm": 2.2539165526987732,
      "learning_rate": 7.98e-07,
      "loss": 2.49,
      "step": 400
    },
    {
      "epoch": 0.008,
      "eval_loss": 2.4952430725097656,
      "eval_runtime": 31.9652,
      "eval_samples_per_second": 3.191,
      "eval_steps_per_second": 1.595,
      "step": 400
    },
    {
      "epoch": 0.0085,
      "grad_norm": 1.138897058010547,
      "learning_rate": 8.480000000000001e-07,
      "loss": 2.4748,
      "step": 425
    },
    {
      "epoch": 0.009,
      "grad_norm": 1.0112216946364496,
      "learning_rate": 8.980000000000001e-07,
      "loss": 2.4801,
      "step": 450
    },
    {
      "epoch": 0.0095,
      "grad_norm": 1.3243191157122005,
      "learning_rate": 9.480000000000001e-07,
      "loss": 2.4699,
      "step": 475
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.2276747327077127,
      "learning_rate": 9.98e-07,
      "loss": 2.468,
      "step": 500
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.4748668670654297,
      "eval_runtime": 31.7813,
      "eval_samples_per_second": 3.209,
      "eval_steps_per_second": 1.605,
      "step": 500
    },
    {
      "epoch": 0.0105,
      "grad_norm": 0.845856364918703,
      "learning_rate": 1.0480000000000002e-06,
      "loss": 2.4738,
      "step": 525
    },
    {
      "epoch": 0.011,
      "grad_norm": 1.3677643157822397,
      "learning_rate": 1.0980000000000001e-06,
      "loss": 2.4535,
      "step": 550
    },
    {
      "epoch": 0.0115,
      "grad_norm": 2.919464896391848,
      "learning_rate": 1.148e-06,
      "loss": 2.4558,
      "step": 575
    },
    {
      "epoch": 0.012,
      "grad_norm": 0.9435018771336037,
      "learning_rate": 1.1980000000000002e-06,
      "loss": 2.4568,
      "step": 600
    },
    {
      "epoch": 0.012,
      "eval_loss": 2.4655494689941406,
      "eval_runtime": 31.7457,
      "eval_samples_per_second": 3.213,
      "eval_steps_per_second": 1.607,
      "step": 600
    },
    {
      "epoch": 0.0125,
      "grad_norm": 0.844314601352543,
      "learning_rate": 1.248e-06,
      "loss": 2.4493,
      "step": 625
    },
    {
      "epoch": 0.013,
      "grad_norm": 0.8266693044311944,
      "learning_rate": 1.2980000000000001e-06,
      "loss": 2.4491,
      "step": 650
    },
    {
      "epoch": 0.0135,
      "grad_norm": 0.9456226537014805,
      "learning_rate": 1.348e-06,
      "loss": 2.4538,
      "step": 675
    },
    {
      "epoch": 0.014,
      "grad_norm": 1.241067240172021,
      "learning_rate": 1.3980000000000002e-06,
      "loss": 2.441,
      "step": 700
    },
    {
      "epoch": 0.014,
      "eval_loss": 2.459726572036743,
      "eval_runtime": 31.7996,
      "eval_samples_per_second": 3.208,
      "eval_steps_per_second": 1.604,
      "step": 700
    },
    {
      "epoch": 0.0145,
      "grad_norm": 0.8214981637560076,
      "learning_rate": 1.4480000000000002e-06,
      "loss": 2.4375,
      "step": 725
    },
    {
      "epoch": 0.015,
      "grad_norm": 0.8463041725741063,
      "learning_rate": 1.498e-06,
      "loss": 2.4476,
      "step": 750
    },
    {
      "epoch": 0.0155,
      "grad_norm": 1.0459233803315569,
      "learning_rate": 1.548e-06,
      "loss": 2.4388,
      "step": 775
    },
    {
      "epoch": 0.016,
      "grad_norm": 0.7899668512736558,
      "learning_rate": 1.5980000000000002e-06,
      "loss": 2.4376,
      "step": 800
    },
    {
      "epoch": 0.016,
      "eval_loss": 2.4541866779327393,
      "eval_runtime": 31.8537,
      "eval_samples_per_second": 3.202,
      "eval_steps_per_second": 1.601,
      "step": 800
    },
    {
      "epoch": 0.0165,
      "grad_norm": 0.8397014905084252,
      "learning_rate": 1.6480000000000001e-06,
      "loss": 2.436,
      "step": 825
    },
    {
      "epoch": 0.017,
      "grad_norm": 0.7623848831497283,
      "learning_rate": 1.6980000000000003e-06,
      "loss": 2.4384,
      "step": 850
    },
    {
      "epoch": 0.0175,
      "grad_norm": 0.7990535915346776,
      "learning_rate": 1.7480000000000002e-06,
      "loss": 2.4388,
      "step": 875
    },
    {
      "epoch": 0.018,
      "grad_norm": 1.1027343926443682,
      "learning_rate": 1.798e-06,
      "loss": 2.4195,
      "step": 900
    },
    {
      "epoch": 0.018,
      "eval_loss": 2.4497900009155273,
      "eval_runtime": 32.04,
      "eval_samples_per_second": 3.184,
      "eval_steps_per_second": 1.592,
      "step": 900
    },
    {
      "epoch": 0.0185,
      "grad_norm": 1.0518607606934676,
      "learning_rate": 1.8480000000000001e-06,
      "loss": 2.441,
      "step": 925
    },
    {
      "epoch": 0.019,
      "grad_norm": 0.7969899064558551,
      "learning_rate": 1.898e-06,
      "loss": 2.4416,
      "step": 950
    },
    {
      "epoch": 0.0195,
      "grad_norm": 0.6779464500616844,
      "learning_rate": 1.9480000000000002e-06,
      "loss": 2.4397,
      "step": 975
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.8662904314628106,
      "learning_rate": 1.998e-06,
      "loss": 2.4316,
      "step": 1000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.4468765258789062,
      "eval_runtime": 31.891,
      "eval_samples_per_second": 3.198,
      "eval_steps_per_second": 1.599,
      "step": 1000
    },
    {
      "epoch": 0.0205,
      "grad_norm": 0.6931713924838875,
      "learning_rate": 2.048e-06,
      "loss": 2.4456,
      "step": 1025
    },
    {
      "epoch": 0.021,
      "grad_norm": 0.6887441871643851,
      "learning_rate": 2.098e-06,
      "loss": 2.4253,
      "step": 1050
    },
    {
      "epoch": 0.0215,
      "grad_norm": 0.7500338911423412,
      "learning_rate": 2.148e-06,
      "loss": 2.431,
      "step": 1075
    },
    {
      "epoch": 0.022,
      "grad_norm": 0.7458051760406093,
      "learning_rate": 2.198e-06,
      "loss": 2.4164,
      "step": 1100
    },
    {
      "epoch": 0.022,
      "eval_loss": 2.4442293643951416,
      "eval_runtime": 31.8697,
      "eval_samples_per_second": 3.201,
      "eval_steps_per_second": 1.6,
      "step": 1100
    },
    {
      "epoch": 0.0225,
      "grad_norm": 0.8345425864188605,
      "learning_rate": 2.2480000000000003e-06,
      "loss": 2.4241,
      "step": 1125
    },
    {
      "epoch": 0.023,
      "grad_norm": 0.6997049438769294,
      "learning_rate": 2.2980000000000003e-06,
      "loss": 2.43,
      "step": 1150
    },
    {
      "epoch": 0.0235,
      "grad_norm": 0.7476759709197881,
      "learning_rate": 2.3480000000000002e-06,
      "loss": 2.4342,
      "step": 1175
    },
    {
      "epoch": 0.024,
      "grad_norm": 0.6735584083816767,
      "learning_rate": 2.398e-06,
      "loss": 2.4274,
      "step": 1200
    },
    {
      "epoch": 0.024,
      "eval_loss": 2.4423961639404297,
      "eval_runtime": 31.6272,
      "eval_samples_per_second": 3.225,
      "eval_steps_per_second": 1.613,
      "step": 1200
    },
    {
      "epoch": 0.0245,
      "grad_norm": 0.7414830106555006,
      "learning_rate": 2.448e-06,
      "loss": 2.4363,
      "step": 1225
    },
    {
      "epoch": 0.025,
      "grad_norm": 0.7852755880662065,
      "learning_rate": 2.498e-06,
      "loss": 2.4356,
      "step": 1250
    },
    {
      "epoch": 0.0255,
      "grad_norm": 0.6550676975591231,
      "learning_rate": 2.5480000000000004e-06,
      "loss": 2.4219,
      "step": 1275
    },
    {
      "epoch": 0.026,
      "grad_norm": 0.6708503716821785,
      "learning_rate": 2.598e-06,
      "loss": 2.4442,
      "step": 1300
    },
    {
      "epoch": 0.026,
      "eval_loss": 2.440678358078003,
      "eval_runtime": 31.7661,
      "eval_samples_per_second": 3.211,
      "eval_steps_per_second": 1.605,
      "step": 1300
    },
    {
      "epoch": 0.0265,
      "grad_norm": 0.6923805904104993,
      "learning_rate": 2.648e-06,
      "loss": 2.4317,
      "step": 1325
    },
    {
      "epoch": 0.027,
      "grad_norm": 0.6600109660858106,
      "learning_rate": 2.6980000000000003e-06,
      "loss": 2.432,
      "step": 1350
    },
    {
      "epoch": 0.0275,
      "grad_norm": 0.841715383150229,
      "learning_rate": 2.748e-06,
      "loss": 2.4196,
      "step": 1375
    },
    {
      "epoch": 0.028,
      "grad_norm": 0.6392005959511108,
      "learning_rate": 2.798e-06,
      "loss": 2.4274,
      "step": 1400
    },
    {
      "epoch": 0.028,
      "eval_loss": 2.439229726791382,
      "eval_runtime": 32.0465,
      "eval_samples_per_second": 3.183,
      "eval_steps_per_second": 1.591,
      "step": 1400
    },
    {
      "epoch": 0.0285,
      "grad_norm": 0.6653339947473879,
      "learning_rate": 2.848e-06,
      "loss": 2.4209,
      "step": 1425
    },
    {
      "epoch": 0.029,
      "grad_norm": 0.6607591145573396,
      "learning_rate": 2.8980000000000005e-06,
      "loss": 2.4111,
      "step": 1450
    },
    {
      "epoch": 0.0295,
      "grad_norm": 0.6492342012137399,
      "learning_rate": 2.9480000000000004e-06,
      "loss": 2.4319,
      "step": 1475
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.6418256237639189,
      "learning_rate": 2.9980000000000003e-06,
      "loss": 2.4257,
      "step": 1500
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.4380884170532227,
      "eval_runtime": 32.1017,
      "eval_samples_per_second": 3.177,
      "eval_steps_per_second": 1.589,
      "step": 1500
    },
    {
      "epoch": 0.0305,
      "grad_norm": 0.719808061901716,
      "learning_rate": 3.0480000000000003e-06,
      "loss": 2.4305,
      "step": 1525
    },
    {
      "epoch": 0.031,
      "grad_norm": 0.6138892760464039,
      "learning_rate": 3.0980000000000007e-06,
      "loss": 2.4253,
      "step": 1550
    },
    {
      "epoch": 0.0315,
      "grad_norm": 0.7179717159222389,
      "learning_rate": 3.1480000000000006e-06,
      "loss": 2.4286,
      "step": 1575
    },
    {
      "epoch": 0.032,
      "grad_norm": 0.6337699388954209,
      "learning_rate": 3.198e-06,
      "loss": 2.4281,
      "step": 1600
    },
    {
      "epoch": 0.032,
      "eval_loss": 2.4367759227752686,
      "eval_runtime": 32.1865,
      "eval_samples_per_second": 3.169,
      "eval_steps_per_second": 1.585,
      "step": 1600
    },
    {
      "epoch": 0.0325,
      "grad_norm": 0.6399383081078225,
      "learning_rate": 3.248e-06,
      "loss": 2.4127,
      "step": 1625
    },
    {
      "epoch": 0.033,
      "grad_norm": 0.6239480160142674,
      "learning_rate": 3.298e-06,
      "loss": 2.4271,
      "step": 1650
    },
    {
      "epoch": 0.0335,
      "grad_norm": 0.6964721038747086,
      "learning_rate": 3.348e-06,
      "loss": 2.4168,
      "step": 1675
    },
    {
      "epoch": 0.034,
      "grad_norm": 0.6246300346633158,
      "learning_rate": 3.3980000000000003e-06,
      "loss": 2.4312,
      "step": 1700
    },
    {
      "epoch": 0.034,
      "eval_loss": 2.43576717376709,
      "eval_runtime": 32.35,
      "eval_samples_per_second": 3.153,
      "eval_steps_per_second": 1.577,
      "step": 1700
    },
    {
      "epoch": 0.0345,
      "grad_norm": 0.6609046760569887,
      "learning_rate": 3.4480000000000003e-06,
      "loss": 2.4201,
      "step": 1725
    },
    {
      "epoch": 0.035,
      "grad_norm": 0.611833218468793,
      "learning_rate": 3.4980000000000002e-06,
      "loss": 2.4248,
      "step": 1750
    },
    {
      "epoch": 0.0355,
      "grad_norm": 0.6374610168215615,
      "learning_rate": 3.548e-06,
      "loss": 2.4195,
      "step": 1775
    },
    {
      "epoch": 0.036,
      "grad_norm": 0.608911757784224,
      "learning_rate": 3.5980000000000005e-06,
      "loss": 2.4207,
      "step": 1800
    },
    {
      "epoch": 0.036,
      "eval_loss": 2.4352190494537354,
      "eval_runtime": 32.4107,
      "eval_samples_per_second": 3.147,
      "eval_steps_per_second": 1.574,
      "step": 1800
    },
    {
      "epoch": 0.0365,
      "grad_norm": 0.7277576842118675,
      "learning_rate": 3.6480000000000005e-06,
      "loss": 2.429,
      "step": 1825
    },
    {
      "epoch": 0.037,
      "grad_norm": 0.6177267450079238,
      "learning_rate": 3.6980000000000004e-06,
      "loss": 2.4216,
      "step": 1850
    },
    {
      "epoch": 0.0375,
      "grad_norm": 0.6909621222715888,
      "learning_rate": 3.7480000000000004e-06,
      "loss": 2.4141,
      "step": 1875
    },
    {
      "epoch": 0.038,
      "grad_norm": 0.6271064789808471,
      "learning_rate": 3.7980000000000007e-06,
      "loss": 2.4204,
      "step": 1900
    },
    {
      "epoch": 0.038,
      "eval_loss": 2.434185743331909,
      "eval_runtime": 32.1923,
      "eval_samples_per_second": 3.168,
      "eval_steps_per_second": 1.584,
      "step": 1900
    },
    {
      "epoch": 0.0385,
      "grad_norm": 4.465543129416645,
      "learning_rate": 3.848e-06,
      "loss": 2.4278,
      "step": 1925
    },
    {
      "epoch": 0.039,
      "grad_norm": 0.59428248175071,
      "learning_rate": 3.898e-06,
      "loss": 2.4231,
      "step": 1950
    },
    {
      "epoch": 0.0395,
      "grad_norm": 0.6300066797920092,
      "learning_rate": 3.948e-06,
      "loss": 2.4163,
      "step": 1975
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5995770487766363,
      "learning_rate": 3.9980000000000005e-06,
      "loss": 2.4236,
      "step": 2000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.433772563934326,
      "eval_runtime": 32.062,
      "eval_samples_per_second": 3.181,
      "eval_steps_per_second": 1.591,
      "step": 2000
    },
    {
      "epoch": 0.0405,
      "grad_norm": 0.595289417756029,
      "learning_rate": 4.048e-06,
      "loss": 2.424,
      "step": 2025
    },
    {
      "epoch": 0.041,
      "grad_norm": 0.6134282240517589,
      "learning_rate": 4.098e-06,
      "loss": 2.4255,
      "step": 2050
    },
    {
      "epoch": 0.0415,
      "grad_norm": 0.6629564791128602,
      "learning_rate": 4.148000000000001e-06,
      "loss": 2.4097,
      "step": 2075
    },
    {
      "epoch": 0.042,
      "grad_norm": 0.621927005205136,
      "learning_rate": 4.198e-06,
      "loss": 2.4268,
      "step": 2100
    },
    {
      "epoch": 0.042,
      "eval_loss": 2.433004379272461,
      "eval_runtime": 32.0064,
      "eval_samples_per_second": 3.187,
      "eval_steps_per_second": 1.593,
      "step": 2100
    },
    {
      "epoch": 0.0425,
      "grad_norm": 0.5955395744872489,
      "learning_rate": 4.248000000000001e-06,
      "loss": 2.4134,
      "step": 2125
    },
    {
      "epoch": 0.043,
      "grad_norm": 0.630503522814338,
      "learning_rate": 4.298e-06,
      "loss": 2.4195,
      "step": 2150
    },
    {
      "epoch": 0.0435,
      "grad_norm": 0.6187515125513555,
      "learning_rate": 4.3480000000000006e-06,
      "loss": 2.4258,
      "step": 2175
    },
    {
      "epoch": 0.044,
      "grad_norm": 0.7454395191545767,
      "learning_rate": 4.398000000000001e-06,
      "loss": 2.4226,
      "step": 2200
    },
    {
      "epoch": 0.044,
      "eval_loss": 2.4322543144226074,
      "eval_runtime": 31.9813,
      "eval_samples_per_second": 3.189,
      "eval_steps_per_second": 1.595,
      "step": 2200
    },
    {
      "epoch": 0.0445,
      "grad_norm": 0.6347211303495337,
      "learning_rate": 4.4480000000000004e-06,
      "loss": 2.4191,
      "step": 2225
    },
    {
      "epoch": 0.045,
      "grad_norm": 0.6135245446733344,
      "learning_rate": 4.498e-06,
      "loss": 2.4229,
      "step": 2250
    },
    {
      "epoch": 0.0455,
      "grad_norm": 0.6009500019971098,
      "learning_rate": 4.548e-06,
      "loss": 2.42,
      "step": 2275
    },
    {
      "epoch": 0.046,
      "grad_norm": 0.661258489557284,
      "learning_rate": 4.598e-06,
      "loss": 2.4129,
      "step": 2300
    },
    {
      "epoch": 0.046,
      "eval_loss": 2.432189464569092,
      "eval_runtime": 31.9429,
      "eval_samples_per_second": 3.193,
      "eval_steps_per_second": 1.597,
      "step": 2300
    },
    {
      "epoch": 0.0465,
      "grad_norm": 0.6139592783182132,
      "learning_rate": 4.648e-06,
      "loss": 2.4104,
      "step": 2325
    },
    {
      "epoch": 0.047,
      "grad_norm": 0.583220993400474,
      "learning_rate": 4.698000000000001e-06,
      "loss": 2.4244,
      "step": 2350
    },
    {
      "epoch": 0.0475,
      "grad_norm": 0.6293186545915876,
      "learning_rate": 4.748e-06,
      "loss": 2.4225,
      "step": 2375
    },
    {
      "epoch": 0.048,
      "grad_norm": 0.5798657043139257,
      "learning_rate": 4.7980000000000005e-06,
      "loss": 2.4283,
      "step": 2400
    },
    {
      "epoch": 0.048,
      "eval_loss": 2.4312729835510254,
      "eval_runtime": 31.7379,
      "eval_samples_per_second": 3.214,
      "eval_steps_per_second": 1.607,
      "step": 2400
    },
    {
      "epoch": 0.0485,
      "grad_norm": 0.6301056488676946,
      "learning_rate": 4.848000000000001e-06,
      "loss": 2.4238,
      "step": 2425
    },
    {
      "epoch": 0.049,
      "grad_norm": 0.6050753634716797,
      "learning_rate": 4.898e-06,
      "loss": 2.4209,
      "step": 2450
    },
    {
      "epoch": 0.0495,
      "grad_norm": 0.5954330421177886,
      "learning_rate": 4.948000000000001e-06,
      "loss": 2.4208,
      "step": 2475
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.6115913011006808,
      "learning_rate": 4.998e-06,
      "loss": 2.4199,
      "step": 2500
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.430593490600586,
      "eval_runtime": 31.7859,
      "eval_samples_per_second": 3.209,
      "eval_steps_per_second": 1.604,
      "step": 2500
    },
    {
      "epoch": 0.0505,
      "grad_norm": 0.6088167798442012,
      "learning_rate": 5.048000000000001e-06,
      "loss": 2.4204,
      "step": 2525
    },
    {
      "epoch": 0.051,
      "grad_norm": 0.5886456022713933,
      "learning_rate": 5.098000000000001e-06,
      "loss": 2.4233,
      "step": 2550
    },
    {
      "epoch": 0.0515,
      "grad_norm": 0.5755814876588983,
      "learning_rate": 5.1480000000000005e-06,
      "loss": 2.414,
      "step": 2575
    },
    {
      "epoch": 0.052,
      "grad_norm": 0.6101796511458513,
      "learning_rate": 5.198000000000001e-06,
      "loss": 2.4134,
      "step": 2600
    },
    {
      "epoch": 0.052,
      "eval_loss": 2.430147886276245,
      "eval_runtime": 31.667,
      "eval_samples_per_second": 3.221,
      "eval_steps_per_second": 1.611,
      "step": 2600
    },
    {
      "epoch": 0.0525,
      "grad_norm": 0.5829483894700689,
      "learning_rate": 5.248000000000001e-06,
      "loss": 2.4176,
      "step": 2625
    },
    {
      "epoch": 0.053,
      "grad_norm": 0.5756679405925968,
      "learning_rate": 5.298000000000001e-06,
      "loss": 2.4196,
      "step": 2650
    },
    {
      "epoch": 0.0535,
      "grad_norm": 0.6203149656143291,
      "learning_rate": 5.348000000000001e-06,
      "loss": 2.4128,
      "step": 2675
    },
    {
      "epoch": 0.054,
      "grad_norm": 0.6107431848759605,
      "learning_rate": 5.398e-06,
      "loss": 2.4066,
      "step": 2700
    },
    {
      "epoch": 0.054,
      "eval_loss": 2.4298744201660156,
      "eval_runtime": 31.8888,
      "eval_samples_per_second": 3.199,
      "eval_steps_per_second": 1.599,
      "step": 2700
    },
    {
      "epoch": 0.0545,
      "grad_norm": 0.6313360362618398,
      "learning_rate": 5.448e-06,
      "loss": 2.4116,
      "step": 2725
    },
    {
      "epoch": 0.055,
      "grad_norm": 0.7567581764202255,
      "learning_rate": 5.498e-06,
      "loss": 2.4137,
      "step": 2750
    },
    {
      "epoch": 0.0555,
      "grad_norm": 0.5808819096916863,
      "learning_rate": 5.548e-06,
      "loss": 2.4261,
      "step": 2775
    },
    {
      "epoch": 0.056,
      "grad_norm": 0.7401050453151701,
      "learning_rate": 5.5980000000000004e-06,
      "loss": 2.4102,
      "step": 2800
    },
    {
      "epoch": 0.056,
      "eval_loss": 2.429075002670288,
      "eval_runtime": 31.9187,
      "eval_samples_per_second": 3.196,
      "eval_steps_per_second": 1.598,
      "step": 2800
    },
    {
      "epoch": 0.0565,
      "grad_norm": 0.6100412128745759,
      "learning_rate": 5.648e-06,
      "loss": 2.4205,
      "step": 2825
    },
    {
      "epoch": 0.057,
      "grad_norm": 0.6038298357908357,
      "learning_rate": 5.698e-06,
      "loss": 2.4104,
      "step": 2850
    },
    {
      "epoch": 0.0575,
      "grad_norm": 0.6294303689076208,
      "learning_rate": 5.748e-06,
      "loss": 2.4101,
      "step": 2875
    },
    {
      "epoch": 0.058,
      "grad_norm": 0.6000316496044382,
      "learning_rate": 5.798e-06,
      "loss": 2.4116,
      "step": 2900
    },
    {
      "epoch": 0.058,
      "eval_loss": 2.428636074066162,
      "eval_runtime": 31.9776,
      "eval_samples_per_second": 3.19,
      "eval_steps_per_second": 1.595,
      "step": 2900
    },
    {
      "epoch": 0.0585,
      "grad_norm": 0.6662370599985865,
      "learning_rate": 5.848000000000001e-06,
      "loss": 2.4271,
      "step": 2925
    },
    {
      "epoch": 0.059,
      "grad_norm": 0.6065686333783092,
      "learning_rate": 5.898e-06,
      "loss": 2.4141,
      "step": 2950
    },
    {
      "epoch": 0.0595,
      "grad_norm": 0.5896191268179571,
      "learning_rate": 5.9480000000000005e-06,
      "loss": 2.4194,
      "step": 2975
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5984986372167933,
      "learning_rate": 5.998000000000001e-06,
      "loss": 2.4107,
      "step": 3000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.428344488143921,
      "eval_runtime": 31.827,
      "eval_samples_per_second": 3.205,
      "eval_steps_per_second": 1.602,
      "step": 3000
    },
    {
      "epoch": 0.0605,
      "grad_norm": 0.6057904687423932,
      "learning_rate": 6.048e-06,
      "loss": 2.4231,
      "step": 3025
    },
    {
      "epoch": 0.061,
      "grad_norm": 0.5775023699888965,
      "learning_rate": 6.098000000000001e-06,
      "loss": 2.4193,
      "step": 3050
    },
    {
      "epoch": 0.0615,
      "grad_norm": 0.5945486563983137,
      "learning_rate": 6.148e-06,
      "loss": 2.4101,
      "step": 3075
    },
    {
      "epoch": 0.062,
      "grad_norm": 0.5893073406656858,
      "learning_rate": 6.198000000000001e-06,
      "loss": 2.41,
      "step": 3100
    },
    {
      "epoch": 0.062,
      "eval_loss": 2.4278364181518555,
      "eval_runtime": 31.4582,
      "eval_samples_per_second": 3.242,
      "eval_steps_per_second": 1.621,
      "step": 3100
    },
    {
      "epoch": 0.0625,
      "grad_norm": 0.6413551002827471,
      "learning_rate": 6.248000000000001e-06,
      "loss": 2.4155,
      "step": 3125
    },
    {
      "epoch": 0.063,
      "grad_norm": 0.5799664342522566,
      "learning_rate": 6.2980000000000005e-06,
      "loss": 2.409,
      "step": 3150
    },
    {
      "epoch": 0.0635,
      "grad_norm": 0.5811811320062699,
      "learning_rate": 6.348000000000001e-06,
      "loss": 2.4103,
      "step": 3175
    },
    {
      "epoch": 0.064,
      "grad_norm": 1.7009375984265656,
      "learning_rate": 6.398000000000001e-06,
      "loss": 2.4063,
      "step": 3200
    },
    {
      "epoch": 0.064,
      "eval_loss": 2.4270801544189453,
      "eval_runtime": 31.5638,
      "eval_samples_per_second": 3.232,
      "eval_steps_per_second": 1.616,
      "step": 3200
    },
    {
      "epoch": 0.0645,
      "grad_norm": 0.5922661228031734,
      "learning_rate": 6.448000000000001e-06,
      "loss": 2.4146,
      "step": 3225
    },
    {
      "epoch": 0.065,
      "grad_norm": 0.6108654698148237,
      "learning_rate": 6.498000000000001e-06,
      "loss": 2.4202,
      "step": 3250
    },
    {
      "epoch": 0.0655,
      "grad_norm": 0.5882408729466215,
      "learning_rate": 6.548000000000001e-06,
      "loss": 2.4226,
      "step": 3275
    },
    {
      "epoch": 0.066,
      "grad_norm": 0.6095634937429834,
      "learning_rate": 6.598000000000001e-06,
      "loss": 2.4175,
      "step": 3300
    },
    {
      "epoch": 0.066,
      "eval_loss": 2.4271743297576904,
      "eval_runtime": 31.605,
      "eval_samples_per_second": 3.227,
      "eval_steps_per_second": 1.614,
      "step": 3300
    },
    {
      "epoch": 0.0665,
      "grad_norm": 0.584006486469731,
      "learning_rate": 6.648e-06,
      "loss": 2.4183,
      "step": 3325
    },
    {
      "epoch": 0.067,
      "grad_norm": 0.6183114977641251,
      "learning_rate": 6.698e-06,
      "loss": 2.4074,
      "step": 3350
    },
    {
      "epoch": 0.0675,
      "grad_norm": 0.6102359150325862,
      "learning_rate": 6.7480000000000004e-06,
      "loss": 2.4168,
      "step": 3375
    },
    {
      "epoch": 0.068,
      "grad_norm": 0.6988080460632056,
      "learning_rate": 6.798e-06,
      "loss": 2.433,
      "step": 3400
    },
    {
      "epoch": 0.068,
      "eval_loss": 2.4267990589141846,
      "eval_runtime": 31.5337,
      "eval_samples_per_second": 3.235,
      "eval_steps_per_second": 1.617,
      "step": 3400
    },
    {
      "epoch": 0.0685,
      "grad_norm": 0.5923385092093629,
      "learning_rate": 6.848e-06,
      "loss": 2.4137,
      "step": 3425
    },
    {
      "epoch": 0.069,
      "grad_norm": 0.5873912274008383,
      "learning_rate": 6.898e-06,
      "loss": 2.4183,
      "step": 3450
    },
    {
      "epoch": 0.0695,
      "grad_norm": 0.5885684717655756,
      "learning_rate": 6.948e-06,
      "loss": 2.4282,
      "step": 3475
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6026217656458652,
      "learning_rate": 6.998000000000001e-06,
      "loss": 2.4234,
      "step": 3500
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.4262564182281494,
      "eval_runtime": 31.7503,
      "eval_samples_per_second": 3.213,
      "eval_steps_per_second": 1.606,
      "step": 3500
    },
    {
      "epoch": 0.0705,
      "grad_norm": 0.5820881270462898,
      "learning_rate": 7.048e-06,
      "loss": 2.413,
      "step": 3525
    },
    {
      "epoch": 0.071,
      "grad_norm": 0.6178510668793894,
      "learning_rate": 7.0980000000000005e-06,
      "loss": 2.3954,
      "step": 3550
    },
    {
      "epoch": 0.0715,
      "grad_norm": 0.6186160369787075,
      "learning_rate": 7.148000000000001e-06,
      "loss": 2.4153,
      "step": 3575
    },
    {
      "epoch": 0.072,
      "grad_norm": 0.6053079331192983,
      "learning_rate": 7.198e-06,
      "loss": 2.4061,
      "step": 3600
    },
    {
      "epoch": 0.072,
      "eval_loss": 2.4260003566741943,
      "eval_runtime": 31.4103,
      "eval_samples_per_second": 3.247,
      "eval_steps_per_second": 1.624,
      "step": 3600
    },
    {
      "epoch": 0.0725,
      "grad_norm": 0.6002224672812325,
      "learning_rate": 7.248000000000001e-06,
      "loss": 2.4062,
      "step": 3625
    },
    {
      "epoch": 0.073,
      "grad_norm": 0.616881726200715,
      "learning_rate": 7.298e-06,
      "loss": 2.4167,
      "step": 3650
    },
    {
      "epoch": 0.0735,
      "grad_norm": 0.6148731575970318,
      "learning_rate": 7.348000000000001e-06,
      "loss": 2.4123,
      "step": 3675
    },
    {
      "epoch": 0.074,
      "grad_norm": 0.6221338587681139,
      "learning_rate": 7.398000000000001e-06,
      "loss": 2.4199,
      "step": 3700
    },
    {
      "epoch": 0.074,
      "eval_loss": 2.4258594512939453,
      "eval_runtime": 31.717,
      "eval_samples_per_second": 3.216,
      "eval_steps_per_second": 1.608,
      "step": 3700
    },
    {
      "epoch": 0.0745,
      "grad_norm": 0.6024880998969679,
      "learning_rate": 7.4480000000000005e-06,
      "loss": 2.4187,
      "step": 3725
    },
    {
      "epoch": 0.075,
      "grad_norm": 0.5998431875234804,
      "learning_rate": 7.498000000000001e-06,
      "loss": 2.4045,
      "step": 3750
    },
    {
      "epoch": 0.0755,
      "grad_norm": 0.5963168253580089,
      "learning_rate": 7.548000000000001e-06,
      "loss": 2.4161,
      "step": 3775
    },
    {
      "epoch": 0.076,
      "grad_norm": 0.5891194096424622,
      "learning_rate": 7.598000000000001e-06,
      "loss": 2.4217,
      "step": 3800
    },
    {
      "epoch": 0.076,
      "eval_loss": 2.425435781478882,
      "eval_runtime": 32.0333,
      "eval_samples_per_second": 3.184,
      "eval_steps_per_second": 1.592,
      "step": 3800
    },
    {
      "epoch": 0.0765,
      "grad_norm": 0.6220515512248757,
      "learning_rate": 7.648e-06,
      "loss": 2.4115,
      "step": 3825
    },
    {
      "epoch": 0.077,
      "grad_norm": 0.592208980582776,
      "learning_rate": 7.698000000000002e-06,
      "loss": 2.4123,
      "step": 3850
    },
    {
      "epoch": 0.0775,
      "grad_norm": 0.6050688229723428,
      "learning_rate": 7.748000000000001e-06,
      "loss": 2.4124,
      "step": 3875
    },
    {
      "epoch": 0.078,
      "grad_norm": 0.6128946719272819,
      "learning_rate": 7.798e-06,
      "loss": 2.4167,
      "step": 3900
    },
    {
      "epoch": 0.078,
      "eval_loss": 2.4252073764801025,
      "eval_runtime": 31.7629,
      "eval_samples_per_second": 3.211,
      "eval_steps_per_second": 1.606,
      "step": 3900
    },
    {
      "epoch": 0.0785,
      "grad_norm": 0.6300203936594084,
      "learning_rate": 7.848000000000002e-06,
      "loss": 2.4253,
      "step": 3925
    },
    {
      "epoch": 0.079,
      "grad_norm": 0.622492494084331,
      "learning_rate": 7.898e-06,
      "loss": 2.4126,
      "step": 3950
    },
    {
      "epoch": 0.0795,
      "grad_norm": 0.6054040520886763,
      "learning_rate": 7.948e-06,
      "loss": 2.4082,
      "step": 3975
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5997365393444213,
      "learning_rate": 7.998e-06,
      "loss": 2.4187,
      "step": 4000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.4248712062835693,
      "eval_runtime": 31.7678,
      "eval_samples_per_second": 3.211,
      "eval_steps_per_second": 1.605,
      "step": 4000
    },
    {
      "epoch": 0.0805,
      "grad_norm": 0.5914805613039377,
      "learning_rate": 8.048e-06,
      "loss": 2.4136,
      "step": 4025
    },
    {
      "epoch": 0.081,
      "grad_norm": 0.6868999656119101,
      "learning_rate": 8.098000000000001e-06,
      "loss": 2.4071,
      "step": 4050
    },
    {
      "epoch": 0.0815,
      "grad_norm": 0.6116238023737347,
      "learning_rate": 8.148e-06,
      "loss": 2.399,
      "step": 4075
    },
    {
      "epoch": 0.082,
      "grad_norm": 0.6278682082032867,
      "learning_rate": 8.198e-06,
      "loss": 2.4147,
      "step": 4100
    },
    {
      "epoch": 0.082,
      "eval_loss": 2.424673318862915,
      "eval_runtime": 31.702,
      "eval_samples_per_second": 3.217,
      "eval_steps_per_second": 1.609,
      "step": 4100
    },
    {
      "epoch": 0.0825,
      "grad_norm": 0.652529340562497,
      "learning_rate": 8.248e-06,
      "loss": 2.4122,
      "step": 4125
    },
    {
      "epoch": 0.083,
      "grad_norm": 0.6241764244719189,
      "learning_rate": 8.298000000000001e-06,
      "loss": 2.4034,
      "step": 4150
    },
    {
      "epoch": 0.0835,
      "grad_norm": 0.6093599459247064,
      "learning_rate": 8.348e-06,
      "loss": 2.4184,
      "step": 4175
    },
    {
      "epoch": 0.084,
      "grad_norm": 0.6145457262520279,
      "learning_rate": 8.398e-06,
      "loss": 2.4099,
      "step": 4200
    },
    {
      "epoch": 0.084,
      "eval_loss": 2.424262046813965,
      "eval_runtime": 31.7126,
      "eval_samples_per_second": 3.216,
      "eval_steps_per_second": 1.608,
      "step": 4200
    },
    {
      "epoch": 0.0845,
      "grad_norm": 0.6094287468338311,
      "learning_rate": 8.448000000000001e-06,
      "loss": 2.413,
      "step": 4225
    },
    {
      "epoch": 0.085,
      "grad_norm": 0.6138052906293812,
      "learning_rate": 8.498e-06,
      "loss": 2.3935,
      "step": 4250
    },
    {
      "epoch": 0.0855,
      "grad_norm": 0.6122465571930669,
      "learning_rate": 8.548e-06,
      "loss": 2.4061,
      "step": 4275
    },
    {
      "epoch": 0.086,
      "grad_norm": 0.612830490698143,
      "learning_rate": 8.598000000000001e-06,
      "loss": 2.4112,
      "step": 4300
    },
    {
      "epoch": 0.086,
      "eval_loss": 2.4238767623901367,
      "eval_runtime": 31.7292,
      "eval_samples_per_second": 3.215,
      "eval_steps_per_second": 1.607,
      "step": 4300
    },
    {
      "epoch": 0.0865,
      "grad_norm": 0.628133619898939,
      "learning_rate": 8.648000000000001e-06,
      "loss": 2.4046,
      "step": 4325
    },
    {
      "epoch": 0.087,
      "grad_norm": 0.6496528950628708,
      "learning_rate": 8.698e-06,
      "loss": 2.4068,
      "step": 4350
    },
    {
      "epoch": 0.0875,
      "grad_norm": 0.5799286999894695,
      "learning_rate": 8.748000000000002e-06,
      "loss": 2.4072,
      "step": 4375
    },
    {
      "epoch": 0.088,
      "grad_norm": 0.5910425054287555,
      "learning_rate": 8.798000000000001e-06,
      "loss": 2.3926,
      "step": 4400
    },
    {
      "epoch": 0.088,
      "eval_loss": 2.4238674640655518,
      "eval_runtime": 31.7606,
      "eval_samples_per_second": 3.212,
      "eval_steps_per_second": 1.606,
      "step": 4400
    },
    {
      "epoch": 0.0885,
      "grad_norm": 0.6159620367072861,
      "learning_rate": 8.848e-06,
      "loss": 2.4115,
      "step": 4425
    },
    {
      "epoch": 0.089,
      "grad_norm": 0.6972746637095123,
      "learning_rate": 8.898000000000002e-06,
      "loss": 2.4105,
      "step": 4450
    },
    {
      "epoch": 0.0895,
      "grad_norm": 0.585353172093314,
      "learning_rate": 8.948000000000001e-06,
      "loss": 2.4198,
      "step": 4475
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6059468344943013,
      "learning_rate": 8.998000000000001e-06,
      "loss": 2.4069,
      "step": 4500
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.42350435256958,
      "eval_runtime": 31.6869,
      "eval_samples_per_second": 3.219,
      "eval_steps_per_second": 1.609,
      "step": 4500
    },
    {
      "epoch": 0.0905,
      "grad_norm": 0.6015924987371338,
      "learning_rate": 9.048e-06,
      "loss": 2.4081,
      "step": 4525
    },
    {
      "epoch": 0.091,
      "grad_norm": 0.6006000726208087,
      "learning_rate": 9.098000000000002e-06,
      "loss": 2.4079,
      "step": 4550
    },
    {
      "epoch": 0.0915,
      "grad_norm": 0.6334216081429662,
      "learning_rate": 9.148e-06,
      "loss": 2.4021,
      "step": 4575
    },
    {
      "epoch": 0.092,
      "grad_norm": 0.618758486975248,
      "learning_rate": 9.198e-06,
      "loss": 2.4191,
      "step": 4600
    },
    {
      "epoch": 0.092,
      "eval_loss": 2.42366361618042,
      "eval_runtime": 31.7351,
      "eval_samples_per_second": 3.214,
      "eval_steps_per_second": 1.607,
      "step": 4600
    },
    {
      "epoch": 0.0925,
      "grad_norm": 0.5982185393268022,
      "learning_rate": 9.248e-06,
      "loss": 2.4131,
      "step": 4625
    },
    {
      "epoch": 0.093,
      "grad_norm": 0.5778256378393931,
      "learning_rate": 9.298e-06,
      "loss": 2.4105,
      "step": 4650
    },
    {
      "epoch": 0.0935,
      "grad_norm": 0.5892823966497687,
      "learning_rate": 9.348000000000001e-06,
      "loss": 2.4146,
      "step": 4675
    },
    {
      "epoch": 0.094,
      "grad_norm": 0.6000897787974973,
      "learning_rate": 9.398e-06,
      "loss": 2.4141,
      "step": 4700
    },
    {
      "epoch": 0.094,
      "eval_loss": 2.4225125312805176,
      "eval_runtime": 31.7008,
      "eval_samples_per_second": 3.218,
      "eval_steps_per_second": 1.609,
      "step": 4700
    },
    {
      "epoch": 0.0945,
      "grad_norm": 0.6317324097500899,
      "learning_rate": 9.448e-06,
      "loss": 2.4157,
      "step": 4725
    },
    {
      "epoch": 0.095,
      "grad_norm": 0.6157270042215848,
      "learning_rate": 9.498000000000001e-06,
      "loss": 2.4091,
      "step": 4750
    },
    {
      "epoch": 0.0955,
      "grad_norm": 0.5753740107095965,
      "learning_rate": 9.548e-06,
      "loss": 2.4142,
      "step": 4775
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.6173977503240126,
      "learning_rate": 9.598e-06,
      "loss": 2.4083,
      "step": 4800
    },
    {
      "epoch": 0.096,
      "eval_loss": 2.422691583633423,
      "eval_runtime": 31.4709,
      "eval_samples_per_second": 3.241,
      "eval_steps_per_second": 1.621,
      "step": 4800
    },
    {
      "epoch": 0.0965,
      "grad_norm": 0.5942953368600239,
      "learning_rate": 9.648000000000001e-06,
      "loss": 2.4087,
      "step": 4825
    },
    {
      "epoch": 0.097,
      "grad_norm": 0.6555799317672051,
      "learning_rate": 9.698000000000001e-06,
      "loss": 2.4014,
      "step": 4850
    },
    {
      "epoch": 0.0975,
      "grad_norm": 0.5757950367748221,
      "learning_rate": 9.748e-06,
      "loss": 2.4068,
      "step": 4875
    },
    {
      "epoch": 0.098,
      "grad_norm": 0.632774385045014,
      "learning_rate": 9.798e-06,
      "loss": 2.4087,
      "step": 4900
    },
    {
      "epoch": 0.098,
      "eval_loss": 2.4220755100250244,
      "eval_runtime": 31.4352,
      "eval_samples_per_second": 3.245,
      "eval_steps_per_second": 1.622,
      "step": 4900
    },
    {
      "epoch": 0.0985,
      "grad_norm": 0.5781361622989438,
      "learning_rate": 9.848000000000001e-06,
      "loss": 2.4143,
      "step": 4925
    },
    {
      "epoch": 0.099,
      "grad_norm": 0.6262568188074606,
      "learning_rate": 9.898e-06,
      "loss": 2.4142,
      "step": 4950
    },
    {
      "epoch": 0.0995,
      "grad_norm": 0.6349024994263993,
      "learning_rate": 9.948e-06,
      "loss": 2.4086,
      "step": 4975
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5902257687086163,
      "learning_rate": 9.998000000000002e-06,
      "loss": 2.4075,
      "step": 5000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.4221627712249756,
      "eval_runtime": 31.4547,
      "eval_samples_per_second": 3.243,
      "eval_steps_per_second": 1.621,
      "step": 5000
    },
    {
      "epoch": 0.1005,
      "grad_norm": 0.6096554216132576,
      "learning_rate": 9.994666666666668e-06,
      "loss": 2.4056,
      "step": 5025
    },
    {
      "epoch": 0.101,
      "grad_norm": 0.6157713116203616,
      "learning_rate": 9.989111111111111e-06,
      "loss": 2.4104,
      "step": 5050
    },
    {
      "epoch": 0.1015,
      "grad_norm": 0.6100961136574927,
      "learning_rate": 9.983555555555556e-06,
      "loss": 2.4041,
      "step": 5075
    },
    {
      "epoch": 0.102,
      "grad_norm": 0.5965243725355741,
      "learning_rate": 9.978000000000002e-06,
      "loss": 2.406,
      "step": 5100
    },
    {
      "epoch": 0.102,
      "eval_loss": 2.4214208126068115,
      "eval_runtime": 31.4633,
      "eval_samples_per_second": 3.242,
      "eval_steps_per_second": 1.621,
      "step": 5100
    },
    {
      "epoch": 0.1025,
      "grad_norm": 0.7288147495415569,
      "learning_rate": 9.972444444444445e-06,
      "loss": 2.419,
      "step": 5125
    },
    {
      "epoch": 0.103,
      "grad_norm": 0.6027052437896476,
      "learning_rate": 9.966888888888889e-06,
      "loss": 2.4149,
      "step": 5150
    },
    {
      "epoch": 0.1035,
      "grad_norm": 0.6351514057651396,
      "learning_rate": 9.961333333333334e-06,
      "loss": 2.4053,
      "step": 5175
    },
    {
      "epoch": 0.104,
      "grad_norm": 0.5912339833990681,
      "learning_rate": 9.95577777777778e-06,
      "loss": 2.4099,
      "step": 5200
    },
    {
      "epoch": 0.104,
      "eval_loss": 2.4213571548461914,
      "eval_runtime": 31.7689,
      "eval_samples_per_second": 3.211,
      "eval_steps_per_second": 1.605,
      "step": 5200
    },
    {
      "epoch": 0.1045,
      "grad_norm": 0.6252419519280321,
      "learning_rate": 9.950222222222223e-06,
      "loss": 2.4044,
      "step": 5225
    },
    {
      "epoch": 0.105,
      "grad_norm": 0.5932871252062307,
      "learning_rate": 9.944666666666668e-06,
      "loss": 2.4041,
      "step": 5250
    },
    {
      "epoch": 0.1055,
      "grad_norm": 0.6265014889786313,
      "learning_rate": 9.939111111111112e-06,
      "loss": 2.4121,
      "step": 5275
    },
    {
      "epoch": 0.106,
      "grad_norm": 0.5586876350334784,
      "learning_rate": 9.933555555555557e-06,
      "loss": 2.4005,
      "step": 5300
    },
    {
      "epoch": 0.106,
      "eval_loss": 2.4209611415863037,
      "eval_runtime": 31.4697,
      "eval_samples_per_second": 3.241,
      "eval_steps_per_second": 1.621,
      "step": 5300
    },
    {
      "epoch": 0.1065,
      "grad_norm": 0.6208578145519013,
      "learning_rate": 9.928e-06,
      "loss": 2.4095,
      "step": 5325
    },
    {
      "epoch": 0.107,
      "grad_norm": 0.5761711209442947,
      "learning_rate": 9.922444444444446e-06,
      "loss": 2.411,
      "step": 5350
    },
    {
      "epoch": 0.1075,
      "grad_norm": 0.6259961321288001,
      "learning_rate": 9.91688888888889e-06,
      "loss": 2.4062,
      "step": 5375
    },
    {
      "epoch": 0.108,
      "grad_norm": 0.6636296843455429,
      "learning_rate": 9.911333333333335e-06,
      "loss": 2.411,
      "step": 5400
    },
    {
      "epoch": 0.108,
      "eval_loss": 2.420535087585449,
      "eval_runtime": 31.4447,
      "eval_samples_per_second": 3.244,
      "eval_steps_per_second": 1.622,
      "step": 5400
    },
    {
      "epoch": 0.1085,
      "grad_norm": 0.5977322049971575,
      "learning_rate": 9.905777777777778e-06,
      "loss": 2.4073,
      "step": 5425
    },
    {
      "epoch": 0.109,
      "grad_norm": 0.605286836273461,
      "learning_rate": 9.900222222222223e-06,
      "loss": 2.4023,
      "step": 5450
    },
    {
      "epoch": 0.1095,
      "grad_norm": 0.6244785501127309,
      "learning_rate": 9.894666666666669e-06,
      "loss": 2.4084,
      "step": 5475
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.6135442380195029,
      "learning_rate": 9.889111111111112e-06,
      "loss": 2.4068,
      "step": 5500
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.4201102256774902,
      "eval_runtime": 31.806,
      "eval_samples_per_second": 3.207,
      "eval_steps_per_second": 1.603,
      "step": 5500
    },
    {
      "epoch": 0.1105,
      "grad_norm": 0.6260082123047037,
      "learning_rate": 9.883555555555556e-06,
      "loss": 2.4053,
      "step": 5525
    },
    {
      "epoch": 0.111,
      "grad_norm": 0.5956336151974914,
      "learning_rate": 9.878000000000001e-06,
      "loss": 2.4152,
      "step": 5550
    },
    {
      "epoch": 0.1115,
      "grad_norm": 0.6149620176113736,
      "learning_rate": 9.872444444444446e-06,
      "loss": 2.4055,
      "step": 5575
    },
    {
      "epoch": 0.112,
      "grad_norm": 0.6326092489345128,
      "learning_rate": 9.86688888888889e-06,
      "loss": 2.3968,
      "step": 5600
    },
    {
      "epoch": 0.112,
      "eval_loss": 2.420125722885132,
      "eval_runtime": 31.8082,
      "eval_samples_per_second": 3.207,
      "eval_steps_per_second": 1.603,
      "step": 5600
    },
    {
      "epoch": 0.1125,
      "grad_norm": 0.6390446494212693,
      "learning_rate": 9.861333333333333e-06,
      "loss": 2.4045,
      "step": 5625
    },
    {
      "epoch": 0.113,
      "grad_norm": 0.6670896967232433,
      "learning_rate": 9.855777777777779e-06,
      "loss": 2.4013,
      "step": 5650
    },
    {
      "epoch": 0.1135,
      "grad_norm": 0.6185087617978746,
      "learning_rate": 9.850222222222224e-06,
      "loss": 2.4015,
      "step": 5675
    },
    {
      "epoch": 0.114,
      "grad_norm": 0.6040525454825223,
      "learning_rate": 9.844666666666667e-06,
      "loss": 2.4109,
      "step": 5700
    },
    {
      "epoch": 0.114,
      "eval_loss": 2.419764518737793,
      "eval_runtime": 31.7256,
      "eval_samples_per_second": 3.215,
      "eval_steps_per_second": 1.608,
      "step": 5700
    },
    {
      "epoch": 0.1145,
      "grad_norm": 0.6010942125132981,
      "learning_rate": 9.839111111111111e-06,
      "loss": 2.4092,
      "step": 5725
    },
    {
      "epoch": 0.115,
      "grad_norm": 0.602852118998295,
      "learning_rate": 9.833555555555556e-06,
      "loss": 2.414,
      "step": 5750
    },
    {
      "epoch": 0.1155,
      "grad_norm": 0.6189454944937772,
      "learning_rate": 9.828000000000001e-06,
      "loss": 2.4112,
      "step": 5775
    },
    {
      "epoch": 0.116,
      "grad_norm": 0.5871735622958322,
      "learning_rate": 9.822444444444445e-06,
      "loss": 2.3993,
      "step": 5800
    },
    {
      "epoch": 0.116,
      "eval_loss": 2.419255495071411,
      "eval_runtime": 31.7146,
      "eval_samples_per_second": 3.216,
      "eval_steps_per_second": 1.608,
      "step": 5800
    },
    {
      "epoch": 0.1165,
      "grad_norm": 0.5719116548117884,
      "learning_rate": 9.81688888888889e-06,
      "loss": 2.4128,
      "step": 5825
    },
    {
      "epoch": 0.117,
      "grad_norm": 0.5855276996729913,
      "learning_rate": 9.811333333333334e-06,
      "loss": 2.4127,
      "step": 5850
    },
    {
      "epoch": 0.1175,
      "grad_norm": 0.5948413134062237,
      "learning_rate": 9.805777777777779e-06,
      "loss": 2.4028,
      "step": 5875
    },
    {
      "epoch": 0.118,
      "grad_norm": 0.6114053718118341,
      "learning_rate": 9.800222222222223e-06,
      "loss": 2.4085,
      "step": 5900
    },
    {
      "epoch": 0.118,
      "eval_loss": 2.4192631244659424,
      "eval_runtime": 31.8221,
      "eval_samples_per_second": 3.205,
      "eval_steps_per_second": 1.603,
      "step": 5900
    },
    {
      "epoch": 0.1185,
      "grad_norm": 0.6171839632107143,
      "learning_rate": 9.794666666666668e-06,
      "loss": 2.4063,
      "step": 5925
    },
    {
      "epoch": 0.119,
      "grad_norm": 0.5985426708940325,
      "learning_rate": 9.789111111111111e-06,
      "loss": 2.401,
      "step": 5950
    },
    {
      "epoch": 0.1195,
      "grad_norm": 0.6242757087701617,
      "learning_rate": 9.783555555555557e-06,
      "loss": 2.3977,
      "step": 5975
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.6472329844420622,
      "learning_rate": 9.778e-06,
      "loss": 2.4066,
      "step": 6000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.4190170764923096,
      "eval_runtime": 31.973,
      "eval_samples_per_second": 3.19,
      "eval_steps_per_second": 1.595,
      "step": 6000
    },
    {
      "epoch": 0.1205,
      "grad_norm": 0.5979904516506753,
      "learning_rate": 9.772444444444445e-06,
      "loss": 2.4044,
      "step": 6025
    },
    {
      "epoch": 0.121,
      "grad_norm": 0.5980588594331456,
      "learning_rate": 9.76688888888889e-06,
      "loss": 2.41,
      "step": 6050
    },
    {
      "epoch": 0.1215,
      "grad_norm": 0.6344150039672136,
      "learning_rate": 9.761333333333334e-06,
      "loss": 2.4,
      "step": 6075
    },
    {
      "epoch": 0.122,
      "grad_norm": 0.6035110768502723,
      "learning_rate": 9.755777777777778e-06,
      "loss": 2.4148,
      "step": 6100
    },
    {
      "epoch": 0.122,
      "eval_loss": 2.418259382247925,
      "eval_runtime": 31.784,
      "eval_samples_per_second": 3.209,
      "eval_steps_per_second": 1.605,
      "step": 6100
    },
    {
      "epoch": 0.1225,
      "grad_norm": 0.5792932239951794,
      "learning_rate": 9.750222222222223e-06,
      "loss": 2.4061,
      "step": 6125
    },
    {
      "epoch": 0.123,
      "grad_norm": 0.6529554995007899,
      "learning_rate": 9.744666666666668e-06,
      "loss": 2.4036,
      "step": 6150
    },
    {
      "epoch": 0.1235,
      "grad_norm": 0.5946064726146467,
      "learning_rate": 9.739111111111112e-06,
      "loss": 2.4014,
      "step": 6175
    },
    {
      "epoch": 0.124,
      "grad_norm": 0.5739473618849045,
      "learning_rate": 9.733555555555555e-06,
      "loss": 2.4057,
      "step": 6200
    },
    {
      "epoch": 0.124,
      "eval_loss": 2.4179208278656006,
      "eval_runtime": 31.6981,
      "eval_samples_per_second": 3.218,
      "eval_steps_per_second": 1.609,
      "step": 6200
    },
    {
      "epoch": 0.1245,
      "grad_norm": 0.6907211114020956,
      "learning_rate": 9.728e-06,
      "loss": 2.393,
      "step": 6225
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.6225931887903327,
      "learning_rate": 9.722444444444446e-06,
      "loss": 2.4147,
      "step": 6250
    },
    {
      "epoch": 0.1255,
      "grad_norm": 0.568397246680531,
      "learning_rate": 9.71688888888889e-06,
      "loss": 2.4024,
      "step": 6275
    },
    {
      "epoch": 0.126,
      "grad_norm": 0.5842879344272728,
      "learning_rate": 9.711333333333333e-06,
      "loss": 2.404,
      "step": 6300
    },
    {
      "epoch": 0.126,
      "eval_loss": 2.4178576469421387,
      "eval_runtime": 31.7994,
      "eval_samples_per_second": 3.208,
      "eval_steps_per_second": 1.604,
      "step": 6300
    },
    {
      "epoch": 0.1265,
      "grad_norm": 0.5805192382099048,
      "learning_rate": 9.705777777777778e-06,
      "loss": 2.4063,
      "step": 6325
    },
    {
      "epoch": 0.127,
      "grad_norm": 0.6600294122711824,
      "learning_rate": 9.700222222222224e-06,
      "loss": 2.4078,
      "step": 6350
    },
    {
      "epoch": 0.1275,
      "grad_norm": 0.6263098682936462,
      "learning_rate": 9.694666666666667e-06,
      "loss": 2.3961,
      "step": 6375
    },
    {
      "epoch": 0.128,
      "grad_norm": 0.6961912679129473,
      "learning_rate": 9.68911111111111e-06,
      "loss": 2.4127,
      "step": 6400
    },
    {
      "epoch": 0.128,
      "eval_loss": 2.417247772216797,
      "eval_runtime": 31.7325,
      "eval_samples_per_second": 3.214,
      "eval_steps_per_second": 1.607,
      "step": 6400
    },
    {
      "epoch": 0.1285,
      "grad_norm": 0.6396950069271417,
      "learning_rate": 9.683555555555556e-06,
      "loss": 2.4041,
      "step": 6425
    },
    {
      "epoch": 0.129,
      "grad_norm": 0.6164180606933177,
      "learning_rate": 9.678000000000001e-06,
      "loss": 2.4,
      "step": 6450
    },
    {
      "epoch": 0.1295,
      "grad_norm": 0.6120640198257105,
      "learning_rate": 9.672444444444445e-06,
      "loss": 2.3966,
      "step": 6475
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.6013045247718226,
      "learning_rate": 9.66688888888889e-06,
      "loss": 2.3991,
      "step": 6500
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.417280673980713,
      "eval_runtime": 31.8112,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 6500
    },
    {
      "epoch": 0.1305,
      "grad_norm": 0.6061836537875764,
      "learning_rate": 9.661333333333334e-06,
      "loss": 2.4161,
      "step": 6525
    },
    {
      "epoch": 0.131,
      "grad_norm": 0.6100864625060891,
      "learning_rate": 9.655777777777779e-06,
      "loss": 2.4052,
      "step": 6550
    },
    {
      "epoch": 0.1315,
      "grad_norm": 0.6932893052541476,
      "learning_rate": 9.650222222222222e-06,
      "loss": 2.4036,
      "step": 6575
    },
    {
      "epoch": 0.132,
      "grad_norm": 0.5859072202807338,
      "learning_rate": 9.644666666666668e-06,
      "loss": 2.4045,
      "step": 6600
    },
    {
      "epoch": 0.132,
      "eval_loss": 2.416877031326294,
      "eval_runtime": 31.5203,
      "eval_samples_per_second": 3.236,
      "eval_steps_per_second": 1.618,
      "step": 6600
    },
    {
      "epoch": 0.1325,
      "grad_norm": 0.579002436095642,
      "learning_rate": 9.639111111111113e-06,
      "loss": 2.4015,
      "step": 6625
    },
    {
      "epoch": 0.133,
      "grad_norm": 0.5968858601649685,
      "learning_rate": 9.633555555555556e-06,
      "loss": 2.3986,
      "step": 6650
    },
    {
      "epoch": 0.1335,
      "grad_norm": 0.5964714549861985,
      "learning_rate": 9.628e-06,
      "loss": 2.4062,
      "step": 6675
    },
    {
      "epoch": 0.134,
      "grad_norm": 0.6126102944808797,
      "learning_rate": 9.622444444444445e-06,
      "loss": 2.4033,
      "step": 6700
    },
    {
      "epoch": 0.134,
      "eval_loss": 2.4164350032806396,
      "eval_runtime": 31.4543,
      "eval_samples_per_second": 3.243,
      "eval_steps_per_second": 1.621,
      "step": 6700
    },
    {
      "epoch": 0.1345,
      "grad_norm": 0.5774452345333466,
      "learning_rate": 9.61688888888889e-06,
      "loss": 2.3997,
      "step": 6725
    },
    {
      "epoch": 0.135,
      "grad_norm": 0.6227260743975279,
      "learning_rate": 9.611333333333334e-06,
      "loss": 2.4018,
      "step": 6750
    },
    {
      "epoch": 0.1355,
      "grad_norm": 0.5846707991616706,
      "learning_rate": 9.605777777777778e-06,
      "loss": 2.3985,
      "step": 6775
    },
    {
      "epoch": 0.136,
      "grad_norm": 0.6172483484063671,
      "learning_rate": 9.600222222222223e-06,
      "loss": 2.4213,
      "step": 6800
    },
    {
      "epoch": 0.136,
      "eval_loss": 2.41625714302063,
      "eval_runtime": 31.5517,
      "eval_samples_per_second": 3.233,
      "eval_steps_per_second": 1.616,
      "step": 6800
    },
    {
      "epoch": 0.1365,
      "grad_norm": 0.5965299711032601,
      "learning_rate": 9.594666666666668e-06,
      "loss": 2.3976,
      "step": 6825
    },
    {
      "epoch": 0.137,
      "grad_norm": 0.5884739304234496,
      "learning_rate": 9.589111111111112e-06,
      "loss": 2.3947,
      "step": 6850
    },
    {
      "epoch": 0.1375,
      "grad_norm": 0.5737065693146471,
      "learning_rate": 9.583555555555555e-06,
      "loss": 2.3983,
      "step": 6875
    },
    {
      "epoch": 0.138,
      "grad_norm": 0.6249698819825935,
      "learning_rate": 9.578e-06,
      "loss": 2.4008,
      "step": 6900
    },
    {
      "epoch": 0.138,
      "eval_loss": 2.4156551361083984,
      "eval_runtime": 31.5071,
      "eval_samples_per_second": 3.237,
      "eval_steps_per_second": 1.619,
      "step": 6900
    },
    {
      "epoch": 0.1385,
      "grad_norm": 0.5930008566650997,
      "learning_rate": 9.572444444444446e-06,
      "loss": 2.3951,
      "step": 6925
    },
    {
      "epoch": 0.139,
      "grad_norm": 0.6564746022716046,
      "learning_rate": 9.56688888888889e-06,
      "loss": 2.4083,
      "step": 6950
    },
    {
      "epoch": 0.1395,
      "grad_norm": 0.611311960098376,
      "learning_rate": 9.561333333333333e-06,
      "loss": 2.4032,
      "step": 6975
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.594692534551516,
      "learning_rate": 9.555777777777778e-06,
      "loss": 2.41,
      "step": 7000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.415269374847412,
      "eval_runtime": 31.7535,
      "eval_samples_per_second": 3.212,
      "eval_steps_per_second": 1.606,
      "step": 7000
    },
    {
      "epoch": 0.1405,
      "grad_norm": 0.5975652527083385,
      "learning_rate": 9.550222222222223e-06,
      "loss": 2.398,
      "step": 7025
    },
    {
      "epoch": 0.141,
      "grad_norm": 0.5642285559875744,
      "learning_rate": 9.544666666666667e-06,
      "loss": 2.3907,
      "step": 7050
    },
    {
      "epoch": 0.1415,
      "grad_norm": 0.5977243463765347,
      "learning_rate": 9.539111111111112e-06,
      "loss": 2.4063,
      "step": 7075
    },
    {
      "epoch": 0.142,
      "grad_norm": 0.5938091922766982,
      "learning_rate": 9.533555555555556e-06,
      "loss": 2.4064,
      "step": 7100
    },
    {
      "epoch": 0.142,
      "eval_loss": 2.4153244495391846,
      "eval_runtime": 31.6856,
      "eval_samples_per_second": 3.219,
      "eval_steps_per_second": 1.61,
      "step": 7100
    },
    {
      "epoch": 0.1425,
      "grad_norm": 0.6203811817044198,
      "learning_rate": 9.528000000000001e-06,
      "loss": 2.3995,
      "step": 7125
    },
    {
      "epoch": 0.143,
      "grad_norm": 0.5748373728564159,
      "learning_rate": 9.522444444444444e-06,
      "loss": 2.4052,
      "step": 7150
    },
    {
      "epoch": 0.1435,
      "grad_norm": 0.6318360721408016,
      "learning_rate": 9.51688888888889e-06,
      "loss": 2.396,
      "step": 7175
    },
    {
      "epoch": 0.144,
      "grad_norm": 0.5777480191110791,
      "learning_rate": 9.511333333333335e-06,
      "loss": 2.3966,
      "step": 7200
    },
    {
      "epoch": 0.144,
      "eval_loss": 2.414691209793091,
      "eval_runtime": 31.5495,
      "eval_samples_per_second": 3.233,
      "eval_steps_per_second": 1.617,
      "step": 7200
    },
    {
      "epoch": 0.1445,
      "grad_norm": 0.5896122820881663,
      "learning_rate": 9.505777777777779e-06,
      "loss": 2.4018,
      "step": 7225
    },
    {
      "epoch": 0.145,
      "grad_norm": 0.6081675838061575,
      "learning_rate": 9.500222222222222e-06,
      "loss": 2.4036,
      "step": 7250
    },
    {
      "epoch": 0.1455,
      "grad_norm": 0.6032973832585987,
      "learning_rate": 9.494666666666667e-06,
      "loss": 2.4025,
      "step": 7275
    },
    {
      "epoch": 0.146,
      "grad_norm": 0.6283775464354142,
      "learning_rate": 9.489111111111113e-06,
      "loss": 2.4078,
      "step": 7300
    },
    {
      "epoch": 0.146,
      "eval_loss": 2.4143505096435547,
      "eval_runtime": 31.4643,
      "eval_samples_per_second": 3.242,
      "eval_steps_per_second": 1.621,
      "step": 7300
    },
    {
      "epoch": 0.1465,
      "grad_norm": 0.5969038728051346,
      "learning_rate": 9.483555555555556e-06,
      "loss": 2.4066,
      "step": 7325
    },
    {
      "epoch": 0.147,
      "grad_norm": 0.6048317665387537,
      "learning_rate": 9.478e-06,
      "loss": 2.4007,
      "step": 7350
    },
    {
      "epoch": 0.1475,
      "grad_norm": 0.5721050600021237,
      "learning_rate": 9.472444444444445e-06,
      "loss": 2.4146,
      "step": 7375
    },
    {
      "epoch": 0.148,
      "grad_norm": 0.6019256818391423,
      "learning_rate": 9.46688888888889e-06,
      "loss": 2.399,
      "step": 7400
    },
    {
      "epoch": 0.148,
      "eval_loss": 2.414281129837036,
      "eval_runtime": 31.7034,
      "eval_samples_per_second": 3.217,
      "eval_steps_per_second": 1.609,
      "step": 7400
    },
    {
      "epoch": 0.1485,
      "grad_norm": 0.6386043502919573,
      "learning_rate": 9.461333333333334e-06,
      "loss": 2.3957,
      "step": 7425
    },
    {
      "epoch": 0.149,
      "grad_norm": 0.5819226766027404,
      "learning_rate": 9.455777777777777e-06,
      "loss": 2.4001,
      "step": 7450
    },
    {
      "epoch": 0.1495,
      "grad_norm": 0.6372396676223023,
      "learning_rate": 9.450222222222223e-06,
      "loss": 2.3976,
      "step": 7475
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.5888017578283452,
      "learning_rate": 9.444666666666668e-06,
      "loss": 2.4008,
      "step": 7500
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.414154291152954,
      "eval_runtime": 31.8152,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 7500
    },
    {
      "epoch": 0.1505,
      "grad_norm": 0.6132781564549638,
      "learning_rate": 9.439111111111111e-06,
      "loss": 2.4077,
      "step": 7525
    },
    {
      "epoch": 0.151,
      "grad_norm": 0.6063002641957036,
      "learning_rate": 9.433555555555557e-06,
      "loss": 2.3889,
      "step": 7550
    },
    {
      "epoch": 0.1515,
      "grad_norm": 0.614169638364484,
      "learning_rate": 9.428e-06,
      "loss": 2.4121,
      "step": 7575
    },
    {
      "epoch": 0.152,
      "grad_norm": 0.5826866596297434,
      "learning_rate": 9.422444444444445e-06,
      "loss": 2.4075,
      "step": 7600
    },
    {
      "epoch": 0.152,
      "eval_loss": 2.414039134979248,
      "eval_runtime": 31.7985,
      "eval_samples_per_second": 3.208,
      "eval_steps_per_second": 1.604,
      "step": 7600
    },
    {
      "epoch": 0.1525,
      "grad_norm": 0.5964985955677213,
      "learning_rate": 9.41688888888889e-06,
      "loss": 2.3976,
      "step": 7625
    },
    {
      "epoch": 0.153,
      "grad_norm": 0.5946671745059025,
      "learning_rate": 9.411333333333334e-06,
      "loss": 2.3947,
      "step": 7650
    },
    {
      "epoch": 0.1535,
      "grad_norm": 0.5894909865358033,
      "learning_rate": 9.405777777777778e-06,
      "loss": 2.4079,
      "step": 7675
    },
    {
      "epoch": 0.154,
      "grad_norm": 0.6048420481174572,
      "learning_rate": 9.400222222222223e-06,
      "loss": 2.4015,
      "step": 7700
    },
    {
      "epoch": 0.154,
      "eval_loss": 2.413475275039673,
      "eval_runtime": 31.9136,
      "eval_samples_per_second": 3.196,
      "eval_steps_per_second": 1.598,
      "step": 7700
    },
    {
      "epoch": 0.1545,
      "grad_norm": 0.617559481688582,
      "learning_rate": 9.394666666666668e-06,
      "loss": 2.4036,
      "step": 7725
    },
    {
      "epoch": 0.155,
      "grad_norm": 0.6350332331451685,
      "learning_rate": 9.389111111111112e-06,
      "loss": 2.3989,
      "step": 7750
    },
    {
      "epoch": 0.1555,
      "grad_norm": 0.6034892604414784,
      "learning_rate": 9.383555555555557e-06,
      "loss": 2.398,
      "step": 7775
    },
    {
      "epoch": 0.156,
      "grad_norm": 0.5879016941841427,
      "learning_rate": 9.378e-06,
      "loss": 2.3989,
      "step": 7800
    },
    {
      "epoch": 0.156,
      "eval_loss": 2.4134128093719482,
      "eval_runtime": 31.7809,
      "eval_samples_per_second": 3.209,
      "eval_steps_per_second": 1.605,
      "step": 7800
    },
    {
      "epoch": 0.1565,
      "grad_norm": 0.5957060592966067,
      "learning_rate": 9.372444444444446e-06,
      "loss": 2.3951,
      "step": 7825
    },
    {
      "epoch": 0.157,
      "grad_norm": 0.6127788552445546,
      "learning_rate": 9.36688888888889e-06,
      "loss": 2.3966,
      "step": 7850
    },
    {
      "epoch": 0.1575,
      "grad_norm": 0.6103495429829666,
      "learning_rate": 9.361333333333335e-06,
      "loss": 2.3974,
      "step": 7875
    },
    {
      "epoch": 0.158,
      "grad_norm": 0.5940303847498369,
      "learning_rate": 9.355777777777778e-06,
      "loss": 2.3982,
      "step": 7900
    },
    {
      "epoch": 0.158,
      "eval_loss": 2.4130520820617676,
      "eval_runtime": 31.8718,
      "eval_samples_per_second": 3.2,
      "eval_steps_per_second": 1.6,
      "step": 7900
    },
    {
      "epoch": 0.1585,
      "grad_norm": 0.5967208318826438,
      "learning_rate": 9.350222222222224e-06,
      "loss": 2.3963,
      "step": 7925
    },
    {
      "epoch": 0.159,
      "grad_norm": 0.6074697420049116,
      "learning_rate": 9.344666666666667e-06,
      "loss": 2.4004,
      "step": 7950
    },
    {
      "epoch": 0.1595,
      "grad_norm": 0.6007548308453654,
      "learning_rate": 9.339111111111112e-06,
      "loss": 2.3972,
      "step": 7975
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.6058573477149505,
      "learning_rate": 9.333555555555558e-06,
      "loss": 2.4,
      "step": 8000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.4125914573669434,
      "eval_runtime": 31.8819,
      "eval_samples_per_second": 3.199,
      "eval_steps_per_second": 1.6,
      "step": 8000
    },
    {
      "epoch": 0.1605,
      "grad_norm": 0.5861319558312379,
      "learning_rate": 9.328000000000001e-06,
      "loss": 2.3883,
      "step": 8025
    },
    {
      "epoch": 0.161,
      "grad_norm": 0.5836976562991806,
      "learning_rate": 9.322444444444445e-06,
      "loss": 2.3858,
      "step": 8050
    },
    {
      "epoch": 0.1615,
      "grad_norm": 0.5844356099514875,
      "learning_rate": 9.31688888888889e-06,
      "loss": 2.408,
      "step": 8075
    },
    {
      "epoch": 0.162,
      "grad_norm": 0.5898038882596441,
      "learning_rate": 9.311333333333335e-06,
      "loss": 2.3979,
      "step": 8100
    },
    {
      "epoch": 0.162,
      "eval_loss": 2.4123263359069824,
      "eval_runtime": 31.7798,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 8100
    },
    {
      "epoch": 0.1625,
      "grad_norm": 0.6072648398087778,
      "learning_rate": 9.305777777777779e-06,
      "loss": 2.3904,
      "step": 8125
    },
    {
      "epoch": 0.163,
      "grad_norm": 0.5947190221089934,
      "learning_rate": 9.300222222222222e-06,
      "loss": 2.3908,
      "step": 8150
    },
    {
      "epoch": 0.1635,
      "grad_norm": 0.5923294532719955,
      "learning_rate": 9.294666666666668e-06,
      "loss": 2.3994,
      "step": 8175
    },
    {
      "epoch": 0.164,
      "grad_norm": 0.6238957997579533,
      "learning_rate": 9.289111111111113e-06,
      "loss": 2.3935,
      "step": 8200
    },
    {
      "epoch": 0.164,
      "eval_loss": 2.4118340015411377,
      "eval_runtime": 31.8145,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 8200
    },
    {
      "epoch": 0.1645,
      "grad_norm": 0.576622489198895,
      "learning_rate": 9.283555555555556e-06,
      "loss": 2.396,
      "step": 8225
    },
    {
      "epoch": 0.165,
      "grad_norm": 0.6185118704471244,
      "learning_rate": 9.278e-06,
      "loss": 2.4035,
      "step": 8250
    },
    {
      "epoch": 0.1655,
      "grad_norm": 0.5796535805449304,
      "learning_rate": 9.272444444444445e-06,
      "loss": 2.3943,
      "step": 8275
    },
    {
      "epoch": 0.166,
      "grad_norm": 0.6173375014397958,
      "learning_rate": 9.26688888888889e-06,
      "loss": 2.3935,
      "step": 8300
    },
    {
      "epoch": 0.166,
      "eval_loss": 2.4114973545074463,
      "eval_runtime": 31.7754,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 8300
    },
    {
      "epoch": 0.1665,
      "grad_norm": 0.5618534321843206,
      "learning_rate": 9.261333333333334e-06,
      "loss": 2.3974,
      "step": 8325
    },
    {
      "epoch": 0.167,
      "grad_norm": 0.6009214777241336,
      "learning_rate": 9.25577777777778e-06,
      "loss": 2.4,
      "step": 8350
    },
    {
      "epoch": 0.1675,
      "grad_norm": 0.5772198441104387,
      "learning_rate": 9.250222222222223e-06,
      "loss": 2.3991,
      "step": 8375
    },
    {
      "epoch": 0.168,
      "grad_norm": 0.5740163940994337,
      "learning_rate": 9.244666666666668e-06,
      "loss": 2.3947,
      "step": 8400
    },
    {
      "epoch": 0.168,
      "eval_loss": 2.411425828933716,
      "eval_runtime": 31.5099,
      "eval_samples_per_second": 3.237,
      "eval_steps_per_second": 1.619,
      "step": 8400
    },
    {
      "epoch": 0.1685,
      "grad_norm": 0.5687873679002051,
      "learning_rate": 9.239111111111112e-06,
      "loss": 2.3966,
      "step": 8425
    },
    {
      "epoch": 0.169,
      "grad_norm": 0.5610136891748577,
      "learning_rate": 9.233555555555557e-06,
      "loss": 2.3998,
      "step": 8450
    },
    {
      "epoch": 0.1695,
      "grad_norm": 0.6032713755890403,
      "learning_rate": 9.228e-06,
      "loss": 2.3943,
      "step": 8475
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5964144518891603,
      "learning_rate": 9.222444444444446e-06,
      "loss": 2.3883,
      "step": 8500
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.411017656326294,
      "eval_runtime": 31.5307,
      "eval_samples_per_second": 3.235,
      "eval_steps_per_second": 1.617,
      "step": 8500
    },
    {
      "epoch": 0.1705,
      "grad_norm": 0.6150332993234658,
      "learning_rate": 9.21688888888889e-06,
      "loss": 2.3947,
      "step": 8525
    },
    {
      "epoch": 0.171,
      "grad_norm": 0.5996705331900282,
      "learning_rate": 9.211333333333334e-06,
      "loss": 2.3767,
      "step": 8550
    },
    {
      "epoch": 0.1715,
      "grad_norm": 0.5824632831455251,
      "learning_rate": 9.20577777777778e-06,
      "loss": 2.3872,
      "step": 8575
    },
    {
      "epoch": 0.172,
      "grad_norm": 0.606207861483595,
      "learning_rate": 9.200222222222223e-06,
      "loss": 2.4039,
      "step": 8600
    },
    {
      "epoch": 0.172,
      "eval_loss": 2.4107751846313477,
      "eval_runtime": 31.4387,
      "eval_samples_per_second": 3.244,
      "eval_steps_per_second": 1.622,
      "step": 8600
    },
    {
      "epoch": 0.1725,
      "grad_norm": 0.576823131255562,
      "learning_rate": 9.194666666666667e-06,
      "loss": 2.3954,
      "step": 8625
    },
    {
      "epoch": 0.173,
      "grad_norm": 0.56597712239854,
      "learning_rate": 9.189111111111112e-06,
      "loss": 2.4072,
      "step": 8650
    },
    {
      "epoch": 0.1735,
      "grad_norm": 0.5825959007699376,
      "learning_rate": 9.183555555555557e-06,
      "loss": 2.4081,
      "step": 8675
    },
    {
      "epoch": 0.174,
      "grad_norm": 0.5776918671405765,
      "learning_rate": 9.178000000000001e-06,
      "loss": 2.4091,
      "step": 8700
    },
    {
      "epoch": 0.174,
      "eval_loss": 2.410761594772339,
      "eval_runtime": 31.7246,
      "eval_samples_per_second": 3.215,
      "eval_steps_per_second": 1.608,
      "step": 8700
    },
    {
      "epoch": 0.1745,
      "grad_norm": 0.6256369047041809,
      "learning_rate": 9.172444444444444e-06,
      "loss": 2.3953,
      "step": 8725
    },
    {
      "epoch": 0.175,
      "grad_norm": 0.5964709475887552,
      "learning_rate": 9.16688888888889e-06,
      "loss": 2.39,
      "step": 8750
    },
    {
      "epoch": 0.1755,
      "grad_norm": 0.5775755843795828,
      "learning_rate": 9.161333333333335e-06,
      "loss": 2.391,
      "step": 8775
    },
    {
      "epoch": 0.176,
      "grad_norm": 0.6655706627980364,
      "learning_rate": 9.155777777777779e-06,
      "loss": 2.4048,
      "step": 8800
    },
    {
      "epoch": 0.176,
      "eval_loss": 2.4105958938598633,
      "eval_runtime": 31.4248,
      "eval_samples_per_second": 3.246,
      "eval_steps_per_second": 1.623,
      "step": 8800
    },
    {
      "epoch": 0.1765,
      "grad_norm": 0.5865172878151053,
      "learning_rate": 9.150222222222222e-06,
      "loss": 2.3878,
      "step": 8825
    },
    {
      "epoch": 0.177,
      "grad_norm": 0.584391124965856,
      "learning_rate": 9.144666666666667e-06,
      "loss": 2.401,
      "step": 8850
    },
    {
      "epoch": 0.1775,
      "grad_norm": 0.5726598382185046,
      "learning_rate": 9.139111111111113e-06,
      "loss": 2.4018,
      "step": 8875
    },
    {
      "epoch": 0.178,
      "grad_norm": 0.5690725395770588,
      "learning_rate": 9.133555555555556e-06,
      "loss": 2.4034,
      "step": 8900
    },
    {
      "epoch": 0.178,
      "eval_loss": 2.4101033210754395,
      "eval_runtime": 31.4686,
      "eval_samples_per_second": 3.241,
      "eval_steps_per_second": 1.621,
      "step": 8900
    },
    {
      "epoch": 0.1785,
      "grad_norm": 0.5978143013011991,
      "learning_rate": 9.128e-06,
      "loss": 2.4014,
      "step": 8925
    },
    {
      "epoch": 0.179,
      "grad_norm": 0.6085180927490662,
      "learning_rate": 9.122444444444445e-06,
      "loss": 2.3924,
      "step": 8950
    },
    {
      "epoch": 0.1795,
      "grad_norm": 0.5720265034599029,
      "learning_rate": 9.11688888888889e-06,
      "loss": 2.3977,
      "step": 8975
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.5739306861609581,
      "learning_rate": 9.111333333333334e-06,
      "loss": 2.3992,
      "step": 9000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.410008430480957,
      "eval_runtime": 32.192,
      "eval_samples_per_second": 3.168,
      "eval_steps_per_second": 1.584,
      "step": 9000
    },
    {
      "epoch": 0.1805,
      "grad_norm": 0.5908878679870805,
      "learning_rate": 9.105777777777779e-06,
      "loss": 2.3938,
      "step": 9025
    },
    {
      "epoch": 0.181,
      "grad_norm": 0.5496267273049,
      "learning_rate": 9.100222222222223e-06,
      "loss": 2.3961,
      "step": 9050
    },
    {
      "epoch": 0.1815,
      "grad_norm": 0.5979695738071065,
      "learning_rate": 9.094666666666668e-06,
      "loss": 2.3858,
      "step": 9075
    },
    {
      "epoch": 0.182,
      "grad_norm": 0.5938166893318079,
      "learning_rate": 9.089111111111111e-06,
      "loss": 2.3862,
      "step": 9100
    },
    {
      "epoch": 0.182,
      "eval_loss": 2.410053253173828,
      "eval_runtime": 32.2577,
      "eval_samples_per_second": 3.162,
      "eval_steps_per_second": 1.581,
      "step": 9100
    },
    {
      "epoch": 0.1825,
      "grad_norm": 0.5958942390294701,
      "learning_rate": 9.083555555555557e-06,
      "loss": 2.3928,
      "step": 9125
    },
    {
      "epoch": 0.183,
      "grad_norm": 0.5859164810125311,
      "learning_rate": 9.078000000000002e-06,
      "loss": 2.4022,
      "step": 9150
    },
    {
      "epoch": 0.1835,
      "grad_norm": 0.5798241289951321,
      "learning_rate": 9.072444444444445e-06,
      "loss": 2.3928,
      "step": 9175
    },
    {
      "epoch": 0.184,
      "grad_norm": 0.5882407091400851,
      "learning_rate": 9.066888888888889e-06,
      "loss": 2.3973,
      "step": 9200
    },
    {
      "epoch": 0.184,
      "eval_loss": 2.409634590148926,
      "eval_runtime": 32.249,
      "eval_samples_per_second": 3.163,
      "eval_steps_per_second": 1.581,
      "step": 9200
    },
    {
      "epoch": 0.1845,
      "grad_norm": 0.5903772748051019,
      "learning_rate": 9.061333333333334e-06,
      "loss": 2.3831,
      "step": 9225
    },
    {
      "epoch": 0.185,
      "grad_norm": 0.6211646089814673,
      "learning_rate": 9.05577777777778e-06,
      "loss": 2.3983,
      "step": 9250
    },
    {
      "epoch": 0.1855,
      "grad_norm": 0.6172378815389531,
      "learning_rate": 9.050222222222223e-06,
      "loss": 2.3961,
      "step": 9275
    },
    {
      "epoch": 0.186,
      "grad_norm": 0.6117693503941964,
      "learning_rate": 9.044666666666667e-06,
      "loss": 2.3991,
      "step": 9300
    },
    {
      "epoch": 0.186,
      "eval_loss": 2.4100780487060547,
      "eval_runtime": 31.6698,
      "eval_samples_per_second": 3.221,
      "eval_steps_per_second": 1.61,
      "step": 9300
    },
    {
      "epoch": 0.1865,
      "grad_norm": 0.5955035334939845,
      "learning_rate": 9.039111111111112e-06,
      "loss": 2.4013,
      "step": 9325
    },
    {
      "epoch": 0.187,
      "grad_norm": 0.6304889803867978,
      "learning_rate": 9.033555555555557e-06,
      "loss": 2.4045,
      "step": 9350
    },
    {
      "epoch": 0.1875,
      "grad_norm": 0.5650857479280212,
      "learning_rate": 9.028e-06,
      "loss": 2.3993,
      "step": 9375
    },
    {
      "epoch": 0.188,
      "grad_norm": 0.6102368092141387,
      "learning_rate": 9.022444444444444e-06,
      "loss": 2.3969,
      "step": 9400
    },
    {
      "epoch": 0.188,
      "eval_loss": 2.4091312885284424,
      "eval_runtime": 31.7427,
      "eval_samples_per_second": 3.213,
      "eval_steps_per_second": 1.607,
      "step": 9400
    },
    {
      "epoch": 0.1885,
      "grad_norm": 0.5647006274355659,
      "learning_rate": 9.01688888888889e-06,
      "loss": 2.3962,
      "step": 9425
    },
    {
      "epoch": 0.189,
      "grad_norm": 0.639478683787589,
      "learning_rate": 9.011333333333335e-06,
      "loss": 2.3957,
      "step": 9450
    },
    {
      "epoch": 0.1895,
      "grad_norm": 0.5788568545073746,
      "learning_rate": 9.005777777777778e-06,
      "loss": 2.3914,
      "step": 9475
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7290164754099147,
      "learning_rate": 9.000222222222222e-06,
      "loss": 2.386,
      "step": 9500
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.4086694717407227,
      "eval_runtime": 31.8061,
      "eval_samples_per_second": 3.207,
      "eval_steps_per_second": 1.603,
      "step": 9500
    },
    {
      "epoch": 0.1905,
      "grad_norm": 0.5817637514180484,
      "learning_rate": 8.994666666666667e-06,
      "loss": 2.4006,
      "step": 9525
    },
    {
      "epoch": 0.191,
      "grad_norm": 0.5697879107784812,
      "learning_rate": 8.989111111111112e-06,
      "loss": 2.3899,
      "step": 9550
    },
    {
      "epoch": 0.1915,
      "grad_norm": 0.584610269954786,
      "learning_rate": 8.983555555555556e-06,
      "loss": 2.3944,
      "step": 9575
    },
    {
      "epoch": 0.192,
      "grad_norm": 0.608795413325502,
      "learning_rate": 8.978000000000001e-06,
      "loss": 2.398,
      "step": 9600
    },
    {
      "epoch": 0.192,
      "eval_loss": 2.408263683319092,
      "eval_runtime": 31.6859,
      "eval_samples_per_second": 3.219,
      "eval_steps_per_second": 1.61,
      "step": 9600
    },
    {
      "epoch": 0.1925,
      "grad_norm": 0.5915130204472873,
      "learning_rate": 8.972444444444445e-06,
      "loss": 2.407,
      "step": 9625
    },
    {
      "epoch": 0.193,
      "grad_norm": 0.59521034646126,
      "learning_rate": 8.96688888888889e-06,
      "loss": 2.3924,
      "step": 9650
    },
    {
      "epoch": 0.1935,
      "grad_norm": 0.6050238690396914,
      "learning_rate": 8.961333333333333e-06,
      "loss": 2.3869,
      "step": 9675
    },
    {
      "epoch": 0.194,
      "grad_norm": 0.5691067223521449,
      "learning_rate": 8.955777777777779e-06,
      "loss": 2.3874,
      "step": 9700
    },
    {
      "epoch": 0.194,
      "eval_loss": 2.408264398574829,
      "eval_runtime": 31.8579,
      "eval_samples_per_second": 3.202,
      "eval_steps_per_second": 1.601,
      "step": 9700
    },
    {
      "epoch": 0.1945,
      "grad_norm": 0.5753054034666798,
      "learning_rate": 8.950222222222224e-06,
      "loss": 2.4027,
      "step": 9725
    },
    {
      "epoch": 0.195,
      "grad_norm": 0.5864767839913545,
      "learning_rate": 8.944666666666668e-06,
      "loss": 2.3924,
      "step": 9750
    },
    {
      "epoch": 0.1955,
      "grad_norm": 0.6642807256080032,
      "learning_rate": 8.939111111111111e-06,
      "loss": 2.3709,
      "step": 9775
    },
    {
      "epoch": 0.196,
      "grad_norm": 0.6084139101409156,
      "learning_rate": 8.933555555555556e-06,
      "loss": 2.3958,
      "step": 9800
    },
    {
      "epoch": 0.196,
      "eval_loss": 2.4076178073883057,
      "eval_runtime": 31.7733,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 9800
    },
    {
      "epoch": 0.1965,
      "grad_norm": 0.592206064244208,
      "learning_rate": 8.928000000000002e-06,
      "loss": 2.3922,
      "step": 9825
    },
    {
      "epoch": 0.197,
      "grad_norm": 0.5685236067589632,
      "learning_rate": 8.922444444444445e-06,
      "loss": 2.3908,
      "step": 9850
    },
    {
      "epoch": 0.1975,
      "grad_norm": 0.6034821273699428,
      "learning_rate": 8.916888888888889e-06,
      "loss": 2.3903,
      "step": 9875
    },
    {
      "epoch": 0.198,
      "grad_norm": 0.5910198540350765,
      "learning_rate": 8.911333333333334e-06,
      "loss": 2.3767,
      "step": 9900
    },
    {
      "epoch": 0.198,
      "eval_loss": 2.407928705215454,
      "eval_runtime": 31.7033,
      "eval_samples_per_second": 3.217,
      "eval_steps_per_second": 1.609,
      "step": 9900
    },
    {
      "epoch": 0.1985,
      "grad_norm": 0.5849079897115376,
      "learning_rate": 8.90577777777778e-06,
      "loss": 2.3956,
      "step": 9925
    },
    {
      "epoch": 0.199,
      "grad_norm": 0.5683901924605945,
      "learning_rate": 8.900222222222223e-06,
      "loss": 2.3884,
      "step": 9950
    },
    {
      "epoch": 0.1995,
      "grad_norm": 0.6037241225699064,
      "learning_rate": 8.894666666666666e-06,
      "loss": 2.3934,
      "step": 9975
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.5807810374364664,
      "learning_rate": 8.889111111111112e-06,
      "loss": 2.3999,
      "step": 10000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.40779447555542,
      "eval_runtime": 31.7288,
      "eval_samples_per_second": 3.215,
      "eval_steps_per_second": 1.607,
      "step": 10000
    },
    {
      "epoch": 0.2005,
      "grad_norm": 0.5959223333719136,
      "learning_rate": 8.883555555555557e-06,
      "loss": 2.387,
      "step": 10025
    },
    {
      "epoch": 0.201,
      "grad_norm": 0.604008744038432,
      "learning_rate": 8.878e-06,
      "loss": 2.4016,
      "step": 10050
    },
    {
      "epoch": 0.2015,
      "grad_norm": 0.5721419521050413,
      "learning_rate": 8.872444444444444e-06,
      "loss": 2.3884,
      "step": 10075
    },
    {
      "epoch": 0.202,
      "grad_norm": 0.5986167284289824,
      "learning_rate": 8.86688888888889e-06,
      "loss": 2.3945,
      "step": 10100
    },
    {
      "epoch": 0.202,
      "eval_loss": 2.4074654579162598,
      "eval_runtime": 31.8658,
      "eval_samples_per_second": 3.201,
      "eval_steps_per_second": 1.6,
      "step": 10100
    },
    {
      "epoch": 0.2025,
      "grad_norm": 0.6046479507995179,
      "learning_rate": 8.861333333333334e-06,
      "loss": 2.3858,
      "step": 10125
    },
    {
      "epoch": 0.203,
      "grad_norm": 0.5633013817443194,
      "learning_rate": 8.855777777777778e-06,
      "loss": 2.3879,
      "step": 10150
    },
    {
      "epoch": 0.2035,
      "grad_norm": 0.5953174401982892,
      "learning_rate": 8.850222222222223e-06,
      "loss": 2.3967,
      "step": 10175
    },
    {
      "epoch": 0.204,
      "grad_norm": 0.6306212647705982,
      "learning_rate": 8.844666666666667e-06,
      "loss": 2.3927,
      "step": 10200
    },
    {
      "epoch": 0.204,
      "eval_loss": 2.407031297683716,
      "eval_runtime": 31.7801,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 10200
    },
    {
      "epoch": 0.2045,
      "grad_norm": 0.5605617492602121,
      "learning_rate": 8.839111111111112e-06,
      "loss": 2.4081,
      "step": 10225
    },
    {
      "epoch": 0.205,
      "grad_norm": 0.5739246143474902,
      "learning_rate": 8.833555555555556e-06,
      "loss": 2.3841,
      "step": 10250
    },
    {
      "epoch": 0.2055,
      "grad_norm": 0.5938549959471341,
      "learning_rate": 8.828000000000001e-06,
      "loss": 2.3902,
      "step": 10275
    },
    {
      "epoch": 0.206,
      "grad_norm": 0.5902936931354175,
      "learning_rate": 8.822444444444446e-06,
      "loss": 2.3905,
      "step": 10300
    },
    {
      "epoch": 0.206,
      "eval_loss": 2.4066004753112793,
      "eval_runtime": 31.7707,
      "eval_samples_per_second": 3.211,
      "eval_steps_per_second": 1.605,
      "step": 10300
    },
    {
      "epoch": 0.2065,
      "grad_norm": 0.5697435057211838,
      "learning_rate": 8.81688888888889e-06,
      "loss": 2.3854,
      "step": 10325
    },
    {
      "epoch": 0.207,
      "grad_norm": 0.5879126074250441,
      "learning_rate": 8.811333333333333e-06,
      "loss": 2.3917,
      "step": 10350
    },
    {
      "epoch": 0.2075,
      "grad_norm": 0.5800642153182343,
      "learning_rate": 8.805777777777778e-06,
      "loss": 2.3929,
      "step": 10375
    },
    {
      "epoch": 0.208,
      "grad_norm": 0.5794546973922929,
      "learning_rate": 8.800222222222224e-06,
      "loss": 2.3912,
      "step": 10400
    },
    {
      "epoch": 0.208,
      "eval_loss": 2.4065024852752686,
      "eval_runtime": 31.7191,
      "eval_samples_per_second": 3.216,
      "eval_steps_per_second": 1.608,
      "step": 10400
    },
    {
      "epoch": 0.2085,
      "grad_norm": 0.5776454190712899,
      "learning_rate": 8.794666666666667e-06,
      "loss": 2.386,
      "step": 10425
    },
    {
      "epoch": 0.209,
      "grad_norm": 0.5578455228918948,
      "learning_rate": 8.78911111111111e-06,
      "loss": 2.3869,
      "step": 10450
    },
    {
      "epoch": 0.2095,
      "grad_norm": 0.5721674793656858,
      "learning_rate": 8.783555555555556e-06,
      "loss": 2.3779,
      "step": 10475
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.5950633442730316,
      "learning_rate": 8.778000000000001e-06,
      "loss": 2.3845,
      "step": 10500
    },
    {
      "epoch": 0.21,
      "eval_loss": 2.4065566062927246,
      "eval_runtime": 31.8091,
      "eval_samples_per_second": 3.207,
      "eval_steps_per_second": 1.603,
      "step": 10500
    },
    {
      "epoch": 0.2105,
      "grad_norm": 0.605078293663896,
      "learning_rate": 8.772444444444445e-06,
      "loss": 2.3913,
      "step": 10525
    },
    {
      "epoch": 0.211,
      "grad_norm": 0.567849892850204,
      "learning_rate": 8.766888888888888e-06,
      "loss": 2.3966,
      "step": 10550
    },
    {
      "epoch": 0.2115,
      "grad_norm": 0.6876645024191659,
      "learning_rate": 8.761333333333334e-06,
      "loss": 2.3993,
      "step": 10575
    },
    {
      "epoch": 0.212,
      "grad_norm": 0.5841938304908528,
      "learning_rate": 8.755777777777779e-06,
      "loss": 2.3916,
      "step": 10600
    },
    {
      "epoch": 0.212,
      "eval_loss": 2.4061877727508545,
      "eval_runtime": 31.8484,
      "eval_samples_per_second": 3.203,
      "eval_steps_per_second": 1.601,
      "step": 10600
    },
    {
      "epoch": 0.2125,
      "grad_norm": 0.5649004204666818,
      "learning_rate": 8.750222222222223e-06,
      "loss": 2.381,
      "step": 10625
    },
    {
      "epoch": 0.213,
      "grad_norm": 0.5678489376050115,
      "learning_rate": 8.744666666666666e-06,
      "loss": 2.3995,
      "step": 10650
    },
    {
      "epoch": 0.2135,
      "grad_norm": 0.5712733595317334,
      "learning_rate": 8.739111111111111e-06,
      "loss": 2.3954,
      "step": 10675
    },
    {
      "epoch": 0.214,
      "grad_norm": 0.573353636066434,
      "learning_rate": 8.733555555555557e-06,
      "loss": 2.379,
      "step": 10700
    },
    {
      "epoch": 0.214,
      "eval_loss": 2.4055771827697754,
      "eval_runtime": 31.8192,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 10700
    },
    {
      "epoch": 0.2145,
      "grad_norm": 0.6133309651928519,
      "learning_rate": 8.728e-06,
      "loss": 2.3946,
      "step": 10725
    },
    {
      "epoch": 0.215,
      "grad_norm": 0.6033931866035528,
      "learning_rate": 8.722444444444445e-06,
      "loss": 2.3935,
      "step": 10750
    },
    {
      "epoch": 0.2155,
      "grad_norm": 0.6008672136487845,
      "learning_rate": 8.716888888888889e-06,
      "loss": 2.3872,
      "step": 10775
    },
    {
      "epoch": 0.216,
      "grad_norm": 0.5728704483928734,
      "learning_rate": 8.711333333333334e-06,
      "loss": 2.3917,
      "step": 10800
    },
    {
      "epoch": 0.216,
      "eval_loss": 2.4059016704559326,
      "eval_runtime": 31.7995,
      "eval_samples_per_second": 3.208,
      "eval_steps_per_second": 1.604,
      "step": 10800
    },
    {
      "epoch": 0.2165,
      "grad_norm": 0.5888944153423502,
      "learning_rate": 8.705777777777778e-06,
      "loss": 2.3946,
      "step": 10825
    },
    {
      "epoch": 0.217,
      "grad_norm": 0.5947880979306366,
      "learning_rate": 8.700222222222223e-06,
      "loss": 2.3736,
      "step": 10850
    },
    {
      "epoch": 0.2175,
      "grad_norm": 0.6163696606959644,
      "learning_rate": 8.694666666666668e-06,
      "loss": 2.3838,
      "step": 10875
    },
    {
      "epoch": 0.218,
      "grad_norm": 0.6004092938812543,
      "learning_rate": 8.689111111111112e-06,
      "loss": 2.3942,
      "step": 10900
    },
    {
      "epoch": 0.218,
      "eval_loss": 2.4055566787719727,
      "eval_runtime": 31.7386,
      "eval_samples_per_second": 3.214,
      "eval_steps_per_second": 1.607,
      "step": 10900
    },
    {
      "epoch": 0.2185,
      "grad_norm": 0.5786273641598245,
      "learning_rate": 8.683555555555555e-06,
      "loss": 2.3938,
      "step": 10925
    },
    {
      "epoch": 0.219,
      "grad_norm": 0.5764162885826465,
      "learning_rate": 8.678e-06,
      "loss": 2.3939,
      "step": 10950
    },
    {
      "epoch": 0.2195,
      "grad_norm": 0.5923291223123188,
      "learning_rate": 8.672444444444446e-06,
      "loss": 2.3847,
      "step": 10975
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6102815146568634,
      "learning_rate": 8.66688888888889e-06,
      "loss": 2.3901,
      "step": 11000
    },
    {
      "epoch": 0.22,
      "eval_loss": 2.405616044998169,
      "eval_runtime": 31.7048,
      "eval_samples_per_second": 3.217,
      "eval_steps_per_second": 1.609,
      "step": 11000
    },
    {
      "epoch": 0.2205,
      "grad_norm": 0.619520274382602,
      "learning_rate": 8.661333333333335e-06,
      "loss": 2.3868,
      "step": 11025
    },
    {
      "epoch": 0.221,
      "grad_norm": 0.5973378822756289,
      "learning_rate": 8.655777777777778e-06,
      "loss": 2.398,
      "step": 11050
    },
    {
      "epoch": 0.2215,
      "grad_norm": 0.6143187669490118,
      "learning_rate": 8.650222222222223e-06,
      "loss": 2.387,
      "step": 11075
    },
    {
      "epoch": 0.222,
      "grad_norm": 0.5804040103557917,
      "learning_rate": 8.644666666666669e-06,
      "loss": 2.3951,
      "step": 11100
    },
    {
      "epoch": 0.222,
      "eval_loss": 2.4050545692443848,
      "eval_runtime": 31.7713,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 11100
    },
    {
      "epoch": 0.2225,
      "grad_norm": 0.5833158956225722,
      "learning_rate": 8.639111111111112e-06,
      "loss": 2.3854,
      "step": 11125
    },
    {
      "epoch": 0.223,
      "grad_norm": 0.5741811771851818,
      "learning_rate": 8.633555555555556e-06,
      "loss": 2.3866,
      "step": 11150
    },
    {
      "epoch": 0.2235,
      "grad_norm": 0.5856955103294486,
      "learning_rate": 8.628000000000001e-06,
      "loss": 2.4058,
      "step": 11175
    },
    {
      "epoch": 0.224,
      "grad_norm": 0.5685596699989746,
      "learning_rate": 8.622444444444446e-06,
      "loss": 2.3953,
      "step": 11200
    },
    {
      "epoch": 0.224,
      "eval_loss": 2.4051928520202637,
      "eval_runtime": 35.481,
      "eval_samples_per_second": 2.875,
      "eval_steps_per_second": 1.437,
      "step": 11200
    },
    {
      "epoch": 0.2245,
      "grad_norm": 0.5854297741723825,
      "learning_rate": 8.61688888888889e-06,
      "loss": 2.3977,
      "step": 11225
    },
    {
      "epoch": 0.225,
      "grad_norm": 0.582929503102295,
      "learning_rate": 8.611333333333333e-06,
      "loss": 2.3948,
      "step": 11250
    },
    {
      "epoch": 0.2255,
      "grad_norm": 0.5839207937169353,
      "learning_rate": 8.605777777777779e-06,
      "loss": 2.4104,
      "step": 11275
    },
    {
      "epoch": 0.226,
      "grad_norm": 0.5568849917729087,
      "learning_rate": 8.600222222222224e-06,
      "loss": 2.4011,
      "step": 11300
    },
    {
      "epoch": 0.226,
      "eval_loss": 2.404717445373535,
      "eval_runtime": 31.9835,
      "eval_samples_per_second": 3.189,
      "eval_steps_per_second": 1.595,
      "step": 11300
    },
    {
      "epoch": 0.2265,
      "grad_norm": 0.5549969270675909,
      "learning_rate": 8.594666666666668e-06,
      "loss": 2.3965,
      "step": 11325
    },
    {
      "epoch": 0.227,
      "grad_norm": 0.5606539732290856,
      "learning_rate": 8.589111111111111e-06,
      "loss": 2.3921,
      "step": 11350
    },
    {
      "epoch": 0.2275,
      "grad_norm": 0.5626929771754517,
      "learning_rate": 8.583555555555556e-06,
      "loss": 2.3912,
      "step": 11375
    },
    {
      "epoch": 0.228,
      "grad_norm": 0.5731631708828652,
      "learning_rate": 8.578000000000002e-06,
      "loss": 2.3926,
      "step": 11400
    },
    {
      "epoch": 0.228,
      "eval_loss": 2.4047322273254395,
      "eval_runtime": 31.8245,
      "eval_samples_per_second": 3.205,
      "eval_steps_per_second": 1.603,
      "step": 11400
    },
    {
      "epoch": 0.2285,
      "grad_norm": 0.5661654100374769,
      "learning_rate": 8.572444444444445e-06,
      "loss": 2.3951,
      "step": 11425
    },
    {
      "epoch": 0.229,
      "grad_norm": 0.5602181256620924,
      "learning_rate": 8.56688888888889e-06,
      "loss": 2.3812,
      "step": 11450
    },
    {
      "epoch": 0.2295,
      "grad_norm": 0.5950733473289397,
      "learning_rate": 8.561333333333334e-06,
      "loss": 2.3963,
      "step": 11475
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.5733938863696743,
      "learning_rate": 8.55577777777778e-06,
      "loss": 2.3932,
      "step": 11500
    },
    {
      "epoch": 0.23,
      "eval_loss": 2.403830051422119,
      "eval_runtime": 31.7862,
      "eval_samples_per_second": 3.209,
      "eval_steps_per_second": 1.604,
      "step": 11500
    },
    {
      "epoch": 0.2305,
      "grad_norm": 0.5702512759518216,
      "learning_rate": 8.550222222222223e-06,
      "loss": 2.3824,
      "step": 11525
    },
    {
      "epoch": 0.231,
      "grad_norm": 0.5749933738625221,
      "learning_rate": 8.544666666666668e-06,
      "loss": 2.3674,
      "step": 11550
    },
    {
      "epoch": 0.2315,
      "grad_norm": 0.563814842108926,
      "learning_rate": 8.539111111111112e-06,
      "loss": 2.3866,
      "step": 11575
    },
    {
      "epoch": 0.232,
      "grad_norm": 0.601764608458657,
      "learning_rate": 8.533555555555557e-06,
      "loss": 2.3949,
      "step": 11600
    },
    {
      "epoch": 0.232,
      "eval_loss": 2.4035561084747314,
      "eval_runtime": 31.7077,
      "eval_samples_per_second": 3.217,
      "eval_steps_per_second": 1.608,
      "step": 11600
    },
    {
      "epoch": 0.2325,
      "grad_norm": 0.5674229084100237,
      "learning_rate": 8.528e-06,
      "loss": 2.3782,
      "step": 11625
    },
    {
      "epoch": 0.233,
      "grad_norm": 0.5660025767055805,
      "learning_rate": 8.522444444444446e-06,
      "loss": 2.3811,
      "step": 11650
    },
    {
      "epoch": 0.2335,
      "grad_norm": 0.5776196117388842,
      "learning_rate": 8.51688888888889e-06,
      "loss": 2.3964,
      "step": 11675
    },
    {
      "epoch": 0.234,
      "grad_norm": 0.5815076886720436,
      "learning_rate": 8.511333333333334e-06,
      "loss": 2.3907,
      "step": 11700
    },
    {
      "epoch": 0.234,
      "eval_loss": 2.4035725593566895,
      "eval_runtime": 31.7541,
      "eval_samples_per_second": 3.212,
      "eval_steps_per_second": 1.606,
      "step": 11700
    },
    {
      "epoch": 0.2345,
      "grad_norm": 0.5810635532925048,
      "learning_rate": 8.505777777777778e-06,
      "loss": 2.3921,
      "step": 11725
    },
    {
      "epoch": 0.235,
      "grad_norm": 0.5635380257098753,
      "learning_rate": 8.500222222222223e-06,
      "loss": 2.4062,
      "step": 11750
    },
    {
      "epoch": 0.2355,
      "grad_norm": 0.5985004911332629,
      "learning_rate": 8.494666666666668e-06,
      "loss": 2.3853,
      "step": 11775
    },
    {
      "epoch": 0.236,
      "grad_norm": 0.580078413647693,
      "learning_rate": 8.489111111111112e-06,
      "loss": 2.3826,
      "step": 11800
    },
    {
      "epoch": 0.236,
      "eval_loss": 2.403505325317383,
      "eval_runtime": 31.7265,
      "eval_samples_per_second": 3.215,
      "eval_steps_per_second": 1.607,
      "step": 11800
    },
    {
      "epoch": 0.2365,
      "grad_norm": 0.5560334145179444,
      "learning_rate": 8.483555555555556e-06,
      "loss": 2.3829,
      "step": 11825
    },
    {
      "epoch": 0.237,
      "grad_norm": 0.5870934042209253,
      "learning_rate": 8.478e-06,
      "loss": 2.374,
      "step": 11850
    },
    {
      "epoch": 0.2375,
      "grad_norm": 0.5745342448568999,
      "learning_rate": 8.472444444444446e-06,
      "loss": 2.3797,
      "step": 11875
    },
    {
      "epoch": 0.238,
      "grad_norm": 0.5676573173578097,
      "learning_rate": 8.46688888888889e-06,
      "loss": 2.3867,
      "step": 11900
    },
    {
      "epoch": 0.238,
      "eval_loss": 2.403400421142578,
      "eval_runtime": 31.8105,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 11900
    },
    {
      "epoch": 0.2385,
      "grad_norm": 0.5701256243606029,
      "learning_rate": 8.461333333333333e-06,
      "loss": 2.3832,
      "step": 11925
    },
    {
      "epoch": 0.239,
      "grad_norm": 0.5839965205220576,
      "learning_rate": 8.455777777777778e-06,
      "loss": 2.3939,
      "step": 11950
    },
    {
      "epoch": 0.2395,
      "grad_norm": 0.581600775004578,
      "learning_rate": 8.450222222222224e-06,
      "loss": 2.382,
      "step": 11975
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5945113931788275,
      "learning_rate": 8.444666666666667e-06,
      "loss": 2.3947,
      "step": 12000
    },
    {
      "epoch": 0.24,
      "eval_loss": 2.4031572341918945,
      "eval_runtime": 31.7154,
      "eval_samples_per_second": 3.216,
      "eval_steps_per_second": 1.608,
      "step": 12000
    },
    {
      "epoch": 0.2405,
      "grad_norm": 0.5687487747515707,
      "learning_rate": 8.43911111111111e-06,
      "loss": 2.3859,
      "step": 12025
    },
    {
      "epoch": 0.241,
      "grad_norm": 0.6156971193882954,
      "learning_rate": 8.433555555555556e-06,
      "loss": 2.3936,
      "step": 12050
    },
    {
      "epoch": 0.2415,
      "grad_norm": 0.5735725917481376,
      "learning_rate": 8.428000000000001e-06,
      "loss": 2.3867,
      "step": 12075
    },
    {
      "epoch": 0.242,
      "grad_norm": 0.5900311312717111,
      "learning_rate": 8.422444444444445e-06,
      "loss": 2.381,
      "step": 12100
    },
    {
      "epoch": 0.242,
      "eval_loss": 2.402616262435913,
      "eval_runtime": 31.728,
      "eval_samples_per_second": 3.215,
      "eval_steps_per_second": 1.607,
      "step": 12100
    },
    {
      "epoch": 0.2425,
      "grad_norm": 0.6210456413331185,
      "learning_rate": 8.41688888888889e-06,
      "loss": 2.3897,
      "step": 12125
    },
    {
      "epoch": 0.243,
      "grad_norm": 0.564076844370536,
      "learning_rate": 8.411333333333334e-06,
      "loss": 2.3789,
      "step": 12150
    },
    {
      "epoch": 0.2435,
      "grad_norm": 0.5787670607206897,
      "learning_rate": 8.405777777777779e-06,
      "loss": 2.3927,
      "step": 12175
    },
    {
      "epoch": 0.244,
      "grad_norm": 0.557686861390105,
      "learning_rate": 8.400222222222222e-06,
      "loss": 2.3761,
      "step": 12200
    },
    {
      "epoch": 0.244,
      "eval_loss": 2.4025542736053467,
      "eval_runtime": 31.8116,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 12200
    },
    {
      "epoch": 0.2445,
      "grad_norm": 0.5642621664909974,
      "learning_rate": 8.394666666666668e-06,
      "loss": 2.3787,
      "step": 12225
    },
    {
      "epoch": 0.245,
      "grad_norm": 0.5812642245692796,
      "learning_rate": 8.389111111111113e-06,
      "loss": 2.3888,
      "step": 12250
    },
    {
      "epoch": 0.2455,
      "grad_norm": 0.5903665572148793,
      "learning_rate": 8.383555555555557e-06,
      "loss": 2.3874,
      "step": 12275
    },
    {
      "epoch": 0.246,
      "grad_norm": 0.5752826274496151,
      "learning_rate": 8.378e-06,
      "loss": 2.3851,
      "step": 12300
    },
    {
      "epoch": 0.246,
      "eval_loss": 2.4024178981781006,
      "eval_runtime": 31.9538,
      "eval_samples_per_second": 3.192,
      "eval_steps_per_second": 1.596,
      "step": 12300
    },
    {
      "epoch": 0.2465,
      "grad_norm": 0.5625780105871633,
      "learning_rate": 8.372444444444445e-06,
      "loss": 2.3857,
      "step": 12325
    },
    {
      "epoch": 0.247,
      "grad_norm": 0.5516059110433715,
      "learning_rate": 8.36688888888889e-06,
      "loss": 2.387,
      "step": 12350
    },
    {
      "epoch": 0.2475,
      "grad_norm": 0.5743651124710031,
      "learning_rate": 8.361333333333334e-06,
      "loss": 2.3899,
      "step": 12375
    },
    {
      "epoch": 0.248,
      "grad_norm": 0.6065509345211424,
      "learning_rate": 8.355777777777778e-06,
      "loss": 2.3811,
      "step": 12400
    },
    {
      "epoch": 0.248,
      "eval_loss": 2.402189254760742,
      "eval_runtime": 31.7357,
      "eval_samples_per_second": 3.214,
      "eval_steps_per_second": 1.607,
      "step": 12400
    },
    {
      "epoch": 0.2485,
      "grad_norm": 0.569411806780091,
      "learning_rate": 8.350222222222223e-06,
      "loss": 2.3891,
      "step": 12425
    },
    {
      "epoch": 0.249,
      "grad_norm": 0.5781227404353481,
      "learning_rate": 8.344666666666668e-06,
      "loss": 2.3799,
      "step": 12450
    },
    {
      "epoch": 0.2495,
      "grad_norm": 0.5882770416548074,
      "learning_rate": 8.339111111111112e-06,
      "loss": 2.3921,
      "step": 12475
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6053137792053689,
      "learning_rate": 8.333555555555555e-06,
      "loss": 2.3923,
      "step": 12500
    },
    {
      "epoch": 0.25,
      "eval_loss": 2.401906967163086,
      "eval_runtime": 31.7052,
      "eval_samples_per_second": 3.217,
      "eval_steps_per_second": 1.609,
      "step": 12500
    },
    {
      "epoch": 0.2505,
      "grad_norm": 0.5493940361276148,
      "learning_rate": 8.328e-06,
      "loss": 2.3872,
      "step": 12525
    },
    {
      "epoch": 0.251,
      "grad_norm": 0.5844453837465953,
      "learning_rate": 8.322444444444446e-06,
      "loss": 2.3859,
      "step": 12550
    },
    {
      "epoch": 0.2515,
      "grad_norm": 0.589694030674745,
      "learning_rate": 8.31688888888889e-06,
      "loss": 2.3852,
      "step": 12575
    },
    {
      "epoch": 0.252,
      "grad_norm": 0.5985872367130171,
      "learning_rate": 8.311333333333333e-06,
      "loss": 2.378,
      "step": 12600
    },
    {
      "epoch": 0.252,
      "eval_loss": 2.4017632007598877,
      "eval_runtime": 31.8059,
      "eval_samples_per_second": 3.207,
      "eval_steps_per_second": 1.603,
      "step": 12600
    },
    {
      "epoch": 0.2525,
      "grad_norm": 0.6246560097732429,
      "learning_rate": 8.305777777777778e-06,
      "loss": 2.3891,
      "step": 12625
    },
    {
      "epoch": 0.253,
      "grad_norm": 0.5977851115835912,
      "learning_rate": 8.300222222222223e-06,
      "loss": 2.3884,
      "step": 12650
    },
    {
      "epoch": 0.2535,
      "grad_norm": 0.5535634109353079,
      "learning_rate": 8.294666666666667e-06,
      "loss": 2.3894,
      "step": 12675
    },
    {
      "epoch": 0.254,
      "grad_norm": 0.5647542662126371,
      "learning_rate": 8.289111111111112e-06,
      "loss": 2.3889,
      "step": 12700
    },
    {
      "epoch": 0.254,
      "eval_loss": 2.4015073776245117,
      "eval_runtime": 31.6682,
      "eval_samples_per_second": 3.221,
      "eval_steps_per_second": 1.61,
      "step": 12700
    },
    {
      "epoch": 0.2545,
      "grad_norm": 0.5689860381748764,
      "learning_rate": 8.283555555555556e-06,
      "loss": 2.391,
      "step": 12725
    },
    {
      "epoch": 0.255,
      "grad_norm": 0.5788815220722723,
      "learning_rate": 8.278000000000001e-06,
      "loss": 2.3746,
      "step": 12750
    },
    {
      "epoch": 0.2555,
      "grad_norm": 0.5746385277305921,
      "learning_rate": 8.272444444444445e-06,
      "loss": 2.3884,
      "step": 12775
    },
    {
      "epoch": 0.256,
      "grad_norm": 0.5952261074381101,
      "learning_rate": 8.26688888888889e-06,
      "loss": 2.387,
      "step": 12800
    },
    {
      "epoch": 0.256,
      "eval_loss": 2.401090383529663,
      "eval_runtime": 31.7518,
      "eval_samples_per_second": 3.212,
      "eval_steps_per_second": 1.606,
      "step": 12800
    },
    {
      "epoch": 0.2565,
      "grad_norm": 0.581914246490724,
      "learning_rate": 8.261333333333335e-06,
      "loss": 2.3879,
      "step": 12825
    },
    {
      "epoch": 0.257,
      "grad_norm": 0.5582195018164189,
      "learning_rate": 8.255777777777779e-06,
      "loss": 2.3783,
      "step": 12850
    },
    {
      "epoch": 0.2575,
      "grad_norm": 0.5633036552978725,
      "learning_rate": 8.250222222222222e-06,
      "loss": 2.3845,
      "step": 12875
    },
    {
      "epoch": 0.258,
      "grad_norm": 0.5613155523789654,
      "learning_rate": 8.244666666666667e-06,
      "loss": 2.3942,
      "step": 12900
    },
    {
      "epoch": 0.258,
      "eval_loss": 2.4014108180999756,
      "eval_runtime": 31.8052,
      "eval_samples_per_second": 3.207,
      "eval_steps_per_second": 1.604,
      "step": 12900
    },
    {
      "epoch": 0.2585,
      "grad_norm": 0.5906307979751212,
      "learning_rate": 8.239111111111113e-06,
      "loss": 2.3807,
      "step": 12925
    },
    {
      "epoch": 0.259,
      "grad_norm": 0.5786593603781868,
      "learning_rate": 8.233555555555556e-06,
      "loss": 2.3848,
      "step": 12950
    },
    {
      "epoch": 0.2595,
      "grad_norm": 0.5739057988147651,
      "learning_rate": 8.228e-06,
      "loss": 2.3841,
      "step": 12975
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.5727067411665359,
      "learning_rate": 8.222444444444445e-06,
      "loss": 2.3771,
      "step": 13000
    },
    {
      "epoch": 0.26,
      "eval_loss": 2.4009385108947754,
      "eval_runtime": 31.8075,
      "eval_samples_per_second": 3.207,
      "eval_steps_per_second": 1.603,
      "step": 13000
    },
    {
      "epoch": 0.2605,
      "grad_norm": 0.5758550911461594,
      "learning_rate": 8.21688888888889e-06,
      "loss": 2.39,
      "step": 13025
    },
    {
      "epoch": 0.261,
      "grad_norm": 0.5506335078390368,
      "learning_rate": 8.211333333333334e-06,
      "loss": 2.3879,
      "step": 13050
    },
    {
      "epoch": 0.2615,
      "grad_norm": 0.578047700560021,
      "learning_rate": 8.205777777777777e-06,
      "loss": 2.3772,
      "step": 13075
    },
    {
      "epoch": 0.262,
      "grad_norm": 0.5517825098879646,
      "learning_rate": 8.200222222222223e-06,
      "loss": 2.3751,
      "step": 13100
    },
    {
      "epoch": 0.262,
      "eval_loss": 2.4008378982543945,
      "eval_runtime": 31.8219,
      "eval_samples_per_second": 3.205,
      "eval_steps_per_second": 1.603,
      "step": 13100
    },
    {
      "epoch": 0.2625,
      "grad_norm": 0.6060142395322289,
      "learning_rate": 8.194666666666668e-06,
      "loss": 2.3859,
      "step": 13125
    },
    {
      "epoch": 0.263,
      "grad_norm": 0.6151379264003006,
      "learning_rate": 8.189111111111111e-06,
      "loss": 2.3906,
      "step": 13150
    },
    {
      "epoch": 0.2635,
      "grad_norm": 0.5889091981712471,
      "learning_rate": 8.183555555555555e-06,
      "loss": 2.3813,
      "step": 13175
    },
    {
      "epoch": 0.264,
      "grad_norm": 0.7021686085407579,
      "learning_rate": 8.178e-06,
      "loss": 2.3844,
      "step": 13200
    },
    {
      "epoch": 0.264,
      "eval_loss": 2.400826930999756,
      "eval_runtime": 31.7255,
      "eval_samples_per_second": 3.215,
      "eval_steps_per_second": 1.608,
      "step": 13200
    },
    {
      "epoch": 0.2645,
      "grad_norm": 0.5738899506070113,
      "learning_rate": 8.172444444444446e-06,
      "loss": 2.3974,
      "step": 13225
    },
    {
      "epoch": 0.265,
      "grad_norm": 0.618543215020873,
      "learning_rate": 8.166888888888889e-06,
      "loss": 2.3846,
      "step": 13250
    },
    {
      "epoch": 0.2655,
      "grad_norm": 0.5529480549821216,
      "learning_rate": 8.161333333333334e-06,
      "loss": 2.3816,
      "step": 13275
    },
    {
      "epoch": 0.266,
      "grad_norm": 0.569904631452621,
      "learning_rate": 8.155777777777778e-06,
      "loss": 2.3809,
      "step": 13300
    },
    {
      "epoch": 0.266,
      "eval_loss": 2.4002933502197266,
      "eval_runtime": 31.6983,
      "eval_samples_per_second": 3.218,
      "eval_steps_per_second": 1.609,
      "step": 13300
    },
    {
      "epoch": 0.2665,
      "grad_norm": 0.5743878084278218,
      "learning_rate": 8.150222222222223e-06,
      "loss": 2.3941,
      "step": 13325
    },
    {
      "epoch": 0.267,
      "grad_norm": 0.5594243149898632,
      "learning_rate": 8.144666666666667e-06,
      "loss": 2.3878,
      "step": 13350
    },
    {
      "epoch": 0.2675,
      "grad_norm": 0.5810666087448406,
      "learning_rate": 8.139111111111112e-06,
      "loss": 2.381,
      "step": 13375
    },
    {
      "epoch": 0.268,
      "grad_norm": 0.5595852108101106,
      "learning_rate": 8.133555555555557e-06,
      "loss": 2.3792,
      "step": 13400
    },
    {
      "epoch": 0.268,
      "eval_loss": 2.400261878967285,
      "eval_runtime": 31.6975,
      "eval_samples_per_second": 3.218,
      "eval_steps_per_second": 1.609,
      "step": 13400
    },
    {
      "epoch": 0.2685,
      "grad_norm": 0.5789530002361615,
      "learning_rate": 8.128e-06,
      "loss": 2.3759,
      "step": 13425
    },
    {
      "epoch": 0.269,
      "grad_norm": 0.5662301407639397,
      "learning_rate": 8.122444444444444e-06,
      "loss": 2.3791,
      "step": 13450
    },
    {
      "epoch": 0.2695,
      "grad_norm": 0.6131145841315326,
      "learning_rate": 8.11688888888889e-06,
      "loss": 2.3833,
      "step": 13475
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5607318024001929,
      "learning_rate": 8.111333333333335e-06,
      "loss": 2.3724,
      "step": 13500
    },
    {
      "epoch": 0.27,
      "eval_loss": 2.4000020027160645,
      "eval_runtime": 31.71,
      "eval_samples_per_second": 3.217,
      "eval_steps_per_second": 1.608,
      "step": 13500
    },
    {
      "epoch": 0.2705,
      "grad_norm": 0.5692755244185855,
      "learning_rate": 8.105777777777778e-06,
      "loss": 2.3788,
      "step": 13525
    },
    {
      "epoch": 0.271,
      "grad_norm": 0.5647342769538716,
      "learning_rate": 8.100222222222222e-06,
      "loss": 2.3799,
      "step": 13550
    },
    {
      "epoch": 0.2715,
      "grad_norm": 0.5976773519089553,
      "learning_rate": 8.094666666666667e-06,
      "loss": 2.3828,
      "step": 13575
    },
    {
      "epoch": 0.272,
      "grad_norm": 0.5642506953063758,
      "learning_rate": 8.089111111111112e-06,
      "loss": 2.3835,
      "step": 13600
    },
    {
      "epoch": 0.272,
      "eval_loss": 2.400066614151001,
      "eval_runtime": 31.8128,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 13600
    },
    {
      "epoch": 0.2725,
      "grad_norm": 0.5616659241704035,
      "learning_rate": 8.083555555555556e-06,
      "loss": 2.3801,
      "step": 13625
    },
    {
      "epoch": 0.273,
      "grad_norm": 0.5878315825498157,
      "learning_rate": 8.078e-06,
      "loss": 2.3781,
      "step": 13650
    },
    {
      "epoch": 0.2735,
      "grad_norm": 0.5716337786191225,
      "learning_rate": 8.072444444444445e-06,
      "loss": 2.3932,
      "step": 13675
    },
    {
      "epoch": 0.274,
      "grad_norm": 0.5636757577555458,
      "learning_rate": 8.06688888888889e-06,
      "loss": 2.4041,
      "step": 13700
    },
    {
      "epoch": 0.274,
      "eval_loss": 2.3997650146484375,
      "eval_runtime": 31.4871,
      "eval_samples_per_second": 3.239,
      "eval_steps_per_second": 1.62,
      "step": 13700
    },
    {
      "epoch": 0.2745,
      "grad_norm": 0.5564992808480433,
      "learning_rate": 8.061333333333334e-06,
      "loss": 2.3971,
      "step": 13725
    },
    {
      "epoch": 0.275,
      "grad_norm": 0.5736246457745038,
      "learning_rate": 8.055777777777777e-06,
      "loss": 2.3847,
      "step": 13750
    },
    {
      "epoch": 0.2755,
      "grad_norm": 0.5423430973262378,
      "learning_rate": 8.050222222222222e-06,
      "loss": 2.3786,
      "step": 13775
    },
    {
      "epoch": 0.276,
      "grad_norm": 0.5672815850751382,
      "learning_rate": 8.044666666666668e-06,
      "loss": 2.3945,
      "step": 13800
    },
    {
      "epoch": 0.276,
      "eval_loss": 2.399338483810425,
      "eval_runtime": 31.3741,
      "eval_samples_per_second": 3.251,
      "eval_steps_per_second": 1.626,
      "step": 13800
    },
    {
      "epoch": 0.2765,
      "grad_norm": 0.5919813611615313,
      "learning_rate": 8.039111111111111e-06,
      "loss": 2.3738,
      "step": 13825
    },
    {
      "epoch": 0.277,
      "grad_norm": 0.5679311638374708,
      "learning_rate": 8.033555555555556e-06,
      "loss": 2.3771,
      "step": 13850
    },
    {
      "epoch": 0.2775,
      "grad_norm": 0.5533203763453908,
      "learning_rate": 8.028e-06,
      "loss": 2.3831,
      "step": 13875
    },
    {
      "epoch": 0.278,
      "grad_norm": 0.5674818164725537,
      "learning_rate": 8.022444444444445e-06,
      "loss": 2.3811,
      "step": 13900
    },
    {
      "epoch": 0.278,
      "eval_loss": 2.3990118503570557,
      "eval_runtime": 31.47,
      "eval_samples_per_second": 3.241,
      "eval_steps_per_second": 1.621,
      "step": 13900
    },
    {
      "epoch": 0.2785,
      "grad_norm": 0.5664699981127816,
      "learning_rate": 8.016888888888889e-06,
      "loss": 2.3848,
      "step": 13925
    },
    {
      "epoch": 0.279,
      "grad_norm": 0.6085875103795902,
      "learning_rate": 8.011333333333334e-06,
      "loss": 2.3822,
      "step": 13950
    },
    {
      "epoch": 0.2795,
      "grad_norm": 0.561160479481643,
      "learning_rate": 8.00577777777778e-06,
      "loss": 2.3722,
      "step": 13975
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.566395855978902,
      "learning_rate": 8.000222222222223e-06,
      "loss": 2.3922,
      "step": 14000
    },
    {
      "epoch": 0.28,
      "eval_loss": 2.3991119861602783,
      "eval_runtime": 31.6591,
      "eval_samples_per_second": 3.222,
      "eval_steps_per_second": 1.611,
      "step": 14000
    },
    {
      "epoch": 0.2805,
      "grad_norm": 0.5680524398621669,
      "learning_rate": 7.994666666666666e-06,
      "loss": 2.382,
      "step": 14025
    },
    {
      "epoch": 0.281,
      "grad_norm": 0.5577808062612865,
      "learning_rate": 7.989111111111112e-06,
      "loss": 2.3817,
      "step": 14050
    },
    {
      "epoch": 0.2815,
      "grad_norm": 0.5609272583996402,
      "learning_rate": 7.983555555555557e-06,
      "loss": 2.3807,
      "step": 14075
    },
    {
      "epoch": 0.282,
      "grad_norm": 0.5572862450140419,
      "learning_rate": 7.978e-06,
      "loss": 2.3883,
      "step": 14100
    },
    {
      "epoch": 0.282,
      "eval_loss": 2.399045467376709,
      "eval_runtime": 31.4262,
      "eval_samples_per_second": 3.246,
      "eval_steps_per_second": 1.623,
      "step": 14100
    },
    {
      "epoch": 0.2825,
      "grad_norm": 0.5548825232758766,
      "learning_rate": 7.972444444444444e-06,
      "loss": 2.3906,
      "step": 14125
    },
    {
      "epoch": 0.283,
      "grad_norm": 0.5699464235282781,
      "learning_rate": 7.96688888888889e-06,
      "loss": 2.3985,
      "step": 14150
    },
    {
      "epoch": 0.2835,
      "grad_norm": 0.5949860745449153,
      "learning_rate": 7.961333333333335e-06,
      "loss": 2.384,
      "step": 14175
    },
    {
      "epoch": 0.284,
      "grad_norm": 1.207767068552352,
      "learning_rate": 7.955777777777778e-06,
      "loss": 2.3897,
      "step": 14200
    },
    {
      "epoch": 0.284,
      "eval_loss": 2.3988163471221924,
      "eval_runtime": 31.5331,
      "eval_samples_per_second": 3.235,
      "eval_steps_per_second": 1.617,
      "step": 14200
    },
    {
      "epoch": 0.2845,
      "grad_norm": 0.5734778733619218,
      "learning_rate": 7.950222222222222e-06,
      "loss": 2.3995,
      "step": 14225
    },
    {
      "epoch": 0.285,
      "grad_norm": 0.5809053174835214,
      "learning_rate": 7.944666666666667e-06,
      "loss": 2.3935,
      "step": 14250
    },
    {
      "epoch": 0.2855,
      "grad_norm": 0.5721177604701749,
      "learning_rate": 7.939111111111112e-06,
      "loss": 2.3831,
      "step": 14275
    },
    {
      "epoch": 0.286,
      "grad_norm": 0.5870187369085319,
      "learning_rate": 7.933555555555556e-06,
      "loss": 2.3876,
      "step": 14300
    },
    {
      "epoch": 0.286,
      "eval_loss": 2.3985910415649414,
      "eval_runtime": 31.8276,
      "eval_samples_per_second": 3.205,
      "eval_steps_per_second": 1.602,
      "step": 14300
    },
    {
      "epoch": 0.2865,
      "grad_norm": 0.5540420732959112,
      "learning_rate": 7.928e-06,
      "loss": 2.3894,
      "step": 14325
    },
    {
      "epoch": 0.287,
      "grad_norm": 0.5771375830109964,
      "learning_rate": 7.922444444444445e-06,
      "loss": 2.3919,
      "step": 14350
    },
    {
      "epoch": 0.2875,
      "grad_norm": 0.558274829145414,
      "learning_rate": 7.91688888888889e-06,
      "loss": 2.3792,
      "step": 14375
    },
    {
      "epoch": 0.288,
      "grad_norm": 0.5489382411994304,
      "learning_rate": 7.911333333333333e-06,
      "loss": 2.382,
      "step": 14400
    },
    {
      "epoch": 0.288,
      "eval_loss": 2.398547887802124,
      "eval_runtime": 31.7859,
      "eval_samples_per_second": 3.209,
      "eval_steps_per_second": 1.604,
      "step": 14400
    },
    {
      "epoch": 0.2885,
      "grad_norm": 0.5437020470565486,
      "learning_rate": 7.905777777777779e-06,
      "loss": 2.391,
      "step": 14425
    },
    {
      "epoch": 0.289,
      "grad_norm": 0.5822012645571201,
      "learning_rate": 7.900222222222222e-06,
      "loss": 2.3774,
      "step": 14450
    },
    {
      "epoch": 0.2895,
      "grad_norm": 0.5662409547337693,
      "learning_rate": 7.894666666666667e-06,
      "loss": 2.3754,
      "step": 14475
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.574336415517884,
      "learning_rate": 7.889111111111113e-06,
      "loss": 2.3696,
      "step": 14500
    },
    {
      "epoch": 0.29,
      "eval_loss": 2.3984858989715576,
      "eval_runtime": 31.7473,
      "eval_samples_per_second": 3.213,
      "eval_steps_per_second": 1.606,
      "step": 14500
    },
    {
      "epoch": 0.2905,
      "grad_norm": 0.5564392509678192,
      "learning_rate": 7.883555555555556e-06,
      "loss": 2.3856,
      "step": 14525
    },
    {
      "epoch": 0.291,
      "grad_norm": 0.5518394045498354,
      "learning_rate": 7.878e-06,
      "loss": 2.3972,
      "step": 14550
    },
    {
      "epoch": 0.2915,
      "grad_norm": 0.5795808696759357,
      "learning_rate": 7.872444444444445e-06,
      "loss": 2.3831,
      "step": 14575
    },
    {
      "epoch": 0.292,
      "grad_norm": 0.5601055983017486,
      "learning_rate": 7.86688888888889e-06,
      "loss": 2.3844,
      "step": 14600
    },
    {
      "epoch": 0.292,
      "eval_loss": 2.3982439041137695,
      "eval_runtime": 31.6763,
      "eval_samples_per_second": 3.22,
      "eval_steps_per_second": 1.61,
      "step": 14600
    },
    {
      "epoch": 0.2925,
      "grad_norm": 0.5964235234322374,
      "learning_rate": 7.861333333333334e-06,
      "loss": 2.3899,
      "step": 14625
    },
    {
      "epoch": 0.293,
      "grad_norm": 0.5610795516162878,
      "learning_rate": 7.855777777777779e-06,
      "loss": 2.3838,
      "step": 14650
    },
    {
      "epoch": 0.2935,
      "grad_norm": 0.5670881867616083,
      "learning_rate": 7.850222222222223e-06,
      "loss": 2.3825,
      "step": 14675
    },
    {
      "epoch": 0.294,
      "grad_norm": 0.5643624181789829,
      "learning_rate": 7.844666666666668e-06,
      "loss": 2.3882,
      "step": 14700
    },
    {
      "epoch": 0.294,
      "eval_loss": 2.398089647293091,
      "eval_runtime": 31.7677,
      "eval_samples_per_second": 3.211,
      "eval_steps_per_second": 1.605,
      "step": 14700
    },
    {
      "epoch": 0.2945,
      "grad_norm": 0.5686315690402087,
      "learning_rate": 7.839111111111111e-06,
      "loss": 2.3745,
      "step": 14725
    },
    {
      "epoch": 0.295,
      "grad_norm": 0.5893983725540548,
      "learning_rate": 7.833555555555557e-06,
      "loss": 2.378,
      "step": 14750
    },
    {
      "epoch": 0.2955,
      "grad_norm": 0.5972901998200331,
      "learning_rate": 7.828000000000002e-06,
      "loss": 2.377,
      "step": 14775
    },
    {
      "epoch": 0.296,
      "grad_norm": 0.5804879541179684,
      "learning_rate": 7.822444444444446e-06,
      "loss": 2.3911,
      "step": 14800
    },
    {
      "epoch": 0.296,
      "eval_loss": 2.397839069366455,
      "eval_runtime": 31.7602,
      "eval_samples_per_second": 3.212,
      "eval_steps_per_second": 1.606,
      "step": 14800
    },
    {
      "epoch": 0.2965,
      "grad_norm": 0.577463980570899,
      "learning_rate": 7.816888888888889e-06,
      "loss": 2.3896,
      "step": 14825
    },
    {
      "epoch": 0.297,
      "grad_norm": 0.5800702741538564,
      "learning_rate": 7.811333333333334e-06,
      "loss": 2.3838,
      "step": 14850
    },
    {
      "epoch": 0.2975,
      "grad_norm": 0.6037725626202978,
      "learning_rate": 7.80577777777778e-06,
      "loss": 2.3827,
      "step": 14875
    },
    {
      "epoch": 0.298,
      "grad_norm": 0.5862145198472817,
      "learning_rate": 7.800222222222223e-06,
      "loss": 2.3801,
      "step": 14900
    },
    {
      "epoch": 0.298,
      "eval_loss": 2.3976035118103027,
      "eval_runtime": 31.751,
      "eval_samples_per_second": 3.212,
      "eval_steps_per_second": 1.606,
      "step": 14900
    },
    {
      "epoch": 0.2985,
      "grad_norm": 0.5670781074548332,
      "learning_rate": 7.794666666666667e-06,
      "loss": 2.3819,
      "step": 14925
    },
    {
      "epoch": 0.299,
      "grad_norm": 0.5571823653622203,
      "learning_rate": 7.789111111111112e-06,
      "loss": 2.3835,
      "step": 14950
    },
    {
      "epoch": 0.2995,
      "grad_norm": 0.5733242457342494,
      "learning_rate": 7.783555555555557e-06,
      "loss": 2.3728,
      "step": 14975
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.5619677124489769,
      "learning_rate": 7.778e-06,
      "loss": 2.3794,
      "step": 15000
    },
    {
      "epoch": 0.3,
      "eval_loss": 2.397136688232422,
      "eval_runtime": 31.7183,
      "eval_samples_per_second": 3.216,
      "eval_steps_per_second": 1.608,
      "step": 15000
    },
    {
      "epoch": 0.3005,
      "grad_norm": 0.5657448746286691,
      "learning_rate": 7.772444444444444e-06,
      "loss": 2.3897,
      "step": 15025
    },
    {
      "epoch": 0.301,
      "grad_norm": 0.5523525627604269,
      "learning_rate": 7.76688888888889e-06,
      "loss": 2.3795,
      "step": 15050
    },
    {
      "epoch": 0.3015,
      "grad_norm": 0.5950789860717867,
      "learning_rate": 7.761333333333335e-06,
      "loss": 2.3914,
      "step": 15075
    },
    {
      "epoch": 0.302,
      "grad_norm": 0.5999400034143391,
      "learning_rate": 7.755777777777778e-06,
      "loss": 2.3769,
      "step": 15100
    },
    {
      "epoch": 0.302,
      "eval_loss": 2.396873950958252,
      "eval_runtime": 31.7696,
      "eval_samples_per_second": 3.211,
      "eval_steps_per_second": 1.605,
      "step": 15100
    },
    {
      "epoch": 0.3025,
      "grad_norm": 0.558834977842146,
      "learning_rate": 7.750222222222222e-06,
      "loss": 2.3854,
      "step": 15125
    },
    {
      "epoch": 0.303,
      "grad_norm": 0.5582295283472423,
      "learning_rate": 7.744666666666667e-06,
      "loss": 2.3821,
      "step": 15150
    },
    {
      "epoch": 0.3035,
      "grad_norm": 0.5632905015995245,
      "learning_rate": 7.739111111111112e-06,
      "loss": 2.3798,
      "step": 15175
    },
    {
      "epoch": 0.304,
      "grad_norm": 0.5514118333084079,
      "learning_rate": 7.733555555555556e-06,
      "loss": 2.3788,
      "step": 15200
    },
    {
      "epoch": 0.304,
      "eval_loss": 2.3965888023376465,
      "eval_runtime": 31.7152,
      "eval_samples_per_second": 3.216,
      "eval_steps_per_second": 1.608,
      "step": 15200
    },
    {
      "epoch": 0.3045,
      "grad_norm": 0.5649018768322466,
      "learning_rate": 7.728000000000001e-06,
      "loss": 2.3912,
      "step": 15225
    },
    {
      "epoch": 0.305,
      "grad_norm": 0.581561230195339,
      "learning_rate": 7.722444444444445e-06,
      "loss": 2.3766,
      "step": 15250
    },
    {
      "epoch": 0.3055,
      "grad_norm": 0.5604985750115082,
      "learning_rate": 7.71688888888889e-06,
      "loss": 2.3852,
      "step": 15275
    },
    {
      "epoch": 0.306,
      "grad_norm": 0.5602736035393524,
      "learning_rate": 7.711333333333334e-06,
      "loss": 2.3867,
      "step": 15300
    },
    {
      "epoch": 0.306,
      "eval_loss": 2.3968026638031006,
      "eval_runtime": 31.8105,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 15300
    },
    {
      "epoch": 0.3065,
      "grad_norm": 0.5404472339052024,
      "learning_rate": 7.705777777777779e-06,
      "loss": 2.3835,
      "step": 15325
    },
    {
      "epoch": 0.307,
      "grad_norm": 0.5732167481475767,
      "learning_rate": 7.700222222222224e-06,
      "loss": 2.386,
      "step": 15350
    },
    {
      "epoch": 0.3075,
      "grad_norm": 0.5668975128857069,
      "learning_rate": 7.694666666666668e-06,
      "loss": 2.3838,
      "step": 15375
    },
    {
      "epoch": 0.308,
      "grad_norm": 0.5478312505357384,
      "learning_rate": 7.689111111111111e-06,
      "loss": 2.4068,
      "step": 15400
    },
    {
      "epoch": 0.308,
      "eval_loss": 2.39662766456604,
      "eval_runtime": 31.4625,
      "eval_samples_per_second": 3.242,
      "eval_steps_per_second": 1.621,
      "step": 15400
    },
    {
      "epoch": 0.3085,
      "grad_norm": 0.5853236703412803,
      "learning_rate": 7.683555555555556e-06,
      "loss": 2.3781,
      "step": 15425
    },
    {
      "epoch": 0.309,
      "grad_norm": 0.566498029803985,
      "learning_rate": 7.678000000000002e-06,
      "loss": 2.3825,
      "step": 15450
    },
    {
      "epoch": 0.3095,
      "grad_norm": 0.5876295223419085,
      "learning_rate": 7.672444444444445e-06,
      "loss": 2.3821,
      "step": 15475
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.5308633915785282,
      "learning_rate": 7.666888888888889e-06,
      "loss": 2.3762,
      "step": 15500
    },
    {
      "epoch": 0.31,
      "eval_loss": 2.39650559425354,
      "eval_runtime": 31.6255,
      "eval_samples_per_second": 3.225,
      "eval_steps_per_second": 1.613,
      "step": 15500
    },
    {
      "epoch": 0.3105,
      "grad_norm": 1.090575647217174,
      "learning_rate": 7.661333333333334e-06,
      "loss": 2.3854,
      "step": 15525
    },
    {
      "epoch": 0.311,
      "grad_norm": 0.5608565584872227,
      "learning_rate": 7.65577777777778e-06,
      "loss": 2.3909,
      "step": 15550
    },
    {
      "epoch": 0.3115,
      "grad_norm": 0.5664910219445479,
      "learning_rate": 7.650222222222223e-06,
      "loss": 2.3876,
      "step": 15575
    },
    {
      "epoch": 0.312,
      "grad_norm": 0.5743138998726522,
      "learning_rate": 7.644666666666666e-06,
      "loss": 2.3891,
      "step": 15600
    },
    {
      "epoch": 0.312,
      "eval_loss": 2.395846128463745,
      "eval_runtime": 31.422,
      "eval_samples_per_second": 3.246,
      "eval_steps_per_second": 1.623,
      "step": 15600
    },
    {
      "epoch": 0.3125,
      "grad_norm": 0.5838966503811626,
      "learning_rate": 7.639111111111112e-06,
      "loss": 2.3744,
      "step": 15625
    },
    {
      "epoch": 0.313,
      "grad_norm": 0.5861982665217826,
      "learning_rate": 7.633555555555557e-06,
      "loss": 2.386,
      "step": 15650
    },
    {
      "epoch": 0.3135,
      "grad_norm": 0.5623110973377239,
      "learning_rate": 7.628000000000001e-06,
      "loss": 2.3729,
      "step": 15675
    },
    {
      "epoch": 0.314,
      "grad_norm": 0.5546807091447383,
      "learning_rate": 7.622444444444445e-06,
      "loss": 2.3758,
      "step": 15700
    },
    {
      "epoch": 0.314,
      "eval_loss": 2.396050453186035,
      "eval_runtime": 31.4839,
      "eval_samples_per_second": 3.24,
      "eval_steps_per_second": 1.62,
      "step": 15700
    },
    {
      "epoch": 0.3145,
      "grad_norm": 0.566357543453858,
      "learning_rate": 7.616888888888889e-06,
      "loss": 2.3814,
      "step": 15725
    },
    {
      "epoch": 0.315,
      "grad_norm": 0.5863021742964364,
      "learning_rate": 7.611333333333334e-06,
      "loss": 2.3912,
      "step": 15750
    },
    {
      "epoch": 0.3155,
      "grad_norm": 0.5448091994015362,
      "learning_rate": 7.605777777777779e-06,
      "loss": 2.3949,
      "step": 15775
    },
    {
      "epoch": 0.316,
      "grad_norm": 0.5571622234957405,
      "learning_rate": 7.600222222222223e-06,
      "loss": 2.3893,
      "step": 15800
    },
    {
      "epoch": 0.316,
      "eval_loss": 2.3957884311676025,
      "eval_runtime": 31.4676,
      "eval_samples_per_second": 3.241,
      "eval_steps_per_second": 1.621,
      "step": 15800
    },
    {
      "epoch": 0.3165,
      "grad_norm": 0.6175149611764096,
      "learning_rate": 7.594666666666667e-06,
      "loss": 2.3858,
      "step": 15825
    },
    {
      "epoch": 0.317,
      "grad_norm": 0.5811416818392343,
      "learning_rate": 7.589111111111111e-06,
      "loss": 2.3893,
      "step": 15850
    },
    {
      "epoch": 0.3175,
      "grad_norm": 0.5685262674194088,
      "learning_rate": 7.5835555555555566e-06,
      "loss": 2.3895,
      "step": 15875
    },
    {
      "epoch": 0.318,
      "grad_norm": 0.5726231388910242,
      "learning_rate": 7.578000000000001e-06,
      "loss": 2.3924,
      "step": 15900
    },
    {
      "epoch": 0.318,
      "eval_loss": 2.3957200050354004,
      "eval_runtime": 31.6833,
      "eval_samples_per_second": 3.219,
      "eval_steps_per_second": 1.61,
      "step": 15900
    },
    {
      "epoch": 0.3185,
      "grad_norm": 0.5881014617899262,
      "learning_rate": 7.572444444444445e-06,
      "loss": 2.3719,
      "step": 15925
    },
    {
      "epoch": 0.319,
      "grad_norm": 0.5635459036409981,
      "learning_rate": 7.566888888888889e-06,
      "loss": 2.378,
      "step": 15950
    },
    {
      "epoch": 0.3195,
      "grad_norm": 0.5604907919572244,
      "learning_rate": 7.561333333333334e-06,
      "loss": 2.3744,
      "step": 15975
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.5743956921241223,
      "learning_rate": 7.555777777777779e-06,
      "loss": 2.3872,
      "step": 16000
    },
    {
      "epoch": 0.32,
      "eval_loss": 2.3958442211151123,
      "eval_runtime": 31.9703,
      "eval_samples_per_second": 3.19,
      "eval_steps_per_second": 1.595,
      "step": 16000
    },
    {
      "epoch": 0.3205,
      "grad_norm": 0.5490540509150809,
      "learning_rate": 7.550222222222223e-06,
      "loss": 2.3908,
      "step": 16025
    },
    {
      "epoch": 0.321,
      "grad_norm": 0.5604566538327537,
      "learning_rate": 7.5446666666666665e-06,
      "loss": 2.3816,
      "step": 16050
    },
    {
      "epoch": 0.3215,
      "grad_norm": 0.5482351645184266,
      "learning_rate": 7.539111111111112e-06,
      "loss": 2.3783,
      "step": 16075
    },
    {
      "epoch": 0.322,
      "grad_norm": 0.5738611670880387,
      "learning_rate": 7.533555555555556e-06,
      "loss": 2.3807,
      "step": 16100
    },
    {
      "epoch": 0.322,
      "eval_loss": 2.3955187797546387,
      "eval_runtime": 31.7782,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 16100
    },
    {
      "epoch": 0.3225,
      "grad_norm": 0.6007459037823811,
      "learning_rate": 7.528000000000001e-06,
      "loss": 2.3908,
      "step": 16125
    },
    {
      "epoch": 0.323,
      "grad_norm": 0.5719140015142068,
      "learning_rate": 7.522444444444446e-06,
      "loss": 2.379,
      "step": 16150
    },
    {
      "epoch": 0.3235,
      "grad_norm": 0.5722843141001409,
      "learning_rate": 7.516888888888889e-06,
      "loss": 2.3831,
      "step": 16175
    },
    {
      "epoch": 0.324,
      "grad_norm": 0.5500359198684006,
      "learning_rate": 7.511333333333334e-06,
      "loss": 2.3899,
      "step": 16200
    },
    {
      "epoch": 0.324,
      "eval_loss": 2.3954145908355713,
      "eval_runtime": 31.9265,
      "eval_samples_per_second": 3.195,
      "eval_steps_per_second": 1.597,
      "step": 16200
    },
    {
      "epoch": 0.3245,
      "grad_norm": 0.5988197648020003,
      "learning_rate": 7.505777777777778e-06,
      "loss": 2.3768,
      "step": 16225
    },
    {
      "epoch": 0.325,
      "grad_norm": 0.566314534087209,
      "learning_rate": 7.5002222222222235e-06,
      "loss": 2.3731,
      "step": 16250
    },
    {
      "epoch": 0.3255,
      "grad_norm": 0.5462158611596983,
      "learning_rate": 7.494666666666667e-06,
      "loss": 2.3821,
      "step": 16275
    },
    {
      "epoch": 0.326,
      "grad_norm": 0.5546038414202229,
      "learning_rate": 7.4891111111111114e-06,
      "loss": 2.3725,
      "step": 16300
    },
    {
      "epoch": 0.326,
      "eval_loss": 2.395524501800537,
      "eval_runtime": 31.8126,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 16300
    },
    {
      "epoch": 0.3265,
      "grad_norm": 0.5596467845027929,
      "learning_rate": 7.483555555555556e-06,
      "loss": 2.3843,
      "step": 16325
    },
    {
      "epoch": 0.327,
      "grad_norm": 0.5815120805791782,
      "learning_rate": 7.478000000000001e-06,
      "loss": 2.3815,
      "step": 16350
    },
    {
      "epoch": 0.3275,
      "grad_norm": 0.5597449596999192,
      "learning_rate": 7.4724444444444455e-06,
      "loss": 2.3732,
      "step": 16375
    },
    {
      "epoch": 0.328,
      "grad_norm": 0.5818958282150155,
      "learning_rate": 7.466888888888889e-06,
      "loss": 2.3793,
      "step": 16400
    },
    {
      "epoch": 0.328,
      "eval_loss": 2.3949294090270996,
      "eval_runtime": 31.7738,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 16400
    },
    {
      "epoch": 0.3285,
      "grad_norm": 0.5662000485734395,
      "learning_rate": 7.4613333333333334e-06,
      "loss": 2.3812,
      "step": 16425
    },
    {
      "epoch": 0.329,
      "grad_norm": 0.5563577533028059,
      "learning_rate": 7.455777777777779e-06,
      "loss": 2.3761,
      "step": 16450
    },
    {
      "epoch": 0.3295,
      "grad_norm": 0.5687992956190129,
      "learning_rate": 7.450222222222223e-06,
      "loss": 2.381,
      "step": 16475
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.5487444076942639,
      "learning_rate": 7.4446666666666675e-06,
      "loss": 2.3883,
      "step": 16500
    },
    {
      "epoch": 0.33,
      "eval_loss": 2.395174026489258,
      "eval_runtime": 31.7762,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 16500
    },
    {
      "epoch": 0.3305,
      "grad_norm": 0.5469101598299175,
      "learning_rate": 7.439111111111111e-06,
      "loss": 2.3766,
      "step": 16525
    },
    {
      "epoch": 0.331,
      "grad_norm": 0.5567200858341991,
      "learning_rate": 7.433555555555556e-06,
      "loss": 2.3939,
      "step": 16550
    },
    {
      "epoch": 0.3315,
      "grad_norm": 0.600536691861987,
      "learning_rate": 7.428000000000001e-06,
      "loss": 2.3822,
      "step": 16575
    },
    {
      "epoch": 0.332,
      "grad_norm": 0.5505048207350117,
      "learning_rate": 7.422444444444445e-06,
      "loss": 2.378,
      "step": 16600
    },
    {
      "epoch": 0.332,
      "eval_loss": 2.39481520652771,
      "eval_runtime": 31.8394,
      "eval_samples_per_second": 3.204,
      "eval_steps_per_second": 1.602,
      "step": 16600
    },
    {
      "epoch": 0.3325,
      "grad_norm": 0.5492676702406505,
      "learning_rate": 7.416888888888889e-06,
      "loss": 2.3769,
      "step": 16625
    },
    {
      "epoch": 0.333,
      "grad_norm": 0.5492443037384863,
      "learning_rate": 7.411333333333334e-06,
      "loss": 2.3701,
      "step": 16650
    },
    {
      "epoch": 0.3335,
      "grad_norm": 0.5857568383624908,
      "learning_rate": 7.405777777777778e-06,
      "loss": 2.381,
      "step": 16675
    },
    {
      "epoch": 0.334,
      "grad_norm": 0.5647204860919086,
      "learning_rate": 7.400222222222223e-06,
      "loss": 2.3819,
      "step": 16700
    },
    {
      "epoch": 0.334,
      "eval_loss": 2.394426107406616,
      "eval_runtime": 31.892,
      "eval_samples_per_second": 3.198,
      "eval_steps_per_second": 1.599,
      "step": 16700
    },
    {
      "epoch": 0.3345,
      "grad_norm": 0.5730702201176824,
      "learning_rate": 7.394666666666668e-06,
      "loss": 2.3857,
      "step": 16725
    },
    {
      "epoch": 0.335,
      "grad_norm": 0.5521969424083262,
      "learning_rate": 7.3891111111111115e-06,
      "loss": 2.363,
      "step": 16750
    },
    {
      "epoch": 0.3355,
      "grad_norm": 0.6057695700506919,
      "learning_rate": 7.383555555555556e-06,
      "loss": 2.3848,
      "step": 16775
    },
    {
      "epoch": 0.336,
      "grad_norm": 0.5749986280132275,
      "learning_rate": 7.378e-06,
      "loss": 2.389,
      "step": 16800
    },
    {
      "epoch": 0.336,
      "eval_loss": 2.3945508003234863,
      "eval_runtime": 31.7463,
      "eval_samples_per_second": 3.213,
      "eval_steps_per_second": 1.606,
      "step": 16800
    },
    {
      "epoch": 0.3365,
      "grad_norm": 0.5947076066210849,
      "learning_rate": 7.372444444444446e-06,
      "loss": 2.3865,
      "step": 16825
    },
    {
      "epoch": 0.337,
      "grad_norm": 0.564221658006085,
      "learning_rate": 7.366888888888889e-06,
      "loss": 2.3696,
      "step": 16850
    },
    {
      "epoch": 0.3375,
      "grad_norm": 0.5702041520098122,
      "learning_rate": 7.3613333333333336e-06,
      "loss": 2.3872,
      "step": 16875
    },
    {
      "epoch": 0.338,
      "grad_norm": 0.5538661614565709,
      "learning_rate": 7.355777777777778e-06,
      "loss": 2.3828,
      "step": 16900
    },
    {
      "epoch": 0.338,
      "eval_loss": 2.3942644596099854,
      "eval_runtime": 31.8144,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 16900
    },
    {
      "epoch": 0.3385,
      "grad_norm": 0.5614412730199092,
      "learning_rate": 7.350222222222223e-06,
      "loss": 2.3898,
      "step": 16925
    },
    {
      "epoch": 0.339,
      "grad_norm": 0.5656638849693418,
      "learning_rate": 7.344666666666668e-06,
      "loss": 2.3639,
      "step": 16950
    },
    {
      "epoch": 0.3395,
      "grad_norm": 0.5587793192894792,
      "learning_rate": 7.339111111111111e-06,
      "loss": 2.3761,
      "step": 16975
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.5537041511919,
      "learning_rate": 7.3335555555555556e-06,
      "loss": 2.3785,
      "step": 17000
    },
    {
      "epoch": 0.34,
      "eval_loss": 2.394216775894165,
      "eval_runtime": 31.7287,
      "eval_samples_per_second": 3.215,
      "eval_steps_per_second": 1.607,
      "step": 17000
    },
    {
      "epoch": 0.3405,
      "grad_norm": 0.5625979440161315,
      "learning_rate": 7.328000000000001e-06,
      "loss": 2.3706,
      "step": 17025
    },
    {
      "epoch": 0.341,
      "grad_norm": 0.5578934058534382,
      "learning_rate": 7.322444444444445e-06,
      "loss": 2.3717,
      "step": 17050
    },
    {
      "epoch": 0.3415,
      "grad_norm": 0.5600783145650656,
      "learning_rate": 7.31688888888889e-06,
      "loss": 2.3549,
      "step": 17075
    },
    {
      "epoch": 0.342,
      "grad_norm": 0.5443562716925451,
      "learning_rate": 7.311333333333334e-06,
      "loss": 2.3818,
      "step": 17100
    },
    {
      "epoch": 0.342,
      "eval_loss": 2.3939199447631836,
      "eval_runtime": 31.7183,
      "eval_samples_per_second": 3.216,
      "eval_steps_per_second": 1.608,
      "step": 17100
    },
    {
      "epoch": 0.3425,
      "grad_norm": 0.6040551095214175,
      "learning_rate": 7.3057777777777784e-06,
      "loss": 2.3856,
      "step": 17125
    },
    {
      "epoch": 0.343,
      "grad_norm": 0.5800600768624563,
      "learning_rate": 7.300222222222223e-06,
      "loss": 2.3812,
      "step": 17150
    },
    {
      "epoch": 0.3435,
      "grad_norm": 0.606456873691792,
      "learning_rate": 7.294666666666668e-06,
      "loss": 2.3823,
      "step": 17175
    },
    {
      "epoch": 0.344,
      "grad_norm": 0.5820033666001653,
      "learning_rate": 7.289111111111112e-06,
      "loss": 2.3772,
      "step": 17200
    },
    {
      "epoch": 0.344,
      "eval_loss": 2.39414644241333,
      "eval_runtime": 31.4591,
      "eval_samples_per_second": 3.242,
      "eval_steps_per_second": 1.621,
      "step": 17200
    },
    {
      "epoch": 0.3445,
      "grad_norm": 0.592691728166079,
      "learning_rate": 7.283555555555556e-06,
      "loss": 2.3757,
      "step": 17225
    },
    {
      "epoch": 0.345,
      "grad_norm": 0.5475066044517582,
      "learning_rate": 7.2780000000000005e-06,
      "loss": 2.393,
      "step": 17250
    },
    {
      "epoch": 0.3455,
      "grad_norm": 0.5412153350606916,
      "learning_rate": 7.272444444444446e-06,
      "loss": 2.3775,
      "step": 17275
    },
    {
      "epoch": 0.346,
      "grad_norm": 0.5703055910606494,
      "learning_rate": 7.26688888888889e-06,
      "loss": 2.3919,
      "step": 17300
    },
    {
      "epoch": 0.346,
      "eval_loss": 2.393954277038574,
      "eval_runtime": 31.4832,
      "eval_samples_per_second": 3.24,
      "eval_steps_per_second": 1.62,
      "step": 17300
    },
    {
      "epoch": 0.3465,
      "grad_norm": 0.5720004911842855,
      "learning_rate": 7.261333333333334e-06,
      "loss": 2.3744,
      "step": 17325
    },
    {
      "epoch": 0.347,
      "grad_norm": 0.5651936652229611,
      "learning_rate": 7.255777777777778e-06,
      "loss": 2.3766,
      "step": 17350
    },
    {
      "epoch": 0.3475,
      "grad_norm": 0.552954097582646,
      "learning_rate": 7.250222222222223e-06,
      "loss": 2.38,
      "step": 17375
    },
    {
      "epoch": 0.348,
      "grad_norm": 0.5753937605402671,
      "learning_rate": 7.244666666666668e-06,
      "loss": 2.3825,
      "step": 17400
    },
    {
      "epoch": 0.348,
      "eval_loss": 2.3936057090759277,
      "eval_runtime": 31.5155,
      "eval_samples_per_second": 3.237,
      "eval_steps_per_second": 1.618,
      "step": 17400
    },
    {
      "epoch": 0.3485,
      "grad_norm": 0.5982429265702776,
      "learning_rate": 7.239111111111111e-06,
      "loss": 2.3748,
      "step": 17425
    },
    {
      "epoch": 0.349,
      "grad_norm": 0.5707105076014326,
      "learning_rate": 7.233555555555556e-06,
      "loss": 2.3871,
      "step": 17450
    },
    {
      "epoch": 0.3495,
      "grad_norm": 0.5749982454192974,
      "learning_rate": 7.228000000000001e-06,
      "loss": 2.3722,
      "step": 17475
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.5667678087541999,
      "learning_rate": 7.222444444444445e-06,
      "loss": 2.3897,
      "step": 17500
    },
    {
      "epoch": 0.35,
      "eval_loss": 2.3934316635131836,
      "eval_runtime": 31.5133,
      "eval_samples_per_second": 3.237,
      "eval_steps_per_second": 1.618,
      "step": 17500
    },
    {
      "epoch": 0.3505,
      "grad_norm": 0.551269238238286,
      "learning_rate": 7.21688888888889e-06,
      "loss": 2.3759,
      "step": 17525
    },
    {
      "epoch": 0.351,
      "grad_norm": 0.5683477126287287,
      "learning_rate": 7.211333333333333e-06,
      "loss": 2.3751,
      "step": 17550
    },
    {
      "epoch": 0.3515,
      "grad_norm": 0.5534527601932518,
      "learning_rate": 7.2057777777777785e-06,
      "loss": 2.3749,
      "step": 17575
    },
    {
      "epoch": 0.352,
      "grad_norm": 0.5444580304379504,
      "learning_rate": 7.200222222222223e-06,
      "loss": 2.3839,
      "step": 17600
    },
    {
      "epoch": 0.352,
      "eval_loss": 2.3928964138031006,
      "eval_runtime": 31.79,
      "eval_samples_per_second": 3.209,
      "eval_steps_per_second": 1.604,
      "step": 17600
    },
    {
      "epoch": 0.3525,
      "grad_norm": 0.5683011717419817,
      "learning_rate": 7.194666666666667e-06,
      "loss": 2.3697,
      "step": 17625
    },
    {
      "epoch": 0.353,
      "grad_norm": 0.5597200154635523,
      "learning_rate": 7.189111111111111e-06,
      "loss": 2.3758,
      "step": 17650
    },
    {
      "epoch": 0.3535,
      "grad_norm": 0.5389975543023572,
      "learning_rate": 7.183555555555556e-06,
      "loss": 2.3748,
      "step": 17675
    },
    {
      "epoch": 0.354,
      "grad_norm": 0.5766556300730846,
      "learning_rate": 7.1780000000000006e-06,
      "loss": 2.3863,
      "step": 17700
    },
    {
      "epoch": 0.354,
      "eval_loss": 2.3929381370544434,
      "eval_runtime": 31.4662,
      "eval_samples_per_second": 3.242,
      "eval_steps_per_second": 1.621,
      "step": 17700
    },
    {
      "epoch": 0.3545,
      "grad_norm": 0.5422601731930108,
      "learning_rate": 7.172444444444445e-06,
      "loss": 2.3795,
      "step": 17725
    },
    {
      "epoch": 0.355,
      "grad_norm": 0.587749563771833,
      "learning_rate": 7.16688888888889e-06,
      "loss": 2.3741,
      "step": 17750
    },
    {
      "epoch": 0.3555,
      "grad_norm": 0.5448174780243932,
      "learning_rate": 7.161333333333334e-06,
      "loss": 2.374,
      "step": 17775
    },
    {
      "epoch": 0.356,
      "grad_norm": 0.5487711297157323,
      "learning_rate": 7.155777777777778e-06,
      "loss": 2.3872,
      "step": 17800
    },
    {
      "epoch": 0.356,
      "eval_loss": 2.3928709030151367,
      "eval_runtime": 31.7364,
      "eval_samples_per_second": 3.214,
      "eval_steps_per_second": 1.607,
      "step": 17800
    },
    {
      "epoch": 0.3565,
      "grad_norm": 0.5749112760792647,
      "learning_rate": 7.150222222222223e-06,
      "loss": 2.375,
      "step": 17825
    },
    {
      "epoch": 0.357,
      "grad_norm": 0.5657127084376901,
      "learning_rate": 7.144666666666668e-06,
      "loss": 2.3635,
      "step": 17850
    },
    {
      "epoch": 0.3575,
      "grad_norm": 0.5552559911086609,
      "learning_rate": 7.139111111111112e-06,
      "loss": 2.3791,
      "step": 17875
    },
    {
      "epoch": 0.358,
      "grad_norm": 0.5587079571658956,
      "learning_rate": 7.133555555555556e-06,
      "loss": 2.3792,
      "step": 17900
    },
    {
      "epoch": 0.358,
      "eval_loss": 2.39250111579895,
      "eval_runtime": 31.8377,
      "eval_samples_per_second": 3.204,
      "eval_steps_per_second": 1.602,
      "step": 17900
    },
    {
      "epoch": 0.3585,
      "grad_norm": 0.5476769108414363,
      "learning_rate": 7.128e-06,
      "loss": 2.3796,
      "step": 17925
    },
    {
      "epoch": 0.359,
      "grad_norm": 0.5519286017800472,
      "learning_rate": 7.1224444444444454e-06,
      "loss": 2.3689,
      "step": 17950
    },
    {
      "epoch": 0.3595,
      "grad_norm": 0.5690523665272621,
      "learning_rate": 7.11688888888889e-06,
      "loss": 2.3758,
      "step": 17975
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.575484852893059,
      "learning_rate": 7.111333333333333e-06,
      "loss": 2.3723,
      "step": 18000
    },
    {
      "epoch": 0.36,
      "eval_loss": 2.3920133113861084,
      "eval_runtime": 31.9286,
      "eval_samples_per_second": 3.195,
      "eval_steps_per_second": 1.597,
      "step": 18000
    },
    {
      "epoch": 0.3605,
      "grad_norm": 0.5779120077378331,
      "learning_rate": 7.105777777777778e-06,
      "loss": 2.3798,
      "step": 18025
    },
    {
      "epoch": 0.361,
      "grad_norm": 0.575309417070187,
      "learning_rate": 7.100222222222223e-06,
      "loss": 2.3875,
      "step": 18050
    },
    {
      "epoch": 0.3615,
      "grad_norm": 0.6000430306182747,
      "learning_rate": 7.0946666666666675e-06,
      "loss": 2.3727,
      "step": 18075
    },
    {
      "epoch": 0.362,
      "grad_norm": 0.5701734522791184,
      "learning_rate": 7.089111111111112e-06,
      "loss": 2.3793,
      "step": 18100
    },
    {
      "epoch": 0.362,
      "eval_loss": 2.392152786254883,
      "eval_runtime": 31.8363,
      "eval_samples_per_second": 3.204,
      "eval_steps_per_second": 1.602,
      "step": 18100
    },
    {
      "epoch": 0.3625,
      "grad_norm": 0.5731611332750656,
      "learning_rate": 7.083555555555555e-06,
      "loss": 2.3715,
      "step": 18125
    },
    {
      "epoch": 0.363,
      "grad_norm": 0.6114229583074544,
      "learning_rate": 7.078000000000001e-06,
      "loss": 2.383,
      "step": 18150
    },
    {
      "epoch": 0.3635,
      "grad_norm": 0.541007634609165,
      "learning_rate": 7.072444444444445e-06,
      "loss": 2.3686,
      "step": 18175
    },
    {
      "epoch": 0.364,
      "grad_norm": 0.5725748950012406,
      "learning_rate": 7.0668888888888895e-06,
      "loss": 2.3873,
      "step": 18200
    },
    {
      "epoch": 0.364,
      "eval_loss": 2.392261505126953,
      "eval_runtime": 31.7706,
      "eval_samples_per_second": 3.211,
      "eval_steps_per_second": 1.605,
      "step": 18200
    },
    {
      "epoch": 0.3645,
      "grad_norm": 0.5593670656564304,
      "learning_rate": 7.061333333333333e-06,
      "loss": 2.3804,
      "step": 18225
    },
    {
      "epoch": 0.365,
      "grad_norm": 0.6009795583649221,
      "learning_rate": 7.055777777777778e-06,
      "loss": 2.3795,
      "step": 18250
    },
    {
      "epoch": 0.3655,
      "grad_norm": 0.5664495345544722,
      "learning_rate": 7.050222222222223e-06,
      "loss": 2.3631,
      "step": 18275
    },
    {
      "epoch": 0.366,
      "grad_norm": 0.6104006309418994,
      "learning_rate": 7.044666666666667e-06,
      "loss": 2.3748,
      "step": 18300
    },
    {
      "epoch": 0.366,
      "eval_loss": 2.392148971557617,
      "eval_runtime": 31.734,
      "eval_samples_per_second": 3.214,
      "eval_steps_per_second": 1.607,
      "step": 18300
    },
    {
      "epoch": 0.3665,
      "grad_norm": 0.5506059883330837,
      "learning_rate": 7.039111111111112e-06,
      "loss": 2.3714,
      "step": 18325
    },
    {
      "epoch": 0.367,
      "grad_norm": 0.5621509156408089,
      "learning_rate": 7.033555555555556e-06,
      "loss": 2.368,
      "step": 18350
    },
    {
      "epoch": 0.3675,
      "grad_norm": 0.5587181787810226,
      "learning_rate": 7.028e-06,
      "loss": 2.3791,
      "step": 18375
    },
    {
      "epoch": 0.368,
      "grad_norm": 0.5677798724220077,
      "learning_rate": 7.022444444444445e-06,
      "loss": 2.384,
      "step": 18400
    },
    {
      "epoch": 0.368,
      "eval_loss": 2.391704559326172,
      "eval_runtime": 31.7798,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 18400
    },
    {
      "epoch": 0.3685,
      "grad_norm": 0.5905061339542746,
      "learning_rate": 7.01688888888889e-06,
      "loss": 2.3881,
      "step": 18425
    },
    {
      "epoch": 0.369,
      "grad_norm": 0.554978244766298,
      "learning_rate": 7.011333333333334e-06,
      "loss": 2.3683,
      "step": 18450
    },
    {
      "epoch": 0.3695,
      "grad_norm": 0.5517801842410981,
      "learning_rate": 7.005777777777778e-06,
      "loss": 2.3835,
      "step": 18475
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.5501181046318251,
      "learning_rate": 7.000222222222222e-06,
      "loss": 2.374,
      "step": 18500
    },
    {
      "epoch": 0.37,
      "eval_loss": 2.3915836811065674,
      "eval_runtime": 31.7662,
      "eval_samples_per_second": 3.211,
      "eval_steps_per_second": 1.605,
      "step": 18500
    },
    {
      "epoch": 0.3705,
      "grad_norm": 0.576826996404141,
      "learning_rate": 6.9946666666666676e-06,
      "loss": 2.3819,
      "step": 18525
    },
    {
      "epoch": 0.371,
      "grad_norm": 0.5739797151959755,
      "learning_rate": 6.989111111111112e-06,
      "loss": 2.3794,
      "step": 18550
    },
    {
      "epoch": 0.3715,
      "grad_norm": 0.5511012262440002,
      "learning_rate": 6.9835555555555555e-06,
      "loss": 2.3894,
      "step": 18575
    },
    {
      "epoch": 0.372,
      "grad_norm": 0.5958849979817049,
      "learning_rate": 6.978e-06,
      "loss": 2.3674,
      "step": 18600
    },
    {
      "epoch": 0.372,
      "eval_loss": 2.391352415084839,
      "eval_runtime": 31.7756,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 18600
    },
    {
      "epoch": 0.3725,
      "grad_norm": 0.5595892595435197,
      "learning_rate": 6.972444444444445e-06,
      "loss": 2.3835,
      "step": 18625
    },
    {
      "epoch": 0.373,
      "grad_norm": 0.5946746403488841,
      "learning_rate": 6.96688888888889e-06,
      "loss": 2.3716,
      "step": 18650
    },
    {
      "epoch": 0.3735,
      "grad_norm": 0.5613740876716816,
      "learning_rate": 6.961333333333334e-06,
      "loss": 2.3843,
      "step": 18675
    },
    {
      "epoch": 0.374,
      "grad_norm": 0.58419422677193,
      "learning_rate": 6.9557777777777776e-06,
      "loss": 2.3883,
      "step": 18700
    },
    {
      "epoch": 0.374,
      "eval_loss": 2.391383409500122,
      "eval_runtime": 31.7182,
      "eval_samples_per_second": 3.216,
      "eval_steps_per_second": 1.608,
      "step": 18700
    },
    {
      "epoch": 0.3745,
      "grad_norm": 0.5508427755524951,
      "learning_rate": 6.950222222222223e-06,
      "loss": 2.3749,
      "step": 18725
    },
    {
      "epoch": 0.375,
      "grad_norm": 0.5686856026931271,
      "learning_rate": 6.944666666666667e-06,
      "loss": 2.38,
      "step": 18750
    },
    {
      "epoch": 0.3755,
      "grad_norm": 0.5531747783480245,
      "learning_rate": 6.939111111111112e-06,
      "loss": 2.3718,
      "step": 18775
    },
    {
      "epoch": 0.376,
      "grad_norm": 0.5800045444885175,
      "learning_rate": 6.933555555555556e-06,
      "loss": 2.3703,
      "step": 18800
    },
    {
      "epoch": 0.376,
      "eval_loss": 2.391113042831421,
      "eval_runtime": 31.7446,
      "eval_samples_per_second": 3.213,
      "eval_steps_per_second": 1.607,
      "step": 18800
    },
    {
      "epoch": 0.3765,
      "grad_norm": 0.5451395919825731,
      "learning_rate": 6.928e-06,
      "loss": 2.3746,
      "step": 18825
    },
    {
      "epoch": 0.377,
      "grad_norm": 0.5619738492106079,
      "learning_rate": 6.922444444444445e-06,
      "loss": 2.3815,
      "step": 18850
    },
    {
      "epoch": 0.3775,
      "grad_norm": 0.5811440137998495,
      "learning_rate": 6.91688888888889e-06,
      "loss": 2.3655,
      "step": 18875
    },
    {
      "epoch": 0.378,
      "grad_norm": 0.5528301840539304,
      "learning_rate": 6.9113333333333345e-06,
      "loss": 2.3721,
      "step": 18900
    },
    {
      "epoch": 0.378,
      "eval_loss": 2.3908257484436035,
      "eval_runtime": 31.6268,
      "eval_samples_per_second": 3.225,
      "eval_steps_per_second": 1.613,
      "step": 18900
    },
    {
      "epoch": 0.3785,
      "grad_norm": 0.5791069800351532,
      "learning_rate": 6.905777777777778e-06,
      "loss": 2.3798,
      "step": 18925
    },
    {
      "epoch": 0.379,
      "grad_norm": 0.5692008495737035,
      "learning_rate": 6.9002222222222224e-06,
      "loss": 2.3723,
      "step": 18950
    },
    {
      "epoch": 0.3795,
      "grad_norm": 0.5614405054433378,
      "learning_rate": 6.894666666666668e-06,
      "loss": 2.3739,
      "step": 18975
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5641420025760586,
      "learning_rate": 6.889111111111112e-06,
      "loss": 2.3728,
      "step": 19000
    },
    {
      "epoch": 0.38,
      "eval_loss": 2.390749454498291,
      "eval_runtime": 31.8098,
      "eval_samples_per_second": 3.207,
      "eval_steps_per_second": 1.603,
      "step": 19000
    },
    {
      "epoch": 0.3805,
      "grad_norm": 0.5526396554433541,
      "learning_rate": 6.8835555555555565e-06,
      "loss": 2.3779,
      "step": 19025
    },
    {
      "epoch": 0.381,
      "grad_norm": 0.574490460414078,
      "learning_rate": 6.878e-06,
      "loss": 2.3727,
      "step": 19050
    },
    {
      "epoch": 0.3815,
      "grad_norm": 0.5611671894801677,
      "learning_rate": 6.872444444444445e-06,
      "loss": 2.379,
      "step": 19075
    },
    {
      "epoch": 0.382,
      "grad_norm": 0.5434475778092571,
      "learning_rate": 6.86688888888889e-06,
      "loss": 2.3788,
      "step": 19100
    },
    {
      "epoch": 0.382,
      "eval_loss": 2.390854597091675,
      "eval_runtime": 31.4727,
      "eval_samples_per_second": 3.241,
      "eval_steps_per_second": 1.62,
      "step": 19100
    },
    {
      "epoch": 0.3825,
      "grad_norm": 0.5438441040943751,
      "learning_rate": 6.861333333333334e-06,
      "loss": 2.3849,
      "step": 19125
    },
    {
      "epoch": 0.383,
      "grad_norm": 0.5617582167520553,
      "learning_rate": 6.855777777777778e-06,
      "loss": 2.3778,
      "step": 19150
    },
    {
      "epoch": 0.3835,
      "grad_norm": 0.5734148354957039,
      "learning_rate": 6.850222222222223e-06,
      "loss": 2.3749,
      "step": 19175
    },
    {
      "epoch": 0.384,
      "grad_norm": 0.5567016447555824,
      "learning_rate": 6.844666666666667e-06,
      "loss": 2.3786,
      "step": 19200
    },
    {
      "epoch": 0.384,
      "eval_loss": 2.390947103500366,
      "eval_runtime": 31.472,
      "eval_samples_per_second": 3.241,
      "eval_steps_per_second": 1.62,
      "step": 19200
    },
    {
      "epoch": 0.3845,
      "grad_norm": 0.5630941651558155,
      "learning_rate": 6.839111111111112e-06,
      "loss": 2.371,
      "step": 19225
    },
    {
      "epoch": 0.385,
      "grad_norm": 0.5472891744821744,
      "learning_rate": 6.833555555555557e-06,
      "loss": 2.371,
      "step": 19250
    },
    {
      "epoch": 0.3855,
      "grad_norm": 0.563854124925733,
      "learning_rate": 6.8280000000000005e-06,
      "loss": 2.3802,
      "step": 19275
    },
    {
      "epoch": 0.386,
      "grad_norm": 0.5535188682099162,
      "learning_rate": 6.822444444444445e-06,
      "loss": 2.3668,
      "step": 19300
    },
    {
      "epoch": 0.386,
      "eval_loss": 2.3904383182525635,
      "eval_runtime": 31.5109,
      "eval_samples_per_second": 3.237,
      "eval_steps_per_second": 1.618,
      "step": 19300
    },
    {
      "epoch": 0.3865,
      "grad_norm": 0.5847689751509554,
      "learning_rate": 6.816888888888889e-06,
      "loss": 2.3723,
      "step": 19325
    },
    {
      "epoch": 0.387,
      "grad_norm": 0.5477508463021717,
      "learning_rate": 6.811333333333335e-06,
      "loss": 2.3748,
      "step": 19350
    },
    {
      "epoch": 0.3875,
      "grad_norm": 0.5530662776524751,
      "learning_rate": 6.805777777777778e-06,
      "loss": 2.372,
      "step": 19375
    },
    {
      "epoch": 0.388,
      "grad_norm": 0.5627088332087185,
      "learning_rate": 6.8002222222222225e-06,
      "loss": 2.3649,
      "step": 19400
    },
    {
      "epoch": 0.388,
      "eval_loss": 2.3902432918548584,
      "eval_runtime": 31.5016,
      "eval_samples_per_second": 3.238,
      "eval_steps_per_second": 1.619,
      "step": 19400
    },
    {
      "epoch": 0.3885,
      "grad_norm": 0.5917805991329846,
      "learning_rate": 6.794666666666667e-06,
      "loss": 2.389,
      "step": 19425
    },
    {
      "epoch": 0.389,
      "grad_norm": 0.5637153841856668,
      "learning_rate": 6.789111111111112e-06,
      "loss": 2.381,
      "step": 19450
    },
    {
      "epoch": 0.3895,
      "grad_norm": 0.5638546592221216,
      "learning_rate": 6.783555555555557e-06,
      "loss": 2.3674,
      "step": 19475
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.5442599823902955,
      "learning_rate": 6.778e-06,
      "loss": 2.3684,
      "step": 19500
    },
    {
      "epoch": 0.39,
      "eval_loss": 2.3898606300354004,
      "eval_runtime": 31.4637,
      "eval_samples_per_second": 3.242,
      "eval_steps_per_second": 1.621,
      "step": 19500
    },
    {
      "epoch": 0.3905,
      "grad_norm": 0.582280869057288,
      "learning_rate": 6.7724444444444446e-06,
      "loss": 2.3691,
      "step": 19525
    },
    {
      "epoch": 0.391,
      "grad_norm": 0.5427829071455205,
      "learning_rate": 6.76688888888889e-06,
      "loss": 2.372,
      "step": 19550
    },
    {
      "epoch": 0.3915,
      "grad_norm": 0.5690660297920415,
      "learning_rate": 6.761333333333334e-06,
      "loss": 2.3696,
      "step": 19575
    },
    {
      "epoch": 0.392,
      "grad_norm": 0.5887280660795969,
      "learning_rate": 6.755777777777779e-06,
      "loss": 2.3647,
      "step": 19600
    },
    {
      "epoch": 0.392,
      "eval_loss": 2.389928102493286,
      "eval_runtime": 31.425,
      "eval_samples_per_second": 3.246,
      "eval_steps_per_second": 1.623,
      "step": 19600
    },
    {
      "epoch": 0.3925,
      "grad_norm": 0.5706193677763675,
      "learning_rate": 6.750222222222222e-06,
      "loss": 2.3693,
      "step": 19625
    },
    {
      "epoch": 0.393,
      "grad_norm": 0.5446782496969111,
      "learning_rate": 6.7446666666666674e-06,
      "loss": 2.3808,
      "step": 19650
    },
    {
      "epoch": 0.3935,
      "grad_norm": 0.5571942248079983,
      "learning_rate": 6.739111111111112e-06,
      "loss": 2.3825,
      "step": 19675
    },
    {
      "epoch": 0.394,
      "grad_norm": 0.5452923856402259,
      "learning_rate": 6.733555555555556e-06,
      "loss": 2.3689,
      "step": 19700
    },
    {
      "epoch": 0.394,
      "eval_loss": 2.3896048069000244,
      "eval_runtime": 31.5836,
      "eval_samples_per_second": 3.23,
      "eval_steps_per_second": 1.615,
      "step": 19700
    },
    {
      "epoch": 0.3945,
      "grad_norm": 0.5828792681612529,
      "learning_rate": 6.728e-06,
      "loss": 2.3733,
      "step": 19725
    },
    {
      "epoch": 0.395,
      "grad_norm": 0.5615201455315739,
      "learning_rate": 6.722444444444445e-06,
      "loss": 2.3689,
      "step": 19750
    },
    {
      "epoch": 0.3955,
      "grad_norm": 0.5585669738111114,
      "learning_rate": 6.7168888888888894e-06,
      "loss": 2.3873,
      "step": 19775
    },
    {
      "epoch": 0.396,
      "grad_norm": 0.5412795214285975,
      "learning_rate": 6.711333333333334e-06,
      "loss": 2.3786,
      "step": 19800
    },
    {
      "epoch": 0.396,
      "eval_loss": 2.3894851207733154,
      "eval_runtime": 31.4877,
      "eval_samples_per_second": 3.239,
      "eval_steps_per_second": 1.62,
      "step": 19800
    },
    {
      "epoch": 0.3965,
      "grad_norm": 0.5778930227780084,
      "learning_rate": 6.705777777777779e-06,
      "loss": 2.3766,
      "step": 19825
    },
    {
      "epoch": 0.397,
      "grad_norm": 0.5682987690385847,
      "learning_rate": 6.700222222222223e-06,
      "loss": 2.3783,
      "step": 19850
    },
    {
      "epoch": 0.3975,
      "grad_norm": 0.5763865594632764,
      "learning_rate": 6.694666666666667e-06,
      "loss": 2.3738,
      "step": 19875
    },
    {
      "epoch": 0.398,
      "grad_norm": 0.5514756259491804,
      "learning_rate": 6.6891111111111115e-06,
      "loss": 2.3764,
      "step": 19900
    },
    {
      "epoch": 0.398,
      "eval_loss": 2.388927698135376,
      "eval_runtime": 31.7775,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 19900
    },
    {
      "epoch": 0.3985,
      "grad_norm": 0.5577240438533453,
      "learning_rate": 6.683555555555557e-06,
      "loss": 2.374,
      "step": 19925
    },
    {
      "epoch": 0.399,
      "grad_norm": 0.553314104963858,
      "learning_rate": 6.678e-06,
      "loss": 2.3726,
      "step": 19950
    },
    {
      "epoch": 0.3995,
      "grad_norm": 0.5615070159418603,
      "learning_rate": 6.672444444444445e-06,
      "loss": 2.3683,
      "step": 19975
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.5595654854755111,
      "learning_rate": 6.666888888888889e-06,
      "loss": 2.3632,
      "step": 20000
    },
    {
      "epoch": 0.4,
      "eval_loss": 2.389249801635742,
      "eval_runtime": 31.7934,
      "eval_samples_per_second": 3.208,
      "eval_steps_per_second": 1.604,
      "step": 20000
    },
    {
      "epoch": 0.4005,
      "grad_norm": 0.5697829378233469,
      "learning_rate": 6.661333333333334e-06,
      "loss": 2.3675,
      "step": 20025
    },
    {
      "epoch": 0.401,
      "grad_norm": 0.5582897347067457,
      "learning_rate": 6.655777777777779e-06,
      "loss": 2.3672,
      "step": 20050
    },
    {
      "epoch": 0.4015,
      "grad_norm": 0.5926925535950422,
      "learning_rate": 6.650222222222222e-06,
      "loss": 2.3733,
      "step": 20075
    },
    {
      "epoch": 0.402,
      "grad_norm": 0.544270592824537,
      "learning_rate": 6.644666666666667e-06,
      "loss": 2.3803,
      "step": 20100
    },
    {
      "epoch": 0.402,
      "eval_loss": 2.389204502105713,
      "eval_runtime": 31.8367,
      "eval_samples_per_second": 3.204,
      "eval_steps_per_second": 1.602,
      "step": 20100
    },
    {
      "epoch": 0.4025,
      "grad_norm": 0.5530370407597024,
      "learning_rate": 6.639111111111112e-06,
      "loss": 2.3633,
      "step": 20125
    },
    {
      "epoch": 0.403,
      "grad_norm": 0.5731039592674091,
      "learning_rate": 6.633555555555556e-06,
      "loss": 2.3642,
      "step": 20150
    },
    {
      "epoch": 0.4035,
      "grad_norm": 0.5599029138977244,
      "learning_rate": 6.628e-06,
      "loss": 2.378,
      "step": 20175
    },
    {
      "epoch": 0.404,
      "grad_norm": 0.5833746985921849,
      "learning_rate": 6.622444444444444e-06,
      "loss": 2.3797,
      "step": 20200
    },
    {
      "epoch": 0.404,
      "eval_loss": 2.388874053955078,
      "eval_runtime": 31.8821,
      "eval_samples_per_second": 3.199,
      "eval_steps_per_second": 1.6,
      "step": 20200
    },
    {
      "epoch": 0.4045,
      "grad_norm": 0.5758811776953918,
      "learning_rate": 6.6168888888888896e-06,
      "loss": 2.3759,
      "step": 20225
    },
    {
      "epoch": 0.405,
      "grad_norm": 0.559073322750905,
      "learning_rate": 6.611333333333334e-06,
      "loss": 2.3743,
      "step": 20250
    },
    {
      "epoch": 0.4055,
      "grad_norm": 0.5638862668814341,
      "learning_rate": 6.605777777777778e-06,
      "loss": 2.3726,
      "step": 20275
    },
    {
      "epoch": 0.406,
      "grad_norm": 0.5611977328077278,
      "learning_rate": 6.600222222222222e-06,
      "loss": 2.3704,
      "step": 20300
    },
    {
      "epoch": 0.406,
      "eval_loss": 2.3888099193573,
      "eval_runtime": 31.7076,
      "eval_samples_per_second": 3.217,
      "eval_steps_per_second": 1.608,
      "step": 20300
    },
    {
      "epoch": 0.4065,
      "grad_norm": 0.5664333139784736,
      "learning_rate": 6.594666666666667e-06,
      "loss": 2.3644,
      "step": 20325
    },
    {
      "epoch": 0.407,
      "grad_norm": 0.5549238936705829,
      "learning_rate": 6.5891111111111116e-06,
      "loss": 2.3594,
      "step": 20350
    },
    {
      "epoch": 0.4075,
      "grad_norm": 0.56940110218198,
      "learning_rate": 6.583555555555556e-06,
      "loss": 2.3743,
      "step": 20375
    },
    {
      "epoch": 0.408,
      "grad_norm": 0.5757908141952881,
      "learning_rate": 6.578000000000001e-06,
      "loss": 2.3774,
      "step": 20400
    },
    {
      "epoch": 0.408,
      "eval_loss": 2.3890221118927,
      "eval_runtime": 31.8193,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 20400
    },
    {
      "epoch": 0.4085,
      "grad_norm": 0.6023338293027314,
      "learning_rate": 6.572444444444445e-06,
      "loss": 2.3774,
      "step": 20425
    },
    {
      "epoch": 0.409,
      "grad_norm": 0.5398042018053211,
      "learning_rate": 6.566888888888889e-06,
      "loss": 2.3785,
      "step": 20450
    },
    {
      "epoch": 0.4095,
      "grad_norm": 0.5961544515028506,
      "learning_rate": 6.561333333333334e-06,
      "loss": 2.3867,
      "step": 20475
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5517605161130648,
      "learning_rate": 6.555777777777779e-06,
      "loss": 2.3713,
      "step": 20500
    },
    {
      "epoch": 0.41,
      "eval_loss": 2.38859224319458,
      "eval_runtime": 31.8577,
      "eval_samples_per_second": 3.202,
      "eval_steps_per_second": 1.601,
      "step": 20500
    },
    {
      "epoch": 0.4105,
      "grad_norm": 0.5753260144360031,
      "learning_rate": 6.550222222222222e-06,
      "loss": 2.3653,
      "step": 20525
    },
    {
      "epoch": 0.411,
      "grad_norm": 0.6404542212883029,
      "learning_rate": 6.544666666666667e-06,
      "loss": 2.3869,
      "step": 20550
    },
    {
      "epoch": 0.4115,
      "grad_norm": 0.5777253920326619,
      "learning_rate": 6.539111111111112e-06,
      "loss": 2.3813,
      "step": 20575
    },
    {
      "epoch": 0.412,
      "grad_norm": 0.5698546516216307,
      "learning_rate": 6.5335555555555565e-06,
      "loss": 2.3775,
      "step": 20600
    },
    {
      "epoch": 0.412,
      "eval_loss": 2.388434648513794,
      "eval_runtime": 31.8295,
      "eval_samples_per_second": 3.205,
      "eval_steps_per_second": 1.602,
      "step": 20600
    },
    {
      "epoch": 0.4125,
      "grad_norm": 0.5842535685269022,
      "learning_rate": 6.528000000000001e-06,
      "loss": 2.3896,
      "step": 20625
    },
    {
      "epoch": 0.413,
      "grad_norm": 0.5595088265556925,
      "learning_rate": 6.522444444444444e-06,
      "loss": 2.3878,
      "step": 20650
    },
    {
      "epoch": 0.4135,
      "grad_norm": 0.5751254243123975,
      "learning_rate": 6.51688888888889e-06,
      "loss": 2.367,
      "step": 20675
    },
    {
      "epoch": 0.414,
      "grad_norm": 0.5394876201865446,
      "learning_rate": 6.511333333333334e-06,
      "loss": 2.3776,
      "step": 20700
    },
    {
      "epoch": 0.414,
      "eval_loss": 2.3883957862854004,
      "eval_runtime": 31.8095,
      "eval_samples_per_second": 3.207,
      "eval_steps_per_second": 1.603,
      "step": 20700
    },
    {
      "epoch": 0.4145,
      "grad_norm": 0.5601399673585632,
      "learning_rate": 6.5057777777777785e-06,
      "loss": 2.3679,
      "step": 20725
    },
    {
      "epoch": 0.415,
      "grad_norm": 0.5715098373270459,
      "learning_rate": 6.500222222222222e-06,
      "loss": 2.3811,
      "step": 20750
    },
    {
      "epoch": 0.4155,
      "grad_norm": 0.5517830411358287,
      "learning_rate": 6.494666666666667e-06,
      "loss": 2.3723,
      "step": 20775
    },
    {
      "epoch": 0.416,
      "grad_norm": 0.5736440167807991,
      "learning_rate": 6.489111111111112e-06,
      "loss": 2.3804,
      "step": 20800
    },
    {
      "epoch": 0.416,
      "eval_loss": 2.388143539428711,
      "eval_runtime": 31.9362,
      "eval_samples_per_second": 3.194,
      "eval_steps_per_second": 1.597,
      "step": 20800
    },
    {
      "epoch": 0.4165,
      "grad_norm": 0.5772877970336647,
      "learning_rate": 6.483555555555556e-06,
      "loss": 2.3721,
      "step": 20825
    },
    {
      "epoch": 0.417,
      "grad_norm": 0.5746556720939705,
      "learning_rate": 6.478000000000001e-06,
      "loss": 2.3662,
      "step": 20850
    },
    {
      "epoch": 0.4175,
      "grad_norm": 0.5605696940354651,
      "learning_rate": 6.472444444444445e-06,
      "loss": 2.3783,
      "step": 20875
    },
    {
      "epoch": 0.418,
      "grad_norm": 0.5474840165552274,
      "learning_rate": 6.466888888888889e-06,
      "loss": 2.3799,
      "step": 20900
    },
    {
      "epoch": 0.418,
      "eval_loss": 2.388044595718384,
      "eval_runtime": 31.8313,
      "eval_samples_per_second": 3.204,
      "eval_steps_per_second": 1.602,
      "step": 20900
    },
    {
      "epoch": 0.4185,
      "grad_norm": 0.5663680125421368,
      "learning_rate": 6.461333333333334e-06,
      "loss": 2.3843,
      "step": 20925
    },
    {
      "epoch": 0.419,
      "grad_norm": 0.5531423851896319,
      "learning_rate": 6.455777777777779e-06,
      "loss": 2.3661,
      "step": 20950
    },
    {
      "epoch": 0.4195,
      "grad_norm": 0.5644562314935403,
      "learning_rate": 6.450222222222223e-06,
      "loss": 2.3762,
      "step": 20975
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.5653831391780122,
      "learning_rate": 6.444666666666667e-06,
      "loss": 2.3588,
      "step": 21000
    },
    {
      "epoch": 0.42,
      "eval_loss": 2.388213872909546,
      "eval_runtime": 31.7864,
      "eval_samples_per_second": 3.209,
      "eval_steps_per_second": 1.604,
      "step": 21000
    },
    {
      "epoch": 0.4205,
      "grad_norm": 0.5447308357523696,
      "learning_rate": 6.439111111111111e-06,
      "loss": 2.3803,
      "step": 21025
    },
    {
      "epoch": 0.421,
      "grad_norm": 0.5426314550064573,
      "learning_rate": 6.4335555555555566e-06,
      "loss": 2.3798,
      "step": 21050
    },
    {
      "epoch": 0.4215,
      "grad_norm": 0.5623213994558643,
      "learning_rate": 6.428000000000001e-06,
      "loss": 2.3855,
      "step": 21075
    },
    {
      "epoch": 0.422,
      "grad_norm": 0.551782200199429,
      "learning_rate": 6.4224444444444445e-06,
      "loss": 2.3744,
      "step": 21100
    },
    {
      "epoch": 0.422,
      "eval_loss": 2.3879234790802,
      "eval_runtime": 31.7247,
      "eval_samples_per_second": 3.215,
      "eval_steps_per_second": 1.608,
      "step": 21100
    },
    {
      "epoch": 0.4225,
      "grad_norm": 0.527718965025146,
      "learning_rate": 6.416888888888889e-06,
      "loss": 2.3629,
      "step": 21125
    },
    {
      "epoch": 0.423,
      "grad_norm": 0.5608708238117702,
      "learning_rate": 6.411333333333334e-06,
      "loss": 2.3775,
      "step": 21150
    },
    {
      "epoch": 0.4235,
      "grad_norm": 0.5448339479028284,
      "learning_rate": 6.405777777777779e-06,
      "loss": 2.379,
      "step": 21175
    },
    {
      "epoch": 0.424,
      "grad_norm": 0.5418336159854089,
      "learning_rate": 6.400222222222223e-06,
      "loss": 2.3771,
      "step": 21200
    },
    {
      "epoch": 0.424,
      "eval_loss": 2.3878672122955322,
      "eval_runtime": 31.8891,
      "eval_samples_per_second": 3.199,
      "eval_steps_per_second": 1.599,
      "step": 21200
    },
    {
      "epoch": 0.4245,
      "grad_norm": 0.5765916975285049,
      "learning_rate": 6.3946666666666665e-06,
      "loss": 2.3838,
      "step": 21225
    },
    {
      "epoch": 0.425,
      "grad_norm": 0.5482787584221817,
      "learning_rate": 6.389111111111112e-06,
      "loss": 2.3751,
      "step": 21250
    },
    {
      "epoch": 0.4255,
      "grad_norm": 0.5592623692636863,
      "learning_rate": 6.383555555555556e-06,
      "loss": 2.3714,
      "step": 21275
    },
    {
      "epoch": 0.426,
      "grad_norm": 0.5502456266750644,
      "learning_rate": 6.378000000000001e-06,
      "loss": 2.3687,
      "step": 21300
    },
    {
      "epoch": 0.426,
      "eval_loss": 2.387702226638794,
      "eval_runtime": 31.8474,
      "eval_samples_per_second": 3.203,
      "eval_steps_per_second": 1.601,
      "step": 21300
    },
    {
      "epoch": 0.4265,
      "grad_norm": 0.5508844144432443,
      "learning_rate": 6.372444444444444e-06,
      "loss": 2.3705,
      "step": 21325
    },
    {
      "epoch": 0.427,
      "grad_norm": 0.5551955771008479,
      "learning_rate": 6.366888888888889e-06,
      "loss": 2.3616,
      "step": 21350
    },
    {
      "epoch": 0.4275,
      "grad_norm": 0.5482174863813819,
      "learning_rate": 6.361333333333334e-06,
      "loss": 2.3679,
      "step": 21375
    },
    {
      "epoch": 0.428,
      "grad_norm": 0.540793837360148,
      "learning_rate": 6.355777777777778e-06,
      "loss": 2.3724,
      "step": 21400
    },
    {
      "epoch": 0.428,
      "eval_loss": 2.3876450061798096,
      "eval_runtime": 32.2051,
      "eval_samples_per_second": 3.167,
      "eval_steps_per_second": 1.584,
      "step": 21400
    },
    {
      "epoch": 0.4285,
      "grad_norm": 0.5478812262209652,
      "learning_rate": 6.3502222222222235e-06,
      "loss": 2.3639,
      "step": 21425
    },
    {
      "epoch": 0.429,
      "grad_norm": 0.5598419449976438,
      "learning_rate": 6.344666666666667e-06,
      "loss": 2.3686,
      "step": 21450
    },
    {
      "epoch": 0.4295,
      "grad_norm": 0.5650989625187698,
      "learning_rate": 6.339111111111111e-06,
      "loss": 2.3755,
      "step": 21475
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.5521104434834965,
      "learning_rate": 6.333555555555556e-06,
      "loss": 2.3819,
      "step": 21500
    },
    {
      "epoch": 0.43,
      "eval_loss": 2.386732578277588,
      "eval_runtime": 32.423,
      "eval_samples_per_second": 3.146,
      "eval_steps_per_second": 1.573,
      "step": 21500
    },
    {
      "epoch": 0.4305,
      "grad_norm": 0.5718504697288973,
      "learning_rate": 6.328000000000001e-06,
      "loss": 2.3768,
      "step": 21525
    },
    {
      "epoch": 0.431,
      "grad_norm": 0.5647383482527034,
      "learning_rate": 6.3224444444444455e-06,
      "loss": 2.3634,
      "step": 21550
    },
    {
      "epoch": 0.4315,
      "grad_norm": 0.5740444089490578,
      "learning_rate": 6.316888888888889e-06,
      "loss": 2.3683,
      "step": 21575
    },
    {
      "epoch": 0.432,
      "grad_norm": 0.5468815860778439,
      "learning_rate": 6.3113333333333334e-06,
      "loss": 2.3775,
      "step": 21600
    },
    {
      "epoch": 0.432,
      "eval_loss": 2.386624813079834,
      "eval_runtime": 32.2361,
      "eval_samples_per_second": 3.164,
      "eval_steps_per_second": 1.582,
      "step": 21600
    },
    {
      "epoch": 0.4325,
      "grad_norm": 0.5491782166979611,
      "learning_rate": 6.305777777777779e-06,
      "loss": 2.3678,
      "step": 21625
    },
    {
      "epoch": 0.433,
      "grad_norm": 0.5493956319744467,
      "learning_rate": 6.300222222222223e-06,
      "loss": 2.3632,
      "step": 21650
    },
    {
      "epoch": 0.4335,
      "grad_norm": 0.5517199994093782,
      "learning_rate": 6.294666666666667e-06,
      "loss": 2.3719,
      "step": 21675
    },
    {
      "epoch": 0.434,
      "grad_norm": 0.5480082798934808,
      "learning_rate": 6.289111111111111e-06,
      "loss": 2.3705,
      "step": 21700
    },
    {
      "epoch": 0.434,
      "eval_loss": 2.386605978012085,
      "eval_runtime": 31.811,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 21700
    },
    {
      "epoch": 0.4345,
      "grad_norm": 0.5988374708555845,
      "learning_rate": 6.283555555555556e-06,
      "loss": 2.3736,
      "step": 21725
    },
    {
      "epoch": 0.435,
      "grad_norm": 0.5394989364015422,
      "learning_rate": 6.278000000000001e-06,
      "loss": 2.38,
      "step": 21750
    },
    {
      "epoch": 0.4355,
      "grad_norm": 0.5660475248416822,
      "learning_rate": 6.272444444444445e-06,
      "loss": 2.3712,
      "step": 21775
    },
    {
      "epoch": 0.436,
      "grad_norm": 0.5824076374736812,
      "learning_rate": 6.266888888888889e-06,
      "loss": 2.3781,
      "step": 21800
    },
    {
      "epoch": 0.436,
      "eval_loss": 2.3868014812469482,
      "eval_runtime": 32.0011,
      "eval_samples_per_second": 3.187,
      "eval_steps_per_second": 1.594,
      "step": 21800
    },
    {
      "epoch": 0.4365,
      "grad_norm": 0.5604649354431509,
      "learning_rate": 6.261333333333334e-06,
      "loss": 2.3673,
      "step": 21825
    },
    {
      "epoch": 0.437,
      "grad_norm": 0.5581917280058185,
      "learning_rate": 6.255777777777778e-06,
      "loss": 2.3575,
      "step": 21850
    },
    {
      "epoch": 0.4375,
      "grad_norm": 0.5682187519985219,
      "learning_rate": 6.250222222222223e-06,
      "loss": 2.3752,
      "step": 21875
    },
    {
      "epoch": 0.438,
      "grad_norm": 0.5343819916754123,
      "learning_rate": 6.244666666666666e-06,
      "loss": 2.3688,
      "step": 21900
    },
    {
      "epoch": 0.438,
      "eval_loss": 2.3865694999694824,
      "eval_runtime": 31.8681,
      "eval_samples_per_second": 3.201,
      "eval_steps_per_second": 1.6,
      "step": 21900
    },
    {
      "epoch": 0.4385,
      "grad_norm": 0.6084740129821103,
      "learning_rate": 6.2391111111111115e-06,
      "loss": 2.3611,
      "step": 21925
    },
    {
      "epoch": 0.439,
      "grad_norm": 0.5550908983577711,
      "learning_rate": 6.233555555555556e-06,
      "loss": 2.364,
      "step": 21950
    },
    {
      "epoch": 0.4395,
      "grad_norm": 0.5605896822575689,
      "learning_rate": 6.228e-06,
      "loss": 2.3875,
      "step": 21975
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5679795530728957,
      "learning_rate": 6.222444444444446e-06,
      "loss": 2.3637,
      "step": 22000
    },
    {
      "epoch": 0.44,
      "eval_loss": 2.3865110874176025,
      "eval_runtime": 31.8116,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 22000
    },
    {
      "epoch": 0.4405,
      "grad_norm": 0.5533397760322247,
      "learning_rate": 6.216888888888889e-06,
      "loss": 2.371,
      "step": 22025
    },
    {
      "epoch": 0.441,
      "grad_norm": 0.5551275205002794,
      "learning_rate": 6.2113333333333336e-06,
      "loss": 2.3684,
      "step": 22050
    },
    {
      "epoch": 0.4415,
      "grad_norm": 0.5520948023453888,
      "learning_rate": 6.205777777777778e-06,
      "loss": 2.3602,
      "step": 22075
    },
    {
      "epoch": 0.442,
      "grad_norm": 0.5679529169964138,
      "learning_rate": 6.200222222222223e-06,
      "loss": 2.3867,
      "step": 22100
    },
    {
      "epoch": 0.442,
      "eval_loss": 2.3863022327423096,
      "eval_runtime": 32.0036,
      "eval_samples_per_second": 3.187,
      "eval_steps_per_second": 1.594,
      "step": 22100
    },
    {
      "epoch": 0.4425,
      "grad_norm": 0.5619895216629556,
      "learning_rate": 6.194666666666668e-06,
      "loss": 2.3701,
      "step": 22125
    },
    {
      "epoch": 0.443,
      "grad_norm": 0.5515875809771505,
      "learning_rate": 6.189111111111111e-06,
      "loss": 2.3734,
      "step": 22150
    },
    {
      "epoch": 0.4435,
      "grad_norm": 0.5686425996531567,
      "learning_rate": 6.1835555555555556e-06,
      "loss": 2.3698,
      "step": 22175
    },
    {
      "epoch": 0.444,
      "grad_norm": 0.5580871882801617,
      "learning_rate": 6.178000000000001e-06,
      "loss": 2.3676,
      "step": 22200
    },
    {
      "epoch": 0.444,
      "eval_loss": 2.3865246772766113,
      "eval_runtime": 31.7174,
      "eval_samples_per_second": 3.216,
      "eval_steps_per_second": 1.608,
      "step": 22200
    },
    {
      "epoch": 0.4445,
      "grad_norm": 0.5784261034385078,
      "learning_rate": 6.172444444444445e-06,
      "loss": 2.3723,
      "step": 22225
    },
    {
      "epoch": 0.445,
      "grad_norm": 0.5570688655308026,
      "learning_rate": 6.166888888888889e-06,
      "loss": 2.3709,
      "step": 22250
    },
    {
      "epoch": 0.4455,
      "grad_norm": 0.5716930839552549,
      "learning_rate": 6.161333333333334e-06,
      "loss": 2.3734,
      "step": 22275
    },
    {
      "epoch": 0.446,
      "grad_norm": 0.5550340902020618,
      "learning_rate": 6.1557777777777784e-06,
      "loss": 2.3648,
      "step": 22300
    },
    {
      "epoch": 0.446,
      "eval_loss": 2.38633131980896,
      "eval_runtime": 31.7943,
      "eval_samples_per_second": 3.208,
      "eval_steps_per_second": 1.604,
      "step": 22300
    },
    {
      "epoch": 0.4465,
      "grad_norm": 0.5719936248106342,
      "learning_rate": 6.150222222222223e-06,
      "loss": 2.3751,
      "step": 22325
    },
    {
      "epoch": 0.447,
      "grad_norm": 0.5616671760742846,
      "learning_rate": 6.144666666666668e-06,
      "loss": 2.3748,
      "step": 22350
    },
    {
      "epoch": 0.4475,
      "grad_norm": 0.5785985644213604,
      "learning_rate": 6.139111111111112e-06,
      "loss": 2.3837,
      "step": 22375
    },
    {
      "epoch": 0.448,
      "grad_norm": 0.5645620599147937,
      "learning_rate": 6.133555555555556e-06,
      "loss": 2.3745,
      "step": 22400
    },
    {
      "epoch": 0.448,
      "eval_loss": 2.3862569332122803,
      "eval_runtime": 31.9593,
      "eval_samples_per_second": 3.192,
      "eval_steps_per_second": 1.596,
      "step": 22400
    },
    {
      "epoch": 0.4485,
      "grad_norm": 0.5469950240628229,
      "learning_rate": 6.1280000000000005e-06,
      "loss": 2.3642,
      "step": 22425
    },
    {
      "epoch": 0.449,
      "grad_norm": 0.5324393599981698,
      "learning_rate": 6.122444444444446e-06,
      "loss": 2.379,
      "step": 22450
    },
    {
      "epoch": 0.4495,
      "grad_norm": 0.5519962387254249,
      "learning_rate": 6.116888888888889e-06,
      "loss": 2.3635,
      "step": 22475
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.5588336399127953,
      "learning_rate": 6.111333333333334e-06,
      "loss": 2.3718,
      "step": 22500
    },
    {
      "epoch": 0.45,
      "eval_loss": 2.385950803756714,
      "eval_runtime": 31.7208,
      "eval_samples_per_second": 3.216,
      "eval_steps_per_second": 1.608,
      "step": 22500
    },
    {
      "epoch": 0.4505,
      "grad_norm": 0.5923640418917652,
      "learning_rate": 6.105777777777778e-06,
      "loss": 2.3719,
      "step": 22525
    },
    {
      "epoch": 0.451,
      "grad_norm": 0.5653562982992056,
      "learning_rate": 6.100222222222223e-06,
      "loss": 2.3808,
      "step": 22550
    },
    {
      "epoch": 0.4515,
      "grad_norm": 0.5636846873459127,
      "learning_rate": 6.094666666666668e-06,
      "loss": 2.3641,
      "step": 22575
    },
    {
      "epoch": 0.452,
      "grad_norm": 0.5850003926588586,
      "learning_rate": 6.089111111111111e-06,
      "loss": 2.3572,
      "step": 22600
    },
    {
      "epoch": 0.452,
      "eval_loss": 2.386296033859253,
      "eval_runtime": 31.8709,
      "eval_samples_per_second": 3.2,
      "eval_steps_per_second": 1.6,
      "step": 22600
    },
    {
      "epoch": 0.4525,
      "grad_norm": 0.5334735362781007,
      "learning_rate": 6.083555555555556e-06,
      "loss": 2.3732,
      "step": 22625
    },
    {
      "epoch": 0.453,
      "grad_norm": 0.5809776122118506,
      "learning_rate": 6.078000000000001e-06,
      "loss": 2.3842,
      "step": 22650
    },
    {
      "epoch": 0.4535,
      "grad_norm": 0.5438625993671827,
      "learning_rate": 6.072444444444445e-06,
      "loss": 2.3802,
      "step": 22675
    },
    {
      "epoch": 0.454,
      "grad_norm": 0.5581266930595516,
      "learning_rate": 6.06688888888889e-06,
      "loss": 2.3757,
      "step": 22700
    },
    {
      "epoch": 0.454,
      "eval_loss": 2.3853445053100586,
      "eval_runtime": 31.9465,
      "eval_samples_per_second": 3.193,
      "eval_steps_per_second": 1.596,
      "step": 22700
    },
    {
      "epoch": 0.4545,
      "grad_norm": 0.5665471911134969,
      "learning_rate": 6.061333333333333e-06,
      "loss": 2.3632,
      "step": 22725
    },
    {
      "epoch": 0.455,
      "grad_norm": 0.5602817372745607,
      "learning_rate": 6.0557777777777785e-06,
      "loss": 2.3759,
      "step": 22750
    },
    {
      "epoch": 0.4555,
      "grad_norm": 0.5546395592927382,
      "learning_rate": 6.050222222222223e-06,
      "loss": 2.3654,
      "step": 22775
    },
    {
      "epoch": 0.456,
      "grad_norm": 0.5466059675730089,
      "learning_rate": 6.044666666666667e-06,
      "loss": 2.3747,
      "step": 22800
    },
    {
      "epoch": 0.456,
      "eval_loss": 2.3854382038116455,
      "eval_runtime": 31.8135,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 22800
    },
    {
      "epoch": 0.4565,
      "grad_norm": 0.556576922176953,
      "learning_rate": 6.039111111111111e-06,
      "loss": 2.3752,
      "step": 22825
    },
    {
      "epoch": 0.457,
      "grad_norm": 0.5587160453347744,
      "learning_rate": 6.033555555555556e-06,
      "loss": 2.3753,
      "step": 22850
    },
    {
      "epoch": 0.4575,
      "grad_norm": 0.5581750567947692,
      "learning_rate": 6.0280000000000006e-06,
      "loss": 2.3744,
      "step": 22875
    },
    {
      "epoch": 0.458,
      "grad_norm": 0.5665211201226871,
      "learning_rate": 6.022444444444445e-06,
      "loss": 2.3707,
      "step": 22900
    },
    {
      "epoch": 0.458,
      "eval_loss": 2.3854050636291504,
      "eval_runtime": 31.8453,
      "eval_samples_per_second": 3.203,
      "eval_steps_per_second": 1.601,
      "step": 22900
    },
    {
      "epoch": 0.4585,
      "grad_norm": 0.559138638343371,
      "learning_rate": 6.01688888888889e-06,
      "loss": 2.3771,
      "step": 22925
    },
    {
      "epoch": 0.459,
      "grad_norm": 0.5765629867304476,
      "learning_rate": 6.011333333333334e-06,
      "loss": 2.3751,
      "step": 22950
    },
    {
      "epoch": 0.4595,
      "grad_norm": 0.5697804508664757,
      "learning_rate": 6.005777777777778e-06,
      "loss": 2.3837,
      "step": 22975
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.5813773268685459,
      "learning_rate": 6.000222222222223e-06,
      "loss": 2.37,
      "step": 23000
    },
    {
      "epoch": 0.46,
      "eval_loss": 2.385390520095825,
      "eval_runtime": 31.767,
      "eval_samples_per_second": 3.211,
      "eval_steps_per_second": 1.605,
      "step": 23000
    },
    {
      "epoch": 0.4605,
      "grad_norm": 0.5644614073323889,
      "learning_rate": 5.994666666666668e-06,
      "loss": 2.3627,
      "step": 23025
    },
    {
      "epoch": 0.461,
      "grad_norm": 0.561196100799294,
      "learning_rate": 5.989111111111111e-06,
      "loss": 2.373,
      "step": 23050
    },
    {
      "epoch": 0.4615,
      "grad_norm": 0.5988172465498709,
      "learning_rate": 5.983555555555556e-06,
      "loss": 2.3625,
      "step": 23075
    },
    {
      "epoch": 0.462,
      "grad_norm": 0.5561927981892911,
      "learning_rate": 5.978e-06,
      "loss": 2.366,
      "step": 23100
    },
    {
      "epoch": 0.462,
      "eval_loss": 2.3851592540740967,
      "eval_runtime": 31.9972,
      "eval_samples_per_second": 3.188,
      "eval_steps_per_second": 1.594,
      "step": 23100
    },
    {
      "epoch": 0.4625,
      "grad_norm": 0.5473375939412587,
      "learning_rate": 5.9724444444444454e-06,
      "loss": 2.3577,
      "step": 23125
    },
    {
      "epoch": 0.463,
      "grad_norm": 0.5422432723666715,
      "learning_rate": 5.96688888888889e-06,
      "loss": 2.3724,
      "step": 23150
    },
    {
      "epoch": 0.4635,
      "grad_norm": 0.5459369802725026,
      "learning_rate": 5.961333333333333e-06,
      "loss": 2.3693,
      "step": 23175
    },
    {
      "epoch": 0.464,
      "grad_norm": 0.5602391995824985,
      "learning_rate": 5.955777777777778e-06,
      "loss": 2.3662,
      "step": 23200
    },
    {
      "epoch": 0.464,
      "eval_loss": 2.384812593460083,
      "eval_runtime": 31.7736,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 23200
    },
    {
      "epoch": 0.4645,
      "grad_norm": 0.5382771454200044,
      "learning_rate": 5.950222222222223e-06,
      "loss": 2.373,
      "step": 23225
    },
    {
      "epoch": 0.465,
      "grad_norm": 0.5616408548500356,
      "learning_rate": 5.9446666666666675e-06,
      "loss": 2.3744,
      "step": 23250
    },
    {
      "epoch": 0.4655,
      "grad_norm": 0.5626270768454595,
      "learning_rate": 5.939111111111111e-06,
      "loss": 2.3745,
      "step": 23275
    },
    {
      "epoch": 0.466,
      "grad_norm": 0.5771198592247021,
      "learning_rate": 5.933555555555555e-06,
      "loss": 2.3712,
      "step": 23300
    },
    {
      "epoch": 0.466,
      "eval_loss": 2.385037660598755,
      "eval_runtime": 31.6688,
      "eval_samples_per_second": 3.221,
      "eval_steps_per_second": 1.61,
      "step": 23300
    },
    {
      "epoch": 0.4665,
      "grad_norm": 0.553677767303205,
      "learning_rate": 5.928000000000001e-06,
      "loss": 2.3688,
      "step": 23325
    },
    {
      "epoch": 0.467,
      "grad_norm": 0.5761122434148291,
      "learning_rate": 5.922444444444445e-06,
      "loss": 2.3697,
      "step": 23350
    },
    {
      "epoch": 0.4675,
      "grad_norm": 0.5776134096430138,
      "learning_rate": 5.9168888888888895e-06,
      "loss": 2.3696,
      "step": 23375
    },
    {
      "epoch": 0.468,
      "grad_norm": 0.5410943763458229,
      "learning_rate": 5.911333333333333e-06,
      "loss": 2.3748,
      "step": 23400
    },
    {
      "epoch": 0.468,
      "eval_loss": 2.3850579261779785,
      "eval_runtime": 31.7506,
      "eval_samples_per_second": 3.213,
      "eval_steps_per_second": 1.606,
      "step": 23400
    },
    {
      "epoch": 0.4685,
      "grad_norm": 0.5496846088073756,
      "learning_rate": 5.905777777777778e-06,
      "loss": 2.3631,
      "step": 23425
    },
    {
      "epoch": 0.469,
      "grad_norm": 0.5489837887647091,
      "learning_rate": 5.900222222222223e-06,
      "loss": 2.3752,
      "step": 23450
    },
    {
      "epoch": 0.4695,
      "grad_norm": 0.5595321821458019,
      "learning_rate": 5.894666666666667e-06,
      "loss": 2.3681,
      "step": 23475
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5441176871533538,
      "learning_rate": 5.889111111111112e-06,
      "loss": 2.3689,
      "step": 23500
    },
    {
      "epoch": 0.47,
      "eval_loss": 2.3847615718841553,
      "eval_runtime": 31.7515,
      "eval_samples_per_second": 3.212,
      "eval_steps_per_second": 1.606,
      "step": 23500
    },
    {
      "epoch": 0.4705,
      "grad_norm": 0.5591005943894303,
      "learning_rate": 5.883555555555556e-06,
      "loss": 2.3687,
      "step": 23525
    },
    {
      "epoch": 0.471,
      "grad_norm": 0.5569068986313633,
      "learning_rate": 5.878e-06,
      "loss": 2.3579,
      "step": 23550
    },
    {
      "epoch": 0.4715,
      "grad_norm": 0.5544550604142251,
      "learning_rate": 5.872444444444445e-06,
      "loss": 2.3654,
      "step": 23575
    },
    {
      "epoch": 0.472,
      "grad_norm": 0.5682698532685105,
      "learning_rate": 5.86688888888889e-06,
      "loss": 2.3686,
      "step": 23600
    },
    {
      "epoch": 0.472,
      "eval_loss": 2.384906053543091,
      "eval_runtime": 31.7623,
      "eval_samples_per_second": 3.211,
      "eval_steps_per_second": 1.606,
      "step": 23600
    },
    {
      "epoch": 0.4725,
      "grad_norm": 0.5754081011772445,
      "learning_rate": 5.8613333333333335e-06,
      "loss": 2.3629,
      "step": 23625
    },
    {
      "epoch": 0.473,
      "grad_norm": 0.605492062724259,
      "learning_rate": 5.855777777777778e-06,
      "loss": 2.3702,
      "step": 23650
    },
    {
      "epoch": 0.4735,
      "grad_norm": 0.5407520724247802,
      "learning_rate": 5.850222222222222e-06,
      "loss": 2.3652,
      "step": 23675
    },
    {
      "epoch": 0.474,
      "grad_norm": 0.5531865604429913,
      "learning_rate": 5.8446666666666676e-06,
      "loss": 2.3724,
      "step": 23700
    },
    {
      "epoch": 0.474,
      "eval_loss": 2.3844547271728516,
      "eval_runtime": 31.833,
      "eval_samples_per_second": 3.204,
      "eval_steps_per_second": 1.602,
      "step": 23700
    },
    {
      "epoch": 0.4745,
      "grad_norm": 0.573840223481603,
      "learning_rate": 5.839111111111112e-06,
      "loss": 2.365,
      "step": 23725
    },
    {
      "epoch": 0.475,
      "grad_norm": 0.545580569851831,
      "learning_rate": 5.8335555555555555e-06,
      "loss": 2.3813,
      "step": 23750
    },
    {
      "epoch": 0.4755,
      "grad_norm": 0.551471960312376,
      "learning_rate": 5.828e-06,
      "loss": 2.3617,
      "step": 23775
    },
    {
      "epoch": 0.476,
      "grad_norm": 0.5953130526303944,
      "learning_rate": 5.822444444444445e-06,
      "loss": 2.3781,
      "step": 23800
    },
    {
      "epoch": 0.476,
      "eval_loss": 2.38433575630188,
      "eval_runtime": 31.8506,
      "eval_samples_per_second": 3.202,
      "eval_steps_per_second": 1.601,
      "step": 23800
    },
    {
      "epoch": 0.4765,
      "grad_norm": 0.5604797565202618,
      "learning_rate": 5.81688888888889e-06,
      "loss": 2.3716,
      "step": 23825
    },
    {
      "epoch": 0.477,
      "grad_norm": 0.554661200228578,
      "learning_rate": 5.811333333333333e-06,
      "loss": 2.3724,
      "step": 23850
    },
    {
      "epoch": 0.4775,
      "grad_norm": 0.5534736868914567,
      "learning_rate": 5.8057777777777775e-06,
      "loss": 2.3754,
      "step": 23875
    },
    {
      "epoch": 0.478,
      "grad_norm": 0.541434243018937,
      "learning_rate": 5.800222222222223e-06,
      "loss": 2.3612,
      "step": 23900
    },
    {
      "epoch": 0.478,
      "eval_loss": 2.3843014240264893,
      "eval_runtime": 31.7803,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 23900
    },
    {
      "epoch": 0.4785,
      "grad_norm": 0.5557683143124796,
      "learning_rate": 5.794666666666667e-06,
      "loss": 2.3639,
      "step": 23925
    },
    {
      "epoch": 0.479,
      "grad_norm": 0.5799527873689908,
      "learning_rate": 5.789111111111112e-06,
      "loss": 2.373,
      "step": 23950
    },
    {
      "epoch": 0.4795,
      "grad_norm": 0.590904770982699,
      "learning_rate": 5.783555555555556e-06,
      "loss": 2.3778,
      "step": 23975
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5561040991296016,
      "learning_rate": 5.778e-06,
      "loss": 2.3552,
      "step": 24000
    },
    {
      "epoch": 0.48,
      "eval_loss": 2.3842599391937256,
      "eval_runtime": 31.7209,
      "eval_samples_per_second": 3.216,
      "eval_steps_per_second": 1.608,
      "step": 24000
    },
    {
      "epoch": 0.4805,
      "grad_norm": 0.5640470742370431,
      "learning_rate": 5.772444444444445e-06,
      "loss": 2.3622,
      "step": 24025
    },
    {
      "epoch": 0.481,
      "grad_norm": 0.5463055265939479,
      "learning_rate": 5.76688888888889e-06,
      "loss": 2.3609,
      "step": 24050
    },
    {
      "epoch": 0.4815,
      "grad_norm": 0.566766243472923,
      "learning_rate": 5.7613333333333345e-06,
      "loss": 2.3824,
      "step": 24075
    },
    {
      "epoch": 0.482,
      "grad_norm": 0.5584478304684121,
      "learning_rate": 5.755777777777778e-06,
      "loss": 2.3744,
      "step": 24100
    },
    {
      "epoch": 0.482,
      "eval_loss": 2.384092330932617,
      "eval_runtime": 31.7835,
      "eval_samples_per_second": 3.209,
      "eval_steps_per_second": 1.605,
      "step": 24100
    },
    {
      "epoch": 0.4825,
      "grad_norm": 0.5731740442874064,
      "learning_rate": 5.7502222222222224e-06,
      "loss": 2.3733,
      "step": 24125
    },
    {
      "epoch": 0.483,
      "grad_norm": 0.5552901331066319,
      "learning_rate": 5.744666666666668e-06,
      "loss": 2.3755,
      "step": 24150
    },
    {
      "epoch": 0.4835,
      "grad_norm": 0.5535450397337369,
      "learning_rate": 5.739111111111112e-06,
      "loss": 2.3777,
      "step": 24175
    },
    {
      "epoch": 0.484,
      "grad_norm": 0.5622658531288893,
      "learning_rate": 5.733555555555556e-06,
      "loss": 2.3671,
      "step": 24200
    },
    {
      "epoch": 0.484,
      "eval_loss": 2.3840036392211914,
      "eval_runtime": 31.7615,
      "eval_samples_per_second": 3.211,
      "eval_steps_per_second": 1.606,
      "step": 24200
    },
    {
      "epoch": 0.4845,
      "grad_norm": 0.5526779804173192,
      "learning_rate": 5.728e-06,
      "loss": 2.374,
      "step": 24225
    },
    {
      "epoch": 0.485,
      "grad_norm": 0.5383978006357063,
      "learning_rate": 5.722444444444445e-06,
      "loss": 2.3664,
      "step": 24250
    },
    {
      "epoch": 0.4855,
      "grad_norm": 0.5542389650019858,
      "learning_rate": 5.71688888888889e-06,
      "loss": 2.3692,
      "step": 24275
    },
    {
      "epoch": 0.486,
      "grad_norm": 0.5542459781042757,
      "learning_rate": 5.711333333333334e-06,
      "loss": 2.379,
      "step": 24300
    },
    {
      "epoch": 0.486,
      "eval_loss": 2.3838605880737305,
      "eval_runtime": 31.8313,
      "eval_samples_per_second": 3.204,
      "eval_steps_per_second": 1.602,
      "step": 24300
    },
    {
      "epoch": 0.4865,
      "grad_norm": 0.5371257785961498,
      "learning_rate": 5.705777777777778e-06,
      "loss": 2.3759,
      "step": 24325
    },
    {
      "epoch": 0.487,
      "grad_norm": 0.5334074315105899,
      "learning_rate": 5.700222222222223e-06,
      "loss": 2.3842,
      "step": 24350
    },
    {
      "epoch": 0.4875,
      "grad_norm": 0.5712028005119992,
      "learning_rate": 5.694666666666667e-06,
      "loss": 2.373,
      "step": 24375
    },
    {
      "epoch": 0.488,
      "grad_norm": 0.5527635817323101,
      "learning_rate": 5.689111111111112e-06,
      "loss": 2.3632,
      "step": 24400
    },
    {
      "epoch": 0.488,
      "eval_loss": 2.383908987045288,
      "eval_runtime": 31.8006,
      "eval_samples_per_second": 3.207,
      "eval_steps_per_second": 1.604,
      "step": 24400
    },
    {
      "epoch": 0.4885,
      "grad_norm": 0.5497988709199122,
      "learning_rate": 5.683555555555555e-06,
      "loss": 2.3674,
      "step": 24425
    },
    {
      "epoch": 0.489,
      "grad_norm": 0.5478963614360626,
      "learning_rate": 5.6780000000000005e-06,
      "loss": 2.3795,
      "step": 24450
    },
    {
      "epoch": 0.4895,
      "grad_norm": 0.5418443665589167,
      "learning_rate": 5.672444444444445e-06,
      "loss": 2.3769,
      "step": 24475
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.5637739038034214,
      "learning_rate": 5.666888888888889e-06,
      "loss": 2.3754,
      "step": 24500
    },
    {
      "epoch": 0.49,
      "eval_loss": 2.3835647106170654,
      "eval_runtime": 31.695,
      "eval_samples_per_second": 3.218,
      "eval_steps_per_second": 1.609,
      "step": 24500
    },
    {
      "epoch": 0.4905,
      "grad_norm": 0.5352738455560374,
      "learning_rate": 5.661333333333335e-06,
      "loss": 2.3665,
      "step": 24525
    },
    {
      "epoch": 0.491,
      "grad_norm": 0.5593898219847685,
      "learning_rate": 5.655777777777778e-06,
      "loss": 2.3621,
      "step": 24550
    },
    {
      "epoch": 0.4915,
      "grad_norm": 0.5340153226573613,
      "learning_rate": 5.6502222222222225e-06,
      "loss": 2.3704,
      "step": 24575
    },
    {
      "epoch": 0.492,
      "grad_norm": 0.5434269177198789,
      "learning_rate": 5.644666666666667e-06,
      "loss": 2.3707,
      "step": 24600
    },
    {
      "epoch": 0.492,
      "eval_loss": 2.38376522064209,
      "eval_runtime": 31.8117,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 24600
    },
    {
      "epoch": 0.4925,
      "grad_norm": 0.5555073289213541,
      "learning_rate": 5.639111111111112e-06,
      "loss": 2.3702,
      "step": 24625
    },
    {
      "epoch": 0.493,
      "grad_norm": 0.5608796205061338,
      "learning_rate": 5.633555555555557e-06,
      "loss": 2.373,
      "step": 24650
    },
    {
      "epoch": 0.4935,
      "grad_norm": 0.5639681025688454,
      "learning_rate": 5.628e-06,
      "loss": 2.3641,
      "step": 24675
    },
    {
      "epoch": 0.494,
      "grad_norm": 0.5610119210421548,
      "learning_rate": 5.6224444444444446e-06,
      "loss": 2.372,
      "step": 24700
    },
    {
      "epoch": 0.494,
      "eval_loss": 2.383573293685913,
      "eval_runtime": 31.6948,
      "eval_samples_per_second": 3.218,
      "eval_steps_per_second": 1.609,
      "step": 24700
    },
    {
      "epoch": 0.4945,
      "grad_norm": 0.5442392815853518,
      "learning_rate": 5.61688888888889e-06,
      "loss": 2.3651,
      "step": 24725
    },
    {
      "epoch": 0.495,
      "grad_norm": 0.5562532962787945,
      "learning_rate": 5.611333333333334e-06,
      "loss": 2.3705,
      "step": 24750
    },
    {
      "epoch": 0.4955,
      "grad_norm": 0.5488206873990799,
      "learning_rate": 5.605777777777778e-06,
      "loss": 2.3623,
      "step": 24775
    },
    {
      "epoch": 0.496,
      "grad_norm": 0.5653453728755813,
      "learning_rate": 5.600222222222222e-06,
      "loss": 2.3746,
      "step": 24800
    },
    {
      "epoch": 0.496,
      "eval_loss": 2.383600950241089,
      "eval_runtime": 31.8215,
      "eval_samples_per_second": 3.205,
      "eval_steps_per_second": 1.603,
      "step": 24800
    },
    {
      "epoch": 0.4965,
      "grad_norm": 0.5714575887868236,
      "learning_rate": 5.5946666666666674e-06,
      "loss": 2.3698,
      "step": 24825
    },
    {
      "epoch": 0.497,
      "grad_norm": 0.5479503311373944,
      "learning_rate": 5.589111111111112e-06,
      "loss": 2.3753,
      "step": 24850
    },
    {
      "epoch": 0.4975,
      "grad_norm": 0.5465196721627547,
      "learning_rate": 5.583555555555556e-06,
      "loss": 2.3627,
      "step": 24875
    },
    {
      "epoch": 0.498,
      "grad_norm": 0.5545182382115218,
      "learning_rate": 5.578e-06,
      "loss": 2.3623,
      "step": 24900
    },
    {
      "epoch": 0.498,
      "eval_loss": 2.383317470550537,
      "eval_runtime": 31.8409,
      "eval_samples_per_second": 3.203,
      "eval_steps_per_second": 1.602,
      "step": 24900
    },
    {
      "epoch": 0.4985,
      "grad_norm": 0.5624766646317664,
      "learning_rate": 5.572444444444445e-06,
      "loss": 2.3659,
      "step": 24925
    },
    {
      "epoch": 0.499,
      "grad_norm": 0.5642199082921324,
      "learning_rate": 5.5668888888888894e-06,
      "loss": 2.3684,
      "step": 24950
    },
    {
      "epoch": 0.4995,
      "grad_norm": 0.5917431910025611,
      "learning_rate": 5.561333333333334e-06,
      "loss": 2.3723,
      "step": 24975
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5530201275821488,
      "learning_rate": 5.555777777777777e-06,
      "loss": 2.3685,
      "step": 25000
    },
    {
      "epoch": 0.5,
      "eval_loss": 2.3832170963287354,
      "eval_runtime": 31.7959,
      "eval_samples_per_second": 3.208,
      "eval_steps_per_second": 1.604,
      "step": 25000
    },
    {
      "epoch": 0.5005,
      "grad_norm": 0.5509816083841773,
      "learning_rate": 5.550222222222223e-06,
      "loss": 2.3559,
      "step": 25025
    },
    {
      "epoch": 0.501,
      "grad_norm": 0.5547472529206742,
      "learning_rate": 5.544666666666667e-06,
      "loss": 2.3648,
      "step": 25050
    },
    {
      "epoch": 0.5015,
      "grad_norm": 0.546260980184131,
      "learning_rate": 5.5391111111111115e-06,
      "loss": 2.3701,
      "step": 25075
    },
    {
      "epoch": 0.502,
      "grad_norm": 0.5481216862316385,
      "learning_rate": 5.533555555555557e-06,
      "loss": 2.3798,
      "step": 25100
    },
    {
      "epoch": 0.502,
      "eval_loss": 2.38305926322937,
      "eval_runtime": 32.0473,
      "eval_samples_per_second": 3.183,
      "eval_steps_per_second": 1.591,
      "step": 25100
    },
    {
      "epoch": 0.5025,
      "grad_norm": 0.5670640165543723,
      "learning_rate": 5.528e-06,
      "loss": 2.3622,
      "step": 25125
    },
    {
      "epoch": 0.503,
      "grad_norm": 0.5463137917421312,
      "learning_rate": 5.522444444444445e-06,
      "loss": 2.3719,
      "step": 25150
    },
    {
      "epoch": 0.5035,
      "grad_norm": 0.5400999701410277,
      "learning_rate": 5.516888888888889e-06,
      "loss": 2.3616,
      "step": 25175
    },
    {
      "epoch": 0.504,
      "grad_norm": 0.5802126499364532,
      "learning_rate": 5.511333333333334e-06,
      "loss": 2.3721,
      "step": 25200
    },
    {
      "epoch": 0.504,
      "eval_loss": 2.3829147815704346,
      "eval_runtime": 31.7438,
      "eval_samples_per_second": 3.213,
      "eval_steps_per_second": 1.607,
      "step": 25200
    },
    {
      "epoch": 0.5045,
      "grad_norm": 0.5435607747773122,
      "learning_rate": 5.505777777777779e-06,
      "loss": 2.3603,
      "step": 25225
    },
    {
      "epoch": 0.505,
      "grad_norm": 0.5453890322127348,
      "learning_rate": 5.500222222222222e-06,
      "loss": 2.3636,
      "step": 25250
    },
    {
      "epoch": 0.5055,
      "grad_norm": 0.5477131217196112,
      "learning_rate": 5.494666666666667e-06,
      "loss": 2.3697,
      "step": 25275
    },
    {
      "epoch": 0.506,
      "grad_norm": 0.5621665226631756,
      "learning_rate": 5.489111111111112e-06,
      "loss": 2.3687,
      "step": 25300
    },
    {
      "epoch": 0.506,
      "eval_loss": 2.3831355571746826,
      "eval_runtime": 31.7979,
      "eval_samples_per_second": 3.208,
      "eval_steps_per_second": 1.604,
      "step": 25300
    },
    {
      "epoch": 0.5065,
      "grad_norm": 0.5622191727496813,
      "learning_rate": 5.483555555555556e-06,
      "loss": 2.368,
      "step": 25325
    },
    {
      "epoch": 0.507,
      "grad_norm": 0.5375310388584507,
      "learning_rate": 5.478e-06,
      "loss": 2.3617,
      "step": 25350
    },
    {
      "epoch": 0.5075,
      "grad_norm": 0.5421092937376346,
      "learning_rate": 5.472444444444444e-06,
      "loss": 2.3759,
      "step": 25375
    },
    {
      "epoch": 0.508,
      "grad_norm": 0.5726686989658507,
      "learning_rate": 5.4668888888888896e-06,
      "loss": 2.37,
      "step": 25400
    },
    {
      "epoch": 0.508,
      "eval_loss": 2.383046865463257,
      "eval_runtime": 31.8165,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 25400
    },
    {
      "epoch": 0.5085,
      "grad_norm": 0.536904504012326,
      "learning_rate": 5.461333333333334e-06,
      "loss": 2.3683,
      "step": 25425
    },
    {
      "epoch": 0.509,
      "grad_norm": 0.5792290465322086,
      "learning_rate": 5.455777777777778e-06,
      "loss": 2.3641,
      "step": 25450
    },
    {
      "epoch": 0.5095,
      "grad_norm": 0.5667490944788528,
      "learning_rate": 5.450222222222222e-06,
      "loss": 2.3673,
      "step": 25475
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5581091402617585,
      "learning_rate": 5.444666666666667e-06,
      "loss": 2.374,
      "step": 25500
    },
    {
      "epoch": 0.51,
      "eval_loss": 2.3831074237823486,
      "eval_runtime": 31.8462,
      "eval_samples_per_second": 3.203,
      "eval_steps_per_second": 1.601,
      "step": 25500
    },
    {
      "epoch": 0.5105,
      "grad_norm": 0.5629059983127724,
      "learning_rate": 5.4391111111111116e-06,
      "loss": 2.376,
      "step": 25525
    },
    {
      "epoch": 0.511,
      "grad_norm": 0.5600711744363054,
      "learning_rate": 5.433555555555556e-06,
      "loss": 2.3702,
      "step": 25550
    },
    {
      "epoch": 0.5115,
      "grad_norm": 0.5500784026204207,
      "learning_rate": 5.4279999999999995e-06,
      "loss": 2.3704,
      "step": 25575
    },
    {
      "epoch": 0.512,
      "grad_norm": 0.553377338742942,
      "learning_rate": 5.422444444444445e-06,
      "loss": 2.3644,
      "step": 25600
    },
    {
      "epoch": 0.512,
      "eval_loss": 2.3826544284820557,
      "eval_runtime": 31.7739,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 25600
    },
    {
      "epoch": 0.5125,
      "grad_norm": 0.5861763037221558,
      "learning_rate": 5.416888888888889e-06,
      "loss": 2.3658,
      "step": 25625
    },
    {
      "epoch": 0.513,
      "grad_norm": 0.5538084648071333,
      "learning_rate": 5.411333333333334e-06,
      "loss": 2.3693,
      "step": 25650
    },
    {
      "epoch": 0.5135,
      "grad_norm": 0.5699472071254841,
      "learning_rate": 5.405777777777779e-06,
      "loss": 2.3707,
      "step": 25675
    },
    {
      "epoch": 0.514,
      "grad_norm": 0.5440880568370218,
      "learning_rate": 5.400222222222222e-06,
      "loss": 2.3664,
      "step": 25700
    },
    {
      "epoch": 0.514,
      "eval_loss": 2.382906675338745,
      "eval_runtime": 31.7874,
      "eval_samples_per_second": 3.209,
      "eval_steps_per_second": 1.604,
      "step": 25700
    },
    {
      "epoch": 0.5145,
      "grad_norm": 0.551256815387497,
      "learning_rate": 5.394666666666667e-06,
      "loss": 2.3608,
      "step": 25725
    },
    {
      "epoch": 0.515,
      "grad_norm": 0.552653919875225,
      "learning_rate": 5.389111111111112e-06,
      "loss": 2.3648,
      "step": 25750
    },
    {
      "epoch": 0.5155,
      "grad_norm": 0.5489775829628063,
      "learning_rate": 5.3835555555555565e-06,
      "loss": 2.368,
      "step": 25775
    },
    {
      "epoch": 0.516,
      "grad_norm": 0.545224524462321,
      "learning_rate": 5.378e-06,
      "loss": 2.37,
      "step": 25800
    },
    {
      "epoch": 0.516,
      "eval_loss": 2.382946491241455,
      "eval_runtime": 31.8142,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 25800
    },
    {
      "epoch": 0.5165,
      "grad_norm": 0.6177434912819645,
      "learning_rate": 5.372444444444444e-06,
      "loss": 2.3576,
      "step": 25825
    },
    {
      "epoch": 0.517,
      "grad_norm": 0.5731672053410489,
      "learning_rate": 5.36688888888889e-06,
      "loss": 2.3641,
      "step": 25850
    },
    {
      "epoch": 0.5175,
      "grad_norm": 0.547417736306074,
      "learning_rate": 5.361333333333334e-06,
      "loss": 2.3669,
      "step": 25875
    },
    {
      "epoch": 0.518,
      "grad_norm": 0.5666721324439973,
      "learning_rate": 5.3557777777777785e-06,
      "loss": 2.3633,
      "step": 25900
    },
    {
      "epoch": 0.518,
      "eval_loss": 2.3824901580810547,
      "eval_runtime": 31.8236,
      "eval_samples_per_second": 3.205,
      "eval_steps_per_second": 1.603,
      "step": 25900
    },
    {
      "epoch": 0.5185,
      "grad_norm": 0.5493694553264233,
      "learning_rate": 5.350222222222222e-06,
      "loss": 2.3676,
      "step": 25925
    },
    {
      "epoch": 0.519,
      "grad_norm": 0.5581911332398992,
      "learning_rate": 5.344666666666667e-06,
      "loss": 2.3665,
      "step": 25950
    },
    {
      "epoch": 0.5195,
      "grad_norm": 0.5523156791576098,
      "learning_rate": 5.339111111111112e-06,
      "loss": 2.3634,
      "step": 25975
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5394984851015033,
      "learning_rate": 5.333555555555556e-06,
      "loss": 2.3693,
      "step": 26000
    },
    {
      "epoch": 0.52,
      "eval_loss": 2.3825063705444336,
      "eval_runtime": 31.7579,
      "eval_samples_per_second": 3.212,
      "eval_steps_per_second": 1.606,
      "step": 26000
    },
    {
      "epoch": 0.5205,
      "grad_norm": 0.5425846904290578,
      "learning_rate": 5.328000000000001e-06,
      "loss": 2.3675,
      "step": 26025
    },
    {
      "epoch": 0.521,
      "grad_norm": 0.5621800567569987,
      "learning_rate": 5.322444444444445e-06,
      "loss": 2.3759,
      "step": 26050
    },
    {
      "epoch": 0.5215,
      "grad_norm": 0.5544103291449336,
      "learning_rate": 5.316888888888889e-06,
      "loss": 2.3576,
      "step": 26075
    },
    {
      "epoch": 0.522,
      "grad_norm": 0.550125457461572,
      "learning_rate": 5.311333333333334e-06,
      "loss": 2.3567,
      "step": 26100
    },
    {
      "epoch": 0.522,
      "eval_loss": 2.382749319076538,
      "eval_runtime": 31.8184,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 26100
    },
    {
      "epoch": 0.5225,
      "grad_norm": 0.5441956885780074,
      "learning_rate": 5.305777777777779e-06,
      "loss": 2.3562,
      "step": 26125
    },
    {
      "epoch": 0.523,
      "grad_norm": 0.5677266247403775,
      "learning_rate": 5.3002222222222225e-06,
      "loss": 2.3666,
      "step": 26150
    },
    {
      "epoch": 0.5235,
      "grad_norm": 0.5396975563673215,
      "learning_rate": 5.294666666666667e-06,
      "loss": 2.351,
      "step": 26175
    },
    {
      "epoch": 0.524,
      "grad_norm": 0.5374437057610971,
      "learning_rate": 5.289111111111111e-06,
      "loss": 2.3625,
      "step": 26200
    },
    {
      "epoch": 0.524,
      "eval_loss": 2.3822991847991943,
      "eval_runtime": 31.8822,
      "eval_samples_per_second": 3.199,
      "eval_steps_per_second": 1.6,
      "step": 26200
    },
    {
      "epoch": 0.5245,
      "grad_norm": 0.5627076715491244,
      "learning_rate": 5.2835555555555566e-06,
      "loss": 2.3699,
      "step": 26225
    },
    {
      "epoch": 0.525,
      "grad_norm": 0.5430691314388109,
      "learning_rate": 5.278000000000001e-06,
      "loss": 2.3648,
      "step": 26250
    },
    {
      "epoch": 0.5255,
      "grad_norm": 0.5319128139639624,
      "learning_rate": 5.2724444444444445e-06,
      "loss": 2.3722,
      "step": 26275
    },
    {
      "epoch": 0.526,
      "grad_norm": 0.5560009569047116,
      "learning_rate": 5.266888888888889e-06,
      "loss": 2.3763,
      "step": 26300
    },
    {
      "epoch": 0.526,
      "eval_loss": 2.3822247982025146,
      "eval_runtime": 31.7558,
      "eval_samples_per_second": 3.212,
      "eval_steps_per_second": 1.606,
      "step": 26300
    },
    {
      "epoch": 0.5265,
      "grad_norm": 0.5586923319248112,
      "learning_rate": 5.261333333333334e-06,
      "loss": 2.366,
      "step": 26325
    },
    {
      "epoch": 0.527,
      "grad_norm": 0.5621950392943218,
      "learning_rate": 5.255777777777779e-06,
      "loss": 2.3713,
      "step": 26350
    },
    {
      "epoch": 0.5275,
      "grad_norm": 0.5630783729958978,
      "learning_rate": 5.250222222222222e-06,
      "loss": 2.3508,
      "step": 26375
    },
    {
      "epoch": 0.528,
      "grad_norm": 0.5543463911581646,
      "learning_rate": 5.2446666666666665e-06,
      "loss": 2.3588,
      "step": 26400
    },
    {
      "epoch": 0.528,
      "eval_loss": 2.3820412158966064,
      "eval_runtime": 31.7735,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 26400
    },
    {
      "epoch": 0.5285,
      "grad_norm": 0.5521701819516005,
      "learning_rate": 5.239111111111112e-06,
      "loss": 2.3798,
      "step": 26425
    },
    {
      "epoch": 0.529,
      "grad_norm": 0.5697290541696707,
      "learning_rate": 5.233555555555556e-06,
      "loss": 2.3705,
      "step": 26450
    },
    {
      "epoch": 0.5295,
      "grad_norm": 0.5456656767494042,
      "learning_rate": 5.228000000000001e-06,
      "loss": 2.3603,
      "step": 26475
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.544157308823069,
      "learning_rate": 5.222444444444444e-06,
      "loss": 2.3598,
      "step": 26500
    },
    {
      "epoch": 0.53,
      "eval_loss": 2.3819408416748047,
      "eval_runtime": 31.804,
      "eval_samples_per_second": 3.207,
      "eval_steps_per_second": 1.604,
      "step": 26500
    },
    {
      "epoch": 0.5305,
      "grad_norm": 0.5399718074412095,
      "learning_rate": 5.216888888888889e-06,
      "loss": 2.3765,
      "step": 26525
    },
    {
      "epoch": 0.531,
      "grad_norm": 0.542440216852853,
      "learning_rate": 5.211333333333334e-06,
      "loss": 2.3758,
      "step": 26550
    },
    {
      "epoch": 0.5315,
      "grad_norm": 0.5648571300651365,
      "learning_rate": 5.205777777777778e-06,
      "loss": 2.3685,
      "step": 26575
    },
    {
      "epoch": 0.532,
      "grad_norm": 0.573442767423831,
      "learning_rate": 5.2002222222222235e-06,
      "loss": 2.3556,
      "step": 26600
    },
    {
      "epoch": 0.532,
      "eval_loss": 2.382056951522827,
      "eval_runtime": 31.8038,
      "eval_samples_per_second": 3.207,
      "eval_steps_per_second": 1.604,
      "step": 26600
    },
    {
      "epoch": 0.5325,
      "grad_norm": 0.6056414806190663,
      "learning_rate": 5.194666666666667e-06,
      "loss": 2.3595,
      "step": 26625
    },
    {
      "epoch": 0.533,
      "grad_norm": 0.5481757619700885,
      "learning_rate": 5.189111111111111e-06,
      "loss": 2.3727,
      "step": 26650
    },
    {
      "epoch": 0.5335,
      "grad_norm": 0.5610562792027696,
      "learning_rate": 5.183555555555556e-06,
      "loss": 2.3673,
      "step": 26675
    },
    {
      "epoch": 0.534,
      "grad_norm": 0.5702347426339772,
      "learning_rate": 5.178000000000001e-06,
      "loss": 2.3622,
      "step": 26700
    },
    {
      "epoch": 0.534,
      "eval_loss": 2.381828546524048,
      "eval_runtime": 31.992,
      "eval_samples_per_second": 3.188,
      "eval_steps_per_second": 1.594,
      "step": 26700
    },
    {
      "epoch": 0.5345,
      "grad_norm": 0.5565593579595437,
      "learning_rate": 5.172444444444445e-06,
      "loss": 2.3651,
      "step": 26725
    },
    {
      "epoch": 0.535,
      "grad_norm": 0.5398272748687973,
      "learning_rate": 5.166888888888889e-06,
      "loss": 2.3703,
      "step": 26750
    },
    {
      "epoch": 0.5355,
      "grad_norm": 0.5611538131409728,
      "learning_rate": 5.1613333333333334e-06,
      "loss": 2.3778,
      "step": 26775
    },
    {
      "epoch": 0.536,
      "grad_norm": 0.5436520053621182,
      "learning_rate": 5.155777777777779e-06,
      "loss": 2.3561,
      "step": 26800
    },
    {
      "epoch": 0.536,
      "eval_loss": 2.381396532058716,
      "eval_runtime": 31.772,
      "eval_samples_per_second": 3.21,
      "eval_steps_per_second": 1.605,
      "step": 26800
    },
    {
      "epoch": 0.5365,
      "grad_norm": 0.5574841239488896,
      "learning_rate": 5.150222222222223e-06,
      "loss": 2.3607,
      "step": 26825
    },
    {
      "epoch": 0.537,
      "grad_norm": 0.5459267231396281,
      "learning_rate": 5.144666666666667e-06,
      "loss": 2.3652,
      "step": 26850
    },
    {
      "epoch": 0.5375,
      "grad_norm": 0.5764624554311072,
      "learning_rate": 5.139111111111111e-06,
      "loss": 2.3748,
      "step": 26875
    },
    {
      "epoch": 0.538,
      "grad_norm": 0.5452582655691465,
      "learning_rate": 5.133555555555556e-06,
      "loss": 2.3751,
      "step": 26900
    },
    {
      "epoch": 0.538,
      "eval_loss": 2.3815813064575195,
      "eval_runtime": 31.833,
      "eval_samples_per_second": 3.204,
      "eval_steps_per_second": 1.602,
      "step": 26900
    },
    {
      "epoch": 0.5385,
      "grad_norm": 0.5591974032204698,
      "learning_rate": 5.128000000000001e-06,
      "loss": 2.3595,
      "step": 26925
    },
    {
      "epoch": 0.539,
      "grad_norm": 0.5910956937930101,
      "learning_rate": 5.122444444444444e-06,
      "loss": 2.3712,
      "step": 26950
    },
    {
      "epoch": 0.5395,
      "grad_norm": 0.5532516136915937,
      "learning_rate": 5.116888888888889e-06,
      "loss": 2.3673,
      "step": 26975
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5654498740726267,
      "learning_rate": 5.111333333333334e-06,
      "loss": 2.3667,
      "step": 27000
    },
    {
      "epoch": 0.54,
      "eval_loss": 2.3814122676849365,
      "eval_runtime": 31.7588,
      "eval_samples_per_second": 3.212,
      "eval_steps_per_second": 1.606,
      "step": 27000
    },
    {
      "epoch": 0.5405,
      "grad_norm": 0.5639894142193489,
      "learning_rate": 5.105777777777778e-06,
      "loss": 2.3604,
      "step": 27025
    },
    {
      "epoch": 0.541,
      "grad_norm": 0.5650474829629732,
      "learning_rate": 5.100222222222223e-06,
      "loss": 2.3615,
      "step": 27050
    },
    {
      "epoch": 0.5415,
      "grad_norm": 0.5549449402784257,
      "learning_rate": 5.094666666666666e-06,
      "loss": 2.3679,
      "step": 27075
    },
    {
      "epoch": 0.542,
      "grad_norm": 0.5615002192664388,
      "learning_rate": 5.0891111111111115e-06,
      "loss": 2.3634,
      "step": 27100
    },
    {
      "epoch": 0.542,
      "eval_loss": 2.381121873855591,
      "eval_runtime": 31.7586,
      "eval_samples_per_second": 3.212,
      "eval_steps_per_second": 1.606,
      "step": 27100
    },
    {
      "epoch": 0.5425,
      "grad_norm": 0.5403095468370492,
      "learning_rate": 5.083555555555556e-06,
      "loss": 2.3665,
      "step": 27125
    },
    {
      "epoch": 0.543,
      "grad_norm": 0.5421716749680758,
      "learning_rate": 5.078e-06,
      "loss": 2.369,
      "step": 27150
    },
    {
      "epoch": 0.5435,
      "grad_norm": 0.5590064616229682,
      "learning_rate": 5.072444444444446e-06,
      "loss": 2.3594,
      "step": 27175
    },
    {
      "epoch": 0.544,
      "grad_norm": 0.5444799207706167,
      "learning_rate": 5.066888888888889e-06,
      "loss": 2.3582,
      "step": 27200
    },
    {
      "epoch": 0.544,
      "eval_loss": 2.3811404705047607,
      "eval_runtime": 31.8368,
      "eval_samples_per_second": 3.204,
      "eval_steps_per_second": 1.602,
      "step": 27200
    },
    {
      "epoch": 0.5445,
      "grad_norm": 0.5694522608963828,
      "learning_rate": 5.0613333333333336e-06,
      "loss": 2.3651,
      "step": 27225
    },
    {
      "epoch": 0.545,
      "grad_norm": 0.5357232316900923,
      "learning_rate": 5.055777777777778e-06,
      "loss": 2.3595,
      "step": 27250
    },
    {
      "epoch": 0.5455,
      "grad_norm": 0.5449200504756736,
      "learning_rate": 5.050222222222223e-06,
      "loss": 2.3563,
      "step": 27275
    },
    {
      "epoch": 0.546,
      "grad_norm": 0.5669179572699722,
      "learning_rate": 5.044666666666667e-06,
      "loss": 2.3705,
      "step": 27300
    },
    {
      "epoch": 0.546,
      "eval_loss": 2.3810057640075684,
      "eval_runtime": 31.7869,
      "eval_samples_per_second": 3.209,
      "eval_steps_per_second": 1.604,
      "step": 27300
    },
    {
      "epoch": 0.5465,
      "grad_norm": 0.5536644347581473,
      "learning_rate": 5.039111111111111e-06,
      "loss": 2.3658,
      "step": 27325
    },
    {
      "epoch": 0.547,
      "grad_norm": 0.5774297317851765,
      "learning_rate": 5.0335555555555556e-06,
      "loss": 2.3553,
      "step": 27350
    },
    {
      "epoch": 0.5475,
      "grad_norm": 0.567395549600367,
      "learning_rate": 5.028000000000001e-06,
      "loss": 2.3694,
      "step": 27375
    },
    {
      "epoch": 0.548,
      "grad_norm": 0.5501789999743681,
      "learning_rate": 5.022444444444445e-06,
      "loss": 2.3643,
      "step": 27400
    },
    {
      "epoch": 0.548,
      "eval_loss": 2.3811025619506836,
      "eval_runtime": 31.9197,
      "eval_samples_per_second": 3.196,
      "eval_steps_per_second": 1.598,
      "step": 27400
    },
    {
      "epoch": 0.5485,
      "grad_norm": 0.5719215133111718,
      "learning_rate": 5.016888888888889e-06,
      "loss": 2.365,
      "step": 27425
    },
    {
      "epoch": 0.549,
      "grad_norm": 0.5899241097551456,
      "learning_rate": 5.011333333333333e-06,
      "loss": 2.3774,
      "step": 27450
    },
    {
      "epoch": 0.5495,
      "grad_norm": 0.5731413292155066,
      "learning_rate": 5.0057777777777784e-06,
      "loss": 2.3706,
      "step": 27475
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5425656065958468,
      "learning_rate": 5.000222222222223e-06,
      "loss": 2.3566,
      "step": 27500
    },
    {
      "epoch": 0.55,
      "eval_loss": 2.380763292312622,
      "eval_runtime": 31.8162,
      "eval_samples_per_second": 3.206,
      "eval_steps_per_second": 1.603,
      "step": 27500
    },
    {
      "epoch": 0.5505,
      "grad_norm": 0.5601626399029922,
      "learning_rate": 4.994666666666667e-06,
      "loss": 2.3762,
      "step": 27525
    },
    {
      "epoch": 0.551,
      "grad_norm": 0.5715204135637444,
      "learning_rate": 4.989111111111112e-06,
      "loss": 2.363,
      "step": 27550
    },
    {
      "epoch": 0.5515,
      "grad_norm": 0.547533853702179,
      "learning_rate": 4.983555555555556e-06,
      "loss": 2.3659,
      "step": 27575
    },
    {
      "epoch": 0.552,
      "grad_norm": 0.5817399132816639,
      "learning_rate": 4.9780000000000005e-06,
      "loss": 2.3693,
      "step": 27600
    },
    {
      "epoch": 0.552,
      "eval_loss": 2.3807787895202637,
      "eval_runtime": 31.8396,
      "eval_samples_per_second": 3.204,
      "eval_steps_per_second": 1.602,
      "step": 27600
    },
    {
      "epoch": 0.5525,
      "grad_norm": 0.544660595894246,
      "learning_rate": 4.972444444444445e-06,
      "loss": 2.3661,
      "step": 27625
    },
    {
      "epoch": 0.553,
      "grad_norm": 0.5813863819688693,
      "learning_rate": 4.966888888888889e-06,
      "loss": 2.365,
      "step": 27650
    },
    {
      "epoch": 0.5535,
      "grad_norm": 0.555794514365692,
      "learning_rate": 4.961333333333334e-06,
      "loss": 2.3724,
      "step": 27675
    },
    {
      "epoch": 0.554,
      "grad_norm": 0.5549771654031,
      "learning_rate": 4.955777777777778e-06,
      "loss": 2.3712,
      "step": 27700
    },
    {
      "epoch": 0.554,
      "eval_loss": 2.380859613418579,
      "eval_runtime": 32.035,
      "eval_samples_per_second": 3.184,
      "eval_steps_per_second": 1.592,
      "step": 27700
    },
    {
      "epoch": 0.5545,
      "grad_norm": 0.5660580874490311,
      "learning_rate": 4.9502222222222225e-06,
      "loss": 2.3626,
      "step": 27725
    },
    {
      "epoch": 0.555,
      "grad_norm": 0.5408935222204184,
      "learning_rate": 4.944666666666667e-06,
      "loss": 2.3546,
      "step": 27750
    },
    {
      "epoch": 0.5555,
      "grad_norm": 0.5574539497290301,
      "learning_rate": 4.939111111111112e-06,
      "loss": 2.3503,
      "step": 27775
    },
    {
      "epoch": 0.556,
      "grad_norm": 0.5733587459238179,
      "learning_rate": 4.933555555555556e-06,
      "loss": 2.3787,
      "step": 27800
    },
    {
      "epoch": 0.556,
      "eval_loss": 2.380819082260132,
      "eval_runtime": 31.8731,
      "eval_samples_per_second": 3.2,
      "eval_steps_per_second": 1.6,
      "step": 27800
    },
    {
      "epoch": 0.5565,
      "grad_norm": 0.5469010479471977,
      "learning_rate": 4.928000000000001e-06,
      "loss": 2.3728,
      "step": 27825
    },
    {
      "epoch": 0.557,
      "grad_norm": 0.5575923461377743,
      "learning_rate": 4.9224444444444445e-06,
      "loss": 2.3587,
      "step": 27850
    },
    {
      "epoch": 0.5575,
      "grad_norm": 0.5484615569385746,
      "learning_rate": 4.91688888888889e-06,
      "loss": 2.3554,
      "step": 27875
    },
    {
      "epoch": 0.558,
      "grad_norm": 0.5700580906470195,
      "learning_rate": 4.911333333333333e-06,
      "loss": 2.3591,
      "step": 27900
    },
    {
      "epoch": 0.558,
      "eval_loss": 2.380748748779297,
      "eval_runtime": 31.8799,
      "eval_samples_per_second": 3.2,
      "eval_steps_per_second": 1.6,
      "step": 27900
    },
    {
      "epoch": 0.5585,
      "grad_norm": 0.5644741625244013,
      "learning_rate": 4.9057777777777785e-06,
      "loss": 2.3573,
      "step": 27925
    },
    {
      "epoch": 0.559,
      "grad_norm": 0.5518750142742082,
      "learning_rate": 4.900222222222223e-06,
      "loss": 2.3722,
      "step": 27950
    },
    {
      "epoch": 0.5595,
      "grad_norm": 0.5570570164343176,
      "learning_rate": 4.894666666666667e-06,
      "loss": 2.3644,
      "step": 27975
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5454507656456767,
      "learning_rate": 4.889111111111112e-06,
      "loss": 2.3545,
      "step": 28000
    },
    {
      "epoch": 0.56,
      "eval_loss": 2.380680799484253,
      "eval_runtime": 31.8506,
      "eval_samples_per_second": 3.202,
      "eval_steps_per_second": 1.601,
      "step": 28000
    }
  ],
  "logging_steps": 25,
  "max_steps": 50000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 8.91296643531617e+19,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}