train_mrpc_1753094152 / trainer_state.json

End of training

9e25de4 verified 9 months ago

357 kB

	{
	"best_global_step": 2891,
	"best_metric": 0.137603759765625,
	"best_model_checkpoint": "saves/lntuning/llama-3-8b-instruct/train_mrpc_1753094152/checkpoint-2891",
	"epoch": 10.0,
	"eval_steps": 413,
	"global_step": 8260,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.006053268765133172,
	"grad_norm": 4.481978893280029,
	"learning_rate": 2.421307506053269e-07,
	"loss": 0.2851,
	"num_input_tokens_seen": 1920,
	"step": 5
	},
	{
	"epoch": 0.012106537530266344,
	"grad_norm": 4.846698760986328,
	"learning_rate": 5.447941888619855e-07,
	"loss": 0.1664,
	"num_input_tokens_seen": 3808,
	"step": 10
	},
	{
	"epoch": 0.018159806295399514,
	"grad_norm": 1.9483075141906738,
	"learning_rate": 8.474576271186441e-07,
	"loss": 0.2561,
	"num_input_tokens_seen": 5856,
	"step": 15
	},
	{
	"epoch": 0.024213075060532687,
	"grad_norm": 10.700196266174316,
	"learning_rate": 1.1501210653753028e-06,
	"loss": 0.3437,
	"num_input_tokens_seen": 7840,
	"step": 20
	},
	{
	"epoch": 0.03026634382566586,
	"grad_norm": 2.950713872909546,
	"learning_rate": 1.4527845036319614e-06,
	"loss": 0.3354,
	"num_input_tokens_seen": 10080,
	"step": 25
	},
	{
	"epoch": 0.03631961259079903,
	"grad_norm": 1.4796098470687866,
	"learning_rate": 1.7554479418886198e-06,
	"loss": 0.1572,
	"num_input_tokens_seen": 12064,
	"step": 30
	},
	{
	"epoch": 0.0423728813559322,
	"grad_norm": 6.562788963317871,
	"learning_rate": 2.0581113801452785e-06,
	"loss": 0.2741,
	"num_input_tokens_seen": 14144,
	"step": 35
	},
	{
	"epoch": 0.048426150121065374,
	"grad_norm": 2.534764528274536,
	"learning_rate": 2.3607748184019373e-06,
	"loss": 0.3235,
	"num_input_tokens_seen": 16128,
	"step": 40
	},
	{
	"epoch": 0.05447941888619855,
	"grad_norm": 2.070178508758545,
	"learning_rate": 2.6634382566585957e-06,
	"loss": 0.1762,
	"num_input_tokens_seen": 18112,
	"step": 45
	},
	{
	"epoch": 0.06053268765133172,
	"grad_norm": 3.431225061416626,
	"learning_rate": 2.9661016949152545e-06,
	"loss": 0.1964,
	"num_input_tokens_seen": 20288,
	"step": 50
	},
	{
	"epoch": 0.06658595641646489,
	"grad_norm": 2.204240083694458,
	"learning_rate": 3.268765133171913e-06,
	"loss": 0.2061,
	"num_input_tokens_seen": 22368,
	"step": 55
	},
	{
	"epoch": 0.07263922518159806,
	"grad_norm": 2.7140026092529297,
	"learning_rate": 3.5714285714285714e-06,
	"loss": 0.1718,
	"num_input_tokens_seen": 24256,
	"step": 60
	},
	{
	"epoch": 0.07869249394673124,
	"grad_norm": 1.759737491607666,
	"learning_rate": 3.87409200968523e-06,
	"loss": 0.1738,
	"num_input_tokens_seen": 26464,
	"step": 65
	},
	{
	"epoch": 0.0847457627118644,
	"grad_norm": 4.829991340637207,
	"learning_rate": 4.176755447941889e-06,
	"loss": 0.2368,
	"num_input_tokens_seen": 28736,
	"step": 70
	},
	{
	"epoch": 0.09079903147699758,
	"grad_norm": 2.778394937515259,
	"learning_rate": 4.479418886198548e-06,
	"loss": 0.2533,
	"num_input_tokens_seen": 30848,
	"step": 75
	},
	{
	"epoch": 0.09685230024213075,
	"grad_norm": 4.135257244110107,
	"learning_rate": 4.782082324455206e-06,
	"loss": 0.1632,
	"num_input_tokens_seen": 32992,
	"step": 80
	},
	{
	"epoch": 0.10290556900726393,
	"grad_norm": 5.459167957305908,
	"learning_rate": 5.084745762711865e-06,
	"loss": 0.2906,
	"num_input_tokens_seen": 34976,
	"step": 85
	},
	{
	"epoch": 0.1089588377723971,
	"grad_norm": 2.954826831817627,
	"learning_rate": 5.3874092009685235e-06,
	"loss": 0.2841,
	"num_input_tokens_seen": 36896,
	"step": 90
	},
	{
	"epoch": 0.11501210653753027,
	"grad_norm": 1.3170984983444214,
	"learning_rate": 5.6900726392251815e-06,
	"loss": 0.1628,
	"num_input_tokens_seen": 38848,
	"step": 95
	},
	{
	"epoch": 0.12106537530266344,
	"grad_norm": 1.588362455368042,
	"learning_rate": 5.99273607748184e-06,
	"loss": 0.1954,
	"num_input_tokens_seen": 40960,
	"step": 100
	},
	{
	"epoch": 0.1271186440677966,
	"grad_norm": 2.257688522338867,
	"learning_rate": 6.295399515738499e-06,
	"loss": 0.1837,
	"num_input_tokens_seen": 43008,
	"step": 105
	},
	{
	"epoch": 0.13317191283292978,
	"grad_norm": 2.7970499992370605,
	"learning_rate": 6.598062953995157e-06,
	"loss": 0.213,
	"num_input_tokens_seen": 44992,
	"step": 110
	},
	{
	"epoch": 0.13922518159806296,
	"grad_norm": 2.929041862487793,
	"learning_rate": 6.900726392251816e-06,
	"loss": 0.2752,
	"num_input_tokens_seen": 47072,
	"step": 115
	},
	{
	"epoch": 0.14527845036319612,
	"grad_norm": 5.870335578918457,
	"learning_rate": 7.203389830508475e-06,
	"loss": 0.2604,
	"num_input_tokens_seen": 49152,
	"step": 120
	},
	{
	"epoch": 0.1513317191283293,
	"grad_norm": 1.5183007717132568,
	"learning_rate": 7.5060532687651345e-06,
	"loss": 0.2287,
	"num_input_tokens_seen": 51232,
	"step": 125
	},
	{
	"epoch": 0.15738498789346247,
	"grad_norm": 4.100545883178711,
	"learning_rate": 7.808716707021792e-06,
	"loss": 0.2572,
	"num_input_tokens_seen": 53312,
	"step": 130
	},
	{
	"epoch": 0.16343825665859565,
	"grad_norm": 7.2280168533325195,
	"learning_rate": 8.111380145278451e-06,
	"loss": 0.2749,
	"num_input_tokens_seen": 55520,
	"step": 135
	},
	{
	"epoch": 0.1694915254237288,
	"grad_norm": 0.9827978014945984,
	"learning_rate": 8.41404358353511e-06,
	"loss": 0.1523,
	"num_input_tokens_seen": 57440,
	"step": 140
	},
	{
	"epoch": 0.17554479418886199,
	"grad_norm": 1.256384253501892,
	"learning_rate": 8.716707021791767e-06,
	"loss": 0.1786,
	"num_input_tokens_seen": 59584,
	"step": 145
	},
	{
	"epoch": 0.18159806295399517,
	"grad_norm": 2.8723526000976562,
	"learning_rate": 9.019370460048427e-06,
	"loss": 0.199,
	"num_input_tokens_seen": 61760,
	"step": 150
	},
	{
	"epoch": 0.18765133171912832,
	"grad_norm": 1.4389151334762573,
	"learning_rate": 9.322033898305085e-06,
	"loss": 0.161,
	"num_input_tokens_seen": 63744,
	"step": 155
	},
	{
	"epoch": 0.1937046004842615,
	"grad_norm": 5.578898906707764,
	"learning_rate": 9.624697336561745e-06,
	"loss": 0.1934,
	"num_input_tokens_seen": 65856,
	"step": 160
	},
	{
	"epoch": 0.19975786924939468,
	"grad_norm": 3.256887435913086,
	"learning_rate": 9.927360774818403e-06,
	"loss": 0.2321,
	"num_input_tokens_seen": 67840,
	"step": 165
	},
	{
	"epoch": 0.20581113801452786,
	"grad_norm": 6.120675086975098,
	"learning_rate": 1.023002421307506e-05,
	"loss": 0.242,
	"num_input_tokens_seen": 69920,
	"step": 170
	},
	{
	"epoch": 0.211864406779661,
	"grad_norm": 2.3415868282318115,
	"learning_rate": 1.053268765133172e-05,
	"loss": 0.2627,
	"num_input_tokens_seen": 72032,
	"step": 175
	},
	{
	"epoch": 0.2179176755447942,
	"grad_norm": 2.5677762031555176,
	"learning_rate": 1.0835351089588378e-05,
	"loss": 0.1538,
	"num_input_tokens_seen": 74112,
	"step": 180
	},
	{
	"epoch": 0.22397094430992737,
	"grad_norm": 3.503406047821045,
	"learning_rate": 1.1138014527845036e-05,
	"loss": 0.2057,
	"num_input_tokens_seen": 76288,
	"step": 185
	},
	{
	"epoch": 0.23002421307506055,
	"grad_norm": 1.0483795404434204,
	"learning_rate": 1.1440677966101696e-05,
	"loss": 0.1511,
	"num_input_tokens_seen": 78496,
	"step": 190
	},
	{
	"epoch": 0.2360774818401937,
	"grad_norm": 2.0007925033569336,
	"learning_rate": 1.1743341404358354e-05,
	"loss": 0.1411,
	"num_input_tokens_seen": 80416,
	"step": 195
	},
	{
	"epoch": 0.24213075060532688,
	"grad_norm": 1.8174257278442383,
	"learning_rate": 1.2046004842615012e-05,
	"loss": 0.1116,
	"num_input_tokens_seen": 82432,
	"step": 200
	},
	{
	"epoch": 0.24818401937046006,
	"grad_norm": 1.2617318630218506,
	"learning_rate": 1.2348668280871672e-05,
	"loss": 0.1715,
	"num_input_tokens_seen": 84416,
	"step": 205
	},
	{
	"epoch": 0.2542372881355932,
	"grad_norm": 0.981200635433197,
	"learning_rate": 1.2651331719128328e-05,
	"loss": 0.1204,
	"num_input_tokens_seen": 86336,
	"step": 210
	},
	{
	"epoch": 0.2602905569007264,
	"grad_norm": 2.5177159309387207,
	"learning_rate": 1.2953995157384988e-05,
	"loss": 0.2313,
	"num_input_tokens_seen": 88352,
	"step": 215
	},
	{
	"epoch": 0.26634382566585957,
	"grad_norm": 5.912724018096924,
	"learning_rate": 1.3256658595641647e-05,
	"loss": 0.1681,
	"num_input_tokens_seen": 90432,
	"step": 220
	},
	{
	"epoch": 0.27239709443099275,
	"grad_norm": 1.0392547845840454,
	"learning_rate": 1.3559322033898305e-05,
	"loss": 0.1661,
	"num_input_tokens_seen": 92512,
	"step": 225
	},
	{
	"epoch": 0.2784503631961259,
	"grad_norm": 1.2187656164169312,
	"learning_rate": 1.3861985472154965e-05,
	"loss": 0.1194,
	"num_input_tokens_seen": 94528,
	"step": 230
	},
	{
	"epoch": 0.2845036319612591,
	"grad_norm": 2.3299198150634766,
	"learning_rate": 1.4164648910411623e-05,
	"loss": 0.1437,
	"num_input_tokens_seen": 96576,
	"step": 235
	},
	{
	"epoch": 0.29055690072639223,
	"grad_norm": 1.3196054697036743,
	"learning_rate": 1.4467312348668283e-05,
	"loss": 0.2938,
	"num_input_tokens_seen": 98624,
	"step": 240
	},
	{
	"epoch": 0.2966101694915254,
	"grad_norm": 1.6813981533050537,
	"learning_rate": 1.4769975786924939e-05,
	"loss": 0.2396,
	"num_input_tokens_seen": 100832,
	"step": 245
	},
	{
	"epoch": 0.3026634382566586,
	"grad_norm": 6.751827716827393,
	"learning_rate": 1.5072639225181599e-05,
	"loss": 0.3256,
	"num_input_tokens_seen": 102784,
	"step": 250
	},
	{
	"epoch": 0.30871670702179177,
	"grad_norm": 3.1990904808044434,
	"learning_rate": 1.5375302663438258e-05,
	"loss": 0.1266,
	"num_input_tokens_seen": 104800,
	"step": 255
	},
	{
	"epoch": 0.31476997578692495,
	"grad_norm": 7.041596412658691,
	"learning_rate": 1.5677966101694916e-05,
	"loss": 0.2191,
	"num_input_tokens_seen": 106880,
	"step": 260
	},
	{
	"epoch": 0.32082324455205813,
	"grad_norm": 2.598926305770874,
	"learning_rate": 1.5980629539951574e-05,
	"loss": 0.2082,
	"num_input_tokens_seen": 108960,
	"step": 265
	},
	{
	"epoch": 0.3268765133171913,
	"grad_norm": 1.5992330312728882,
	"learning_rate": 1.6283292978208232e-05,
	"loss": 0.1259,
	"num_input_tokens_seen": 110944,
	"step": 270
	},
	{
	"epoch": 0.33292978208232443,
	"grad_norm": 2.167006731033325,
	"learning_rate": 1.6585956416464894e-05,
	"loss": 0.1686,
	"num_input_tokens_seen": 113088,
	"step": 275
	},
	{
	"epoch": 0.3389830508474576,
	"grad_norm": 2.5932061672210693,
	"learning_rate": 1.6888619854721548e-05,
	"loss": 0.184,
	"num_input_tokens_seen": 115072,
	"step": 280
	},
	{
	"epoch": 0.3450363196125908,
	"grad_norm": 2.1988534927368164,
	"learning_rate": 1.719128329297821e-05,
	"loss": 0.1425,
	"num_input_tokens_seen": 117280,
	"step": 285
	},
	{
	"epoch": 0.35108958837772397,
	"grad_norm": 1.3688409328460693,
	"learning_rate": 1.7493946731234868e-05,
	"loss": 0.2165,
	"num_input_tokens_seen": 119456,
	"step": 290
	},
	{
	"epoch": 0.35714285714285715,
	"grad_norm": 2.1994192600250244,
	"learning_rate": 1.7796610169491526e-05,
	"loss": 0.1354,
	"num_input_tokens_seen": 121472,
	"step": 295
	},
	{
	"epoch": 0.36319612590799033,
	"grad_norm": 2.168099880218506,
	"learning_rate": 1.8099273607748184e-05,
	"loss": 0.1149,
	"num_input_tokens_seen": 123648,
	"step": 300
	},
	{
	"epoch": 0.3692493946731235,
	"grad_norm": 1.432853102684021,
	"learning_rate": 1.8401937046004845e-05,
	"loss": 0.2357,
	"num_input_tokens_seen": 125632,
	"step": 305
	},
	{
	"epoch": 0.37530266343825663,
	"grad_norm": 3.39896297454834,
	"learning_rate": 1.8704600484261503e-05,
	"loss": 0.1899,
	"num_input_tokens_seen": 127680,
	"step": 310
	},
	{
	"epoch": 0.3813559322033898,
	"grad_norm": 3.7564778327941895,
	"learning_rate": 1.900726392251816e-05,
	"loss": 0.1355,
	"num_input_tokens_seen": 129856,
	"step": 315
	},
	{
	"epoch": 0.387409200968523,
	"grad_norm": 3.254880905151367,
	"learning_rate": 1.930992736077482e-05,
	"loss": 0.1704,
	"num_input_tokens_seen": 131872,
	"step": 320
	},
	{
	"epoch": 0.3934624697336562,
	"grad_norm": 1.0621639490127563,
	"learning_rate": 1.9612590799031477e-05,
	"loss": 0.262,
	"num_input_tokens_seen": 133984,
	"step": 325
	},
	{
	"epoch": 0.39951573849878935,
	"grad_norm": 4.072643280029297,
	"learning_rate": 1.9915254237288135e-05,
	"loss": 0.155,
	"num_input_tokens_seen": 136128,
	"step": 330
	},
	{
	"epoch": 0.40556900726392253,
	"grad_norm": 1.1124200820922852,
	"learning_rate": 2.0217917675544796e-05,
	"loss": 0.179,
	"num_input_tokens_seen": 138208,
	"step": 335
	},
	{
	"epoch": 0.4116222760290557,
	"grad_norm": 2.559614896774292,
	"learning_rate": 2.0520581113801454e-05,
	"loss": 0.1799,
	"num_input_tokens_seen": 140288,
	"step": 340
	},
	{
	"epoch": 0.41767554479418884,
	"grad_norm": 5.550265789031982,
	"learning_rate": 2.0823244552058112e-05,
	"loss": 0.212,
	"num_input_tokens_seen": 142336,
	"step": 345
	},
	{
	"epoch": 0.423728813559322,
	"grad_norm": 4.045815944671631,
	"learning_rate": 2.1125907990314774e-05,
	"loss": 0.1164,
	"num_input_tokens_seen": 144448,
	"step": 350
	},
	{
	"epoch": 0.4297820823244552,
	"grad_norm": 2.1211326122283936,
	"learning_rate": 2.1428571428571428e-05,
	"loss": 0.2411,
	"num_input_tokens_seen": 146464,
	"step": 355
	},
	{
	"epoch": 0.4358353510895884,
	"grad_norm": 0.916531503200531,
	"learning_rate": 2.1731234866828086e-05,
	"loss": 0.1893,
	"num_input_tokens_seen": 148512,
	"step": 360
	},
	{
	"epoch": 0.44188861985472155,
	"grad_norm": 1.21219003200531,
	"learning_rate": 2.2033898305084748e-05,
	"loss": 0.1485,
	"num_input_tokens_seen": 150496,
	"step": 365
	},
	{
	"epoch": 0.44794188861985473,
	"grad_norm": 1.8068974018096924,
	"learning_rate": 2.2336561743341405e-05,
	"loss": 0.2618,
	"num_input_tokens_seen": 152608,
	"step": 370
	},
	{
	"epoch": 0.4539951573849879,
	"grad_norm": 2.374595880508423,
	"learning_rate": 2.2639225181598063e-05,
	"loss": 0.2532,
	"num_input_tokens_seen": 154624,
	"step": 375
	},
	{
	"epoch": 0.4600484261501211,
	"grad_norm": 0.7082160711288452,
	"learning_rate": 2.2941888619854725e-05,
	"loss": 0.1748,
	"num_input_tokens_seen": 156608,
	"step": 380
	},
	{
	"epoch": 0.4661016949152542,
	"grad_norm": 2.4511871337890625,
	"learning_rate": 2.3244552058111383e-05,
	"loss": 0.2267,
	"num_input_tokens_seen": 158560,
	"step": 385
	},
	{
	"epoch": 0.4721549636803874,
	"grad_norm": 5.554380416870117,
	"learning_rate": 2.3547215496368037e-05,
	"loss": 0.1376,
	"num_input_tokens_seen": 160640,
	"step": 390
	},
	{
	"epoch": 0.4782082324455206,
	"grad_norm": 2.231539011001587,
	"learning_rate": 2.38498789346247e-05,
	"loss": 0.1913,
	"num_input_tokens_seen": 162784,
	"step": 395
	},
	{
	"epoch": 0.48426150121065376,
	"grad_norm": 1.5285236835479736,
	"learning_rate": 2.4152542372881357e-05,
	"loss": 0.1789,
	"num_input_tokens_seen": 164832,
	"step": 400
	},
	{
	"epoch": 0.49031476997578693,
	"grad_norm": 3.0688276290893555,
	"learning_rate": 2.4455205811138015e-05,
	"loss": 0.1788,
	"num_input_tokens_seen": 166880,
	"step": 405
	},
	{
	"epoch": 0.4963680387409201,
	"grad_norm": 1.0780361890792847,
	"learning_rate": 2.4757869249394676e-05,
	"loss": 0.1648,
	"num_input_tokens_seen": 169088,
	"step": 410
	},
	{
	"epoch": 0.5,
	"eval_loss": 0.17582012712955475,
	"eval_runtime": 4.5985,
	"eval_samples_per_second": 79.808,
	"eval_steps_per_second": 20.006,
	"num_input_tokens_seen": 170336,
	"step": 413
	},
	{
	"epoch": 0.5024213075060533,
	"grad_norm": 2.741290330886841,
	"learning_rate": 2.5060532687651334e-05,
	"loss": 0.1725,
	"num_input_tokens_seen": 171232,
	"step": 415
	},
	{
	"epoch": 0.5084745762711864,
	"grad_norm": 1.3940932750701904,
	"learning_rate": 2.536319612590799e-05,
	"loss": 0.2014,
	"num_input_tokens_seen": 173376,
	"step": 420
	},
	{
	"epoch": 0.5145278450363197,
	"grad_norm": 1.2796820402145386,
	"learning_rate": 2.566585956416465e-05,
	"loss": 0.1241,
	"num_input_tokens_seen": 175424,
	"step": 425
	},
	{
	"epoch": 0.5205811138014528,
	"grad_norm": 3.262789487838745,
	"learning_rate": 2.5968523002421308e-05,
	"loss": 0.1782,
	"num_input_tokens_seen": 177664,
	"step": 430
	},
	{
	"epoch": 0.5266343825665859,
	"grad_norm": 3.2393486499786377,
	"learning_rate": 2.627118644067797e-05,
	"loss": 0.2036,
	"num_input_tokens_seen": 179648,
	"step": 435
	},
	{
	"epoch": 0.5326876513317191,
	"grad_norm": 2.748382329940796,
	"learning_rate": 2.6573849878934624e-05,
	"loss": 0.2153,
	"num_input_tokens_seen": 181664,
	"step": 440
	},
	{
	"epoch": 0.5387409200968523,
	"grad_norm": 1.3553707599639893,
	"learning_rate": 2.6876513317191282e-05,
	"loss": 0.2238,
	"num_input_tokens_seen": 183840,
	"step": 445
	},
	{
	"epoch": 0.5447941888619855,
	"grad_norm": 0.9500827789306641,
	"learning_rate": 2.7179176755447943e-05,
	"loss": 0.1729,
	"num_input_tokens_seen": 185696,
	"step": 450
	},
	{
	"epoch": 0.5508474576271186,
	"grad_norm": 1.636928677558899,
	"learning_rate": 2.74818401937046e-05,
	"loss": 0.1541,
	"num_input_tokens_seen": 187712,
	"step": 455
	},
	{
	"epoch": 0.5569007263922519,
	"grad_norm": 1.2328100204467773,
	"learning_rate": 2.7784503631961263e-05,
	"loss": 0.172,
	"num_input_tokens_seen": 189728,
	"step": 460
	},
	{
	"epoch": 0.562953995157385,
	"grad_norm": 1.4917689561843872,
	"learning_rate": 2.8087167070217917e-05,
	"loss": 0.1796,
	"num_input_tokens_seen": 191744,
	"step": 465
	},
	{
	"epoch": 0.5690072639225182,
	"grad_norm": 1.818116307258606,
	"learning_rate": 2.838983050847458e-05,
	"loss": 0.1308,
	"num_input_tokens_seen": 193888,
	"step": 470
	},
	{
	"epoch": 0.5750605326876513,
	"grad_norm": 2.183380126953125,
	"learning_rate": 2.8692493946731237e-05,
	"loss": 0.2065,
	"num_input_tokens_seen": 195904,
	"step": 475
	},
	{
	"epoch": 0.5811138014527845,
	"grad_norm": 2.1599833965301514,
	"learning_rate": 2.899515738498789e-05,
	"loss": 0.2173,
	"num_input_tokens_seen": 197952,
	"step": 480
	},
	{
	"epoch": 0.5871670702179177,
	"grad_norm": 3.2142691612243652,
	"learning_rate": 2.9297820823244553e-05,
	"loss": 0.1674,
	"num_input_tokens_seen": 199968,
	"step": 485
	},
	{
	"epoch": 0.5932203389830508,
	"grad_norm": 9.413737297058105,
	"learning_rate": 2.960048426150121e-05,
	"loss": 0.2289,
	"num_input_tokens_seen": 201984,
	"step": 490
	},
	{
	"epoch": 0.5992736077481841,
	"grad_norm": 2.025810956954956,
	"learning_rate": 2.9903147699757872e-05,
	"loss": 0.1412,
	"num_input_tokens_seen": 204000,
	"step": 495
	},
	{
	"epoch": 0.6053268765133172,
	"grad_norm": 3.99399471282959,
	"learning_rate": 3.0205811138014527e-05,
	"loss": 0.168,
	"num_input_tokens_seen": 206080,
	"step": 500
	},
	{
	"epoch": 0.6113801452784504,
	"grad_norm": 3.777092933654785,
	"learning_rate": 3.050847457627119e-05,
	"loss": 0.1914,
	"num_input_tokens_seen": 208000,
	"step": 505
	},
	{
	"epoch": 0.6174334140435835,
	"grad_norm": 1.1595715284347534,
	"learning_rate": 3.0811138014527846e-05,
	"loss": 0.1263,
	"num_input_tokens_seen": 210208,
	"step": 510
	},
	{
	"epoch": 0.6234866828087167,
	"grad_norm": 2.891212224960327,
	"learning_rate": 3.111380145278451e-05,
	"loss": 0.1541,
	"num_input_tokens_seen": 212288,
	"step": 515
	},
	{
	"epoch": 0.6295399515738499,
	"grad_norm": 2.809659957885742,
	"learning_rate": 3.141646489104116e-05,
	"loss": 0.1527,
	"num_input_tokens_seen": 214400,
	"step": 520
	},
	{
	"epoch": 0.635593220338983,
	"grad_norm": 2.3840301036834717,
	"learning_rate": 3.1719128329297823e-05,
	"loss": 0.1366,
	"num_input_tokens_seen": 216512,
	"step": 525
	},
	{
	"epoch": 0.6416464891041163,
	"grad_norm": 1.3832828998565674,
	"learning_rate": 3.2021791767554485e-05,
	"loss": 0.1665,
	"num_input_tokens_seen": 218496,
	"step": 530
	},
	{
	"epoch": 0.6476997578692494,
	"grad_norm": 2.0845787525177,
	"learning_rate": 3.232445520581114e-05,
	"loss": 0.1143,
	"num_input_tokens_seen": 220512,
	"step": 535
	},
	{
	"epoch": 0.6537530266343826,
	"grad_norm": 1.3605108261108398,
	"learning_rate": 3.26271186440678e-05,
	"loss": 0.1541,
	"num_input_tokens_seen": 222560,
	"step": 540
	},
	{
	"epoch": 0.6598062953995157,
	"grad_norm": 2.2927634716033936,
	"learning_rate": 3.2929782082324455e-05,
	"loss": 0.1235,
	"num_input_tokens_seen": 224480,
	"step": 545
	},
	{
	"epoch": 0.6658595641646489,
	"grad_norm": 7.201409339904785,
	"learning_rate": 3.323244552058112e-05,
	"loss": 0.2002,
	"num_input_tokens_seen": 226560,
	"step": 550
	},
	{
	"epoch": 0.6719128329297821,
	"grad_norm": 2.5615785121917725,
	"learning_rate": 3.353510895883777e-05,
	"loss": 0.1185,
	"num_input_tokens_seen": 228512,
	"step": 555
	},
	{
	"epoch": 0.6779661016949152,
	"grad_norm": 5.765679359436035,
	"learning_rate": 3.383777239709443e-05,
	"loss": 0.1894,
	"num_input_tokens_seen": 230528,
	"step": 560
	},
	{
	"epoch": 0.6840193704600485,
	"grad_norm": 1.7863295078277588,
	"learning_rate": 3.4140435835351094e-05,
	"loss": 0.1473,
	"num_input_tokens_seen": 232768,
	"step": 565
	},
	{
	"epoch": 0.6900726392251816,
	"grad_norm": 3.400667428970337,
	"learning_rate": 3.444309927360775e-05,
	"loss": 0.1475,
	"num_input_tokens_seen": 234784,
	"step": 570
	},
	{
	"epoch": 0.6961259079903148,
	"grad_norm": 3.5374653339385986,
	"learning_rate": 3.474576271186441e-05,
	"loss": 0.3046,
	"num_input_tokens_seen": 236832,
	"step": 575
	},
	{
	"epoch": 0.7021791767554479,
	"grad_norm": 2.3441779613494873,
	"learning_rate": 3.5048426150121065e-05,
	"loss": 0.1825,
	"num_input_tokens_seen": 238784,
	"step": 580
	},
	{
	"epoch": 0.7082324455205811,
	"grad_norm": 3.510235071182251,
	"learning_rate": 3.5351089588377726e-05,
	"loss": 0.236,
	"num_input_tokens_seen": 240768,
	"step": 585
	},
	{
	"epoch": 0.7142857142857143,
	"grad_norm": 3.022887706756592,
	"learning_rate": 3.565375302663439e-05,
	"loss": 0.205,
	"num_input_tokens_seen": 242848,
	"step": 590
	},
	{
	"epoch": 0.7203389830508474,
	"grad_norm": 5.518234729766846,
	"learning_rate": 3.595641646489104e-05,
	"loss": 0.1348,
	"num_input_tokens_seen": 244992,
	"step": 595
	},
	{
	"epoch": 0.7263922518159807,
	"grad_norm": 4.24160623550415,
	"learning_rate": 3.62590799031477e-05,
	"loss": 0.1509,
	"num_input_tokens_seen": 247040,
	"step": 600
	},
	{
	"epoch": 0.7324455205811138,
	"grad_norm": 4.148669242858887,
	"learning_rate": 3.656174334140436e-05,
	"loss": 0.2164,
	"num_input_tokens_seen": 249184,
	"step": 605
	},
	{
	"epoch": 0.738498789346247,
	"grad_norm": 3.636296033859253,
	"learning_rate": 3.686440677966102e-05,
	"loss": 0.1869,
	"num_input_tokens_seen": 251104,
	"step": 610
	},
	{
	"epoch": 0.7445520581113801,
	"grad_norm": 4.738290786743164,
	"learning_rate": 3.7167070217917674e-05,
	"loss": 0.2009,
	"num_input_tokens_seen": 253056,
	"step": 615
	},
	{
	"epoch": 0.7506053268765133,
	"grad_norm": 1.276099443435669,
	"learning_rate": 3.7469733656174335e-05,
	"loss": 0.1407,
	"num_input_tokens_seen": 255008,
	"step": 620
	},
	{
	"epoch": 0.7566585956416465,
	"grad_norm": 6.177402973175049,
	"learning_rate": 3.7772397094431e-05,
	"loss": 0.1873,
	"num_input_tokens_seen": 257120,
	"step": 625
	},
	{
	"epoch": 0.7627118644067796,
	"grad_norm": 1.6612720489501953,
	"learning_rate": 3.807506053268765e-05,
	"loss": 0.1251,
	"num_input_tokens_seen": 259168,
	"step": 630
	},
	{
	"epoch": 0.7687651331719129,
	"grad_norm": 4.596778392791748,
	"learning_rate": 3.837772397094431e-05,
	"loss": 0.1175,
	"num_input_tokens_seen": 261216,
	"step": 635
	},
	{
	"epoch": 0.774818401937046,
	"grad_norm": 5.147200584411621,
	"learning_rate": 3.868038740920097e-05,
	"loss": 0.1912,
	"num_input_tokens_seen": 263136,
	"step": 640
	},
	{
	"epoch": 0.7808716707021792,
	"grad_norm": 3.2150142192840576,
	"learning_rate": 3.898305084745763e-05,
	"loss": 0.2389,
	"num_input_tokens_seen": 265184,
	"step": 645
	},
	{
	"epoch": 0.7869249394673123,
	"grad_norm": 1.7957394123077393,
	"learning_rate": 3.928571428571429e-05,
	"loss": 0.156,
	"num_input_tokens_seen": 267264,
	"step": 650
	},
	{
	"epoch": 0.7929782082324455,
	"grad_norm": 1.8125636577606201,
	"learning_rate": 3.958837772397095e-05,
	"loss": 0.3316,
	"num_input_tokens_seen": 269216,
	"step": 655
	},
	{
	"epoch": 0.7990314769975787,
	"grad_norm": 1.157749056816101,
	"learning_rate": 3.9891041162227606e-05,
	"loss": 0.1813,
	"num_input_tokens_seen": 271264,
	"step": 660
	},
	{
	"epoch": 0.8050847457627118,
	"grad_norm": 1.4555474519729614,
	"learning_rate": 4.019370460048426e-05,
	"loss": 0.1342,
	"num_input_tokens_seen": 273280,
	"step": 665
	},
	{
	"epoch": 0.8111380145278451,
	"grad_norm": 1.5828756093978882,
	"learning_rate": 4.049636803874092e-05,
	"loss": 0.1223,
	"num_input_tokens_seen": 275392,
	"step": 670
	},
	{
	"epoch": 0.8171912832929782,
	"grad_norm": 3.629384994506836,
	"learning_rate": 4.0799031476997577e-05,
	"loss": 0.1947,
	"num_input_tokens_seen": 277440,
	"step": 675
	},
	{
	"epoch": 0.8232445520581114,
	"grad_norm": 2.305537223815918,
	"learning_rate": 4.110169491525424e-05,
	"loss": 0.2098,
	"num_input_tokens_seen": 279456,
	"step": 680
	},
	{
	"epoch": 0.8292978208232445,
	"grad_norm": 1.5820642709732056,
	"learning_rate": 4.14043583535109e-05,
	"loss": 0.1602,
	"num_input_tokens_seen": 281632,
	"step": 685
	},
	{
	"epoch": 0.8353510895883777,
	"grad_norm": 3.7225077152252197,
	"learning_rate": 4.170702179176756e-05,
	"loss": 0.2414,
	"num_input_tokens_seen": 283680,
	"step": 690
	},
	{
	"epoch": 0.8414043583535109,
	"grad_norm": 2.8825156688690186,
	"learning_rate": 4.2009685230024215e-05,
	"loss": 0.1334,
	"num_input_tokens_seen": 285760,
	"step": 695
	},
	{
	"epoch": 0.847457627118644,
	"grad_norm": 6.222320556640625,
	"learning_rate": 4.231234866828087e-05,
	"loss": 0.1221,
	"num_input_tokens_seen": 287904,
	"step": 700
	},
	{
	"epoch": 0.8535108958837773,
	"grad_norm": 1.3990041017532349,
	"learning_rate": 4.261501210653753e-05,
	"loss": 0.1937,
	"num_input_tokens_seen": 289952,
	"step": 705
	},
	{
	"epoch": 0.8595641646489104,
	"grad_norm": 3.03328800201416,
	"learning_rate": 4.2917675544794186e-05,
	"loss": 0.129,
	"num_input_tokens_seen": 291968,
	"step": 710
	},
	{
	"epoch": 0.8656174334140436,
	"grad_norm": 2.7313449382781982,
	"learning_rate": 4.3220338983050854e-05,
	"loss": 0.2106,
	"num_input_tokens_seen": 293952,
	"step": 715
	},
	{
	"epoch": 0.8716707021791767,
	"grad_norm": 9.207576751708984,
	"learning_rate": 4.352300242130751e-05,
	"loss": 0.2177,
	"num_input_tokens_seen": 296192,
	"step": 720
	},
	{
	"epoch": 0.8777239709443099,
	"grad_norm": 2.5809319019317627,
	"learning_rate": 4.382566585956417e-05,
	"loss": 0.1338,
	"num_input_tokens_seen": 298336,
	"step": 725
	},
	{
	"epoch": 0.8837772397094431,
	"grad_norm": 1.9844462871551514,
	"learning_rate": 4.4128329297820825e-05,
	"loss": 0.1614,
	"num_input_tokens_seen": 300352,
	"step": 730
	},
	{
	"epoch": 0.8898305084745762,
	"grad_norm": 3.2159414291381836,
	"learning_rate": 4.443099273607748e-05,
	"loss": 0.1122,
	"num_input_tokens_seen": 302432,
	"step": 735
	},
	{
	"epoch": 0.8958837772397095,
	"grad_norm": 9.370662689208984,
	"learning_rate": 4.473365617433414e-05,
	"loss": 0.1848,
	"num_input_tokens_seen": 304544,
	"step": 740
	},
	{
	"epoch": 0.9019370460048426,
	"grad_norm": 0.8076304197311401,
	"learning_rate": 4.50363196125908e-05,
	"loss": 0.1298,
	"num_input_tokens_seen": 306592,
	"step": 745
	},
	{
	"epoch": 0.9079903147699758,
	"grad_norm": 4.535274982452393,
	"learning_rate": 4.533898305084746e-05,
	"loss": 0.16,
	"num_input_tokens_seen": 308672,
	"step": 750
	},
	{
	"epoch": 0.914043583535109,
	"grad_norm": 0.7559286952018738,
	"learning_rate": 4.564164648910412e-05,
	"loss": 0.0545,
	"num_input_tokens_seen": 310656,
	"step": 755
	},
	{
	"epoch": 0.9200968523002422,
	"grad_norm": 2.4823074340820312,
	"learning_rate": 4.594430992736078e-05,
	"loss": 0.2359,
	"num_input_tokens_seen": 312768,
	"step": 760
	},
	{
	"epoch": 0.9261501210653753,
	"grad_norm": 0.8833109736442566,
	"learning_rate": 4.6246973365617434e-05,
	"loss": 0.0402,
	"num_input_tokens_seen": 314880,
	"step": 765
	},
	{
	"epoch": 0.9322033898305084,
	"grad_norm": 2.477018117904663,
	"learning_rate": 4.654963680387409e-05,
	"loss": 0.0613,
	"num_input_tokens_seen": 316960,
	"step": 770
	},
	{
	"epoch": 0.9382566585956417,
	"grad_norm": 5.7945685386657715,
	"learning_rate": 4.685230024213076e-05,
	"loss": 0.1336,
	"num_input_tokens_seen": 319072,
	"step": 775
	},
	{
	"epoch": 0.9443099273607748,
	"grad_norm": 1.619981050491333,
	"learning_rate": 4.715496368038741e-05,
	"loss": 0.1738,
	"num_input_tokens_seen": 321248,
	"step": 780
	},
	{
	"epoch": 0.950363196125908,
	"grad_norm": 1.6304205656051636,
	"learning_rate": 4.745762711864407e-05,
	"loss": 0.2943,
	"num_input_tokens_seen": 323168,
	"step": 785
	},
	{
	"epoch": 0.9564164648910412,
	"grad_norm": 1.6372556686401367,
	"learning_rate": 4.776029055690073e-05,
	"loss": 0.1316,
	"num_input_tokens_seen": 325280,
	"step": 790
	},
	{
	"epoch": 0.9624697336561744,
	"grad_norm": 2.625636339187622,
	"learning_rate": 4.806295399515739e-05,
	"loss": 0.1265,
	"num_input_tokens_seen": 327264,
	"step": 795
	},
	{
	"epoch": 0.9685230024213075,
	"grad_norm": 2.179762363433838,
	"learning_rate": 4.836561743341404e-05,
	"loss": 0.1583,
	"num_input_tokens_seen": 329312,
	"step": 800
	},
	{
	"epoch": 0.9745762711864406,
	"grad_norm": 0.8714865446090698,
	"learning_rate": 4.8668280871670705e-05,
	"loss": 0.1965,
	"num_input_tokens_seen": 331296,
	"step": 805
	},
	{
	"epoch": 0.9806295399515739,
	"grad_norm": 0.9597650766372681,
	"learning_rate": 4.8970944309927366e-05,
	"loss": 0.0882,
	"num_input_tokens_seen": 333280,
	"step": 810
	},
	{
	"epoch": 0.986682808716707,
	"grad_norm": 1.2910470962524414,
	"learning_rate": 4.927360774818402e-05,
	"loss": 0.1259,
	"num_input_tokens_seen": 335392,
	"step": 815
	},
	{
	"epoch": 0.9927360774818402,
	"grad_norm": 1.1439247131347656,
	"learning_rate": 4.957627118644068e-05,
	"loss": 0.2821,
	"num_input_tokens_seen": 337504,
	"step": 820
	},
	{
	"epoch": 0.9987893462469734,
	"grad_norm": 1.6988706588745117,
	"learning_rate": 4.9878934624697336e-05,
	"loss": 0.1132,
	"num_input_tokens_seen": 339488,
	"step": 825
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.17887082695960999,
	"eval_runtime": 4.5703,
	"eval_samples_per_second": 80.302,
	"eval_steps_per_second": 20.13,
	"num_input_tokens_seen": 339568,
	"step": 826
	},
	{
	"epoch": 1.0048426150121066,
	"grad_norm": 0.8017047643661499,
	"learning_rate": 4.99999799087436e-05,
	"loss": 0.1615,
	"num_input_tokens_seen": 341168,
	"step": 830
	},
	{
	"epoch": 1.0108958837772397,
	"grad_norm": 0.8913490772247314,
	"learning_rate": 4.999985712896029e-05,
	"loss": 0.072,
	"num_input_tokens_seen": 343216,
	"step": 835
	},
	{
	"epoch": 1.0169491525423728,
	"grad_norm": 4.105673313140869,
	"learning_rate": 4.9999622731750315e-05,
	"loss": 0.1312,
	"num_input_tokens_seen": 345200,
	"step": 840
	},
	{
	"epoch": 1.023002421307506,
	"grad_norm": 0.4698481559753418,
	"learning_rate": 4.999927671816018e-05,
	"loss": 0.0782,
	"num_input_tokens_seen": 347408,
	"step": 845
	},
	{
	"epoch": 1.0290556900726393,
	"grad_norm": 4.901593208312988,
	"learning_rate": 4.999881908973474e-05,
	"loss": 0.219,
	"num_input_tokens_seen": 349488,
	"step": 850
	},
	{
	"epoch": 1.0351089588377724,
	"grad_norm": 3.6952834129333496,
	"learning_rate": 4.9998249848517185e-05,
	"loss": 0.3065,
	"num_input_tokens_seen": 351536,
	"step": 855
	},
	{
	"epoch": 1.0411622276029056,
	"grad_norm": 2.738077402114868,
	"learning_rate": 4.999756899704902e-05,
	"loss": 0.2376,
	"num_input_tokens_seen": 353488,
	"step": 860
	},
	{
	"epoch": 1.0472154963680387,
	"grad_norm": 3.399280071258545,
	"learning_rate": 4.999677653837004e-05,
	"loss": 0.0926,
	"num_input_tokens_seen": 355504,
	"step": 865
	},
	{
	"epoch": 1.053268765133172,
	"grad_norm": 9.515294075012207,
	"learning_rate": 4.999587247601837e-05,
	"loss": 0.2354,
	"num_input_tokens_seen": 357456,
	"step": 870
	},
	{
	"epoch": 1.0593220338983051,
	"grad_norm": 2.640784502029419,
	"learning_rate": 4.99948568140304e-05,
	"loss": 0.201,
	"num_input_tokens_seen": 359568,
	"step": 875
	},
	{
	"epoch": 1.0653753026634383,
	"grad_norm": 1.2339344024658203,
	"learning_rate": 4.999372955694077e-05,
	"loss": 0.2238,
	"num_input_tokens_seen": 361616,
	"step": 880
	},
	{
	"epoch": 1.0714285714285714,
	"grad_norm": 2.403195381164551,
	"learning_rate": 4.999249070978237e-05,
	"loss": 0.1327,
	"num_input_tokens_seen": 363696,
	"step": 885
	},
	{
	"epoch": 1.0774818401937045,
	"grad_norm": 2.847059965133667,
	"learning_rate": 4.9991140278086316e-05,
	"loss": 0.1774,
	"num_input_tokens_seen": 365712,
	"step": 890
	},
	{
	"epoch": 1.0835351089588379,
	"grad_norm": 0.30369001626968384,
	"learning_rate": 4.998967826788191e-05,
	"loss": 0.0374,
	"num_input_tokens_seen": 367824,
	"step": 895
	},
	{
	"epoch": 1.089588377723971,
	"grad_norm": 2.6305861473083496,
	"learning_rate": 4.998810468569661e-05,
	"loss": 0.1665,
	"num_input_tokens_seen": 369840,
	"step": 900
	},
	{
	"epoch": 1.0956416464891041,
	"grad_norm": 0.4452836513519287,
	"learning_rate": 4.998641953855604e-05,
	"loss": 0.1515,
	"num_input_tokens_seen": 371952,
	"step": 905
	},
	{
	"epoch": 1.1016949152542372,
	"grad_norm": 1.6030263900756836,
	"learning_rate": 4.9984622833983906e-05,
	"loss": 0.136,
	"num_input_tokens_seen": 374032,
	"step": 910
	},
	{
	"epoch": 1.1077481840193704,
	"grad_norm": 3.4988062381744385,
	"learning_rate": 4.9982714580002e-05,
	"loss": 0.1357,
	"num_input_tokens_seen": 376176,
	"step": 915
	},
	{
	"epoch": 1.1138014527845037,
	"grad_norm": 3.163297653198242,
	"learning_rate": 4.998069478513013e-05,
	"loss": 0.1427,
	"num_input_tokens_seen": 378224,
	"step": 920
	},
	{
	"epoch": 1.1198547215496368,
	"grad_norm": 1.0224205255508423,
	"learning_rate": 4.997856345838615e-05,
	"loss": 0.1399,
	"num_input_tokens_seen": 380304,
	"step": 925
	},
	{
	"epoch": 1.12590799031477,
	"grad_norm": 1.4912834167480469,
	"learning_rate": 4.997632060928582e-05,
	"loss": 0.0602,
	"num_input_tokens_seen": 382416,
	"step": 930
	},
	{
	"epoch": 1.131961259079903,
	"grad_norm": 1.3977404832839966,
	"learning_rate": 4.997396624784284e-05,
	"loss": 0.1835,
	"num_input_tokens_seen": 384592,
	"step": 935
	},
	{
	"epoch": 1.1380145278450362,
	"grad_norm": 0.7628365755081177,
	"learning_rate": 4.9971500384568795e-05,
	"loss": 0.1278,
	"num_input_tokens_seen": 386640,
	"step": 940
	},
	{
	"epoch": 1.1440677966101696,
	"grad_norm": 1.2870368957519531,
	"learning_rate": 4.996892303047306e-05,
	"loss": 0.13,
	"num_input_tokens_seen": 388752,
	"step": 945
	},
	{
	"epoch": 1.1501210653753027,
	"grad_norm": 12.154106140136719,
	"learning_rate": 4.996623419706282e-05,
	"loss": 0.225,
	"num_input_tokens_seen": 390928,
	"step": 950
	},
	{
	"epoch": 1.1561743341404358,
	"grad_norm": 0.07500404119491577,
	"learning_rate": 4.996343389634298e-05,
	"loss": 0.0603,
	"num_input_tokens_seen": 393104,
	"step": 955
	},
	{
	"epoch": 1.162227602905569,
	"grad_norm": 2.0933313369750977,
	"learning_rate": 4.996052214081608e-05,
	"loss": 0.1878,
	"num_input_tokens_seen": 395184,
	"step": 960
	},
	{
	"epoch": 1.1682808716707023,
	"grad_norm": 7.35886812210083,
	"learning_rate": 4.995749894348232e-05,
	"loss": 0.1715,
	"num_input_tokens_seen": 397264,
	"step": 965
	},
	{
	"epoch": 1.1743341404358354,
	"grad_norm": 4.131441593170166,
	"learning_rate": 4.995436431783942e-05,
	"loss": 0.1233,
	"num_input_tokens_seen": 399376,
	"step": 970
	},
	{
	"epoch": 1.1803874092009685,
	"grad_norm": 2.0855846405029297,
	"learning_rate": 4.9951118277882636e-05,
	"loss": 0.1681,
	"num_input_tokens_seen": 401296,
	"step": 975
	},
	{
	"epoch": 1.1864406779661016,
	"grad_norm": 4.022651672363281,
	"learning_rate": 4.994776083810463e-05,
	"loss": 0.1455,
	"num_input_tokens_seen": 403344,
	"step": 980
	},
	{
	"epoch": 1.192493946731235,
	"grad_norm": 2.833282709121704,
	"learning_rate": 4.994429201349542e-05,
	"loss": 0.1993,
	"num_input_tokens_seen": 405328,
	"step": 985
	},
	{
	"epoch": 1.1985472154963681,
	"grad_norm": 3.453665256500244,
	"learning_rate": 4.994071181954237e-05,
	"loss": 0.1205,
	"num_input_tokens_seen": 407344,
	"step": 990
	},
	{
	"epoch": 1.2046004842615012,
	"grad_norm": 4.6256422996521,
	"learning_rate": 4.993702027223004e-05,
	"loss": 0.142,
	"num_input_tokens_seen": 409296,
	"step": 995
	},
	{
	"epoch": 1.2106537530266344,
	"grad_norm": 2.930302381515503,
	"learning_rate": 4.9933217388040164e-05,
	"loss": 0.2749,
	"num_input_tokens_seen": 411536,
	"step": 1000
	},
	{
	"epoch": 1.2167070217917675,
	"grad_norm": 7.9702043533325195,
	"learning_rate": 4.992930318395157e-05,
	"loss": 0.0887,
	"num_input_tokens_seen": 413712,
	"step": 1005
	},
	{
	"epoch": 1.2227602905569008,
	"grad_norm": 8.404480934143066,
	"learning_rate": 4.99252776774401e-05,
	"loss": 0.1615,
	"num_input_tokens_seen": 415856,
	"step": 1010
	},
	{
	"epoch": 1.228813559322034,
	"grad_norm": 3.982208728790283,
	"learning_rate": 4.99211408864785e-05,
	"loss": 0.2316,
	"num_input_tokens_seen": 417808,
	"step": 1015
	},
	{
	"epoch": 1.234866828087167,
	"grad_norm": 0.8618561625480652,
	"learning_rate": 4.991689282953642e-05,
	"loss": 0.0428,
	"num_input_tokens_seen": 419760,
	"step": 1020
	},
	{
	"epoch": 1.2409200968523002,
	"grad_norm": 3.26019287109375,
	"learning_rate": 4.991253352558025e-05,
	"loss": 0.3529,
	"num_input_tokens_seen": 421840,
	"step": 1025
	},
	{
	"epoch": 1.2469733656174333,
	"grad_norm": 7.507120609283447,
	"learning_rate": 4.9908062994073056e-05,
	"loss": 0.2839,
	"num_input_tokens_seen": 424112,
	"step": 1030
	},
	{
	"epoch": 1.2530266343825667,
	"grad_norm": 2.8803584575653076,
	"learning_rate": 4.990348125497454e-05,
	"loss": 0.1223,
	"num_input_tokens_seen": 426128,
	"step": 1035
	},
	{
	"epoch": 1.2590799031476998,
	"grad_norm": 0.847564697265625,
	"learning_rate": 4.9898788328740884e-05,
	"loss": 0.118,
	"num_input_tokens_seen": 428272,
	"step": 1040
	},
	{
	"epoch": 1.265133171912833,
	"grad_norm": 0.8926573395729065,
	"learning_rate": 4.989398423632471e-05,
	"loss": 0.2175,
	"num_input_tokens_seen": 430320,
	"step": 1045
	},
	{
	"epoch": 1.271186440677966,
	"grad_norm": 1.0349339246749878,
	"learning_rate": 4.988906899917496e-05,
	"loss": 0.1073,
	"num_input_tokens_seen": 432272,
	"step": 1050
	},
	{
	"epoch": 1.2772397094430992,
	"grad_norm": 1.2034751176834106,
	"learning_rate": 4.988404263923679e-05,
	"loss": 0.0985,
	"num_input_tokens_seen": 434384,
	"step": 1055
	},
	{
	"epoch": 1.2832929782082325,
	"grad_norm": 3.1568541526794434,
	"learning_rate": 4.987890517895152e-05,
	"loss": 0.1696,
	"num_input_tokens_seen": 436336,
	"step": 1060
	},
	{
	"epoch": 1.2893462469733656,
	"grad_norm": 4.365025520324707,
	"learning_rate": 4.987365664125647e-05,
	"loss": 0.1524,
	"num_input_tokens_seen": 438352,
	"step": 1065
	},
	{
	"epoch": 1.2953995157384988,
	"grad_norm": 1.4751983880996704,
	"learning_rate": 4.986829704958491e-05,
	"loss": 0.1576,
	"num_input_tokens_seen": 440336,
	"step": 1070
	},
	{
	"epoch": 1.3014527845036319,
	"grad_norm": 2.4118525981903076,
	"learning_rate": 4.986282642786594e-05,
	"loss": 0.1163,
	"num_input_tokens_seen": 442352,
	"step": 1075
	},
	{
	"epoch": 1.307506053268765,
	"grad_norm": 0.789813756942749,
	"learning_rate": 4.985724480052435e-05,
	"loss": 0.0842,
	"num_input_tokens_seen": 444496,
	"step": 1080
	},
	{
	"epoch": 1.3135593220338984,
	"grad_norm": 1.4542982578277588,
	"learning_rate": 4.985155219248057e-05,
	"loss": 0.105,
	"num_input_tokens_seen": 446576,
	"step": 1085
	},
	{
	"epoch": 1.3196125907990315,
	"grad_norm": 6.07450532913208,
	"learning_rate": 4.9845748629150514e-05,
	"loss": 0.1469,
	"num_input_tokens_seen": 448656,
	"step": 1090
	},
	{
	"epoch": 1.3256658595641646,
	"grad_norm": 1.8046495914459229,
	"learning_rate": 4.9839834136445485e-05,
	"loss": 0.1416,
	"num_input_tokens_seen": 450672,
	"step": 1095
	},
	{
	"epoch": 1.331719128329298,
	"grad_norm": 1.6317821741104126,
	"learning_rate": 4.983380874077204e-05,
	"loss": 0.1155,
	"num_input_tokens_seen": 452784,
	"step": 1100
	},
	{
	"epoch": 1.3377723970944309,
	"grad_norm": 0.9619260430335999,
	"learning_rate": 4.982767246903192e-05,
	"loss": 0.1092,
	"num_input_tokens_seen": 454864,
	"step": 1105
	},
	{
	"epoch": 1.3438256658595642,
	"grad_norm": 4.070939540863037,
	"learning_rate": 4.982142534862185e-05,
	"loss": 0.2142,
	"num_input_tokens_seen": 457072,
	"step": 1110
	},
	{
	"epoch": 1.3498789346246973,
	"grad_norm": 10.078119277954102,
	"learning_rate": 4.981506740743351e-05,
	"loss": 0.1481,
	"num_input_tokens_seen": 459184,
	"step": 1115
	},
	{
	"epoch": 1.3559322033898304,
	"grad_norm": 5.898523330688477,
	"learning_rate": 4.980859867385334e-05,
	"loss": 0.1137,
	"num_input_tokens_seen": 461136,
	"step": 1120
	},
	{
	"epoch": 1.3619854721549638,
	"grad_norm": 5.684123516082764,
	"learning_rate": 4.9802019176762434e-05,
	"loss": 0.1881,
	"num_input_tokens_seen": 463152,
	"step": 1125
	},
	{
	"epoch": 1.368038740920097,
	"grad_norm": 2.8209903240203857,
	"learning_rate": 4.9795328945536425e-05,
	"loss": 0.1448,
	"num_input_tokens_seen": 465232,
	"step": 1130
	},
	{
	"epoch": 1.37409200968523,
	"grad_norm": 1.7147382497787476,
	"learning_rate": 4.978852801004534e-05,
	"loss": 0.1441,
	"num_input_tokens_seen": 467248,
	"step": 1135
	},
	{
	"epoch": 1.3801452784503632,
	"grad_norm": 3.1413381099700928,
	"learning_rate": 4.9781616400653464e-05,
	"loss": 0.1192,
	"num_input_tokens_seen": 469424,
	"step": 1140
	},
	{
	"epoch": 1.3861985472154963,
	"grad_norm": 6.792686462402344,
	"learning_rate": 4.9774594148219225e-05,
	"loss": 0.2559,
	"num_input_tokens_seen": 471344,
	"step": 1145
	},
	{
	"epoch": 1.3922518159806296,
	"grad_norm": 1.0777902603149414,
	"learning_rate": 4.976746128409502e-05,
	"loss": 0.1163,
	"num_input_tokens_seen": 473296,
	"step": 1150
	},
	{
	"epoch": 1.3983050847457628,
	"grad_norm": 5.556042194366455,
	"learning_rate": 4.9760217840127126e-05,
	"loss": 0.1898,
	"num_input_tokens_seen": 475312,
	"step": 1155
	},
	{
	"epoch": 1.4043583535108959,
	"grad_norm": 5.81771993637085,
	"learning_rate": 4.97528638486555e-05,
	"loss": 0.154,
	"num_input_tokens_seen": 477360,
	"step": 1160
	},
	{
	"epoch": 1.410411622276029,
	"grad_norm": 0.9776678681373596,
	"learning_rate": 4.9745399342513666e-05,
	"loss": 0.1191,
	"num_input_tokens_seen": 479376,
	"step": 1165
	},
	{
	"epoch": 1.4164648910411621,
	"grad_norm": 2.5209102630615234,
	"learning_rate": 4.9737824355028584e-05,
	"loss": 0.1837,
	"num_input_tokens_seen": 481456,
	"step": 1170
	},
	{
	"epoch": 1.4225181598062955,
	"grad_norm": 0.49560511112213135,
	"learning_rate": 4.973013892002047e-05,
	"loss": 0.1288,
	"num_input_tokens_seen": 483632,
	"step": 1175
	},
	{
	"epoch": 1.4285714285714286,
	"grad_norm": 7.962185859680176,
	"learning_rate": 4.9722343071802665e-05,
	"loss": 0.1998,
	"num_input_tokens_seen": 485680,
	"step": 1180
	},
	{
	"epoch": 1.4346246973365617,
	"grad_norm": 2.495086908340454,
	"learning_rate": 4.971443684518145e-05,
	"loss": 0.1084,
	"num_input_tokens_seen": 487792,
	"step": 1185
	},
	{
	"epoch": 1.4406779661016949,
	"grad_norm": 3.3710200786590576,
	"learning_rate": 4.970642027545596e-05,
	"loss": 0.2048,
	"num_input_tokens_seen": 489840,
	"step": 1190
	},
	{
	"epoch": 1.446731234866828,
	"grad_norm": 1.2718791961669922,
	"learning_rate": 4.969829339841793e-05,
	"loss": 0.0573,
	"num_input_tokens_seen": 491824,
	"step": 1195
	},
	{
	"epoch": 1.4527845036319613,
	"grad_norm": 3.988370180130005,
	"learning_rate": 4.9690056250351626e-05,
	"loss": 0.1191,
	"num_input_tokens_seen": 493872,
	"step": 1200
	},
	{
	"epoch": 1.4588377723970944,
	"grad_norm": 2.300257921218872,
	"learning_rate": 4.9681708868033616e-05,
	"loss": 0.1173,
	"num_input_tokens_seen": 495952,
	"step": 1205
	},
	{
	"epoch": 1.4648910411622276,
	"grad_norm": 1.824439287185669,
	"learning_rate": 4.967325128873266e-05,
	"loss": 0.25,
	"num_input_tokens_seen": 497936,
	"step": 1210
	},
	{
	"epoch": 1.4709443099273607,
	"grad_norm": 0.630806565284729,
	"learning_rate": 4.96646835502095e-05,
	"loss": 0.1407,
	"num_input_tokens_seen": 499856,
	"step": 1215
	},
	{
	"epoch": 1.4769975786924938,
	"grad_norm": 2.253023147583008,
	"learning_rate": 4.965600569071671e-05,
	"loss": 0.1138,
	"num_input_tokens_seen": 501840,
	"step": 1220
	},
	{
	"epoch": 1.4830508474576272,
	"grad_norm": 1.211021065711975,
	"learning_rate": 4.9647217748998534e-05,
	"loss": 0.0632,
	"num_input_tokens_seen": 503952,
	"step": 1225
	},
	{
	"epoch": 1.4891041162227603,
	"grad_norm": 4.336838722229004,
	"learning_rate": 4.963831976429067e-05,
	"loss": 0.1787,
	"num_input_tokens_seen": 505936,
	"step": 1230
	},
	{
	"epoch": 1.4951573849878934,
	"grad_norm": 4.364633560180664,
	"learning_rate": 4.9629311776320176e-05,
	"loss": 0.144,
	"num_input_tokens_seen": 507984,
	"step": 1235
	},
	{
	"epoch": 1.5,
	"eval_loss": 0.1783103495836258,
	"eval_runtime": 4.5928,
	"eval_samples_per_second": 79.908,
	"eval_steps_per_second": 20.031,
	"num_input_tokens_seen": 509456,
	"step": 1239
	},
	{
	"epoch": 1.5012106537530268,
	"grad_norm": 0.9117156863212585,
	"learning_rate": 4.962019382530521e-05,
	"loss": 0.2137,
	"num_input_tokens_seen": 509840,
	"step": 1240
	},
	{
	"epoch": 1.5072639225181597,
	"grad_norm": 1.2304811477661133,
	"learning_rate": 4.9610965951954885e-05,
	"loss": 0.169,
	"num_input_tokens_seen": 511856,
	"step": 1245
	},
	{
	"epoch": 1.513317191283293,
	"grad_norm": 2.3721790313720703,
	"learning_rate": 4.960162819746911e-05,
	"loss": 0.211,
	"num_input_tokens_seen": 513904,
	"step": 1250
	},
	{
	"epoch": 1.5193704600484261,
	"grad_norm": 4.308636665344238,
	"learning_rate": 4.9592180603538366e-05,
	"loss": 0.1163,
	"num_input_tokens_seen": 515824,
	"step": 1255
	},
	{
	"epoch": 1.5254237288135593,
	"grad_norm": 3.0907084941864014,
	"learning_rate": 4.958262321234353e-05,
	"loss": 0.0857,
	"num_input_tokens_seen": 517744,
	"step": 1260
	},
	{
	"epoch": 1.5314769975786926,
	"grad_norm": 0.9459354877471924,
	"learning_rate": 4.95729560665557e-05,
	"loss": 0.1442,
	"num_input_tokens_seen": 519824,
	"step": 1265
	},
	{
	"epoch": 1.5375302663438255,
	"grad_norm": 4.082531452178955,
	"learning_rate": 4.956317920933602e-05,
	"loss": 0.1981,
	"num_input_tokens_seen": 521936,
	"step": 1270
	},
	{
	"epoch": 1.5435835351089588,
	"grad_norm": 3.863461971282959,
	"learning_rate": 4.955329268433543e-05,
	"loss": 0.1058,
	"num_input_tokens_seen": 524176,
	"step": 1275
	},
	{
	"epoch": 1.549636803874092,
	"grad_norm": 6.776220321655273,
	"learning_rate": 4.954329653569452e-05,
	"loss": 0.1502,
	"num_input_tokens_seen": 526256,
	"step": 1280
	},
	{
	"epoch": 1.555690072639225,
	"grad_norm": 3.519094467163086,
	"learning_rate": 4.953319080804333e-05,
	"loss": 0.1133,
	"num_input_tokens_seen": 528304,
	"step": 1285
	},
	{
	"epoch": 1.5617433414043584,
	"grad_norm": 4.169881820678711,
	"learning_rate": 4.952297554650113e-05,
	"loss": 0.2624,
	"num_input_tokens_seen": 530320,
	"step": 1290
	},
	{
	"epoch": 1.5677966101694916,
	"grad_norm": 1.6443334817886353,
	"learning_rate": 4.9512650796676216e-05,
	"loss": 0.0577,
	"num_input_tokens_seen": 532400,
	"step": 1295
	},
	{
	"epoch": 1.5738498789346247,
	"grad_norm": 0.9508858323097229,
	"learning_rate": 4.9502216604665744e-05,
	"loss": 0.1549,
	"num_input_tokens_seen": 534416,
	"step": 1300
	},
	{
	"epoch": 1.5799031476997578,
	"grad_norm": 2.909374952316284,
	"learning_rate": 4.949167301705548e-05,
	"loss": 0.1042,
	"num_input_tokens_seen": 536592,
	"step": 1305
	},
	{
	"epoch": 1.585956416464891,
	"grad_norm": 0.7363409996032715,
	"learning_rate": 4.948102008091962e-05,
	"loss": 0.0307,
	"num_input_tokens_seen": 538704,
	"step": 1310
	},
	{
	"epoch": 1.5920096852300243,
	"grad_norm": 5.999347686767578,
	"learning_rate": 4.947025784382057e-05,
	"loss": 0.2497,
	"num_input_tokens_seen": 540912,
	"step": 1315
	},
	{
	"epoch": 1.5980629539951574,
	"grad_norm": 4.051459789276123,
	"learning_rate": 4.9459386353808736e-05,
	"loss": 0.2243,
	"num_input_tokens_seen": 542864,
	"step": 1320
	},
	{
	"epoch": 1.6041162227602905,
	"grad_norm": 9.532818794250488,
	"learning_rate": 4.944840565942229e-05,
	"loss": 0.3938,
	"num_input_tokens_seen": 544816,
	"step": 1325
	},
	{
	"epoch": 1.6101694915254239,
	"grad_norm": 7.469811916351318,
	"learning_rate": 4.943731580968701e-05,
	"loss": 0.2847,
	"num_input_tokens_seen": 546864,
	"step": 1330
	},
	{
	"epoch": 1.6162227602905568,
	"grad_norm": 3.413723945617676,
	"learning_rate": 4.942611685411598e-05,
	"loss": 0.2188,
	"num_input_tokens_seen": 548912,
	"step": 1335
	},
	{
	"epoch": 1.6222760290556901,
	"grad_norm": 4.4016432762146,
	"learning_rate": 4.9414808842709435e-05,
	"loss": 0.2475,
	"num_input_tokens_seen": 551056,
	"step": 1340
	},
	{
	"epoch": 1.6283292978208233,
	"grad_norm": 1.3102144002914429,
	"learning_rate": 4.940339182595451e-05,
	"loss": 0.0887,
	"num_input_tokens_seen": 553072,
	"step": 1345
	},
	{
	"epoch": 1.6343825665859564,
	"grad_norm": 1.6671048402786255,
	"learning_rate": 4.9391865854825015e-05,
	"loss": 0.1674,
	"num_input_tokens_seen": 555248,
	"step": 1350
	},
	{
	"epoch": 1.6404358353510897,
	"grad_norm": 1.2309081554412842,
	"learning_rate": 4.938023098078122e-05,
	"loss": 0.0685,
	"num_input_tokens_seen": 557360,
	"step": 1355
	},
	{
	"epoch": 1.6464891041162226,
	"grad_norm": 3.3514671325683594,
	"learning_rate": 4.93684872557696e-05,
	"loss": 0.0737,
	"num_input_tokens_seen": 559376,
	"step": 1360
	},
	{
	"epoch": 1.652542372881356,
	"grad_norm": 4.470357418060303,
	"learning_rate": 4.935663473222264e-05,
	"loss": 0.1702,
	"num_input_tokens_seen": 561296,
	"step": 1365
	},
	{
	"epoch": 1.658595641646489,
	"grad_norm": 1.129664421081543,
	"learning_rate": 4.934467346305856e-05,
	"loss": 0.1448,
	"num_input_tokens_seen": 563376,
	"step": 1370
	},
	{
	"epoch": 1.6646489104116222,
	"grad_norm": 0.7362378835678101,
	"learning_rate": 4.933260350168112e-05,
	"loss": 0.0589,
	"num_input_tokens_seen": 565424,
	"step": 1375
	},
	{
	"epoch": 1.6707021791767556,
	"grad_norm": 0.631158173084259,
	"learning_rate": 4.932042490197933e-05,
	"loss": 0.0482,
	"num_input_tokens_seen": 567504,
	"step": 1380
	},
	{
	"epoch": 1.6767554479418885,
	"grad_norm": 3.6880412101745605,
	"learning_rate": 4.930813771832728e-05,
	"loss": 0.2682,
	"num_input_tokens_seen": 569744,
	"step": 1385
	},
	{
	"epoch": 1.6828087167070218,
	"grad_norm": 1.3964409828186035,
	"learning_rate": 4.929574200558382e-05,
	"loss": 0.1129,
	"num_input_tokens_seen": 571888,
	"step": 1390
	},
	{
	"epoch": 1.688861985472155,
	"grad_norm": 2.9864020347595215,
	"learning_rate": 4.928323781909239e-05,
	"loss": 0.1442,
	"num_input_tokens_seen": 574000,
	"step": 1395
	},
	{
	"epoch": 1.694915254237288,
	"grad_norm": 4.279382705688477,
	"learning_rate": 4.927062521468068e-05,
	"loss": 0.212,
	"num_input_tokens_seen": 575984,
	"step": 1400
	},
	{
	"epoch": 1.7009685230024214,
	"grad_norm": 1.5373003482818604,
	"learning_rate": 4.92579042486605e-05,
	"loss": 0.0917,
	"num_input_tokens_seen": 577968,
	"step": 1405
	},
	{
	"epoch": 1.7070217917675545,
	"grad_norm": 1.7001993656158447,
	"learning_rate": 4.924507497782743e-05,
	"loss": 0.137,
	"num_input_tokens_seen": 580112,
	"step": 1410
	},
	{
	"epoch": 1.7130750605326877,
	"grad_norm": 1.1870551109313965,
	"learning_rate": 4.923213745946059e-05,
	"loss": 0.1927,
	"num_input_tokens_seen": 582160,
	"step": 1415
	},
	{
	"epoch": 1.7191283292978208,
	"grad_norm": 0.5280523300170898,
	"learning_rate": 4.921909175132242e-05,
	"loss": 0.1633,
	"num_input_tokens_seen": 584304,
	"step": 1420
	},
	{
	"epoch": 1.725181598062954,
	"grad_norm": 1.6161837577819824,
	"learning_rate": 4.920593791165839e-05,
	"loss": 0.1462,
	"num_input_tokens_seen": 586096,
	"step": 1425
	},
	{
	"epoch": 1.7312348668280872,
	"grad_norm": 3.1209022998809814,
	"learning_rate": 4.919267599919674e-05,
	"loss": 0.1477,
	"num_input_tokens_seen": 588240,
	"step": 1430
	},
	{
	"epoch": 1.7372881355932204,
	"grad_norm": 1.9811747074127197,
	"learning_rate": 4.917930607314823e-05,
	"loss": 0.2459,
	"num_input_tokens_seen": 590480,
	"step": 1435
	},
	{
	"epoch": 1.7433414043583535,
	"grad_norm": 1.1726977825164795,
	"learning_rate": 4.916582819320588e-05,
	"loss": 0.1896,
	"num_input_tokens_seen": 592528,
	"step": 1440
	},
	{
	"epoch": 1.7493946731234868,
	"grad_norm": 3.542783737182617,
	"learning_rate": 4.915224241954467e-05,
	"loss": 0.2088,
	"num_input_tokens_seen": 594416,
	"step": 1445
	},
	{
	"epoch": 1.7554479418886197,
	"grad_norm": 1.4151628017425537,
	"learning_rate": 4.9138548812821316e-05,
	"loss": 0.1804,
	"num_input_tokens_seen": 596432,
	"step": 1450
	},
	{
	"epoch": 1.761501210653753,
	"grad_norm": 1.6290380954742432,
	"learning_rate": 4.912474743417399e-05,
	"loss": 0.0787,
	"num_input_tokens_seen": 598352,
	"step": 1455
	},
	{
	"epoch": 1.7675544794188862,
	"grad_norm": 1.6579142808914185,
	"learning_rate": 4.911083834522199e-05,
	"loss": 0.0636,
	"num_input_tokens_seen": 600432,
	"step": 1460
	},
	{
	"epoch": 1.7736077481840193,
	"grad_norm": 5.867772579193115,
	"learning_rate": 4.909682160806556e-05,
	"loss": 0.2342,
	"num_input_tokens_seen": 602480,
	"step": 1465
	},
	{
	"epoch": 1.7796610169491527,
	"grad_norm": 4.180382251739502,
	"learning_rate": 4.908269728528553e-05,
	"loss": 0.1955,
	"num_input_tokens_seen": 604496,
	"step": 1470
	},
	{
	"epoch": 1.7857142857142856,
	"grad_norm": 3.5099289417266846,
	"learning_rate": 4.90684654399431e-05,
	"loss": 0.1021,
	"num_input_tokens_seen": 606672,
	"step": 1475
	},
	{
	"epoch": 1.791767554479419,
	"grad_norm": 0.4963616728782654,
	"learning_rate": 4.9054126135579495e-05,
	"loss": 0.1071,
	"num_input_tokens_seen": 608752,
	"step": 1480
	},
	{
	"epoch": 1.797820823244552,
	"grad_norm": 2.4257378578186035,
	"learning_rate": 4.9039679436215734e-05,
	"loss": 0.129,
	"num_input_tokens_seen": 610608,
	"step": 1485
	},
	{
	"epoch": 1.8038740920096852,
	"grad_norm": 3.747525215148926,
	"learning_rate": 4.9025125406352335e-05,
	"loss": 0.2842,
	"num_input_tokens_seen": 612688,
	"step": 1490
	},
	{
	"epoch": 1.8099273607748185,
	"grad_norm": 0.5966554880142212,
	"learning_rate": 4.9010464110968976e-05,
	"loss": 0.0584,
	"num_input_tokens_seen": 614704,
	"step": 1495
	},
	{
	"epoch": 1.8159806295399514,
	"grad_norm": 2.613186836242676,
	"learning_rate": 4.89956956155243e-05,
	"loss": 0.1314,
	"num_input_tokens_seen": 616784,
	"step": 1500
	},
	{
	"epoch": 1.8220338983050848,
	"grad_norm": 3.0699353218078613,
	"learning_rate": 4.898081998595555e-05,
	"loss": 0.1275,
	"num_input_tokens_seen": 618736,
	"step": 1505
	},
	{
	"epoch": 1.828087167070218,
	"grad_norm": 2.9778733253479004,
	"learning_rate": 4.8965837288678253e-05,
	"loss": 0.1038,
	"num_input_tokens_seen": 620944,
	"step": 1510
	},
	{
	"epoch": 1.834140435835351,
	"grad_norm": 2.6867446899414062,
	"learning_rate": 4.895074759058601e-05,
	"loss": 0.1367,
	"num_input_tokens_seen": 623120,
	"step": 1515
	},
	{
	"epoch": 1.8401937046004844,
	"grad_norm": 1.885842204093933,
	"learning_rate": 4.893555095905014e-05,
	"loss": 0.074,
	"num_input_tokens_seen": 625136,
	"step": 1520
	},
	{
	"epoch": 1.8462469733656173,
	"grad_norm": 4.191492557525635,
	"learning_rate": 4.892024746191939e-05,
	"loss": 0.1355,
	"num_input_tokens_seen": 627216,
	"step": 1525
	},
	{
	"epoch": 1.8523002421307506,
	"grad_norm": 0.14360515773296356,
	"learning_rate": 4.890483716751961e-05,
	"loss": 0.0959,
	"num_input_tokens_seen": 629136,
	"step": 1530
	},
	{
	"epoch": 1.8583535108958837,
	"grad_norm": 2.302429676055908,
	"learning_rate": 4.888932014465352e-05,
	"loss": 0.1219,
	"num_input_tokens_seen": 631216,
	"step": 1535
	},
	{
	"epoch": 1.8644067796610169,
	"grad_norm": 2.125596046447754,
	"learning_rate": 4.8873696462600303e-05,
	"loss": 0.0763,
	"num_input_tokens_seen": 633328,
	"step": 1540
	},
	{
	"epoch": 1.8704600484261502,
	"grad_norm": 5.019554615020752,
	"learning_rate": 4.8857966191115365e-05,
	"loss": 0.2288,
	"num_input_tokens_seen": 635440,
	"step": 1545
	},
	{
	"epoch": 1.8765133171912833,
	"grad_norm": 0.8047354221343994,
	"learning_rate": 4.884212940043001e-05,
	"loss": 0.132,
	"num_input_tokens_seen": 637360,
	"step": 1550
	},
	{
	"epoch": 1.8825665859564165,
	"grad_norm": 2.835331678390503,
	"learning_rate": 4.882618616125111e-05,
	"loss": 0.243,
	"num_input_tokens_seen": 639280,
	"step": 1555
	},
	{
	"epoch": 1.8886198547215496,
	"grad_norm": 0.7895589470863342,
	"learning_rate": 4.881013654476081e-05,
	"loss": 0.1762,
	"num_input_tokens_seen": 641328,
	"step": 1560
	},
	{
	"epoch": 1.8946731234866827,
	"grad_norm": 1.5545868873596191,
	"learning_rate": 4.8793980622616195e-05,
	"loss": 0.2117,
	"num_input_tokens_seen": 643376,
	"step": 1565
	},
	{
	"epoch": 1.900726392251816,
	"grad_norm": 1.4125303030014038,
	"learning_rate": 4.877771846694897e-05,
	"loss": 0.0568,
	"num_input_tokens_seen": 645488,
	"step": 1570
	},
	{
	"epoch": 1.9067796610169492,
	"grad_norm": 4.356451988220215,
	"learning_rate": 4.876135015036515e-05,
	"loss": 0.1828,
	"num_input_tokens_seen": 647600,
	"step": 1575
	},
	{
	"epoch": 1.9128329297820823,
	"grad_norm": 0.882681667804718,
	"learning_rate": 4.874487574594473e-05,
	"loss": 0.1048,
	"num_input_tokens_seen": 649648,
	"step": 1580
	},
	{
	"epoch": 1.9188861985472156,
	"grad_norm": 2.282263994216919,
	"learning_rate": 4.872829532724136e-05,
	"loss": 0.1744,
	"num_input_tokens_seen": 651760,
	"step": 1585
	},
	{
	"epoch": 1.9249394673123486,
	"grad_norm": 1.4083192348480225,
	"learning_rate": 4.8711608968282e-05,
	"loss": 0.2004,
	"num_input_tokens_seen": 653840,
	"step": 1590
	},
	{
	"epoch": 1.930992736077482,
	"grad_norm": 3.696666955947876,
	"learning_rate": 4.8694816743566616e-05,
	"loss": 0.2136,
	"num_input_tokens_seen": 655888,
	"step": 1595
	},
	{
	"epoch": 1.937046004842615,
	"grad_norm": 0.2428300827741623,
	"learning_rate": 4.867791872806785e-05,
	"loss": 0.0729,
	"num_input_tokens_seen": 657776,
	"step": 1600
	},
	{
	"epoch": 1.9430992736077481,
	"grad_norm": 1.8835179805755615,
	"learning_rate": 4.8660914997230624e-05,
	"loss": 0.1833,
	"num_input_tokens_seen": 659952,
	"step": 1605
	},
	{
	"epoch": 1.9491525423728815,
	"grad_norm": 5.549609184265137,
	"learning_rate": 4.8643805626971894e-05,
	"loss": 0.1643,
	"num_input_tokens_seen": 661968,
	"step": 1610
	},
	{
	"epoch": 1.9552058111380144,
	"grad_norm": 0.962121844291687,
	"learning_rate": 4.862659069368026e-05,
	"loss": 0.1775,
	"num_input_tokens_seen": 664048,
	"step": 1615
	},
	{
	"epoch": 1.9612590799031477,
	"grad_norm": 0.7466434836387634,
	"learning_rate": 4.8609270274215614e-05,
	"loss": 0.2465,
	"num_input_tokens_seen": 665968,
	"step": 1620
	},
	{
	"epoch": 1.9673123486682809,
	"grad_norm": 1.28084135055542,
	"learning_rate": 4.859184444590882e-05,
	"loss": 0.1881,
	"num_input_tokens_seen": 667920,
	"step": 1625
	},
	{
	"epoch": 1.973365617433414,
	"grad_norm": 0.41623222827911377,
	"learning_rate": 4.857431328656137e-05,
	"loss": 0.0832,
	"num_input_tokens_seen": 669968,
	"step": 1630
	},
	{
	"epoch": 1.9794188861985473,
	"grad_norm": 1.7877904176712036,
	"learning_rate": 4.855667687444504e-05,
	"loss": 0.1038,
	"num_input_tokens_seen": 672016,
	"step": 1635
	},
	{
	"epoch": 1.9854721549636802,
	"grad_norm": 0.9274682402610779,
	"learning_rate": 4.85389352883015e-05,
	"loss": 0.0918,
	"num_input_tokens_seen": 674096,
	"step": 1640
	},
	{
	"epoch": 1.9915254237288136,
	"grad_norm": 2.654660940170288,
	"learning_rate": 4.8521088607342016e-05,
	"loss": 0.123,
	"num_input_tokens_seen": 676208,
	"step": 1645
	},
	{
	"epoch": 1.9975786924939467,
	"grad_norm": 0.8411111235618591,
	"learning_rate": 4.850313691124707e-05,
	"loss": 0.0424,
	"num_input_tokens_seen": 678256,
	"step": 1650
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.1412314772605896,
	"eval_runtime": 4.5644,
	"eval_samples_per_second": 80.404,
	"eval_steps_per_second": 20.156,
	"num_input_tokens_seen": 678688,
	"step": 1652
	},
	{
	"epoch": 2.00363196125908,
	"grad_norm": 2.427675485610962,
	"learning_rate": 4.8485080280166006e-05,
	"loss": 0.1351,
	"num_input_tokens_seen": 679936,
	"step": 1655
	},
	{
	"epoch": 2.009685230024213,
	"grad_norm": 3.1601905822753906,
	"learning_rate": 4.8466918794716666e-05,
	"loss": 0.1074,
	"num_input_tokens_seen": 681984,
	"step": 1660
	},
	{
	"epoch": 2.015738498789346,
	"grad_norm": 2.2332310676574707,
	"learning_rate": 4.8448652535985045e-05,
	"loss": 0.0816,
	"num_input_tokens_seen": 684096,
	"step": 1665
	},
	{
	"epoch": 2.0217917675544794,
	"grad_norm": 1.4707834720611572,
	"learning_rate": 4.8430281585524926e-05,
	"loss": 0.0863,
	"num_input_tokens_seen": 686016,
	"step": 1670
	},
	{
	"epoch": 2.0278450363196128,
	"grad_norm": 3.2379772663116455,
	"learning_rate": 4.841180602535751e-05,
	"loss": 0.0878,
	"num_input_tokens_seen": 687904,
	"step": 1675
	},
	{
	"epoch": 2.0338983050847457,
	"grad_norm": 5.141901969909668,
	"learning_rate": 4.839322593797104e-05,
	"loss": 0.2172,
	"num_input_tokens_seen": 689888,
	"step": 1680
	},
	{
	"epoch": 2.039951573849879,
	"grad_norm": 3.7298524379730225,
	"learning_rate": 4.837454140632045e-05,
	"loss": 0.1119,
	"num_input_tokens_seen": 691808,
	"step": 1685
	},
	{
	"epoch": 2.046004842615012,
	"grad_norm": 1.6675068140029907,
	"learning_rate": 4.8355752513826995e-05,
	"loss": 0.2492,
	"num_input_tokens_seen": 693856,
	"step": 1690
	},
	{
	"epoch": 2.0520581113801453,
	"grad_norm": 2.8532845973968506,
	"learning_rate": 4.833685934437787e-05,
	"loss": 0.1375,
	"num_input_tokens_seen": 695680,
	"step": 1695
	},
	{
	"epoch": 2.0581113801452786,
	"grad_norm": 1.0494747161865234,
	"learning_rate": 4.831786198232583e-05,
	"loss": 0.0764,
	"num_input_tokens_seen": 697792,
	"step": 1700
	},
	{
	"epoch": 2.0641646489104115,
	"grad_norm": 3.190880537033081,
	"learning_rate": 4.8298760512488824e-05,
	"loss": 0.155,
	"num_input_tokens_seen": 699712,
	"step": 1705
	},
	{
	"epoch": 2.070217917675545,
	"grad_norm": 2.6185317039489746,
	"learning_rate": 4.827955502014963e-05,
	"loss": 0.1041,
	"num_input_tokens_seen": 701792,
	"step": 1710
	},
	{
	"epoch": 2.0762711864406778,
	"grad_norm": 2.9850172996520996,
	"learning_rate": 4.826024559105542e-05,
	"loss": 0.206,
	"num_input_tokens_seen": 703936,
	"step": 1715
	},
	{
	"epoch": 2.082324455205811,
	"grad_norm": 3.1610946655273438,
	"learning_rate": 4.8240832311417465e-05,
	"loss": 0.092,
	"num_input_tokens_seen": 705952,
	"step": 1720
	},
	{
	"epoch": 2.0883777239709445,
	"grad_norm": 3.6915476322174072,
	"learning_rate": 4.822131526791065e-05,
	"loss": 0.1464,
	"num_input_tokens_seen": 708064,
	"step": 1725
	},
	{
	"epoch": 2.0944309927360774,
	"grad_norm": 3.869178056716919,
	"learning_rate": 4.820169454767318e-05,
	"loss": 0.092,
	"num_input_tokens_seen": 709952,
	"step": 1730
	},
	{
	"epoch": 2.1004842615012107,
	"grad_norm": 3.4117565155029297,
	"learning_rate": 4.8181970238306104e-05,
	"loss": 0.127,
	"num_input_tokens_seen": 712032,
	"step": 1735
	},
	{
	"epoch": 2.106537530266344,
	"grad_norm": 1.2668098211288452,
	"learning_rate": 4.816214242787302e-05,
	"loss": 0.0634,
	"num_input_tokens_seen": 714048,
	"step": 1740
	},
	{
	"epoch": 2.112590799031477,
	"grad_norm": 1.9988105297088623,
	"learning_rate": 4.814221120489958e-05,
	"loss": 0.1309,
	"num_input_tokens_seen": 716224,
	"step": 1745
	},
	{
	"epoch": 2.1186440677966103,
	"grad_norm": 5.828415870666504,
	"learning_rate": 4.812217665837316e-05,
	"loss": 0.149,
	"num_input_tokens_seen": 718144,
	"step": 1750
	},
	{
	"epoch": 2.124697336561743,
	"grad_norm": 1.041694164276123,
	"learning_rate": 4.810203887774247e-05,
	"loss": 0.1105,
	"num_input_tokens_seen": 720288,
	"step": 1755
	},
	{
	"epoch": 2.1307506053268765,
	"grad_norm": 2.428319215774536,
	"learning_rate": 4.808179795291712e-05,
	"loss": 0.2155,
	"num_input_tokens_seen": 722368,
	"step": 1760
	},
	{
	"epoch": 2.13680387409201,
	"grad_norm": 2.7118420600891113,
	"learning_rate": 4.8061453974267195e-05,
	"loss": 0.1619,
	"num_input_tokens_seen": 724480,
	"step": 1765
	},
	{
	"epoch": 2.142857142857143,
	"grad_norm": 1.4349424839019775,
	"learning_rate": 4.804100703262294e-05,
	"loss": 0.1896,
	"num_input_tokens_seen": 726784,
	"step": 1770
	},
	{
	"epoch": 2.148910411622276,
	"grad_norm": 3.1386163234710693,
	"learning_rate": 4.8020457219274266e-05,
	"loss": 0.1684,
	"num_input_tokens_seen": 728768,
	"step": 1775
	},
	{
	"epoch": 2.154963680387409,
	"grad_norm": 5.631900310516357,
	"learning_rate": 4.799980462597039e-05,
	"loss": 0.2013,
	"num_input_tokens_seen": 730816,
	"step": 1780
	},
	{
	"epoch": 2.1610169491525424,
	"grad_norm": 1.2051900625228882,
	"learning_rate": 4.7979049344919416e-05,
	"loss": 0.0672,
	"num_input_tokens_seen": 732896,
	"step": 1785
	},
	{
	"epoch": 2.1670702179176757,
	"grad_norm": 0.28911882638931274,
	"learning_rate": 4.795819146878792e-05,
	"loss": 0.1565,
	"num_input_tokens_seen": 734816,
	"step": 1790
	},
	{
	"epoch": 2.1731234866828086,
	"grad_norm": 6.5837788581848145,
	"learning_rate": 4.7937231090700516e-05,
	"loss": 0.2135,
	"num_input_tokens_seen": 736800,
	"step": 1795
	},
	{
	"epoch": 2.179176755447942,
	"grad_norm": 0.9957193732261658,
	"learning_rate": 4.7916168304239496e-05,
	"loss": 0.1847,
	"num_input_tokens_seen": 738944,
	"step": 1800
	},
	{
	"epoch": 2.185230024213075,
	"grad_norm": 0.9871184229850769,
	"learning_rate": 4.789500320344435e-05,
	"loss": 0.0843,
	"num_input_tokens_seen": 741184,
	"step": 1805
	},
	{
	"epoch": 2.1912832929782082,
	"grad_norm": 2.35097599029541,
	"learning_rate": 4.787373588281138e-05,
	"loss": 0.0992,
	"num_input_tokens_seen": 743136,
	"step": 1810
	},
	{
	"epoch": 2.1973365617433416,
	"grad_norm": 4.3666181564331055,
	"learning_rate": 4.785236643729327e-05,
	"loss": 0.1001,
	"num_input_tokens_seen": 745152,
	"step": 1815
	},
	{
	"epoch": 2.2033898305084745,
	"grad_norm": 2.161907196044922,
	"learning_rate": 4.7830894962298675e-05,
	"loss": 0.3108,
	"num_input_tokens_seen": 747200,
	"step": 1820
	},
	{
	"epoch": 2.209443099273608,
	"grad_norm": 3.8931241035461426,
	"learning_rate": 4.7809321553691764e-05,
	"loss": 0.2053,
	"num_input_tokens_seen": 749344,
	"step": 1825
	},
	{
	"epoch": 2.2154963680387407,
	"grad_norm": 0.4339629113674164,
	"learning_rate": 4.778764630779183e-05,
	"loss": 0.0899,
	"num_input_tokens_seen": 751360,
	"step": 1830
	},
	{
	"epoch": 2.221549636803874,
	"grad_norm": 3.072408676147461,
	"learning_rate": 4.7765869321372836e-05,
	"loss": 0.1655,
	"num_input_tokens_seen": 753408,
	"step": 1835
	},
	{
	"epoch": 2.2276029055690074,
	"grad_norm": 2.9156787395477295,
	"learning_rate": 4.774399069166296e-05,
	"loss": 0.1509,
	"num_input_tokens_seen": 755456,
	"step": 1840
	},
	{
	"epoch": 2.2336561743341403,
	"grad_norm": 2.098881244659424,
	"learning_rate": 4.772201051634426e-05,
	"loss": 0.1335,
	"num_input_tokens_seen": 757504,
	"step": 1845
	},
	{
	"epoch": 2.2397094430992737,
	"grad_norm": 0.5506150126457214,
	"learning_rate": 4.769992889355208e-05,
	"loss": 0.1555,
	"num_input_tokens_seen": 759584,
	"step": 1850
	},
	{
	"epoch": 2.2457627118644066,
	"grad_norm": 1.9892140626907349,
	"learning_rate": 4.767774592187475e-05,
	"loss": 0.11,
	"num_input_tokens_seen": 761632,
	"step": 1855
	},
	{
	"epoch": 2.25181598062954,
	"grad_norm": 3.1103200912475586,
	"learning_rate": 4.76554617003531e-05,
	"loss": 0.1216,
	"num_input_tokens_seen": 763648,
	"step": 1860
	},
	{
	"epoch": 2.2578692493946733,
	"grad_norm": 3.333366632461548,
	"learning_rate": 4.763307632847998e-05,
	"loss": 0.1664,
	"num_input_tokens_seen": 765696,
	"step": 1865
	},
	{
	"epoch": 2.263922518159806,
	"grad_norm": 5.307172775268555,
	"learning_rate": 4.761058990619986e-05,
	"loss": 0.1662,
	"num_input_tokens_seen": 767776,
	"step": 1870
	},
	{
	"epoch": 2.2699757869249395,
	"grad_norm": 3.0664305686950684,
	"learning_rate": 4.7588002533908405e-05,
	"loss": 0.1085,
	"num_input_tokens_seen": 769856,
	"step": 1875
	},
	{
	"epoch": 2.2760290556900724,
	"grad_norm": 3.5791735649108887,
	"learning_rate": 4.756531431245195e-05,
	"loss": 0.1527,
	"num_input_tokens_seen": 771904,
	"step": 1880
	},
	{
	"epoch": 2.2820823244552058,
	"grad_norm": 1.5854547023773193,
	"learning_rate": 4.75425253431271e-05,
	"loss": 0.1064,
	"num_input_tokens_seen": 774016,
	"step": 1885
	},
	{
	"epoch": 2.288135593220339,
	"grad_norm": 1.7430024147033691,
	"learning_rate": 4.7519635727680286e-05,
	"loss": 0.215,
	"num_input_tokens_seen": 776000,
	"step": 1890
	},
	{
	"epoch": 2.294188861985472,
	"grad_norm": 2.2312424182891846,
	"learning_rate": 4.749664556830731e-05,
	"loss": 0.1338,
	"num_input_tokens_seen": 778208,
	"step": 1895
	},
	{
	"epoch": 2.3002421307506054,
	"grad_norm": 2.4188883304595947,
	"learning_rate": 4.747355496765283e-05,
	"loss": 0.1155,
	"num_input_tokens_seen": 780128,
	"step": 1900
	},
	{
	"epoch": 2.3062953995157383,
	"grad_norm": 1.0266026258468628,
	"learning_rate": 4.745036402880999e-05,
	"loss": 0.0778,
	"num_input_tokens_seen": 782112,
	"step": 1905
	},
	{
	"epoch": 2.3123486682808716,
	"grad_norm": 1.269418478012085,
	"learning_rate": 4.7427072855319886e-05,
	"loss": 0.1447,
	"num_input_tokens_seen": 784256,
	"step": 1910
	},
	{
	"epoch": 2.318401937046005,
	"grad_norm": 2.8256311416625977,
	"learning_rate": 4.740368155117116e-05,
	"loss": 0.1182,
	"num_input_tokens_seen": 786272,
	"step": 1915
	},
	{
	"epoch": 2.324455205811138,
	"grad_norm": 2.589238166809082,
	"learning_rate": 4.7380190220799484e-05,
	"loss": 0.045,
	"num_input_tokens_seen": 788352,
	"step": 1920
	},
	{
	"epoch": 2.330508474576271,
	"grad_norm": 0.9821070432662964,
	"learning_rate": 4.735659896908713e-05,
	"loss": 0.1627,
	"num_input_tokens_seen": 790368,
	"step": 1925
	},
	{
	"epoch": 2.3365617433414045,
	"grad_norm": 0.7688742876052856,
	"learning_rate": 4.73329079013625e-05,
	"loss": 0.1664,
	"num_input_tokens_seen": 792320,
	"step": 1930
	},
	{
	"epoch": 2.3426150121065374,
	"grad_norm": 0.5684288740158081,
	"learning_rate": 4.730911712339964e-05,
	"loss": 0.0689,
	"num_input_tokens_seen": 794272,
	"step": 1935
	},
	{
	"epoch": 2.348668280871671,
	"grad_norm": 4.761138439178467,
	"learning_rate": 4.728522674141776e-05,
	"loss": 0.2063,
	"num_input_tokens_seen": 796416,
	"step": 1940
	},
	{
	"epoch": 2.3547215496368037,
	"grad_norm": 1.1905338764190674,
	"learning_rate": 4.7261236862080805e-05,
	"loss": 0.0513,
	"num_input_tokens_seen": 798432,
	"step": 1945
	},
	{
	"epoch": 2.360774818401937,
	"grad_norm": 3.9322619438171387,
	"learning_rate": 4.723714759249692e-05,
	"loss": 0.15,
	"num_input_tokens_seen": 800480,
	"step": 1950
	},
	{
	"epoch": 2.3668280871670704,
	"grad_norm": 4.847472667694092,
	"learning_rate": 4.721295904021802e-05,
	"loss": 0.1752,
	"num_input_tokens_seen": 802432,
	"step": 1955
	},
	{
	"epoch": 2.3728813559322033,
	"grad_norm": 0.6638381481170654,
	"learning_rate": 4.718867131323927e-05,
	"loss": 0.1272,
	"num_input_tokens_seen": 804352,
	"step": 1960
	},
	{
	"epoch": 2.3789346246973366,
	"grad_norm": 3.257404327392578,
	"learning_rate": 4.7164284519998644e-05,
	"loss": 0.1885,
	"num_input_tokens_seen": 806272,
	"step": 1965
	},
	{
	"epoch": 2.38498789346247,
	"grad_norm": 1.8241240978240967,
	"learning_rate": 4.71397987693764e-05,
	"loss": 0.1153,
	"num_input_tokens_seen": 808352,
	"step": 1970
	},
	{
	"epoch": 2.391041162227603,
	"grad_norm": 1.4032349586486816,
	"learning_rate": 4.711521417069462e-05,
	"loss": 0.1143,
	"num_input_tokens_seen": 810304,
	"step": 1975
	},
	{
	"epoch": 2.3970944309927362,
	"grad_norm": 0.7167484760284424,
	"learning_rate": 4.709053083371672e-05,
	"loss": 0.0683,
	"num_input_tokens_seen": 812384,
	"step": 1980
	},
	{
	"epoch": 2.403147699757869,
	"grad_norm": 1.5216193199157715,
	"learning_rate": 4.706574886864696e-05,
	"loss": 0.1331,
	"num_input_tokens_seen": 814400,
	"step": 1985
	},
	{
	"epoch": 2.4092009685230025,
	"grad_norm": 0.35691097378730774,
	"learning_rate": 4.7040868386129935e-05,
	"loss": 0.0971,
	"num_input_tokens_seen": 816448,
	"step": 1990
	},
	{
	"epoch": 2.415254237288136,
	"grad_norm": 0.27627068758010864,
	"learning_rate": 4.701588949725009e-05,
	"loss": 0.1488,
	"num_input_tokens_seen": 818624,
	"step": 1995
	},
	{
	"epoch": 2.4213075060532687,
	"grad_norm": 3.6620829105377197,
	"learning_rate": 4.699081231353124e-05,
	"loss": 0.1598,
	"num_input_tokens_seen": 820640,
	"step": 2000
	},
	{
	"epoch": 2.427360774818402,
	"grad_norm": 4.2808837890625,
	"learning_rate": 4.696563694693605e-05,
	"loss": 0.2381,
	"num_input_tokens_seen": 822752,
	"step": 2005
	},
	{
	"epoch": 2.433414043583535,
	"grad_norm": 4.718568325042725,
	"learning_rate": 4.694036350986556e-05,
	"loss": 0.1828,
	"num_input_tokens_seen": 824832,
	"step": 2010
	},
	{
	"epoch": 2.4394673123486683,
	"grad_norm": 2.1222352981567383,
	"learning_rate": 4.6914992115158634e-05,
	"loss": 0.1231,
	"num_input_tokens_seen": 826816,
	"step": 2015
	},
	{
	"epoch": 2.4455205811138017,
	"grad_norm": 3.19950270652771,
	"learning_rate": 4.688952287609152e-05,
	"loss": 0.1957,
	"num_input_tokens_seen": 828672,
	"step": 2020
	},
	{
	"epoch": 2.4515738498789346,
	"grad_norm": 1.1805663108825684,
	"learning_rate": 4.686395590637732e-05,
	"loss": 0.1136,
	"num_input_tokens_seen": 830752,
	"step": 2025
	},
	{
	"epoch": 2.457627118644068,
	"grad_norm": 4.136936187744141,
	"learning_rate": 4.683829132016544e-05,
	"loss": 0.1257,
	"num_input_tokens_seen": 832832,
	"step": 2030
	},
	{
	"epoch": 2.463680387409201,
	"grad_norm": 1.4625964164733887,
	"learning_rate": 4.6812529232041144e-05,
	"loss": 0.129,
	"num_input_tokens_seen": 834848,
	"step": 2035
	},
	{
	"epoch": 2.469733656174334,
	"grad_norm": 1.1322230100631714,
	"learning_rate": 4.6786669757025016e-05,
	"loss": 0.0553,
	"num_input_tokens_seen": 836864,
	"step": 2040
	},
	{
	"epoch": 2.4757869249394675,
	"grad_norm": 3.3223824501037598,
	"learning_rate": 4.676071301057243e-05,
	"loss": 0.1469,
	"num_input_tokens_seen": 838784,
	"step": 2045
	},
	{
	"epoch": 2.4818401937046004,
	"grad_norm": 2.883943796157837,
	"learning_rate": 4.673465910857306e-05,
	"loss": 0.0844,
	"num_input_tokens_seen": 840832,
	"step": 2050
	},
	{
	"epoch": 2.4878934624697338,
	"grad_norm": 0.32013097405433655,
	"learning_rate": 4.670850816735035e-05,
	"loss": 0.1226,
	"num_input_tokens_seen": 842752,
	"step": 2055
	},
	{
	"epoch": 2.4939467312348667,
	"grad_norm": 3.8903720378875732,
	"learning_rate": 4.668226030366101e-05,
	"loss": 0.2109,
	"num_input_tokens_seen": 844928,
	"step": 2060
	},
	{
	"epoch": 2.5,
	"grad_norm": 1.0813623666763306,
	"learning_rate": 4.665591563469445e-05,
	"loss": 0.1393,
	"num_input_tokens_seen": 847104,
	"step": 2065
	},
	{
	"epoch": 2.5,
	"eval_loss": 0.1389196813106537,
	"eval_runtime": 4.5634,
	"eval_samples_per_second": 80.422,
	"eval_steps_per_second": 20.16,
	"num_input_tokens_seen": 847104,
	"step": 2065
	},
	{
	"epoch": 2.5060532687651333,
	"grad_norm": 0.8157436847686768,
	"learning_rate": 4.662947427807231e-05,
	"loss": 0.0783,
	"num_input_tokens_seen": 849120,
	"step": 2070
	},
	{
	"epoch": 2.5121065375302662,
	"grad_norm": 3.726567268371582,
	"learning_rate": 4.6602936351847924e-05,
	"loss": 0.0737,
	"num_input_tokens_seen": 851296,
	"step": 2075
	},
	{
	"epoch": 2.5181598062953996,
	"grad_norm": 6.2762603759765625,
	"learning_rate": 4.657630197450577e-05,
	"loss": 0.2042,
	"num_input_tokens_seen": 853344,
	"step": 2080
	},
	{
	"epoch": 2.5242130750605325,
	"grad_norm": 2.1367788314819336,
	"learning_rate": 4.6549571264960945e-05,
	"loss": 0.1232,
	"num_input_tokens_seen": 855264,
	"step": 2085
	},
	{
	"epoch": 2.530266343825666,
	"grad_norm": 1.8090111017227173,
	"learning_rate": 4.652274434255866e-05,
	"loss": 0.1651,
	"num_input_tokens_seen": 857152,
	"step": 2090
	},
	{
	"epoch": 2.536319612590799,
	"grad_norm": 2.769136667251587,
	"learning_rate": 4.6495821327073675e-05,
	"loss": 0.162,
	"num_input_tokens_seen": 859232,
	"step": 2095
	},
	{
	"epoch": 2.542372881355932,
	"grad_norm": 4.568650722503662,
	"learning_rate": 4.6468802338709783e-05,
	"loss": 0.1262,
	"num_input_tokens_seen": 861312,
	"step": 2100
	},
	{
	"epoch": 2.5484261501210654,
	"grad_norm": 4.672850131988525,
	"learning_rate": 4.644168749809929e-05,
	"loss": 0.1883,
	"num_input_tokens_seen": 863552,
	"step": 2105
	},
	{
	"epoch": 2.5544794188861983,
	"grad_norm": 0.21458782255649567,
	"learning_rate": 4.6414476926302406e-05,
	"loss": 0.118,
	"num_input_tokens_seen": 865568,
	"step": 2110
	},
	{
	"epoch": 2.5605326876513317,
	"grad_norm": 3.470489501953125,
	"learning_rate": 4.638717074480682e-05,
	"loss": 0.1168,
	"num_input_tokens_seen": 867488,
	"step": 2115
	},
	{
	"epoch": 2.566585956416465,
	"grad_norm": 2.928154468536377,
	"learning_rate": 4.6359769075527026e-05,
	"loss": 0.0644,
	"num_input_tokens_seen": 869504,
	"step": 2120
	},
	{
	"epoch": 2.572639225181598,
	"grad_norm": 1.570302963256836,
	"learning_rate": 4.6332272040803895e-05,
	"loss": 0.0429,
	"num_input_tokens_seen": 871680,
	"step": 2125
	},
	{
	"epoch": 2.5786924939467313,
	"grad_norm": 1.8090287446975708,
	"learning_rate": 4.630467976340405e-05,
	"loss": 0.0671,
	"num_input_tokens_seen": 873856,
	"step": 2130
	},
	{
	"epoch": 2.584745762711864,
	"grad_norm": 3.67999005317688,
	"learning_rate": 4.6276992366519365e-05,
	"loss": 0.1545,
	"num_input_tokens_seen": 875968,
	"step": 2135
	},
	{
	"epoch": 2.5907990314769975,
	"grad_norm": 5.59567403793335,
	"learning_rate": 4.624920997376637e-05,
	"loss": 0.1714,
	"num_input_tokens_seen": 878144,
	"step": 2140
	},
	{
	"epoch": 2.596852300242131,
	"grad_norm": 3.0647568702697754,
	"learning_rate": 4.622133270918576e-05,
	"loss": 0.1627,
	"num_input_tokens_seen": 880320,
	"step": 2145
	},
	{
	"epoch": 2.6029055690072638,
	"grad_norm": 1.2152265310287476,
	"learning_rate": 4.619336069724177e-05,
	"loss": 0.1276,
	"num_input_tokens_seen": 882400,
	"step": 2150
	},
	{
	"epoch": 2.608958837772397,
	"grad_norm": 2.7467970848083496,
	"learning_rate": 4.6165294062821696e-05,
	"loss": 0.3168,
	"num_input_tokens_seen": 884512,
	"step": 2155
	},
	{
	"epoch": 2.61501210653753,
	"grad_norm": 1.246924638748169,
	"learning_rate": 4.613713293123525e-05,
	"loss": 0.0729,
	"num_input_tokens_seen": 886592,
	"step": 2160
	},
	{
	"epoch": 2.6210653753026634,
	"grad_norm": 3.9440741539001465,
	"learning_rate": 4.610887742821408e-05,
	"loss": 0.1066,
	"num_input_tokens_seen": 888640,
	"step": 2165
	},
	{
	"epoch": 2.6271186440677967,
	"grad_norm": 2.369666814804077,
	"learning_rate": 4.608052767991118e-05,
	"loss": 0.0523,
	"num_input_tokens_seen": 890880,
	"step": 2170
	},
	{
	"epoch": 2.6331719128329296,
	"grad_norm": 2.7659249305725098,
	"learning_rate": 4.605208381290029e-05,
	"loss": 0.0824,
	"num_input_tokens_seen": 892832,
	"step": 2175
	},
	{
	"epoch": 2.639225181598063,
	"grad_norm": 4.095376491546631,
	"learning_rate": 4.6023545954175406e-05,
	"loss": 0.1441,
	"num_input_tokens_seen": 894912,
	"step": 2180
	},
	{
	"epoch": 2.645278450363196,
	"grad_norm": 4.215013027191162,
	"learning_rate": 4.599491423115014e-05,
	"loss": 0.1021,
	"num_input_tokens_seen": 896960,
	"step": 2185
	},
	{
	"epoch": 2.651331719128329,
	"grad_norm": 0.6620141863822937,
	"learning_rate": 4.59661887716572e-05,
	"loss": 0.0891,
	"num_input_tokens_seen": 898816,
	"step": 2190
	},
	{
	"epoch": 2.6573849878934626,
	"grad_norm": 0.9556487798690796,
	"learning_rate": 4.5937369703947785e-05,
	"loss": 0.0992,
	"num_input_tokens_seen": 900832,
	"step": 2195
	},
	{
	"epoch": 2.663438256658596,
	"grad_norm": 1.2059531211853027,
	"learning_rate": 4.590845715669104e-05,
	"loss": 0.0924,
	"num_input_tokens_seen": 902944,
	"step": 2200
	},
	{
	"epoch": 2.669491525423729,
	"grad_norm": 1.3572944402694702,
	"learning_rate": 4.5879451258973465e-05,
	"loss": 0.1106,
	"num_input_tokens_seen": 905056,
	"step": 2205
	},
	{
	"epoch": 2.6755447941888617,
	"grad_norm": 3.2731289863586426,
	"learning_rate": 4.5850352140298356e-05,
	"loss": 0.1858,
	"num_input_tokens_seen": 907232,
	"step": 2210
	},
	{
	"epoch": 2.681598062953995,
	"grad_norm": 4.388832092285156,
	"learning_rate": 4.582115993058519e-05,
	"loss": 0.1382,
	"num_input_tokens_seen": 909248,
	"step": 2215
	},
	{
	"epoch": 2.6876513317191284,
	"grad_norm": 0.5173718333244324,
	"learning_rate": 4.5791874760169095e-05,
	"loss": 0.0703,
	"num_input_tokens_seen": 911264,
	"step": 2220
	},
	{
	"epoch": 2.6937046004842617,
	"grad_norm": 0.8536763191223145,
	"learning_rate": 4.5762496759800246e-05,
	"loss": 0.1439,
	"num_input_tokens_seen": 913216,
	"step": 2225
	},
	{
	"epoch": 2.6997578692493946,
	"grad_norm": 0.34403684735298157,
	"learning_rate": 4.573302606064324e-05,
	"loss": 0.1254,
	"num_input_tokens_seen": 915328,
	"step": 2230
	},
	{
	"epoch": 2.705811138014528,
	"grad_norm": 5.366670608520508,
	"learning_rate": 4.5703462794276574e-05,
	"loss": 0.1947,
	"num_input_tokens_seen": 917568,
	"step": 2235
	},
	{
	"epoch": 2.711864406779661,
	"grad_norm": 1.7030010223388672,
	"learning_rate": 4.567380709269205e-05,
	"loss": 0.1793,
	"num_input_tokens_seen": 919424,
	"step": 2240
	},
	{
	"epoch": 2.7179176755447942,
	"grad_norm": 4.686395645141602,
	"learning_rate": 4.5644059088294145e-05,
	"loss": 0.0785,
	"num_input_tokens_seen": 921376,
	"step": 2245
	},
	{
	"epoch": 2.7239709443099276,
	"grad_norm": 3.0779364109039307,
	"learning_rate": 4.561421891389943e-05,
	"loss": 0.0824,
	"num_input_tokens_seen": 923456,
	"step": 2250
	},
	{
	"epoch": 2.7300242130750605,
	"grad_norm": 5.996677875518799,
	"learning_rate": 4.558428670273601e-05,
	"loss": 0.1826,
	"num_input_tokens_seen": 925504,
	"step": 2255
	},
	{
	"epoch": 2.736077481840194,
	"grad_norm": 3.9204232692718506,
	"learning_rate": 4.555426258844292e-05,
	"loss": 0.1157,
	"num_input_tokens_seen": 927456,
	"step": 2260
	},
	{
	"epoch": 2.7421307506053267,
	"grad_norm": 3.752305507659912,
	"learning_rate": 4.552414670506949e-05,
	"loss": 0.0627,
	"num_input_tokens_seen": 929440,
	"step": 2265
	},
	{
	"epoch": 2.74818401937046,
	"grad_norm": 2.5699219703674316,
	"learning_rate": 4.5493939187074784e-05,
	"loss": 0.1061,
	"num_input_tokens_seen": 931712,
	"step": 2270
	},
	{
	"epoch": 2.7542372881355934,
	"grad_norm": 3.8020174503326416,
	"learning_rate": 4.5463640169326994e-05,
	"loss": 0.246,
	"num_input_tokens_seen": 933664,
	"step": 2275
	},
	{
	"epoch": 2.7602905569007263,
	"grad_norm": 2.4262406826019287,
	"learning_rate": 4.5433249787102816e-05,
	"loss": 0.1468,
	"num_input_tokens_seen": 935840,
	"step": 2280
	},
	{
	"epoch": 2.7663438256658597,
	"grad_norm": 2.018612861633301,
	"learning_rate": 4.54027681760869e-05,
	"loss": 0.1444,
	"num_input_tokens_seen": 937920,
	"step": 2285
	},
	{
	"epoch": 2.7723970944309926,
	"grad_norm": 4.552961349487305,
	"learning_rate": 4.537219547237115e-05,
	"loss": 0.1195,
	"num_input_tokens_seen": 940160,
	"step": 2290
	},
	{
	"epoch": 2.778450363196126,
	"grad_norm": 1.2480086088180542,
	"learning_rate": 4.5341531812454234e-05,
	"loss": 0.0581,
	"num_input_tokens_seen": 942304,
	"step": 2295
	},
	{
	"epoch": 2.7845036319612593,
	"grad_norm": 4.706632137298584,
	"learning_rate": 4.5310777333240885e-05,
	"loss": 0.128,
	"num_input_tokens_seen": 944288,
	"step": 2300
	},
	{
	"epoch": 2.790556900726392,
	"grad_norm": 3.13391375541687,
	"learning_rate": 4.52799321720413e-05,
	"loss": 0.1094,
	"num_input_tokens_seen": 946368,
	"step": 2305
	},
	{
	"epoch": 2.7966101694915255,
	"grad_norm": 0.19843530654907227,
	"learning_rate": 4.524899646657059e-05,
	"loss": 0.1588,
	"num_input_tokens_seen": 948512,
	"step": 2310
	},
	{
	"epoch": 2.8026634382566584,
	"grad_norm": 5.570863246917725,
	"learning_rate": 4.521797035494809e-05,
	"loss": 0.1722,
	"num_input_tokens_seen": 950624,
	"step": 2315
	},
	{
	"epoch": 2.8087167070217918,
	"grad_norm": 0.583500862121582,
	"learning_rate": 4.5186853975696775e-05,
	"loss": 0.0668,
	"num_input_tokens_seen": 952640,
	"step": 2320
	},
	{
	"epoch": 2.814769975786925,
	"grad_norm": 7.228137016296387,
	"learning_rate": 4.515564746774265e-05,
	"loss": 0.191,
	"num_input_tokens_seen": 954656,
	"step": 2325
	},
	{
	"epoch": 2.820823244552058,
	"grad_norm": 6.490035057067871,
	"learning_rate": 4.512435097041412e-05,
	"loss": 0.0892,
	"num_input_tokens_seen": 956736,
	"step": 2330
	},
	{
	"epoch": 2.8268765133171914,
	"grad_norm": 3.498931407928467,
	"learning_rate": 4.509296462344136e-05,
	"loss": 0.0698,
	"num_input_tokens_seen": 958816,
	"step": 2335
	},
	{
	"epoch": 2.8329297820823243,
	"grad_norm": 5.152684211730957,
	"learning_rate": 4.50614885669557e-05,
	"loss": 0.2331,
	"num_input_tokens_seen": 960800,
	"step": 2340
	},
	{
	"epoch": 2.8389830508474576,
	"grad_norm": 4.12315559387207,
	"learning_rate": 4.5029922941489e-05,
	"loss": 0.1327,
	"num_input_tokens_seen": 962976,
	"step": 2345
	},
	{
	"epoch": 2.845036319612591,
	"grad_norm": 3.800520896911621,
	"learning_rate": 4.499826788797302e-05,
	"loss": 0.1845,
	"num_input_tokens_seen": 965088,
	"step": 2350
	},
	{
	"epoch": 2.851089588377724,
	"grad_norm": 3.0858726501464844,
	"learning_rate": 4.49665235477388e-05,
	"loss": 0.1429,
	"num_input_tokens_seen": 967136,
	"step": 2355
	},
	{
	"epoch": 2.857142857142857,
	"grad_norm": 3.461909055709839,
	"learning_rate": 4.493469006251601e-05,
	"loss": 0.1257,
	"num_input_tokens_seen": 969248,
	"step": 2360
	},
	{
	"epoch": 2.86319612590799,
	"grad_norm": 0.6151326298713684,
	"learning_rate": 4.490276757443233e-05,
	"loss": 0.1448,
	"num_input_tokens_seen": 971360,
	"step": 2365
	},
	{
	"epoch": 2.8692493946731235,
	"grad_norm": 0.8009752035140991,
	"learning_rate": 4.487075622601281e-05,
	"loss": 0.0933,
	"num_input_tokens_seen": 973408,
	"step": 2370
	},
	{
	"epoch": 2.875302663438257,
	"grad_norm": 0.28616681694984436,
	"learning_rate": 4.483865616017924e-05,
	"loss": 0.1037,
	"num_input_tokens_seen": 975392,
	"step": 2375
	},
	{
	"epoch": 2.8813559322033897,
	"grad_norm": 2.447929859161377,
	"learning_rate": 4.480646752024951e-05,
	"loss": 0.0563,
	"num_input_tokens_seen": 977376,
	"step": 2380
	},
	{
	"epoch": 2.887409200968523,
	"grad_norm": 0.7191622853279114,
	"learning_rate": 4.477419044993697e-05,
	"loss": 0.1621,
	"num_input_tokens_seen": 979328,
	"step": 2385
	},
	{
	"epoch": 2.893462469733656,
	"grad_norm": 4.25314474105835,
	"learning_rate": 4.474182509334978e-05,
	"loss": 0.1238,
	"num_input_tokens_seen": 981376,
	"step": 2390
	},
	{
	"epoch": 2.8995157384987893,
	"grad_norm": 1.7415614128112793,
	"learning_rate": 4.470937159499029e-05,
	"loss": 0.0546,
	"num_input_tokens_seen": 983360,
	"step": 2395
	},
	{
	"epoch": 2.9055690072639226,
	"grad_norm": 1.0595369338989258,
	"learning_rate": 4.467683009975435e-05,
	"loss": 0.1113,
	"num_input_tokens_seen": 985408,
	"step": 2400
	},
	{
	"epoch": 2.9116222760290555,
	"grad_norm": 5.065093994140625,
	"learning_rate": 4.464420075293072e-05,
	"loss": 0.1293,
	"num_input_tokens_seen": 987584,
	"step": 2405
	},
	{
	"epoch": 2.917675544794189,
	"grad_norm": 2.5174288749694824,
	"learning_rate": 4.4611483700200374e-05,
	"loss": 0.1081,
	"num_input_tokens_seen": 989632,
	"step": 2410
	},
	{
	"epoch": 2.923728813559322,
	"grad_norm": 0.578865110874176,
	"learning_rate": 4.457867908763589e-05,
	"loss": 0.0653,
	"num_input_tokens_seen": 991680,
	"step": 2415
	},
	{
	"epoch": 2.929782082324455,
	"grad_norm": 0.7825148701667786,
	"learning_rate": 4.454578706170075e-05,
	"loss": 0.0944,
	"num_input_tokens_seen": 993824,
	"step": 2420
	},
	{
	"epoch": 2.9358353510895885,
	"grad_norm": 0.21404187381267548,
	"learning_rate": 4.4512807769248723e-05,
	"loss": 0.0885,
	"num_input_tokens_seen": 995904,
	"step": 2425
	},
	{
	"epoch": 2.9418886198547214,
	"grad_norm": 0.4999610483646393,
	"learning_rate": 4.447974135752321e-05,
	"loss": 0.0637,
	"num_input_tokens_seen": 998080,
	"step": 2430
	},
	{
	"epoch": 2.9479418886198547,
	"grad_norm": 5.155250072479248,
	"learning_rate": 4.444658797415656e-05,
	"loss": 0.1987,
	"num_input_tokens_seen": 1000160,
	"step": 2435
	},
	{
	"epoch": 2.9539951573849876,
	"grad_norm": 0.5416507124900818,
	"learning_rate": 4.441334776716944e-05,
	"loss": 0.1704,
	"num_input_tokens_seen": 1002368,
	"step": 2440
	},
	{
	"epoch": 2.960048426150121,
	"grad_norm": 5.383670806884766,
	"learning_rate": 4.438002088497015e-05,
	"loss": 0.1466,
	"num_input_tokens_seen": 1004448,
	"step": 2445
	},
	{
	"epoch": 2.9661016949152543,
	"grad_norm": 3.468714475631714,
	"learning_rate": 4.434660747635396e-05,
	"loss": 0.0692,
	"num_input_tokens_seen": 1006336,
	"step": 2450
	},
	{
	"epoch": 2.9721549636803877,
	"grad_norm": 0.6584161520004272,
	"learning_rate": 4.4313107690502485e-05,
	"loss": 0.1368,
	"num_input_tokens_seen": 1008416,
	"step": 2455
	},
	{
	"epoch": 2.9782082324455206,
	"grad_norm": 0.13571301102638245,
	"learning_rate": 4.427952167698298e-05,
	"loss": 0.1044,
	"num_input_tokens_seen": 1010400,
	"step": 2460
	},
	{
	"epoch": 2.9842615012106535,
	"grad_norm": 0.7680113315582275,
	"learning_rate": 4.4245849585747654e-05,
	"loss": 0.1064,
	"num_input_tokens_seen": 1012320,
	"step": 2465
	},
	{
	"epoch": 2.990314769975787,
	"grad_norm": 0.6504201889038086,
	"learning_rate": 4.4212091567133083e-05,
	"loss": 0.1309,
	"num_input_tokens_seen": 1014400,
	"step": 2470
	},
	{
	"epoch": 2.99636803874092,
	"grad_norm": 0.6503428220748901,
	"learning_rate": 4.417824777185943e-05,
	"loss": 0.0702,
	"num_input_tokens_seen": 1016480,
	"step": 2475
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.14438338577747345,
	"eval_runtime": 4.5701,
	"eval_samples_per_second": 80.305,
	"eval_steps_per_second": 20.131,
	"num_input_tokens_seen": 1017368,
	"step": 2478
	},
	{
	"epoch": 3.002421307506053,
	"grad_norm": 2.1441495418548584,
	"learning_rate": 4.414431835102987e-05,
	"loss": 0.0468,
	"num_input_tokens_seen": 1018232,
	"step": 2480
	},
	{
	"epoch": 3.0084745762711864,
	"grad_norm": 0.11217233538627625,
	"learning_rate": 4.411030345612984e-05,
	"loss": 0.1225,
	"num_input_tokens_seen": 1020280,
	"step": 2485
	},
	{
	"epoch": 3.0145278450363198,
	"grad_norm": 0.7029927372932434,
	"learning_rate": 4.407620323902643e-05,
	"loss": 0.0755,
	"num_input_tokens_seen": 1022328,
	"step": 2490
	},
	{
	"epoch": 3.0205811138014527,
	"grad_norm": 3.3221864700317383,
	"learning_rate": 4.404201785196762e-05,
	"loss": 0.1046,
	"num_input_tokens_seen": 1024312,
	"step": 2495
	},
	{
	"epoch": 3.026634382566586,
	"grad_norm": 1.9272534847259521,
	"learning_rate": 4.400774744758171e-05,
	"loss": 0.094,
	"num_input_tokens_seen": 1026392,
	"step": 2500
	},
	{
	"epoch": 3.032687651331719,
	"grad_norm": 6.2990899085998535,
	"learning_rate": 4.397339217887652e-05,
	"loss": 0.0966,
	"num_input_tokens_seen": 1028344,
	"step": 2505
	},
	{
	"epoch": 3.0387409200968523,
	"grad_norm": 6.206118583679199,
	"learning_rate": 4.393895219923881e-05,
	"loss": 0.2425,
	"num_input_tokens_seen": 1030520,
	"step": 2510
	},
	{
	"epoch": 3.0447941888619856,
	"grad_norm": 1.4443256855010986,
	"learning_rate": 4.3904427662433534e-05,
	"loss": 0.1987,
	"num_input_tokens_seen": 1032728,
	"step": 2515
	},
	{
	"epoch": 3.0508474576271185,
	"grad_norm": 3.545659303665161,
	"learning_rate": 4.386981872260317e-05,
	"loss": 0.0737,
	"num_input_tokens_seen": 1034808,
	"step": 2520
	},
	{
	"epoch": 3.056900726392252,
	"grad_norm": 3.7366652488708496,
	"learning_rate": 4.383512553426703e-05,
	"loss": 0.1712,
	"num_input_tokens_seen": 1036888,
	"step": 2525
	},
	{
	"epoch": 3.062953995157385,
	"grad_norm": 3.9347126483917236,
	"learning_rate": 4.380034825232059e-05,
	"loss": 0.11,
	"num_input_tokens_seen": 1039000,
	"step": 2530
	},
	{
	"epoch": 3.069007263922518,
	"grad_norm": 3.4273524284362793,
	"learning_rate": 4.376548703203474e-05,
	"loss": 0.1139,
	"num_input_tokens_seen": 1040984,
	"step": 2535
	},
	{
	"epoch": 3.0750605326876514,
	"grad_norm": 1.0495061874389648,
	"learning_rate": 4.3730542029055174e-05,
	"loss": 0.0579,
	"num_input_tokens_seen": 1043000,
	"step": 2540
	},
	{
	"epoch": 3.0811138014527844,
	"grad_norm": 1.4927022457122803,
	"learning_rate": 4.3695513399401646e-05,
	"loss": 0.1328,
	"num_input_tokens_seen": 1044984,
	"step": 2545
	},
	{
	"epoch": 3.0871670702179177,
	"grad_norm": 1.1897157430648804,
	"learning_rate": 4.366040129946725e-05,
	"loss": 0.1041,
	"num_input_tokens_seen": 1047096,
	"step": 2550
	},
	{
	"epoch": 3.093220338983051,
	"grad_norm": 1.3103008270263672,
	"learning_rate": 4.362520588601777e-05,
	"loss": 0.1656,
	"num_input_tokens_seen": 1049208,
	"step": 2555
	},
	{
	"epoch": 3.099273607748184,
	"grad_norm": 4.3546223640441895,
	"learning_rate": 4.3589927316190983e-05,
	"loss": 0.2196,
	"num_input_tokens_seen": 1051192,
	"step": 2560
	},
	{
	"epoch": 3.1053268765133173,
	"grad_norm": 2.591219186782837,
	"learning_rate": 4.35545657474959e-05,
	"loss": 0.1287,
	"num_input_tokens_seen": 1053240,
	"step": 2565
	},
	{
	"epoch": 3.11138014527845,
	"grad_norm": 2.16152024269104,
	"learning_rate": 4.351912133781213e-05,
	"loss": 0.0659,
	"num_input_tokens_seen": 1055384,
	"step": 2570
	},
	{
	"epoch": 3.1174334140435835,
	"grad_norm": 0.5291240811347961,
	"learning_rate": 4.3483594245389106e-05,
	"loss": 0.1992,
	"num_input_tokens_seen": 1057464,
	"step": 2575
	},
	{
	"epoch": 3.123486682808717,
	"grad_norm": 3.001479148864746,
	"learning_rate": 4.3447984628845464e-05,
	"loss": 0.0759,
	"num_input_tokens_seen": 1059736,
	"step": 2580
	},
	{
	"epoch": 3.12953995157385,
	"grad_norm": 2.1946427822113037,
	"learning_rate": 4.341229264716825e-05,
	"loss": 0.1369,
	"num_input_tokens_seen": 1061656,
	"step": 2585
	},
	{
	"epoch": 3.135593220338983,
	"grad_norm": 3.4312591552734375,
	"learning_rate": 4.337651845971227e-05,
	"loss": 0.0533,
	"num_input_tokens_seen": 1063736,
	"step": 2590
	},
	{
	"epoch": 3.141646489104116,
	"grad_norm": 0.5884976387023926,
	"learning_rate": 4.334066222619933e-05,
	"loss": 0.1154,
	"num_input_tokens_seen": 1065720,
	"step": 2595
	},
	{
	"epoch": 3.1476997578692494,
	"grad_norm": 4.081981658935547,
	"learning_rate": 4.3304724106717584e-05,
	"loss": 0.1374,
	"num_input_tokens_seen": 1067736,
	"step": 2600
	},
	{
	"epoch": 3.1537530266343827,
	"grad_norm": 0.2492610514163971,
	"learning_rate": 4.326870426172075e-05,
	"loss": 0.0978,
	"num_input_tokens_seen": 1069848,
	"step": 2605
	},
	{
	"epoch": 3.1598062953995156,
	"grad_norm": 1.401228427886963,
	"learning_rate": 4.323260285202746e-05,
	"loss": 0.0858,
	"num_input_tokens_seen": 1071960,
	"step": 2610
	},
	{
	"epoch": 3.165859564164649,
	"grad_norm": 3.4008891582489014,
	"learning_rate": 4.3196420038820475e-05,
	"loss": 0.0843,
	"num_input_tokens_seen": 1074072,
	"step": 2615
	},
	{
	"epoch": 3.171912832929782,
	"grad_norm": 3.2857916355133057,
	"learning_rate": 4.316015598364603e-05,
	"loss": 0.1736,
	"num_input_tokens_seen": 1076184,
	"step": 2620
	},
	{
	"epoch": 3.1779661016949152,
	"grad_norm": 1.1122257709503174,
	"learning_rate": 4.312381084841307e-05,
	"loss": 0.1213,
	"num_input_tokens_seen": 1078360,
	"step": 2625
	},
	{
	"epoch": 3.1840193704600486,
	"grad_norm": 1.347262978553772,
	"learning_rate": 4.308738479539254e-05,
	"loss": 0.125,
	"num_input_tokens_seen": 1080440,
	"step": 2630
	},
	{
	"epoch": 3.1900726392251815,
	"grad_norm": 0.6629340052604675,
	"learning_rate": 4.305087798721665e-05,
	"loss": 0.11,
	"num_input_tokens_seen": 1082520,
	"step": 2635
	},
	{
	"epoch": 3.196125907990315,
	"grad_norm": 4.0958170890808105,
	"learning_rate": 4.30142905868782e-05,
	"loss": 0.1791,
	"num_input_tokens_seen": 1084408,
	"step": 2640
	},
	{
	"epoch": 3.2021791767554477,
	"grad_norm": 2.998307943344116,
	"learning_rate": 4.297762275772975e-05,
	"loss": 0.0911,
	"num_input_tokens_seen": 1086424,
	"step": 2645
	},
	{
	"epoch": 3.208232445520581,
	"grad_norm": 3.835343360900879,
	"learning_rate": 4.2940874663483005e-05,
	"loss": 0.1416,
	"num_input_tokens_seen": 1088440,
	"step": 2650
	},
	{
	"epoch": 3.2142857142857144,
	"grad_norm": 0.17636780440807343,
	"learning_rate": 4.2904046468208006e-05,
	"loss": 0.1582,
	"num_input_tokens_seen": 1090648,
	"step": 2655
	},
	{
	"epoch": 3.2203389830508473,
	"grad_norm": 5.161961555480957,
	"learning_rate": 4.286713833633242e-05,
	"loss": 0.1795,
	"num_input_tokens_seen": 1092632,
	"step": 2660
	},
	{
	"epoch": 3.2263922518159807,
	"grad_norm": 0.3390583097934723,
	"learning_rate": 4.283015043264084e-05,
	"loss": 0.0862,
	"num_input_tokens_seen": 1094648,
	"step": 2665
	},
	{
	"epoch": 3.232445520581114,
	"grad_norm": 2.341804265975952,
	"learning_rate": 4.279308292227396e-05,
	"loss": 0.1128,
	"num_input_tokens_seen": 1096728,
	"step": 2670
	},
	{
	"epoch": 3.238498789346247,
	"grad_norm": 1.2374261617660522,
	"learning_rate": 4.275593597072796e-05,
	"loss": 0.0901,
	"num_input_tokens_seen": 1098872,
	"step": 2675
	},
	{
	"epoch": 3.2445520581113803,
	"grad_norm": 3.755679130554199,
	"learning_rate": 4.2718709743853654e-05,
	"loss": 0.0633,
	"num_input_tokens_seen": 1101048,
	"step": 2680
	},
	{
	"epoch": 3.250605326876513,
	"grad_norm": 4.655717372894287,
	"learning_rate": 4.268140440785584e-05,
	"loss": 0.1257,
	"num_input_tokens_seen": 1103320,
	"step": 2685
	},
	{
	"epoch": 3.2566585956416465,
	"grad_norm": 2.0559744834899902,
	"learning_rate": 4.264402012929247e-05,
	"loss": 0.0598,
	"num_input_tokens_seen": 1105336,
	"step": 2690
	},
	{
	"epoch": 3.26271186440678,
	"grad_norm": 2.825394868850708,
	"learning_rate": 4.2606557075073996e-05,
	"loss": 0.1262,
	"num_input_tokens_seen": 1107288,
	"step": 2695
	},
	{
	"epoch": 3.2687651331719128,
	"grad_norm": 1.9354199171066284,
	"learning_rate": 4.256901541246255e-05,
	"loss": 0.0741,
	"num_input_tokens_seen": 1109368,
	"step": 2700
	},
	{
	"epoch": 3.274818401937046,
	"grad_norm": 4.32333517074585,
	"learning_rate": 4.253139530907124e-05,
	"loss": 0.1098,
	"num_input_tokens_seen": 1111576,
	"step": 2705
	},
	{
	"epoch": 3.280871670702179,
	"grad_norm": 0.3646182417869568,
	"learning_rate": 4.249369693286341e-05,
	"loss": 0.1509,
	"num_input_tokens_seen": 1113624,
	"step": 2710
	},
	{
	"epoch": 3.2869249394673123,
	"grad_norm": 3.2211687564849854,
	"learning_rate": 4.245592045215182e-05,
	"loss": 0.1527,
	"num_input_tokens_seen": 1115512,
	"step": 2715
	},
	{
	"epoch": 3.2929782082324457,
	"grad_norm": 1.915663242340088,
	"learning_rate": 4.2418066035598e-05,
	"loss": 0.0569,
	"num_input_tokens_seen": 1117464,
	"step": 2720
	},
	{
	"epoch": 3.2990314769975786,
	"grad_norm": 4.4511590003967285,
	"learning_rate": 4.238013385221142e-05,
	"loss": 0.1169,
	"num_input_tokens_seen": 1119480,
	"step": 2725
	},
	{
	"epoch": 3.305084745762712,
	"grad_norm": 0.2371293008327484,
	"learning_rate": 4.2342124071348744e-05,
	"loss": 0.0296,
	"num_input_tokens_seen": 1121496,
	"step": 2730
	},
	{
	"epoch": 3.3111380145278453,
	"grad_norm": 2.90073561668396,
	"learning_rate": 4.230403686271309e-05,
	"loss": 0.0977,
	"num_input_tokens_seen": 1123480,
	"step": 2735
	},
	{
	"epoch": 3.317191283292978,
	"grad_norm": 6.4930500984191895,
	"learning_rate": 4.2265872396353314e-05,
	"loss": 0.2057,
	"num_input_tokens_seen": 1125528,
	"step": 2740
	},
	{
	"epoch": 3.3232445520581115,
	"grad_norm": 2.2125489711761475,
	"learning_rate": 4.2227630842663136e-05,
	"loss": 0.0457,
	"num_input_tokens_seen": 1127512,
	"step": 2745
	},
	{
	"epoch": 3.3292978208232444,
	"grad_norm": 0.3942786455154419,
	"learning_rate": 4.21893123723805e-05,
	"loss": 0.0164,
	"num_input_tokens_seen": 1129592,
	"step": 2750
	},
	{
	"epoch": 3.335351089588378,
	"grad_norm": 6.583146095275879,
	"learning_rate": 4.2150917156586735e-05,
	"loss": 0.1122,
	"num_input_tokens_seen": 1131576,
	"step": 2755
	},
	{
	"epoch": 3.341404358353511,
	"grad_norm": 1.0589375495910645,
	"learning_rate": 4.211244536670584e-05,
	"loss": 0.0896,
	"num_input_tokens_seen": 1133784,
	"step": 2760
	},
	{
	"epoch": 3.347457627118644,
	"grad_norm": 3.002046585083008,
	"learning_rate": 4.207389717450368e-05,
	"loss": 0.2762,
	"num_input_tokens_seen": 1135800,
	"step": 2765
	},
	{
	"epoch": 3.3535108958837774,
	"grad_norm": 4.337278366088867,
	"learning_rate": 4.203527275208723e-05,
	"loss": 0.1217,
	"num_input_tokens_seen": 1137784,
	"step": 2770
	},
	{
	"epoch": 3.3595641646489103,
	"grad_norm": 1.5810871124267578,
	"learning_rate": 4.199657227190384e-05,
	"loss": 0.1831,
	"num_input_tokens_seen": 1139896,
	"step": 2775
	},
	{
	"epoch": 3.3656174334140436,
	"grad_norm": 1.9263957738876343,
	"learning_rate": 4.195779590674041e-05,
	"loss": 0.0314,
	"num_input_tokens_seen": 1142040,
	"step": 2780
	},
	{
	"epoch": 3.371670702179177,
	"grad_norm": 3.1378190517425537,
	"learning_rate": 4.191894382972264e-05,
	"loss": 0.083,
	"num_input_tokens_seen": 1144088,
	"step": 2785
	},
	{
	"epoch": 3.37772397094431,
	"grad_norm": 0.04914064332842827,
	"learning_rate": 4.188001621431429e-05,
	"loss": 0.1129,
	"num_input_tokens_seen": 1146232,
	"step": 2790
	},
	{
	"epoch": 3.383777239709443,
	"grad_norm": 5.580847263336182,
	"learning_rate": 4.184101323431636e-05,
	"loss": 0.3408,
	"num_input_tokens_seen": 1148344,
	"step": 2795
	},
	{
	"epoch": 3.389830508474576,
	"grad_norm": 4.590537071228027,
	"learning_rate": 4.180193506386634e-05,
	"loss": 0.1085,
	"num_input_tokens_seen": 1150360,
	"step": 2800
	},
	{
	"epoch": 3.3958837772397095,
	"grad_norm": 2.900740146636963,
	"learning_rate": 4.1762781877437406e-05,
	"loss": 0.0514,
	"num_input_tokens_seen": 1152376,
	"step": 2805
	},
	{
	"epoch": 3.401937046004843,
	"grad_norm": 4.106755256652832,
	"learning_rate": 4.172355384983769e-05,
	"loss": 0.2247,
	"num_input_tokens_seen": 1154424,
	"step": 2810
	},
	{
	"epoch": 3.4079903147699757,
	"grad_norm": 4.872042179107666,
	"learning_rate": 4.168425115620944e-05,
	"loss": 0.1178,
	"num_input_tokens_seen": 1156472,
	"step": 2815
	},
	{
	"epoch": 3.414043583535109,
	"grad_norm": 4.917882442474365,
	"learning_rate": 4.164487397202829e-05,
	"loss": 0.2427,
	"num_input_tokens_seen": 1158552,
	"step": 2820
	},
	{
	"epoch": 3.420096852300242,
	"grad_norm": 4.278311729431152,
	"learning_rate": 4.160542247310244e-05,
	"loss": 0.1525,
	"num_input_tokens_seen": 1160696,
	"step": 2825
	},
	{
	"epoch": 3.4261501210653753,
	"grad_norm": 5.004565715789795,
	"learning_rate": 4.156589683557189e-05,
	"loss": 0.1883,
	"num_input_tokens_seen": 1162808,
	"step": 2830
	},
	{
	"epoch": 3.4322033898305087,
	"grad_norm": 3.080528736114502,
	"learning_rate": 4.1526297235907635e-05,
	"loss": 0.0894,
	"num_input_tokens_seen": 1164728,
	"step": 2835
	},
	{
	"epoch": 3.4382566585956416,
	"grad_norm": 0.4325386881828308,
	"learning_rate": 4.148662385091091e-05,
	"loss": 0.1208,
	"num_input_tokens_seen": 1166808,
	"step": 2840
	},
	{
	"epoch": 3.444309927360775,
	"grad_norm": 1.3167212009429932,
	"learning_rate": 4.144687685771238e-05,
	"loss": 0.0684,
	"num_input_tokens_seen": 1168888,
	"step": 2845
	},
	{
	"epoch": 3.450363196125908,
	"grad_norm": 2.3370537757873535,
	"learning_rate": 4.140705643377133e-05,
	"loss": 0.1124,
	"num_input_tokens_seen": 1170872,
	"step": 2850
	},
	{
	"epoch": 3.456416464891041,
	"grad_norm": 4.785461902618408,
	"learning_rate": 4.1367162756874925e-05,
	"loss": 0.1198,
	"num_input_tokens_seen": 1172984,
	"step": 2855
	},
	{
	"epoch": 3.4624697336561745,
	"grad_norm": 5.924464702606201,
	"learning_rate": 4.132719600513734e-05,
	"loss": 0.092,
	"num_input_tokens_seen": 1175032,
	"step": 2860
	},
	{
	"epoch": 3.4685230024213074,
	"grad_norm": 3.9813077449798584,
	"learning_rate": 4.128715635699905e-05,
	"loss": 0.1867,
	"num_input_tokens_seen": 1177240,
	"step": 2865
	},
	{
	"epoch": 3.4745762711864407,
	"grad_norm": 0.31910327076911926,
	"learning_rate": 4.124704399122597e-05,
	"loss": 0.1416,
	"num_input_tokens_seen": 1179192,
	"step": 2870
	},
	{
	"epoch": 3.4806295399515736,
	"grad_norm": 0.5019274950027466,
	"learning_rate": 4.120685908690869e-05,
	"loss": 0.1544,
	"num_input_tokens_seen": 1181112,
	"step": 2875
	},
	{
	"epoch": 3.486682808716707,
	"grad_norm": 6.107857704162598,
	"learning_rate": 4.1166601823461656e-05,
	"loss": 0.1366,
	"num_input_tokens_seen": 1183128,
	"step": 2880
	},
	{
	"epoch": 3.4927360774818403,
	"grad_norm": 2.1856138706207275,
	"learning_rate": 4.112627238062239e-05,
	"loss": 0.0745,
	"num_input_tokens_seen": 1185240,
	"step": 2885
	},
	{
	"epoch": 3.4987893462469732,
	"grad_norm": 0.27053192257881165,
	"learning_rate": 4.1085870938450656e-05,
	"loss": 0.1314,
	"num_input_tokens_seen": 1187320,
	"step": 2890
	},
	{
	"epoch": 3.5,
	"eval_loss": 0.137603759765625,
	"eval_runtime": 4.5756,
	"eval_samples_per_second": 80.208,
	"eval_steps_per_second": 20.107,
	"num_input_tokens_seen": 1187704,
	"step": 2891
	},
	{
	"epoch": 3.5048426150121066,
	"grad_norm": 1.7873985767364502,
	"learning_rate": 4.1045397677327684e-05,
	"loss": 0.0986,
	"num_input_tokens_seen": 1189400,
	"step": 2895
	},
	{
	"epoch": 3.5108958837772395,
	"grad_norm": 1.725449562072754,
	"learning_rate": 4.1004852777955364e-05,
	"loss": 0.1157,
	"num_input_tokens_seen": 1191384,
	"step": 2900
	},
	{
	"epoch": 3.516949152542373,
	"grad_norm": 4.23082160949707,
	"learning_rate": 4.096423642135543e-05,
	"loss": 0.0537,
	"num_input_tokens_seen": 1193368,
	"step": 2905
	},
	{
	"epoch": 3.523002421307506,
	"grad_norm": 0.3017522692680359,
	"learning_rate": 4.0923548788868625e-05,
	"loss": 0.0296,
	"num_input_tokens_seen": 1195512,
	"step": 2910
	},
	{
	"epoch": 3.529055690072639,
	"grad_norm": 0.3969971239566803,
	"learning_rate": 4.0882790062153957e-05,
	"loss": 0.1352,
	"num_input_tokens_seen": 1197560,
	"step": 2915
	},
	{
	"epoch": 3.5351089588377724,
	"grad_norm": 0.6447391510009766,
	"learning_rate": 4.084196042318783e-05,
	"loss": 0.063,
	"num_input_tokens_seen": 1199768,
	"step": 2920
	},
	{
	"epoch": 3.5411622276029053,
	"grad_norm": 5.6643877029418945,
	"learning_rate": 4.080106005426326e-05,
	"loss": 0.2772,
	"num_input_tokens_seen": 1201848,
	"step": 2925
	},
	{
	"epoch": 3.5472154963680387,
	"grad_norm": 4.083348751068115,
	"learning_rate": 4.076008913798903e-05,
	"loss": 0.1208,
	"num_input_tokens_seen": 1203896,
	"step": 2930
	},
	{
	"epoch": 3.553268765133172,
	"grad_norm": 3.979558229446411,
	"learning_rate": 4.071904785728894e-05,
	"loss": 0.1456,
	"num_input_tokens_seen": 1205880,
	"step": 2935
	},
	{
	"epoch": 3.559322033898305,
	"grad_norm": 8.00076961517334,
	"learning_rate": 4.0677936395400906e-05,
	"loss": 0.1744,
	"num_input_tokens_seen": 1207896,
	"step": 2940
	},
	{
	"epoch": 3.5653753026634383,
	"grad_norm": 3.3506362438201904,
	"learning_rate": 4.063675493587621e-05,
	"loss": 0.199,
	"num_input_tokens_seen": 1210008,
	"step": 2945
	},
	{
	"epoch": 3.571428571428571,
	"grad_norm": 6.1021881103515625,
	"learning_rate": 4.059550366257864e-05,
	"loss": 0.0986,
	"num_input_tokens_seen": 1212024,
	"step": 2950
	},
	{
	"epoch": 3.5774818401937045,
	"grad_norm": 0.7336778044700623,
	"learning_rate": 4.055418275968368e-05,
	"loss": 0.0768,
	"num_input_tokens_seen": 1214040,
	"step": 2955
	},
	{
	"epoch": 3.583535108958838,
	"grad_norm": 2.5828888416290283,
	"learning_rate": 4.0512792411677705e-05,
	"loss": 0.0929,
	"num_input_tokens_seen": 1216088,
	"step": 2960
	},
	{
	"epoch": 3.589588377723971,
	"grad_norm": 3.6418821811676025,
	"learning_rate": 4.047133280335713e-05,
	"loss": 0.1131,
	"num_input_tokens_seen": 1218136,
	"step": 2965
	},
	{
	"epoch": 3.595641646489104,
	"grad_norm": 0.2827266454696655,
	"learning_rate": 4.042980411982762e-05,
	"loss": 0.092,
	"num_input_tokens_seen": 1220248,
	"step": 2970
	},
	{
	"epoch": 3.601694915254237,
	"grad_norm": 4.693321228027344,
	"learning_rate": 4.0388206546503215e-05,
	"loss": 0.2923,
	"num_input_tokens_seen": 1222360,
	"step": 2975
	},
	{
	"epoch": 3.6077481840193704,
	"grad_norm": 2.132143020629883,
	"learning_rate": 4.0346540269105546e-05,
	"loss": 0.1654,
	"num_input_tokens_seen": 1224568,
	"step": 2980
	},
	{
	"epoch": 3.6138014527845037,
	"grad_norm": 2.10683274269104,
	"learning_rate": 4.030480547366297e-05,
	"loss": 0.1568,
	"num_input_tokens_seen": 1226648,
	"step": 2985
	},
	{
	"epoch": 3.619854721549637,
	"grad_norm": 3.6658689975738525,
	"learning_rate": 4.026300234650979e-05,
	"loss": 0.1603,
	"num_input_tokens_seen": 1228600,
	"step": 2990
	},
	{
	"epoch": 3.62590799031477,
	"grad_norm": 2.4331119060516357,
	"learning_rate": 4.022113107428536e-05,
	"loss": 0.0855,
	"num_input_tokens_seen": 1230616,
	"step": 2995
	},
	{
	"epoch": 3.6319612590799033,
	"grad_norm": 3.701345443725586,
	"learning_rate": 4.0179191843933286e-05,
	"loss": 0.1095,
	"num_input_tokens_seen": 1232632,
	"step": 3000
	},
	{
	"epoch": 3.638014527845036,
	"grad_norm": 1.2965837717056274,
	"learning_rate": 4.013718484270061e-05,
	"loss": 0.0896,
	"num_input_tokens_seen": 1234552,
	"step": 3005
	},
	{
	"epoch": 3.6440677966101696,
	"grad_norm": 1.7559748888015747,
	"learning_rate": 4.009511025813694e-05,
	"loss": 0.0422,
	"num_input_tokens_seen": 1236728,
	"step": 3010
	},
	{
	"epoch": 3.650121065375303,
	"grad_norm": 3.9477643966674805,
	"learning_rate": 4.005296827809362e-05,
	"loss": 0.2595,
	"num_input_tokens_seen": 1238776,
	"step": 3015
	},
	{
	"epoch": 3.656174334140436,
	"grad_norm": 1.9731038808822632,
	"learning_rate": 4.001075909072289e-05,
	"loss": 0.1161,
	"num_input_tokens_seen": 1240856,
	"step": 3020
	},
	{
	"epoch": 3.662227602905569,
	"grad_norm": 0.5970947742462158,
	"learning_rate": 3.9968482884477075e-05,
	"loss": 0.0828,
	"num_input_tokens_seen": 1242936,
	"step": 3025
	},
	{
	"epoch": 3.668280871670702,
	"grad_norm": 2.401581048965454,
	"learning_rate": 3.992613984810771e-05,
	"loss": 0.1905,
	"num_input_tokens_seen": 1245080,
	"step": 3030
	},
	{
	"epoch": 3.6743341404358354,
	"grad_norm": 1.213310956954956,
	"learning_rate": 3.988373017066469e-05,
	"loss": 0.0652,
	"num_input_tokens_seen": 1247192,
	"step": 3035
	},
	{
	"epoch": 3.6803874092009687,
	"grad_norm": 3.343557119369507,
	"learning_rate": 3.984125404149548e-05,
	"loss": 0.0579,
	"num_input_tokens_seen": 1249240,
	"step": 3040
	},
	{
	"epoch": 3.6864406779661016,
	"grad_norm": 0.24004943668842316,
	"learning_rate": 3.9798711650244194e-05,
	"loss": 0.1836,
	"num_input_tokens_seen": 1251320,
	"step": 3045
	},
	{
	"epoch": 3.692493946731235,
	"grad_norm": 6.831732749938965,
	"learning_rate": 3.9756103186850825e-05,
	"loss": 0.2021,
	"num_input_tokens_seen": 1253336,
	"step": 3050
	},
	{
	"epoch": 3.698547215496368,
	"grad_norm": 3.7986762523651123,
	"learning_rate": 3.971342884155033e-05,
	"loss": 0.1354,
	"num_input_tokens_seen": 1255352,
	"step": 3055
	},
	{
	"epoch": 3.7046004842615012,
	"grad_norm": 0.4976424276828766,
	"learning_rate": 3.9670688804871815e-05,
	"loss": 0.0733,
	"num_input_tokens_seen": 1257272,
	"step": 3060
	},
	{
	"epoch": 3.7106537530266346,
	"grad_norm": 1.6615444421768188,
	"learning_rate": 3.96278832676377e-05,
	"loss": 0.1375,
	"num_input_tokens_seen": 1259416,
	"step": 3065
	},
	{
	"epoch": 3.7167070217917675,
	"grad_norm": 0.4979148209095001,
	"learning_rate": 3.958501242096283e-05,
	"loss": 0.1439,
	"num_input_tokens_seen": 1261496,
	"step": 3070
	},
	{
	"epoch": 3.722760290556901,
	"grad_norm": 1.3393867015838623,
	"learning_rate": 3.954207645625365e-05,
	"loss": 0.0512,
	"num_input_tokens_seen": 1263480,
	"step": 3075
	},
	{
	"epoch": 3.7288135593220337,
	"grad_norm": 1.7195483446121216,
	"learning_rate": 3.949907556520731e-05,
	"loss": 0.1391,
	"num_input_tokens_seen": 1265528,
	"step": 3080
	},
	{
	"epoch": 3.734866828087167,
	"grad_norm": 0.9343760013580322,
	"learning_rate": 3.9456009939810886e-05,
	"loss": 0.0898,
	"num_input_tokens_seen": 1267512,
	"step": 3085
	},
	{
	"epoch": 3.7409200968523004,
	"grad_norm": 4.527099609375,
	"learning_rate": 3.941287977234043e-05,
	"loss": 0.1332,
	"num_input_tokens_seen": 1269560,
	"step": 3090
	},
	{
	"epoch": 3.7469733656174333,
	"grad_norm": 2.255335807800293,
	"learning_rate": 3.9369685255360175e-05,
	"loss": 0.0676,
	"num_input_tokens_seen": 1271640,
	"step": 3095
	},
	{
	"epoch": 3.7530266343825667,
	"grad_norm": 1.6302518844604492,
	"learning_rate": 3.9326426581721663e-05,
	"loss": 0.0341,
	"num_input_tokens_seen": 1273688,
	"step": 3100
	},
	{
	"epoch": 3.7590799031476996,
	"grad_norm": 0.33657604455947876,
	"learning_rate": 3.9283103944562874e-05,
	"loss": 0.0306,
	"num_input_tokens_seen": 1275768,
	"step": 3105
	},
	{
	"epoch": 3.765133171912833,
	"grad_norm": 0.6542962193489075,
	"learning_rate": 3.923971753730735e-05,
	"loss": 0.0519,
	"num_input_tokens_seen": 1277752,
	"step": 3110
	},
	{
	"epoch": 3.7711864406779663,
	"grad_norm": 2.5565290451049805,
	"learning_rate": 3.919626755366338e-05,
	"loss": 0.1122,
	"num_input_tokens_seen": 1279864,
	"step": 3115
	},
	{
	"epoch": 3.777239709443099,
	"grad_norm": 0.5348601937294006,
	"learning_rate": 3.9152754187623086e-05,
	"loss": 0.1073,
	"num_input_tokens_seen": 1281880,
	"step": 3120
	},
	{
	"epoch": 3.7832929782082325,
	"grad_norm": 3.66865611076355,
	"learning_rate": 3.910917763346156e-05,
	"loss": 0.0425,
	"num_input_tokens_seen": 1283928,
	"step": 3125
	},
	{
	"epoch": 3.7893462469733654,
	"grad_norm": 2.6302590370178223,
	"learning_rate": 3.906553808573604e-05,
	"loss": 0.2901,
	"num_input_tokens_seen": 1285944,
	"step": 3130
	},
	{
	"epoch": 3.7953995157384988,
	"grad_norm": 2.9969611167907715,
	"learning_rate": 3.9021835739285e-05,
	"loss": 0.1615,
	"num_input_tokens_seen": 1287928,
	"step": 3135
	},
	{
	"epoch": 3.801452784503632,
	"grad_norm": 4.440647602081299,
	"learning_rate": 3.897807078922728e-05,
	"loss": 0.1891,
	"num_input_tokens_seen": 1290008,
	"step": 3140
	},
	{
	"epoch": 3.807506053268765,
	"grad_norm": 6.937892913818359,
	"learning_rate": 3.8934243430961265e-05,
	"loss": 0.0881,
	"num_input_tokens_seen": 1292120,
	"step": 3145
	},
	{
	"epoch": 3.8135593220338984,
	"grad_norm": 2.623624086380005,
	"learning_rate": 3.889035386016393e-05,
	"loss": 0.1615,
	"num_input_tokens_seen": 1294040,
	"step": 3150
	},
	{
	"epoch": 3.8196125907990313,
	"grad_norm": 5.344344615936279,
	"learning_rate": 3.8846402272790044e-05,
	"loss": 0.1284,
	"num_input_tokens_seen": 1296024,
	"step": 3155
	},
	{
	"epoch": 3.8256658595641646,
	"grad_norm": 3.985133409500122,
	"learning_rate": 3.8802388865071246e-05,
	"loss": 0.1705,
	"num_input_tokens_seen": 1298104,
	"step": 3160
	},
	{
	"epoch": 3.831719128329298,
	"grad_norm": 1.2340222597122192,
	"learning_rate": 3.875831383351519e-05,
	"loss": 0.0358,
	"num_input_tokens_seen": 1300248,
	"step": 3165
	},
	{
	"epoch": 3.837772397094431,
	"grad_norm": 2.6467792987823486,
	"learning_rate": 3.8714177374904683e-05,
	"loss": 0.1947,
	"num_input_tokens_seen": 1302104,
	"step": 3170
	},
	{
	"epoch": 3.843825665859564,
	"grad_norm": 0.4315508306026459,
	"learning_rate": 3.866997968629674e-05,
	"loss": 0.0413,
	"num_input_tokens_seen": 1304056,
	"step": 3175
	},
	{
	"epoch": 3.849878934624697,
	"grad_norm": 3.8331992626190186,
	"learning_rate": 3.86257209650218e-05,
	"loss": 0.0932,
	"num_input_tokens_seen": 1306104,
	"step": 3180
	},
	{
	"epoch": 3.8559322033898304,
	"grad_norm": 1.633231282234192,
	"learning_rate": 3.858140140868276e-05,
	"loss": 0.1438,
	"num_input_tokens_seen": 1308056,
	"step": 3185
	},
	{
	"epoch": 3.861985472154964,
	"grad_norm": 3.581052780151367,
	"learning_rate": 3.853702121515416e-05,
	"loss": 0.1224,
	"num_input_tokens_seen": 1310104,
	"step": 3190
	},
	{
	"epoch": 3.8680387409200967,
	"grad_norm": 3.2716169357299805,
	"learning_rate": 3.849258058258124e-05,
	"loss": 0.0858,
	"num_input_tokens_seen": 1312152,
	"step": 3195
	},
	{
	"epoch": 3.87409200968523,
	"grad_norm": 6.2645368576049805,
	"learning_rate": 3.84480797093791e-05,
	"loss": 0.0981,
	"num_input_tokens_seen": 1314328,
	"step": 3200
	},
	{
	"epoch": 3.880145278450363,
	"grad_norm": 3.6259467601776123,
	"learning_rate": 3.8403518794231795e-05,
	"loss": 0.0788,
	"num_input_tokens_seen": 1316344,
	"step": 3205
	},
	{
	"epoch": 3.8861985472154963,
	"grad_norm": 2.101606845855713,
	"learning_rate": 3.835889803609145e-05,
	"loss": 0.0663,
	"num_input_tokens_seen": 1318360,
	"step": 3210
	},
	{
	"epoch": 3.8922518159806296,
	"grad_norm": 0.37834468483924866,
	"learning_rate": 3.8314217634177376e-05,
	"loss": 0.0548,
	"num_input_tokens_seen": 1320376,
	"step": 3215
	},
	{
	"epoch": 3.898305084745763,
	"grad_norm": 0.7180870771408081,
	"learning_rate": 3.826947778797516e-05,
	"loss": 0.0425,
	"num_input_tokens_seen": 1322616,
	"step": 3220
	},
	{
	"epoch": 3.904358353510896,
	"grad_norm": 1.2626093626022339,
	"learning_rate": 3.822467869723581e-05,
	"loss": 0.2914,
	"num_input_tokens_seen": 1324664,
	"step": 3225
	},
	{
	"epoch": 3.910411622276029,
	"grad_norm": 5.424513339996338,
	"learning_rate": 3.8179820561974835e-05,
	"loss": 0.1202,
	"num_input_tokens_seen": 1326616,
	"step": 3230
	},
	{
	"epoch": 3.916464891041162,
	"grad_norm": 3.26811146736145,
	"learning_rate": 3.813490358247137e-05,
	"loss": 0.0692,
	"num_input_tokens_seen": 1328760,
	"step": 3235
	},
	{
	"epoch": 3.9225181598062955,
	"grad_norm": 2.555222511291504,
	"learning_rate": 3.8089927959267255e-05,
	"loss": 0.1256,
	"num_input_tokens_seen": 1330968,
	"step": 3240
	},
	{
	"epoch": 3.928571428571429,
	"grad_norm": 3.6134443283081055,
	"learning_rate": 3.8044893893166203e-05,
	"loss": 0.1744,
	"num_input_tokens_seen": 1332952,
	"step": 3245
	},
	{
	"epoch": 3.9346246973365617,
	"grad_norm": 3.7331314086914062,
	"learning_rate": 3.799980158523279e-05,
	"loss": 0.1684,
	"num_input_tokens_seen": 1335064,
	"step": 3250
	},
	{
	"epoch": 3.940677966101695,
	"grad_norm": 5.901867389678955,
	"learning_rate": 3.795465123679167e-05,
	"loss": 0.1036,
	"num_input_tokens_seen": 1337080,
	"step": 3255
	},
	{
	"epoch": 3.946731234866828,
	"grad_norm": 3.149181365966797,
	"learning_rate": 3.790944304942664e-05,
	"loss": 0.1296,
	"num_input_tokens_seen": 1339096,
	"step": 3260
	},
	{
	"epoch": 3.9527845036319613,
	"grad_norm": 0.9098186492919922,
	"learning_rate": 3.7864177224979696e-05,
	"loss": 0.0825,
	"num_input_tokens_seen": 1341048,
	"step": 3265
	},
	{
	"epoch": 3.9588377723970947,
	"grad_norm": 5.158130168914795,
	"learning_rate": 3.781885396555019e-05,
	"loss": 0.1029,
	"num_input_tokens_seen": 1343224,
	"step": 3270
	},
	{
	"epoch": 3.9648910411622276,
	"grad_norm": 0.13243332505226135,
	"learning_rate": 3.777347347349392e-05,
	"loss": 0.1416,
	"num_input_tokens_seen": 1345272,
	"step": 3275
	},
	{
	"epoch": 3.970944309927361,
	"grad_norm": 9.198348045349121,
	"learning_rate": 3.7728035951422166e-05,
	"loss": 0.2062,
	"num_input_tokens_seen": 1347416,
	"step": 3280
	},
	{
	"epoch": 3.976997578692494,
	"grad_norm": 0.32454535365104675,
	"learning_rate": 3.7682541602200875e-05,
	"loss": 0.0542,
	"num_input_tokens_seen": 1349464,
	"step": 3285
	},
	{
	"epoch": 3.983050847457627,
	"grad_norm": 0.24111558496952057,
	"learning_rate": 3.76369906289497e-05,
	"loss": 0.1584,
	"num_input_tokens_seen": 1351352,
	"step": 3290
	},
	{
	"epoch": 3.9891041162227605,
	"grad_norm": 1.5734061002731323,
	"learning_rate": 3.7591383235041086e-05,
	"loss": 0.0471,
	"num_input_tokens_seen": 1353368,
	"step": 3295
	},
	{
	"epoch": 3.9951573849878934,
	"grad_norm": 0.10585124790668488,
	"learning_rate": 3.75457196240994e-05,
	"loss": 0.1547,
	"num_input_tokens_seen": 1355416,
	"step": 3300
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.13813835382461548,
	"eval_runtime": 4.5782,
	"eval_samples_per_second": 80.162,
	"eval_steps_per_second": 20.095,
	"num_input_tokens_seen": 1356744,
	"step": 3304
	},
	{
	"epoch": 4.001210653753026,
	"grad_norm": 0.9487738609313965,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 0.1349,
	"num_input_tokens_seen": 1357192,
	"step": 3305
	},
	{
	"epoch": 4.00726392251816,
	"grad_norm": 3.7472715377807617,
	"learning_rate": 3.7454224566868327e-05,
	"loss": 0.1112,
	"num_input_tokens_seen": 1359272,
	"step": 3310
	},
	{
	"epoch": 4.013317191283293,
	"grad_norm": 4.9403886795043945,
	"learning_rate": 3.7408393529078985e-05,
	"loss": 0.1103,
	"num_input_tokens_seen": 1361480,
	"step": 3315
	},
	{
	"epoch": 4.019370460048426,
	"grad_norm": 0.8156682848930359,
	"learning_rate": 3.7362507091254836e-05,
	"loss": 0.1043,
	"num_input_tokens_seen": 1363560,
	"step": 3320
	},
	{
	"epoch": 4.02542372881356,
	"grad_norm": 4.155811786651611,
	"learning_rate": 3.7316565458266114e-05,
	"loss": 0.241,
	"num_input_tokens_seen": 1365640,
	"step": 3325
	},
	{
	"epoch": 4.031476997578692,
	"grad_norm": 1.49620521068573,
	"learning_rate": 3.727056883522945e-05,
	"loss": 0.0996,
	"num_input_tokens_seen": 1367720,
	"step": 3330
	},
	{
	"epoch": 4.0375302663438255,
	"grad_norm": 4.452794551849365,
	"learning_rate": 3.722451742750701e-05,
	"loss": 0.1678,
	"num_input_tokens_seen": 1369704,
	"step": 3335
	},
	{
	"epoch": 4.043583535108959,
	"grad_norm": 4.364172458648682,
	"learning_rate": 3.717841144070556e-05,
	"loss": 0.1008,
	"num_input_tokens_seen": 1371816,
	"step": 3340
	},
	{
	"epoch": 4.049636803874092,
	"grad_norm": 0.06378893554210663,
	"learning_rate": 3.713225108067553e-05,
	"loss": 0.0347,
	"num_input_tokens_seen": 1373800,
	"step": 3345
	},
	{
	"epoch": 4.0556900726392255,
	"grad_norm": 0.38104724884033203,
	"learning_rate": 3.708603655351012e-05,
	"loss": 0.0651,
	"num_input_tokens_seen": 1375752,
	"step": 3350
	},
	{
	"epoch": 4.061743341404358,
	"grad_norm": 4.189276695251465,
	"learning_rate": 3.7039768065544395e-05,
	"loss": 0.1629,
	"num_input_tokens_seen": 1377896,
	"step": 3355
	},
	{
	"epoch": 4.067796610169491,
	"grad_norm": 1.064452052116394,
	"learning_rate": 3.69934458233543e-05,
	"loss": 0.0949,
	"num_input_tokens_seen": 1379912,
	"step": 3360
	},
	{
	"epoch": 4.073849878934625,
	"grad_norm": 2.7440671920776367,
	"learning_rate": 3.694707003375579e-05,
	"loss": 0.1777,
	"num_input_tokens_seen": 1381960,
	"step": 3365
	},
	{
	"epoch": 4.079903147699758,
	"grad_norm": 3.948115825653076,
	"learning_rate": 3.690064090380392e-05,
	"loss": 0.1963,
	"num_input_tokens_seen": 1384072,
	"step": 3370
	},
	{
	"epoch": 4.085956416464891,
	"grad_norm": 2.6125643253326416,
	"learning_rate": 3.685415864079185e-05,
	"loss": 0.1138,
	"num_input_tokens_seen": 1386152,
	"step": 3375
	},
	{
	"epoch": 4.092009685230024,
	"grad_norm": 2.7647571563720703,
	"learning_rate": 3.680762345225001e-05,
	"loss": 0.0476,
	"num_input_tokens_seen": 1388168,
	"step": 3380
	},
	{
	"epoch": 4.098062953995157,
	"grad_norm": 2.3222060203552246,
	"learning_rate": 3.676103554594511e-05,
	"loss": 0.0609,
	"num_input_tokens_seen": 1390152,
	"step": 3385
	},
	{
	"epoch": 4.1041162227602905,
	"grad_norm": 6.68032693862915,
	"learning_rate": 3.671439512987921e-05,
	"loss": 0.1748,
	"num_input_tokens_seen": 1392168,
	"step": 3390
	},
	{
	"epoch": 4.110169491525424,
	"grad_norm": 2.3445775508880615,
	"learning_rate": 3.666770241228883e-05,
	"loss": 0.07,
	"num_input_tokens_seen": 1394376,
	"step": 3395
	},
	{
	"epoch": 4.116222760290557,
	"grad_norm": 0.17334812879562378,
	"learning_rate": 3.6620957601644016e-05,
	"loss": 0.0244,
	"num_input_tokens_seen": 1396520,
	"step": 3400
	},
	{
	"epoch": 4.12227602905569,
	"grad_norm": 0.5321148037910461,
	"learning_rate": 3.657416090664737e-05,
	"loss": 0.0809,
	"num_input_tokens_seen": 1398600,
	"step": 3405
	},
	{
	"epoch": 4.128329297820823,
	"grad_norm": 1.0061872005462646,
	"learning_rate": 3.652731253623315e-05,
	"loss": 0.1107,
	"num_input_tokens_seen": 1400584,
	"step": 3410
	},
	{
	"epoch": 4.134382566585956,
	"grad_norm": 0.31218233704566956,
	"learning_rate": 3.648041269956634e-05,
	"loss": 0.0652,
	"num_input_tokens_seen": 1402760,
	"step": 3415
	},
	{
	"epoch": 4.14043583535109,
	"grad_norm": 2.9069929122924805,
	"learning_rate": 3.6433461606041695e-05,
	"loss": 0.1431,
	"num_input_tokens_seen": 1404936,
	"step": 3420
	},
	{
	"epoch": 4.146489104116223,
	"grad_norm": 5.1606926918029785,
	"learning_rate": 3.6386459465282824e-05,
	"loss": 0.0984,
	"num_input_tokens_seen": 1406920,
	"step": 3425
	},
	{
	"epoch": 4.1525423728813555,
	"grad_norm": 5.275994777679443,
	"learning_rate": 3.6339406487141255e-05,
	"loss": 0.0691,
	"num_input_tokens_seen": 1408840,
	"step": 3430
	},
	{
	"epoch": 4.158595641646489,
	"grad_norm": 2.359971284866333,
	"learning_rate": 3.6292302881695464e-05,
	"loss": 0.1333,
	"num_input_tokens_seen": 1410696,
	"step": 3435
	},
	{
	"epoch": 4.164648910411622,
	"grad_norm": 1.0342682600021362,
	"learning_rate": 3.6245148859249996e-05,
	"loss": 0.1415,
	"num_input_tokens_seen": 1412680,
	"step": 3440
	},
	{
	"epoch": 4.170702179176756,
	"grad_norm": 1.001820683479309,
	"learning_rate": 3.619794463033447e-05,
	"loss": 0.0941,
	"num_input_tokens_seen": 1414728,
	"step": 3445
	},
	{
	"epoch": 4.176755447941889,
	"grad_norm": 0.8069421052932739,
	"learning_rate": 3.6150690405702685e-05,
	"loss": 0.0293,
	"num_input_tokens_seen": 1416712,
	"step": 3450
	},
	{
	"epoch": 4.182808716707021,
	"grad_norm": 4.724492073059082,
	"learning_rate": 3.6103386396331635e-05,
	"loss": 0.0611,
	"num_input_tokens_seen": 1418952,
	"step": 3455
	},
	{
	"epoch": 4.188861985472155,
	"grad_norm": 6.935494422912598,
	"learning_rate": 3.605603281342061e-05,
	"loss": 0.1149,
	"num_input_tokens_seen": 1421032,
	"step": 3460
	},
	{
	"epoch": 4.194915254237288,
	"grad_norm": 0.4098648130893707,
	"learning_rate": 3.6008629868390204e-05,
	"loss": 0.1266,
	"num_input_tokens_seen": 1423048,
	"step": 3465
	},
	{
	"epoch": 4.200968523002421,
	"grad_norm": 5.3340020179748535,
	"learning_rate": 3.5961177772881434e-05,
	"loss": 0.2302,
	"num_input_tokens_seen": 1425192,
	"step": 3470
	},
	{
	"epoch": 4.207021791767555,
	"grad_norm": 0.06073416396975517,
	"learning_rate": 3.591367673875472e-05,
	"loss": 0.1065,
	"num_input_tokens_seen": 1427304,
	"step": 3475
	},
	{
	"epoch": 4.213075060532688,
	"grad_norm": 3.5133183002471924,
	"learning_rate": 3.5866126978089025e-05,
	"loss": 0.2221,
	"num_input_tokens_seen": 1429288,
	"step": 3480
	},
	{
	"epoch": 4.219128329297821,
	"grad_norm": 6.023957252502441,
	"learning_rate": 3.5818528703180826e-05,
	"loss": 0.0864,
	"num_input_tokens_seen": 1431400,
	"step": 3485
	},
	{
	"epoch": 4.225181598062954,
	"grad_norm": 3.456350803375244,
	"learning_rate": 3.577088212654322e-05,
	"loss": 0.137,
	"num_input_tokens_seen": 1433576,
	"step": 3490
	},
	{
	"epoch": 4.231234866828087,
	"grad_norm": 1.2072936296463013,
	"learning_rate": 3.572318746090496e-05,
	"loss": 0.0733,
	"num_input_tokens_seen": 1435560,
	"step": 3495
	},
	{
	"epoch": 4.237288135593221,
	"grad_norm": 6.404455184936523,
	"learning_rate": 3.5675444919209486e-05,
	"loss": 0.1385,
	"num_input_tokens_seen": 1437672,
	"step": 3500
	},
	{
	"epoch": 4.243341404358354,
	"grad_norm": 4.31003999710083,
	"learning_rate": 3.5627654714614e-05,
	"loss": 0.1378,
	"num_input_tokens_seen": 1439656,
	"step": 3505
	},
	{
	"epoch": 4.249394673123486,
	"grad_norm": 1.0932585000991821,
	"learning_rate": 3.557981706048852e-05,
	"loss": 0.0267,
	"num_input_tokens_seen": 1441608,
	"step": 3510
	},
	{
	"epoch": 4.25544794188862,
	"grad_norm": 3.007089138031006,
	"learning_rate": 3.5531932170414896e-05,
	"loss": 0.0983,
	"num_input_tokens_seen": 1443624,
	"step": 3515
	},
	{
	"epoch": 4.261501210653753,
	"grad_norm": 0.3836453855037689,
	"learning_rate": 3.5484000258185876e-05,
	"loss": 0.0431,
	"num_input_tokens_seen": 1445736,
	"step": 3520
	},
	{
	"epoch": 4.267554479418886,
	"grad_norm": 2.0524728298187256,
	"learning_rate": 3.5436021537804144e-05,
	"loss": 0.1157,
	"num_input_tokens_seen": 1447880,
	"step": 3525
	},
	{
	"epoch": 4.27360774818402,
	"grad_norm": 4.9584479331970215,
	"learning_rate": 3.538799622348139e-05,
	"loss": 0.2273,
	"num_input_tokens_seen": 1449896,
	"step": 3530
	},
	{
	"epoch": 4.279661016949152,
	"grad_norm": 0.3631916642189026,
	"learning_rate": 3.5339924529637304e-05,
	"loss": 0.0961,
	"num_input_tokens_seen": 1451880,
	"step": 3535
	},
	{
	"epoch": 4.285714285714286,
	"grad_norm": 0.1526634246110916,
	"learning_rate": 3.529180667089868e-05,
	"loss": 0.0849,
	"num_input_tokens_seen": 1453992,
	"step": 3540
	},
	{
	"epoch": 4.291767554479419,
	"grad_norm": 0.08341622352600098,
	"learning_rate": 3.52436428620984e-05,
	"loss": 0.1471,
	"num_input_tokens_seen": 1455912,
	"step": 3545
	},
	{
	"epoch": 4.297820823244552,
	"grad_norm": 1.2977865934371948,
	"learning_rate": 3.5195433318274516e-05,
	"loss": 0.1623,
	"num_input_tokens_seen": 1458024,
	"step": 3550
	},
	{
	"epoch": 4.303874092009686,
	"grad_norm": 0.30896905064582825,
	"learning_rate": 3.514717825466925e-05,
	"loss": 0.0768,
	"num_input_tokens_seen": 1459976,
	"step": 3555
	},
	{
	"epoch": 4.309927360774818,
	"grad_norm": 4.159477710723877,
	"learning_rate": 3.509887788672809e-05,
	"loss": 0.1655,
	"num_input_tokens_seen": 1462120,
	"step": 3560
	},
	{
	"epoch": 4.315980629539951,
	"grad_norm": 4.378042221069336,
	"learning_rate": 3.5050532430098774e-05,
	"loss": 0.1571,
	"num_input_tokens_seen": 1464104,
	"step": 3565
	},
	{
	"epoch": 4.322033898305085,
	"grad_norm": 4.206084728240967,
	"learning_rate": 3.500214210063035e-05,
	"loss": 0.1301,
	"num_input_tokens_seen": 1466216,
	"step": 3570
	},
	{
	"epoch": 4.328087167070218,
	"grad_norm": 3.4586846828460693,
	"learning_rate": 3.495370711437221e-05,
	"loss": 0.0902,
	"num_input_tokens_seen": 1468264,
	"step": 3575
	},
	{
	"epoch": 4.3341404358353515,
	"grad_norm": 0.12353920936584473,
	"learning_rate": 3.490522768757316e-05,
	"loss": 0.1492,
	"num_input_tokens_seen": 1470408,
	"step": 3580
	},
	{
	"epoch": 4.340193704600484,
	"grad_norm": 0.6406307220458984,
	"learning_rate": 3.485670403668036e-05,
	"loss": 0.0404,
	"num_input_tokens_seen": 1472392,
	"step": 3585
	},
	{
	"epoch": 4.346246973365617,
	"grad_norm": 0.753180742263794,
	"learning_rate": 3.480813637833846e-05,
	"loss": 0.0436,
	"num_input_tokens_seen": 1474504,
	"step": 3590
	},
	{
	"epoch": 4.352300242130751,
	"grad_norm": 0.8588903546333313,
	"learning_rate": 3.475952492938859e-05,
	"loss": 0.1417,
	"num_input_tokens_seen": 1476616,
	"step": 3595
	},
	{
	"epoch": 4.358353510895884,
	"grad_norm": 2.96315336227417,
	"learning_rate": 3.471086990686737e-05,
	"loss": 0.0421,
	"num_input_tokens_seen": 1478664,
	"step": 3600
	},
	{
	"epoch": 4.364406779661017,
	"grad_norm": 1.0311739444732666,
	"learning_rate": 3.466217152800598e-05,
	"loss": 0.2103,
	"num_input_tokens_seen": 1480648,
	"step": 3605
	},
	{
	"epoch": 4.37046004842615,
	"grad_norm": 0.5896651744842529,
	"learning_rate": 3.461343001022919e-05,
	"loss": 0.0813,
	"num_input_tokens_seen": 1482760,
	"step": 3610
	},
	{
	"epoch": 4.376513317191283,
	"grad_norm": 2.433903932571411,
	"learning_rate": 3.456464557115433e-05,
	"loss": 0.1196,
	"num_input_tokens_seen": 1484744,
	"step": 3615
	},
	{
	"epoch": 4.3825665859564165,
	"grad_norm": 3.2190709114074707,
	"learning_rate": 3.45158184285904e-05,
	"loss": 0.0418,
	"num_input_tokens_seen": 1486728,
	"step": 3620
	},
	{
	"epoch": 4.38861985472155,
	"grad_norm": 2.588831663131714,
	"learning_rate": 3.446694880053704e-05,
	"loss": 0.051,
	"num_input_tokens_seen": 1488808,
	"step": 3625
	},
	{
	"epoch": 4.394673123486683,
	"grad_norm": 4.543102264404297,
	"learning_rate": 3.441803690518359e-05,
	"loss": 0.1555,
	"num_input_tokens_seen": 1490984,
	"step": 3630
	},
	{
	"epoch": 4.400726392251816,
	"grad_norm": 3.894247055053711,
	"learning_rate": 3.4369082960908084e-05,
	"loss": 0.1524,
	"num_input_tokens_seen": 1493000,
	"step": 3635
	},
	{
	"epoch": 4.406779661016949,
	"grad_norm": 2.111471176147461,
	"learning_rate": 3.432008718627631e-05,
	"loss": 0.2373,
	"num_input_tokens_seen": 1494920,
	"step": 3640
	},
	{
	"epoch": 4.412832929782082,
	"grad_norm": 5.577587604522705,
	"learning_rate": 3.4271049800040805e-05,
	"loss": 0.1239,
	"num_input_tokens_seen": 1496904,
	"step": 3645
	},
	{
	"epoch": 4.418886198547216,
	"grad_norm": 2.5321731567382812,
	"learning_rate": 3.42219710211399e-05,
	"loss": 0.0717,
	"num_input_tokens_seen": 1498792,
	"step": 3650
	},
	{
	"epoch": 4.424939467312349,
	"grad_norm": 0.10607433319091797,
	"learning_rate": 3.417285106869673e-05,
	"loss": 0.0888,
	"num_input_tokens_seen": 1500840,
	"step": 3655
	},
	{
	"epoch": 4.4309927360774815,
	"grad_norm": 3.724353551864624,
	"learning_rate": 3.4123690162018246e-05,
	"loss": 0.0908,
	"num_input_tokens_seen": 1502888,
	"step": 3660
	},
	{
	"epoch": 4.437046004842615,
	"grad_norm": 5.9483208656311035,
	"learning_rate": 3.407448852059426e-05,
	"loss": 0.0772,
	"num_input_tokens_seen": 1504904,
	"step": 3665
	},
	{
	"epoch": 4.443099273607748,
	"grad_norm": 3.859468936920166,
	"learning_rate": 3.4025246364096455e-05,
	"loss": 0.1303,
	"num_input_tokens_seen": 1506824,
	"step": 3670
	},
	{
	"epoch": 4.4491525423728815,
	"grad_norm": 1.015526294708252,
	"learning_rate": 3.397596391237739e-05,
	"loss": 0.141,
	"num_input_tokens_seen": 1508872,
	"step": 3675
	},
	{
	"epoch": 4.455205811138015,
	"grad_norm": 3.720564126968384,
	"learning_rate": 3.3926641385469556e-05,
	"loss": 0.1819,
	"num_input_tokens_seen": 1510824,
	"step": 3680
	},
	{
	"epoch": 4.461259079903147,
	"grad_norm": 3.61460542678833,
	"learning_rate": 3.387727900358435e-05,
	"loss": 0.1805,
	"num_input_tokens_seen": 1512968,
	"step": 3685
	},
	{
	"epoch": 4.467312348668281,
	"grad_norm": 5.1266889572143555,
	"learning_rate": 3.38278769871111e-05,
	"loss": 0.1072,
	"num_input_tokens_seen": 1515144,
	"step": 3690
	},
	{
	"epoch": 4.473365617433414,
	"grad_norm": 2.495168685913086,
	"learning_rate": 3.377843555661612e-05,
	"loss": 0.064,
	"num_input_tokens_seen": 1517192,
	"step": 3695
	},
	{
	"epoch": 4.479418886198547,
	"grad_norm": 1.2742055654525757,
	"learning_rate": 3.372895493284167e-05,
	"loss": 0.0776,
	"num_input_tokens_seen": 1519400,
	"step": 3700
	},
	{
	"epoch": 4.485472154963681,
	"grad_norm": 0.7095040678977966,
	"learning_rate": 3.367943533670501e-05,
	"loss": 0.0758,
	"num_input_tokens_seen": 1521416,
	"step": 3705
	},
	{
	"epoch": 4.491525423728813,
	"grad_norm": 2.5754213333129883,
	"learning_rate": 3.3629876989297405e-05,
	"loss": 0.1493,
	"num_input_tokens_seen": 1523240,
	"step": 3710
	},
	{
	"epoch": 4.4975786924939465,
	"grad_norm": 1.1021342277526855,
	"learning_rate": 3.3580280111883125e-05,
	"loss": 0.1357,
	"num_input_tokens_seen": 1525288,
	"step": 3715
	},
	{
	"epoch": 4.5,
	"eval_loss": 0.1436297744512558,
	"eval_runtime": 4.6052,
	"eval_samples_per_second": 79.693,
	"eval_steps_per_second": 19.978,
	"num_input_tokens_seen": 1526088,
	"step": 3717
	},
	{
	"epoch": 4.50363196125908,
	"grad_norm": 1.27449631690979,
	"learning_rate": 3.3530644925898465e-05,
	"loss": 0.1015,
	"num_input_tokens_seen": 1527304,
	"step": 3720
	},
	{
	"epoch": 4.509685230024213,
	"grad_norm": 4.025327205657959,
	"learning_rate": 3.348097165295076e-05,
	"loss": 0.1539,
	"num_input_tokens_seen": 1529384,
	"step": 3725
	},
	{
	"epoch": 4.5157384987893465,
	"grad_norm": 0.13018469512462616,
	"learning_rate": 3.34312605148174e-05,
	"loss": 0.0881,
	"num_input_tokens_seen": 1531464,
	"step": 3730
	},
	{
	"epoch": 4.521791767554479,
	"grad_norm": 5.49751091003418,
	"learning_rate": 3.338151173344483e-05,
	"loss": 0.1117,
	"num_input_tokens_seen": 1533608,
	"step": 3735
	},
	{
	"epoch": 4.527845036319612,
	"grad_norm": 0.5280150175094604,
	"learning_rate": 3.333172553094754e-05,
	"loss": 0.0613,
	"num_input_tokens_seen": 1535656,
	"step": 3740
	},
	{
	"epoch": 4.533898305084746,
	"grad_norm": 4.4329986572265625,
	"learning_rate": 3.328190212960712e-05,
	"loss": 0.1342,
	"num_input_tokens_seen": 1537640,
	"step": 3745
	},
	{
	"epoch": 4.539951573849879,
	"grad_norm": 2.851104974746704,
	"learning_rate": 3.323204175187125e-05,
	"loss": 0.1218,
	"num_input_tokens_seen": 1539592,
	"step": 3750
	},
	{
	"epoch": 4.546004842615012,
	"grad_norm": 1.7534023523330688,
	"learning_rate": 3.318214462035266e-05,
	"loss": 0.0491,
	"num_input_tokens_seen": 1541576,
	"step": 3755
	},
	{
	"epoch": 4.552058111380145,
	"grad_norm": 3.9379611015319824,
	"learning_rate": 3.3132210957828226e-05,
	"loss": 0.1587,
	"num_input_tokens_seen": 1543464,
	"step": 3760
	},
	{
	"epoch": 4.558111380145278,
	"grad_norm": 2.7358548641204834,
	"learning_rate": 3.3082240987237875e-05,
	"loss": 0.0942,
	"num_input_tokens_seen": 1545416,
	"step": 3765
	},
	{
	"epoch": 4.5641646489104115,
	"grad_norm": 1.8120285272598267,
	"learning_rate": 3.3032234931683684e-05,
	"loss": 0.045,
	"num_input_tokens_seen": 1547432,
	"step": 3770
	},
	{
	"epoch": 4.570217917675545,
	"grad_norm": 0.10306795686483383,
	"learning_rate": 3.2982193014428805e-05,
	"loss": 0.0788,
	"num_input_tokens_seen": 1549576,
	"step": 3775
	},
	{
	"epoch": 4.576271186440678,
	"grad_norm": 1.0330625772476196,
	"learning_rate": 3.2932115458896515e-05,
	"loss": 0.1055,
	"num_input_tokens_seen": 1551688,
	"step": 3780
	},
	{
	"epoch": 4.582324455205811,
	"grad_norm": 0.3044089078903198,
	"learning_rate": 3.2882002488669204e-05,
	"loss": 0.1335,
	"num_input_tokens_seen": 1553672,
	"step": 3785
	},
	{
	"epoch": 4.588377723970944,
	"grad_norm": 1.4460806846618652,
	"learning_rate": 3.28318543274874e-05,
	"loss": 0.0837,
	"num_input_tokens_seen": 1555720,
	"step": 3790
	},
	{
	"epoch": 4.594430992736077,
	"grad_norm": 3.097297191619873,
	"learning_rate": 3.278167119924872e-05,
	"loss": 0.1103,
	"num_input_tokens_seen": 1557672,
	"step": 3795
	},
	{
	"epoch": 4.600484261501211,
	"grad_norm": 0.30317577719688416,
	"learning_rate": 3.27314533280069e-05,
	"loss": 0.1134,
	"num_input_tokens_seen": 1559880,
	"step": 3800
	},
	{
	"epoch": 4.606537530266344,
	"grad_norm": 3.337770700454712,
	"learning_rate": 3.268120093797082e-05,
	"loss": 0.1148,
	"num_input_tokens_seen": 1561960,
	"step": 3805
	},
	{
	"epoch": 4.6125907990314765,
	"grad_norm": 4.097595691680908,
	"learning_rate": 3.263091425350345e-05,
	"loss": 0.0856,
	"num_input_tokens_seen": 1563880,
	"step": 3810
	},
	{
	"epoch": 4.61864406779661,
	"grad_norm": 0.2643558979034424,
	"learning_rate": 3.258059349912089e-05,
	"loss": 0.098,
	"num_input_tokens_seen": 1565896,
	"step": 3815
	},
	{
	"epoch": 4.624697336561743,
	"grad_norm": 2.8181965351104736,
	"learning_rate": 3.253023889949135e-05,
	"loss": 0.1251,
	"num_input_tokens_seen": 1568040,
	"step": 3820
	},
	{
	"epoch": 4.6307506053268765,
	"grad_norm": 3.229228973388672,
	"learning_rate": 3.247985067943414e-05,
	"loss": 0.1232,
	"num_input_tokens_seen": 1570056,
	"step": 3825
	},
	{
	"epoch": 4.63680387409201,
	"grad_norm": 4.2846999168396,
	"learning_rate": 3.2429429063918696e-05,
	"loss": 0.1687,
	"num_input_tokens_seen": 1572168,
	"step": 3830
	},
	{
	"epoch": 4.642857142857143,
	"grad_norm": 0.9762236475944519,
	"learning_rate": 3.2378974278063534e-05,
	"loss": 0.0517,
	"num_input_tokens_seen": 1574216,
	"step": 3835
	},
	{
	"epoch": 4.648910411622276,
	"grad_norm": 0.32010525465011597,
	"learning_rate": 3.232848654713528e-05,
	"loss": 0.0454,
	"num_input_tokens_seen": 1576168,
	"step": 3840
	},
	{
	"epoch": 4.654963680387409,
	"grad_norm": 1.3530986309051514,
	"learning_rate": 3.227796609654765e-05,
	"loss": 0.157,
	"num_input_tokens_seen": 1578152,
	"step": 3845
	},
	{
	"epoch": 4.661016949152542,
	"grad_norm": 0.9239023327827454,
	"learning_rate": 3.222741315186043e-05,
	"loss": 0.0574,
	"num_input_tokens_seen": 1580104,
	"step": 3850
	},
	{
	"epoch": 4.667070217917676,
	"grad_norm": 0.5891803503036499,
	"learning_rate": 3.217682793877851e-05,
	"loss": 0.1585,
	"num_input_tokens_seen": 1582056,
	"step": 3855
	},
	{
	"epoch": 4.673123486682809,
	"grad_norm": 2.4281816482543945,
	"learning_rate": 3.212621068315081e-05,
	"loss": 0.0981,
	"num_input_tokens_seen": 1584136,
	"step": 3860
	},
	{
	"epoch": 4.6791767554479415,
	"grad_norm": 1.570319652557373,
	"learning_rate": 3.207556161096935e-05,
	"loss": 0.0666,
	"num_input_tokens_seen": 1586184,
	"step": 3865
	},
	{
	"epoch": 4.685230024213075,
	"grad_norm": 0.6124736070632935,
	"learning_rate": 3.202488094836819e-05,
	"loss": 0.1518,
	"num_input_tokens_seen": 1588296,
	"step": 3870
	},
	{
	"epoch": 4.691283292978208,
	"grad_norm": 0.177334725856781,
	"learning_rate": 3.197416892162242e-05,
	"loss": 0.1367,
	"num_input_tokens_seen": 1590504,
	"step": 3875
	},
	{
	"epoch": 4.697336561743342,
	"grad_norm": 3.659196376800537,
	"learning_rate": 3.1923425757147175e-05,
	"loss": 0.1299,
	"num_input_tokens_seen": 1592584,
	"step": 3880
	},
	{
	"epoch": 4.703389830508475,
	"grad_norm": 2.184091806411743,
	"learning_rate": 3.1872651681496604e-05,
	"loss": 0.1015,
	"num_input_tokens_seen": 1594728,
	"step": 3885
	},
	{
	"epoch": 4.709443099273607,
	"grad_norm": 3.05389404296875,
	"learning_rate": 3.182184692136287e-05,
	"loss": 0.0826,
	"num_input_tokens_seen": 1596776,
	"step": 3890
	},
	{
	"epoch": 4.715496368038741,
	"grad_norm": 3.5935373306274414,
	"learning_rate": 3.177101170357513e-05,
	"loss": 0.1999,
	"num_input_tokens_seen": 1598984,
	"step": 3895
	},
	{
	"epoch": 4.721549636803874,
	"grad_norm": 4.548536777496338,
	"learning_rate": 3.1720146255098535e-05,
	"loss": 0.0944,
	"num_input_tokens_seen": 1601096,
	"step": 3900
	},
	{
	"epoch": 4.727602905569007,
	"grad_norm": 0.9657927751541138,
	"learning_rate": 3.16692508030332e-05,
	"loss": 0.1482,
	"num_input_tokens_seen": 1603336,
	"step": 3905
	},
	{
	"epoch": 4.733656174334141,
	"grad_norm": 2.0334603786468506,
	"learning_rate": 3.16183255746132e-05,
	"loss": 0.0449,
	"num_input_tokens_seen": 1605320,
	"step": 3910
	},
	{
	"epoch": 4.739709443099273,
	"grad_norm": 6.739678859710693,
	"learning_rate": 3.156737079720555e-05,
	"loss": 0.0969,
	"num_input_tokens_seen": 1607304,
	"step": 3915
	},
	{
	"epoch": 4.745762711864407,
	"grad_norm": 0.7341704964637756,
	"learning_rate": 3.151638669830919e-05,
	"loss": 0.1329,
	"num_input_tokens_seen": 1609384,
	"step": 3920
	},
	{
	"epoch": 4.75181598062954,
	"grad_norm": 4.675315856933594,
	"learning_rate": 3.1465373505554e-05,
	"loss": 0.1591,
	"num_input_tokens_seen": 1611304,
	"step": 3925
	},
	{
	"epoch": 4.757869249394673,
	"grad_norm": 1.1919448375701904,
	"learning_rate": 3.14143314466997e-05,
	"loss": 0.1263,
	"num_input_tokens_seen": 1613192,
	"step": 3930
	},
	{
	"epoch": 4.763922518159807,
	"grad_norm": 2.328058958053589,
	"learning_rate": 3.136326074963494e-05,
	"loss": 0.0304,
	"num_input_tokens_seen": 1615304,
	"step": 3935
	},
	{
	"epoch": 4.76997578692494,
	"grad_norm": 0.7319985628128052,
	"learning_rate": 3.131216164237622e-05,
	"loss": 0.1002,
	"num_input_tokens_seen": 1617288,
	"step": 3940
	},
	{
	"epoch": 4.776029055690072,
	"grad_norm": 4.388686180114746,
	"learning_rate": 3.1261034353066884e-05,
	"loss": 0.1414,
	"num_input_tokens_seen": 1619336,
	"step": 3945
	},
	{
	"epoch": 4.782082324455206,
	"grad_norm": 3.907365322113037,
	"learning_rate": 3.1209879109976064e-05,
	"loss": 0.0695,
	"num_input_tokens_seen": 1621416,
	"step": 3950
	},
	{
	"epoch": 4.788135593220339,
	"grad_norm": 4.539724349975586,
	"learning_rate": 3.115869614149776e-05,
	"loss": 0.1006,
	"num_input_tokens_seen": 1623432,
	"step": 3955
	},
	{
	"epoch": 4.7941888619854724,
	"grad_norm": 4.285974979400635,
	"learning_rate": 3.1107485676149714e-05,
	"loss": 0.2159,
	"num_input_tokens_seen": 1625448,
	"step": 3960
	},
	{
	"epoch": 4.800242130750606,
	"grad_norm": 5.8608551025390625,
	"learning_rate": 3.105624794257245e-05,
	"loss": 0.1279,
	"num_input_tokens_seen": 1627624,
	"step": 3965
	},
	{
	"epoch": 4.806295399515738,
	"grad_norm": 0.8381302952766418,
	"learning_rate": 3.100498316952823e-05,
	"loss": 0.1144,
	"num_input_tokens_seen": 1629800,
	"step": 3970
	},
	{
	"epoch": 4.812348668280872,
	"grad_norm": 3.4423251152038574,
	"learning_rate": 3.095369158590006e-05,
	"loss": 0.0671,
	"num_input_tokens_seen": 1631720,
	"step": 3975
	},
	{
	"epoch": 4.818401937046005,
	"grad_norm": 1.0596593618392944,
	"learning_rate": 3.09023734206906e-05,
	"loss": 0.1878,
	"num_input_tokens_seen": 1633704,
	"step": 3980
	},
	{
	"epoch": 4.824455205811138,
	"grad_norm": 4.54054069519043,
	"learning_rate": 3.085102890302125e-05,
	"loss": 0.1463,
	"num_input_tokens_seen": 1635656,
	"step": 3985
	},
	{
	"epoch": 4.830508474576272,
	"grad_norm": 1.3257328271865845,
	"learning_rate": 3.079965826213102e-05,
	"loss": 0.1182,
	"num_input_tokens_seen": 1637736,
	"step": 3990
	},
	{
	"epoch": 4.836561743341404,
	"grad_norm": 1.2008308172225952,
	"learning_rate": 3.074826172737559e-05,
	"loss": 0.1531,
	"num_input_tokens_seen": 1639816,
	"step": 3995
	},
	{
	"epoch": 4.842615012106537,
	"grad_norm": 5.070513725280762,
	"learning_rate": 3.0696839528226206e-05,
	"loss": 0.1027,
	"num_input_tokens_seen": 1641736,
	"step": 4000
	},
	{
	"epoch": 4.848668280871671,
	"grad_norm": 1.366325855255127,
	"learning_rate": 3.064539189426874e-05,
	"loss": 0.144,
	"num_input_tokens_seen": 1643656,
	"step": 4005
	},
	{
	"epoch": 4.854721549636804,
	"grad_norm": 5.837193489074707,
	"learning_rate": 3.059391905520259e-05,
	"loss": 0.1821,
	"num_input_tokens_seen": 1645736,
	"step": 4010
	},
	{
	"epoch": 4.8607748184019375,
	"grad_norm": 1.7730399370193481,
	"learning_rate": 3.054242124083972e-05,
	"loss": 0.0776,
	"num_input_tokens_seen": 1647688,
	"step": 4015
	},
	{
	"epoch": 4.86682808716707,
	"grad_norm": 4.303905487060547,
	"learning_rate": 3.0490898681103575e-05,
	"loss": 0.1172,
	"num_input_tokens_seen": 1649768,
	"step": 4020
	},
	{
	"epoch": 4.872881355932203,
	"grad_norm": 6.675983905792236,
	"learning_rate": 3.0439351606028094e-05,
	"loss": 0.1297,
	"num_input_tokens_seen": 1651688,
	"step": 4025
	},
	{
	"epoch": 4.878934624697337,
	"grad_norm": 2.1775729656219482,
	"learning_rate": 3.0387780245756655e-05,
	"loss": 0.0857,
	"num_input_tokens_seen": 1653896,
	"step": 4030
	},
	{
	"epoch": 4.88498789346247,
	"grad_norm": 0.18741416931152344,
	"learning_rate": 3.0336184830541093e-05,
	"loss": 0.0326,
	"num_input_tokens_seen": 1656008,
	"step": 4035
	},
	{
	"epoch": 4.891041162227603,
	"grad_norm": 0.9524343013763428,
	"learning_rate": 3.028456559074061e-05,
	"loss": 0.1001,
	"num_input_tokens_seen": 1658088,
	"step": 4040
	},
	{
	"epoch": 4.897094430992736,
	"grad_norm": 1.6602981090545654,
	"learning_rate": 3.0232922756820804e-05,
	"loss": 0.0551,
	"num_input_tokens_seen": 1660200,
	"step": 4045
	},
	{
	"epoch": 4.903147699757869,
	"grad_norm": 4.7026262283325195,
	"learning_rate": 3.0181256559352587e-05,
	"loss": 0.1072,
	"num_input_tokens_seen": 1662440,
	"step": 4050
	},
	{
	"epoch": 4.9092009685230025,
	"grad_norm": 0.43130701780319214,
	"learning_rate": 3.0129567229011214e-05,
	"loss": 0.0924,
	"num_input_tokens_seen": 1664552,
	"step": 4055
	},
	{
	"epoch": 4.915254237288136,
	"grad_norm": 1.2491116523742676,
	"learning_rate": 3.0077854996575184e-05,
	"loss": 0.081,
	"num_input_tokens_seen": 1666600,
	"step": 4060
	},
	{
	"epoch": 4.921307506053269,
	"grad_norm": 0.4165017902851105,
	"learning_rate": 3.0026120092925293e-05,
	"loss": 0.1173,
	"num_input_tokens_seen": 1668776,
	"step": 4065
	},
	{
	"epoch": 4.927360774818402,
	"grad_norm": 2.2347145080566406,
	"learning_rate": 2.9974362749043512e-05,
	"loss": 0.0687,
	"num_input_tokens_seen": 1670952,
	"step": 4070
	},
	{
	"epoch": 4.933414043583535,
	"grad_norm": 0.06528237462043762,
	"learning_rate": 2.9922583196012037e-05,
	"loss": 0.0733,
	"num_input_tokens_seen": 1673128,
	"step": 4075
	},
	{
	"epoch": 4.939467312348668,
	"grad_norm": 3.1934924125671387,
	"learning_rate": 2.9870781665012204e-05,
	"loss": 0.0489,
	"num_input_tokens_seen": 1675112,
	"step": 4080
	},
	{
	"epoch": 4.945520581113802,
	"grad_norm": 3.640748977661133,
	"learning_rate": 2.981895838732348e-05,
	"loss": 0.1047,
	"num_input_tokens_seen": 1677096,
	"step": 4085
	},
	{
	"epoch": 4.951573849878935,
	"grad_norm": 0.3172272741794586,
	"learning_rate": 2.9767113594322426e-05,
	"loss": 0.1,
	"num_input_tokens_seen": 1679080,
	"step": 4090
	},
	{
	"epoch": 4.9576271186440675,
	"grad_norm": 3.484344959259033,
	"learning_rate": 2.9715247517481655e-05,
	"loss": 0.067,
	"num_input_tokens_seen": 1681000,
	"step": 4095
	},
	{
	"epoch": 4.963680387409201,
	"grad_norm": 2.876481294631958,
	"learning_rate": 2.96633603883688e-05,
	"loss": 0.247,
	"num_input_tokens_seen": 1683048,
	"step": 4100
	},
	{
	"epoch": 4.969733656174334,
	"grad_norm": 2.505605697631836,
	"learning_rate": 2.961145243864552e-05,
	"loss": 0.0494,
	"num_input_tokens_seen": 1685160,
	"step": 4105
	},
	{
	"epoch": 4.9757869249394675,
	"grad_norm": 9.4348783493042,
	"learning_rate": 2.9559523900066395e-05,
	"loss": 0.2144,
	"num_input_tokens_seen": 1687048,
	"step": 4110
	},
	{
	"epoch": 4.981840193704601,
	"grad_norm": 2.766404390335083,
	"learning_rate": 2.9507575004477955e-05,
	"loss": 0.1706,
	"num_input_tokens_seen": 1689000,
	"step": 4115
	},
	{
	"epoch": 4.987893462469733,
	"grad_norm": 3.0030455589294434,
	"learning_rate": 2.9455605983817598e-05,
	"loss": 0.0957,
	"num_input_tokens_seen": 1691112,
	"step": 4120
	},
	{
	"epoch": 4.993946731234867,
	"grad_norm": 0.21309371292591095,
	"learning_rate": 2.9403617070112587e-05,
	"loss": 0.122,
	"num_input_tokens_seen": 1693160,
	"step": 4125
	},
	{
	"epoch": 5.0,
	"grad_norm": 11.627579689025879,
	"learning_rate": 2.9351608495479004e-05,
	"loss": 0.069,
	"num_input_tokens_seen": 1694912,
	"step": 4130
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.14715999364852905,
	"eval_runtime": 4.5922,
	"eval_samples_per_second": 79.919,
	"eval_steps_per_second": 20.034,
	"num_input_tokens_seen": 1694912,
	"step": 4130
	},
	{
	"epoch": 5.006053268765133,
	"grad_norm": 8.168224334716797,
	"learning_rate": 2.92995804921207e-05,
	"loss": 0.0962,
	"num_input_tokens_seen": 1697056,
	"step": 4135
	},
	{
	"epoch": 5.012106537530267,
	"grad_norm": 4.525173187255859,
	"learning_rate": 2.9247533292328273e-05,
	"loss": 0.1041,
	"num_input_tokens_seen": 1699168,
	"step": 4140
	},
	{
	"epoch": 5.018159806295399,
	"grad_norm": 0.5518445372581482,
	"learning_rate": 2.9195467128478044e-05,
	"loss": 0.0151,
	"num_input_tokens_seen": 1701152,
	"step": 4145
	},
	{
	"epoch": 5.0242130750605325,
	"grad_norm": 0.14739976823329926,
	"learning_rate": 2.914338223303098e-05,
	"loss": 0.1272,
	"num_input_tokens_seen": 1703168,
	"step": 4150
	},
	{
	"epoch": 5.030266343825666,
	"grad_norm": 1.3362171649932861,
	"learning_rate": 2.9091278838531695e-05,
	"loss": 0.0119,
	"num_input_tokens_seen": 1705120,
	"step": 4155
	},
	{
	"epoch": 5.036319612590799,
	"grad_norm": 2.4070515632629395,
	"learning_rate": 2.9039157177607383e-05,
	"loss": 0.0939,
	"num_input_tokens_seen": 1707200,
	"step": 4160
	},
	{
	"epoch": 5.0423728813559325,
	"grad_norm": 4.166516304016113,
	"learning_rate": 2.8987017482966815e-05,
	"loss": 0.1308,
	"num_input_tokens_seen": 1709120,
	"step": 4165
	},
	{
	"epoch": 5.048426150121065,
	"grad_norm": 4.306673526763916,
	"learning_rate": 2.893485998739926e-05,
	"loss": 0.0451,
	"num_input_tokens_seen": 1711200,
	"step": 4170
	},
	{
	"epoch": 5.054479418886198,
	"grad_norm": 7.965576171875,
	"learning_rate": 2.8882684923773458e-05,
	"loss": 0.2002,
	"num_input_tokens_seen": 1713248,
	"step": 4175
	},
	{
	"epoch": 5.060532687651332,
	"grad_norm": 2.435213327407837,
	"learning_rate": 2.883049252503659e-05,
	"loss": 0.0611,
	"num_input_tokens_seen": 1715296,
	"step": 4180
	},
	{
	"epoch": 5.066585956416465,
	"grad_norm": 0.1197163313627243,
	"learning_rate": 2.877828302421325e-05,
	"loss": 0.1464,
	"num_input_tokens_seen": 1717280,
	"step": 4185
	},
	{
	"epoch": 5.072639225181598,
	"grad_norm": 5.31384801864624,
	"learning_rate": 2.872605665440436e-05,
	"loss": 0.1242,
	"num_input_tokens_seen": 1719136,
	"step": 4190
	},
	{
	"epoch": 5.078692493946731,
	"grad_norm": 0.12134741991758347,
	"learning_rate": 2.8673813648786196e-05,
	"loss": 0.1163,
	"num_input_tokens_seen": 1721152,
	"step": 4195
	},
	{
	"epoch": 5.084745762711864,
	"grad_norm": 5.05936861038208,
	"learning_rate": 2.862155424060926e-05,
	"loss": 0.0711,
	"num_input_tokens_seen": 1723328,
	"step": 4200
	},
	{
	"epoch": 5.0907990314769975,
	"grad_norm": 0.19684794545173645,
	"learning_rate": 2.856927866319733e-05,
	"loss": 0.0897,
	"num_input_tokens_seen": 1725280,
	"step": 4205
	},
	{
	"epoch": 5.096852300242131,
	"grad_norm": 0.09383846819400787,
	"learning_rate": 2.851698714994635e-05,
	"loss": 0.0437,
	"num_input_tokens_seen": 1727328,
	"step": 4210
	},
	{
	"epoch": 5.102905569007264,
	"grad_norm": 7.017461776733398,
	"learning_rate": 2.8464679934323424e-05,
	"loss": 0.0987,
	"num_input_tokens_seen": 1729472,
	"step": 4215
	},
	{
	"epoch": 5.108958837772397,
	"grad_norm": 0.7437957525253296,
	"learning_rate": 2.841235724986575e-05,
	"loss": 0.0985,
	"num_input_tokens_seen": 1731392,
	"step": 4220
	},
	{
	"epoch": 5.11501210653753,
	"grad_norm": 7.1092705726623535,
	"learning_rate": 2.8360019330179604e-05,
	"loss": 0.188,
	"num_input_tokens_seen": 1733472,
	"step": 4225
	},
	{
	"epoch": 5.121065375302663,
	"grad_norm": 0.43915751576423645,
	"learning_rate": 2.8307666408939278e-05,
	"loss": 0.107,
	"num_input_tokens_seen": 1735520,
	"step": 4230
	},
	{
	"epoch": 5.127118644067797,
	"grad_norm": 0.4318813979625702,
	"learning_rate": 2.8255298719886043e-05,
	"loss": 0.1732,
	"num_input_tokens_seen": 1737536,
	"step": 4235
	},
	{
	"epoch": 5.13317191283293,
	"grad_norm": 4.211883544921875,
	"learning_rate": 2.820291649682709e-05,
	"loss": 0.1299,
	"num_input_tokens_seen": 1739424,
	"step": 4240
	},
	{
	"epoch": 5.1392251815980625,
	"grad_norm": 0.5891851186752319,
	"learning_rate": 2.8150519973634543e-05,
	"loss": 0.0775,
	"num_input_tokens_seen": 1741536,
	"step": 4245
	},
	{
	"epoch": 5.145278450363196,
	"grad_norm": 4.266312122344971,
	"learning_rate": 2.809810938424432e-05,
	"loss": 0.1593,
	"num_input_tokens_seen": 1743488,
	"step": 4250
	},
	{
	"epoch": 5.151331719128329,
	"grad_norm": 2.173311710357666,
	"learning_rate": 2.804568496265516e-05,
	"loss": 0.1045,
	"num_input_tokens_seen": 1745728,
	"step": 4255
	},
	{
	"epoch": 5.157384987893463,
	"grad_norm": 3.343336820602417,
	"learning_rate": 2.799324694292757e-05,
	"loss": 0.0858,
	"num_input_tokens_seen": 1747808,
	"step": 4260
	},
	{
	"epoch": 5.163438256658596,
	"grad_norm": 0.05580740049481392,
	"learning_rate": 2.7940795559182764e-05,
	"loss": 0.0505,
	"num_input_tokens_seen": 1749856,
	"step": 4265
	},
	{
	"epoch": 5.169491525423728,
	"grad_norm": 4.62854528427124,
	"learning_rate": 2.788833104560161e-05,
	"loss": 0.1006,
	"num_input_tokens_seen": 1751904,
	"step": 4270
	},
	{
	"epoch": 5.175544794188862,
	"grad_norm": 0.49617746472358704,
	"learning_rate": 2.7835853636423616e-05,
	"loss": 0.0892,
	"num_input_tokens_seen": 1753984,
	"step": 4275
	},
	{
	"epoch": 5.181598062953995,
	"grad_norm": 2.32796311378479,
	"learning_rate": 2.7783363565945847e-05,
	"loss": 0.0829,
	"num_input_tokens_seen": 1756000,
	"step": 4280
	},
	{
	"epoch": 5.187651331719128,
	"grad_norm": 0.8803606033325195,
	"learning_rate": 2.773086106852192e-05,
	"loss": 0.0805,
	"num_input_tokens_seen": 1758080,
	"step": 4285
	},
	{
	"epoch": 5.193704600484262,
	"grad_norm": 1.4200032949447632,
	"learning_rate": 2.7678346378560903e-05,
	"loss": 0.0972,
	"num_input_tokens_seen": 1760224,
	"step": 4290
	},
	{
	"epoch": 5.199757869249395,
	"grad_norm": 5.253544807434082,
	"learning_rate": 2.762581973052633e-05,
	"loss": 0.0848,
	"num_input_tokens_seen": 1762176,
	"step": 4295
	},
	{
	"epoch": 5.2058111380145276,
	"grad_norm": 0.5915831923484802,
	"learning_rate": 2.7573281358935104e-05,
	"loss": 0.0243,
	"num_input_tokens_seen": 1764352,
	"step": 4300
	},
	{
	"epoch": 5.211864406779661,
	"grad_norm": 5.024724960327148,
	"learning_rate": 2.7520731498356494e-05,
	"loss": 0.0917,
	"num_input_tokens_seen": 1766432,
	"step": 4305
	},
	{
	"epoch": 5.217917675544794,
	"grad_norm": 1.844663143157959,
	"learning_rate": 2.746817038341103e-05,
	"loss": 0.2167,
	"num_input_tokens_seen": 1768608,
	"step": 4310
	},
	{
	"epoch": 5.223970944309928,
	"grad_norm": 0.30476701259613037,
	"learning_rate": 2.7415598248769524e-05,
	"loss": 0.0132,
	"num_input_tokens_seen": 1770752,
	"step": 4315
	},
	{
	"epoch": 5.230024213075061,
	"grad_norm": 2.587169885635376,
	"learning_rate": 2.7363015329151965e-05,
	"loss": 0.0206,
	"num_input_tokens_seen": 1772832,
	"step": 4320
	},
	{
	"epoch": 5.236077481840193,
	"grad_norm": 0.4779854118824005,
	"learning_rate": 2.73104218593265e-05,
	"loss": 0.1323,
	"num_input_tokens_seen": 1774912,
	"step": 4325
	},
	{
	"epoch": 5.242130750605327,
	"grad_norm": 1.2622554302215576,
	"learning_rate": 2.7257818074108394e-05,
	"loss": 0.2511,
	"num_input_tokens_seen": 1777024,
	"step": 4330
	},
	{
	"epoch": 5.24818401937046,
	"grad_norm": 1.7752158641815186,
	"learning_rate": 2.7205204208358947e-05,
	"loss": 0.1289,
	"num_input_tokens_seen": 1779008,
	"step": 4335
	},
	{
	"epoch": 5.254237288135593,
	"grad_norm": 6.4176836013793945,
	"learning_rate": 2.715258049698446e-05,
	"loss": 0.0524,
	"num_input_tokens_seen": 1780896,
	"step": 4340
	},
	{
	"epoch": 5.260290556900727,
	"grad_norm": 3.9696273803710938,
	"learning_rate": 2.709994717493523e-05,
	"loss": 0.1406,
	"num_input_tokens_seen": 1783008,
	"step": 4345
	},
	{
	"epoch": 5.266343825665859,
	"grad_norm": 0.1831623762845993,
	"learning_rate": 2.7047304477204416e-05,
	"loss": 0.0092,
	"num_input_tokens_seen": 1784992,
	"step": 4350
	},
	{
	"epoch": 5.272397094430993,
	"grad_norm": 11.523201942443848,
	"learning_rate": 2.6994652638827078e-05,
	"loss": 0.3058,
	"num_input_tokens_seen": 1787008,
	"step": 4355
	},
	{
	"epoch": 5.278450363196126,
	"grad_norm": 3.319190502166748,
	"learning_rate": 2.694199189487906e-05,
	"loss": 0.1035,
	"num_input_tokens_seen": 1789120,
	"step": 4360
	},
	{
	"epoch": 5.284503631961259,
	"grad_norm": 4.413753509521484,
	"learning_rate": 2.688932248047597e-05,
	"loss": 0.1166,
	"num_input_tokens_seen": 1791232,
	"step": 4365
	},
	{
	"epoch": 5.290556900726393,
	"grad_norm": 5.708840370178223,
	"learning_rate": 2.683664463077214e-05,
	"loss": 0.0982,
	"num_input_tokens_seen": 1793440,
	"step": 4370
	},
	{
	"epoch": 5.296610169491525,
	"grad_norm": 4.179380893707275,
	"learning_rate": 2.678395858095955e-05,
	"loss": 0.0611,
	"num_input_tokens_seen": 1795488,
	"step": 4375
	},
	{
	"epoch": 5.302663438256658,
	"grad_norm": 4.286114692687988,
	"learning_rate": 2.6731264566266795e-05,
	"loss": 0.0886,
	"num_input_tokens_seen": 1797600,
	"step": 4380
	},
	{
	"epoch": 5.308716707021792,
	"grad_norm": 4.661886215209961,
	"learning_rate": 2.6678562821958043e-05,
	"loss": 0.1656,
	"num_input_tokens_seen": 1799584,
	"step": 4385
	},
	{
	"epoch": 5.314769975786925,
	"grad_norm": 0.09037864208221436,
	"learning_rate": 2.6625853583331943e-05,
	"loss": 0.1248,
	"num_input_tokens_seen": 1801440,
	"step": 4390
	},
	{
	"epoch": 5.3208232445520585,
	"grad_norm": 3.2096681594848633,
	"learning_rate": 2.6573137085720638e-05,
	"loss": 0.0649,
	"num_input_tokens_seen": 1803456,
	"step": 4395
	},
	{
	"epoch": 5.326876513317191,
	"grad_norm": 1.737039566040039,
	"learning_rate": 2.6520413564488672e-05,
	"loss": 0.1877,
	"num_input_tokens_seen": 1805440,
	"step": 4400
	},
	{
	"epoch": 5.332929782082324,
	"grad_norm": 3.13798451423645,
	"learning_rate": 2.6467683255031918e-05,
	"loss": 0.0848,
	"num_input_tokens_seen": 1807360,
	"step": 4405
	},
	{
	"epoch": 5.338983050847458,
	"grad_norm": 3.5494918823242188,
	"learning_rate": 2.6414946392776597e-05,
	"loss": 0.0934,
	"num_input_tokens_seen": 1809344,
	"step": 4410
	},
	{
	"epoch": 5.345036319612591,
	"grad_norm": 0.5050595998764038,
	"learning_rate": 2.636220321317816e-05,
	"loss": 0.073,
	"num_input_tokens_seen": 1811456,
	"step": 4415
	},
	{
	"epoch": 5.351089588377724,
	"grad_norm": 3.0784072875976562,
	"learning_rate": 2.6309453951720274e-05,
	"loss": 0.048,
	"num_input_tokens_seen": 1813600,
	"step": 4420
	},
	{
	"epoch": 5.357142857142857,
	"grad_norm": 5.797350883483887,
	"learning_rate": 2.625669884391377e-05,
	"loss": 0.2233,
	"num_input_tokens_seen": 1815424,
	"step": 4425
	},
	{
	"epoch": 5.36319612590799,
	"grad_norm": 9.18054485321045,
	"learning_rate": 2.6203938125295552e-05,
	"loss": 0.1113,
	"num_input_tokens_seen": 1817600,
	"step": 4430
	},
	{
	"epoch": 5.3692493946731235,
	"grad_norm": 5.451303482055664,
	"learning_rate": 2.6151172031427597e-05,
	"loss": 0.0575,
	"num_input_tokens_seen": 1819648,
	"step": 4435
	},
	{
	"epoch": 5.375302663438257,
	"grad_norm": 0.7396259903907776,
	"learning_rate": 2.609840079789588e-05,
	"loss": 0.1025,
	"num_input_tokens_seen": 1821728,
	"step": 4440
	},
	{
	"epoch": 5.38135593220339,
	"grad_norm": 5.703775882720947,
	"learning_rate": 2.604562466030931e-05,
	"loss": 0.0703,
	"num_input_tokens_seen": 1823776,
	"step": 4445
	},
	{
	"epoch": 5.387409200968523,
	"grad_norm": 0.9737942218780518,
	"learning_rate": 2.599284385429871e-05,
	"loss": 0.0886,
	"num_input_tokens_seen": 1825856,
	"step": 4450
	},
	{
	"epoch": 5.393462469733656,
	"grad_norm": 6.848929405212402,
	"learning_rate": 2.594005861551574e-05,
	"loss": 0.0506,
	"num_input_tokens_seen": 1827936,
	"step": 4455
	},
	{
	"epoch": 5.399515738498789,
	"grad_norm": 0.08520136773586273,
	"learning_rate": 2.588726917963183e-05,
	"loss": 0.087,
	"num_input_tokens_seen": 1829824,
	"step": 4460
	},
	{
	"epoch": 5.405569007263923,
	"grad_norm": 0.5107972621917725,
	"learning_rate": 2.5834475782337187e-05,
	"loss": 0.0144,
	"num_input_tokens_seen": 1831936,
	"step": 4465
	},
	{
	"epoch": 5.411622276029056,
	"grad_norm": 1.4982185363769531,
	"learning_rate": 2.578167865933967e-05,
	"loss": 0.0483,
	"num_input_tokens_seen": 1834048,
	"step": 4470
	},
	{
	"epoch": 5.4176755447941884,
	"grad_norm": 0.8156539797782898,
	"learning_rate": 2.5728878046363785e-05,
	"loss": 0.0896,
	"num_input_tokens_seen": 1836192,
	"step": 4475
	},
	{
	"epoch": 5.423728813559322,
	"grad_norm": 4.080778121948242,
	"learning_rate": 2.5676074179149635e-05,
	"loss": 0.0587,
	"num_input_tokens_seen": 1838432,
	"step": 4480
	},
	{
	"epoch": 5.429782082324455,
	"grad_norm": 6.264119625091553,
	"learning_rate": 2.5623267293451826e-05,
	"loss": 0.1014,
	"num_input_tokens_seen": 1840576,
	"step": 4485
	},
	{
	"epoch": 5.4358353510895885,
	"grad_norm": 0.09231238812208176,
	"learning_rate": 2.5570457625038457e-05,
	"loss": 0.0556,
	"num_input_tokens_seen": 1842624,
	"step": 4490
	},
	{
	"epoch": 5.441888619854722,
	"grad_norm": 6.133981704711914,
	"learning_rate": 2.551764540969005e-05,
	"loss": 0.1426,
	"num_input_tokens_seen": 1844576,
	"step": 4495
	},
	{
	"epoch": 5.447941888619855,
	"grad_norm": 1.5127137899398804,
	"learning_rate": 2.5464830883198492e-05,
	"loss": 0.119,
	"num_input_tokens_seen": 1846560,
	"step": 4500
	},
	{
	"epoch": 5.453995157384988,
	"grad_norm": 5.255079746246338,
	"learning_rate": 2.5412014281365986e-05,
	"loss": 0.1274,
	"num_input_tokens_seen": 1848576,
	"step": 4505
	},
	{
	"epoch": 5.460048426150121,
	"grad_norm": 5.694177627563477,
	"learning_rate": 2.5359195840004023e-05,
	"loss": 0.0501,
	"num_input_tokens_seen": 1850688,
	"step": 4510
	},
	{
	"epoch": 5.466101694915254,
	"grad_norm": 2.639869451522827,
	"learning_rate": 2.5306375794932273e-05,
	"loss": 0.0547,
	"num_input_tokens_seen": 1852800,
	"step": 4515
	},
	{
	"epoch": 5.472154963680388,
	"grad_norm": 1.6186069250106812,
	"learning_rate": 2.52535543819776e-05,
	"loss": 0.1454,
	"num_input_tokens_seen": 1854720,
	"step": 4520
	},
	{
	"epoch": 5.478208232445521,
	"grad_norm": 4.176394939422607,
	"learning_rate": 2.5200731836972956e-05,
	"loss": 0.2223,
	"num_input_tokens_seen": 1856768,
	"step": 4525
	},
	{
	"epoch": 5.4842615012106535,
	"grad_norm": 0.455463171005249,
	"learning_rate": 2.5147908395756343e-05,
	"loss": 0.033,
	"num_input_tokens_seen": 1858848,
	"step": 4530
	},
	{
	"epoch": 5.490314769975787,
	"grad_norm": 3.566337823867798,
	"learning_rate": 2.5095084294169768e-05,
	"loss": 0.0516,
	"num_input_tokens_seen": 1860896,
	"step": 4535
	},
	{
	"epoch": 5.49636803874092,
	"grad_norm": 4.8022894859313965,
	"learning_rate": 2.5042259768058208e-05,
	"loss": 0.2009,
	"num_input_tokens_seen": 1862816,
	"step": 4540
	},
	{
	"epoch": 5.5,
	"eval_loss": 0.15775655210018158,
	"eval_runtime": 4.5824,
	"eval_samples_per_second": 80.089,
	"eval_steps_per_second": 20.077,
	"num_input_tokens_seen": 1864000,
	"step": 4543
	},
	{
	"epoch": 5.5024213075060535,
	"grad_norm": 4.100371360778809,
	"learning_rate": 2.4989435053268497e-05,
	"loss": 0.1968,
	"num_input_tokens_seen": 1864832,
	"step": 4545
	},
	{
	"epoch": 5.508474576271187,
	"grad_norm": 5.8973541259765625,
	"learning_rate": 2.493661038564835e-05,
	"loss": 0.1107,
	"num_input_tokens_seen": 1866752,
	"step": 4550
	},
	{
	"epoch": 5.514527845036319,
	"grad_norm": 0.15794266760349274,
	"learning_rate": 2.4883786001045238e-05,
	"loss": 0.0457,
	"num_input_tokens_seen": 1868928,
	"step": 4555
	},
	{
	"epoch": 5.520581113801453,
	"grad_norm": 3.9451935291290283,
	"learning_rate": 2.4830962135305398e-05,
	"loss": 0.1607,
	"num_input_tokens_seen": 1871072,
	"step": 4560
	},
	{
	"epoch": 5.526634382566586,
	"grad_norm": 1.0250242948532104,
	"learning_rate": 2.4778139024272724e-05,
	"loss": 0.0756,
	"num_input_tokens_seen": 1873152,
	"step": 4565
	},
	{
	"epoch": 5.532687651331719,
	"grad_norm": 5.201865196228027,
	"learning_rate": 2.4725316903787765e-05,
	"loss": 0.1061,
	"num_input_tokens_seen": 1875040,
	"step": 4570
	},
	{
	"epoch": 5.538740920096853,
	"grad_norm": 0.0985790342092514,
	"learning_rate": 2.4672496009686622e-05,
	"loss": 0.0073,
	"num_input_tokens_seen": 1877184,
	"step": 4575
	},
	{
	"epoch": 5.544794188861985,
	"grad_norm": 2.5414302349090576,
	"learning_rate": 2.4619676577799946e-05,
	"loss": 0.1435,
	"num_input_tokens_seen": 1879232,
	"step": 4580
	},
	{
	"epoch": 5.5508474576271185,
	"grad_norm": 4.586217403411865,
	"learning_rate": 2.4566858843951847e-05,
	"loss": 0.1246,
	"num_input_tokens_seen": 1881312,
	"step": 4585
	},
	{
	"epoch": 5.556900726392252,
	"grad_norm": 6.781052589416504,
	"learning_rate": 2.451404304395884e-05,
	"loss": 0.2671,
	"num_input_tokens_seen": 1883328,
	"step": 4590
	},
	{
	"epoch": 5.562953995157385,
	"grad_norm": 10.360923767089844,
	"learning_rate": 2.446122941362883e-05,
	"loss": 0.1366,
	"num_input_tokens_seen": 1885248,
	"step": 4595
	},
	{
	"epoch": 5.5690072639225185,
	"grad_norm": 3.757084608078003,
	"learning_rate": 2.4408418188760026e-05,
	"loss": 0.1358,
	"num_input_tokens_seen": 1887328,
	"step": 4600
	},
	{
	"epoch": 5.575060532687651,
	"grad_norm": 3.5405287742614746,
	"learning_rate": 2.435560960513989e-05,
	"loss": 0.1358,
	"num_input_tokens_seen": 1889408,
	"step": 4605
	},
	{
	"epoch": 5.581113801452784,
	"grad_norm": 1.0986759662628174,
	"learning_rate": 2.4302803898544106e-05,
	"loss": 0.1262,
	"num_input_tokens_seen": 1891456,
	"step": 4610
	},
	{
	"epoch": 5.587167070217918,
	"grad_norm": 3.6903698444366455,
	"learning_rate": 2.425000130473549e-05,
	"loss": 0.0779,
	"num_input_tokens_seen": 1893696,
	"step": 4615
	},
	{
	"epoch": 5.593220338983051,
	"grad_norm": 0.8637160658836365,
	"learning_rate": 2.4197202059463e-05,
	"loss": 0.1851,
	"num_input_tokens_seen": 1895616,
	"step": 4620
	},
	{
	"epoch": 5.599273607748184,
	"grad_norm": 4.0059895515441895,
	"learning_rate": 2.4144406398460594e-05,
	"loss": 0.1229,
	"num_input_tokens_seen": 1897600,
	"step": 4625
	},
	{
	"epoch": 5.605326876513317,
	"grad_norm": 5.283796787261963,
	"learning_rate": 2.4091614557446267e-05,
	"loss": 0.2567,
	"num_input_tokens_seen": 1899616,
	"step": 4630
	},
	{
	"epoch": 5.61138014527845,
	"grad_norm": 0.3470328450202942,
	"learning_rate": 2.4038826772120932e-05,
	"loss": 0.0737,
	"num_input_tokens_seen": 1901568,
	"step": 4635
	},
	{
	"epoch": 5.6174334140435835,
	"grad_norm": 4.049567222595215,
	"learning_rate": 2.398604327816742e-05,
	"loss": 0.1776,
	"num_input_tokens_seen": 1903616,
	"step": 4640
	},
	{
	"epoch": 5.623486682808717,
	"grad_norm": 3.8298497200012207,
	"learning_rate": 2.3933264311249377e-05,
	"loss": 0.1617,
	"num_input_tokens_seen": 1905504,
	"step": 4645
	},
	{
	"epoch": 5.62953995157385,
	"grad_norm": 2.1219868659973145,
	"learning_rate": 2.3880490107010255e-05,
	"loss": 0.0557,
	"num_input_tokens_seen": 1907456,
	"step": 4650
	},
	{
	"epoch": 5.635593220338983,
	"grad_norm": 2.666740894317627,
	"learning_rate": 2.382772090107223e-05,
	"loss": 0.0658,
	"num_input_tokens_seen": 1909568,
	"step": 4655
	},
	{
	"epoch": 5.641646489104116,
	"grad_norm": 2.493098258972168,
	"learning_rate": 2.3774956929035177e-05,
	"loss": 0.0427,
	"num_input_tokens_seen": 1911840,
	"step": 4660
	},
	{
	"epoch": 5.647699757869249,
	"grad_norm": 0.14598090946674347,
	"learning_rate": 2.3722198426475593e-05,
	"loss": 0.1101,
	"num_input_tokens_seen": 1913952,
	"step": 4665
	},
	{
	"epoch": 5.653753026634383,
	"grad_norm": 4.130605220794678,
	"learning_rate": 2.3669445628945542e-05,
	"loss": 0.0634,
	"num_input_tokens_seen": 1916160,
	"step": 4670
	},
	{
	"epoch": 5.659806295399516,
	"grad_norm": 1.1681698560714722,
	"learning_rate": 2.3616698771971633e-05,
	"loss": 0.0881,
	"num_input_tokens_seen": 1918144,
	"step": 4675
	},
	{
	"epoch": 5.6658595641646485,
	"grad_norm": 6.252587795257568,
	"learning_rate": 2.356395809105396e-05,
	"loss": 0.1455,
	"num_input_tokens_seen": 1920160,
	"step": 4680
	},
	{
	"epoch": 5.671912832929782,
	"grad_norm": 1.4607112407684326,
	"learning_rate": 2.3511223821665028e-05,
	"loss": 0.1253,
	"num_input_tokens_seen": 1922368,
	"step": 4685
	},
	{
	"epoch": 5.677966101694915,
	"grad_norm": 3.692471742630005,
	"learning_rate": 2.3458496199248717e-05,
	"loss": 0.1402,
	"num_input_tokens_seen": 1924448,
	"step": 4690
	},
	{
	"epoch": 5.684019370460049,
	"grad_norm": 5.765774726867676,
	"learning_rate": 2.340577545921923e-05,
	"loss": 0.2013,
	"num_input_tokens_seen": 1926592,
	"step": 4695
	},
	{
	"epoch": 5.690072639225182,
	"grad_norm": 2.151799440383911,
	"learning_rate": 2.335306183696006e-05,
	"loss": 0.0668,
	"num_input_tokens_seen": 1928672,
	"step": 4700
	},
	{
	"epoch": 5.696125907990314,
	"grad_norm": 4.2460222244262695,
	"learning_rate": 2.3300355567822897e-05,
	"loss": 0.157,
	"num_input_tokens_seen": 1930816,
	"step": 4705
	},
	{
	"epoch": 5.702179176755448,
	"grad_norm": 1.2913779020309448,
	"learning_rate": 2.324765688712661e-05,
	"loss": 0.1019,
	"num_input_tokens_seen": 1932896,
	"step": 4710
	},
	{
	"epoch": 5.708232445520581,
	"grad_norm": 0.1220802515745163,
	"learning_rate": 2.3194966030156187e-05,
	"loss": 0.0852,
	"num_input_tokens_seen": 1934944,
	"step": 4715
	},
	{
	"epoch": 5.714285714285714,
	"grad_norm": 0.9283545017242432,
	"learning_rate": 2.31422832321617e-05,
	"loss": 0.1064,
	"num_input_tokens_seen": 1937152,
	"step": 4720
	},
	{
	"epoch": 5.720338983050848,
	"grad_norm": 0.4256783723831177,
	"learning_rate": 2.308960872835721e-05,
	"loss": 0.063,
	"num_input_tokens_seen": 1939328,
	"step": 4725
	},
	{
	"epoch": 5.72639225181598,
	"grad_norm": 1.6901894807815552,
	"learning_rate": 2.3036942753919775e-05,
	"loss": 0.1151,
	"num_input_tokens_seen": 1941312,
	"step": 4730
	},
	{
	"epoch": 5.732445520581114,
	"grad_norm": 5.385450839996338,
	"learning_rate": 2.2984285543988352e-05,
	"loss": 0.0663,
	"num_input_tokens_seen": 1943264,
	"step": 4735
	},
	{
	"epoch": 5.738498789346247,
	"grad_norm": 0.5914505124092102,
	"learning_rate": 2.2931637333662785e-05,
	"loss": 0.0648,
	"num_input_tokens_seen": 1945312,
	"step": 4740
	},
	{
	"epoch": 5.74455205811138,
	"grad_norm": 0.29477110505104065,
	"learning_rate": 2.287899835800273e-05,
	"loss": 0.0784,
	"num_input_tokens_seen": 1947328,
	"step": 4745
	},
	{
	"epoch": 5.750605326876514,
	"grad_norm": 3.8047056198120117,
	"learning_rate": 2.2826368852026597e-05,
	"loss": 0.0983,
	"num_input_tokens_seen": 1949376,
	"step": 4750
	},
	{
	"epoch": 5.756658595641646,
	"grad_norm": 3.759469509124756,
	"learning_rate": 2.277374905071053e-05,
	"loss": 0.2523,
	"num_input_tokens_seen": 1951456,
	"step": 4755
	},
	{
	"epoch": 5.762711864406779,
	"grad_norm": 3.657890796661377,
	"learning_rate": 2.2721139188987357e-05,
	"loss": 0.0834,
	"num_input_tokens_seen": 1953536,
	"step": 4760
	},
	{
	"epoch": 5.768765133171913,
	"grad_norm": 7.039313316345215,
	"learning_rate": 2.26685395017455e-05,
	"loss": 0.1593,
	"num_input_tokens_seen": 1955744,
	"step": 4765
	},
	{
	"epoch": 5.774818401937046,
	"grad_norm": 5.334690093994141,
	"learning_rate": 2.261595022382799e-05,
	"loss": 0.1404,
	"num_input_tokens_seen": 1957824,
	"step": 4770
	},
	{
	"epoch": 5.780871670702179,
	"grad_norm": 2.440227508544922,
	"learning_rate": 2.256337159003134e-05,
	"loss": 0.0983,
	"num_input_tokens_seen": 1960000,
	"step": 4775
	},
	{
	"epoch": 5.786924939467312,
	"grad_norm": 0.9316068291664124,
	"learning_rate": 2.251080383510459e-05,
	"loss": 0.0422,
	"num_input_tokens_seen": 1962144,
	"step": 4780
	},
	{
	"epoch": 5.792978208232445,
	"grad_norm": 2.1307058334350586,
	"learning_rate": 2.2458247193748155e-05,
	"loss": 0.1192,
	"num_input_tokens_seen": 1964192,
	"step": 4785
	},
	{
	"epoch": 5.799031476997579,
	"grad_norm": 4.095328330993652,
	"learning_rate": 2.240570190061288e-05,
	"loss": 0.1351,
	"num_input_tokens_seen": 1966240,
	"step": 4790
	},
	{
	"epoch": 5.805084745762712,
	"grad_norm": 3.0268330574035645,
	"learning_rate": 2.2353168190298915e-05,
	"loss": 0.1107,
	"num_input_tokens_seen": 1968320,
	"step": 4795
	},
	{
	"epoch": 5.811138014527845,
	"grad_norm": 0.37829795479774475,
	"learning_rate": 2.2300646297354704e-05,
	"loss": 0.0993,
	"num_input_tokens_seen": 1970304,
	"step": 4800
	},
	{
	"epoch": 5.817191283292978,
	"grad_norm": 2.7740402221679688,
	"learning_rate": 2.224813645627592e-05,
	"loss": 0.0937,
	"num_input_tokens_seen": 1972320,
	"step": 4805
	},
	{
	"epoch": 5.823244552058111,
	"grad_norm": 2.5438811779022217,
	"learning_rate": 2.2195638901504452e-05,
	"loss": 0.0555,
	"num_input_tokens_seen": 1974432,
	"step": 4810
	},
	{
	"epoch": 5.829297820823244,
	"grad_norm": 0.15112103521823883,
	"learning_rate": 2.2143153867427305e-05,
	"loss": 0.0675,
	"num_input_tokens_seen": 1976480,
	"step": 4815
	},
	{
	"epoch": 5.835351089588378,
	"grad_norm": 4.919175148010254,
	"learning_rate": 2.2090681588375594e-05,
	"loss": 0.1833,
	"num_input_tokens_seen": 1978624,
	"step": 4820
	},
	{
	"epoch": 5.841404358353511,
	"grad_norm": 0.0790180116891861,
	"learning_rate": 2.2038222298623507e-05,
	"loss": 0.0329,
	"num_input_tokens_seen": 1980736,
	"step": 4825
	},
	{
	"epoch": 5.847457627118644,
	"grad_norm": 0.06224536895751953,
	"learning_rate": 2.1985776232387202e-05,
	"loss": 0.0506,
	"num_input_tokens_seen": 1982656,
	"step": 4830
	},
	{
	"epoch": 5.853510895883777,
	"grad_norm": 0.7474290132522583,
	"learning_rate": 2.1933343623823814e-05,
	"loss": 0.1328,
	"num_input_tokens_seen": 1984832,
	"step": 4835
	},
	{
	"epoch": 5.85956416464891,
	"grad_norm": 4.492368698120117,
	"learning_rate": 2.1880924707030407e-05,
	"loss": 0.1015,
	"num_input_tokens_seen": 1986848,
	"step": 4840
	},
	{
	"epoch": 5.865617433414044,
	"grad_norm": 1.0196672677993774,
	"learning_rate": 2.1828519716042888e-05,
	"loss": 0.1972,
	"num_input_tokens_seen": 1988992,
	"step": 4845
	},
	{
	"epoch": 5.871670702179177,
	"grad_norm": 0.20354236662387848,
	"learning_rate": 2.177612888483502e-05,
	"loss": 0.1323,
	"num_input_tokens_seen": 1990976,
	"step": 4850
	},
	{
	"epoch": 5.877723970944309,
	"grad_norm": 0.2845112681388855,
	"learning_rate": 2.1723752447317312e-05,
	"loss": 0.0714,
	"num_input_tokens_seen": 1992928,
	"step": 4855
	},
	{
	"epoch": 5.883777239709443,
	"grad_norm": 3.6729049682617188,
	"learning_rate": 2.167139063733605e-05,
	"loss": 0.2155,
	"num_input_tokens_seen": 1995104,
	"step": 4860
	},
	{
	"epoch": 5.889830508474576,
	"grad_norm": 5.529604434967041,
	"learning_rate": 2.161904368867217e-05,
	"loss": 0.0664,
	"num_input_tokens_seen": 1997312,
	"step": 4865
	},
	{
	"epoch": 5.8958837772397095,
	"grad_norm": 4.269104957580566,
	"learning_rate": 2.1566711835040284e-05,
	"loss": 0.0805,
	"num_input_tokens_seen": 1999232,
	"step": 4870
	},
	{
	"epoch": 5.901937046004843,
	"grad_norm": 0.41338273882865906,
	"learning_rate": 2.1514395310087596e-05,
	"loss": 0.1931,
	"num_input_tokens_seen": 2001088,
	"step": 4875
	},
	{
	"epoch": 5.907990314769976,
	"grad_norm": 0.3836718797683716,
	"learning_rate": 2.1462094347392887e-05,
	"loss": 0.0544,
	"num_input_tokens_seen": 2003232,
	"step": 4880
	},
	{
	"epoch": 5.914043583535109,
	"grad_norm": 4.488040447235107,
	"learning_rate": 2.1409809180465436e-05,
	"loss": 0.1114,
	"num_input_tokens_seen": 2005312,
	"step": 4885
	},
	{
	"epoch": 5.920096852300242,
	"grad_norm": 5.718064308166504,
	"learning_rate": 2.1357540042744006e-05,
	"loss": 0.1378,
	"num_input_tokens_seen": 2007392,
	"step": 4890
	},
	{
	"epoch": 5.926150121065375,
	"grad_norm": 0.7707825899124146,
	"learning_rate": 2.1305287167595808e-05,
	"loss": 0.1329,
	"num_input_tokens_seen": 2009568,
	"step": 4895
	},
	{
	"epoch": 5.932203389830509,
	"grad_norm": 4.785271644592285,
	"learning_rate": 2.1253050788315436e-05,
	"loss": 0.0762,
	"num_input_tokens_seen": 2011424,
	"step": 4900
	},
	{
	"epoch": 5.938256658595642,
	"grad_norm": 4.0082783699035645,
	"learning_rate": 2.120083113812381e-05,
	"loss": 0.0583,
	"num_input_tokens_seen": 2013504,
	"step": 4905
	},
	{
	"epoch": 5.9443099273607745,
	"grad_norm": 7.899497985839844,
	"learning_rate": 2.1148628450167203e-05,
	"loss": 0.1401,
	"num_input_tokens_seen": 2015872,
	"step": 4910
	},
	{
	"epoch": 5.950363196125908,
	"grad_norm": 3.8147408962249756,
	"learning_rate": 2.109644295751612e-05,
	"loss": 0.1231,
	"num_input_tokens_seen": 2017888,
	"step": 4915
	},
	{
	"epoch": 5.956416464891041,
	"grad_norm": 4.809561252593994,
	"learning_rate": 2.1044274893164316e-05,
	"loss": 0.149,
	"num_input_tokens_seen": 2019904,
	"step": 4920
	},
	{
	"epoch": 5.9624697336561745,
	"grad_norm": 1.246935486793518,
	"learning_rate": 2.0992124490027727e-05,
	"loss": 0.1612,
	"num_input_tokens_seen": 2022016,
	"step": 4925
	},
	{
	"epoch": 5.968523002421308,
	"grad_norm": 3.2453746795654297,
	"learning_rate": 2.0939991980943437e-05,
	"loss": 0.1673,
	"num_input_tokens_seen": 2023936,
	"step": 4930
	},
	{
	"epoch": 5.97457627118644,
	"grad_norm": 4.5902204513549805,
	"learning_rate": 2.088787759866863e-05,
	"loss": 0.1408,
	"num_input_tokens_seen": 2026080,
	"step": 4935
	},
	{
	"epoch": 5.980629539951574,
	"grad_norm": 3.014443874359131,
	"learning_rate": 2.0835781575879574e-05,
	"loss": 0.0181,
	"num_input_tokens_seen": 2028064,
	"step": 4940
	},
	{
	"epoch": 5.986682808716707,
	"grad_norm": 4.182370185852051,
	"learning_rate": 2.0783704145170547e-05,
	"loss": 0.0733,
	"num_input_tokens_seen": 2029920,
	"step": 4945
	},
	{
	"epoch": 5.99273607748184,
	"grad_norm": 4.959621429443359,
	"learning_rate": 2.0731645539052845e-05,
	"loss": 0.1935,
	"num_input_tokens_seen": 2031776,
	"step": 4950
	},
	{
	"epoch": 5.998789346246974,
	"grad_norm": 3.4146416187286377,
	"learning_rate": 2.067960598995369e-05,
	"loss": 0.043,
	"num_input_tokens_seen": 2033888,
	"step": 4955
	},
	{
	"epoch": 6.0,
	"eval_loss": 0.1471845954656601,
	"eval_runtime": 4.5703,
	"eval_samples_per_second": 80.301,
	"eval_steps_per_second": 20.13,
	"num_input_tokens_seen": 2033992,
	"step": 4956
	},
	{
	"epoch": 6.004842615012106,
	"grad_norm": 1.2523798942565918,
	"learning_rate": 2.062758573021523e-05,
	"loss": 0.1246,
	"num_input_tokens_seen": 2035752,
	"step": 4960
	},
	{
	"epoch": 6.0108958837772395,
	"grad_norm": 1.3420109748840332,
	"learning_rate": 2.0575584992093505e-05,
	"loss": 0.1767,
	"num_input_tokens_seen": 2037896,
	"step": 4965
	},
	{
	"epoch": 6.016949152542373,
	"grad_norm": 3.164762020111084,
	"learning_rate": 2.0523604007757374e-05,
	"loss": 0.1195,
	"num_input_tokens_seen": 2040008,
	"step": 4970
	},
	{
	"epoch": 6.023002421307506,
	"grad_norm": 3.989443302154541,
	"learning_rate": 2.0471643009287523e-05,
	"loss": 0.0898,
	"num_input_tokens_seen": 2042056,
	"step": 4975
	},
	{
	"epoch": 6.0290556900726395,
	"grad_norm": 0.10141967236995697,
	"learning_rate": 2.0419702228675395e-05,
	"loss": 0.2044,
	"num_input_tokens_seen": 2044040,
	"step": 4980
	},
	{
	"epoch": 6.035108958837772,
	"grad_norm": 0.23426412045955658,
	"learning_rate": 2.0367781897822147e-05,
	"loss": 0.1074,
	"num_input_tokens_seen": 2046056,
	"step": 4985
	},
	{
	"epoch": 6.041162227602905,
	"grad_norm": 1.5576239824295044,
	"learning_rate": 2.031588224853767e-05,
	"loss": 0.1107,
	"num_input_tokens_seen": 2047944,
	"step": 4990
	},
	{
	"epoch": 6.047215496368039,
	"grad_norm": 1.8153196573257446,
	"learning_rate": 2.0264003512539493e-05,
	"loss": 0.0688,
	"num_input_tokens_seen": 2050024,
	"step": 4995
	},
	{
	"epoch": 6.053268765133172,
	"grad_norm": 2.0969276428222656,
	"learning_rate": 2.0212145921451787e-05,
	"loss": 0.1391,
	"num_input_tokens_seen": 2052040,
	"step": 5000
	},
	{
	"epoch": 6.059322033898305,
	"grad_norm": 0.1364622712135315,
	"learning_rate": 2.01603097068043e-05,
	"loss": 0.0444,
	"num_input_tokens_seen": 2054120,
	"step": 5005
	},
	{
	"epoch": 6.065375302663438,
	"grad_norm": 3.0799670219421387,
	"learning_rate": 2.0108495100031364e-05,
	"loss": 0.0513,
	"num_input_tokens_seen": 2056296,
	"step": 5010
	},
	{
	"epoch": 6.071428571428571,
	"grad_norm": 2.7169783115386963,
	"learning_rate": 2.0056702332470806e-05,
	"loss": 0.0249,
	"num_input_tokens_seen": 2058408,
	"step": 5015
	},
	{
	"epoch": 6.0774818401937045,
	"grad_norm": 5.1847991943359375,
	"learning_rate": 2.0004931635362982e-05,
	"loss": 0.1118,
	"num_input_tokens_seen": 2060456,
	"step": 5020
	},
	{
	"epoch": 6.083535108958838,
	"grad_norm": 0.45843198895454407,
	"learning_rate": 1.995318323984969e-05,
	"loss": 0.0542,
	"num_input_tokens_seen": 2062408,
	"step": 5025
	},
	{
	"epoch": 6.089588377723971,
	"grad_norm": 2.184920310974121,
	"learning_rate": 1.9901457376973143e-05,
	"loss": 0.1114,
	"num_input_tokens_seen": 2064392,
	"step": 5030
	},
	{
	"epoch": 6.095641646489105,
	"grad_norm": 1.2919806241989136,
	"learning_rate": 1.9849754277674993e-05,
	"loss": 0.0539,
	"num_input_tokens_seen": 2066504,
	"step": 5035
	},
	{
	"epoch": 6.101694915254237,
	"grad_norm": 0.44648459553718567,
	"learning_rate": 1.979807417279521e-05,
	"loss": 0.0888,
	"num_input_tokens_seen": 2068584,
	"step": 5040
	},
	{
	"epoch": 6.10774818401937,
	"grad_norm": 0.25474312901496887,
	"learning_rate": 1.974641729307115e-05,
	"loss": 0.0106,
	"num_input_tokens_seen": 2070696,
	"step": 5045
	},
	{
	"epoch": 6.113801452784504,
	"grad_norm": 1.318625807762146,
	"learning_rate": 1.9694783869136435e-05,
	"loss": 0.1124,
	"num_input_tokens_seen": 2072872,
	"step": 5050
	},
	{
	"epoch": 6.119854721549637,
	"grad_norm": 3.6301968097686768,
	"learning_rate": 1.9643174131519986e-05,
	"loss": 0.0856,
	"num_input_tokens_seen": 2074824,
	"step": 5055
	},
	{
	"epoch": 6.12590799031477,
	"grad_norm": 2.665332317352295,
	"learning_rate": 1.9591588310644967e-05,
	"loss": 0.0809,
	"num_input_tokens_seen": 2076808,
	"step": 5060
	},
	{
	"epoch": 6.131961259079903,
	"grad_norm": 1.1560572385787964,
	"learning_rate": 1.9540026636827742e-05,
	"loss": 0.0592,
	"num_input_tokens_seen": 2078856,
	"step": 5065
	},
	{
	"epoch": 6.138014527845036,
	"grad_norm": 8.742777824401855,
	"learning_rate": 1.948848934027689e-05,
	"loss": 0.0858,
	"num_input_tokens_seen": 2081096,
	"step": 5070
	},
	{
	"epoch": 6.1440677966101696,
	"grad_norm": 2.756279945373535,
	"learning_rate": 1.9436976651092144e-05,
	"loss": 0.074,
	"num_input_tokens_seen": 2083144,
	"step": 5075
	},
	{
	"epoch": 6.150121065375303,
	"grad_norm": 0.6714470386505127,
	"learning_rate": 1.9385488799263372e-05,
	"loss": 0.1086,
	"num_input_tokens_seen": 2085096,
	"step": 5080
	},
	{
	"epoch": 6.156174334140436,
	"grad_norm": 0.19403041899204254,
	"learning_rate": 1.9334026014669543e-05,
	"loss": 0.0633,
	"num_input_tokens_seen": 2087272,
	"step": 5085
	},
	{
	"epoch": 6.162227602905569,
	"grad_norm": 6.13324499130249,
	"learning_rate": 1.9282588527077715e-05,
	"loss": 0.2309,
	"num_input_tokens_seen": 2089224,
	"step": 5090
	},
	{
	"epoch": 6.168280871670702,
	"grad_norm": 4.615688323974609,
	"learning_rate": 1.9231176566142006e-05,
	"loss": 0.1434,
	"num_input_tokens_seen": 2091432,
	"step": 5095
	},
	{
	"epoch": 6.174334140435835,
	"grad_norm": 0.10968305915594101,
	"learning_rate": 1.917979036140255e-05,
	"loss": 0.0737,
	"num_input_tokens_seen": 2093384,
	"step": 5100
	},
	{
	"epoch": 6.180387409200969,
	"grad_norm": 0.185858353972435,
	"learning_rate": 1.9128430142284503e-05,
	"loss": 0.1049,
	"num_input_tokens_seen": 2095528,
	"step": 5105
	},
	{
	"epoch": 6.186440677966102,
	"grad_norm": 1.6614528894424438,
	"learning_rate": 1.9077096138096992e-05,
	"loss": 0.0492,
	"num_input_tokens_seen": 2097544,
	"step": 5110
	},
	{
	"epoch": 6.1924939467312345,
	"grad_norm": 2.876973867416382,
	"learning_rate": 1.9025788578032113e-05,
	"loss": 0.1631,
	"num_input_tokens_seen": 2099592,
	"step": 5115
	},
	{
	"epoch": 6.198547215496368,
	"grad_norm": 0.698144793510437,
	"learning_rate": 1.8974507691163867e-05,
	"loss": 0.0246,
	"num_input_tokens_seen": 2101448,
	"step": 5120
	},
	{
	"epoch": 6.204600484261501,
	"grad_norm": 0.8185459971427917,
	"learning_rate": 1.892325370644721e-05,
	"loss": 0.0946,
	"num_input_tokens_seen": 2103528,
	"step": 5125
	},
	{
	"epoch": 6.210653753026635,
	"grad_norm": 2.75486421585083,
	"learning_rate": 1.8872026852716954e-05,
	"loss": 0.0369,
	"num_input_tokens_seen": 2105640,
	"step": 5130
	},
	{
	"epoch": 6.216707021791768,
	"grad_norm": 1.2081927061080933,
	"learning_rate": 1.8820827358686793e-05,
	"loss": 0.0666,
	"num_input_tokens_seen": 2107688,
	"step": 5135
	},
	{
	"epoch": 6.2227602905569,
	"grad_norm": 2.066209316253662,
	"learning_rate": 1.8769655452948274e-05,
	"loss": 0.1806,
	"num_input_tokens_seen": 2109608,
	"step": 5140
	},
	{
	"epoch": 6.228813559322034,
	"grad_norm": 0.48250189423561096,
	"learning_rate": 1.8718511363969733e-05,
	"loss": 0.0996,
	"num_input_tokens_seen": 2111752,
	"step": 5145
	},
	{
	"epoch": 6.234866828087167,
	"grad_norm": 2.2784717082977295,
	"learning_rate": 1.8667395320095367e-05,
	"loss": 0.0652,
	"num_input_tokens_seen": 2113928,
	"step": 5150
	},
	{
	"epoch": 6.2409200968523,
	"grad_norm": 0.3844600319862366,
	"learning_rate": 1.8616307549544113e-05,
	"loss": 0.1524,
	"num_input_tokens_seen": 2115944,
	"step": 5155
	},
	{
	"epoch": 6.246973365617434,
	"grad_norm": 8.31705093383789,
	"learning_rate": 1.85652482804087e-05,
	"loss": 0.1151,
	"num_input_tokens_seen": 2118120,
	"step": 5160
	},
	{
	"epoch": 6.253026634382566,
	"grad_norm": 2.3616673946380615,
	"learning_rate": 1.85142177406546e-05,
	"loss": 0.1494,
	"num_input_tokens_seen": 2120136,
	"step": 5165
	},
	{
	"epoch": 6.2590799031477,
	"grad_norm": 3.0859901905059814,
	"learning_rate": 1.8463216158119015e-05,
	"loss": 0.1174,
	"num_input_tokens_seen": 2122184,
	"step": 5170
	},
	{
	"epoch": 6.265133171912833,
	"grad_norm": 0.7617553472518921,
	"learning_rate": 1.8412243760509867e-05,
	"loss": 0.1346,
	"num_input_tokens_seen": 2124200,
	"step": 5175
	},
	{
	"epoch": 6.271186440677966,
	"grad_norm": 6.6624298095703125,
	"learning_rate": 1.8361300775404765e-05,
	"loss": 0.0971,
	"num_input_tokens_seen": 2126280,
	"step": 5180
	},
	{
	"epoch": 6.2772397094431,
	"grad_norm": 3.2902045249938965,
	"learning_rate": 1.8310387430250014e-05,
	"loss": 0.0593,
	"num_input_tokens_seen": 2128360,
	"step": 5185
	},
	{
	"epoch": 6.283292978208232,
	"grad_norm": 0.7124584913253784,
	"learning_rate": 1.825950395235956e-05,
	"loss": 0.1357,
	"num_input_tokens_seen": 2130248,
	"step": 5190
	},
	{
	"epoch": 6.289346246973365,
	"grad_norm": 2.4646220207214355,
	"learning_rate": 1.8208650568914033e-05,
	"loss": 0.1265,
	"num_input_tokens_seen": 2132200,
	"step": 5195
	},
	{
	"epoch": 6.295399515738499,
	"grad_norm": 4.314565181732178,
	"learning_rate": 1.815782750695967e-05,
	"loss": 0.1629,
	"num_input_tokens_seen": 2134216,
	"step": 5200
	},
	{
	"epoch": 6.301452784503632,
	"grad_norm": 2.004688262939453,
	"learning_rate": 1.810703499340735e-05,
	"loss": 0.0434,
	"num_input_tokens_seen": 2136392,
	"step": 5205
	},
	{
	"epoch": 6.3075060532687655,
	"grad_norm": 2.316528558731079,
	"learning_rate": 1.8056273255031552e-05,
	"loss": 0.1194,
	"num_input_tokens_seen": 2138504,
	"step": 5210
	},
	{
	"epoch": 6.313559322033898,
	"grad_norm": 2.124305248260498,
	"learning_rate": 1.8005542518469366e-05,
	"loss": 0.0821,
	"num_input_tokens_seen": 2140616,
	"step": 5215
	},
	{
	"epoch": 6.319612590799031,
	"grad_norm": 1.2579299211502075,
	"learning_rate": 1.7954843010219446e-05,
	"loss": 0.1001,
	"num_input_tokens_seen": 2142664,
	"step": 5220
	},
	{
	"epoch": 6.325665859564165,
	"grad_norm": 4.945680141448975,
	"learning_rate": 1.790417495664103e-05,
	"loss": 0.0734,
	"num_input_tokens_seen": 2144744,
	"step": 5225
	},
	{
	"epoch": 6.331719128329298,
	"grad_norm": 5.6669206619262695,
	"learning_rate": 1.785353858395292e-05,
	"loss": 0.3636,
	"num_input_tokens_seen": 2146760,
	"step": 5230
	},
	{
	"epoch": 6.337772397094431,
	"grad_norm": 5.804713726043701,
	"learning_rate": 1.7802934118232482e-05,
	"loss": 0.0949,
	"num_input_tokens_seen": 2148904,
	"step": 5235
	},
	{
	"epoch": 6.343825665859564,
	"grad_norm": 1.7007763385772705,
	"learning_rate": 1.775236178541461e-05,
	"loss": 0.0563,
	"num_input_tokens_seen": 2151080,
	"step": 5240
	},
	{
	"epoch": 6.349878934624697,
	"grad_norm": 9.71132755279541,
	"learning_rate": 1.7701821811290743e-05,
	"loss": 0.1433,
	"num_input_tokens_seen": 2153032,
	"step": 5245
	},
	{
	"epoch": 6.3559322033898304,
	"grad_norm": 4.293256759643555,
	"learning_rate": 1.7651314421507843e-05,
	"loss": 0.1557,
	"num_input_tokens_seen": 2155080,
	"step": 5250
	},
	{
	"epoch": 6.361985472154964,
	"grad_norm": 5.381481647491455,
	"learning_rate": 1.7600839841567395e-05,
	"loss": 0.18,
	"num_input_tokens_seen": 2157064,
	"step": 5255
	},
	{
	"epoch": 6.368038740920097,
	"grad_norm": 0.4548739790916443,
	"learning_rate": 1.7550398296824395e-05,
	"loss": 0.1216,
	"num_input_tokens_seen": 2159208,
	"step": 5260
	},
	{
	"epoch": 6.37409200968523,
	"grad_norm": 6.4153923988342285,
	"learning_rate": 1.749999001248635e-05,
	"loss": 0.0475,
	"num_input_tokens_seen": 2161384,
	"step": 5265
	},
	{
	"epoch": 6.380145278450363,
	"grad_norm": 2.944775342941284,
	"learning_rate": 1.7449615213612264e-05,
	"loss": 0.1253,
	"num_input_tokens_seen": 2163432,
	"step": 5270
	},
	{
	"epoch": 6.386198547215496,
	"grad_norm": 1.4213374853134155,
	"learning_rate": 1.7399274125111635e-05,
	"loss": 0.0373,
	"num_input_tokens_seen": 2165640,
	"step": 5275
	},
	{
	"epoch": 6.39225181598063,
	"grad_norm": 4.871456146240234,
	"learning_rate": 1.7348966971743465e-05,
	"loss": 0.0991,
	"num_input_tokens_seen": 2167656,
	"step": 5280
	},
	{
	"epoch": 6.398305084745763,
	"grad_norm": 1.1972601413726807,
	"learning_rate": 1.729869397811523e-05,
	"loss": 0.0719,
	"num_input_tokens_seen": 2169672,
	"step": 5285
	},
	{
	"epoch": 6.404358353510895,
	"grad_norm": 3.45843768119812,
	"learning_rate": 1.72484553686819e-05,
	"loss": 0.0967,
	"num_input_tokens_seen": 2171592,
	"step": 5290
	},
	{
	"epoch": 6.410411622276029,
	"grad_norm": 2.6961007118225098,
	"learning_rate": 1.719825136774494e-05,
	"loss": 0.047,
	"num_input_tokens_seen": 2173576,
	"step": 5295
	},
	{
	"epoch": 6.416464891041162,
	"grad_norm": 0.6391634345054626,
	"learning_rate": 1.714808219945129e-05,
	"loss": 0.0287,
	"num_input_tokens_seen": 2175592,
	"step": 5300
	},
	{
	"epoch": 6.4225181598062955,
	"grad_norm": 0.5544232130050659,
	"learning_rate": 1.709794808779234e-05,
	"loss": 0.1309,
	"num_input_tokens_seen": 2177512,
	"step": 5305
	},
	{
	"epoch": 6.428571428571429,
	"grad_norm": 5.888014316558838,
	"learning_rate": 1.704784925660301e-05,
	"loss": 0.0952,
	"num_input_tokens_seen": 2179560,
	"step": 5310
	},
	{
	"epoch": 6.434624697336561,
	"grad_norm": 1.9635401964187622,
	"learning_rate": 1.699778592956069e-05,
	"loss": 0.1128,
	"num_input_tokens_seen": 2181608,
	"step": 5315
	},
	{
	"epoch": 6.440677966101695,
	"grad_norm": 6.4271240234375,
	"learning_rate": 1.6947758330184226e-05,
	"loss": 0.0603,
	"num_input_tokens_seen": 2183656,
	"step": 5320
	},
	{
	"epoch": 6.446731234866828,
	"grad_norm": 0.48759642243385315,
	"learning_rate": 1.689776668183299e-05,
	"loss": 0.0778,
	"num_input_tokens_seen": 2185576,
	"step": 5325
	},
	{
	"epoch": 6.452784503631961,
	"grad_norm": 6.219998836517334,
	"learning_rate": 1.6847811207705813e-05,
	"loss": 0.0543,
	"num_input_tokens_seen": 2187592,
	"step": 5330
	},
	{
	"epoch": 6.458837772397095,
	"grad_norm": 0.6584652066230774,
	"learning_rate": 1.6797892130840036e-05,
	"loss": 0.0478,
	"num_input_tokens_seen": 2189544,
	"step": 5335
	},
	{
	"epoch": 6.464891041162228,
	"grad_norm": 0.11968863755464554,
	"learning_rate": 1.6748009674110477e-05,
	"loss": 0.0868,
	"num_input_tokens_seen": 2191496,
	"step": 5340
	},
	{
	"epoch": 6.4709443099273605,
	"grad_norm": 0.749453604221344,
	"learning_rate": 1.669816406022848e-05,
	"loss": 0.0866,
	"num_input_tokens_seen": 2193416,
	"step": 5345
	},
	{
	"epoch": 6.476997578692494,
	"grad_norm": 4.262302398681641,
	"learning_rate": 1.6648355511740876e-05,
	"loss": 0.0848,
	"num_input_tokens_seen": 2195432,
	"step": 5350
	},
	{
	"epoch": 6.483050847457627,
	"grad_norm": 2.831707000732422,
	"learning_rate": 1.659858425102902e-05,
	"loss": 0.0165,
	"num_input_tokens_seen": 2197288,
	"step": 5355
	},
	{
	"epoch": 6.4891041162227605,
	"grad_norm": 7.086419105529785,
	"learning_rate": 1.6548850500307772e-05,
	"loss": 0.0853,
	"num_input_tokens_seen": 2199368,
	"step": 5360
	},
	{
	"epoch": 6.495157384987894,
	"grad_norm": 2.674248695373535,
	"learning_rate": 1.649915448162455e-05,
	"loss": 0.0217,
	"num_input_tokens_seen": 2201640,
	"step": 5365
	},
	{
	"epoch": 6.5,
	"eval_loss": 0.15626245737075806,
	"eval_runtime": 4.5725,
	"eval_samples_per_second": 80.262,
	"eval_steps_per_second": 20.12,
	"num_input_tokens_seen": 2203208,
	"step": 5369
	},
	{
	"epoch": 6.501210653753026,
	"grad_norm": 0.10960067063570023,
	"learning_rate": 1.6449496416858284e-05,
	"loss": 0.0489,
	"num_input_tokens_seen": 2203592,
	"step": 5370
	},
	{
	"epoch": 6.50726392251816,
	"grad_norm": 0.3896951377391815,
	"learning_rate": 1.6399876527718456e-05,
	"loss": 0.1401,
	"num_input_tokens_seen": 2205640,
	"step": 5375
	},
	{
	"epoch": 6.513317191283293,
	"grad_norm": 4.460085391998291,
	"learning_rate": 1.6350295035744094e-05,
	"loss": 0.1424,
	"num_input_tokens_seen": 2207752,
	"step": 5380
	},
	{
	"epoch": 6.519370460048426,
	"grad_norm": 0.08996804803609848,
	"learning_rate": 1.6300752162302822e-05,
	"loss": 0.0192,
	"num_input_tokens_seen": 2209864,
	"step": 5385
	},
	{
	"epoch": 6.52542372881356,
	"grad_norm": 10.497203826904297,
	"learning_rate": 1.625124812858982e-05,
	"loss": 0.1851,
	"num_input_tokens_seen": 2211944,
	"step": 5390
	},
	{
	"epoch": 6.531476997578692,
	"grad_norm": 4.926606178283691,
	"learning_rate": 1.6201783155626862e-05,
	"loss": 0.113,
	"num_input_tokens_seen": 2213928,
	"step": 5395
	},
	{
	"epoch": 6.5375302663438255,
	"grad_norm": 0.7235932946205139,
	"learning_rate": 1.615235746426133e-05,
	"loss": 0.0963,
	"num_input_tokens_seen": 2215944,
	"step": 5400
	},
	{
	"epoch": 6.543583535108959,
	"grad_norm": 3.8486897945404053,
	"learning_rate": 1.6102971275165228e-05,
	"loss": 0.0764,
	"num_input_tokens_seen": 2217960,
	"step": 5405
	},
	{
	"epoch": 6.549636803874092,
	"grad_norm": 3.5995168685913086,
	"learning_rate": 1.6053624808834188e-05,
	"loss": 0.1895,
	"num_input_tokens_seen": 2219976,
	"step": 5410
	},
	{
	"epoch": 6.5556900726392255,
	"grad_norm": 5.618495941162109,
	"learning_rate": 1.6004318285586497e-05,
	"loss": 0.1285,
	"num_input_tokens_seen": 2221992,
	"step": 5415
	},
	{
	"epoch": 6.561743341404358,
	"grad_norm": 4.392757415771484,
	"learning_rate": 1.5955051925562092e-05,
	"loss": 0.0823,
	"num_input_tokens_seen": 2223976,
	"step": 5420
	},
	{
	"epoch": 6.567796610169491,
	"grad_norm": 1.3197625875473022,
	"learning_rate": 1.590582594872162e-05,
	"loss": 0.0533,
	"num_input_tokens_seen": 2226088,
	"step": 5425
	},
	{
	"epoch": 6.573849878934625,
	"grad_norm": 4.43609094619751,
	"learning_rate": 1.585664057484539e-05,
	"loss": 0.1339,
	"num_input_tokens_seen": 2228008,
	"step": 5430
	},
	{
	"epoch": 6.579903147699758,
	"grad_norm": 0.7666565775871277,
	"learning_rate": 1.5807496023532472e-05,
	"loss": 0.2157,
	"num_input_tokens_seen": 2229928,
	"step": 5435
	},
	{
	"epoch": 6.585956416464891,
	"grad_norm": 0.46131646633148193,
	"learning_rate": 1.5758392514199644e-05,
	"loss": 0.0424,
	"num_input_tokens_seen": 2231912,
	"step": 5440
	},
	{
	"epoch": 6.592009685230024,
	"grad_norm": 4.645249843597412,
	"learning_rate": 1.5709330266080446e-05,
	"loss": 0.0594,
	"num_input_tokens_seen": 2233992,
	"step": 5445
	},
	{
	"epoch": 6.598062953995157,
	"grad_norm": 0.14227555692195892,
	"learning_rate": 1.5660309498224225e-05,
	"loss": 0.0124,
	"num_input_tokens_seen": 2235976,
	"step": 5450
	},
	{
	"epoch": 6.6041162227602905,
	"grad_norm": 1.6020721197128296,
	"learning_rate": 1.5611330429495096e-05,
	"loss": 0.0878,
	"num_input_tokens_seen": 2238088,
	"step": 5455
	},
	{
	"epoch": 6.610169491525424,
	"grad_norm": 10.044299125671387,
	"learning_rate": 1.556239327857101e-05,
	"loss": 0.1516,
	"num_input_tokens_seen": 2240136,
	"step": 5460
	},
	{
	"epoch": 6.616222760290557,
	"grad_norm": 0.4725329875946045,
	"learning_rate": 1.551349826394278e-05,
	"loss": 0.173,
	"num_input_tokens_seen": 2242280,
	"step": 5465
	},
	{
	"epoch": 6.622276029055691,
	"grad_norm": 5.6281890869140625,
	"learning_rate": 1.5464645603913066e-05,
	"loss": 0.1576,
	"num_input_tokens_seen": 2244360,
	"step": 5470
	},
	{
	"epoch": 6.628329297820823,
	"grad_norm": 3.5972378253936768,
	"learning_rate": 1.5415835516595465e-05,
	"loss": 0.0579,
	"num_input_tokens_seen": 2246536,
	"step": 5475
	},
	{
	"epoch": 6.634382566585956,
	"grad_norm": 1.099054217338562,
	"learning_rate": 1.5367068219913456e-05,
	"loss": 0.1159,
	"num_input_tokens_seen": 2248616,
	"step": 5480
	},
	{
	"epoch": 6.64043583535109,
	"grad_norm": 0.566524863243103,
	"learning_rate": 1.5318343931599503e-05,
	"loss": 0.0055,
	"num_input_tokens_seen": 2250664,
	"step": 5485
	},
	{
	"epoch": 6.646489104116223,
	"grad_norm": 6.453625202178955,
	"learning_rate": 1.5269662869194036e-05,
	"loss": 0.0432,
	"num_input_tokens_seen": 2252808,
	"step": 5490
	},
	{
	"epoch": 6.652542372881356,
	"grad_norm": 5.013184070587158,
	"learning_rate": 1.5221025250044486e-05,
	"loss": 0.0926,
	"num_input_tokens_seen": 2254984,
	"step": 5495
	},
	{
	"epoch": 6.658595641646489,
	"grad_norm": 3.822239875793457,
	"learning_rate": 1.517243129130433e-05,
	"loss": 0.0233,
	"num_input_tokens_seen": 2257064,
	"step": 5500
	},
	{
	"epoch": 6.664648910411622,
	"grad_norm": 6.671678066253662,
	"learning_rate": 1.512388120993212e-05,
	"loss": 0.092,
	"num_input_tokens_seen": 2259112,
	"step": 5505
	},
	{
	"epoch": 6.670702179176756,
	"grad_norm": 0.08668724447488785,
	"learning_rate": 1.5075375222690496e-05,
	"loss": 0.0619,
	"num_input_tokens_seen": 2261224,
	"step": 5510
	},
	{
	"epoch": 6.676755447941889,
	"grad_norm": 3.928685188293457,
	"learning_rate": 1.5026913546145232e-05,
	"loss": 0.1003,
	"num_input_tokens_seen": 2263400,
	"step": 5515
	},
	{
	"epoch": 6.682808716707022,
	"grad_norm": 0.28091078996658325,
	"learning_rate": 1.4978496396664279e-05,
	"loss": 0.0754,
	"num_input_tokens_seen": 2265416,
	"step": 5520
	},
	{
	"epoch": 6.688861985472155,
	"grad_norm": 0.40043458342552185,
	"learning_rate": 1.4930123990416766e-05,
	"loss": 0.122,
	"num_input_tokens_seen": 2267560,
	"step": 5525
	},
	{
	"epoch": 6.694915254237288,
	"grad_norm": 0.0906248465180397,
	"learning_rate": 1.4881796543372079e-05,
	"loss": 0.0766,
	"num_input_tokens_seen": 2269544,
	"step": 5530
	},
	{
	"epoch": 6.700968523002421,
	"grad_norm": 5.206305027008057,
	"learning_rate": 1.4833514271298859e-05,
	"loss": 0.0786,
	"num_input_tokens_seen": 2271720,
	"step": 5535
	},
	{
	"epoch": 6.707021791767555,
	"grad_norm": 1.6504778861999512,
	"learning_rate": 1.4785277389764046e-05,
	"loss": 0.0286,
	"num_input_tokens_seen": 2273928,
	"step": 5540
	},
	{
	"epoch": 6.713075060532688,
	"grad_norm": 7.289839267730713,
	"learning_rate": 1.4737086114131943e-05,
	"loss": 0.0607,
	"num_input_tokens_seen": 2275912,
	"step": 5545
	},
	{
	"epoch": 6.719128329297821,
	"grad_norm": 3.971864938735962,
	"learning_rate": 1.4688940659563225e-05,
	"loss": 0.0885,
	"num_input_tokens_seen": 2278024,
	"step": 5550
	},
	{
	"epoch": 6.725181598062954,
	"grad_norm": 0.6193917393684387,
	"learning_rate": 1.4640841241013995e-05,
	"loss": 0.007,
	"num_input_tokens_seen": 2280136,
	"step": 5555
	},
	{
	"epoch": 6.731234866828087,
	"grad_norm": 1.3996975421905518,
	"learning_rate": 1.4592788073234803e-05,
	"loss": 0.0323,
	"num_input_tokens_seen": 2282248,
	"step": 5560
	},
	{
	"epoch": 6.737288135593221,
	"grad_norm": 0.15475653111934662,
	"learning_rate": 1.4544781370769723e-05,
	"loss": 0.0204,
	"num_input_tokens_seen": 2284424,
	"step": 5565
	},
	{
	"epoch": 6.743341404358354,
	"grad_norm": 0.561587929725647,
	"learning_rate": 1.4496821347955359e-05,
	"loss": 0.144,
	"num_input_tokens_seen": 2286344,
	"step": 5570
	},
	{
	"epoch": 6.749394673123486,
	"grad_norm": 0.6858986020088196,
	"learning_rate": 1.444890821891991e-05,
	"loss": 0.1286,
	"num_input_tokens_seen": 2288456,
	"step": 5575
	},
	{
	"epoch": 6.75544794188862,
	"grad_norm": 0.9666218161582947,
	"learning_rate": 1.4401042197582193e-05,
	"loss": 0.0445,
	"num_input_tokens_seen": 2290312,
	"step": 5580
	},
	{
	"epoch": 6.761501210653753,
	"grad_norm": 0.7301199436187744,
	"learning_rate": 1.4353223497650731e-05,
	"loss": 0.0131,
	"num_input_tokens_seen": 2292392,
	"step": 5585
	},
	{
	"epoch": 6.767554479418886,
	"grad_norm": 3.5780975818634033,
	"learning_rate": 1.4305452332622748e-05,
	"loss": 0.1459,
	"num_input_tokens_seen": 2294472,
	"step": 5590
	},
	{
	"epoch": 6.77360774818402,
	"grad_norm": 5.3841938972473145,
	"learning_rate": 1.4257728915783244e-05,
	"loss": 0.0683,
	"num_input_tokens_seen": 2296616,
	"step": 5595
	},
	{
	"epoch": 6.779661016949152,
	"grad_norm": 2.9884018898010254,
	"learning_rate": 1.4210053460204023e-05,
	"loss": 0.1095,
	"num_input_tokens_seen": 2298856,
	"step": 5600
	},
	{
	"epoch": 6.785714285714286,
	"grad_norm": 5.287160396575928,
	"learning_rate": 1.4162426178742788e-05,
	"loss": 0.2111,
	"num_input_tokens_seen": 2301064,
	"step": 5605
	},
	{
	"epoch": 6.791767554479419,
	"grad_norm": 5.867886543273926,
	"learning_rate": 1.4114847284042132e-05,
	"loss": 0.2521,
	"num_input_tokens_seen": 2303208,
	"step": 5610
	},
	{
	"epoch": 6.797820823244552,
	"grad_norm": 6.757856845855713,
	"learning_rate": 1.4067316988528617e-05,
	"loss": 0.0968,
	"num_input_tokens_seen": 2305288,
	"step": 5615
	},
	{
	"epoch": 6.803874092009686,
	"grad_norm": 3.8400421142578125,
	"learning_rate": 1.4019835504411827e-05,
	"loss": 0.0542,
	"num_input_tokens_seen": 2307304,
	"step": 5620
	},
	{
	"epoch": 6.809927360774818,
	"grad_norm": 0.3626413643360138,
	"learning_rate": 1.3972403043683419e-05,
	"loss": 0.0524,
	"num_input_tokens_seen": 2309448,
	"step": 5625
	},
	{
	"epoch": 6.815980629539951,
	"grad_norm": 1.7563663721084595,
	"learning_rate": 1.3925019818116164e-05,
	"loss": 0.1005,
	"num_input_tokens_seen": 2311368,
	"step": 5630
	},
	{
	"epoch": 6.822033898305085,
	"grad_norm": 7.347732067108154,
	"learning_rate": 1.387768603926302e-05,
	"loss": 0.2338,
	"num_input_tokens_seen": 2313448,
	"step": 5635
	},
	{
	"epoch": 6.828087167070218,
	"grad_norm": 2.2824957370758057,
	"learning_rate": 1.383040191845619e-05,
	"loss": 0.176,
	"num_input_tokens_seen": 2315464,
	"step": 5640
	},
	{
	"epoch": 6.8341404358353515,
	"grad_norm": 5.796999454498291,
	"learning_rate": 1.378316766680615e-05,
	"loss": 0.0912,
	"num_input_tokens_seen": 2317480,
	"step": 5645
	},
	{
	"epoch": 6.840193704600484,
	"grad_norm": 2.5402140617370605,
	"learning_rate": 1.373598349520073e-05,
	"loss": 0.1809,
	"num_input_tokens_seen": 2319432,
	"step": 5650
	},
	{
	"epoch": 6.846246973365617,
	"grad_norm": 4.791908264160156,
	"learning_rate": 1.3688849614304164e-05,
	"loss": 0.2282,
	"num_input_tokens_seen": 2321512,
	"step": 5655
	},
	{
	"epoch": 6.852300242130751,
	"grad_norm": 4.897888660430908,
	"learning_rate": 1.3641766234556146e-05,
	"loss": 0.1905,
	"num_input_tokens_seen": 2323560,
	"step": 5660
	},
	{
	"epoch": 6.858353510895884,
	"grad_norm": 3.5213470458984375,
	"learning_rate": 1.3594733566170926e-05,
	"loss": 0.0668,
	"num_input_tokens_seen": 2325576,
	"step": 5665
	},
	{
	"epoch": 6.864406779661017,
	"grad_norm": 3.2041327953338623,
	"learning_rate": 1.3547751819136309e-05,
	"loss": 0.0957,
	"num_input_tokens_seen": 2327496,
	"step": 5670
	},
	{
	"epoch": 6.87046004842615,
	"grad_norm": 2.667874813079834,
	"learning_rate": 1.350082120321276e-05,
	"loss": 0.0558,
	"num_input_tokens_seen": 2329576,
	"step": 5675
	},
	{
	"epoch": 6.876513317191283,
	"grad_norm": 5.709193706512451,
	"learning_rate": 1.3453941927932456e-05,
	"loss": 0.2192,
	"num_input_tokens_seen": 2331656,
	"step": 5680
	},
	{
	"epoch": 6.8825665859564165,
	"grad_norm": 5.8245768547058105,
	"learning_rate": 1.3407114202598369e-05,
	"loss": 0.0549,
	"num_input_tokens_seen": 2333800,
	"step": 5685
	},
	{
	"epoch": 6.88861985472155,
	"grad_norm": 5.625098705291748,
	"learning_rate": 1.3360338236283295e-05,
	"loss": 0.0654,
	"num_input_tokens_seen": 2336008,
	"step": 5690
	},
	{
	"epoch": 6.894673123486683,
	"grad_norm": 9.947223663330078,
	"learning_rate": 1.3313614237828948e-05,
	"loss": 0.1191,
	"num_input_tokens_seen": 2337928,
	"step": 5695
	},
	{
	"epoch": 6.900726392251816,
	"grad_norm": 3.8002381324768066,
	"learning_rate": 1.3266942415845018e-05,
	"loss": 0.189,
	"num_input_tokens_seen": 2340008,
	"step": 5700
	},
	{
	"epoch": 6.906779661016949,
	"grad_norm": 0.2843150198459625,
	"learning_rate": 1.3220322978708242e-05,
	"loss": 0.2774,
	"num_input_tokens_seen": 2342024,
	"step": 5705
	},
	{
	"epoch": 6.912832929782082,
	"grad_norm": 3.9901978969573975,
	"learning_rate": 1.317375613456147e-05,
	"loss": 0.0321,
	"num_input_tokens_seen": 2343976,
	"step": 5710
	},
	{
	"epoch": 6.918886198547216,
	"grad_norm": 5.7010416984558105,
	"learning_rate": 1.3127242091312752e-05,
	"loss": 0.0905,
	"num_input_tokens_seen": 2345928,
	"step": 5715
	},
	{
	"epoch": 6.924939467312349,
	"grad_norm": 9.902931213378906,
	"learning_rate": 1.3080781056634373e-05,
	"loss": 0.147,
	"num_input_tokens_seen": 2347976,
	"step": 5720
	},
	{
	"epoch": 6.9309927360774815,
	"grad_norm": 5.970206260681152,
	"learning_rate": 1.3034373237961983e-05,
	"loss": 0.1639,
	"num_input_tokens_seen": 2349992,
	"step": 5725
	},
	{
	"epoch": 6.937046004842615,
	"grad_norm": 9.21063232421875,
	"learning_rate": 1.2988018842493604e-05,
	"loss": 0.1798,
	"num_input_tokens_seen": 2351976,
	"step": 5730
	},
	{
	"epoch": 6.943099273607748,
	"grad_norm": 5.441684246063232,
	"learning_rate": 1.2941718077188758e-05,
	"loss": 0.0791,
	"num_input_tokens_seen": 2353992,
	"step": 5735
	},
	{
	"epoch": 6.9491525423728815,
	"grad_norm": 5.263315677642822,
	"learning_rate": 1.2895471148767508e-05,
	"loss": 0.2302,
	"num_input_tokens_seen": 2355976,
	"step": 5740
	},
	{
	"epoch": 6.955205811138015,
	"grad_norm": 0.33733436465263367,
	"learning_rate": 1.2849278263709572e-05,
	"loss": 0.1627,
	"num_input_tokens_seen": 2358152,
	"step": 5745
	},
	{
	"epoch": 6.961259079903147,
	"grad_norm": 2.2974305152893066,
	"learning_rate": 1.2803139628253364e-05,
	"loss": 0.117,
	"num_input_tokens_seen": 2360040,
	"step": 5750
	},
	{
	"epoch": 6.967312348668281,
	"grad_norm": 2.7991981506347656,
	"learning_rate": 1.2757055448395092e-05,
	"loss": 0.0867,
	"num_input_tokens_seen": 2362056,
	"step": 5755
	},
	{
	"epoch": 6.973365617433414,
	"grad_norm": 5.492253303527832,
	"learning_rate": 1.271102592988782e-05,
	"loss": 0.1119,
	"num_input_tokens_seen": 2364008,
	"step": 5760
	},
	{
	"epoch": 6.979418886198547,
	"grad_norm": 0.22008445858955383,
	"learning_rate": 1.2665051278240602e-05,
	"loss": 0.066,
	"num_input_tokens_seen": 2366056,
	"step": 5765
	},
	{
	"epoch": 6.985472154963681,
	"grad_norm": 0.251720666885376,
	"learning_rate": 1.2619131698717504e-05,
	"loss": 0.1107,
	"num_input_tokens_seen": 2368072,
	"step": 5770
	},
	{
	"epoch": 6.991525423728813,
	"grad_norm": 4.450534820556641,
	"learning_rate": 1.2573267396336686e-05,
	"loss": 0.1177,
	"num_input_tokens_seen": 2370024,
	"step": 5775
	},
	{
	"epoch": 6.9975786924939465,
	"grad_norm": 0.8103474378585815,
	"learning_rate": 1.2527458575869539e-05,
	"loss": 0.0205,
	"num_input_tokens_seen": 2372008,
	"step": 5780
	},
	{
	"epoch": 7.0,
	"eval_loss": 0.15040120482444763,
	"eval_runtime": 4.5759,
	"eval_samples_per_second": 80.204,
	"eval_steps_per_second": 20.106,
	"num_input_tokens_seen": 2372464,
	"step": 5782
	},
	{
	"epoch": 7.00363196125908,
	"grad_norm": 4.991612434387207,
	"learning_rate": 1.2481705441839756e-05,
	"loss": 0.4001,
	"num_input_tokens_seen": 2373648,
	"step": 5785
	},
	{
	"epoch": 7.009685230024213,
	"grad_norm": 0.7985994815826416,
	"learning_rate": 1.2436008198522376e-05,
	"loss": 0.0437,
	"num_input_tokens_seen": 2375696,
	"step": 5790
	},
	{
	"epoch": 7.0157384987893465,
	"grad_norm": 2.3747811317443848,
	"learning_rate": 1.2390367049942916e-05,
	"loss": 0.0563,
	"num_input_tokens_seen": 2377872,
	"step": 5795
	},
	{
	"epoch": 7.021791767554479,
	"grad_norm": 6.454826831817627,
	"learning_rate": 1.2344782199876431e-05,
	"loss": 0.0908,
	"num_input_tokens_seen": 2379792,
	"step": 5800
	},
	{
	"epoch": 7.027845036319612,
	"grad_norm": 0.03636226803064346,
	"learning_rate": 1.2299253851846651e-05,
	"loss": 0.0884,
	"num_input_tokens_seen": 2381744,
	"step": 5805
	},
	{
	"epoch": 7.033898305084746,
	"grad_norm": 0.8091753721237183,
	"learning_rate": 1.2253782209125012e-05,
	"loss": 0.1468,
	"num_input_tokens_seen": 2383664,
	"step": 5810
	},
	{
	"epoch": 7.039951573849879,
	"grad_norm": 1.8999519348144531,
	"learning_rate": 1.220836747472978e-05,
	"loss": 0.0527,
	"num_input_tokens_seen": 2385744,
	"step": 5815
	},
	{
	"epoch": 7.046004842615012,
	"grad_norm": 0.8117446899414062,
	"learning_rate": 1.2163009851425137e-05,
	"loss": 0.0384,
	"num_input_tokens_seen": 2387920,
	"step": 5820
	},
	{
	"epoch": 7.052058111380146,
	"grad_norm": 0.4487296938896179,
	"learning_rate": 1.2117709541720306e-05,
	"loss": 0.0764,
	"num_input_tokens_seen": 2390000,
	"step": 5825
	},
	{
	"epoch": 7.058111380145278,
	"grad_norm": 2.3434858322143555,
	"learning_rate": 1.2072466747868597e-05,
	"loss": 0.1071,
	"num_input_tokens_seen": 2392016,
	"step": 5830
	},
	{
	"epoch": 7.0641646489104115,
	"grad_norm": 7.249058723449707,
	"learning_rate": 1.2027281671866531e-05,
	"loss": 0.0572,
	"num_input_tokens_seen": 2394032,
	"step": 5835
	},
	{
	"epoch": 7.070217917675545,
	"grad_norm": 0.018748486414551735,
	"learning_rate": 1.198215451545293e-05,
	"loss": 0.1064,
	"num_input_tokens_seen": 2395888,
	"step": 5840
	},
	{
	"epoch": 7.076271186440678,
	"grad_norm": 4.1508564949035645,
	"learning_rate": 1.193708548010804e-05,
	"loss": 0.0788,
	"num_input_tokens_seen": 2398032,
	"step": 5845
	},
	{
	"epoch": 7.0823244552058116,
	"grad_norm": 0.01983875036239624,
	"learning_rate": 1.1892074767052611e-05,
	"loss": 0.0342,
	"num_input_tokens_seen": 2400016,
	"step": 5850
	},
	{
	"epoch": 7.088377723970944,
	"grad_norm": 5.080287456512451,
	"learning_rate": 1.1847122577246964e-05,
	"loss": 0.0491,
	"num_input_tokens_seen": 2402032,
	"step": 5855
	},
	{
	"epoch": 7.094430992736077,
	"grad_norm": 2.0395522117614746,
	"learning_rate": 1.1802229111390157e-05,
	"loss": 0.0128,
	"num_input_tokens_seen": 2404048,
	"step": 5860
	},
	{
	"epoch": 7.100484261501211,
	"grad_norm": 5.25778341293335,
	"learning_rate": 1.175739456991908e-05,
	"loss": 0.1062,
	"num_input_tokens_seen": 2406128,
	"step": 5865
	},
	{
	"epoch": 7.106537530266344,
	"grad_norm": 6.711263656616211,
	"learning_rate": 1.1712619153007517e-05,
	"loss": 0.1401,
	"num_input_tokens_seen": 2408112,
	"step": 5870
	},
	{
	"epoch": 7.112590799031477,
	"grad_norm": 5.80398416519165,
	"learning_rate": 1.166790306056528e-05,
	"loss": 0.1134,
	"num_input_tokens_seen": 2410160,
	"step": 5875
	},
	{
	"epoch": 7.11864406779661,
	"grad_norm": 5.206965446472168,
	"learning_rate": 1.1623246492237305e-05,
	"loss": 0.0945,
	"num_input_tokens_seen": 2412112,
	"step": 5880
	},
	{
	"epoch": 7.124697336561743,
	"grad_norm": 0.28761962056159973,
	"learning_rate": 1.1578649647402806e-05,
	"loss": 0.0389,
	"num_input_tokens_seen": 2414224,
	"step": 5885
	},
	{
	"epoch": 7.1307506053268765,
	"grad_norm": 2.857328176498413,
	"learning_rate": 1.1534112725174306e-05,
	"loss": 0.0971,
	"num_input_tokens_seen": 2416272,
	"step": 5890
	},
	{
	"epoch": 7.13680387409201,
	"grad_norm": 2.5085062980651855,
	"learning_rate": 1.1489635924396817e-05,
	"loss": 0.0905,
	"num_input_tokens_seen": 2418224,
	"step": 5895
	},
	{
	"epoch": 7.142857142857143,
	"grad_norm": 0.11224648356437683,
	"learning_rate": 1.1445219443646896e-05,
	"loss": 0.0208,
	"num_input_tokens_seen": 2420336,
	"step": 5900
	},
	{
	"epoch": 7.148910411622276,
	"grad_norm": 0.478684663772583,
	"learning_rate": 1.1400863481231833e-05,
	"loss": 0.0516,
	"num_input_tokens_seen": 2422288,
	"step": 5905
	},
	{
	"epoch": 7.154963680387409,
	"grad_norm": 3.883321523666382,
	"learning_rate": 1.1356568235188682e-05,
	"loss": 0.0703,
	"num_input_tokens_seen": 2424400,
	"step": 5910
	},
	{
	"epoch": 7.161016949152542,
	"grad_norm": 5.41986083984375,
	"learning_rate": 1.1312333903283435e-05,
	"loss": 0.1168,
	"num_input_tokens_seen": 2426384,
	"step": 5915
	},
	{
	"epoch": 7.167070217917676,
	"grad_norm": 0.2709377110004425,
	"learning_rate": 1.1268160683010096e-05,
	"loss": 0.0523,
	"num_input_tokens_seen": 2428400,
	"step": 5920
	},
	{
	"epoch": 7.173123486682809,
	"grad_norm": 5.297135829925537,
	"learning_rate": 1.122404877158986e-05,
	"loss": 0.1166,
	"num_input_tokens_seen": 2430416,
	"step": 5925
	},
	{
	"epoch": 7.1791767554479415,
	"grad_norm": 0.9408299326896667,
	"learning_rate": 1.1179998365970174e-05,
	"loss": 0.1321,
	"num_input_tokens_seen": 2432464,
	"step": 5930
	},
	{
	"epoch": 7.185230024213075,
	"grad_norm": 6.506756782531738,
	"learning_rate": 1.113600966282386e-05,
	"loss": 0.0385,
	"num_input_tokens_seen": 2434480,
	"step": 5935
	},
	{
	"epoch": 7.191283292978208,
	"grad_norm": 0.5841665267944336,
	"learning_rate": 1.1092082858548275e-05,
	"loss": 0.0832,
	"num_input_tokens_seen": 2436496,
	"step": 5940
	},
	{
	"epoch": 7.197336561743342,
	"grad_norm": 0.013317148201167583,
	"learning_rate": 1.1048218149264434e-05,
	"loss": 0.0993,
	"num_input_tokens_seen": 2438544,
	"step": 5945
	},
	{
	"epoch": 7.203389830508475,
	"grad_norm": 0.01834205724298954,
	"learning_rate": 1.1004415730816083e-05,
	"loss": 0.0511,
	"num_input_tokens_seen": 2440528,
	"step": 5950
	},
	{
	"epoch": 7.209443099273607,
	"grad_norm": 7.901388645172119,
	"learning_rate": 1.0960675798768871e-05,
	"loss": 0.2747,
	"num_input_tokens_seen": 2442576,
	"step": 5955
	},
	{
	"epoch": 7.215496368038741,
	"grad_norm": 6.9650492668151855,
	"learning_rate": 1.0916998548409449e-05,
	"loss": 0.1191,
	"num_input_tokens_seen": 2444560,
	"step": 5960
	},
	{
	"epoch": 7.221549636803874,
	"grad_norm": 0.1719561368227005,
	"learning_rate": 1.0873384174744641e-05,
	"loss": 0.0347,
	"num_input_tokens_seen": 2446704,
	"step": 5965
	},
	{
	"epoch": 7.227602905569007,
	"grad_norm": 6.2616095542907715,
	"learning_rate": 1.0829832872500523e-05,
	"loss": 0.1151,
	"num_input_tokens_seen": 2448720,
	"step": 5970
	},
	{
	"epoch": 7.233656174334141,
	"grad_norm": 5.786017417907715,
	"learning_rate": 1.078634483612157e-05,
	"loss": 0.1013,
	"num_input_tokens_seen": 2450832,
	"step": 5975
	},
	{
	"epoch": 7.239709443099273,
	"grad_norm": 2.1609995365142822,
	"learning_rate": 1.0742920259769792e-05,
	"loss": 0.0251,
	"num_input_tokens_seen": 2452752,
	"step": 5980
	},
	{
	"epoch": 7.245762711864407,
	"grad_norm": 3.690556764602661,
	"learning_rate": 1.06995593373239e-05,
	"loss": 0.1575,
	"num_input_tokens_seen": 2454832,
	"step": 5985
	},
	{
	"epoch": 7.25181598062954,
	"grad_norm": 6.517083644866943,
	"learning_rate": 1.0656262262378367e-05,
	"loss": 0.0948,
	"num_input_tokens_seen": 2456848,
	"step": 5990
	},
	{
	"epoch": 7.257869249394673,
	"grad_norm": 5.877458095550537,
	"learning_rate": 1.0613029228242627e-05,
	"loss": 0.1154,
	"num_input_tokens_seen": 2459024,
	"step": 5995
	},
	{
	"epoch": 7.263922518159807,
	"grad_norm": 0.49661943316459656,
	"learning_rate": 1.0569860427940179e-05,
	"loss": 0.0497,
	"num_input_tokens_seen": 2461168,
	"step": 6000
	},
	{
	"epoch": 7.269975786924939,
	"grad_norm": 4.893890857696533,
	"learning_rate": 1.0526756054207737e-05,
	"loss": 0.022,
	"num_input_tokens_seen": 2463120,
	"step": 6005
	},
	{
	"epoch": 7.276029055690072,
	"grad_norm": 9.290037155151367,
	"learning_rate": 1.0483716299494392e-05,
	"loss": 0.1265,
	"num_input_tokens_seen": 2465168,
	"step": 6010
	},
	{
	"epoch": 7.282082324455206,
	"grad_norm": 5.3339314460754395,
	"learning_rate": 1.044074135596069e-05,
	"loss": 0.165,
	"num_input_tokens_seen": 2467248,
	"step": 6015
	},
	{
	"epoch": 7.288135593220339,
	"grad_norm": 0.101209856569767,
	"learning_rate": 1.0397831415477823e-05,
	"loss": 0.1604,
	"num_input_tokens_seen": 2469200,
	"step": 6020
	},
	{
	"epoch": 7.2941888619854724,
	"grad_norm": 6.609338283538818,
	"learning_rate": 1.0354986669626796e-05,
	"loss": 0.0876,
	"num_input_tokens_seen": 2471312,
	"step": 6025
	},
	{
	"epoch": 7.300242130750606,
	"grad_norm": 8.601812362670898,
	"learning_rate": 1.0312207309697502e-05,
	"loss": 0.0983,
	"num_input_tokens_seen": 2473424,
	"step": 6030
	},
	{
	"epoch": 7.306295399515738,
	"grad_norm": 0.25469648838043213,
	"learning_rate": 1.0269493526687915e-05,
	"loss": 0.1301,
	"num_input_tokens_seen": 2475504,
	"step": 6035
	},
	{
	"epoch": 7.312348668280872,
	"grad_norm": 1.2198680639266968,
	"learning_rate": 1.0226845511303219e-05,
	"loss": 0.093,
	"num_input_tokens_seen": 2477392,
	"step": 6040
	},
	{
	"epoch": 7.318401937046005,
	"grad_norm": 6.0976057052612305,
	"learning_rate": 1.0184263453954988e-05,
	"loss": 0.1598,
	"num_input_tokens_seen": 2479504,
	"step": 6045
	},
	{
	"epoch": 7.324455205811138,
	"grad_norm": 0.11773672699928284,
	"learning_rate": 1.0141747544760285e-05,
	"loss": 0.1831,
	"num_input_tokens_seen": 2481584,
	"step": 6050
	},
	{
	"epoch": 7.330508474576272,
	"grad_norm": 0.2373896986246109,
	"learning_rate": 1.0099297973540852e-05,
	"loss": 0.1016,
	"num_input_tokens_seen": 2483632,
	"step": 6055
	},
	{
	"epoch": 7.336561743341404,
	"grad_norm": 0.4794990122318268,
	"learning_rate": 1.0056914929822248e-05,
	"loss": 0.1583,
	"num_input_tokens_seen": 2485680,
	"step": 6060
	},
	{
	"epoch": 7.342615012106537,
	"grad_norm": 3.694774866104126,
	"learning_rate": 1.0014598602832995e-05,
	"loss": 0.1414,
	"num_input_tokens_seen": 2487824,
	"step": 6065
	},
	{
	"epoch": 7.348668280871671,
	"grad_norm": 5.654700756072998,
	"learning_rate": 9.972349181503773e-06,
	"loss": 0.2079,
	"num_input_tokens_seen": 2489872,
	"step": 6070
	},
	{
	"epoch": 7.354721549636804,
	"grad_norm": 2.5101606845855713,
	"learning_rate": 9.930166854466516e-06,
	"loss": 0.1189,
	"num_input_tokens_seen": 2491888,
	"step": 6075
	},
	{
	"epoch": 7.3607748184019375,
	"grad_norm": 3.4558751583099365,
	"learning_rate": 9.888051810053617e-06,
	"loss": 0.063,
	"num_input_tokens_seen": 2493968,
	"step": 6080
	},
	{
	"epoch": 7.36682808716707,
	"grad_norm": 1.2189325094223022,
	"learning_rate": 9.846004236297052e-06,
	"loss": 0.0761,
	"num_input_tokens_seen": 2495920,
	"step": 6085
	},
	{
	"epoch": 7.372881355932203,
	"grad_norm": 2.1722373962402344,
	"learning_rate": 9.804024320927604e-06,
	"loss": 0.0449,
	"num_input_tokens_seen": 2498000,
	"step": 6090
	},
	{
	"epoch": 7.378934624697337,
	"grad_norm": 6.354626655578613,
	"learning_rate": 9.76211225137392e-06,
	"loss": 0.0556,
	"num_input_tokens_seen": 2499952,
	"step": 6095
	},
	{
	"epoch": 7.38498789346247,
	"grad_norm": 2.806201934814453,
	"learning_rate": 9.720268214761763e-06,
	"loss": 0.0527,
	"num_input_tokens_seen": 2501968,
	"step": 6100
	},
	{
	"epoch": 7.391041162227603,
	"grad_norm": 1.7928763628005981,
	"learning_rate": 9.678492397913167e-06,
	"loss": 0.0513,
	"num_input_tokens_seen": 2503984,
	"step": 6105
	},
	{
	"epoch": 7.397094430992736,
	"grad_norm": 1.5846754312515259,
	"learning_rate": 9.636784987345554e-06,
	"loss": 0.0094,
	"num_input_tokens_seen": 2505968,
	"step": 6110
	},
	{
	"epoch": 7.403147699757869,
	"grad_norm": 1.3514759540557861,
	"learning_rate": 9.595146169270944e-06,
	"loss": 0.0665,
	"num_input_tokens_seen": 2508080,
	"step": 6115
	},
	{
	"epoch": 7.4092009685230025,
	"grad_norm": 6.123665809631348,
	"learning_rate": 9.553576129595101e-06,
	"loss": 0.2015,
	"num_input_tokens_seen": 2510160,
	"step": 6120
	},
	{
	"epoch": 7.415254237288136,
	"grad_norm": 2.2483015060424805,
	"learning_rate": 9.512075053916735e-06,
	"loss": 0.1365,
	"num_input_tokens_seen": 2512304,
	"step": 6125
	},
	{
	"epoch": 7.421307506053269,
	"grad_norm": 2.598407745361328,
	"learning_rate": 9.470643127526627e-06,
	"loss": 0.0505,
	"num_input_tokens_seen": 2514544,
	"step": 6130
	},
	{
	"epoch": 7.427360774818402,
	"grad_norm": 0.049765050411224365,
	"learning_rate": 9.429280535406834e-06,
	"loss": 0.0258,
	"num_input_tokens_seen": 2516592,
	"step": 6135
	},
	{
	"epoch": 7.433414043583535,
	"grad_norm": 4.562868118286133,
	"learning_rate": 9.387987462229859e-06,
	"loss": 0.1327,
	"num_input_tokens_seen": 2518512,
	"step": 6140
	},
	{
	"epoch": 7.439467312348668,
	"grad_norm": 3.8121907711029053,
	"learning_rate": 9.346764092357801e-06,
	"loss": 0.0704,
	"num_input_tokens_seen": 2520592,
	"step": 6145
	},
	{
	"epoch": 7.445520581113802,
	"grad_norm": 0.061380598694086075,
	"learning_rate": 9.305610609841598e-06,
	"loss": 0.1017,
	"num_input_tokens_seen": 2522640,
	"step": 6150
	},
	{
	"epoch": 7.451573849878935,
	"grad_norm": 0.5764665007591248,
	"learning_rate": 9.264527198420117e-06,
	"loss": 0.0743,
	"num_input_tokens_seen": 2524592,
	"step": 6155
	},
	{
	"epoch": 7.4576271186440675,
	"grad_norm": 7.019524097442627,
	"learning_rate": 9.2235140415194e-06,
	"loss": 0.1273,
	"num_input_tokens_seen": 2526576,
	"step": 6160
	},
	{
	"epoch": 7.463680387409201,
	"grad_norm": 0.13237552344799042,
	"learning_rate": 9.182571322251796e-06,
	"loss": 0.0638,
	"num_input_tokens_seen": 2528656,
	"step": 6165
	},
	{
	"epoch": 7.469733656174334,
	"grad_norm": 5.415895462036133,
	"learning_rate": 9.141699223415221e-06,
	"loss": 0.1563,
	"num_input_tokens_seen": 2530864,
	"step": 6170
	},
	{
	"epoch": 7.4757869249394675,
	"grad_norm": 6.8290557861328125,
	"learning_rate": 9.10089792749223e-06,
	"loss": 0.0785,
	"num_input_tokens_seen": 2532880,
	"step": 6175
	},
	{
	"epoch": 7.481840193704601,
	"grad_norm": 8.107266426086426,
	"learning_rate": 9.06016761664929e-06,
	"loss": 0.1175,
	"num_input_tokens_seen": 2534864,
	"step": 6180
	},
	{
	"epoch": 7.487893462469733,
	"grad_norm": 5.507659435272217,
	"learning_rate": 9.019508472735958e-06,
	"loss": 0.1338,
	"num_input_tokens_seen": 2536912,
	"step": 6185
	},
	{
	"epoch": 7.493946731234867,
	"grad_norm": 4.443814754486084,
	"learning_rate": 8.978920677284022e-06,
	"loss": 0.0693,
	"num_input_tokens_seen": 2538832,
	"step": 6190
	},
	{
	"epoch": 7.5,
	"grad_norm": 5.766138553619385,
	"learning_rate": 8.938404411506732e-06,
	"loss": 0.2827,
	"num_input_tokens_seen": 2540880,
	"step": 6195
	},
	{
	"epoch": 7.5,
	"eval_loss": 0.1561979204416275,
	"eval_runtime": 4.5842,
	"eval_samples_per_second": 80.058,
	"eval_steps_per_second": 20.069,
	"num_input_tokens_seen": 2540880,
	"step": 6195
	},
	{
	"epoch": 7.506053268765133,
	"grad_norm": 4.710324287414551,
	"learning_rate": 8.897959856297971e-06,
	"loss": 0.0657,
	"num_input_tokens_seen": 2542832,
	"step": 6200
	},
	{
	"epoch": 7.512106537530267,
	"grad_norm": 0.08274981379508972,
	"learning_rate": 8.857587192231452e-06,
	"loss": 0.0517,
	"num_input_tokens_seen": 2544784,
	"step": 6205
	},
	{
	"epoch": 7.518159806295399,
	"grad_norm": 0.5334417223930359,
	"learning_rate": 8.817286599559932e-06,
	"loss": 0.0684,
	"num_input_tokens_seen": 2546832,
	"step": 6210
	},
	{
	"epoch": 7.5242130750605325,
	"grad_norm": 1.4246139526367188,
	"learning_rate": 8.777058258214377e-06,
	"loss": 0.0981,
	"num_input_tokens_seen": 2549008,
	"step": 6215
	},
	{
	"epoch": 7.530266343825666,
	"grad_norm": 4.641688346862793,
	"learning_rate": 8.736902347803163e-06,
	"loss": 0.1203,
	"num_input_tokens_seen": 2551120,
	"step": 6220
	},
	{
	"epoch": 7.536319612590799,
	"grad_norm": 2.8254716396331787,
	"learning_rate": 8.696819047611288e-06,
	"loss": 0.0808,
	"num_input_tokens_seen": 2553168,
	"step": 6225
	},
	{
	"epoch": 7.5423728813559325,
	"grad_norm": 3.209864377975464,
	"learning_rate": 8.65680853659958e-06,
	"loss": 0.0453,
	"num_input_tokens_seen": 2555184,
	"step": 6230
	},
	{
	"epoch": 7.548426150121065,
	"grad_norm": 3.2419934272766113,
	"learning_rate": 8.616870993403864e-06,
	"loss": 0.0221,
	"num_input_tokens_seen": 2557264,
	"step": 6235
	},
	{
	"epoch": 7.554479418886198,
	"grad_norm": 0.510710597038269,
	"learning_rate": 8.577006596334191e-06,
	"loss": 0.1491,
	"num_input_tokens_seen": 2559248,
	"step": 6240
	},
	{
	"epoch": 7.560532687651332,
	"grad_norm": 2.6407363414764404,
	"learning_rate": 8.537215523374038e-06,
	"loss": 0.1646,
	"num_input_tokens_seen": 2561264,
	"step": 6245
	},
	{
	"epoch": 7.566585956416465,
	"grad_norm": 5.177677154541016,
	"learning_rate": 8.4974979521795e-06,
	"loss": 0.1805,
	"num_input_tokens_seen": 2563120,
	"step": 6250
	},
	{
	"epoch": 7.572639225181598,
	"grad_norm": 0.05995741859078407,
	"learning_rate": 8.45785406007852e-06,
	"loss": 0.2352,
	"num_input_tokens_seen": 2565104,
	"step": 6255
	},
	{
	"epoch": 7.578692493946731,
	"grad_norm": 4.417571544647217,
	"learning_rate": 8.418284024070069e-06,
	"loss": 0.0918,
	"num_input_tokens_seen": 2567216,
	"step": 6260
	},
	{
	"epoch": 7.584745762711864,
	"grad_norm": 3.200150728225708,
	"learning_rate": 8.378788020823394e-06,
	"loss": 0.0234,
	"num_input_tokens_seen": 2569360,
	"step": 6265
	},
	{
	"epoch": 7.5907990314769975,
	"grad_norm": 10.74376392364502,
	"learning_rate": 8.33936622667719e-06,
	"loss": 0.1187,
	"num_input_tokens_seen": 2571536,
	"step": 6270
	},
	{
	"epoch": 7.596852300242131,
	"grad_norm": 0.05067841336131096,
	"learning_rate": 8.300018817638825e-06,
	"loss": 0.2934,
	"num_input_tokens_seen": 2573648,
	"step": 6275
	},
	{
	"epoch": 7.602905569007264,
	"grad_norm": 0.693376362323761,
	"learning_rate": 8.260745969383565e-06,
	"loss": 0.0099,
	"num_input_tokens_seen": 2575888,
	"step": 6280
	},
	{
	"epoch": 7.608958837772397,
	"grad_norm": 3.702101230621338,
	"learning_rate": 8.221547857253781e-06,
	"loss": 0.0783,
	"num_input_tokens_seen": 2578032,
	"step": 6285
	},
	{
	"epoch": 7.61501210653753,
	"grad_norm": 3.041938543319702,
	"learning_rate": 8.182424656258178e-06,
	"loss": 0.1982,
	"num_input_tokens_seen": 2580016,
	"step": 6290
	},
	{
	"epoch": 7.621065375302663,
	"grad_norm": 0.7098401784896851,
	"learning_rate": 8.143376541070993e-06,
	"loss": 0.172,
	"num_input_tokens_seen": 2582192,
	"step": 6295
	},
	{
	"epoch": 7.627118644067797,
	"grad_norm": 3.364931106567383,
	"learning_rate": 8.104403686031225e-06,
	"loss": 0.1141,
	"num_input_tokens_seen": 2584208,
	"step": 6300
	},
	{
	"epoch": 7.63317191283293,
	"grad_norm": 0.41202157735824585,
	"learning_rate": 8.06550626514185e-06,
	"loss": 0.0881,
	"num_input_tokens_seen": 2586160,
	"step": 6305
	},
	{
	"epoch": 7.6392251815980625,
	"grad_norm": 4.636420726776123,
	"learning_rate": 8.026684452069084e-06,
	"loss": 0.032,
	"num_input_tokens_seen": 2588240,
	"step": 6310
	},
	{
	"epoch": 7.645278450363196,
	"grad_norm": 3.400038719177246,
	"learning_rate": 7.987938420141536e-06,
	"loss": 0.0891,
	"num_input_tokens_seen": 2590480,
	"step": 6315
	},
	{
	"epoch": 7.651331719128329,
	"grad_norm": 4.440576553344727,
	"learning_rate": 7.949268342349495e-06,
	"loss": 0.1652,
	"num_input_tokens_seen": 2592400,
	"step": 6320
	},
	{
	"epoch": 7.657384987893463,
	"grad_norm": 7.222400188446045,
	"learning_rate": 7.910674391344129e-06,
	"loss": 0.0654,
	"num_input_tokens_seen": 2594352,
	"step": 6325
	},
	{
	"epoch": 7.663438256658596,
	"grad_norm": 7.135024070739746,
	"learning_rate": 7.872156739436722e-06,
	"loss": 0.1163,
	"num_input_tokens_seen": 2596464,
	"step": 6330
	},
	{
	"epoch": 7.669491525423728,
	"grad_norm": 3.5936965942382812,
	"learning_rate": 7.833715558597907e-06,
	"loss": 0.1517,
	"num_input_tokens_seen": 2598544,
	"step": 6335
	},
	{
	"epoch": 7.675544794188862,
	"grad_norm": 2.601381540298462,
	"learning_rate": 7.795351020456887e-06,
	"loss": 0.0728,
	"num_input_tokens_seen": 2600656,
	"step": 6340
	},
	{
	"epoch": 7.681598062953995,
	"grad_norm": 1.4275619983673096,
	"learning_rate": 7.757063296300681e-06,
	"loss": 0.0455,
	"num_input_tokens_seen": 2602832,
	"step": 6345
	},
	{
	"epoch": 7.687651331719128,
	"grad_norm": 4.785684585571289,
	"learning_rate": 7.718852557073366e-06,
	"loss": 0.1142,
	"num_input_tokens_seen": 2605008,
	"step": 6350
	},
	{
	"epoch": 7.693704600484262,
	"grad_norm": 1.9919321537017822,
	"learning_rate": 7.680718973375287e-06,
	"loss": 0.0911,
	"num_input_tokens_seen": 2607152,
	"step": 6355
	},
	{
	"epoch": 7.699757869249394,
	"grad_norm": 4.593861103057861,
	"learning_rate": 7.642662715462315e-06,
	"loss": 0.0768,
	"num_input_tokens_seen": 2609264,
	"step": 6360
	},
	{
	"epoch": 7.7058111380145276,
	"grad_norm": 1.1676124334335327,
	"learning_rate": 7.604683953245076e-06,
	"loss": 0.0514,
	"num_input_tokens_seen": 2611344,
	"step": 6365
	},
	{
	"epoch": 7.711864406779661,
	"grad_norm": 9.047789573669434,
	"learning_rate": 7.566782856288224e-06,
	"loss": 0.1201,
	"num_input_tokens_seen": 2613488,
	"step": 6370
	},
	{
	"epoch": 7.717917675544794,
	"grad_norm": 5.686391830444336,
	"learning_rate": 7.5289595938096344e-06,
	"loss": 0.1994,
	"num_input_tokens_seen": 2615408,
	"step": 6375
	},
	{
	"epoch": 7.723970944309928,
	"grad_norm": 5.593163967132568,
	"learning_rate": 7.4912143346796805e-06,
	"loss": 0.1044,
	"num_input_tokens_seen": 2617424,
	"step": 6380
	},
	{
	"epoch": 7.73002421307506,
	"grad_norm": 0.4675053060054779,
	"learning_rate": 7.4535472474204645e-06,
	"loss": 0.1039,
	"num_input_tokens_seen": 2619312,
	"step": 6385
	},
	{
	"epoch": 7.736077481840193,
	"grad_norm": 4.127689361572266,
	"learning_rate": 7.415958500205103e-06,
	"loss": 0.1168,
	"num_input_tokens_seen": 2621168,
	"step": 6390
	},
	{
	"epoch": 7.742130750605327,
	"grad_norm": 5.092752933502197,
	"learning_rate": 7.37844826085691e-06,
	"loss": 0.0661,
	"num_input_tokens_seen": 2623152,
	"step": 6395
	},
	{
	"epoch": 7.74818401937046,
	"grad_norm": 0.2673223614692688,
	"learning_rate": 7.341016696848699e-06,
	"loss": 0.0332,
	"num_input_tokens_seen": 2625328,
	"step": 6400
	},
	{
	"epoch": 7.754237288135593,
	"grad_norm": 0.20804698765277863,
	"learning_rate": 7.303663975302022e-06,
	"loss": 0.026,
	"num_input_tokens_seen": 2627536,
	"step": 6405
	},
	{
	"epoch": 7.760290556900727,
	"grad_norm": 0.20616967976093292,
	"learning_rate": 7.2663902629864165e-06,
	"loss": 0.0101,
	"num_input_tokens_seen": 2629616,
	"step": 6410
	},
	{
	"epoch": 7.766343825665859,
	"grad_norm": 3.6831769943237305,
	"learning_rate": 7.229195726318669e-06,
	"loss": 0.0538,
	"num_input_tokens_seen": 2631696,
	"step": 6415
	},
	{
	"epoch": 7.772397094430993,
	"grad_norm": 0.7039980292320251,
	"learning_rate": 7.192080531362067e-06,
	"loss": 0.064,
	"num_input_tokens_seen": 2633776,
	"step": 6420
	},
	{
	"epoch": 7.778450363196126,
	"grad_norm": 3.7811477184295654,
	"learning_rate": 7.155044843825651e-06,
	"loss": 0.0414,
	"num_input_tokens_seen": 2635920,
	"step": 6425
	},
	{
	"epoch": 7.784503631961259,
	"grad_norm": 6.906268119812012,
	"learning_rate": 7.118088829063504e-06,
	"loss": 0.1027,
	"num_input_tokens_seen": 2637936,
	"step": 6430
	},
	{
	"epoch": 7.790556900726393,
	"grad_norm": 3.0784387588500977,
	"learning_rate": 7.081212652073979e-06,
	"loss": 0.0815,
	"num_input_tokens_seen": 2639984,
	"step": 6435
	},
	{
	"epoch": 7.796610169491525,
	"grad_norm": 1.9412931203842163,
	"learning_rate": 7.044416477498972e-06,
	"loss": 0.1324,
	"num_input_tokens_seen": 2642000,
	"step": 6440
	},
	{
	"epoch": 7.802663438256658,
	"grad_norm": 0.9284259080886841,
	"learning_rate": 7.007700469623185e-06,
	"loss": 0.0571,
	"num_input_tokens_seen": 2644016,
	"step": 6445
	},
	{
	"epoch": 7.808716707021792,
	"grad_norm": 2.565072774887085,
	"learning_rate": 6.971064792373427e-06,
	"loss": 0.1923,
	"num_input_tokens_seen": 2646000,
	"step": 6450
	},
	{
	"epoch": 7.814769975786925,
	"grad_norm": 2.1427745819091797,
	"learning_rate": 6.934509609317821e-06,
	"loss": 0.1555,
	"num_input_tokens_seen": 2648048,
	"step": 6455
	},
	{
	"epoch": 7.8208232445520585,
	"grad_norm": 5.358201026916504,
	"learning_rate": 6.898035083665124e-06,
	"loss": 0.0466,
	"num_input_tokens_seen": 2650064,
	"step": 6460
	},
	{
	"epoch": 7.826876513317191,
	"grad_norm": 3.4232592582702637,
	"learning_rate": 6.861641378263964e-06,
	"loss": 0.0734,
	"num_input_tokens_seen": 2652016,
	"step": 6465
	},
	{
	"epoch": 7.832929782082324,
	"grad_norm": 2.332578182220459,
	"learning_rate": 6.825328655602153e-06,
	"loss": 0.1261,
	"num_input_tokens_seen": 2654192,
	"step": 6470
	},
	{
	"epoch": 7.838983050847458,
	"grad_norm": 0.7169421911239624,
	"learning_rate": 6.789097077805917e-06,
	"loss": 0.1027,
	"num_input_tokens_seen": 2656208,
	"step": 6475
	},
	{
	"epoch": 7.845036319612591,
	"grad_norm": 5.153744220733643,
	"learning_rate": 6.7529468066392015e-06,
	"loss": 0.0898,
	"num_input_tokens_seen": 2658384,
	"step": 6480
	},
	{
	"epoch": 7.851089588377724,
	"grad_norm": 0.8772520422935486,
	"learning_rate": 6.7168780035029385e-06,
	"loss": 0.0203,
	"num_input_tokens_seen": 2660528,
	"step": 6485
	},
	{
	"epoch": 7.857142857142857,
	"grad_norm": 7.855628967285156,
	"learning_rate": 6.680890829434325e-06,
	"loss": 0.157,
	"num_input_tokens_seen": 2662640,
	"step": 6490
	},
	{
	"epoch": 7.86319612590799,
	"grad_norm": 3.3216187953948975,
	"learning_rate": 6.644985445106114e-06,
	"loss": 0.0637,
	"num_input_tokens_seen": 2664624,
	"step": 6495
	},
	{
	"epoch": 7.8692493946731235,
	"grad_norm": 0.16674460470676422,
	"learning_rate": 6.609162010825881e-06,
	"loss": 0.016,
	"num_input_tokens_seen": 2666640,
	"step": 6500
	},
	{
	"epoch": 7.875302663438257,
	"grad_norm": 4.573734283447266,
	"learning_rate": 6.573420686535317e-06,
	"loss": 0.0683,
	"num_input_tokens_seen": 2668592,
	"step": 6505
	},
	{
	"epoch": 7.88135593220339,
	"grad_norm": 4.325008869171143,
	"learning_rate": 6.537761631809533e-06,
	"loss": 0.1327,
	"num_input_tokens_seen": 2670704,
	"step": 6510
	},
	{
	"epoch": 7.8874092009685235,
	"grad_norm": 1.69081449508667,
	"learning_rate": 6.502185005856312e-06,
	"loss": 0.0717,
	"num_input_tokens_seen": 2672752,
	"step": 6515
	},
	{
	"epoch": 7.893462469733656,
	"grad_norm": 1.8181393146514893,
	"learning_rate": 6.4666909675154155e-06,
	"loss": 0.0724,
	"num_input_tokens_seen": 2674864,
	"step": 6520
	},
	{
	"epoch": 7.899515738498789,
	"grad_norm": 0.46458661556243896,
	"learning_rate": 6.431279675257873e-06,
	"loss": 0.2251,
	"num_input_tokens_seen": 2676944,
	"step": 6525
	},
	{
	"epoch": 7.905569007263923,
	"grad_norm": 3.5621135234832764,
	"learning_rate": 6.395951287185295e-06,
	"loss": 0.0576,
	"num_input_tokens_seen": 2679024,
	"step": 6530
	},
	{
	"epoch": 7.911622276029056,
	"grad_norm": 1.915932059288025,
	"learning_rate": 6.360705961029126e-06,
	"loss": 0.035,
	"num_input_tokens_seen": 2680976,
	"step": 6535
	},
	{
	"epoch": 7.917675544794189,
	"grad_norm": 6.927842140197754,
	"learning_rate": 6.325543854149968e-06,
	"loss": 0.108,
	"num_input_tokens_seen": 2683088,
	"step": 6540
	},
	{
	"epoch": 7.923728813559322,
	"grad_norm": 0.36779117584228516,
	"learning_rate": 6.290465123536876e-06,
	"loss": 0.0904,
	"num_input_tokens_seen": 2685072,
	"step": 6545
	},
	{
	"epoch": 7.929782082324455,
	"grad_norm": 0.3823559880256653,
	"learning_rate": 6.255469925806643e-06,
	"loss": 0.084,
	"num_input_tokens_seen": 2687184,
	"step": 6550
	},
	{
	"epoch": 7.9358353510895885,
	"grad_norm": 1.9843477010726929,
	"learning_rate": 6.220558417203132e-06,
	"loss": 0.0953,
	"num_input_tokens_seen": 2689232,
	"step": 6555
	},
	{
	"epoch": 7.941888619854722,
	"grad_norm": 0.8949267864227295,
	"learning_rate": 6.185730753596539e-06,
	"loss": 0.0793,
	"num_input_tokens_seen": 2691280,
	"step": 6560
	},
	{
	"epoch": 7.947941888619855,
	"grad_norm": 0.34748074412345886,
	"learning_rate": 6.150987090482715e-06,
	"loss": 0.0306,
	"num_input_tokens_seen": 2693328,
	"step": 6565
	},
	{
	"epoch": 7.953995157384988,
	"grad_norm": 2.629479169845581,
	"learning_rate": 6.116327582982484e-06,
	"loss": 0.1464,
	"num_input_tokens_seen": 2695440,
	"step": 6570
	},
	{
	"epoch": 7.960048426150121,
	"grad_norm": 0.09015600383281708,
	"learning_rate": 6.0817523858409245e-06,
	"loss": 0.0922,
	"num_input_tokens_seen": 2697488,
	"step": 6575
	},
	{
	"epoch": 7.966101694915254,
	"grad_norm": 4.677306175231934,
	"learning_rate": 6.047261653426708e-06,
	"loss": 0.1554,
	"num_input_tokens_seen": 2699504,
	"step": 6580
	},
	{
	"epoch": 7.972154963680388,
	"grad_norm": 6.132607460021973,
	"learning_rate": 6.012855539731374e-06,
	"loss": 0.0634,
	"num_input_tokens_seen": 2701456,
	"step": 6585
	},
	{
	"epoch": 7.978208232445521,
	"grad_norm": 4.510989189147949,
	"learning_rate": 5.978534198368691e-06,
	"loss": 0.0738,
	"num_input_tokens_seen": 2703504,
	"step": 6590
	},
	{
	"epoch": 7.9842615012106535,
	"grad_norm": 1.4074878692626953,
	"learning_rate": 5.944297782573918e-06,
	"loss": 0.1079,
	"num_input_tokens_seen": 2705616,
	"step": 6595
	},
	{
	"epoch": 7.990314769975787,
	"grad_norm": 4.238768577575684,
	"learning_rate": 5.910146445203154e-06,
	"loss": 0.0776,
	"num_input_tokens_seen": 2707728,
	"step": 6600
	},
	{
	"epoch": 7.99636803874092,
	"grad_norm": 0.08241457492113113,
	"learning_rate": 5.876080338732643e-06,
	"loss": 0.1001,
	"num_input_tokens_seen": 2709776,
	"step": 6605
	},
	{
	"epoch": 8.0,
	"eval_loss": 0.15882021188735962,
	"eval_runtime": 4.5817,
	"eval_samples_per_second": 80.1,
	"eval_steps_per_second": 20.08,
	"num_input_tokens_seen": 2710624,
	"step": 6608
	},
	{
	"epoch": 8.002421307506053,
	"grad_norm": 2.513517141342163,
	"learning_rate": 5.842099615258109e-06,
	"loss": 0.064,
	"num_input_tokens_seen": 2711456,
	"step": 6610
	},
	{
	"epoch": 8.008474576271187,
	"grad_norm": 0.1411186158657074,
	"learning_rate": 5.808204426494054e-06,
	"loss": 0.1748,
	"num_input_tokens_seen": 2713536,
	"step": 6615
	},
	{
	"epoch": 8.01452784503632,
	"grad_norm": 0.5461141467094421,
	"learning_rate": 5.774394923773088e-06,
	"loss": 0.1396,
	"num_input_tokens_seen": 2715680,
	"step": 6620
	},
	{
	"epoch": 8.020581113801454,
	"grad_norm": 2.81977915763855,
	"learning_rate": 5.74067125804526e-06,
	"loss": 0.0513,
	"num_input_tokens_seen": 2717728,
	"step": 6625
	},
	{
	"epoch": 8.026634382566586,
	"grad_norm": 9.47875690460205,
	"learning_rate": 5.70703357987738e-06,
	"loss": 0.0797,
	"num_input_tokens_seen": 2719712,
	"step": 6630
	},
	{
	"epoch": 8.032687651331718,
	"grad_norm": 2.103945016860962,
	"learning_rate": 5.673482039452363e-06,
	"loss": 0.0679,
	"num_input_tokens_seen": 2721856,
	"step": 6635
	},
	{
	"epoch": 8.038740920096853,
	"grad_norm": 10.135988235473633,
	"learning_rate": 5.640016786568525e-06,
	"loss": 0.1698,
	"num_input_tokens_seen": 2724000,
	"step": 6640
	},
	{
	"epoch": 8.044794188861985,
	"grad_norm": 0.5726349949836731,
	"learning_rate": 5.606637970638917e-06,
	"loss": 0.1044,
	"num_input_tokens_seen": 2725792,
	"step": 6645
	},
	{
	"epoch": 8.05084745762712,
	"grad_norm": 0.0631587952375412,
	"learning_rate": 5.573345740690714e-06,
	"loss": 0.1507,
	"num_input_tokens_seen": 2727744,
	"step": 6650
	},
	{
	"epoch": 8.056900726392252,
	"grad_norm": 3.7353861331939697,
	"learning_rate": 5.540140245364478e-06,
	"loss": 0.0763,
	"num_input_tokens_seen": 2729856,
	"step": 6655
	},
	{
	"epoch": 8.062953995157384,
	"grad_norm": 0.1272682547569275,
	"learning_rate": 5.5070216329135365e-06,
	"loss": 0.0488,
	"num_input_tokens_seen": 2731872,
	"step": 6660
	},
	{
	"epoch": 8.069007263922519,
	"grad_norm": 0.2341405749320984,
	"learning_rate": 5.473990051203298e-06,
	"loss": 0.0809,
	"num_input_tokens_seen": 2734016,
	"step": 6665
	},
	{
	"epoch": 8.075060532687651,
	"grad_norm": 1.8176710605621338,
	"learning_rate": 5.441045647710627e-06,
	"loss": 0.0458,
	"num_input_tokens_seen": 2736032,
	"step": 6670
	},
	{
	"epoch": 8.081113801452785,
	"grad_norm": 7.36388635635376,
	"learning_rate": 5.408188569523137e-06,
	"loss": 0.1572,
	"num_input_tokens_seen": 2737952,
	"step": 6675
	},
	{
	"epoch": 8.087167070217918,
	"grad_norm": 2.5287160873413086,
	"learning_rate": 5.375418963338566e-06,
	"loss": 0.0209,
	"num_input_tokens_seen": 2739968,
	"step": 6680
	},
	{
	"epoch": 8.09322033898305,
	"grad_norm": 3.441671133041382,
	"learning_rate": 5.342736975464116e-06,
	"loss": 0.1182,
	"num_input_tokens_seen": 2742016,
	"step": 6685
	},
	{
	"epoch": 8.099273607748184,
	"grad_norm": 2.918954610824585,
	"learning_rate": 5.310142751815792e-06,
	"loss": 0.0744,
	"num_input_tokens_seen": 2744128,
	"step": 6690
	},
	{
	"epoch": 8.105326876513317,
	"grad_norm": 0.13784159719944,
	"learning_rate": 5.277636437917769e-06,
	"loss": 0.0489,
	"num_input_tokens_seen": 2746112,
	"step": 6695
	},
	{
	"epoch": 8.111380145278451,
	"grad_norm": 0.6086945533752441,
	"learning_rate": 5.245218178901717e-06,
	"loss": 0.0761,
	"num_input_tokens_seen": 2748128,
	"step": 6700
	},
	{
	"epoch": 8.117433414043584,
	"grad_norm": 5.943281650543213,
	"learning_rate": 5.212888119506168e-06,
	"loss": 0.0651,
	"num_input_tokens_seen": 2750176,
	"step": 6705
	},
	{
	"epoch": 8.123486682808716,
	"grad_norm": 0.10667125880718231,
	"learning_rate": 5.180646404075862e-06,
	"loss": 0.1376,
	"num_input_tokens_seen": 2752256,
	"step": 6710
	},
	{
	"epoch": 8.12953995157385,
	"grad_norm": 0.2919732630252838,
	"learning_rate": 5.1484931765611286e-06,
	"loss": 0.037,
	"num_input_tokens_seen": 2754208,
	"step": 6715
	},
	{
	"epoch": 8.135593220338983,
	"grad_norm": 0.1272069811820984,
	"learning_rate": 5.116428580517207e-06,
	"loss": 0.0543,
	"num_input_tokens_seen": 2756352,
	"step": 6720
	},
	{
	"epoch": 8.141646489104117,
	"grad_norm": 5.189438819885254,
	"learning_rate": 5.084452759103603e-06,
	"loss": 0.1686,
	"num_input_tokens_seen": 2758528,
	"step": 6725
	},
	{
	"epoch": 8.14769975786925,
	"grad_norm": 1.4413750171661377,
	"learning_rate": 5.052565855083511e-06,
	"loss": 0.05,
	"num_input_tokens_seen": 2760608,
	"step": 6730
	},
	{
	"epoch": 8.153753026634382,
	"grad_norm": 0.21941789984703064,
	"learning_rate": 5.020768010823102e-06,
	"loss": 0.0895,
	"num_input_tokens_seen": 2762656,
	"step": 6735
	},
	{
	"epoch": 8.159806295399516,
	"grad_norm": 6.086516857147217,
	"learning_rate": 4.98905936829093e-06,
	"loss": 0.3365,
	"num_input_tokens_seen": 2764672,
	"step": 6740
	},
	{
	"epoch": 8.165859564164649,
	"grad_norm": 4.337617874145508,
	"learning_rate": 4.957440069057281e-06,
	"loss": 0.2026,
	"num_input_tokens_seen": 2766752,
	"step": 6745
	},
	{
	"epoch": 8.171912832929783,
	"grad_norm": 0.7985682487487793,
	"learning_rate": 4.92591025429357e-06,
	"loss": 0.1161,
	"num_input_tokens_seen": 2768736,
	"step": 6750
	},
	{
	"epoch": 8.177966101694915,
	"grad_norm": 0.06866363435983658,
	"learning_rate": 4.8944700647716616e-06,
	"loss": 0.0773,
	"num_input_tokens_seen": 2770752,
	"step": 6755
	},
	{
	"epoch": 8.184019370460048,
	"grad_norm": 1.1329652070999146,
	"learning_rate": 4.863119640863284e-06,
	"loss": 0.0797,
	"num_input_tokens_seen": 2772928,
	"step": 6760
	},
	{
	"epoch": 8.190072639225182,
	"grad_norm": 4.368817329406738,
	"learning_rate": 4.831859122539381e-06,
	"loss": 0.1068,
	"num_input_tokens_seen": 2774976,
	"step": 6765
	},
	{
	"epoch": 8.196125907990314,
	"grad_norm": 4.116227149963379,
	"learning_rate": 4.800688649369489e-06,
	"loss": 0.0271,
	"num_input_tokens_seen": 2777152,
	"step": 6770
	},
	{
	"epoch": 8.202179176755449,
	"grad_norm": 1.6234118938446045,
	"learning_rate": 4.769608360521135e-06,
	"loss": 0.0401,
	"num_input_tokens_seen": 2779296,
	"step": 6775
	},
	{
	"epoch": 8.208232445520581,
	"grad_norm": 0.17533978819847107,
	"learning_rate": 4.7386183947591815e-06,
	"loss": 0.0862,
	"num_input_tokens_seen": 2781376,
	"step": 6780
	},
	{
	"epoch": 8.214285714285714,
	"grad_norm": 6.969298362731934,
	"learning_rate": 4.7077188904452255e-06,
	"loss": 0.1029,
	"num_input_tokens_seen": 2783424,
	"step": 6785
	},
	{
	"epoch": 8.220338983050848,
	"grad_norm": 4.845013618469238,
	"learning_rate": 4.676909985536981e-06,
	"loss": 0.0861,
	"num_input_tokens_seen": 2785376,
	"step": 6790
	},
	{
	"epoch": 8.22639225181598,
	"grad_norm": 0.1180926263332367,
	"learning_rate": 4.64619181758767e-06,
	"loss": 0.0417,
	"num_input_tokens_seen": 2787456,
	"step": 6795
	},
	{
	"epoch": 8.232445520581114,
	"grad_norm": 0.3309163451194763,
	"learning_rate": 4.615564523745391e-06,
	"loss": 0.0407,
	"num_input_tokens_seen": 2789568,
	"step": 6800
	},
	{
	"epoch": 8.238498789346247,
	"grad_norm": 0.4439374506473541,
	"learning_rate": 4.585028240752498e-06,
	"loss": 0.0463,
	"num_input_tokens_seen": 2791584,
	"step": 6805
	},
	{
	"epoch": 8.24455205811138,
	"grad_norm": 0.6282607913017273,
	"learning_rate": 4.554583104945037e-06,
	"loss": 0.0457,
	"num_input_tokens_seen": 2793632,
	"step": 6810
	},
	{
	"epoch": 8.250605326876514,
	"grad_norm": 12.020580291748047,
	"learning_rate": 4.524229252252091e-06,
	"loss": 0.176,
	"num_input_tokens_seen": 2795744,
	"step": 6815
	},
	{
	"epoch": 8.256658595641646,
	"grad_norm": 0.6101036071777344,
	"learning_rate": 4.493966818195191e-06,
	"loss": 0.091,
	"num_input_tokens_seen": 2797696,
	"step": 6820
	},
	{
	"epoch": 8.26271186440678,
	"grad_norm": 6.851560592651367,
	"learning_rate": 4.463795937887713e-06,
	"loss": 0.1245,
	"num_input_tokens_seen": 2799744,
	"step": 6825
	},
	{
	"epoch": 8.268765133171913,
	"grad_norm": 0.21290670335292816,
	"learning_rate": 4.433716746034252e-06,
	"loss": 0.0675,
	"num_input_tokens_seen": 2801824,
	"step": 6830
	},
	{
	"epoch": 8.274818401937045,
	"grad_norm": 0.04258127510547638,
	"learning_rate": 4.40372937693008e-06,
	"loss": 0.1002,
	"num_input_tokens_seen": 2803872,
	"step": 6835
	},
	{
	"epoch": 8.28087167070218,
	"grad_norm": 0.23941421508789062,
	"learning_rate": 4.3738339644604635e-06,
	"loss": 0.1303,
	"num_input_tokens_seen": 2805824,
	"step": 6840
	},
	{
	"epoch": 8.286924939467312,
	"grad_norm": 0.6830506920814514,
	"learning_rate": 4.344030642100133e-06,
	"loss": 0.0172,
	"num_input_tokens_seen": 2807712,
	"step": 6845
	},
	{
	"epoch": 8.292978208232446,
	"grad_norm": 0.09925970435142517,
	"learning_rate": 4.314319542912643e-06,
	"loss": 0.0334,
	"num_input_tokens_seen": 2809760,
	"step": 6850
	},
	{
	"epoch": 8.299031476997579,
	"grad_norm": 3.751558542251587,
	"learning_rate": 4.284700799549829e-06,
	"loss": 0.1723,
	"num_input_tokens_seen": 2811872,
	"step": 6855
	},
	{
	"epoch": 8.305084745762711,
	"grad_norm": 4.737812042236328,
	"learning_rate": 4.255174544251147e-06,
	"loss": 0.1962,
	"num_input_tokens_seen": 2813888,
	"step": 6860
	},
	{
	"epoch": 8.311138014527845,
	"grad_norm": 3.3046317100524902,
	"learning_rate": 4.225740908843146e-06,
	"loss": 0.0687,
	"num_input_tokens_seen": 2815808,
	"step": 6865
	},
	{
	"epoch": 8.317191283292978,
	"grad_norm": 0.9242627024650574,
	"learning_rate": 4.196400024738831e-06,
	"loss": 0.0231,
	"num_input_tokens_seen": 2817760,
	"step": 6870
	},
	{
	"epoch": 8.323244552058112,
	"grad_norm": 4.347622394561768,
	"learning_rate": 4.167152022937124e-06,
	"loss": 0.0313,
	"num_input_tokens_seen": 2819776,
	"step": 6875
	},
	{
	"epoch": 8.329297820823244,
	"grad_norm": 9.906876564025879,
	"learning_rate": 4.137997034022237e-06,
	"loss": 0.0923,
	"num_input_tokens_seen": 2821824,
	"step": 6880
	},
	{
	"epoch": 8.335351089588377,
	"grad_norm": 2.6566002368927,
	"learning_rate": 4.108935188163096e-06,
	"loss": 0.042,
	"num_input_tokens_seen": 2823968,
	"step": 6885
	},
	{
	"epoch": 8.341404358353511,
	"grad_norm": 0.5351431369781494,
	"learning_rate": 4.079966615112782e-06,
	"loss": 0.0691,
	"num_input_tokens_seen": 2825920,
	"step": 6890
	},
	{
	"epoch": 8.347457627118644,
	"grad_norm": 0.3128598630428314,
	"learning_rate": 4.05109144420795e-06,
	"loss": 0.0254,
	"num_input_tokens_seen": 2828224,
	"step": 6895
	},
	{
	"epoch": 8.353510895883778,
	"grad_norm": 0.5572378635406494,
	"learning_rate": 4.022309804368215e-06,
	"loss": 0.0951,
	"num_input_tokens_seen": 2830208,
	"step": 6900
	},
	{
	"epoch": 8.35956416464891,
	"grad_norm": 0.455200731754303,
	"learning_rate": 3.993621824095622e-06,
	"loss": 0.0888,
	"num_input_tokens_seen": 2832160,
	"step": 6905
	},
	{
	"epoch": 8.365617433414043,
	"grad_norm": 2.736868381500244,
	"learning_rate": 3.965027631474036e-06,
	"loss": 0.0434,
	"num_input_tokens_seen": 2834208,
	"step": 6910
	},
	{
	"epoch": 8.371670702179177,
	"grad_norm": 5.61325216293335,
	"learning_rate": 3.936527354168606e-06,
	"loss": 0.0488,
	"num_input_tokens_seen": 2836320,
	"step": 6915
	},
	{
	"epoch": 8.37772397094431,
	"grad_norm": 0.13815198838710785,
	"learning_rate": 3.90812111942516e-06,
	"loss": 0.0717,
	"num_input_tokens_seen": 2838464,
	"step": 6920
	},
	{
	"epoch": 8.383777239709444,
	"grad_norm": 0.10977087169885635,
	"learning_rate": 3.8798090540696495e-06,
	"loss": 0.1805,
	"num_input_tokens_seen": 2840512,
	"step": 6925
	},
	{
	"epoch": 8.389830508474576,
	"grad_norm": 1.4197776317596436,
	"learning_rate": 3.851591284507591e-06,
	"loss": 0.0433,
	"num_input_tokens_seen": 2842592,
	"step": 6930
	},
	{
	"epoch": 8.39588377723971,
	"grad_norm": 4.4109883308410645,
	"learning_rate": 3.82346793672351e-06,
	"loss": 0.1743,
	"num_input_tokens_seen": 2844576,
	"step": 6935
	},
	{
	"epoch": 8.401937046004843,
	"grad_norm": 0.10218428820371628,
	"learning_rate": 3.795439136280346e-06,
	"loss": 0.0671,
	"num_input_tokens_seen": 2846720,
	"step": 6940
	},
	{
	"epoch": 8.407990314769975,
	"grad_norm": 2.4533486366271973,
	"learning_rate": 3.767505008318914e-06,
	"loss": 0.1105,
	"num_input_tokens_seen": 2848832,
	"step": 6945
	},
	{
	"epoch": 8.41404358353511,
	"grad_norm": 0.9111641049385071,
	"learning_rate": 3.739665677557341e-06,
	"loss": 0.0978,
	"num_input_tokens_seen": 2850880,
	"step": 6950
	},
	{
	"epoch": 8.420096852300242,
	"grad_norm": 0.06459851562976837,
	"learning_rate": 3.711921268290533e-06,
	"loss": 0.0228,
	"num_input_tokens_seen": 2852896,
	"step": 6955
	},
	{
	"epoch": 8.426150121065376,
	"grad_norm": 0.08616799116134644,
	"learning_rate": 3.6842719043895748e-06,
	"loss": 0.1082,
	"num_input_tokens_seen": 2855008,
	"step": 6960
	},
	{
	"epoch": 8.432203389830509,
	"grad_norm": 0.536651611328125,
	"learning_rate": 3.656717709301194e-06,
	"loss": 0.0382,
	"num_input_tokens_seen": 2856960,
	"step": 6965
	},
	{
	"epoch": 8.438256658595641,
	"grad_norm": 5.659543514251709,
	"learning_rate": 3.629258806047231e-06,
	"loss": 0.1379,
	"num_input_tokens_seen": 2859200,
	"step": 6970
	},
	{
	"epoch": 8.444309927360775,
	"grad_norm": 1.424406886100769,
	"learning_rate": 3.60189531722408e-06,
	"loss": 0.0356,
	"num_input_tokens_seen": 2861280,
	"step": 6975
	},
	{
	"epoch": 8.450363196125908,
	"grad_norm": 1.0679043531417847,
	"learning_rate": 3.5746273650021228e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 2863392,
	"step": 6980
	},
	{
	"epoch": 8.456416464891042,
	"grad_norm": 4.228886604309082,
	"learning_rate": 3.5474550711252026e-06,
	"loss": 0.0767,
	"num_input_tokens_seen": 2865344,
	"step": 6985
	},
	{
	"epoch": 8.462469733656174,
	"grad_norm": 3.4282588958740234,
	"learning_rate": 3.5203785569100674e-06,
	"loss": 0.1068,
	"num_input_tokens_seen": 2867424,
	"step": 6990
	},
	{
	"epoch": 8.468523002421307,
	"grad_norm": 0.013153821229934692,
	"learning_rate": 3.493397943245852e-06,
	"loss": 0.0051,
	"num_input_tokens_seen": 2869472,
	"step": 6995
	},
	{
	"epoch": 8.474576271186441,
	"grad_norm": 1.3492847681045532,
	"learning_rate": 3.466513350593506e-06,
	"loss": 0.083,
	"num_input_tokens_seen": 2871680,
	"step": 7000
	},
	{
	"epoch": 8.480629539951574,
	"grad_norm": 0.17737948894500732,
	"learning_rate": 3.439724898985278e-06,
	"loss": 0.0866,
	"num_input_tokens_seen": 2873760,
	"step": 7005
	},
	{
	"epoch": 8.486682808716708,
	"grad_norm": 0.177162766456604,
	"learning_rate": 3.4130327080241636e-06,
	"loss": 0.1555,
	"num_input_tokens_seen": 2875712,
	"step": 7010
	},
	{
	"epoch": 8.49273607748184,
	"grad_norm": 1.8084608316421509,
	"learning_rate": 3.3864368968834074e-06,
	"loss": 0.0909,
	"num_input_tokens_seen": 2877696,
	"step": 7015
	},
	{
	"epoch": 8.498789346246973,
	"grad_norm": 4.3322858810424805,
	"learning_rate": 3.3599375843059193e-06,
	"loss": 0.0458,
	"num_input_tokens_seen": 2879680,
	"step": 7020
	},
	{
	"epoch": 8.5,
	"eval_loss": 0.1609281599521637,
	"eval_runtime": 4.5734,
	"eval_samples_per_second": 80.246,
	"eval_steps_per_second": 20.116,
	"num_input_tokens_seen": 2880128,
	"step": 7021
	},
	{
	"epoch": 8.504842615012107,
	"grad_norm": 2.0026533603668213,
	"learning_rate": 3.3335348886037815e-06,
	"loss": 0.0488,
	"num_input_tokens_seen": 2881728,
	"step": 7025
	},
	{
	"epoch": 8.51089588377724,
	"grad_norm": 0.5009611248970032,
	"learning_rate": 3.3072289276576964e-06,
	"loss": 0.1506,
	"num_input_tokens_seen": 2883744,
	"step": 7030
	},
	{
	"epoch": 8.516949152542374,
	"grad_norm": 0.33006390929222107,
	"learning_rate": 3.281019818916492e-06,
	"loss": 0.0674,
	"num_input_tokens_seen": 2885792,
	"step": 7035
	},
	{
	"epoch": 8.523002421307506,
	"grad_norm": 4.603799819946289,
	"learning_rate": 3.254907679396574e-06,
	"loss": 0.0554,
	"num_input_tokens_seen": 2888000,
	"step": 7040
	},
	{
	"epoch": 8.529055690072639,
	"grad_norm": 7.967130661010742,
	"learning_rate": 3.2288926256813846e-06,
	"loss": 0.0574,
	"num_input_tokens_seen": 2890016,
	"step": 7045
	},
	{
	"epoch": 8.535108958837773,
	"grad_norm": 6.041900157928467,
	"learning_rate": 3.2029747739209247e-06,
	"loss": 0.0822,
	"num_input_tokens_seen": 2891968,
	"step": 7050
	},
	{
	"epoch": 8.541162227602905,
	"grad_norm": 2.6833653450012207,
	"learning_rate": 3.177154239831223e-06,
	"loss": 0.0605,
	"num_input_tokens_seen": 2893952,
	"step": 7055
	},
	{
	"epoch": 8.54721549636804,
	"grad_norm": 6.842079162597656,
	"learning_rate": 3.1514311386937917e-06,
	"loss": 0.167,
	"num_input_tokens_seen": 2895904,
	"step": 7060
	},
	{
	"epoch": 8.553268765133172,
	"grad_norm": 0.07613459974527359,
	"learning_rate": 3.1258055853551487e-06,
	"loss": 0.0747,
	"num_input_tokens_seen": 2897952,
	"step": 7065
	},
	{
	"epoch": 8.559322033898304,
	"grad_norm": 0.6995208263397217,
	"learning_rate": 3.1002776942262696e-06,
	"loss": 0.0433,
	"num_input_tokens_seen": 2900064,
	"step": 7070
	},
	{
	"epoch": 8.565375302663439,
	"grad_norm": 4.104430675506592,
	"learning_rate": 3.0748475792821197e-06,
	"loss": 0.1335,
	"num_input_tokens_seen": 2902432,
	"step": 7075
	},
	{
	"epoch": 8.571428571428571,
	"grad_norm": 5.85823917388916,
	"learning_rate": 3.0495153540611e-06,
	"loss": 0.0937,
	"num_input_tokens_seen": 2904512,
	"step": 7080
	},
	{
	"epoch": 8.577481840193705,
	"grad_norm": 1.4460917711257935,
	"learning_rate": 3.024281131664569e-06,
	"loss": 0.0436,
	"num_input_tokens_seen": 2906496,
	"step": 7085
	},
	{
	"epoch": 8.583535108958838,
	"grad_norm": 0.2464975118637085,
	"learning_rate": 2.999145024756325e-06,
	"loss": 0.1751,
	"num_input_tokens_seen": 2908544,
	"step": 7090
	},
	{
	"epoch": 8.58958837772397,
	"grad_norm": 6.364808082580566,
	"learning_rate": 2.9741071455621245e-06,
	"loss": 0.0699,
	"num_input_tokens_seen": 2910688,
	"step": 7095
	},
	{
	"epoch": 8.595641646489105,
	"grad_norm": 0.0688992291688919,
	"learning_rate": 2.9491676058691437e-06,
	"loss": 0.1593,
	"num_input_tokens_seen": 2912832,
	"step": 7100
	},
	{
	"epoch": 8.601694915254237,
	"grad_norm": 0.6298401355743408,
	"learning_rate": 2.924326517025508e-06,
	"loss": 0.1751,
	"num_input_tokens_seen": 2914816,
	"step": 7105
	},
	{
	"epoch": 8.607748184019371,
	"grad_norm": 2.046719551086426,
	"learning_rate": 2.8995839899397915e-06,
	"loss": 0.0117,
	"num_input_tokens_seen": 2916928,
	"step": 7110
	},
	{
	"epoch": 8.613801452784504,
	"grad_norm": 6.791380405426025,
	"learning_rate": 2.8749401350805115e-06,
	"loss": 0.0582,
	"num_input_tokens_seen": 2918912,
	"step": 7115
	},
	{
	"epoch": 8.619854721549636,
	"grad_norm": 7.068711280822754,
	"learning_rate": 2.8503950624756415e-06,
	"loss": 0.1209,
	"num_input_tokens_seen": 2920896,
	"step": 7120
	},
	{
	"epoch": 8.62590799031477,
	"grad_norm": 0.11452826112508774,
	"learning_rate": 2.825948881712123e-06,
	"loss": 0.0824,
	"num_input_tokens_seen": 2922976,
	"step": 7125
	},
	{
	"epoch": 8.631961259079903,
	"grad_norm": 4.309703350067139,
	"learning_rate": 2.801601701935369e-06,
	"loss": 0.0265,
	"num_input_tokens_seen": 2925120,
	"step": 7130
	},
	{
	"epoch": 8.638014527845037,
	"grad_norm": 5.783072471618652,
	"learning_rate": 2.777353631848789e-06,
	"loss": 0.2264,
	"num_input_tokens_seen": 2927072,
	"step": 7135
	},
	{
	"epoch": 8.64406779661017,
	"grad_norm": 6.108299255371094,
	"learning_rate": 2.7532047797132867e-06,
	"loss": 0.1097,
	"num_input_tokens_seen": 2929152,
	"step": 7140
	},
	{
	"epoch": 8.650121065375302,
	"grad_norm": 1.342014193534851,
	"learning_rate": 2.7291552533467853e-06,
	"loss": 0.0541,
	"num_input_tokens_seen": 2931136,
	"step": 7145
	},
	{
	"epoch": 8.656174334140436,
	"grad_norm": 0.19719941914081573,
	"learning_rate": 2.7052051601237473e-06,
	"loss": 0.0733,
	"num_input_tokens_seen": 2933312,
	"step": 7150
	},
	{
	"epoch": 8.662227602905569,
	"grad_norm": 5.709043979644775,
	"learning_rate": 2.681354606974698e-06,
	"loss": 0.1117,
	"num_input_tokens_seen": 2935328,
	"step": 7155
	},
	{
	"epoch": 8.668280871670703,
	"grad_norm": 7.4091901779174805,
	"learning_rate": 2.6576037003857414e-06,
	"loss": 0.1103,
	"num_input_tokens_seen": 2937216,
	"step": 7160
	},
	{
	"epoch": 8.674334140435835,
	"grad_norm": 4.7495527267456055,
	"learning_rate": 2.633952546398083e-06,
	"loss": 0.0773,
	"num_input_tokens_seen": 2939168,
	"step": 7165
	},
	{
	"epoch": 8.680387409200968,
	"grad_norm": 6.540948867797852,
	"learning_rate": 2.6104012506075692e-06,
	"loss": 0.0429,
	"num_input_tokens_seen": 2941504,
	"step": 7170
	},
	{
	"epoch": 8.686440677966102,
	"grad_norm": 5.340511322021484,
	"learning_rate": 2.5869499181641916e-06,
	"loss": 0.1727,
	"num_input_tokens_seen": 2943520,
	"step": 7175
	},
	{
	"epoch": 8.692493946731235,
	"grad_norm": 9.046024322509766,
	"learning_rate": 2.5635986537716538e-06,
	"loss": 0.1482,
	"num_input_tokens_seen": 2945568,
	"step": 7180
	},
	{
	"epoch": 8.698547215496369,
	"grad_norm": 6.008487701416016,
	"learning_rate": 2.540347561686873e-06,
	"loss": 0.0563,
	"num_input_tokens_seen": 2947488,
	"step": 7185
	},
	{
	"epoch": 8.704600484261501,
	"grad_norm": 1.535462498664856,
	"learning_rate": 2.5171967457195216e-06,
	"loss": 0.2149,
	"num_input_tokens_seen": 2949504,
	"step": 7190
	},
	{
	"epoch": 8.710653753026634,
	"grad_norm": 1.0134094953536987,
	"learning_rate": 2.494146309231571e-06,
	"loss": 0.1471,
	"num_input_tokens_seen": 2951552,
	"step": 7195
	},
	{
	"epoch": 8.716707021791768,
	"grad_norm": 8.139573097229004,
	"learning_rate": 2.471196355136826e-06,
	"loss": 0.1541,
	"num_input_tokens_seen": 2953632,
	"step": 7200
	},
	{
	"epoch": 8.7227602905569,
	"grad_norm": 0.31339648365974426,
	"learning_rate": 2.4483469859004625e-06,
	"loss": 0.1033,
	"num_input_tokens_seen": 2955936,
	"step": 7205
	},
	{
	"epoch": 8.728813559322035,
	"grad_norm": 2.6392133235931396,
	"learning_rate": 2.425598303538576e-06,
	"loss": 0.0152,
	"num_input_tokens_seen": 2958048,
	"step": 7210
	},
	{
	"epoch": 8.734866828087167,
	"grad_norm": 0.007008890621364117,
	"learning_rate": 2.402950409617727e-06,
	"loss": 0.0336,
	"num_input_tokens_seen": 2960160,
	"step": 7215
	},
	{
	"epoch": 8.7409200968523,
	"grad_norm": 0.641621470451355,
	"learning_rate": 2.380403405254475e-06,
	"loss": 0.1413,
	"num_input_tokens_seen": 2962208,
	"step": 7220
	},
	{
	"epoch": 8.746973365617434,
	"grad_norm": 0.4098236858844757,
	"learning_rate": 2.35795739111494e-06,
	"loss": 0.0205,
	"num_input_tokens_seen": 2964320,
	"step": 7225
	},
	{
	"epoch": 8.753026634382566,
	"grad_norm": 1.6772291660308838,
	"learning_rate": 2.335612467414344e-06,
	"loss": 0.1145,
	"num_input_tokens_seen": 2966272,
	"step": 7230
	},
	{
	"epoch": 8.7590799031477,
	"grad_norm": 1.6794875860214233,
	"learning_rate": 2.313368733916585e-06,
	"loss": 0.0659,
	"num_input_tokens_seen": 2968288,
	"step": 7235
	},
	{
	"epoch": 8.765133171912833,
	"grad_norm": 6.174964427947998,
	"learning_rate": 2.291226289933751e-06,
	"loss": 0.1205,
	"num_input_tokens_seen": 2970208,
	"step": 7240
	},
	{
	"epoch": 8.771186440677965,
	"grad_norm": 0.636359691619873,
	"learning_rate": 2.2691852343257157e-06,
	"loss": 0.0074,
	"num_input_tokens_seen": 2972352,
	"step": 7245
	},
	{
	"epoch": 8.7772397094431,
	"grad_norm": 1.1045042276382446,
	"learning_rate": 2.2472456654996755e-06,
	"loss": 0.1758,
	"num_input_tokens_seen": 2974368,
	"step": 7250
	},
	{
	"epoch": 8.783292978208232,
	"grad_norm": 6.679035186767578,
	"learning_rate": 2.2254076814097163e-06,
	"loss": 0.1391,
	"num_input_tokens_seen": 2976288,
	"step": 7255
	},
	{
	"epoch": 8.789346246973366,
	"grad_norm": 6.327536582946777,
	"learning_rate": 2.203671379556388e-06,
	"loss": 0.2639,
	"num_input_tokens_seen": 2978240,
	"step": 7260
	},
	{
	"epoch": 8.795399515738499,
	"grad_norm": 6.892092704772949,
	"learning_rate": 2.1820368569862444e-06,
	"loss": 0.1743,
	"num_input_tokens_seen": 2980256,
	"step": 7265
	},
	{
	"epoch": 8.801452784503631,
	"grad_norm": 4.450016975402832,
	"learning_rate": 2.1605042102914227e-06,
	"loss": 0.1708,
	"num_input_tokens_seen": 2982400,
	"step": 7270
	},
	{
	"epoch": 8.807506053268765,
	"grad_norm": 7.299108028411865,
	"learning_rate": 2.1390735356092206e-06,
	"loss": 0.168,
	"num_input_tokens_seen": 2984416,
	"step": 7275
	},
	{
	"epoch": 8.813559322033898,
	"grad_norm": 0.5720050930976868,
	"learning_rate": 2.1177449286216565e-06,
	"loss": 0.1734,
	"num_input_tokens_seen": 2986496,
	"step": 7280
	},
	{
	"epoch": 8.819612590799032,
	"grad_norm": 2.3085198402404785,
	"learning_rate": 2.0965184845550407e-06,
	"loss": 0.0285,
	"num_input_tokens_seen": 2988512,
	"step": 7285
	},
	{
	"epoch": 8.825665859564165,
	"grad_norm": 2.5211293697357178,
	"learning_rate": 2.075394298179553e-06,
	"loss": 0.0939,
	"num_input_tokens_seen": 2990560,
	"step": 7290
	},
	{
	"epoch": 8.831719128329297,
	"grad_norm": 11.825849533081055,
	"learning_rate": 2.0543724638088347e-06,
	"loss": 0.1561,
	"num_input_tokens_seen": 2992768,
	"step": 7295
	},
	{
	"epoch": 8.837772397094431,
	"grad_norm": 4.789031982421875,
	"learning_rate": 2.0334530752995433e-06,
	"loss": 0.0939,
	"num_input_tokens_seen": 2994784,
	"step": 7300
	},
	{
	"epoch": 8.843825665859564,
	"grad_norm": 0.1911478191614151,
	"learning_rate": 2.01263622605094e-06,
	"loss": 0.1379,
	"num_input_tokens_seen": 2996896,
	"step": 7305
	},
	{
	"epoch": 8.849878934624698,
	"grad_norm": 1.790691614151001,
	"learning_rate": 1.991922009004485e-06,
	"loss": 0.1036,
	"num_input_tokens_seen": 2998976,
	"step": 7310
	},
	{
	"epoch": 8.85593220338983,
	"grad_norm": 0.69582200050354,
	"learning_rate": 1.9713105166434042e-06,
	"loss": 0.1181,
	"num_input_tokens_seen": 3001184,
	"step": 7315
	},
	{
	"epoch": 8.861985472154963,
	"grad_norm": 5.200904846191406,
	"learning_rate": 1.950801840992303e-06,
	"loss": 0.1421,
	"num_input_tokens_seen": 3003168,
	"step": 7320
	},
	{
	"epoch": 8.868038740920097,
	"grad_norm": 0.38341599702835083,
	"learning_rate": 1.930396073616725e-06,
	"loss": 0.1463,
	"num_input_tokens_seen": 3005152,
	"step": 7325
	},
	{
	"epoch": 8.87409200968523,
	"grad_norm": 0.5471208691596985,
	"learning_rate": 1.9100933056227593e-06,
	"loss": 0.0775,
	"num_input_tokens_seen": 3007200,
	"step": 7330
	},
	{
	"epoch": 8.880145278450364,
	"grad_norm": 0.09188104420900345,
	"learning_rate": 1.8898936276566303e-06,
	"loss": 0.0454,
	"num_input_tokens_seen": 3009280,
	"step": 7335
	},
	{
	"epoch": 8.886198547215496,
	"grad_norm": 5.813639163970947,
	"learning_rate": 1.8697971299043048e-06,
	"loss": 0.1039,
	"num_input_tokens_seen": 3011360,
	"step": 7340
	},
	{
	"epoch": 8.892251815980629,
	"grad_norm": 1.5798746347427368,
	"learning_rate": 1.8498039020910628e-06,
	"loss": 0.0886,
	"num_input_tokens_seen": 3013568,
	"step": 7345
	},
	{
	"epoch": 8.898305084745763,
	"grad_norm": 3.015583038330078,
	"learning_rate": 1.8299140334811226e-06,
	"loss": 0.0553,
	"num_input_tokens_seen": 3015552,
	"step": 7350
	},
	{
	"epoch": 8.904358353510895,
	"grad_norm": 8.158613204956055,
	"learning_rate": 1.8101276128772272e-06,
	"loss": 0.1808,
	"num_input_tokens_seen": 3017536,
	"step": 7355
	},
	{
	"epoch": 8.91041162227603,
	"grad_norm": 1.8312183618545532,
	"learning_rate": 1.7904447286202607e-06,
	"loss": 0.1005,
	"num_input_tokens_seen": 3019584,
	"step": 7360
	},
	{
	"epoch": 8.916464891041162,
	"grad_norm": 5.6660919189453125,
	"learning_rate": 1.7708654685888337e-06,
	"loss": 0.0898,
	"num_input_tokens_seen": 3021728,
	"step": 7365
	},
	{
	"epoch": 8.922518159806295,
	"grad_norm": 0.28093379735946655,
	"learning_rate": 1.7513899201989148e-06,
	"loss": 0.0113,
	"num_input_tokens_seen": 3023584,
	"step": 7370
	},
	{
	"epoch": 8.928571428571429,
	"grad_norm": 8.074005126953125,
	"learning_rate": 1.7320181704034237e-06,
	"loss": 0.1523,
	"num_input_tokens_seen": 3025600,
	"step": 7375
	},
	{
	"epoch": 8.934624697336561,
	"grad_norm": 2.8498823642730713,
	"learning_rate": 1.7127503056918542e-06,
	"loss": 0.0602,
	"num_input_tokens_seen": 3027680,
	"step": 7380
	},
	{
	"epoch": 8.940677966101696,
	"grad_norm": 0.15879835188388824,
	"learning_rate": 1.6935864120898704e-06,
	"loss": 0.0356,
	"num_input_tokens_seen": 3029856,
	"step": 7385
	},
	{
	"epoch": 8.946731234866828,
	"grad_norm": 7.197122097015381,
	"learning_rate": 1.674526575158944e-06,
	"loss": 0.1736,
	"num_input_tokens_seen": 3032096,
	"step": 7390
	},
	{
	"epoch": 8.95278450363196,
	"grad_norm": 0.51031494140625,
	"learning_rate": 1.6555708799959547e-06,
	"loss": 0.0252,
	"num_input_tokens_seen": 3034112,
	"step": 7395
	},
	{
	"epoch": 8.958837772397095,
	"grad_norm": 0.7516043186187744,
	"learning_rate": 1.6367194112328288e-06,
	"loss": 0.0302,
	"num_input_tokens_seen": 3036096,
	"step": 7400
	},
	{
	"epoch": 8.964891041162227,
	"grad_norm": 0.05814617499709129,
	"learning_rate": 1.617972253036143e-06,
	"loss": 0.099,
	"num_input_tokens_seen": 3038080,
	"step": 7405
	},
	{
	"epoch": 8.970944309927361,
	"grad_norm": 0.5936756730079651,
	"learning_rate": 1.5993294891067573e-06,
	"loss": 0.0268,
	"num_input_tokens_seen": 3040064,
	"step": 7410
	},
	{
	"epoch": 8.976997578692494,
	"grad_norm": 1.6873228549957275,
	"learning_rate": 1.580791202679438e-06,
	"loss": 0.1383,
	"num_input_tokens_seen": 3042048,
	"step": 7415
	},
	{
	"epoch": 8.983050847457626,
	"grad_norm": 7.362498760223389,
	"learning_rate": 1.562357476522497e-06,
	"loss": 0.0392,
	"num_input_tokens_seen": 3044192,
	"step": 7420
	},
	{
	"epoch": 8.98910411622276,
	"grad_norm": 1.2069581747055054,
	"learning_rate": 1.5440283929374023e-06,
	"loss": 0.0879,
	"num_input_tokens_seen": 3046112,
	"step": 7425
	},
	{
	"epoch": 8.995157384987893,
	"grad_norm": 1.0542585849761963,
	"learning_rate": 1.5258040337584322e-06,
	"loss": 0.1856,
	"num_input_tokens_seen": 3048000,
	"step": 7430
	},
	{
	"epoch": 9.0,
	"eval_loss": 0.16094733774662018,
	"eval_runtime": 4.5518,
	"eval_samples_per_second": 80.628,
	"eval_steps_per_second": 20.212,
	"num_input_tokens_seen": 3049392,
	"step": 7434
	},
	{
	"epoch": 9.001210653753027,
	"grad_norm": 1.983082890510559,
	"learning_rate": 1.5076844803522922e-06,
	"loss": 0.0777,
	"num_input_tokens_seen": 3049808,
	"step": 7435
	},
	{
	"epoch": 9.00726392251816,
	"grad_norm": 5.638378620147705,
	"learning_rate": 1.4896698136177612e-06,
	"loss": 0.1153,
	"num_input_tokens_seen": 3051792,
	"step": 7440
	},
	{
	"epoch": 9.013317191283292,
	"grad_norm": 9.8755521774292,
	"learning_rate": 1.4717601139853266e-06,
	"loss": 0.0989,
	"num_input_tokens_seen": 3053776,
	"step": 7445
	},
	{
	"epoch": 9.019370460048426,
	"grad_norm": 0.596442461013794,
	"learning_rate": 1.4539554614168339e-06,
	"loss": 0.0655,
	"num_input_tokens_seen": 3055856,
	"step": 7450
	},
	{
	"epoch": 9.025423728813559,
	"grad_norm": 2.234306573867798,
	"learning_rate": 1.4362559354051092e-06,
	"loss": 0.0259,
	"num_input_tokens_seen": 3057840,
	"step": 7455
	},
	{
	"epoch": 9.031476997578693,
	"grad_norm": 2.3881747722625732,
	"learning_rate": 1.4186616149736349e-06,
	"loss": 0.2286,
	"num_input_tokens_seen": 3059920,
	"step": 7460
	},
	{
	"epoch": 9.037530266343826,
	"grad_norm": 1.5024694204330444,
	"learning_rate": 1.401172578676166e-06,
	"loss": 0.1341,
	"num_input_tokens_seen": 3061872,
	"step": 7465
	},
	{
	"epoch": 9.043583535108958,
	"grad_norm": 0.1409914493560791,
	"learning_rate": 1.383788904596403e-06,
	"loss": 0.0601,
	"num_input_tokens_seen": 3063888,
	"step": 7470
	},
	{
	"epoch": 9.049636803874092,
	"grad_norm": 5.075223922729492,
	"learning_rate": 1.3665106703476178e-06,
	"loss": 0.1218,
	"num_input_tokens_seen": 3065872,
	"step": 7475
	},
	{
	"epoch": 9.055690072639225,
	"grad_norm": 4.891570568084717,
	"learning_rate": 1.349337953072341e-06,
	"loss": 0.1693,
	"num_input_tokens_seen": 3067888,
	"step": 7480
	},
	{
	"epoch": 9.061743341404359,
	"grad_norm": 1.4571635723114014,
	"learning_rate": 1.3322708294419923e-06,
	"loss": 0.0342,
	"num_input_tokens_seen": 3069968,
	"step": 7485
	},
	{
	"epoch": 9.067796610169491,
	"grad_norm": 0.18257658183574677,
	"learning_rate": 1.3153093756565426e-06,
	"loss": 0.0094,
	"num_input_tokens_seen": 3072176,
	"step": 7490
	},
	{
	"epoch": 9.073849878934624,
	"grad_norm": 0.030617251992225647,
	"learning_rate": 1.298453667444169e-06,
	"loss": 0.0444,
	"num_input_tokens_seen": 3074288,
	"step": 7495
	},
	{
	"epoch": 9.079903147699758,
	"grad_norm": 4.042976379394531,
	"learning_rate": 1.281703780060947e-06,
	"loss": 0.0983,
	"num_input_tokens_seen": 3076304,
	"step": 7500
	},
	{
	"epoch": 9.08595641646489,
	"grad_norm": 0.46019235253334045,
	"learning_rate": 1.265059788290468e-06,
	"loss": 0.0984,
	"num_input_tokens_seen": 3078320,
	"step": 7505
	},
	{
	"epoch": 9.092009685230025,
	"grad_norm": 0.3823973536491394,
	"learning_rate": 1.2485217664435418e-06,
	"loss": 0.0429,
	"num_input_tokens_seen": 3080464,
	"step": 7510
	},
	{
	"epoch": 9.098062953995157,
	"grad_norm": 1.2773817777633667,
	"learning_rate": 1.232089788357843e-06,
	"loss": 0.0618,
	"num_input_tokens_seen": 3082672,
	"step": 7515
	},
	{
	"epoch": 9.104116222760291,
	"grad_norm": 6.81667423248291,
	"learning_rate": 1.2157639273975979e-06,
	"loss": 0.2343,
	"num_input_tokens_seen": 3084720,
	"step": 7520
	},
	{
	"epoch": 9.110169491525424,
	"grad_norm": 3.501394748687744,
	"learning_rate": 1.19954425645325e-06,
	"loss": 0.1071,
	"num_input_tokens_seen": 3086864,
	"step": 7525
	},
	{
	"epoch": 9.116222760290556,
	"grad_norm": 4.856332778930664,
	"learning_rate": 1.183430847941125e-06,
	"loss": 0.1255,
	"num_input_tokens_seen": 3088880,
	"step": 7530
	},
	{
	"epoch": 9.12227602905569,
	"grad_norm": 6.885472774505615,
	"learning_rate": 1.1674237738031223e-06,
	"loss": 0.1039,
	"num_input_tokens_seen": 3090960,
	"step": 7535
	},
	{
	"epoch": 9.128329297820823,
	"grad_norm": 0.33454495668411255,
	"learning_rate": 1.1515231055063914e-06,
	"loss": 0.1404,
	"num_input_tokens_seen": 3093040,
	"step": 7540
	},
	{
	"epoch": 9.134382566585957,
	"grad_norm": 4.594442367553711,
	"learning_rate": 1.135728914043005e-06,
	"loss": 0.0211,
	"num_input_tokens_seen": 3095024,
	"step": 7545
	},
	{
	"epoch": 9.14043583535109,
	"grad_norm": 3.8089771270751953,
	"learning_rate": 1.120041269929642e-06,
	"loss": 0.0929,
	"num_input_tokens_seen": 3097008,
	"step": 7550
	},
	{
	"epoch": 9.146489104116222,
	"grad_norm": 5.433687210083008,
	"learning_rate": 1.1044602432072836e-06,
	"loss": 0.1376,
	"num_input_tokens_seen": 3099184,
	"step": 7555
	},
	{
	"epoch": 9.152542372881356,
	"grad_norm": 3.2371695041656494,
	"learning_rate": 1.0889859034408922e-06,
	"loss": 0.0278,
	"num_input_tokens_seen": 3101328,
	"step": 7560
	},
	{
	"epoch": 9.158595641646489,
	"grad_norm": 7.783466815948486,
	"learning_rate": 1.0736183197191024e-06,
	"loss": 0.0766,
	"num_input_tokens_seen": 3103408,
	"step": 7565
	},
	{
	"epoch": 9.164648910411623,
	"grad_norm": 1.0674914121627808,
	"learning_rate": 1.0583575606539108e-06,
	"loss": 0.1019,
	"num_input_tokens_seen": 3105616,
	"step": 7570
	},
	{
	"epoch": 9.170702179176756,
	"grad_norm": 0.39573797583580017,
	"learning_rate": 1.0432036943803708e-06,
	"loss": 0.0384,
	"num_input_tokens_seen": 3107536,
	"step": 7575
	},
	{
	"epoch": 9.176755447941888,
	"grad_norm": 0.9420876502990723,
	"learning_rate": 1.0281567885562947e-06,
	"loss": 0.1868,
	"num_input_tokens_seen": 3109648,
	"step": 7580
	},
	{
	"epoch": 9.182808716707022,
	"grad_norm": 0.4029005169868469,
	"learning_rate": 1.0132169103619444e-06,
	"loss": 0.0853,
	"num_input_tokens_seen": 3111504,
	"step": 7585
	},
	{
	"epoch": 9.188861985472155,
	"grad_norm": 5.7842698097229,
	"learning_rate": 9.98384126499735e-07,
	"loss": 0.0881,
	"num_input_tokens_seen": 3113424,
	"step": 7590
	},
	{
	"epoch": 9.194915254237289,
	"grad_norm": 6.040023326873779,
	"learning_rate": 9.836585031939154e-07,
	"loss": 0.107,
	"num_input_tokens_seen": 3115504,
	"step": 7595
	},
	{
	"epoch": 9.200968523002421,
	"grad_norm": 0.3490646481513977,
	"learning_rate": 9.690401061903249e-07,
	"loss": 0.0503,
	"num_input_tokens_seen": 3117488,
	"step": 7600
	},
	{
	"epoch": 9.207021791767554,
	"grad_norm": 4.309531211853027,
	"learning_rate": 9.545290007560437e-07,
	"loss": 0.0953,
	"num_input_tokens_seen": 3119376,
	"step": 7605
	},
	{
	"epoch": 9.213075060532688,
	"grad_norm": 0.2243291288614273,
	"learning_rate": 9.401252516791304e-07,
	"loss": 0.1075,
	"num_input_tokens_seen": 3121424,
	"step": 7610
	},
	{
	"epoch": 9.21912832929782,
	"grad_norm": 6.078351020812988,
	"learning_rate": 9.258289232683321e-07,
	"loss": 0.15,
	"num_input_tokens_seen": 3123504,
	"step": 7615
	},
	{
	"epoch": 9.225181598062955,
	"grad_norm": 0.08517712354660034,
	"learning_rate": 9.11640079352788e-07,
	"loss": 0.1062,
	"num_input_tokens_seen": 3125712,
	"step": 7620
	},
	{
	"epoch": 9.231234866828087,
	"grad_norm": 3.3524436950683594,
	"learning_rate": 8.975587832817545e-07,
	"loss": 0.136,
	"num_input_tokens_seen": 3127824,
	"step": 7625
	},
	{
	"epoch": 9.23728813559322,
	"grad_norm": 1.0113067626953125,
	"learning_rate": 8.835850979243055e-07,
	"loss": 0.081,
	"num_input_tokens_seen": 3129936,
	"step": 7630
	},
	{
	"epoch": 9.243341404358354,
	"grad_norm": 6.101165294647217,
	"learning_rate": 8.697190856690685e-07,
	"loss": 0.0731,
	"num_input_tokens_seen": 3131984,
	"step": 7635
	},
	{
	"epoch": 9.249394673123486,
	"grad_norm": 7.550969123840332,
	"learning_rate": 8.559608084239474e-07,
	"loss": 0.0445,
	"num_input_tokens_seen": 3134064,
	"step": 7640
	},
	{
	"epoch": 9.25544794188862,
	"grad_norm": 0.6591706275939941,
	"learning_rate": 8.423103276158306e-07,
	"loss": 0.054,
	"num_input_tokens_seen": 3136176,
	"step": 7645
	},
	{
	"epoch": 9.261501210653753,
	"grad_norm": 2.5267579555511475,
	"learning_rate": 8.287677041903308e-07,
	"loss": 0.0777,
	"num_input_tokens_seen": 3138288,
	"step": 7650
	},
	{
	"epoch": 9.267554479418886,
	"grad_norm": 6.8405585289001465,
	"learning_rate": 8.15332998611501e-07,
	"loss": 0.0748,
	"num_input_tokens_seen": 3140272,
	"step": 7655
	},
	{
	"epoch": 9.27360774818402,
	"grad_norm": 4.520885944366455,
	"learning_rate": 8.020062708615745e-07,
	"loss": 0.1528,
	"num_input_tokens_seen": 3142448,
	"step": 7660
	},
	{
	"epoch": 9.279661016949152,
	"grad_norm": 1.5813335180282593,
	"learning_rate": 7.887875804406946e-07,
	"loss": 0.1642,
	"num_input_tokens_seen": 3144528,
	"step": 7665
	},
	{
	"epoch": 9.285714285714286,
	"grad_norm": 7.437231063842773,
	"learning_rate": 7.756769863666524e-07,
	"loss": 0.0751,
	"num_input_tokens_seen": 3146512,
	"step": 7670
	},
	{
	"epoch": 9.291767554479419,
	"grad_norm": 0.8976998329162598,
	"learning_rate": 7.626745471746022e-07,
	"loss": 0.0366,
	"num_input_tokens_seen": 3148560,
	"step": 7675
	},
	{
	"epoch": 9.297820823244551,
	"grad_norm": 5.735642910003662,
	"learning_rate": 7.497803209168347e-07,
	"loss": 0.1955,
	"num_input_tokens_seen": 3150640,
	"step": 7680
	},
	{
	"epoch": 9.303874092009686,
	"grad_norm": 6.1282639503479,
	"learning_rate": 7.369943651624938e-07,
	"loss": 0.0938,
	"num_input_tokens_seen": 3152688,
	"step": 7685
	},
	{
	"epoch": 9.309927360774818,
	"grad_norm": 8.234983444213867,
	"learning_rate": 7.243167369973242e-07,
	"loss": 0.1524,
	"num_input_tokens_seen": 3154672,
	"step": 7690
	},
	{
	"epoch": 9.315980629539952,
	"grad_norm": 11.793670654296875,
	"learning_rate": 7.117474930234124e-07,
	"loss": 0.1478,
	"num_input_tokens_seen": 3156656,
	"step": 7695
	},
	{
	"epoch": 9.322033898305085,
	"grad_norm": 0.2102554440498352,
	"learning_rate": 6.992866893589578e-07,
	"loss": 0.074,
	"num_input_tokens_seen": 3158640,
	"step": 7700
	},
	{
	"epoch": 9.328087167070217,
	"grad_norm": 1.4114265441894531,
	"learning_rate": 6.869343816379825e-07,
	"loss": 0.0223,
	"num_input_tokens_seen": 3160624,
	"step": 7705
	},
	{
	"epoch": 9.334140435835351,
	"grad_norm": 1.1425305604934692,
	"learning_rate": 6.74690625010116e-07,
	"loss": 0.0126,
	"num_input_tokens_seen": 3162608,
	"step": 7710
	},
	{
	"epoch": 9.340193704600484,
	"grad_norm": 0.6410977840423584,
	"learning_rate": 6.625554741403333e-07,
	"loss": 0.1421,
	"num_input_tokens_seen": 3164560,
	"step": 7715
	},
	{
	"epoch": 9.346246973365618,
	"grad_norm": 6.864235877990723,
	"learning_rate": 6.505289832087231e-07,
	"loss": 0.1654,
	"num_input_tokens_seen": 3166768,
	"step": 7720
	},
	{
	"epoch": 9.35230024213075,
	"grad_norm": 0.35761308670043945,
	"learning_rate": 6.386112059102251e-07,
	"loss": 0.1199,
	"num_input_tokens_seen": 3168912,
	"step": 7725
	},
	{
	"epoch": 9.358353510895883,
	"grad_norm": 0.04573501646518707,
	"learning_rate": 6.268021954544096e-07,
	"loss": 0.0494,
	"num_input_tokens_seen": 3170800,
	"step": 7730
	},
	{
	"epoch": 9.364406779661017,
	"grad_norm": 0.10186677426099777,
	"learning_rate": 6.15102004565235e-07,
	"loss": 0.041,
	"num_input_tokens_seen": 3172784,
	"step": 7735
	},
	{
	"epoch": 9.37046004842615,
	"grad_norm": 0.06820578128099442,
	"learning_rate": 6.035106854808014e-07,
	"loss": 0.0475,
	"num_input_tokens_seen": 3174928,
	"step": 7740
	},
	{
	"epoch": 9.376513317191284,
	"grad_norm": 0.32402148842811584,
	"learning_rate": 5.920282899531421e-07,
	"loss": 0.1466,
	"num_input_tokens_seen": 3176976,
	"step": 7745
	},
	{
	"epoch": 9.382566585956416,
	"grad_norm": 4.519848823547363,
	"learning_rate": 5.806548692479624e-07,
	"loss": 0.0724,
	"num_input_tokens_seen": 3178896,
	"step": 7750
	},
	{
	"epoch": 9.388619854721549,
	"grad_norm": 1.1942616701126099,
	"learning_rate": 5.693904741444267e-07,
	"loss": 0.0868,
	"num_input_tokens_seen": 3180848,
	"step": 7755
	},
	{
	"epoch": 9.394673123486683,
	"grad_norm": 0.24089713394641876,
	"learning_rate": 5.58235154934944e-07,
	"loss": 0.0606,
	"num_input_tokens_seen": 3182704,
	"step": 7760
	},
	{
	"epoch": 9.400726392251816,
	"grad_norm": 0.04828169196844101,
	"learning_rate": 5.471889614249104e-07,
	"loss": 0.0213,
	"num_input_tokens_seen": 3184848,
	"step": 7765
	},
	{
	"epoch": 9.40677966101695,
	"grad_norm": 4.41227388381958,
	"learning_rate": 5.362519429325225e-07,
	"loss": 0.0704,
	"num_input_tokens_seen": 3186832,
	"step": 7770
	},
	{
	"epoch": 9.412832929782082,
	"grad_norm": 8.546942710876465,
	"learning_rate": 5.254241482885253e-07,
	"loss": 0.093,
	"num_input_tokens_seen": 3188912,
	"step": 7775
	},
	{
	"epoch": 9.418886198547215,
	"grad_norm": 5.857113361358643,
	"learning_rate": 5.147056258360289e-07,
	"loss": 0.2003,
	"num_input_tokens_seen": 3191152,
	"step": 7780
	},
	{
	"epoch": 9.424939467312349,
	"grad_norm": 0.9563597440719604,
	"learning_rate": 5.040964234302559e-07,
	"loss": 0.0421,
	"num_input_tokens_seen": 3193232,
	"step": 7785
	},
	{
	"epoch": 9.430992736077481,
	"grad_norm": 3.2596330642700195,
	"learning_rate": 4.935965884383525e-07,
	"loss": 0.0406,
	"num_input_tokens_seen": 3195312,
	"step": 7790
	},
	{
	"epoch": 9.437046004842616,
	"grad_norm": 0.06693828850984573,
	"learning_rate": 4.832061677391697e-07,
	"loss": 0.0459,
	"num_input_tokens_seen": 3197328,
	"step": 7795
	},
	{
	"epoch": 9.443099273607748,
	"grad_norm": 1.464663028717041,
	"learning_rate": 4.729252077230517e-07,
	"loss": 0.0572,
	"num_input_tokens_seen": 3199280,
	"step": 7800
	},
	{
	"epoch": 9.44915254237288,
	"grad_norm": 0.9203391671180725,
	"learning_rate": 4.6275375429163656e-07,
	"loss": 0.0406,
	"num_input_tokens_seen": 3201328,
	"step": 7805
	},
	{
	"epoch": 9.455205811138015,
	"grad_norm": 0.721315860748291,
	"learning_rate": 4.526918528576396e-07,
	"loss": 0.0139,
	"num_input_tokens_seen": 3203344,
	"step": 7810
	},
	{
	"epoch": 9.461259079903147,
	"grad_norm": 1.4303781986236572,
	"learning_rate": 4.427395483446617e-07,
	"loss": 0.1111,
	"num_input_tokens_seen": 3205488,
	"step": 7815
	},
	{
	"epoch": 9.467312348668282,
	"grad_norm": 3.8508174419403076,
	"learning_rate": 4.328968851869758e-07,
	"loss": 0.2106,
	"num_input_tokens_seen": 3207504,
	"step": 7820
	},
	{
	"epoch": 9.473365617433414,
	"grad_norm": 2.1763241291046143,
	"learning_rate": 4.231639073293492e-07,
	"loss": 0.0216,
	"num_input_tokens_seen": 3209712,
	"step": 7825
	},
	{
	"epoch": 9.479418886198546,
	"grad_norm": 7.907344818115234,
	"learning_rate": 4.13540658226827e-07,
	"loss": 0.1066,
	"num_input_tokens_seen": 3211728,
	"step": 7830
	},
	{
	"epoch": 9.48547215496368,
	"grad_norm": 7.968501091003418,
	"learning_rate": 4.040271808445406e-07,
	"loss": 0.2031,
	"num_input_tokens_seen": 3213616,
	"step": 7835
	},
	{
	"epoch": 9.491525423728813,
	"grad_norm": 1.147912859916687,
	"learning_rate": 3.94623517657533e-07,
	"loss": 0.0102,
	"num_input_tokens_seen": 3215536,
	"step": 7840
	},
	{
	"epoch": 9.497578692493947,
	"grad_norm": 2.5614442825317383,
	"learning_rate": 3.8532971065055045e-07,
	"loss": 0.0522,
	"num_input_tokens_seen": 3217552,
	"step": 7845
	},
	{
	"epoch": 9.5,
	"eval_loss": 0.16040408611297607,
	"eval_runtime": 4.5854,
	"eval_samples_per_second": 80.037,
	"eval_steps_per_second": 20.064,
	"num_input_tokens_seen": 3218352,
	"step": 7847
	},
	{
	"epoch": 9.50363196125908,
	"grad_norm": 6.244605541229248,
	"learning_rate": 3.761458013178648e-07,
	"loss": 0.0483,
	"num_input_tokens_seen": 3219664,
	"step": 7850
	},
	{
	"epoch": 9.509685230024212,
	"grad_norm": 0.11520939320325851,
	"learning_rate": 3.670718306630766e-07,
	"loss": 0.1404,
	"num_input_tokens_seen": 3221648,
	"step": 7855
	},
	{
	"epoch": 9.515738498789347,
	"grad_norm": 0.5533179640769958,
	"learning_rate": 3.5810783919895673e-07,
	"loss": 0.0363,
	"num_input_tokens_seen": 3223632,
	"step": 7860
	},
	{
	"epoch": 9.521791767554479,
	"grad_norm": 5.129673004150391,
	"learning_rate": 3.4925386694723284e-07,
	"loss": 0.0456,
	"num_input_tokens_seen": 3225616,
	"step": 7865
	},
	{
	"epoch": 9.527845036319613,
	"grad_norm": 6.019620418548584,
	"learning_rate": 3.405099534384393e-07,
	"loss": 0.1101,
	"num_input_tokens_seen": 3227728,
	"step": 7870
	},
	{
	"epoch": 9.533898305084746,
	"grad_norm": 0.03893245384097099,
	"learning_rate": 3.31876137711723e-07,
	"loss": 0.0851,
	"num_input_tokens_seen": 3229744,
	"step": 7875
	},
	{
	"epoch": 9.539951573849878,
	"grad_norm": 9.873018264770508,
	"learning_rate": 3.233524583146741e-07,
	"loss": 0.1517,
	"num_input_tokens_seen": 3231664,
	"step": 7880
	},
	{
	"epoch": 9.546004842615012,
	"grad_norm": 1.3719098567962646,
	"learning_rate": 3.149389533031566e-07,
	"loss": 0.1342,
	"num_input_tokens_seen": 3233712,
	"step": 7885
	},
	{
	"epoch": 9.552058111380145,
	"grad_norm": 6.197670936584473,
	"learning_rate": 3.066356602411419e-07,
	"loss": 0.2945,
	"num_input_tokens_seen": 3235728,
	"step": 7890
	},
	{
	"epoch": 9.558111380145279,
	"grad_norm": 1.7446709871292114,
	"learning_rate": 2.984426162005227e-07,
	"loss": 0.0866,
	"num_input_tokens_seen": 3237712,
	"step": 7895
	},
	{
	"epoch": 9.564164648910412,
	"grad_norm": 0.39076244831085205,
	"learning_rate": 2.903598577609717e-07,
	"loss": 0.1491,
	"num_input_tokens_seen": 3239664,
	"step": 7900
	},
	{
	"epoch": 9.570217917675544,
	"grad_norm": 1.8794441223144531,
	"learning_rate": 2.823874210097638e-07,
	"loss": 0.0952,
	"num_input_tokens_seen": 3241776,
	"step": 7905
	},
	{
	"epoch": 9.576271186440678,
	"grad_norm": 0.4310949444770813,
	"learning_rate": 2.745253415416177e-07,
	"loss": 0.023,
	"num_input_tokens_seen": 3243824,
	"step": 7910
	},
	{
	"epoch": 9.58232445520581,
	"grad_norm": 0.6770046949386597,
	"learning_rate": 2.6677365445852976e-07,
	"loss": 0.1038,
	"num_input_tokens_seen": 3246000,
	"step": 7915
	},
	{
	"epoch": 9.588377723970945,
	"grad_norm": 3.035773515701294,
	"learning_rate": 2.5913239436964054e-07,
	"loss": 0.0265,
	"num_input_tokens_seen": 3248112,
	"step": 7920
	},
	{
	"epoch": 9.594430992736077,
	"grad_norm": 0.0690949484705925,
	"learning_rate": 2.5160159539105443e-07,
	"loss": 0.0036,
	"num_input_tokens_seen": 3250256,
	"step": 7925
	},
	{
	"epoch": 9.600484261501212,
	"grad_norm": 2.347848892211914,
	"learning_rate": 2.441812911456981e-07,
	"loss": 0.0254,
	"num_input_tokens_seen": 3252368,
	"step": 7930
	},
	{
	"epoch": 9.606537530266344,
	"grad_norm": 0.4707547426223755,
	"learning_rate": 2.3687151476317337e-07,
	"loss": 0.0311,
	"num_input_tokens_seen": 3254416,
	"step": 7935
	},
	{
	"epoch": 9.612590799031477,
	"grad_norm": 1.3051100969314575,
	"learning_rate": 2.2967229887960186e-07,
	"loss": 0.0423,
	"num_input_tokens_seen": 3256496,
	"step": 7940
	},
	{
	"epoch": 9.61864406779661,
	"grad_norm": 4.094726085662842,
	"learning_rate": 2.2258367563748884e-07,
	"loss": 0.0552,
	"num_input_tokens_seen": 3258576,
	"step": 7945
	},
	{
	"epoch": 9.624697336561743,
	"grad_norm": 0.5801100134849548,
	"learning_rate": 2.1560567668556797e-07,
	"loss": 0.1695,
	"num_input_tokens_seen": 3260496,
	"step": 7950
	},
	{
	"epoch": 9.630750605326877,
	"grad_norm": 0.6484699249267578,
	"learning_rate": 2.0873833317866798e-07,
	"loss": 0.077,
	"num_input_tokens_seen": 3262608,
	"step": 7955
	},
	{
	"epoch": 9.63680387409201,
	"grad_norm": 3.7120988368988037,
	"learning_rate": 2.019816757775711e-07,
	"loss": 0.0599,
	"num_input_tokens_seen": 3264592,
	"step": 7960
	},
	{
	"epoch": 9.642857142857142,
	"grad_norm": 2.2407562732696533,
	"learning_rate": 1.9533573464888543e-07,
	"loss": 0.0174,
	"num_input_tokens_seen": 3266704,
	"step": 7965
	},
	{
	"epoch": 9.648910411622277,
	"grad_norm": 10.029207229614258,
	"learning_rate": 1.8880053946488675e-07,
	"loss": 0.1942,
	"num_input_tokens_seen": 3268816,
	"step": 7970
	},
	{
	"epoch": 9.654963680387409,
	"grad_norm": 0.6442005634307861,
	"learning_rate": 1.8237611940341291e-07,
	"loss": 0.1252,
	"num_input_tokens_seen": 3270864,
	"step": 7975
	},
	{
	"epoch": 9.661016949152543,
	"grad_norm": 10.1329984664917,
	"learning_rate": 1.760625031477142e-07,
	"loss": 0.2343,
	"num_input_tokens_seen": 3272944,
	"step": 7980
	},
	{
	"epoch": 9.667070217917676,
	"grad_norm": 0.7737054824829102,
	"learning_rate": 1.6985971888633935e-07,
	"loss": 0.0099,
	"num_input_tokens_seen": 3274992,
	"step": 7985
	},
	{
	"epoch": 9.673123486682808,
	"grad_norm": 0.4194134473800659,
	"learning_rate": 1.637677943129967e-07,
	"loss": 0.1094,
	"num_input_tokens_seen": 3277008,
	"step": 7990
	},
	{
	"epoch": 9.679176755447942,
	"grad_norm": 1.6003715991973877,
	"learning_rate": 1.5778675662643793e-07,
	"loss": 0.1485,
	"num_input_tokens_seen": 3278928,
	"step": 7995
	},
	{
	"epoch": 9.685230024213075,
	"grad_norm": 0.3803640604019165,
	"learning_rate": 1.5191663253034116e-07,
	"loss": 0.0433,
	"num_input_tokens_seen": 3280944,
	"step": 8000
	},
	{
	"epoch": 9.69128329297821,
	"grad_norm": 6.657588005065918,
	"learning_rate": 1.461574482331779e-07,
	"loss": 0.1022,
	"num_input_tokens_seen": 3282960,
	"step": 8005
	},
	{
	"epoch": 9.697336561743342,
	"grad_norm": 3.707159996032715,
	"learning_rate": 1.4050922944811305e-07,
	"loss": 0.0805,
	"num_input_tokens_seen": 3285008,
	"step": 8010
	},
	{
	"epoch": 9.703389830508474,
	"grad_norm": 9.373906135559082,
	"learning_rate": 1.349720013928718e-07,
	"loss": 0.1608,
	"num_input_tokens_seen": 3287088,
	"step": 8015
	},
	{
	"epoch": 9.709443099273608,
	"grad_norm": 6.443699359893799,
	"learning_rate": 1.2954578878964507e-07,
	"loss": 0.2076,
	"num_input_tokens_seen": 3289168,
	"step": 8020
	},
	{
	"epoch": 9.71549636803874,
	"grad_norm": 6.1982421875,
	"learning_rate": 1.2423061586496477e-07,
	"loss": 0.1625,
	"num_input_tokens_seen": 3291376,
	"step": 8025
	},
	{
	"epoch": 9.721549636803875,
	"grad_norm": 0.5799146890640259,
	"learning_rate": 1.1902650634960378e-07,
	"loss": 0.0786,
	"num_input_tokens_seen": 3293360,
	"step": 8030
	},
	{
	"epoch": 9.727602905569007,
	"grad_norm": 0.31346967816352844,
	"learning_rate": 1.1393348347846777e-07,
	"loss": 0.0491,
	"num_input_tokens_seen": 3295344,
	"step": 8035
	},
	{
	"epoch": 9.73365617433414,
	"grad_norm": 2.450915813446045,
	"learning_rate": 1.0895156999048972e-07,
	"loss": 0.0661,
	"num_input_tokens_seen": 3297392,
	"step": 8040
	},
	{
	"epoch": 9.739709443099274,
	"grad_norm": 2.6705565452575684,
	"learning_rate": 1.0408078812853273e-07,
	"loss": 0.1291,
	"num_input_tokens_seen": 3299376,
	"step": 8045
	},
	{
	"epoch": 9.745762711864407,
	"grad_norm": 0.06930442154407501,
	"learning_rate": 9.932115963928734e-08,
	"loss": 0.0463,
	"num_input_tokens_seen": 3301360,
	"step": 8050
	},
	{
	"epoch": 9.75181598062954,
	"grad_norm": 6.6655402183532715,
	"learning_rate": 9.467270577317167e-08,
	"loss": 0.0745,
	"num_input_tokens_seen": 3303440,
	"step": 8055
	},
	{
	"epoch": 9.757869249394673,
	"grad_norm": 5.793399810791016,
	"learning_rate": 9.013544728424528e-08,
	"loss": 0.1174,
	"num_input_tokens_seen": 3305552,
	"step": 8060
	},
	{
	"epoch": 9.763922518159806,
	"grad_norm": 0.10008306801319122,
	"learning_rate": 8.570940443010655e-08,
	"loss": 0.0508,
	"num_input_tokens_seen": 3307728,
	"step": 8065
	},
	{
	"epoch": 9.76997578692494,
	"grad_norm": 0.7323419451713562,
	"learning_rate": 8.139459697181218e-08,
	"loss": 0.1837,
	"num_input_tokens_seen": 3309776,
	"step": 8070
	},
	{
	"epoch": 9.776029055690072,
	"grad_norm": 7.605753421783447,
	"learning_rate": 7.719104417377443e-08,
	"loss": 0.0955,
	"num_input_tokens_seen": 3311760,
	"step": 8075
	},
	{
	"epoch": 9.782082324455207,
	"grad_norm": 5.1498870849609375,
	"learning_rate": 7.30987648036946e-08,
	"loss": 0.0404,
	"num_input_tokens_seen": 3313808,
	"step": 8080
	},
	{
	"epoch": 9.788135593220339,
	"grad_norm": 4.2535810470581055,
	"learning_rate": 6.911777713246581e-08,
	"loss": 0.0995,
	"num_input_tokens_seen": 3315888,
	"step": 8085
	},
	{
	"epoch": 9.794188861985472,
	"grad_norm": 3.450693130493164,
	"learning_rate": 6.524809893409256e-08,
	"loss": 0.0462,
	"num_input_tokens_seen": 3318000,
	"step": 8090
	},
	{
	"epoch": 9.800242130750606,
	"grad_norm": 2.4119420051574707,
	"learning_rate": 6.148974748561299e-08,
	"loss": 0.0788,
	"num_input_tokens_seen": 3320016,
	"step": 8095
	},
	{
	"epoch": 9.806295399515738,
	"grad_norm": 0.20463275909423828,
	"learning_rate": 5.784273956702391e-08,
	"loss": 0.136,
	"num_input_tokens_seen": 3322096,
	"step": 8100
	},
	{
	"epoch": 9.812348668280872,
	"grad_norm": 3.652512788772583,
	"learning_rate": 5.4307091461205936e-08,
	"loss": 0.0674,
	"num_input_tokens_seen": 3324176,
	"step": 8105
	},
	{
	"epoch": 9.818401937046005,
	"grad_norm": 0.506850004196167,
	"learning_rate": 5.08828189538485e-08,
	"loss": 0.0522,
	"num_input_tokens_seen": 3326320,
	"step": 8110
	},
	{
	"epoch": 9.824455205811137,
	"grad_norm": 7.119671821594238,
	"learning_rate": 4.7569937333372115e-08,
	"loss": 0.0571,
	"num_input_tokens_seen": 3328464,
	"step": 8115
	},
	{
	"epoch": 9.830508474576272,
	"grad_norm": 0.008174745365977287,
	"learning_rate": 4.436846139087847e-08,
	"loss": 0.0237,
	"num_input_tokens_seen": 3330480,
	"step": 8120
	},
	{
	"epoch": 9.836561743341404,
	"grad_norm": 1.4426367282867432,
	"learning_rate": 4.127840542006711e-08,
	"loss": 0.0669,
	"num_input_tokens_seen": 3332624,
	"step": 8125
	},
	{
	"epoch": 9.842615012106538,
	"grad_norm": 2.028547763824463,
	"learning_rate": 3.829978321718553e-08,
	"loss": 0.0795,
	"num_input_tokens_seen": 3334768,
	"step": 8130
	},
	{
	"epoch": 9.84866828087167,
	"grad_norm": 2.7887542247772217,
	"learning_rate": 3.543260808095139e-08,
	"loss": 0.0316,
	"num_input_tokens_seen": 3336784,
	"step": 8135
	},
	{
	"epoch": 9.854721549636803,
	"grad_norm": 3.320316791534424,
	"learning_rate": 3.267689281250541e-08,
	"loss": 0.0624,
	"num_input_tokens_seen": 3338832,
	"step": 8140
	},
	{
	"epoch": 9.860774818401937,
	"grad_norm": 9.407702445983887,
	"learning_rate": 3.003264971535857e-08,
	"loss": 0.1638,
	"num_input_tokens_seen": 3340848,
	"step": 8145
	},
	{
	"epoch": 9.86682808716707,
	"grad_norm": 0.1599888801574707,
	"learning_rate": 2.7499890595314438e-08,
	"loss": 0.1581,
	"num_input_tokens_seen": 3342960,
	"step": 8150
	},
	{
	"epoch": 9.872881355932204,
	"grad_norm": 2.643625259399414,
	"learning_rate": 2.507862676044137e-08,
	"loss": 0.1443,
	"num_input_tokens_seen": 3345104,
	"step": 8155
	},
	{
	"epoch": 9.878934624697337,
	"grad_norm": 2.9549529552459717,
	"learning_rate": 2.2768869021014274e-08,
	"loss": 0.1202,
	"num_input_tokens_seen": 3347024,
	"step": 8160
	},
	{
	"epoch": 9.884987893462469,
	"grad_norm": 6.08317756652832,
	"learning_rate": 2.0570627689459054e-08,
	"loss": 0.0827,
	"num_input_tokens_seen": 3349200,
	"step": 8165
	},
	{
	"epoch": 9.891041162227603,
	"grad_norm": 0.14019866287708282,
	"learning_rate": 1.848391258031379e-08,
	"loss": 0.0283,
	"num_input_tokens_seen": 3351248,
	"step": 8170
	},
	{
	"epoch": 9.897094430992736,
	"grad_norm": 4.22549295425415,
	"learning_rate": 1.6508733010184297e-08,
	"loss": 0.0468,
	"num_input_tokens_seen": 3353488,
	"step": 8175
	},
	{
	"epoch": 9.90314769975787,
	"grad_norm": 0.9411844611167908,
	"learning_rate": 1.4645097797694186e-08,
	"loss": 0.015,
	"num_input_tokens_seen": 3355440,
	"step": 8180
	},
	{
	"epoch": 9.909200968523002,
	"grad_norm": 5.702022552490234,
	"learning_rate": 1.2893015263459874e-08,
	"loss": 0.2151,
	"num_input_tokens_seen": 3357296,
	"step": 8185
	},
	{
	"epoch": 9.915254237288135,
	"grad_norm": 1.883554220199585,
	"learning_rate": 1.125249323004618e-08,
	"loss": 0.1424,
	"num_input_tokens_seen": 3359280,
	"step": 8190
	},
	{
	"epoch": 9.92130750605327,
	"grad_norm": 5.344539165496826,
	"learning_rate": 9.723539021927463e-09,
	"loss": 0.243,
	"num_input_tokens_seen": 3361328,
	"step": 8195
	},
	{
	"epoch": 9.927360774818402,
	"grad_norm": 0.5315026640892029,
	"learning_rate": 8.306159465459872e-09,
	"loss": 0.0859,
	"num_input_tokens_seen": 3363344,
	"step": 8200
	},
	{
	"epoch": 9.933414043583536,
	"grad_norm": 4.213244915008545,
	"learning_rate": 7.00036088885081e-09,
	"loss": 0.149,
	"num_input_tokens_seen": 3365296,
	"step": 8205
	},
	{
	"epoch": 9.939467312348668,
	"grad_norm": 0.8035793900489807,
	"learning_rate": 5.806149122128401e-09,
	"loss": 0.0801,
	"num_input_tokens_seen": 3367504,
	"step": 8210
	},
	{
	"epoch": 9.9455205811138,
	"grad_norm": 5.933956146240234,
	"learning_rate": 4.723529497113743e-09,
	"loss": 0.0346,
	"num_input_tokens_seen": 3369616,
	"step": 8215
	},
	{
	"epoch": 9.951573849878935,
	"grad_norm": 6.575443744659424,
	"learning_rate": 3.752506847407023e-09,
	"loss": 0.0627,
	"num_input_tokens_seen": 3371728,
	"step": 8220
	},
	{
	"epoch": 9.957627118644067,
	"grad_norm": 3.750946283340454,
	"learning_rate": 2.8930855083542096e-09,
	"loss": 0.1372,
	"num_input_tokens_seen": 3373648,
	"step": 8225
	},
	{
	"epoch": 9.963680387409202,
	"grad_norm": 0.5259419083595276,
	"learning_rate": 2.145269317033183e-09,
	"loss": 0.1955,
	"num_input_tokens_seen": 3375664,
	"step": 8230
	},
	{
	"epoch": 9.969733656174334,
	"grad_norm": 6.630932331085205,
	"learning_rate": 1.509061612234297e-09,
	"loss": 0.1024,
	"num_input_tokens_seen": 3377808,
	"step": 8235
	},
	{
	"epoch": 9.975786924939467,
	"grad_norm": 4.802211761474609,
	"learning_rate": 9.844652344492832e-10,
	"loss": 0.069,
	"num_input_tokens_seen": 3379888,
	"step": 8240
	},
	{
	"epoch": 9.9818401937046,
	"grad_norm": 5.706575870513916,
	"learning_rate": 5.714825258545942e-10,
	"loss": 0.155,
	"num_input_tokens_seen": 3382064,
	"step": 8245
	},
	{
	"epoch": 9.987893462469733,
	"grad_norm": 1.3004391193389893,
	"learning_rate": 2.7011533030585347e-10,
	"loss": 0.0399,
	"num_input_tokens_seen": 3384144,
	"step": 8250
	},
	{
	"epoch": 9.993946731234868,
	"grad_norm": 2.925779342651367,
	"learning_rate": 8.036499332397807e-11,
	"loss": 0.0171,
	"num_input_tokens_seen": 3386160,
	"step": 8255
	},
	{
	"epoch": 10.0,
	"grad_norm": 1.5842012166976929,
	"learning_rate": 2.2323620896269604e-12,
	"loss": 0.0796,
	"num_input_tokens_seen": 3388032,
	"step": 8260
	},
	{
	"epoch": 10.0,
	"eval_loss": 0.16043449938297272,
	"eval_runtime": 4.5828,
	"eval_samples_per_second": 80.082,
	"eval_steps_per_second": 20.075,
	"num_input_tokens_seen": 3388032,
	"step": 8260
	},
	{
	"epoch": 10.0,
	"num_input_tokens_seen": 3388032,
	"step": 8260,
	"total_flos": 1.525669618557911e+17,
	"train_loss": 0.11986262800496694,
	"train_runtime": 1426.229,
	"train_samples_per_second": 23.145,
	"train_steps_per_second": 5.791
	}
	],
	"logging_steps": 5,
	"max_steps": 8260,
	"num_input_tokens_seen": 3388032,
	"num_train_epochs": 10,
	"save_steps": 413,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.525669618557911e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}