instruct_1_gpu_026a7f1 / trainer_state.json

Upload task output 1

ff5947e verified 13 days ago

156 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.9995586406130883,
	"eval_steps": 500,
	"global_step": 4671,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.003209886450266822,
	"grad_norm": 4.5,
	"learning_rate": 1.1428571428571429e-05,
	"loss": 1.969,
	"step": 5
	},
	{
	"epoch": 0.006419772900533644,
	"grad_norm": 2.703125,
	"learning_rate": 2.5714285714285714e-05,
	"loss": 1.9039,
	"step": 10
	},
	{
	"epoch": 0.009629659350800466,
	"grad_norm": 2.515625,
	"learning_rate": 4e-05,
	"loss": 1.7918,
	"step": 15
	},
	{
	"epoch": 0.012839545801067288,
	"grad_norm": 2.15625,
	"learning_rate": 5.428571428571428e-05,
	"loss": 1.6624,
	"step": 20
	},
	{
	"epoch": 0.01604943225133411,
	"grad_norm": 1.9296875,
	"learning_rate": 6.857142857142858e-05,
	"loss": 1.5578,
	"step": 25
	},
	{
	"epoch": 0.01925931870160093,
	"grad_norm": 1.921875,
	"learning_rate": 8.285714285714287e-05,
	"loss": 1.4779,
	"step": 30
	},
	{
	"epoch": 0.022469205151867754,
	"grad_norm": 1.875,
	"learning_rate": 9.714285714285715e-05,
	"loss": 1.4165,
	"step": 35
	},
	{
	"epoch": 0.025679091602134576,
	"grad_norm": 1.8671875,
	"learning_rate": 9.999986223659144e-05,
	"loss": 1.3396,
	"step": 40
	},
	{
	"epoch": 0.028888978052401395,
	"grad_norm": 1.765625,
	"learning_rate": 9.999930257447894e-05,
	"loss": 1.3222,
	"step": 45
	},
	{
	"epoch": 0.03209886450266822,
	"grad_norm": 1.7578125,
	"learning_rate": 9.99983124098696e-05,
	"loss": 1.271,
	"step": 50
	},
	{
	"epoch": 0.03530875095293504,
	"grad_norm": 1.8046875,
	"learning_rate": 9.99968917541308e-05,
	"loss": 1.2353,
	"step": 55
	},
	{
	"epoch": 0.03851863740320186,
	"grad_norm": 1.8125,
	"learning_rate": 9.999504062357203e-05,
	"loss": 1.2284,
	"step": 60
	},
	{
	"epoch": 0.04172852385346868,
	"grad_norm": 1.640625,
	"learning_rate": 9.999275903944482e-05,
	"loss": 1.2037,
	"step": 65
	},
	{
	"epoch": 0.04493841030373551,
	"grad_norm": 1.765625,
	"learning_rate": 9.99900470279424e-05,
	"loss": 1.1832,
	"step": 70
	},
	{
	"epoch": 0.048148296754002326,
	"grad_norm": 1.7265625,
	"learning_rate": 9.998690462019939e-05,
	"loss": 1.1533,
	"step": 75
	},
	{
	"epoch": 0.05135818320426915,
	"grad_norm": 1.7734375,
	"learning_rate": 9.998333185229152e-05,
	"loss": 1.1481,
	"step": 80
	},
	{
	"epoch": 0.05456806965453597,
	"grad_norm": 1.90625,
	"learning_rate": 9.99793287652352e-05,
	"loss": 1.1369,
	"step": 85
	},
	{
	"epoch": 0.05777795610480279,
	"grad_norm": 1.765625,
	"learning_rate": 9.997489540498695e-05,
	"loss": 1.1191,
	"step": 90
	},
	{
	"epoch": 0.060987842555069616,
	"grad_norm": 1.7421875,
	"learning_rate": 9.9970031822443e-05,
	"loss": 1.1189,
	"step": 95
	},
	{
	"epoch": 0.06419772900533643,
	"grad_norm": 1.625,
	"learning_rate": 9.996473807343865e-05,
	"loss": 1.0978,
	"step": 100
	},
	{
	"epoch": 0.06740761545560325,
	"grad_norm": 1.9375,
	"learning_rate": 9.995901421874761e-05,
	"loss": 1.0831,
	"step": 105
	},
	{
	"epoch": 0.07061750190587009,
	"grad_norm": 1.9609375,
	"learning_rate": 9.995286032408134e-05,
	"loss": 1.0734,
	"step": 110
	},
	{
	"epoch": 0.0738273883561369,
	"grad_norm": 1.7890625,
	"learning_rate": 9.994627646008827e-05,
	"loss": 1.0588,
	"step": 115
	},
	{
	"epoch": 0.07703727480640372,
	"grad_norm": 2.0625,
	"learning_rate": 9.993926270235301e-05,
	"loss": 1.0553,
	"step": 120
	},
	{
	"epoch": 0.08024716125667054,
	"grad_norm": 1.5625,
	"learning_rate": 9.993181913139545e-05,
	"loss": 1.0605,
	"step": 125
	},
	{
	"epoch": 0.08345704770693736,
	"grad_norm": 1.6796875,
	"learning_rate": 9.992394583266989e-05,
	"loss": 1.0296,
	"step": 130
	},
	{
	"epoch": 0.0866669341572042,
	"grad_norm": 1.65625,
	"learning_rate": 9.991564289656398e-05,
	"loss": 1.0441,
	"step": 135
	},
	{
	"epoch": 0.08987682060747101,
	"grad_norm": 1.4609375,
	"learning_rate": 9.990691041839778e-05,
	"loss": 1.0367,
	"step": 140
	},
	{
	"epoch": 0.09308670705773783,
	"grad_norm": 1.625,
	"learning_rate": 9.989774849842257e-05,
	"loss": 1.0188,
	"step": 145
	},
	{
	"epoch": 0.09629659350800465,
	"grad_norm": 1.6328125,
	"learning_rate": 9.988815724181975e-05,
	"loss": 1.0121,
	"step": 150
	},
	{
	"epoch": 0.09950647995827147,
	"grad_norm": 1.6953125,
	"learning_rate": 9.987813675869966e-05,
	"loss": 1.0097,
	"step": 155
	},
	{
	"epoch": 0.1027163664085383,
	"grad_norm": 1.8984375,
	"learning_rate": 9.98676871641002e-05,
	"loss": 1.0222,
	"step": 160
	},
	{
	"epoch": 0.10592625285880512,
	"grad_norm": 1.921875,
	"learning_rate": 9.98568085779857e-05,
	"loss": 0.9847,
	"step": 165
	},
	{
	"epoch": 0.10913613930907194,
	"grad_norm": 1.6484375,
	"learning_rate": 9.984550112524535e-05,
	"loss": 1.0177,
	"step": 170
	},
	{
	"epoch": 0.11234602575933876,
	"grad_norm": 1.7109375,
	"learning_rate": 9.983376493569186e-05,
	"loss": 0.986,
	"step": 175
	},
	{
	"epoch": 0.11555591220960558,
	"grad_norm": 1.6875,
	"learning_rate": 9.982160014406001e-05,
	"loss": 0.996,
	"step": 180
	},
	{
	"epoch": 0.11876579865987241,
	"grad_norm": 1.6015625,
	"learning_rate": 9.980900689000498e-05,
	"loss": 0.9572,
	"step": 185
	},
	{
	"epoch": 0.12197568511013923,
	"grad_norm": 1.5703125,
	"learning_rate": 9.979598531810088e-05,
	"loss": 0.9589,
	"step": 190
	},
	{
	"epoch": 0.12518557156040605,
	"grad_norm": 1.7109375,
	"learning_rate": 9.978253557783898e-05,
	"loss": 0.9885,
	"step": 195
	},
	{
	"epoch": 0.12839545801067287,
	"grad_norm": 1.5390625,
	"learning_rate": 9.97686578236261e-05,
	"loss": 0.9701,
	"step": 200
	},
	{
	"epoch": 0.1316053444609397,
	"grad_norm": 1.6484375,
	"learning_rate": 9.97543522147827e-05,
	"loss": 0.96,
	"step": 205
	},
	{
	"epoch": 0.1348152309112065,
	"grad_norm": 1.6484375,
	"learning_rate": 9.97396189155412e-05,
	"loss": 0.9497,
	"step": 210
	},
	{
	"epoch": 0.13802511736147333,
	"grad_norm": 1.7734375,
	"learning_rate": 9.9724458095044e-05,
	"loss": 0.9269,
	"step": 215
	},
	{
	"epoch": 0.14123500381174017,
	"grad_norm": 1.6015625,
	"learning_rate": 9.970886992734156e-05,
	"loss": 0.9376,
	"step": 220
	},
	{
	"epoch": 0.144444890262007,
	"grad_norm": 1.59375,
	"learning_rate": 9.969285459139044e-05,
	"loss": 0.9344,
	"step": 225
	},
	{
	"epoch": 0.1476547767122738,
	"grad_norm": 1.5625,
	"learning_rate": 9.967641227105115e-05,
	"loss": 0.9316,
	"step": 230
	},
	{
	"epoch": 0.15086466316254063,
	"grad_norm": 1.6875,
	"learning_rate": 9.965954315508615e-05,
	"loss": 0.9611,
	"step": 235
	},
	{
	"epoch": 0.15407454961280745,
	"grad_norm": 1.5859375,
	"learning_rate": 9.964224743715759e-05,
	"loss": 0.9371,
	"step": 240
	},
	{
	"epoch": 0.15728443606307427,
	"grad_norm": 1.7265625,
	"learning_rate": 9.962452531582519e-05,
	"loss": 0.9436,
	"step": 245
	},
	{
	"epoch": 0.1604943225133411,
	"grad_norm": 1.65625,
	"learning_rate": 9.960637699454385e-05,
	"loss": 0.9463,
	"step": 250
	},
	{
	"epoch": 0.1637042089636079,
	"grad_norm": 1.6875,
	"learning_rate": 9.95878026816614e-05,
	"loss": 0.9082,
	"step": 255
	},
	{
	"epoch": 0.16691409541387472,
	"grad_norm": 1.7578125,
	"learning_rate": 9.95688025904161e-05,
	"loss": 0.9109,
	"step": 260
	},
	{
	"epoch": 0.17012398186414154,
	"grad_norm": 1.6328125,
	"learning_rate": 9.954937693893438e-05,
	"loss": 0.9137,
	"step": 265
	},
	{
	"epoch": 0.1733338683144084,
	"grad_norm": 1.703125,
	"learning_rate": 9.952952595022813e-05,
	"loss": 0.9238,
	"step": 270
	},
	{
	"epoch": 0.1765437547646752,
	"grad_norm": 1.84375,
	"learning_rate": 9.950924985219228e-05,
	"loss": 0.9301,
	"step": 275
	},
	{
	"epoch": 0.17975364121494203,
	"grad_norm": 1.7265625,
	"learning_rate": 9.94885488776021e-05,
	"loss": 0.8841,
	"step": 280
	},
	{
	"epoch": 0.18296352766520885,
	"grad_norm": 1.7734375,
	"learning_rate": 9.946742326411057e-05,
	"loss": 0.8775,
	"step": 285
	},
	{
	"epoch": 0.18617341411547567,
	"grad_norm": 1.703125,
	"learning_rate": 9.944587325424566e-05,
	"loss": 0.8849,
	"step": 290
	},
	{
	"epoch": 0.18938330056574249,
	"grad_norm": 1.5546875,
	"learning_rate": 9.942389909540753e-05,
	"loss": 0.9084,
	"step": 295
	},
	{
	"epoch": 0.1925931870160093,
	"grad_norm": 1.65625,
	"learning_rate": 9.940150103986565e-05,
	"loss": 0.8777,
	"step": 300
	},
	{
	"epoch": 0.19580307346627612,
	"grad_norm": 1.7734375,
	"learning_rate": 9.9378679344756e-05,
	"loss": 0.8883,
	"step": 305
	},
	{
	"epoch": 0.19901295991654294,
	"grad_norm": 1.5625,
	"learning_rate": 9.935543427207801e-05,
	"loss": 0.8874,
	"step": 310
	},
	{
	"epoch": 0.20222284636680976,
	"grad_norm": 1.7890625,
	"learning_rate": 9.933176608869166e-05,
	"loss": 0.8846,
	"step": 315
	},
	{
	"epoch": 0.2054327328170766,
	"grad_norm": 1.75,
	"learning_rate": 9.930767506631427e-05,
	"loss": 0.9083,
	"step": 320
	},
	{
	"epoch": 0.20864261926734343,
	"grad_norm": 1.6796875,
	"learning_rate": 9.928316148151756e-05,
	"loss": 0.9058,
	"step": 325
	},
	{
	"epoch": 0.21185250571761025,
	"grad_norm": 1.5625,
	"learning_rate": 9.925822561572435e-05,
	"loss": 0.8871,
	"step": 330
	},
	{
	"epoch": 0.21506239216787706,
	"grad_norm": 1.625,
	"learning_rate": 9.923286775520537e-05,
	"loss": 0.8707,
	"step": 335
	},
	{
	"epoch": 0.21827227861814388,
	"grad_norm": 1.6953125,
	"learning_rate": 9.920708819107593e-05,
	"loss": 0.8788,
	"step": 340
	},
	{
	"epoch": 0.2214821650684107,
	"grad_norm": 1.625,
	"learning_rate": 9.918088721929266e-05,
	"loss": 0.867,
	"step": 345
	},
	{
	"epoch": 0.22469205151867752,
	"grad_norm": 1.59375,
	"learning_rate": 9.915426514065007e-05,
	"loss": 0.8763,
	"step": 350
	},
	{
	"epoch": 0.22790193796894434,
	"grad_norm": 1.6875,
	"learning_rate": 9.912722226077709e-05,
	"loss": 0.8843,
	"step": 355
	},
	{
	"epoch": 0.23111182441921116,
	"grad_norm": 1.5703125,
	"learning_rate": 9.90997588901335e-05,
	"loss": 0.8689,
	"step": 360
	},
	{
	"epoch": 0.234321710869478,
	"grad_norm": 1.6953125,
	"learning_rate": 9.907187534400655e-05,
	"loss": 0.8666,
	"step": 365
	},
	{
	"epoch": 0.23753159731974482,
	"grad_norm": 1.6171875,
	"learning_rate": 9.90435719425071e-05,
	"loss": 0.8511,
	"step": 370
	},
	{
	"epoch": 0.24074148377001164,
	"grad_norm": 1.6953125,
	"learning_rate": 9.90148490105662e-05,
	"loss": 0.8491,
	"step": 375
	},
	{
	"epoch": 0.24395137022027846,
	"grad_norm": 1.8359375,
	"learning_rate": 9.898570687793107e-05,
	"loss": 0.8691,
	"step": 380
	},
	{
	"epoch": 0.24716125667054528,
	"grad_norm": 1.46875,
	"learning_rate": 9.895614587916162e-05,
	"loss": 0.8243,
	"step": 385
	},
	{
	"epoch": 0.2503711431208121,
	"grad_norm": 1.40625,
	"learning_rate": 9.892616635362637e-05,
	"loss": 0.8645,
	"step": 390
	},
	{
	"epoch": 0.2535810295710789,
	"grad_norm": 1.6171875,
	"learning_rate": 9.889576864549867e-05,
	"loss": 0.8191,
	"step": 395
	},
	{
	"epoch": 0.25679091602134574,
	"grad_norm": 1.5703125,
	"learning_rate": 9.886495310375275e-05,
	"loss": 0.8665,
	"step": 400
	},
	{
	"epoch": 0.26000080247161256,
	"grad_norm": 1.421875,
	"learning_rate": 9.883372008215962e-05,
	"loss": 0.8695,
	"step": 405
	},
	{
	"epoch": 0.2632106889218794,
	"grad_norm": 1.5,
	"learning_rate": 9.880206993928313e-05,
	"loss": 0.8283,
	"step": 410
	},
	{
	"epoch": 0.2664205753721462,
	"grad_norm": 1.421875,
	"learning_rate": 9.87700030384758e-05,
	"loss": 0.823,
	"step": 415
	},
	{
	"epoch": 0.269630461822413,
	"grad_norm": 1.5390625,
	"learning_rate": 9.873751974787461e-05,
	"loss": 0.8196,
	"step": 420
	},
	{
	"epoch": 0.27284034827267983,
	"grad_norm": 1.546875,
	"learning_rate": 9.870462044039685e-05,
	"loss": 0.8504,
	"step": 425
	},
	{
	"epoch": 0.27605023472294665,
	"grad_norm": 1.625,
	"learning_rate": 9.867130549373578e-05,
	"loss": 0.8519,
	"step": 430
	},
	{
	"epoch": 0.27926012117321347,
	"grad_norm": 1.6171875,
	"learning_rate": 9.863757529035633e-05,
	"loss": 0.8589,
	"step": 435
	},
	{
	"epoch": 0.28247000762348035,
	"grad_norm": 1.5859375,
	"learning_rate": 9.860343021749065e-05,
	"loss": 0.8209,
	"step": 440
	},
	{
	"epoch": 0.28567989407374716,
	"grad_norm": 1.53125,
	"learning_rate": 9.856887066713378e-05,
	"loss": 0.8453,
	"step": 445
	},
	{
	"epoch": 0.288889780524014,
	"grad_norm": 1.6484375,
	"learning_rate": 9.853389703603901e-05,
	"loss": 0.8433,
	"step": 450
	},
	{
	"epoch": 0.2920996669742808,
	"grad_norm": 1.640625,
	"learning_rate": 9.849850972571344e-05,
	"loss": 0.8281,
	"step": 455
	},
	{
	"epoch": 0.2953095534245476,
	"grad_norm": 1.5703125,
	"learning_rate": 9.84627091424133e-05,
	"loss": 0.8292,
	"step": 460
	},
	{
	"epoch": 0.29851943987481444,
	"grad_norm": 1.40625,
	"learning_rate": 9.84264956971393e-05,
	"loss": 0.8199,
	"step": 465
	},
	{
	"epoch": 0.30172932632508126,
	"grad_norm": 1.4765625,
	"learning_rate": 9.838986980563193e-05,
	"loss": 0.8263,
	"step": 470
	},
	{
	"epoch": 0.3049392127753481,
	"grad_norm": 1.5546875,
	"learning_rate": 9.835283188836673e-05,
	"loss": 0.8324,
	"step": 475
	},
	{
	"epoch": 0.3081490992256149,
	"grad_norm": 1.515625,
	"learning_rate": 9.831538237054931e-05,
	"loss": 0.8085,
	"step": 480
	},
	{
	"epoch": 0.3113589856758817,
	"grad_norm": 1.640625,
	"learning_rate": 9.827752168211064e-05,
	"loss": 0.8375,
	"step": 485
	},
	{
	"epoch": 0.31456887212614854,
	"grad_norm": 1.6015625,
	"learning_rate": 9.823925025770206e-05,
	"loss": 0.8027,
	"step": 490
	},
	{
	"epoch": 0.31777875857641535,
	"grad_norm": 1.6953125,
	"learning_rate": 9.82005685366902e-05,
	"loss": 0.8309,
	"step": 495
	},
	{
	"epoch": 0.3209886450266822,
	"grad_norm": 1.5546875,
	"learning_rate": 9.816147696315206e-05,
	"loss": 0.8218,
	"step": 500
	},
	{
	"epoch": 0.3209886450266822,
	"eval_loss": 0.7136461138725281,
	"eval_runtime": 2.3986,
	"eval_samples_per_second": 83.382,
	"eval_steps_per_second": 83.382,
	"step": 500
	},
	{
	"epoch": 0.324198531476949,
	"grad_norm": 1.5703125,
	"learning_rate": 9.812197598586987e-05,
	"loss": 0.7931,
	"step": 505
	},
	{
	"epoch": 0.3274084179272158,
	"grad_norm": 1.6953125,
	"learning_rate": 9.808206605832591e-05,
	"loss": 0.8032,
	"step": 510
	},
	{
	"epoch": 0.33061830437748263,
	"grad_norm": 1.4921875,
	"learning_rate": 9.80417476386973e-05,
	"loss": 0.8131,
	"step": 515
	},
	{
	"epoch": 0.33382819082774945,
	"grad_norm": 1.625,
	"learning_rate": 9.800102118985082e-05,
	"loss": 0.7943,
	"step": 520
	},
	{
	"epoch": 0.33703807727801627,
	"grad_norm": 1.703125,
	"learning_rate": 9.795988717933751e-05,
	"loss": 0.8233,
	"step": 525
	},
	{
	"epoch": 0.3402479637282831,
	"grad_norm": 1.5234375,
	"learning_rate": 9.79183460793873e-05,
	"loss": 0.8013,
	"step": 530
	},
	{
	"epoch": 0.3434578501785499,
	"grad_norm": 1.7578125,
	"learning_rate": 9.78763983669037e-05,
	"loss": 0.8121,
	"step": 535
	},
	{
	"epoch": 0.3466677366288168,
	"grad_norm": 1.5546875,
	"learning_rate": 9.783404452345815e-05,
	"loss": 0.8053,
	"step": 540
	},
	{
	"epoch": 0.3498776230790836,
	"grad_norm": 1.640625,
	"learning_rate": 9.779128503528468e-05,
	"loss": 0.7825,
	"step": 545
	},
	{
	"epoch": 0.3530875095293504,
	"grad_norm": 1.5,
	"learning_rate": 9.774812039327415e-05,
	"loss": 0.7883,
	"step": 550
	},
	{
	"epoch": 0.35629739597961724,
	"grad_norm": 1.515625,
	"learning_rate": 9.770455109296878e-05,
	"loss": 0.8132,
	"step": 555
	},
	{
	"epoch": 0.35950728242988406,
	"grad_norm": 1.6484375,
	"learning_rate": 9.76605776345563e-05,
	"loss": 0.7793,
	"step": 560
	},
	{
	"epoch": 0.3627171688801509,
	"grad_norm": 1.5703125,
	"learning_rate": 9.761620052286438e-05,
	"loss": 0.7936,
	"step": 565
	},
	{
	"epoch": 0.3659270553304177,
	"grad_norm": 1.5078125,
	"learning_rate": 9.757142026735464e-05,
	"loss": 0.782,
	"step": 570
	},
	{
	"epoch": 0.3691369417806845,
	"grad_norm": 1.390625,
	"learning_rate": 9.752623738211698e-05,
	"loss": 0.7888,
	"step": 575
	},
	{
	"epoch": 0.37234682823095133,
	"grad_norm": 1.46875,
	"learning_rate": 9.748065238586357e-05,
	"loss": 0.8042,
	"step": 580
	},
	{
	"epoch": 0.37555671468121815,
	"grad_norm": 1.453125,
	"learning_rate": 9.743466580192297e-05,
	"loss": 0.7862,
	"step": 585
	},
	{
	"epoch": 0.37876660113148497,
	"grad_norm": 1.5234375,
	"learning_rate": 9.738827815823399e-05,
	"loss": 0.7994,
	"step": 590
	},
	{
	"epoch": 0.3819764875817518,
	"grad_norm": 1.5546875,
	"learning_rate": 9.734148998733981e-05,
	"loss": 0.7933,
	"step": 595
	},
	{
	"epoch": 0.3851863740320186,
	"grad_norm": 1.5078125,
	"learning_rate": 9.729430182638173e-05,
	"loss": 0.7957,
	"step": 600
	},
	{
	"epoch": 0.3883962604822854,
	"grad_norm": 1.53125,
	"learning_rate": 9.724671421709304e-05,
	"loss": 0.788,
	"step": 605
	},
	{
	"epoch": 0.39160614693255225,
	"grad_norm": 1.5625,
	"learning_rate": 9.719872770579284e-05,
	"loss": 0.7994,
	"step": 610
	},
	{
	"epoch": 0.39481603338281906,
	"grad_norm": 1.625,
	"learning_rate": 9.71503428433797e-05,
	"loss": 0.7882,
	"step": 615
	},
	{
	"epoch": 0.3980259198330859,
	"grad_norm": 1.4375,
	"learning_rate": 9.710156018532542e-05,
	"loss": 0.7768,
	"step": 620
	},
	{
	"epoch": 0.4012358062833527,
	"grad_norm": 1.5859375,
	"learning_rate": 9.705238029166855e-05,
	"loss": 0.7844,
	"step": 625
	},
	{
	"epoch": 0.4044456927336195,
	"grad_norm": 1.390625,
	"learning_rate": 9.700280372700807e-05,
	"loss": 0.7825,
	"step": 630
	},
	{
	"epoch": 0.4076555791838864,
	"grad_norm": 1.3515625,
	"learning_rate": 9.695283106049682e-05,
	"loss": 0.7749,
	"step": 635
	},
	{
	"epoch": 0.4108654656341532,
	"grad_norm": 1.578125,
	"learning_rate": 9.6902462865835e-05,
	"loss": 0.7849,
	"step": 640
	},
	{
	"epoch": 0.41407535208442003,
	"grad_norm": 1.5234375,
	"learning_rate": 9.68516997212636e-05,
	"loss": 0.7684,
	"step": 645
	},
	{
	"epoch": 0.41728523853468685,
	"grad_norm": 1.2890625,
	"learning_rate": 9.680054220955774e-05,
	"loss": 0.763,
	"step": 650
	},
	{
	"epoch": 0.42049512498495367,
	"grad_norm": 1.5859375,
	"learning_rate": 9.674899091801996e-05,
	"loss": 0.7771,
	"step": 655
	},
	{
	"epoch": 0.4237050114352205,
	"grad_norm": 1.46875,
	"learning_rate": 9.669704643847358e-05,
	"loss": 0.7729,
	"step": 660
	},
	{
	"epoch": 0.4269148978854873,
	"grad_norm": 1.4609375,
	"learning_rate": 9.664470936725571e-05,
	"loss": 0.7644,
	"step": 665
	},
	{
	"epoch": 0.43012478433575413,
	"grad_norm": 1.4609375,
	"learning_rate": 9.659198030521063e-05,
	"loss": 0.7702,
	"step": 670
	},
	{
	"epoch": 0.43333467078602095,
	"grad_norm": 1.3671875,
	"learning_rate": 9.653885985768273e-05,
	"loss": 0.7859,
	"step": 675
	},
	{
	"epoch": 0.43654455723628777,
	"grad_norm": 1.5078125,
	"learning_rate": 9.648534863450962e-05,
	"loss": 0.7817,
	"step": 680
	},
	{
	"epoch": 0.4397544436865546,
	"grad_norm": 1.625,
	"learning_rate": 9.643144725001514e-05,
	"loss": 0.7604,
	"step": 685
	},
	{
	"epoch": 0.4429643301368214,
	"grad_norm": 1.5625,
	"learning_rate": 9.637715632300229e-05,
	"loss": 0.7772,
	"step": 690
	},
	{
	"epoch": 0.4461742165870882,
	"grad_norm": 1.65625,
	"learning_rate": 9.632247647674606e-05,
	"loss": 0.7653,
	"step": 695
	},
	{
	"epoch": 0.44938410303735504,
	"grad_norm": 1.609375,
	"learning_rate": 9.626740833898648e-05,
	"loss": 0.7522,
	"step": 700
	},
	{
	"epoch": 0.45259398948762186,
	"grad_norm": 1.4453125,
	"learning_rate": 9.621195254192114e-05,
	"loss": 0.7729,
	"step": 705
	},
	{
	"epoch": 0.4558038759378887,
	"grad_norm": 1.421875,
	"learning_rate": 9.615610972219816e-05,
	"loss": 0.7425,
	"step": 710
	},
	{
	"epoch": 0.4590137623881555,
	"grad_norm": 1.5078125,
	"learning_rate": 9.609988052090872e-05,
	"loss": 0.7838,
	"step": 715
	},
	{
	"epoch": 0.4622236488384223,
	"grad_norm": 1.546875,
	"learning_rate": 9.604326558357983e-05,
	"loss": 0.7653,
	"step": 720
	},
	{
	"epoch": 0.46543353528868914,
	"grad_norm": 1.578125,
	"learning_rate": 9.598626556016682e-05,
	"loss": 0.7702,
	"step": 725
	},
	{
	"epoch": 0.468643421738956,
	"grad_norm": 1.4296875,
	"learning_rate": 9.59288811050459e-05,
	"loss": 0.7565,
	"step": 730
	},
	{
	"epoch": 0.47185330818922283,
	"grad_norm": 1.6015625,
	"learning_rate": 9.587111287700672e-05,
	"loss": 0.7352,
	"step": 735
	},
	{
	"epoch": 0.47506319463948965,
	"grad_norm": 1.3671875,
	"learning_rate": 9.581296153924468e-05,
	"loss": 0.7715,
	"step": 740
	},
	{
	"epoch": 0.47827308108975647,
	"grad_norm": 1.5078125,
	"learning_rate": 9.575442775935348e-05,
	"loss": 0.7536,
	"step": 745
	},
	{
	"epoch": 0.4814829675400233,
	"grad_norm": 1.4296875,
	"learning_rate": 9.569551220931725e-05,
	"loss": 0.7404,
	"step": 750
	},
	{
	"epoch": 0.4846928539902901,
	"grad_norm": 1.5546875,
	"learning_rate": 9.563621556550306e-05,
	"loss": 0.7383,
	"step": 755
	},
	{
	"epoch": 0.4879027404405569,
	"grad_norm": 1.5,
	"learning_rate": 9.557653850865293e-05,
	"loss": 0.7391,
	"step": 760
	},
	{
	"epoch": 0.49111262689082374,
	"grad_norm": 1.4140625,
	"learning_rate": 9.551648172387624e-05,
	"loss": 0.751,
	"step": 765
	},
	{
	"epoch": 0.49432251334109056,
	"grad_norm": 1.3125,
	"learning_rate": 9.545604590064167e-05,
	"loss": 0.7483,
	"step": 770
	},
	{
	"epoch": 0.4975323997913574,
	"grad_norm": 1.5234375,
	"learning_rate": 9.539523173276942e-05,
	"loss": 0.7284,
	"step": 775
	},
	{
	"epoch": 0.5007422862416242,
	"grad_norm": 1.5390625,
	"learning_rate": 9.533403991842317e-05,
	"loss": 0.7356,
	"step": 780
	},
	{
	"epoch": 0.5039521726918911,
	"grad_norm": 1.609375,
	"learning_rate": 9.527247116010207e-05,
	"loss": 0.7591,
	"step": 785
	},
	{
	"epoch": 0.5071620591421578,
	"grad_norm": 1.421875,
	"learning_rate": 9.521052616463272e-05,
	"loss": 0.7411,
	"step": 790
	},
	{
	"epoch": 0.5103719455924247,
	"grad_norm": 1.546875,
	"learning_rate": 9.5148205643161e-05,
	"loss": 0.7574,
	"step": 795
	},
	{
	"epoch": 0.5135818320426915,
	"grad_norm": 1.4609375,
	"learning_rate": 9.5085510311144e-05,
	"loss": 0.7262,
	"step": 800
	},
	{
	"epoch": 0.5167917184929584,
	"grad_norm": 1.4921875,
	"learning_rate": 9.502244088834164e-05,
	"loss": 0.7584,
	"step": 805
	},
	{
	"epoch": 0.5200016049432251,
	"grad_norm": 1.421875,
	"learning_rate": 9.495899809880858e-05,
	"loss": 0.7261,
	"step": 810
	},
	{
	"epoch": 0.523211491393492,
	"grad_norm": 1.6328125,
	"learning_rate": 9.489518267088583e-05,
	"loss": 0.7463,
	"step": 815
	},
	{
	"epoch": 0.5264213778437588,
	"grad_norm": 1.4609375,
	"learning_rate": 9.483099533719234e-05,
	"loss": 0.7477,
	"step": 820
	},
	{
	"epoch": 0.5296312642940256,
	"grad_norm": 1.453125,
	"learning_rate": 9.476643683461672e-05,
	"loss": 0.7441,
	"step": 825
	},
	{
	"epoch": 0.5328411507442924,
	"grad_norm": 1.53125,
	"learning_rate": 9.470150790430863e-05,
	"loss": 0.7433,
	"step": 830
	},
	{
	"epoch": 0.5360510371945593,
	"grad_norm": 1.4609375,
	"learning_rate": 9.463620929167039e-05,
	"loss": 0.7414,
	"step": 835
	},
	{
	"epoch": 0.539260923644826,
	"grad_norm": 1.4140625,
	"learning_rate": 9.457054174634837e-05,
	"loss": 0.7412,
	"step": 840
	},
	{
	"epoch": 0.5424708100950929,
	"grad_norm": 1.640625,
	"learning_rate": 9.450450602222435e-05,
	"loss": 0.7164,
	"step": 845
	},
	{
	"epoch": 0.5456806965453597,
	"grad_norm": 1.53125,
	"learning_rate": 9.443810287740697e-05,
	"loss": 0.755,
	"step": 850
	},
	{
	"epoch": 0.5488905829956265,
	"grad_norm": 1.4765625,
	"learning_rate": 9.437133307422294e-05,
	"loss": 0.7512,
	"step": 855
	},
	{
	"epoch": 0.5521004694458933,
	"grad_norm": 1.5625,
	"learning_rate": 9.430419737920828e-05,
	"loss": 0.7385,
	"step": 860
	},
	{
	"epoch": 0.5553103558961602,
	"grad_norm": 1.515625,
	"learning_rate": 9.42366965630996e-05,
	"loss": 0.7316,
	"step": 865
	},
	{
	"epoch": 0.5585202423464269,
	"grad_norm": 1.390625,
	"learning_rate": 9.416883140082512e-05,
	"loss": 0.7297,
	"step": 870
	},
	{
	"epoch": 0.5617301287966938,
	"grad_norm": 1.5,
	"learning_rate": 9.410060267149596e-05,
	"loss": 0.7208,
	"step": 875
	},
	{
	"epoch": 0.5649400152469607,
	"grad_norm": 1.359375,
	"learning_rate": 9.403201115839704e-05,
	"loss": 0.7288,
	"step": 880
	},
	{
	"epoch": 0.5681499016972275,
	"grad_norm": 1.4375,
	"learning_rate": 9.396305764897813e-05,
	"loss": 0.7133,
	"step": 885
	},
	{
	"epoch": 0.5713597881474943,
	"grad_norm": 1.4921875,
	"learning_rate": 9.389374293484483e-05,
	"loss": 0.7036,
	"step": 890
	},
	{
	"epoch": 0.5745696745977611,
	"grad_norm": 1.5234375,
	"learning_rate": 9.382406781174949e-05,
	"loss": 0.7332,
	"step": 895
	},
	{
	"epoch": 0.577779561048028,
	"grad_norm": 1.484375,
	"learning_rate": 9.3754033079582e-05,
	"loss": 0.7343,
	"step": 900
	},
	{
	"epoch": 0.5809894474982947,
	"grad_norm": 1.546875,
	"learning_rate": 9.368363954236075e-05,
	"loss": 0.7119,
	"step": 905
	},
	{
	"epoch": 0.5841993339485616,
	"grad_norm": 1.5703125,
	"learning_rate": 9.361288800822321e-05,
	"loss": 0.7339,
	"step": 910
	},
	{
	"epoch": 0.5874092203988284,
	"grad_norm": 1.453125,
	"learning_rate": 9.354177928941687e-05,
	"loss": 0.7163,
	"step": 915
	},
	{
	"epoch": 0.5906191068490952,
	"grad_norm": 1.4453125,
	"learning_rate": 9.347031420228969e-05,
	"loss": 0.7281,
	"step": 920
	},
	{
	"epoch": 0.593828993299362,
	"grad_norm": 1.5,
	"learning_rate": 9.339849356728092e-05,
	"loss": 0.7072,
	"step": 925
	},
	{
	"epoch": 0.5970388797496289,
	"grad_norm": 1.46875,
	"learning_rate": 9.332631820891154e-05,
	"loss": 0.729,
	"step": 930
	},
	{
	"epoch": 0.6002487661998956,
	"grad_norm": 1.4609375,
	"learning_rate": 9.325378895577491e-05,
	"loss": 0.7341,
	"step": 935
	},
	{
	"epoch": 0.6034586526501625,
	"grad_norm": 1.4140625,
	"learning_rate": 9.318090664052713e-05,
	"loss": 0.708,
	"step": 940
	},
	{
	"epoch": 0.6066685391004293,
	"grad_norm": 1.3515625,
	"learning_rate": 9.310767209987763e-05,
	"loss": 0.7191,
	"step": 945
	},
	{
	"epoch": 0.6098784255506962,
	"grad_norm": 1.6796875,
	"learning_rate": 9.303408617457943e-05,
	"loss": 0.7114,
	"step": 950
	},
	{
	"epoch": 0.6130883120009629,
	"grad_norm": 1.484375,
	"learning_rate": 9.296014970941958e-05,
	"loss": 0.704,
	"step": 955
	},
	{
	"epoch": 0.6162981984512298,
	"grad_norm": 1.3359375,
	"learning_rate": 9.288586355320938e-05,
	"loss": 0.704,
	"step": 960
	},
	{
	"epoch": 0.6195080849014966,
	"grad_norm": 1.359375,
	"learning_rate": 9.281122855877473e-05,
	"loss": 0.7112,
	"step": 965
	},
	{
	"epoch": 0.6227179713517634,
	"grad_norm": 1.4765625,
	"learning_rate": 9.273624558294627e-05,
	"loss": 0.6998,
	"step": 970
	},
	{
	"epoch": 0.6259278578020303,
	"grad_norm": 1.421875,
	"learning_rate": 9.266091548654958e-05,
	"loss": 0.7114,
	"step": 975
	},
	{
	"epoch": 0.6291377442522971,
	"grad_norm": 1.5625,
	"learning_rate": 9.258523913439522e-05,
	"loss": 0.7307,
	"step": 980
	},
	{
	"epoch": 0.632347630702564,
	"grad_norm": 1.53125,
	"learning_rate": 9.250921739526896e-05,
	"loss": 0.7257,
	"step": 985
	},
	{
	"epoch": 0.6355575171528307,
	"grad_norm": 1.578125,
	"learning_rate": 9.243285114192163e-05,
	"loss": 0.7261,
	"step": 990
	},
	{
	"epoch": 0.6387674036030976,
	"grad_norm": 1.40625,
	"learning_rate": 9.235614125105922e-05,
	"loss": 0.7139,
	"step": 995
	},
	{
	"epoch": 0.6419772900533643,
	"grad_norm": 1.390625,
	"learning_rate": 9.227908860333275e-05,
	"loss": 0.7136,
	"step": 1000
	},
	{
	"epoch": 0.6419772900533643,
	"eval_loss": 0.6108266711235046,
	"eval_runtime": 2.3924,
	"eval_samples_per_second": 83.597,
	"eval_steps_per_second": 83.597,
	"step": 1000
	},
	{
	"epoch": 0.6451871765036312,
	"grad_norm": 1.5,
	"learning_rate": 9.220169408332821e-05,
	"loss": 0.6998,
	"step": 1005
	},
	{
	"epoch": 0.648397062953898,
	"grad_norm": 1.4375,
	"learning_rate": 9.212395857955637e-05,
	"loss": 0.7121,
	"step": 1010
	},
	{
	"epoch": 0.6516069494041649,
	"grad_norm": 1.390625,
	"learning_rate": 9.204588298444257e-05,
	"loss": 0.7275,
	"step": 1015
	},
	{
	"epoch": 0.6548168358544316,
	"grad_norm": 1.40625,
	"learning_rate": 9.196746819431652e-05,
	"loss": 0.7063,
	"step": 1020
	},
	{
	"epoch": 0.6580267223046985,
	"grad_norm": 1.6171875,
	"learning_rate": 9.188871510940198e-05,
	"loss": 0.7275,
	"step": 1025
	},
	{
	"epoch": 0.6612366087549653,
	"grad_norm": 1.375,
	"learning_rate": 9.180962463380642e-05,
	"loss": 0.6942,
	"step": 1030
	},
	{
	"epoch": 0.6644464952052321,
	"grad_norm": 1.3828125,
	"learning_rate": 9.173019767551064e-05,
	"loss": 0.7184,
	"step": 1035
	},
	{
	"epoch": 0.6676563816554989,
	"grad_norm": 1.515625,
	"learning_rate": 9.165043514635836e-05,
	"loss": 0.7054,
	"step": 1040
	},
	{
	"epoch": 0.6708662681057658,
	"grad_norm": 1.53125,
	"learning_rate": 9.157033796204579e-05,
	"loss": 0.7166,
	"step": 1045
	},
	{
	"epoch": 0.6740761545560325,
	"grad_norm": 1.53125,
	"learning_rate": 9.148990704211103e-05,
	"loss": 0.7031,
	"step": 1050
	},
	{
	"epoch": 0.6772860410062994,
	"grad_norm": 1.453125,
	"learning_rate": 9.140914330992356e-05,
	"loss": 0.7071,
	"step": 1055
	},
	{
	"epoch": 0.6804959274565662,
	"grad_norm": 1.5,
	"learning_rate": 9.132804769267364e-05,
	"loss": 0.7117,
	"step": 1060
	},
	{
	"epoch": 0.683705813906833,
	"grad_norm": 1.703125,
	"learning_rate": 9.124662112136169e-05,
	"loss": 0.7063,
	"step": 1065
	},
	{
	"epoch": 0.6869157003570998,
	"grad_norm": 1.7265625,
	"learning_rate": 9.116486453078755e-05,
	"loss": 0.7007,
	"step": 1070
	},
	{
	"epoch": 0.6901255868073667,
	"grad_norm": 1.5703125,
	"learning_rate": 9.108277885953975e-05,
	"loss": 0.6956,
	"step": 1075
	},
	{
	"epoch": 0.6933354732576336,
	"grad_norm": 1.4140625,
	"learning_rate": 9.100036504998483e-05,
	"loss": 0.6968,
	"step": 1080
	},
	{
	"epoch": 0.6965453597079003,
	"grad_norm": 1.3203125,
	"learning_rate": 9.091762404825639e-05,
	"loss": 0.7131,
	"step": 1085
	},
	{
	"epoch": 0.6997552461581672,
	"grad_norm": 1.46875,
	"learning_rate": 9.08345568042443e-05,
	"loss": 0.6982,
	"step": 1090
	},
	{
	"epoch": 0.702965132608434,
	"grad_norm": 1.5546875,
	"learning_rate": 9.075116427158379e-05,
	"loss": 0.6743,
	"step": 1095
	},
	{
	"epoch": 0.7061750190587008,
	"grad_norm": 1.359375,
	"learning_rate": 9.06674474076445e-05,
	"loss": 0.6925,
	"step": 1100
	},
	{
	"epoch": 0.7093849055089676,
	"grad_norm": 1.4375,
	"learning_rate": 9.058340717351948e-05,
	"loss": 0.6849,
	"step": 1105
	},
	{
	"epoch": 0.7125947919592345,
	"grad_norm": 1.3828125,
	"learning_rate": 9.049904453401412e-05,
	"loss": 0.6815,
	"step": 1110
	},
	{
	"epoch": 0.7158046784095012,
	"grad_norm": 1.4453125,
	"learning_rate": 9.04143604576352e-05,
	"loss": 0.6905,
	"step": 1115
	},
	{
	"epoch": 0.7190145648597681,
	"grad_norm": 1.4453125,
	"learning_rate": 9.032935591657961e-05,
	"loss": 0.69,
	"step": 1120
	},
	{
	"epoch": 0.7222244513100349,
	"grad_norm": 1.3828125,
	"learning_rate": 9.02440318867233e-05,
	"loss": 0.6861,
	"step": 1125
	},
	{
	"epoch": 0.7254343377603018,
	"grad_norm": 1.484375,
	"learning_rate": 9.015838934761003e-05,
	"loss": 0.7338,
	"step": 1130
	},
	{
	"epoch": 0.7286442242105685,
	"grad_norm": 1.3515625,
	"learning_rate": 9.007242928244014e-05,
	"loss": 0.6787,
	"step": 1135
	},
	{
	"epoch": 0.7318541106608354,
	"grad_norm": 1.421875,
	"learning_rate": 8.998615267805922e-05,
	"loss": 0.6793,
	"step": 1140
	},
	{
	"epoch": 0.7350639971111022,
	"grad_norm": 1.3671875,
	"learning_rate": 8.98995605249469e-05,
	"loss": 0.6791,
	"step": 1145
	},
	{
	"epoch": 0.738273883561369,
	"grad_norm": 1.4140625,
	"learning_rate": 8.981265381720533e-05,
	"loss": 0.7028,
	"step": 1150
	},
	{
	"epoch": 0.7414837700116358,
	"grad_norm": 1.453125,
	"learning_rate": 8.972543355254785e-05,
	"loss": 0.712,
	"step": 1155
	},
	{
	"epoch": 0.7446936564619027,
	"grad_norm": 1.4453125,
	"learning_rate": 8.963790073228757e-05,
	"loss": 0.6749,
	"step": 1160
	},
	{
	"epoch": 0.7479035429121694,
	"grad_norm": 1.53125,
	"learning_rate": 8.955005636132573e-05,
	"loss": 0.6844,
	"step": 1165
	},
	{
	"epoch": 0.7511134293624363,
	"grad_norm": 1.296875,
	"learning_rate": 8.946190144814034e-05,
	"loss": 0.6753,
	"step": 1170
	},
	{
	"epoch": 0.7543233158127032,
	"grad_norm": 1.4296875,
	"learning_rate": 8.937343700477449e-05,
	"loss": 0.6809,
	"step": 1175
	},
	{
	"epoch": 0.7575332022629699,
	"grad_norm": 1.3515625,
	"learning_rate": 8.928466404682478e-05,
	"loss": 0.7046,
	"step": 1180
	},
	{
	"epoch": 0.7607430887132368,
	"grad_norm": 1.3515625,
	"learning_rate": 8.91955835934296e-05,
	"loss": 0.6763,
	"step": 1185
	},
	{
	"epoch": 0.7639529751635036,
	"grad_norm": 1.359375,
	"learning_rate": 8.910619666725755e-05,
	"loss": 0.6788,
	"step": 1190
	},
	{
	"epoch": 0.7671628616137705,
	"grad_norm": 1.40625,
	"learning_rate": 8.901650429449553e-05,
	"loss": 0.6874,
	"step": 1195
	},
	{
	"epoch": 0.7703727480640372,
	"grad_norm": 1.3125,
	"learning_rate": 8.892650750483715e-05,
	"loss": 0.7008,
	"step": 1200
	},
	{
	"epoch": 0.7735826345143041,
	"grad_norm": 1.3203125,
	"learning_rate": 8.883620733147073e-05,
	"loss": 0.6946,
	"step": 1205
	},
	{
	"epoch": 0.7767925209645709,
	"grad_norm": 1.3671875,
	"learning_rate": 8.874560481106758e-05,
	"loss": 0.6845,
	"step": 1210
	},
	{
	"epoch": 0.7800024074148377,
	"grad_norm": 1.3359375,
	"learning_rate": 8.865470098376995e-05,
	"loss": 0.7019,
	"step": 1215
	},
	{
	"epoch": 0.7832122938651045,
	"grad_norm": 1.4140625,
	"learning_rate": 8.856349689317933e-05,
	"loss": 0.6611,
	"step": 1220
	},
	{
	"epoch": 0.7864221803153714,
	"grad_norm": 1.4453125,
	"learning_rate": 8.847199358634415e-05,
	"loss": 0.6769,
	"step": 1225
	},
	{
	"epoch": 0.7896320667656381,
	"grad_norm": 1.3359375,
	"learning_rate": 8.838019211374804e-05,
	"loss": 0.6684,
	"step": 1230
	},
	{
	"epoch": 0.792841953215905,
	"grad_norm": 1.3046875,
	"learning_rate": 8.828809352929762e-05,
	"loss": 0.6799,
	"step": 1235
	},
	{
	"epoch": 0.7960518396661718,
	"grad_norm": 1.8125,
	"learning_rate": 8.81956988903104e-05,
	"loss": 0.685,
	"step": 1240
	},
	{
	"epoch": 0.7992617261164386,
	"grad_norm": 1.265625,
	"learning_rate": 8.810300925750277e-05,
	"loss": 0.6874,
	"step": 1245
	},
	{
	"epoch": 0.8024716125667054,
	"grad_norm": 1.5625,
	"learning_rate": 8.801002569497763e-05,
	"loss": 0.6856,
	"step": 1250
	},
	{
	"epoch": 0.8056814990169723,
	"grad_norm": 1.3359375,
	"learning_rate": 8.791674927021234e-05,
	"loss": 0.68,
	"step": 1255
	},
	{
	"epoch": 0.808891385467239,
	"grad_norm": 1.2734375,
	"learning_rate": 8.782318105404636e-05,
	"loss": 0.6473,
	"step": 1260
	},
	{
	"epoch": 0.8121012719175059,
	"grad_norm": 1.46875,
	"learning_rate": 8.772932212066906e-05,
	"loss": 0.6721,
	"step": 1265
	},
	{
	"epoch": 0.8153111583677728,
	"grad_norm": 1.484375,
	"learning_rate": 8.763517354760726e-05,
	"loss": 0.6675,
	"step": 1270
	},
	{
	"epoch": 0.8185210448180396,
	"grad_norm": 1.3125,
	"learning_rate": 8.754073641571295e-05,
	"loss": 0.6856,
	"step": 1275
	},
	{
	"epoch": 0.8217309312683064,
	"grad_norm": 1.3515625,
	"learning_rate": 8.744601180915087e-05,
	"loss": 0.6938,
	"step": 1280
	},
	{
	"epoch": 0.8249408177185732,
	"grad_norm": 1.296875,
	"learning_rate": 8.7351000815386e-05,
	"loss": 0.6785,
	"step": 1285
	},
	{
	"epoch": 0.8281507041688401,
	"grad_norm": 1.3515625,
	"learning_rate": 8.72557045251712e-05,
	"loss": 0.6697,
	"step": 1290
	},
	{
	"epoch": 0.8313605906191068,
	"grad_norm": 1.40625,
	"learning_rate": 8.716012403253455e-05,
	"loss": 0.6647,
	"step": 1295
	},
	{
	"epoch": 0.8345704770693737,
	"grad_norm": 1.3125,
	"learning_rate": 8.706426043476687e-05,
	"loss": 0.6776,
	"step": 1300
	},
	{
	"epoch": 0.8377803635196405,
	"grad_norm": 1.40625,
	"learning_rate": 8.696811483240915e-05,
	"loss": 0.6689,
	"step": 1305
	},
	{
	"epoch": 0.8409902499699073,
	"grad_norm": 1.515625,
	"learning_rate": 8.687168832923981e-05,
	"loss": 0.6667,
	"step": 1310
	},
	{
	"epoch": 0.8442001364201741,
	"grad_norm": 1.3828125,
	"learning_rate": 8.67749820322621e-05,
	"loss": 0.694,
	"step": 1315
	},
	{
	"epoch": 0.847410022870441,
	"grad_norm": 1.3828125,
	"learning_rate": 8.667799705169142e-05,
	"loss": 0.6682,
	"step": 1320
	},
	{
	"epoch": 0.8506199093207077,
	"grad_norm": 1.4296875,
	"learning_rate": 8.65807345009425e-05,
	"loss": 0.6942,
	"step": 1325
	},
	{
	"epoch": 0.8538297957709746,
	"grad_norm": 1.40625,
	"learning_rate": 8.648319549661668e-05,
	"loss": 0.6832,
	"step": 1330
	},
	{
	"epoch": 0.8570396822212414,
	"grad_norm": 1.3515625,
	"learning_rate": 8.638538115848902e-05,
	"loss": 0.673,
	"step": 1335
	},
	{
	"epoch": 0.8602495686715083,
	"grad_norm": 1.4921875,
	"learning_rate": 8.628729260949555e-05,
	"loss": 0.6954,
	"step": 1340
	},
	{
	"epoch": 0.863459455121775,
	"grad_norm": 1.59375,
	"learning_rate": 8.618893097572027e-05,
	"loss": 0.6585,
	"step": 1345
	},
	{
	"epoch": 0.8666693415720419,
	"grad_norm": 1.4296875,
	"learning_rate": 8.60902973863823e-05,
	"loss": 0.6733,
	"step": 1350
	},
	{
	"epoch": 0.8698792280223087,
	"grad_norm": 1.484375,
	"learning_rate": 8.599139297382286e-05,
	"loss": 0.6714,
	"step": 1355
	},
	{
	"epoch": 0.8730891144725755,
	"grad_norm": 1.46875,
	"learning_rate": 8.58922188734923e-05,
	"loss": 0.6733,
	"step": 1360
	},
	{
	"epoch": 0.8762990009228424,
	"grad_norm": 1.4453125,
	"learning_rate": 8.579277622393708e-05,
	"loss": 0.6771,
	"step": 1365
	},
	{
	"epoch": 0.8795088873731092,
	"grad_norm": 1.5703125,
	"learning_rate": 8.569306616678667e-05,
	"loss": 0.6702,
	"step": 1370
	},
	{
	"epoch": 0.882718773823376,
	"grad_norm": 1.421875,
	"learning_rate": 8.559308984674047e-05,
	"loss": 0.6461,
	"step": 1375
	},
	{
	"epoch": 0.8859286602736428,
	"grad_norm": 1.4609375,
	"learning_rate": 8.549284841155461e-05,
	"loss": 0.6836,
	"step": 1380
	},
	{
	"epoch": 0.8891385467239097,
	"grad_norm": 1.390625,
	"learning_rate": 8.539234301202885e-05,
	"loss": 0.6547,
	"step": 1385
	},
	{
	"epoch": 0.8923484331741764,
	"grad_norm": 1.515625,
	"learning_rate": 8.529157480199335e-05,
	"loss": 0.664,
	"step": 1390
	},
	{
	"epoch": 0.8955583196244433,
	"grad_norm": 1.2890625,
	"learning_rate": 8.519054493829535e-05,
	"loss": 0.6625,
	"step": 1395
	},
	{
	"epoch": 0.8987682060747101,
	"grad_norm": 1.3125,
	"learning_rate": 8.508925458078599e-05,
	"loss": 0.6582,
	"step": 1400
	},
	{
	"epoch": 0.901978092524977,
	"grad_norm": 1.3515625,
	"learning_rate": 8.498770489230699e-05,
	"loss": 0.6432,
	"step": 1405
	},
	{
	"epoch": 0.9051879789752437,
	"grad_norm": 1.25,
	"learning_rate": 8.488589703867714e-05,
	"loss": 0.6775,
	"step": 1410
	},
	{
	"epoch": 0.9083978654255106,
	"grad_norm": 1.3203125,
	"learning_rate": 8.478383218867918e-05,
	"loss": 0.6847,
	"step": 1415
	},
	{
	"epoch": 0.9116077518757774,
	"grad_norm": 1.3515625,
	"learning_rate": 8.468151151404616e-05,
	"loss": 0.6691,
	"step": 1420
	},
	{
	"epoch": 0.9148176383260442,
	"grad_norm": 1.3828125,
	"learning_rate": 8.457893618944808e-05,
	"loss": 0.6618,
	"step": 1425
	},
	{
	"epoch": 0.918027524776311,
	"grad_norm": 1.421875,
	"learning_rate": 8.447610739247838e-05,
	"loss": 0.6755,
	"step": 1430
	},
	{
	"epoch": 0.9212374112265779,
	"grad_norm": 1.25,
	"learning_rate": 8.437302630364046e-05,
	"loss": 0.6673,
	"step": 1435
	},
	{
	"epoch": 0.9244472976768446,
	"grad_norm": 1.359375,
	"learning_rate": 8.426969410633411e-05,
	"loss": 0.6582,
	"step": 1440
	},
	{
	"epoch": 0.9276571841271115,
	"grad_norm": 1.296875,
	"learning_rate": 8.416611198684187e-05,
	"loss": 0.6667,
	"step": 1445
	},
	{
	"epoch": 0.9308670705773783,
	"grad_norm": 1.3828125,
	"learning_rate": 8.406228113431552e-05,
	"loss": 0.6716,
	"step": 1450
	},
	{
	"epoch": 0.9340769570276451,
	"grad_norm": 1.2890625,
	"learning_rate": 8.395820274076229e-05,
	"loss": 0.6746,
	"step": 1455
	},
	{
	"epoch": 0.937286843477912,
	"grad_norm": 1.3359375,
	"learning_rate": 8.385387800103132e-05,
	"loss": 0.6511,
	"step": 1460
	},
	{
	"epoch": 0.9404967299281788,
	"grad_norm": 1.4453125,
	"learning_rate": 8.374930811279983e-05,
	"loss": 0.667,
	"step": 1465
	},
	{
	"epoch": 0.9437066163784457,
	"grad_norm": 1.296875,
	"learning_rate": 8.364449427655942e-05,
	"loss": 0.6766,
	"step": 1470
	},
	{
	"epoch": 0.9469165028287124,
	"grad_norm": 1.4453125,
	"learning_rate": 8.353943769560228e-05,
	"loss": 0.6468,
	"step": 1475
	},
	{
	"epoch": 0.9501263892789793,
	"grad_norm": 1.359375,
	"learning_rate": 8.343413957600744e-05,
	"loss": 0.6427,
	"step": 1480
	},
	{
	"epoch": 0.9533362757292461,
	"grad_norm": 1.5546875,
	"learning_rate": 8.332860112662673e-05,
	"loss": 0.6207,
	"step": 1485
	},
	{
	"epoch": 0.9565461621795129,
	"grad_norm": 1.2890625,
	"learning_rate": 8.322282355907117e-05,
	"loss": 0.6548,
	"step": 1490
	},
	{
	"epoch": 0.9597560486297797,
	"grad_norm": 1.546875,
	"learning_rate": 8.311680808769682e-05,
	"loss": 0.6662,
	"step": 1495
	},
	{
	"epoch": 0.9629659350800466,
	"grad_norm": 1.3828125,
	"learning_rate": 8.301055592959101e-05,
	"loss": 0.6488,
	"step": 1500
	},
	{
	"epoch": 0.9629659350800466,
	"eval_loss": 0.5586946606636047,
	"eval_runtime": 2.4022,
	"eval_samples_per_second": 83.255,
	"eval_steps_per_second": 83.255,
	"step": 1500
	},
	{
	"epoch": 0.9661758215303133,
	"grad_norm": 1.3203125,
	"learning_rate": 8.290406830455828e-05,
	"loss": 0.6723,
	"step": 1505
	},
	{
	"epoch": 0.9693857079805802,
	"grad_norm": 1.359375,
	"learning_rate": 8.279734643510636e-05,
	"loss": 0.653,
	"step": 1510
	},
	{
	"epoch": 0.972595594430847,
	"grad_norm": 1.359375,
	"learning_rate": 8.269039154643224e-05,
	"loss": 0.6535,
	"step": 1515
	},
	{
	"epoch": 0.9758054808811139,
	"grad_norm": 1.3828125,
	"learning_rate": 8.258320486640798e-05,
	"loss": 0.6498,
	"step": 1520
	},
	{
	"epoch": 0.9790153673313806,
	"grad_norm": 1.3515625,
	"learning_rate": 8.24757876255667e-05,
	"loss": 0.6531,
	"step": 1525
	},
	{
	"epoch": 0.9822252537816475,
	"grad_norm": 1.40625,
	"learning_rate": 8.23681410570884e-05,
	"loss": 0.6698,
	"step": 1530
	},
	{
	"epoch": 0.9854351402319143,
	"grad_norm": 1.4765625,
	"learning_rate": 8.226026639678582e-05,
	"loss": 0.658,
	"step": 1535
	},
	{
	"epoch": 0.9886450266821811,
	"grad_norm": 1.2578125,
	"learning_rate": 8.215216488309032e-05,
	"loss": 0.6606,
	"step": 1540
	},
	{
	"epoch": 0.9918549131324479,
	"grad_norm": 1.3515625,
	"learning_rate": 8.204383775703752e-05,
	"loss": 0.6519,
	"step": 1545
	},
	{
	"epoch": 0.9950647995827148,
	"grad_norm": 1.40625,
	"learning_rate": 8.19352862622532e-05,
	"loss": 0.6452,
	"step": 1550
	},
	{
	"epoch": 0.9982746860329815,
	"grad_norm": 1.3515625,
	"learning_rate": 8.182651164493889e-05,
	"loss": 0.6567,
	"step": 1555
	},
	{
	"epoch": 0.9995586406130883,
	"eval_loss": 0.5523168444633484,
	"eval_runtime": 2.4204,
	"eval_samples_per_second": 82.63,
	"eval_steps_per_second": 82.63,
	"step": 1557
	},
	{
	"epoch": 1.00192593187016,
	"grad_norm": 1.3125,
	"learning_rate": 8.171751515385769e-05,
	"loss": 0.7609,
	"step": 1560
	},
	{
	"epoch": 1.0051358183204269,
	"grad_norm": 1.2265625,
	"learning_rate": 8.160829804031982e-05,
	"loss": 0.615,
	"step": 1565
	},
	{
	"epoch": 1.0083457047706936,
	"grad_norm": 1.3671875,
	"learning_rate": 8.149886155816835e-05,
	"loss": 0.6382,
	"step": 1570
	},
	{
	"epoch": 1.0115555912209606,
	"grad_norm": 1.40625,
	"learning_rate": 8.138920696376476e-05,
	"loss": 0.6391,
	"step": 1575
	},
	{
	"epoch": 1.0147654776712274,
	"grad_norm": 1.390625,
	"learning_rate": 8.127933551597449e-05,
	"loss": 0.6365,
	"step": 1580
	},
	{
	"epoch": 1.0179753641214941,
	"grad_norm": 1.34375,
	"learning_rate": 8.116924847615254e-05,
	"loss": 0.6269,
	"step": 1585
	},
	{
	"epoch": 1.0211852505717611,
	"grad_norm": 1.28125,
	"learning_rate": 8.105894710812897e-05,
	"loss": 0.6414,
	"step": 1590
	},
	{
	"epoch": 1.024395137022028,
	"grad_norm": 1.421875,
	"learning_rate": 8.094843267819438e-05,
	"loss": 0.6218,
	"step": 1595
	},
	{
	"epoch": 1.0276050234722947,
	"grad_norm": 1.4453125,
	"learning_rate": 8.083770645508535e-05,
	"loss": 0.6456,
	"step": 1600
	},
	{
	"epoch": 1.0308149099225614,
	"grad_norm": 1.453125,
	"learning_rate": 8.072676970996997e-05,
	"loss": 0.6349,
	"step": 1605
	},
	{
	"epoch": 1.0340247963728284,
	"grad_norm": 1.3046875,
	"learning_rate": 8.061562371643312e-05,
	"loss": 0.5872,
	"step": 1610
	},
	{
	"epoch": 1.0372346828230952,
	"grad_norm": 1.375,
	"learning_rate": 8.050426975046196e-05,
	"loss": 0.6129,
	"step": 1615
	},
	{
	"epoch": 1.040444569273362,
	"grad_norm": 1.34375,
	"learning_rate": 8.039270909043119e-05,
	"loss": 0.6275,
	"step": 1620
	},
	{
	"epoch": 1.0436544557236287,
	"grad_norm": 1.40625,
	"learning_rate": 8.028094301708843e-05,
	"loss": 0.6198,
	"step": 1625
	},
	{
	"epoch": 1.0468643421738957,
	"grad_norm": 1.4609375,
	"learning_rate": 8.016897281353954e-05,
	"loss": 0.6125,
	"step": 1630
	},
	{
	"epoch": 1.0500742286241624,
	"grad_norm": 1.3828125,
	"learning_rate": 8.00567997652338e-05,
	"loss": 0.6076,
	"step": 1635
	},
	{
	"epoch": 1.0532841150744292,
	"grad_norm": 1.5625,
	"learning_rate": 7.994442515994922e-05,
	"loss": 0.6153,
	"step": 1640
	},
	{
	"epoch": 1.056494001524696,
	"grad_norm": 1.28125,
	"learning_rate": 7.983185028777773e-05,
	"loss": 0.614,
	"step": 1645
	},
	{
	"epoch": 1.059703887974963,
	"grad_norm": 1.3828125,
	"learning_rate": 7.971907644111043e-05,
	"loss": 0.6287,
	"step": 1650
	},
	{
	"epoch": 1.0629137744252297,
	"grad_norm": 1.4375,
	"learning_rate": 7.960610491462265e-05,
	"loss": 0.6234,
	"step": 1655
	},
	{
	"epoch": 1.0661236608754965,
	"grad_norm": 1.390625,
	"learning_rate": 7.949293700525914e-05,
	"loss": 0.6352,
	"step": 1660
	},
	{
	"epoch": 1.0693335473257632,
	"grad_norm": 1.328125,
	"learning_rate": 7.93795740122192e-05,
	"loss": 0.6275,
	"step": 1665
	},
	{
	"epoch": 1.0725434337760302,
	"grad_norm": 1.2734375,
	"learning_rate": 7.926601723694178e-05,
	"loss": 0.6266,
	"step": 1670
	},
	{
	"epoch": 1.075753320226297,
	"grad_norm": 1.40625,
	"learning_rate": 7.915226798309042e-05,
	"loss": 0.6111,
	"step": 1675
	},
	{
	"epoch": 1.0789632066765638,
	"grad_norm": 1.3828125,
	"learning_rate": 7.903832755653844e-05,
	"loss": 0.6032,
	"step": 1680
	},
	{
	"epoch": 1.0821730931268307,
	"grad_norm": 1.5859375,
	"learning_rate": 7.892419726535385e-05,
	"loss": 0.6113,
	"step": 1685
	},
	{
	"epoch": 1.0853829795770975,
	"grad_norm": 1.359375,
	"learning_rate": 7.880987841978435e-05,
	"loss": 0.6332,
	"step": 1690
	},
	{
	"epoch": 1.0885928660273643,
	"grad_norm": 1.46875,
	"learning_rate": 7.86953723322423e-05,
	"loss": 0.6419,
	"step": 1695
	},
	{
	"epoch": 1.091802752477631,
	"grad_norm": 1.3203125,
	"learning_rate": 7.858068031728968e-05,
	"loss": 0.6249,
	"step": 1700
	},
	{
	"epoch": 1.095012638927898,
	"grad_norm": 1.3203125,
	"learning_rate": 7.846580369162293e-05,
	"loss": 0.6075,
	"step": 1705
	},
	{
	"epoch": 1.0982225253781648,
	"grad_norm": 1.3828125,
	"learning_rate": 7.83507437740579e-05,
	"loss": 0.6379,
	"step": 1710
	},
	{
	"epoch": 1.1014324118284315,
	"grad_norm": 1.390625,
	"learning_rate": 7.823550188551466e-05,
	"loss": 0.6165,
	"step": 1715
	},
	{
	"epoch": 1.1046422982786983,
	"grad_norm": 1.328125,
	"learning_rate": 7.812007934900238e-05,
	"loss": 0.6106,
	"step": 1720
	},
	{
	"epoch": 1.1078521847289653,
	"grad_norm": 1.25,
	"learning_rate": 7.800447748960408e-05,
	"loss": 0.6132,
	"step": 1725
	},
	{
	"epoch": 1.111062071179232,
	"grad_norm": 1.390625,
	"learning_rate": 7.788869763446154e-05,
	"loss": 0.6224,
	"step": 1730
	},
	{
	"epoch": 1.1142719576294988,
	"grad_norm": 1.4609375,
	"learning_rate": 7.777274111275988e-05,
	"loss": 0.6353,
	"step": 1735
	},
	{
	"epoch": 1.1174818440797656,
	"grad_norm": 1.2421875,
	"learning_rate": 7.765660925571245e-05,
	"loss": 0.6289,
	"step": 1740
	},
	{
	"epoch": 1.1206917305300326,
	"grad_norm": 1.2890625,
	"learning_rate": 7.754030339654552e-05,
	"loss": 0.6091,
	"step": 1745
	},
	{
	"epoch": 1.1239016169802993,
	"grad_norm": 1.2578125,
	"learning_rate": 7.74238248704829e-05,
	"loss": 0.6119,
	"step": 1750
	},
	{
	"epoch": 1.127111503430566,
	"grad_norm": 1.2421875,
	"learning_rate": 7.730717501473073e-05,
	"loss": 0.6173,
	"step": 1755
	},
	{
	"epoch": 1.1303213898808329,
	"grad_norm": 1.34375,
	"learning_rate": 7.719035516846201e-05,
	"loss": 0.6184,
	"step": 1760
	},
	{
	"epoch": 1.1335312763310998,
	"grad_norm": 1.390625,
	"learning_rate": 7.707336667280128e-05,
	"loss": 0.6061,
	"step": 1765
	},
	{
	"epoch": 1.1367411627813666,
	"grad_norm": 1.4296875,
	"learning_rate": 7.695621087080924e-05,
	"loss": 0.6265,
	"step": 1770
	},
	{
	"epoch": 1.1399510492316334,
	"grad_norm": 1.328125,
	"learning_rate": 7.683888910746735e-05,
	"loss": 0.6272,
	"step": 1775
	},
	{
	"epoch": 1.1431609356819004,
	"grad_norm": 1.359375,
	"learning_rate": 7.672140272966227e-05,
	"loss": 0.6162,
	"step": 1780
	},
	{
	"epoch": 1.1463708221321671,
	"grad_norm": 1.40625,
	"learning_rate": 7.660375308617054e-05,
	"loss": 0.6165,
	"step": 1785
	},
	{
	"epoch": 1.1495807085824339,
	"grad_norm": 1.328125,
	"learning_rate": 7.648594152764304e-05,
	"loss": 0.5994,
	"step": 1790
	},
	{
	"epoch": 1.1527905950327006,
	"grad_norm": 1.328125,
	"learning_rate": 7.636796940658942e-05,
	"loss": 0.6298,
	"step": 1795
	},
	{
	"epoch": 1.1560004814829676,
	"grad_norm": 1.4375,
	"learning_rate": 7.62498380773627e-05,
	"loss": 0.6124,
	"step": 1800
	},
	{
	"epoch": 1.1592103679332344,
	"grad_norm": 1.34375,
	"learning_rate": 7.613154889614362e-05,
	"loss": 0.6236,
	"step": 1805
	},
	{
	"epoch": 1.1624202543835012,
	"grad_norm": 1.3046875,
	"learning_rate": 7.601310322092511e-05,
	"loss": 0.6148,
	"step": 1810
	},
	{
	"epoch": 1.165630140833768,
	"grad_norm": 1.3671875,
	"learning_rate": 7.589450241149671e-05,
	"loss": 0.6119,
	"step": 1815
	},
	{
	"epoch": 1.168840027284035,
	"grad_norm": 1.4375,
	"learning_rate": 7.577574782942893e-05,
	"loss": 0.6034,
	"step": 1820
	},
	{
	"epoch": 1.1720499137343017,
	"grad_norm": 1.4375,
	"learning_rate": 7.565684083805762e-05,
	"loss": 0.6049,
	"step": 1825
	},
	{
	"epoch": 1.1752598001845684,
	"grad_norm": 1.3359375,
	"learning_rate": 7.553778280246835e-05,
	"loss": 0.6314,
	"step": 1830
	},
	{
	"epoch": 1.1784696866348352,
	"grad_norm": 1.359375,
	"learning_rate": 7.541857508948072e-05,
	"loss": 0.6015,
	"step": 1835
	},
	{
	"epoch": 1.1816795730851022,
	"grad_norm": 1.34375,
	"learning_rate": 7.529921906763266e-05,
	"loss": 0.6085,
	"step": 1840
	},
	{
	"epoch": 1.184889459535369,
	"grad_norm": 1.3671875,
	"learning_rate": 7.517971610716473e-05,
	"loss": 0.6071,
	"step": 1845
	},
	{
	"epoch": 1.1880993459856357,
	"grad_norm": 1.296875,
	"learning_rate": 7.50600675800044e-05,
	"loss": 0.6237,
	"step": 1850
	},
	{
	"epoch": 1.1913092324359025,
	"grad_norm": 1.3984375,
	"learning_rate": 7.494027485975027e-05,
	"loss": 0.6062,
	"step": 1855
	},
	{
	"epoch": 1.1945191188861695,
	"grad_norm": 1.359375,
	"learning_rate": 7.482033932165631e-05,
	"loss": 0.6111,
	"step": 1860
	},
	{
	"epoch": 1.1977290053364362,
	"grad_norm": 1.265625,
	"learning_rate": 7.470026234261611e-05,
	"loss": 0.5957,
	"step": 1865
	},
	{
	"epoch": 1.200938891786703,
	"grad_norm": 1.390625,
	"learning_rate": 7.4580045301147e-05,
	"loss": 0.6054,
	"step": 1870
	},
	{
	"epoch": 1.20414877823697,
	"grad_norm": 1.3828125,
	"learning_rate": 7.44596895773743e-05,
	"loss": 0.6264,
	"step": 1875
	},
	{
	"epoch": 1.2073586646872367,
	"grad_norm": 1.2578125,
	"learning_rate": 7.433919655301543e-05,
	"loss": 0.5918,
	"step": 1880
	},
	{
	"epoch": 1.2105685511375035,
	"grad_norm": 1.40625,
	"learning_rate": 7.421856761136405e-05,
	"loss": 0.6138,
	"step": 1885
	},
	{
	"epoch": 1.2137784375877703,
	"grad_norm": 1.3515625,
	"learning_rate": 7.409780413727423e-05,
	"loss": 0.623,
	"step": 1890
	},
	{
	"epoch": 1.2169883240380373,
	"grad_norm": 1.234375,
	"learning_rate": 7.397690751714444e-05,
	"loss": 0.6118,
	"step": 1895
	},
	{
	"epoch": 1.220198210488304,
	"grad_norm": 1.3515625,
	"learning_rate": 7.385587913890175e-05,
	"loss": 0.5957,
	"step": 1900
	},
	{
	"epoch": 1.2234080969385708,
	"grad_norm": 1.53125,
	"learning_rate": 7.373472039198583e-05,
	"loss": 0.6201,
	"step": 1905
	},
	{
	"epoch": 1.2266179833888375,
	"grad_norm": 1.328125,
	"learning_rate": 7.361343266733307e-05,
	"loss": 0.6029,
	"step": 1910
	},
	{
	"epoch": 1.2298278698391045,
	"grad_norm": 1.2265625,
	"learning_rate": 7.34920173573605e-05,
	"loss": 0.6052,
	"step": 1915
	},
	{
	"epoch": 1.2330377562893713,
	"grad_norm": 1.34375,
	"learning_rate": 7.337047585594987e-05,
	"loss": 0.6155,
	"step": 1920
	},
	{
	"epoch": 1.236247642739638,
	"grad_norm": 1.2890625,
	"learning_rate": 7.324880955843167e-05,
	"loss": 0.5776,
	"step": 1925
	},
	{
	"epoch": 1.2394575291899048,
	"grad_norm": 1.3984375,
	"learning_rate": 7.312701986156909e-05,
	"loss": 0.6156,
	"step": 1930
	},
	{
	"epoch": 1.2426674156401718,
	"grad_norm": 1.578125,
	"learning_rate": 7.300510816354194e-05,
	"loss": 0.6011,
	"step": 1935
	},
	{
	"epoch": 1.2458773020904386,
	"grad_norm": 1.671875,
	"learning_rate": 7.288307586393066e-05,
	"loss": 0.6094,
	"step": 1940
	},
	{
	"epoch": 1.2490871885407053,
	"grad_norm": 1.390625,
	"learning_rate": 7.276092436370024e-05,
	"loss": 0.6074,
	"step": 1945
	},
	{
	"epoch": 1.252297074990972,
	"grad_norm": 1.328125,
	"learning_rate": 7.263865506518411e-05,
	"loss": 0.6002,
	"step": 1950
	},
	{
	"epoch": 1.255506961441239,
	"grad_norm": 1.359375,
	"learning_rate": 7.251626937206806e-05,
	"loss": 0.5956,
	"step": 1955
	},
	{
	"epoch": 1.2587168478915058,
	"grad_norm": 1.375,
	"learning_rate": 7.239376868937415e-05,
	"loss": 0.6026,
	"step": 1960
	},
	{
	"epoch": 1.2619267343417726,
	"grad_norm": 1.4453125,
	"learning_rate": 7.227115442344452e-05,
	"loss": 0.6136,
	"step": 1965
	},
	{
	"epoch": 1.2651366207920396,
	"grad_norm": 1.3515625,
	"learning_rate": 7.214842798192526e-05,
	"loss": 0.6092,
	"step": 1970
	},
	{
	"epoch": 1.2683465072423064,
	"grad_norm": 1.453125,
	"learning_rate": 7.202559077375033e-05,
	"loss": 0.6232,
	"step": 1975
	},
	{
	"epoch": 1.2715563936925731,
	"grad_norm": 1.28125,
	"learning_rate": 7.190264420912526e-05,
	"loss": 0.6139,
	"step": 1980
	},
	{
	"epoch": 1.2747662801428399,
	"grad_norm": 1.2890625,
	"learning_rate": 7.177958969951104e-05,
	"loss": 0.6085,
	"step": 1985
	},
	{
	"epoch": 1.2779761665931066,
	"grad_norm": 1.484375,
	"learning_rate": 7.165642865760794e-05,
	"loss": 0.631,
	"step": 1990
	},
	{
	"epoch": 1.2811860530433736,
	"grad_norm": 1.4765625,
	"learning_rate": 7.15331624973392e-05,
	"loss": 0.6131,
	"step": 1995
	},
	{
	"epoch": 1.2843959394936404,
	"grad_norm": 1.4453125,
	"learning_rate": 7.140979263383488e-05,
	"loss": 0.6102,
	"step": 2000
	},
	{
	"epoch": 1.2843959394936404,
	"eval_loss": 0.5290513038635254,
	"eval_runtime": 2.3691,
	"eval_samples_per_second": 84.421,
	"eval_steps_per_second": 84.421,
	"step": 2000
	},
	{
	"epoch": 1.2876058259439072,
	"grad_norm": 1.34375,
	"learning_rate": 7.128632048341553e-05,
	"loss": 0.6014,
	"step": 2005
	},
	{
	"epoch": 1.2908157123941741,
	"grad_norm": 1.25,
	"learning_rate": 7.116274746357605e-05,
	"loss": 0.6291,
	"step": 2010
	},
	{
	"epoch": 1.294025598844441,
	"grad_norm": 1.265625,
	"learning_rate": 7.103907499296934e-05,
	"loss": 0.5853,
	"step": 2015
	},
	{
	"epoch": 1.2972354852947077,
	"grad_norm": 1.2578125,
	"learning_rate": 7.091530449138994e-05,
	"loss": 0.6215,
	"step": 2020
	},
	{
	"epoch": 1.3004453717449747,
	"grad_norm": 1.203125,
	"learning_rate": 7.079143737975795e-05,
	"loss": 0.5965,
	"step": 2025
	},
	{
	"epoch": 1.3036552581952414,
	"grad_norm": 1.3984375,
	"learning_rate": 7.066747508010243e-05,
	"loss": 0.6179,
	"step": 2030
	},
	{
	"epoch": 1.3068651446455082,
	"grad_norm": 1.265625,
	"learning_rate": 7.054341901554537e-05,
	"loss": 0.5941,
	"step": 2035
	},
	{
	"epoch": 1.310075031095775,
	"grad_norm": 1.390625,
	"learning_rate": 7.04192706102851e-05,
	"loss": 0.6157,
	"step": 2040
	},
	{
	"epoch": 1.3132849175460417,
	"grad_norm": 1.3828125,
	"learning_rate": 7.029503128958009e-05,
	"loss": 0.6025,
	"step": 2045
	},
	{
	"epoch": 1.3164948039963087,
	"grad_norm": 1.2421875,
	"learning_rate": 7.017070247973255e-05,
	"loss": 0.5932,
	"step": 2050
	},
	{
	"epoch": 1.3197046904465755,
	"grad_norm": 1.4921875,
	"learning_rate": 7.004628560807202e-05,
	"loss": 0.5958,
	"step": 2055
	},
	{
	"epoch": 1.3229145768968422,
	"grad_norm": 1.34375,
	"learning_rate": 6.992178210293905e-05,
	"loss": 0.6041,
	"step": 2060
	},
	{
	"epoch": 1.3261244633471092,
	"grad_norm": 1.3828125,
	"learning_rate": 6.979719339366876e-05,
	"loss": 0.6126,
	"step": 2065
	},
	{
	"epoch": 1.329334349797376,
	"grad_norm": 1.4921875,
	"learning_rate": 6.96725209105744e-05,
	"loss": 0.5878,
	"step": 2070
	},
	{
	"epoch": 1.3325442362476427,
	"grad_norm": 1.3203125,
	"learning_rate": 6.954776608493104e-05,
	"loss": 0.6037,
	"step": 2075
	},
	{
	"epoch": 1.3357541226979095,
	"grad_norm": 1.234375,
	"learning_rate": 6.942293034895899e-05,
	"loss": 0.5986,
	"step": 2080
	},
	{
	"epoch": 1.3389640091481763,
	"grad_norm": 1.4140625,
	"learning_rate": 6.929801513580747e-05,
	"loss": 0.6124,
	"step": 2085
	},
	{
	"epoch": 1.3421738955984432,
	"grad_norm": 1.265625,
	"learning_rate": 6.917302187953811e-05,
	"loss": 0.613,
	"step": 2090
	},
	{
	"epoch": 1.34538378204871,
	"grad_norm": 1.2578125,
	"learning_rate": 6.904795201510852e-05,
	"loss": 0.5869,
	"step": 2095
	},
	{
	"epoch": 1.3485936684989768,
	"grad_norm": 1.3671875,
	"learning_rate": 6.892280697835576e-05,
	"loss": 0.6194,
	"step": 2100
	},
	{
	"epoch": 1.3518035549492438,
	"grad_norm": 1.3828125,
	"learning_rate": 6.879758820597991e-05,
	"loss": 0.5933,
	"step": 2105
	},
	{
	"epoch": 1.3550134413995105,
	"grad_norm": 1.2421875,
	"learning_rate": 6.867229713552754e-05,
	"loss": 0.6055,
	"step": 2110
	},
	{
	"epoch": 1.3582233278497773,
	"grad_norm": 1.2578125,
	"learning_rate": 6.854693520537524e-05,
	"loss": 0.6052,
	"step": 2115
	},
	{
	"epoch": 1.3614332143000443,
	"grad_norm": 1.3046875,
	"learning_rate": 6.842150385471307e-05,
	"loss": 0.6174,
	"step": 2120
	},
	{
	"epoch": 1.364643100750311,
	"grad_norm": 1.3828125,
	"learning_rate": 6.829600452352806e-05,
	"loss": 0.595,
	"step": 2125
	},
	{
	"epoch": 1.3678529872005778,
	"grad_norm": 1.2421875,
	"learning_rate": 6.817043865258774e-05,
	"loss": 0.5939,
	"step": 2130
	},
	{
	"epoch": 1.3710628736508446,
	"grad_norm": 1.3359375,
	"learning_rate": 6.804480768342341e-05,
	"loss": 0.6006,
	"step": 2135
	},
	{
	"epoch": 1.3742727601011113,
	"grad_norm": 1.3515625,
	"learning_rate": 6.791911305831382e-05,
	"loss": 0.5961,
	"step": 2140
	},
	{
	"epoch": 1.3774826465513783,
	"grad_norm": 1.3046875,
	"learning_rate": 6.779335622026847e-05,
	"loss": 0.6069,
	"step": 2145
	},
	{
	"epoch": 1.380692533001645,
	"grad_norm": 1.2734375,
	"learning_rate": 6.76675386130111e-05,
	"loss": 0.6059,
	"step": 2150
	},
	{
	"epoch": 1.3839024194519118,
	"grad_norm": 1.3828125,
	"learning_rate": 6.754166168096306e-05,
	"loss": 0.5894,
	"step": 2155
	},
	{
	"epoch": 1.3871123059021788,
	"grad_norm": 1.4296875,
	"learning_rate": 6.741572686922676e-05,
	"loss": 0.6092,
	"step": 2160
	},
	{
	"epoch": 1.3903221923524456,
	"grad_norm": 1.328125,
	"learning_rate": 6.728973562356917e-05,
	"loss": 0.5937,
	"step": 2165
	},
	{
	"epoch": 1.3935320788027123,
	"grad_norm": 1.34375,
	"learning_rate": 6.716368939040503e-05,
	"loss": 0.5971,
	"step": 2170
	},
	{
	"epoch": 1.3967419652529791,
	"grad_norm": 1.296875,
	"learning_rate": 6.703758961678041e-05,
	"loss": 0.5985,
	"step": 2175
	},
	{
	"epoch": 1.3999518517032459,
	"grad_norm": 1.3125,
	"learning_rate": 6.691143775035606e-05,
	"loss": 0.6064,
	"step": 2180
	},
	{
	"epoch": 1.4031617381535129,
	"grad_norm": 1.3515625,
	"learning_rate": 6.678523523939074e-05,
	"loss": 0.6034,
	"step": 2185
	},
	{
	"epoch": 1.4063716246037796,
	"grad_norm": 1.296875,
	"learning_rate": 6.66589835327246e-05,
	"loss": 0.5948,
	"step": 2190
	},
	{
	"epoch": 1.4095815110540464,
	"grad_norm": 1.28125,
	"learning_rate": 6.653268407976258e-05,
	"loss": 0.5751,
	"step": 2195
	},
	{
	"epoch": 1.4127913975043134,
	"grad_norm": 1.265625,
	"learning_rate": 6.640633833045783e-05,
	"loss": 0.5678,
	"step": 2200
	},
	{
	"epoch": 1.4160012839545801,
	"grad_norm": 1.28125,
	"learning_rate": 6.627994773529489e-05,
	"loss": 0.5837,
	"step": 2205
	},
	{
	"epoch": 1.419211170404847,
	"grad_norm": 1.375,
	"learning_rate": 6.615351374527323e-05,
	"loss": 0.5856,
	"step": 2210
	},
	{
	"epoch": 1.4224210568551139,
	"grad_norm": 1.3828125,
	"learning_rate": 6.602703781189043e-05,
	"loss": 0.5824,
	"step": 2215
	},
	{
	"epoch": 1.4256309433053806,
	"grad_norm": 1.296875,
	"learning_rate": 6.590052138712567e-05,
	"loss": 0.6043,
	"step": 2220
	},
	{
	"epoch": 1.4288408297556474,
	"grad_norm": 1.3515625,
	"learning_rate": 6.57739659234229e-05,
	"loss": 0.5831,
	"step": 2225
	},
	{
	"epoch": 1.4320507162059142,
	"grad_norm": 1.3671875,
	"learning_rate": 6.564737287367434e-05,
	"loss": 0.6001,
	"step": 2230
	},
	{
	"epoch": 1.435260602656181,
	"grad_norm": 1.25,
	"learning_rate": 6.552074369120363e-05,
	"loss": 0.6059,
	"step": 2235
	},
	{
	"epoch": 1.438470489106448,
	"grad_norm": 1.3671875,
	"learning_rate": 6.539407982974925e-05,
	"loss": 0.5936,
	"step": 2240
	},
	{
	"epoch": 1.4416803755567147,
	"grad_norm": 1.2890625,
	"learning_rate": 6.52673827434478e-05,
	"loss": 0.6078,
	"step": 2245
	},
	{
	"epoch": 1.4448902620069815,
	"grad_norm": 1.3359375,
	"learning_rate": 6.514065388681736e-05,
	"loss": 0.6106,
	"step": 2250
	},
	{
	"epoch": 1.4481001484572484,
	"grad_norm": 1.3515625,
	"learning_rate": 6.501389471474066e-05,
	"loss": 0.5819,
	"step": 2255
	},
	{
	"epoch": 1.4513100349075152,
	"grad_norm": 1.1953125,
	"learning_rate": 6.48871066824485e-05,
	"loss": 0.5873,
	"step": 2260
	},
	{
	"epoch": 1.454519921357782,
	"grad_norm": 1.328125,
	"learning_rate": 6.476029124550303e-05,
	"loss": 0.586,
	"step": 2265
	},
	{
	"epoch": 1.4577298078080487,
	"grad_norm": 1.2578125,
	"learning_rate": 6.463344985978095e-05,
	"loss": 0.6004,
	"step": 2270
	},
	{
	"epoch": 1.4609396942583155,
	"grad_norm": 1.3046875,
	"learning_rate": 6.450658398145692e-05,
	"loss": 0.5848,
	"step": 2275
	},
	{
	"epoch": 1.4641495807085825,
	"grad_norm": 1.453125,
	"learning_rate": 6.437969506698678e-05,
	"loss": 0.6111,
	"step": 2280
	},
	{
	"epoch": 1.4673594671588492,
	"grad_norm": 1.375,
	"learning_rate": 6.425278457309075e-05,
	"loss": 0.5844,
	"step": 2285
	},
	{
	"epoch": 1.470569353609116,
	"grad_norm": 1.328125,
	"learning_rate": 6.41258539567369e-05,
	"loss": 0.5919,
	"step": 2290
	},
	{
	"epoch": 1.473779240059383,
	"grad_norm": 1.3046875,
	"learning_rate": 6.399890467512422e-05,
	"loss": 0.5992,
	"step": 2295
	},
	{
	"epoch": 1.4769891265096498,
	"grad_norm": 1.4453125,
	"learning_rate": 6.387193818566605e-05,
	"loss": 0.5969,
	"step": 2300
	},
	{
	"epoch": 1.4801990129599165,
	"grad_norm": 1.28125,
	"learning_rate": 6.374495594597322e-05,
	"loss": 0.6171,
	"step": 2305
	},
	{
	"epoch": 1.4834088994101835,
	"grad_norm": 1.21875,
	"learning_rate": 6.361795941383746e-05,
	"loss": 0.5789,
	"step": 2310
	},
	{
	"epoch": 1.4866187858604503,
	"grad_norm": 1.34375,
	"learning_rate": 6.349095004721447e-05,
	"loss": 0.6131,
	"step": 2315
	},
	{
	"epoch": 1.489828672310717,
	"grad_norm": 1.3203125,
	"learning_rate": 6.336392930420738e-05,
	"loss": 0.5972,
	"step": 2320
	},
	{
	"epoch": 1.4930385587609838,
	"grad_norm": 1.3984375,
	"learning_rate": 6.323689864304991e-05,
	"loss": 0.5947,
	"step": 2325
	},
	{
	"epoch": 1.4962484452112506,
	"grad_norm": 1.2421875,
	"learning_rate": 6.31098595220896e-05,
	"loss": 0.5936,
	"step": 2330
	},
	{
	"epoch": 1.4994583316615175,
	"grad_norm": 1.328125,
	"learning_rate": 6.298281339977119e-05,
	"loss": 0.5879,
	"step": 2335
	},
	{
	"epoch": 1.5026682181117843,
	"grad_norm": 1.3671875,
	"learning_rate": 6.28557617346197e-05,
	"loss": 0.5841,
	"step": 2340
	},
	{
	"epoch": 1.505878104562051,
	"grad_norm": 1.34375,
	"learning_rate": 6.272870598522385e-05,
	"loss": 0.5699,
	"step": 2345
	},
	{
	"epoch": 1.509087991012318,
	"grad_norm": 1.3046875,
	"learning_rate": 6.260164761021923e-05,
	"loss": 0.6094,
	"step": 2350
	},
	{
	"epoch": 1.5122978774625848,
	"grad_norm": 1.2890625,
	"learning_rate": 6.247458806827157e-05,
	"loss": 0.5969,
	"step": 2355
	},
	{
	"epoch": 1.5155077639128516,
	"grad_norm": 1.2421875,
	"learning_rate": 6.234752881806001e-05,
	"loss": 0.5865,
	"step": 2360
	},
	{
	"epoch": 1.5187176503631186,
	"grad_norm": 1.3671875,
	"learning_rate": 6.222047131826032e-05,
	"loss": 0.5898,
	"step": 2365
	},
	{
	"epoch": 1.521927536813385,
	"grad_norm": 1.3359375,
	"learning_rate": 6.20934170275282e-05,
	"loss": 0.6127,
	"step": 2370
	},
	{
	"epoch": 1.525137423263652,
	"grad_norm": 1.3671875,
	"learning_rate": 6.196636740448247e-05,
	"loss": 0.5926,
	"step": 2375
	},
	{
	"epoch": 1.5283473097139189,
	"grad_norm": 1.3046875,
	"learning_rate": 6.183932390768842e-05,
	"loss": 0.582,
	"step": 2380
	},
	{
	"epoch": 1.5315571961641856,
	"grad_norm": 1.2734375,
	"learning_rate": 6.171228799564095e-05,
	"loss": 0.57,
	"step": 2385
	},
	{
	"epoch": 1.5347670826144526,
	"grad_norm": 1.2890625,
	"learning_rate": 6.158526112674792e-05,
	"loss": 0.5735,
	"step": 2390
	},
	{
	"epoch": 1.5379769690647194,
	"grad_norm": 1.2890625,
	"learning_rate": 6.145824475931338e-05,
	"loss": 0.5763,
	"step": 2395
	},
	{
	"epoch": 1.5411868555149861,
	"grad_norm": 1.2890625,
	"learning_rate": 6.133124035152078e-05,
	"loss": 0.595,
	"step": 2400
	},
	{
	"epoch": 1.5443967419652531,
	"grad_norm": 1.1953125,
	"learning_rate": 6.120424936141631e-05,
	"loss": 0.5876,
	"step": 2405
	},
	{
	"epoch": 1.5476066284155197,
	"grad_norm": 1.203125,
	"learning_rate": 6.10772732468921e-05,
	"loss": 0.597,
	"step": 2410
	},
	{
	"epoch": 1.5508165148657866,
	"grad_norm": 1.3125,
	"learning_rate": 6.095031346566951e-05,
	"loss": 0.5945,
	"step": 2415
	},
	{
	"epoch": 1.5540264013160534,
	"grad_norm": 1.390625,
	"learning_rate": 6.082337147528239e-05,
	"loss": 0.5841,
	"step": 2420
	},
	{
	"epoch": 1.5572362877663202,
	"grad_norm": 1.25,
	"learning_rate": 6.069644873306034e-05,
	"loss": 0.5778,
	"step": 2425
	},
	{
	"epoch": 1.5604461742165872,
	"grad_norm": 1.375,
	"learning_rate": 6.0569546696112014e-05,
	"loss": 0.5909,
	"step": 2430
	},
	{
	"epoch": 1.563656060666854,
	"grad_norm": 1.3984375,
	"learning_rate": 6.04426668213083e-05,
	"loss": 0.6037,
	"step": 2435
	},
	{
	"epoch": 1.5668659471171207,
	"grad_norm": 1.328125,
	"learning_rate": 6.031581056526574e-05,
	"loss": 0.6011,
	"step": 2440
	},
	{
	"epoch": 1.5700758335673877,
	"grad_norm": 1.21875,
	"learning_rate": 6.018897938432966e-05,
	"loss": 0.5872,
	"step": 2445
	},
	{
	"epoch": 1.5732857200176542,
	"grad_norm": 1.296875,
	"learning_rate": 6.0062174734557554e-05,
	"loss": 0.5904,
	"step": 2450
	},
	{
	"epoch": 1.5764956064679212,
	"grad_norm": 1.203125,
	"learning_rate": 5.99353980717023e-05,
	"loss": 0.5861,
	"step": 2455
	},
	{
	"epoch": 1.5797054929181882,
	"grad_norm": 1.3984375,
	"learning_rate": 5.9808650851195517e-05,
	"loss": 0.5767,
	"step": 2460
	},
	{
	"epoch": 1.5829153793684547,
	"grad_norm": 1.5,
	"learning_rate": 5.968193452813079e-05,
	"loss": 0.6083,
	"step": 2465
	},
	{
	"epoch": 1.5861252658187217,
	"grad_norm": 1.421875,
	"learning_rate": 5.9555250557247e-05,
	"loss": 0.5851,
	"step": 2470
	},
	{
	"epoch": 1.5893351522689885,
	"grad_norm": 1.3984375,
	"learning_rate": 5.9428600392911624e-05,
	"loss": 0.5828,
	"step": 2475
	},
	{
	"epoch": 1.5925450387192552,
	"grad_norm": 1.3046875,
	"learning_rate": 5.9301985489103984e-05,
	"loss": 0.5983,
	"step": 2480
	},
	{
	"epoch": 1.5957549251695222,
	"grad_norm": 1.2734375,
	"learning_rate": 5.917540729939869e-05,
	"loss": 0.5621,
	"step": 2485
	},
	{
	"epoch": 1.598964811619789,
	"grad_norm": 1.3671875,
	"learning_rate": 5.904886727694879e-05,
	"loss": 0.5646,
	"step": 2490
	},
	{
	"epoch": 1.6021746980700557,
	"grad_norm": 1.296875,
	"learning_rate": 5.8922366874469195e-05,
	"loss": 0.596,
	"step": 2495
	},
	{
	"epoch": 1.6053845845203227,
	"grad_norm": 1.2890625,
	"learning_rate": 5.879590754421995e-05,
	"loss": 0.6159,
	"step": 2500
	},
	{
	"epoch": 1.6053845845203227,
	"eval_loss": 0.4981262981891632,
	"eval_runtime": 2.3761,
	"eval_samples_per_second": 84.173,
	"eval_steps_per_second": 84.173,
	"step": 2500
	},
	{
	"epoch": 1.6085944709705893,
	"grad_norm": 1.3828125,
	"learning_rate": 5.866949073798958e-05,
	"loss": 0.6173,
	"step": 2505
	},
	{
	"epoch": 1.6118043574208563,
	"grad_norm": 1.265625,
	"learning_rate": 5.854311790707845e-05,
	"loss": 0.5769,
	"step": 2510
	},
	{
	"epoch": 1.615014243871123,
	"grad_norm": 1.3203125,
	"learning_rate": 5.8416790502282026e-05,
	"loss": 0.5856,
	"step": 2515
	},
	{
	"epoch": 1.6182241303213898,
	"grad_norm": 1.2890625,
	"learning_rate": 5.829050997387432e-05,
	"loss": 0.5743,
	"step": 2520
	},
	{
	"epoch": 1.6214340167716568,
	"grad_norm": 1.3203125,
	"learning_rate": 5.816427777159117e-05,
	"loss": 0.5854,
	"step": 2525
	},
	{
	"epoch": 1.6246439032219235,
	"grad_norm": 1.3515625,
	"learning_rate": 5.8038095344613595e-05,
	"loss": 0.5837,
	"step": 2530
	},
	{
	"epoch": 1.6278537896721903,
	"grad_norm": 1.2109375,
	"learning_rate": 5.791196414155121e-05,
	"loss": 0.6061,
	"step": 2535
	},
	{
	"epoch": 1.6310636761224573,
	"grad_norm": 1.1796875,
	"learning_rate": 5.778588561042556e-05,
	"loss": 0.5856,
	"step": 2540
	},
	{
	"epoch": 1.6342735625727238,
	"grad_norm": 1.296875,
	"learning_rate": 5.76598611986535e-05,
	"loss": 0.5721,
	"step": 2545
	},
	{
	"epoch": 1.6374834490229908,
	"grad_norm": 1.3046875,
	"learning_rate": 5.753389235303055e-05,
	"loss": 0.5907,
	"step": 2550
	},
	{
	"epoch": 1.6406933354732578,
	"grad_norm": 1.2578125,
	"learning_rate": 5.7407980519714346e-05,
	"loss": 0.5801,
	"step": 2555
	},
	{
	"epoch": 1.6439032219235243,
	"grad_norm": 1.5,
	"learning_rate": 5.728212714420804e-05,
	"loss": 0.5794,
	"step": 2560
	},
	{
	"epoch": 1.6471131083737913,
	"grad_norm": 1.3515625,
	"learning_rate": 5.71563336713436e-05,
	"loss": 0.5779,
	"step": 2565
	},
	{
	"epoch": 1.650322994824058,
	"grad_norm": 1.4765625,
	"learning_rate": 5.7030601545265336e-05,
	"loss": 0.5851,
	"step": 2570
	},
	{
	"epoch": 1.6535328812743249,
	"grad_norm": 1.3359375,
	"learning_rate": 5.6904932209413276e-05,
	"loss": 0.5868,
	"step": 2575
	},
	{
	"epoch": 1.6567427677245918,
	"grad_norm": 1.3984375,
	"learning_rate": 5.6779327106506594e-05,
	"loss": 0.5722,
	"step": 2580
	},
	{
	"epoch": 1.6599526541748586,
	"grad_norm": 1.328125,
	"learning_rate": 5.665378767852704e-05,
	"loss": 0.5988,
	"step": 2585
	},
	{
	"epoch": 1.6631625406251254,
	"grad_norm": 1.25,
	"learning_rate": 5.652831536670242e-05,
	"loss": 0.5766,
	"step": 2590
	},
	{
	"epoch": 1.6663724270753923,
	"grad_norm": 1.3984375,
	"learning_rate": 5.640291161149e-05,
	"loss": 0.592,
	"step": 2595
	},
	{
	"epoch": 1.669582313525659,
	"grad_norm": 1.34375,
	"learning_rate": 5.627757785256006e-05,
	"loss": 0.5893,
	"step": 2600
	},
	{
	"epoch": 1.6727921999759259,
	"grad_norm": 1.359375,
	"learning_rate": 5.615231552877921e-05,
	"loss": 0.5747,
	"step": 2605
	},
	{
	"epoch": 1.6760020864261926,
	"grad_norm": 1.3125,
	"learning_rate": 5.602712607819404e-05,
	"loss": 0.5804,
	"step": 2610
	},
	{
	"epoch": 1.6792119728764594,
	"grad_norm": 1.3515625,
	"learning_rate": 5.590201093801449e-05,
	"loss": 0.5734,
	"step": 2615
	},
	{
	"epoch": 1.6824218593267264,
	"grad_norm": 1.21875,
	"learning_rate": 5.577697154459742e-05,
	"loss": 0.5708,
	"step": 2620
	},
	{
	"epoch": 1.6856317457769932,
	"grad_norm": 1.3359375,
	"learning_rate": 5.565200933343009e-05,
	"loss": 0.5863,
	"step": 2625
	},
	{
	"epoch": 1.68884163222726,
	"grad_norm": 1.2734375,
	"learning_rate": 5.5527125739113686e-05,
	"loss": 0.5846,
	"step": 2630
	},
	{
	"epoch": 1.692051518677527,
	"grad_norm": 1.28125,
	"learning_rate": 5.540232219534685e-05,
	"loss": 0.5533,
	"step": 2635
	},
	{
	"epoch": 1.6952614051277934,
	"grad_norm": 1.2890625,
	"learning_rate": 5.527760013490922e-05,
	"loss": 0.5916,
	"step": 2640
	},
	{
	"epoch": 1.6984712915780604,
	"grad_norm": 1.328125,
	"learning_rate": 5.515296098964499e-05,
	"loss": 0.5641,
	"step": 2645
	},
	{
	"epoch": 1.7016811780283274,
	"grad_norm": 1.2265625,
	"learning_rate": 5.502840619044645e-05,
	"loss": 0.5737,
	"step": 2650
	},
	{
	"epoch": 1.704891064478594,
	"grad_norm": 1.28125,
	"learning_rate": 5.490393716723757e-05,
	"loss": 0.5728,
	"step": 2655
	},
	{
	"epoch": 1.708100950928861,
	"grad_norm": 1.2265625,
	"learning_rate": 5.477955534895762e-05,
	"loss": 0.5614,
	"step": 2660
	},
	{
	"epoch": 1.7113108373791277,
	"grad_norm": 1.34375,
	"learning_rate": 5.465526216354471e-05,
	"loss": 0.5819,
	"step": 2665
	},
	{
	"epoch": 1.7145207238293945,
	"grad_norm": 1.203125,
	"learning_rate": 5.453105903791942e-05,
	"loss": 0.5709,
	"step": 2670
	},
	{
	"epoch": 1.7177306102796615,
	"grad_norm": 1.234375,
	"learning_rate": 5.44069473979684e-05,
	"loss": 0.5951,
	"step": 2675
	},
	{
	"epoch": 1.7209404967299282,
	"grad_norm": 1.2265625,
	"learning_rate": 5.428292866852808e-05,
	"loss": 0.5705,
	"step": 2680
	},
	{
	"epoch": 1.724150383180195,
	"grad_norm": 1.265625,
	"learning_rate": 5.4159004273368166e-05,
	"loss": 0.5787,
	"step": 2685
	},
	{
	"epoch": 1.727360269630462,
	"grad_norm": 1.2578125,
	"learning_rate": 5.4035175635175464e-05,
	"loss": 0.5832,
	"step": 2690
	},
	{
	"epoch": 1.7305701560807285,
	"grad_norm": 1.3046875,
	"learning_rate": 5.3911444175537394e-05,
	"loss": 0.5888,
	"step": 2695
	},
	{
	"epoch": 1.7337800425309955,
	"grad_norm": 1.3046875,
	"learning_rate": 5.3787811314925776e-05,
	"loss": 0.5695,
	"step": 2700
	},
	{
	"epoch": 1.7369899289812623,
	"grad_norm": 1.21875,
	"learning_rate": 5.3664278472680496e-05,
	"loss": 0.569,
	"step": 2705
	},
	{
	"epoch": 1.740199815431529,
	"grad_norm": 1.234375,
	"learning_rate": 5.3540847066993173e-05,
	"loss": 0.5853,
	"step": 2710
	},
	{
	"epoch": 1.743409701881796,
	"grad_norm": 1.25,
	"learning_rate": 5.341751851489091e-05,
	"loss": 0.589,
	"step": 2715
	},
	{
	"epoch": 1.7466195883320628,
	"grad_norm": 1.203125,
	"learning_rate": 5.329429423222003e-05,
	"loss": 0.5679,
	"step": 2720
	},
	{
	"epoch": 1.7498294747823295,
	"grad_norm": 1.2890625,
	"learning_rate": 5.3171175633629835e-05,
	"loss": 0.5823,
	"step": 2725
	},
	{
	"epoch": 1.7530393612325965,
	"grad_norm": 1.2265625,
	"learning_rate": 5.3048164132556285e-05,
	"loss": 0.5561,
	"step": 2730
	},
	{
	"epoch": 1.756249247682863,
	"grad_norm": 1.265625,
	"learning_rate": 5.292526114120589e-05,
	"loss": 0.5701,
	"step": 2735
	},
	{
	"epoch": 1.75945913413313,
	"grad_norm": 1.1953125,
	"learning_rate": 5.28024680705394e-05,
	"loss": 0.5779,
	"step": 2740
	},
	{
	"epoch": 1.762669020583397,
	"grad_norm": 1.2421875,
	"learning_rate": 5.267978633025568e-05,
	"loss": 0.5607,
	"step": 2745
	},
	{
	"epoch": 1.7658789070336636,
	"grad_norm": 1.171875,
	"learning_rate": 5.255721732877546e-05,
	"loss": 0.5862,
	"step": 2750
	},
	{
	"epoch": 1.7690887934839306,
	"grad_norm": 1.296875,
	"learning_rate": 5.243476247322521e-05,
	"loss": 0.5764,
	"step": 2755
	},
	{
	"epoch": 1.7722986799341973,
	"grad_norm": 1.296875,
	"learning_rate": 5.2312423169420955e-05,
	"loss": 0.5814,
	"step": 2760
	},
	{
	"epoch": 1.775508566384464,
	"grad_norm": 1.2890625,
	"learning_rate": 5.219020082185219e-05,
	"loss": 0.5808,
	"step": 2765
	},
	{
	"epoch": 1.778718452834731,
	"grad_norm": 1.2265625,
	"learning_rate": 5.206809683366569e-05,
	"loss": 0.58,
	"step": 2770
	},
	{
	"epoch": 1.7819283392849978,
	"grad_norm": 1.2265625,
	"learning_rate": 5.1946112606649435e-05,
	"loss": 0.5723,
	"step": 2775
	},
	{
	"epoch": 1.7851382257352646,
	"grad_norm": 1.2265625,
	"learning_rate": 5.182424954121652e-05,
	"loss": 0.5789,
	"step": 2780
	},
	{
	"epoch": 1.7883481121855316,
	"grad_norm": 1.2890625,
	"learning_rate": 5.170250903638909e-05,
	"loss": 0.5726,
	"step": 2785
	},
	{
	"epoch": 1.7915579986357981,
	"grad_norm": 1.1875,
	"learning_rate": 5.158089248978221e-05,
	"loss": 0.5718,
	"step": 2790
	},
	{
	"epoch": 1.794767885086065,
	"grad_norm": 1.28125,
	"learning_rate": 5.1459401297587916e-05,
	"loss": 0.5845,
	"step": 2795
	},
	{
	"epoch": 1.7979777715363319,
	"grad_norm": 1.203125,
	"learning_rate": 5.1338036854559113e-05,
	"loss": 0.563,
	"step": 2800
	},
	{
	"epoch": 1.8011876579865986,
	"grad_norm": 1.2421875,
	"learning_rate": 5.1216800553993606e-05,
	"loss": 0.5841,
	"step": 2805
	},
	{
	"epoch": 1.8043975444368656,
	"grad_norm": 1.2734375,
	"learning_rate": 5.109569378771808e-05,
	"loss": 0.5648,
	"step": 2810
	},
	{
	"epoch": 1.8076074308871324,
	"grad_norm": 1.2421875,
	"learning_rate": 5.097471794607214e-05,
	"loss": 0.5768,
	"step": 2815
	},
	{
	"epoch": 1.8108173173373991,
	"grad_norm": 1.2421875,
	"learning_rate": 5.0853874417892324e-05,
	"loss": 0.5596,
	"step": 2820
	},
	{
	"epoch": 1.8140272037876661,
	"grad_norm": 1.3671875,
	"learning_rate": 5.07331645904962e-05,
	"loss": 0.5873,
	"step": 2825
	},
	{
	"epoch": 1.8172370902379327,
	"grad_norm": 1.3125,
	"learning_rate": 5.061258984966636e-05,
	"loss": 0.5807,
	"step": 2830
	},
	{
	"epoch": 1.8204469766881997,
	"grad_norm": 1.3359375,
	"learning_rate": 5.049215157963464e-05,
	"loss": 0.5814,
	"step": 2835
	},
	{
	"epoch": 1.8236568631384664,
	"grad_norm": 1.4453125,
	"learning_rate": 5.03718511630661e-05,
	"loss": 0.5727,
	"step": 2840
	},
	{
	"epoch": 1.8268667495887332,
	"grad_norm": 1.2890625,
	"learning_rate": 5.025168998104322e-05,
	"loss": 0.5731,
	"step": 2845
	},
	{
	"epoch": 1.8300766360390002,
	"grad_norm": 1.25,
	"learning_rate": 5.013166941304999e-05,
	"loss": 0.5664,
	"step": 2850
	},
	{
	"epoch": 1.833286522489267,
	"grad_norm": 1.3046875,
	"learning_rate": 5.0011790836956197e-05,
	"loss": 0.5812,
	"step": 2855
	},
	{
	"epoch": 1.8364964089395337,
	"grad_norm": 1.21875,
	"learning_rate": 4.989205562900144e-05,
	"loss": 0.5715,
	"step": 2860
	},
	{
	"epoch": 1.8397062953898007,
	"grad_norm": 1.2265625,
	"learning_rate": 4.9772465163779474e-05,
	"loss": 0.5785,
	"step": 2865
	},
	{
	"epoch": 1.8429161818400674,
	"grad_norm": 1.1796875,
	"learning_rate": 4.9653020814222315e-05,
	"loss": 0.5813,
	"step": 2870
	},
	{
	"epoch": 1.8461260682903342,
	"grad_norm": 1.2265625,
	"learning_rate": 4.9533723951584554e-05,
	"loss": 0.59,
	"step": 2875
	},
	{
	"epoch": 1.8493359547406012,
	"grad_norm": 1.21875,
	"learning_rate": 4.94145759454276e-05,
	"loss": 0.565,
	"step": 2880
	},
	{
	"epoch": 1.8525458411908677,
	"grad_norm": 1.3046875,
	"learning_rate": 4.929557816360391e-05,
	"loss": 0.5839,
	"step": 2885
	},
	{
	"epoch": 1.8557557276411347,
	"grad_norm": 1.234375,
	"learning_rate": 4.9176731972241376e-05,
	"loss": 0.5755,
	"step": 2890
	},
	{
	"epoch": 1.8589656140914015,
	"grad_norm": 1.3125,
	"learning_rate": 4.905803873572755e-05,
	"loss": 0.571,
	"step": 2895
	},
	{
	"epoch": 1.8621755005416682,
	"grad_norm": 1.203125,
	"learning_rate": 4.8939499816694035e-05,
	"loss": 0.572,
	"step": 2900
	},
	{
	"epoch": 1.8653853869919352,
	"grad_norm": 1.234375,
	"learning_rate": 4.882111657600081e-05,
	"loss": 0.5559,
	"step": 2905
	},
	{
	"epoch": 1.868595273442202,
	"grad_norm": 1.234375,
	"learning_rate": 4.8702890372720664e-05,
	"loss": 0.5792,
	"step": 2910
	},
	{
	"epoch": 1.8718051598924688,
	"grad_norm": 1.2265625,
	"learning_rate": 4.85848225641235e-05,
	"loss": 0.5611,
	"step": 2915
	},
	{
	"epoch": 1.8750150463427357,
	"grad_norm": 1.2421875,
	"learning_rate": 4.8466914505660834e-05,
	"loss": 0.5663,
	"step": 2920
	},
	{
	"epoch": 1.8782249327930023,
	"grad_norm": 1.3828125,
	"learning_rate": 4.834916755095022e-05,
	"loss": 0.5914,
	"step": 2925
	},
	{
	"epoch": 1.8814348192432693,
	"grad_norm": 1.203125,
	"learning_rate": 4.823158305175967e-05,
	"loss": 0.5712,
	"step": 2930
	},
	{
	"epoch": 1.884644705693536,
	"grad_norm": 1.265625,
	"learning_rate": 4.811416235799216e-05,
	"loss": 0.5957,
	"step": 2935
	},
	{
	"epoch": 1.8878545921438028,
	"grad_norm": 1.375,
	"learning_rate": 4.7996906817670155e-05,
	"loss": 0.5872,
	"step": 2940
	},
	{
	"epoch": 1.8910644785940698,
	"grad_norm": 1.34375,
	"learning_rate": 4.78798177769201e-05,
	"loss": 0.5604,
	"step": 2945
	},
	{
	"epoch": 1.8942743650443365,
	"grad_norm": 1.359375,
	"learning_rate": 4.7762896579956966e-05,
	"loss": 0.556,
	"step": 2950
	},
	{
	"epoch": 1.8974842514946033,
	"grad_norm": 1.2734375,
	"learning_rate": 4.764614456906886e-05,
	"loss": 0.5577,
	"step": 2955
	},
	{
	"epoch": 1.9006941379448703,
	"grad_norm": 1.1484375,
	"learning_rate": 4.752956308460155e-05,
	"loss": 0.584,
	"step": 2960
	},
	{
	"epoch": 1.903904024395137,
	"grad_norm": 1.296875,
	"learning_rate": 4.741315346494314e-05,
	"loss": 0.5625,
	"step": 2965
	},
	{
	"epoch": 1.9071139108454038,
	"grad_norm": 1.2734375,
	"learning_rate": 4.729691704650867e-05,
	"loss": 0.5684,
	"step": 2970
	},
	{
	"epoch": 1.9103237972956708,
	"grad_norm": 1.3359375,
	"learning_rate": 4.718085516372478e-05,
	"loss": 0.5851,
	"step": 2975
	},
	{
	"epoch": 1.9135336837459374,
	"grad_norm": 1.1875,
	"learning_rate": 4.70649691490144e-05,
	"loss": 0.5637,
	"step": 2980
	},
	{
	"epoch": 1.9167435701962043,
	"grad_norm": 1.296875,
	"learning_rate": 4.694926033278142e-05,
	"loss": 0.5792,
	"step": 2985
	},
	{
	"epoch": 1.919953456646471,
	"grad_norm": 1.203125,
	"learning_rate": 4.683373004339547e-05,
	"loss": 0.5406,
	"step": 2990
	},
	{
	"epoch": 1.9231633430967379,
	"grad_norm": 1.34375,
	"learning_rate": 4.6718379607176634e-05,
	"loss": 0.5777,
	"step": 2995
	},
	{
	"epoch": 1.9263732295470049,
	"grad_norm": 1.25,
	"learning_rate": 4.6603210348380235e-05,
	"loss": 0.5742,
	"step": 3000
	},
	{
	"epoch": 1.9263732295470049,
	"eval_loss": 0.48648878931999207,
	"eval_runtime": 2.4037,
	"eval_samples_per_second": 83.204,
	"eval_steps_per_second": 83.204,
	"step": 3000
	},
	{
	"epoch": 1.9295831159972716,
	"grad_norm": 1.2265625,
	"learning_rate": 4.64882235891816e-05,
	"loss": 0.5662,
	"step": 3005
	},
	{
	"epoch": 1.9327930024475384,
	"grad_norm": 1.2890625,
	"learning_rate": 4.637342064966095e-05,
	"loss": 0.5972,
	"step": 3010
	},
	{
	"epoch": 1.9360028888978054,
	"grad_norm": 1.2265625,
	"learning_rate": 4.625880284778818e-05,
	"loss": 0.5682,
	"step": 3015
	},
	{
	"epoch": 1.939212775348072,
	"grad_norm": 1.2578125,
	"learning_rate": 4.614437149940776e-05,
	"loss": 0.5703,
	"step": 3020
	},
	{
	"epoch": 1.942422661798339,
	"grad_norm": 1.3203125,
	"learning_rate": 4.603012791822362e-05,
	"loss": 0.5611,
	"step": 3025
	},
	{
	"epoch": 1.9456325482486057,
	"grad_norm": 1.21875,
	"learning_rate": 4.591607341578407e-05,
	"loss": 0.5471,
	"step": 3030
	},
	{
	"epoch": 1.9488424346988724,
	"grad_norm": 1.1640625,
	"learning_rate": 4.580220930146675e-05,
	"loss": 0.5398,
	"step": 3035
	},
	{
	"epoch": 1.9520523211491394,
	"grad_norm": 1.3203125,
	"learning_rate": 4.568853688246357e-05,
	"loss": 0.5864,
	"step": 3040
	},
	{
	"epoch": 1.9552622075994062,
	"grad_norm": 1.234375,
	"learning_rate": 4.557505746376576e-05,
	"loss": 0.5662,
	"step": 3045
	},
	{
	"epoch": 1.958472094049673,
	"grad_norm": 1.25,
	"learning_rate": 4.546177234814881e-05,
	"loss": 0.5745,
	"step": 3050
	},
	{
	"epoch": 1.96168198049994,
	"grad_norm": 1.1875,
	"learning_rate": 4.53486828361576e-05,
	"loss": 0.5486,
	"step": 3055
	},
	{
	"epoch": 1.9648918669502067,
	"grad_norm": 1.2265625,
	"learning_rate": 4.523579022609139e-05,
	"loss": 0.5703,
	"step": 3060
	},
	{
	"epoch": 1.9681017534004734,
	"grad_norm": 1.3125,
	"learning_rate": 4.512309581398896e-05,
	"loss": 0.5627,
	"step": 3065
	},
	{
	"epoch": 1.9713116398507404,
	"grad_norm": 1.296875,
	"learning_rate": 4.5010600893613714e-05,
	"loss": 0.5839,
	"step": 3070
	},
	{
	"epoch": 1.974521526301007,
	"grad_norm": 1.2421875,
	"learning_rate": 4.489830675643888e-05,
	"loss": 0.5638,
	"step": 3075
	},
	{
	"epoch": 1.977731412751274,
	"grad_norm": 1.2578125,
	"learning_rate": 4.478621469163259e-05,
	"loss": 0.5709,
	"step": 3080
	},
	{
	"epoch": 1.9809412992015407,
	"grad_norm": 1.2421875,
	"learning_rate": 4.4674325986043145e-05,
	"loss": 0.558,
	"step": 3085
	},
	{
	"epoch": 1.9841511856518075,
	"grad_norm": 1.1953125,
	"learning_rate": 4.456264192418422e-05,
	"loss": 0.5639,
	"step": 3090
	},
	{
	"epoch": 1.9873610721020745,
	"grad_norm": 1.25,
	"learning_rate": 4.445116378822014e-05,
	"loss": 0.5742,
	"step": 3095
	},
	{
	"epoch": 1.9905709585523412,
	"grad_norm": 1.25,
	"learning_rate": 4.433989285795112e-05,
	"loss": 0.5653,
	"step": 3100
	},
	{
	"epoch": 1.993780845002608,
	"grad_norm": 1.234375,
	"learning_rate": 4.4228830410798594e-05,
	"loss": 0.581,
	"step": 3105
	},
	{
	"epoch": 1.996990731452875,
	"grad_norm": 1.1640625,
	"learning_rate": 4.411797772179059e-05,
	"loss": 0.5658,
	"step": 3110
	},
	{
	"epoch": 1.9995586406130883,
	"eval_loss": 0.48290687799453735,
	"eval_runtime": 2.4097,
	"eval_samples_per_second": 82.996,
	"eval_steps_per_second": 82.996,
	"step": 3114
	},
	{
	"epoch": 2.000641977290053,
	"grad_norm": 3.296875,
	"learning_rate": 4.4007336063547e-05,
	"loss": 0.6695,
	"step": 3115
	},
	{
	"epoch": 2.00385186374032,
	"grad_norm": 1.1796875,
	"learning_rate": 4.389690670626507e-05,
	"loss": 0.5518,
	"step": 3120
	},
	{
	"epoch": 2.007061750190587,
	"grad_norm": 1.25,
	"learning_rate": 4.378669091770474e-05,
	"loss": 0.5527,
	"step": 3125
	},
	{
	"epoch": 2.0102716366408537,
	"grad_norm": 1.34375,
	"learning_rate": 4.367668996317413e-05,
	"loss": 0.5517,
	"step": 3130
	},
	{
	"epoch": 2.0134815230911207,
	"grad_norm": 1.3046875,
	"learning_rate": 4.3566905105515035e-05,
	"loss": 0.5451,
	"step": 3135
	},
	{
	"epoch": 2.0166914095413873,
	"grad_norm": 1.25,
	"learning_rate": 4.345733760508832e-05,
	"loss": 0.5342,
	"step": 3140
	},
	{
	"epoch": 2.0199012959916542,
	"grad_norm": 1.21875,
	"learning_rate": 4.334798871975963e-05,
	"loss": 0.5445,
	"step": 3145
	},
	{
	"epoch": 2.0231111824419212,
	"grad_norm": 1.15625,
	"learning_rate": 4.3238859704884784e-05,
	"loss": 0.5442,
	"step": 3150
	},
	{
	"epoch": 2.0263210688921878,
	"grad_norm": 1.203125,
	"learning_rate": 4.312995181329543e-05,
	"loss": 0.5367,
	"step": 3155
	},
	{
	"epoch": 2.0295309553424548,
	"grad_norm": 1.2265625,
	"learning_rate": 4.3021266295284665e-05,
	"loss": 0.5466,
	"step": 3160
	},
	{
	"epoch": 2.0327408417927217,
	"grad_norm": 1.1953125,
	"learning_rate": 4.291280439859269e-05,
	"loss": 0.5709,
	"step": 3165
	},
	{
	"epoch": 2.0359507282429883,
	"grad_norm": 1.2421875,
	"learning_rate": 4.280456736839245e-05,
	"loss": 0.5409,
	"step": 3170
	},
	{
	"epoch": 2.0391606146932553,
	"grad_norm": 1.2265625,
	"learning_rate": 4.269655644727536e-05,
	"loss": 0.5526,
	"step": 3175
	},
	{
	"epoch": 2.0423705011435223,
	"grad_norm": 1.2578125,
	"learning_rate": 4.258877287523707e-05,
	"loss": 0.539,
	"step": 3180
	},
	{
	"epoch": 2.045580387593789,
	"grad_norm": 1.1796875,
	"learning_rate": 4.2481217889663156e-05,
	"loss": 0.5503,
	"step": 3185
	},
	{
	"epoch": 2.048790274044056,
	"grad_norm": 1.1875,
	"learning_rate": 4.237389272531499e-05,
	"loss": 0.5537,
	"step": 3190
	},
	{
	"epoch": 2.0520001604943223,
	"grad_norm": 1.2578125,
	"learning_rate": 4.2266798614315505e-05,
	"loss": 0.544,
	"step": 3195
	},
	{
	"epoch": 2.0552100469445893,
	"grad_norm": 1.3671875,
	"learning_rate": 4.2159936786135115e-05,
	"loss": 0.5358,
	"step": 3200
	},
	{
	"epoch": 2.0584199333948563,
	"grad_norm": 1.2578125,
	"learning_rate": 4.2053308467577516e-05,
	"loss": 0.5185,
	"step": 3205
	},
	{
	"epoch": 2.061629819845123,
	"grad_norm": 1.2109375,
	"learning_rate": 4.1946914882765684e-05,
	"loss": 0.5666,
	"step": 3210
	},
	{
	"epoch": 2.06483970629539,
	"grad_norm": 1.1953125,
	"learning_rate": 4.184075725312776e-05,
	"loss": 0.5325,
	"step": 3215
	},
	{
	"epoch": 2.068049592745657,
	"grad_norm": 1.25,
	"learning_rate": 4.173483679738309e-05,
	"loss": 0.5484,
	"step": 3220
	},
	{
	"epoch": 2.0712594791959233,
	"grad_norm": 1.2890625,
	"learning_rate": 4.162915473152816e-05,
	"loss": 0.5483,
	"step": 3225
	},
	{
	"epoch": 2.0744693656461903,
	"grad_norm": 1.28125,
	"learning_rate": 4.152371226882268e-05,
	"loss": 0.5411,
	"step": 3230
	},
	{
	"epoch": 2.077679252096457,
	"grad_norm": 1.2578125,
	"learning_rate": 4.141851061977565e-05,
	"loss": 0.5503,
	"step": 3235
	},
	{
	"epoch": 2.080889138546724,
	"grad_norm": 1.140625,
	"learning_rate": 4.131355099213149e-05,
	"loss": 0.552,
	"step": 3240
	},
	{
	"epoch": 2.084099024996991,
	"grad_norm": 1.203125,
	"learning_rate": 4.120883459085611e-05,
	"loss": 0.5297,
	"step": 3245
	},
	{
	"epoch": 2.0873089114472574,
	"grad_norm": 1.2421875,
	"learning_rate": 4.110436261812313e-05,
	"loss": 0.5324,
	"step": 3250
	},
	{
	"epoch": 2.0905187978975244,
	"grad_norm": 1.1484375,
	"learning_rate": 4.100013627330006e-05,
	"loss": 0.5355,
	"step": 3255
	},
	{
	"epoch": 2.0937286843477914,
	"grad_norm": 1.234375,
	"learning_rate": 4.089615675293452e-05,
	"loss": 0.5508,
	"step": 3260
	},
	{
	"epoch": 2.096938570798058,
	"grad_norm": 1.25,
	"learning_rate": 4.0792425250740544e-05,
	"loss": 0.5185,
	"step": 3265
	},
	{
	"epoch": 2.100148457248325,
	"grad_norm": 1.2890625,
	"learning_rate": 4.0688942957584825e-05,
	"loss": 0.5783,
	"step": 3270
	},
	{
	"epoch": 2.103358343698592,
	"grad_norm": 1.2578125,
	"learning_rate": 4.058571106147307e-05,
	"loss": 0.5403,
	"step": 3275
	},
	{
	"epoch": 2.1065682301488584,
	"grad_norm": 1.3359375,
	"learning_rate": 4.048273074753637e-05,
	"loss": 0.5358,
	"step": 3280
	},
	{
	"epoch": 2.1097781165991254,
	"grad_norm": 1.296875,
	"learning_rate": 4.038000319801756e-05,
	"loss": 0.5203,
	"step": 3285
	},
	{
	"epoch": 2.112988003049392,
	"grad_norm": 1.234375,
	"learning_rate": 4.0277529592257676e-05,
	"loss": 0.5501,
	"step": 3290
	},
	{
	"epoch": 2.116197889499659,
	"grad_norm": 1.234375,
	"learning_rate": 4.017531110668244e-05,
	"loss": 0.5677,
	"step": 3295
	},
	{
	"epoch": 2.119407775949926,
	"grad_norm": 1.2265625,
	"learning_rate": 4.0073348914788684e-05,
	"loss": 0.536,
	"step": 3300
	},
	{
	"epoch": 2.1226176624001925,
	"grad_norm": 1.265625,
	"learning_rate": 3.997164418713093e-05,
	"loss": 0.553,
	"step": 3305
	},
	{
	"epoch": 2.1258275488504594,
	"grad_norm": 1.3515625,
	"learning_rate": 3.987019809130794e-05,
	"loss": 0.5614,
	"step": 3310
	},
	{
	"epoch": 2.1290374353007264,
	"grad_norm": 1.25,
	"learning_rate": 3.9769011791949305e-05,
	"loss": 0.5337,
	"step": 3315
	},
	{
	"epoch": 2.132247321750993,
	"grad_norm": 1.1640625,
	"learning_rate": 3.9668086450702086e-05,
	"loss": 0.5257,
	"step": 3320
	},
	{
	"epoch": 2.13545720820126,
	"grad_norm": 1.2109375,
	"learning_rate": 3.956742322621747e-05,
	"loss": 0.5379,
	"step": 3325
	},
	{
	"epoch": 2.1386670946515265,
	"grad_norm": 1.2578125,
	"learning_rate": 3.946702327413746e-05,
	"loss": 0.5356,
	"step": 3330
	},
	{
	"epoch": 2.1418769811017935,
	"grad_norm": 1.3203125,
	"learning_rate": 3.936688774708163e-05,
	"loss": 0.5343,
	"step": 3335
	},
	{
	"epoch": 2.1450868675520605,
	"grad_norm": 1.265625,
	"learning_rate": 3.926701779463389e-05,
	"loss": 0.5452,
	"step": 3340
	},
	{
	"epoch": 2.148296754002327,
	"grad_norm": 1.171875,
	"learning_rate": 3.916741456332926e-05,
	"loss": 0.5443,
	"step": 3345
	},
	{
	"epoch": 2.151506640452594,
	"grad_norm": 1.28125,
	"learning_rate": 3.906807919664073e-05,
	"loss": 0.5368,
	"step": 3350
	},
	{
	"epoch": 2.154716526902861,
	"grad_norm": 1.1953125,
	"learning_rate": 3.8969012834966135e-05,
	"loss": 0.5436,
	"step": 3355
	},
	{
	"epoch": 2.1579264133531275,
	"grad_norm": 1.21875,
	"learning_rate": 3.8870216615615045e-05,
	"loss": 0.5238,
	"step": 3360
	},
	{
	"epoch": 2.1611362998033945,
	"grad_norm": 1.2734375,
	"learning_rate": 3.877169167279575e-05,
	"loss": 0.5483,
	"step": 3365
	},
	{
	"epoch": 2.1643461862536615,
	"grad_norm": 1.296875,
	"learning_rate": 3.867343913760218e-05,
	"loss": 0.5313,
	"step": 3370
	},
	{
	"epoch": 2.167556072703928,
	"grad_norm": 1.2109375,
	"learning_rate": 3.857546013800095e-05,
	"loss": 0.539,
	"step": 3375
	},
	{
	"epoch": 2.170765959154195,
	"grad_norm": 1.328125,
	"learning_rate": 3.847775579881844e-05,
	"loss": 0.5385,
	"step": 3380
	},
	{
	"epoch": 2.1739758456044616,
	"grad_norm": 1.2578125,
	"learning_rate": 3.8380327241727804e-05,
	"loss": 0.5496,
	"step": 3385
	},
	{
	"epoch": 2.1771857320547285,
	"grad_norm": 1.203125,
	"learning_rate": 3.828317558523619e-05,
	"loss": 0.545,
	"step": 3390
	},
	{
	"epoch": 2.1803956185049955,
	"grad_norm": 1.2265625,
	"learning_rate": 3.818630194467181e-05,
	"loss": 0.5343,
	"step": 3395
	},
	{
	"epoch": 2.183605504955262,
	"grad_norm": 1.3828125,
	"learning_rate": 3.8089707432171193e-05,
	"loss": 0.5325,
	"step": 3400
	},
	{
	"epoch": 2.186815391405529,
	"grad_norm": 1.28125,
	"learning_rate": 3.799339315666641e-05,
	"loss": 0.547,
	"step": 3405
	},
	{
	"epoch": 2.190025277855796,
	"grad_norm": 1.296875,
	"learning_rate": 3.789736022387231e-05,
	"loss": 0.5448,
	"step": 3410
	},
	{
	"epoch": 2.1932351643060626,
	"grad_norm": 1.2734375,
	"learning_rate": 3.780160973627386e-05,
	"loss": 0.5431,
	"step": 3415
	},
	{
	"epoch": 2.1964450507563296,
	"grad_norm": 1.21875,
	"learning_rate": 3.770614279311348e-05,
	"loss": 0.5599,
	"step": 3420
	},
	{
	"epoch": 2.1996549372065965,
	"grad_norm": 1.203125,
	"learning_rate": 3.7610960490378415e-05,
	"loss": 0.5474,
	"step": 3425
	},
	{
	"epoch": 2.202864823656863,
	"grad_norm": 1.28125,
	"learning_rate": 3.751606392078816e-05,
	"loss": 0.5688,
	"step": 3430
	},
	{
	"epoch": 2.20607471010713,
	"grad_norm": 1.2578125,
	"learning_rate": 3.74214541737819e-05,
	"loss": 0.5326,
	"step": 3435
	},
	{
	"epoch": 2.2092845965573966,
	"grad_norm": 1.2421875,
	"learning_rate": 3.732713233550606e-05,
	"loss": 0.5303,
	"step": 3440
	},
	{
	"epoch": 2.2124944830076636,
	"grad_norm": 1.2734375,
	"learning_rate": 3.723309948880176e-05,
	"loss": 0.5402,
	"step": 3445
	},
	{
	"epoch": 2.2157043694579306,
	"grad_norm": 1.265625,
	"learning_rate": 3.713935671319239e-05,
	"loss": 0.5268,
	"step": 3450
	},
	{
	"epoch": 2.218914255908197,
	"grad_norm": 1.2734375,
	"learning_rate": 3.704590508487129e-05,
	"loss": 0.5613,
	"step": 3455
	},
	{
	"epoch": 2.222124142358464,
	"grad_norm": 1.3125,
	"learning_rate": 3.695274567668933e-05,
	"loss": 0.5533,
	"step": 3460
	},
	{
	"epoch": 2.2253340288087307,
	"grad_norm": 1.2109375,
	"learning_rate": 3.6859879558142594e-05,
	"loss": 0.5403,
	"step": 3465
	},
	{
	"epoch": 2.2285439152589976,
	"grad_norm": 1.234375,
	"learning_rate": 3.6767307795360145e-05,
	"loss": 0.5304,
	"step": 3470
	},
	{
	"epoch": 2.2317538017092646,
	"grad_norm": 1.1953125,
	"learning_rate": 3.6675031451091755e-05,
	"loss": 0.5323,
	"step": 3475
	},
	{
	"epoch": 2.234963688159531,
	"grad_norm": 1.2578125,
	"learning_rate": 3.65830515846957e-05,
	"loss": 0.5299,
	"step": 3480
	},
	{
	"epoch": 2.238173574609798,
	"grad_norm": 1.1875,
	"learning_rate": 3.64913692521266e-05,
	"loss": 0.5645,
	"step": 3485
	},
	{
	"epoch": 2.241383461060065,
	"grad_norm": 1.375,
	"learning_rate": 3.6399985505923295e-05,
	"loss": 0.5453,
	"step": 3490
	},
	{
	"epoch": 2.2445933475103317,
	"grad_norm": 1.25,
	"learning_rate": 3.6308901395196825e-05,
	"loss": 0.5387,
	"step": 3495
	},
	{
	"epoch": 2.2478032339605987,
	"grad_norm": 1.21875,
	"learning_rate": 3.621811796561827e-05,
	"loss": 0.5512,
	"step": 3500
	},
	{
	"epoch": 2.2478032339605987,
	"eval_loss": 0.4768131375312805,
	"eval_runtime": 2.3764,
	"eval_samples_per_second": 84.16,
	"eval_steps_per_second": 84.16,
	"step": 3500
	},
	{
	"epoch": 2.2510131204108657,
	"grad_norm": 1.2578125,
	"learning_rate": 3.6127636259406837e-05,
	"loss": 0.555,
	"step": 3505
	},
	{
	"epoch": 2.254223006861132,
	"grad_norm": 1.2109375,
	"learning_rate": 3.6037457315317844e-05,
	"loss": 0.5454,
	"step": 3510
	},
	{
	"epoch": 2.257432893311399,
	"grad_norm": 1.25,
	"learning_rate": 3.5947582168630855e-05,
	"loss": 0.535,
	"step": 3515
	},
	{
	"epoch": 2.2606427797616657,
	"grad_norm": 1.21875,
	"learning_rate": 3.585801185113771e-05,
	"loss": 0.5461,
	"step": 3520
	},
	{
	"epoch": 2.2638526662119327,
	"grad_norm": 1.1328125,
	"learning_rate": 3.576874739113073e-05,
	"loss": 0.527,
	"step": 3525
	},
	{
	"epoch": 2.2670625526621997,
	"grad_norm": 1.34375,
	"learning_rate": 3.567978981339095e-05,
	"loss": 0.5364,
	"step": 3530
	},
	{
	"epoch": 2.2702724391124662,
	"grad_norm": 1.234375,
	"learning_rate": 3.559114013917624e-05,
	"loss": 0.5366,
	"step": 3535
	},
	{
	"epoch": 2.273482325562733,
	"grad_norm": 1.2890625,
	"learning_rate": 3.5502799386209726e-05,
	"loss": 0.5386,
	"step": 3540
	},
	{
	"epoch": 2.276692212013,
	"grad_norm": 1.125,
	"learning_rate": 3.5414768568667974e-05,
	"loss": 0.5391,
	"step": 3545
	},
	{
	"epoch": 2.2799020984632667,
	"grad_norm": 1.2109375,
	"learning_rate": 3.532704869716943e-05,
	"loss": 0.5342,
	"step": 3550
	},
	{
	"epoch": 2.2831119849135337,
	"grad_norm": 1.21875,
	"learning_rate": 3.523964077876279e-05,
	"loss": 0.5506,
	"step": 3555
	},
	{
	"epoch": 2.2863218713638007,
	"grad_norm": 1.2578125,
	"learning_rate": 3.5152545816915446e-05,
	"loss": 0.561,
	"step": 3560
	},
	{
	"epoch": 2.2895317578140673,
	"grad_norm": 1.2734375,
	"learning_rate": 3.506576481150194e-05,
	"loss": 0.5429,
	"step": 3565
	},
	{
	"epoch": 2.2927416442643342,
	"grad_norm": 1.2109375,
	"learning_rate": 3.497929875879254e-05,
	"loss": 0.5374,
	"step": 3570
	},
	{
	"epoch": 2.295951530714601,
	"grad_norm": 1.2265625,
	"learning_rate": 3.4893148651441735e-05,
	"loss": 0.5634,
	"step": 3575
	},
	{
	"epoch": 2.2991614171648678,
	"grad_norm": 1.2734375,
	"learning_rate": 3.480731547847688e-05,
	"loss": 0.5394,
	"step": 3580
	},
	{
	"epoch": 2.3023713036151348,
	"grad_norm": 1.2109375,
	"learning_rate": 3.472180022528686e-05,
	"loss": 0.5342,
	"step": 3585
	},
	{
	"epoch": 2.3055811900654013,
	"grad_norm": 1.1953125,
	"learning_rate": 3.4636603873610735e-05,
	"loss": 0.547,
	"step": 3590
	},
	{
	"epoch": 2.3087910765156683,
	"grad_norm": 1.1953125,
	"learning_rate": 3.455172740152648e-05,
	"loss": 0.5421,
	"step": 3595
	},
	{
	"epoch": 2.3120009629659353,
	"grad_norm": 1.2890625,
	"learning_rate": 3.446717178343976e-05,
	"loss": 0.5562,
	"step": 3600
	},
	{
	"epoch": 2.315210849416202,
	"grad_norm": 1.40625,
	"learning_rate": 3.438293799007276e-05,
	"loss": 0.5358,
	"step": 3605
	},
	{
	"epoch": 2.318420735866469,
	"grad_norm": 1.2578125,
	"learning_rate": 3.429902698845302e-05,
	"loss": 0.5555,
	"step": 3610
	},
	{
	"epoch": 2.321630622316736,
	"grad_norm": 1.1953125,
	"learning_rate": 3.421543974190234e-05,
	"loss": 0.5414,
	"step": 3615
	},
	{
	"epoch": 2.3248405087670023,
	"grad_norm": 1.2734375,
	"learning_rate": 3.4132177210025724e-05,
	"loss": 0.5336,
	"step": 3620
	},
	{
	"epoch": 2.3280503952172693,
	"grad_norm": 1.3359375,
	"learning_rate": 3.404924034870036e-05,
	"loss": 0.5351,
	"step": 3625
	},
	{
	"epoch": 2.331260281667536,
	"grad_norm": 1.28125,
	"learning_rate": 3.396663011006465e-05,
	"loss": 0.5523,
	"step": 3630
	},
	{
	"epoch": 2.334470168117803,
	"grad_norm": 1.203125,
	"learning_rate": 3.388434744250726e-05,
	"loss": 0.5347,
	"step": 3635
	},
	{
	"epoch": 2.33768005456807,
	"grad_norm": 1.203125,
	"learning_rate": 3.3802393290656274e-05,
	"loss": 0.5387,
	"step": 3640
	},
	{
	"epoch": 2.3408899410183364,
	"grad_norm": 1.2109375,
	"learning_rate": 3.372076859536831e-05,
	"loss": 0.5309,
	"step": 3645
	},
	{
	"epoch": 2.3440998274686033,
	"grad_norm": 1.296875,
	"learning_rate": 3.363947429371772e-05,
	"loss": 0.5531,
	"step": 3650
	},
	{
	"epoch": 2.34730971391887,
	"grad_norm": 1.2109375,
	"learning_rate": 3.355851131898585e-05,
	"loss": 0.5437,
	"step": 3655
	},
	{
	"epoch": 2.350519600369137,
	"grad_norm": 1.1953125,
	"learning_rate": 3.347788060065036e-05,
	"loss": 0.5143,
	"step": 3660
	},
	{
	"epoch": 2.353729486819404,
	"grad_norm": 1.234375,
	"learning_rate": 3.339758306437445e-05,
	"loss": 0.532,
	"step": 3665
	},
	{
	"epoch": 2.3569393732696704,
	"grad_norm": 1.234375,
	"learning_rate": 3.331761963199634e-05,
	"loss": 0.5535,
	"step": 3670
	},
	{
	"epoch": 2.3601492597199374,
	"grad_norm": 1.15625,
	"learning_rate": 3.3237991221518636e-05,
	"loss": 0.5384,
	"step": 3675
	},
	{
	"epoch": 2.3633591461702044,
	"grad_norm": 1.296875,
	"learning_rate": 3.3158698747097784e-05,
	"loss": 0.5444,
	"step": 3680
	},
	{
	"epoch": 2.366569032620471,
	"grad_norm": 1.21875,
	"learning_rate": 3.30797431190336e-05,
	"loss": 0.5392,
	"step": 3685
	},
	{
	"epoch": 2.369778919070738,
	"grad_norm": 1.2265625,
	"learning_rate": 3.300112524375881e-05,
	"loss": 0.5505,
	"step": 3690
	},
	{
	"epoch": 2.372988805521005,
	"grad_norm": 1.2578125,
	"learning_rate": 3.2922846023828645e-05,
	"loss": 0.5432,
	"step": 3695
	},
	{
	"epoch": 2.3761986919712714,
	"grad_norm": 1.265625,
	"learning_rate": 3.2844906357910476e-05,
	"loss": 0.5294,
	"step": 3700
	},
	{
	"epoch": 2.3794085784215384,
	"grad_norm": 1.2578125,
	"learning_rate": 3.2767307140773494e-05,
	"loss": 0.5619,
	"step": 3705
	},
	{
	"epoch": 2.382618464871805,
	"grad_norm": 1.1875,
	"learning_rate": 3.2690049263278455e-05,
	"loss": 0.5422,
	"step": 3710
	},
	{
	"epoch": 2.385828351322072,
	"grad_norm": 1.3203125,
	"learning_rate": 3.261313361236743e-05,
	"loss": 0.5413,
	"step": 3715
	},
	{
	"epoch": 2.389038237772339,
	"grad_norm": 1.234375,
	"learning_rate": 3.253656107105362e-05,
	"loss": 0.535,
	"step": 3720
	},
	{
	"epoch": 2.3922481242226055,
	"grad_norm": 1.1953125,
	"learning_rate": 3.246033251841126e-05,
	"loss": 0.5228,
	"step": 3725
	},
	{
	"epoch": 2.3954580106728725,
	"grad_norm": 1.21875,
	"learning_rate": 3.238444882956548e-05,
	"loss": 0.5378,
	"step": 3730
	},
	{
	"epoch": 2.3986678971231394,
	"grad_norm": 1.28125,
	"learning_rate": 3.230891087568229e-05,
	"loss": 0.5469,
	"step": 3735
	},
	{
	"epoch": 2.401877783573406,
	"grad_norm": 1.21875,
	"learning_rate": 3.2233719523958563e-05,
	"loss": 0.5509,
	"step": 3740
	},
	{
	"epoch": 2.405087670023673,
	"grad_norm": 1.2109375,
	"learning_rate": 3.2158875637612053e-05,
	"loss": 0.5212,
	"step": 3745
	},
	{
	"epoch": 2.40829755647394,
	"grad_norm": 1.1640625,
	"learning_rate": 3.208438007587156e-05,
	"loss": 0.5221,
	"step": 3750
	},
	{
	"epoch": 2.4115074429242065,
	"grad_norm": 1.2109375,
	"learning_rate": 3.201023369396699e-05,
	"loss": 0.5311,
	"step": 3755
	},
	{
	"epoch": 2.4147173293744735,
	"grad_norm": 1.15625,
	"learning_rate": 3.193643734311958e-05,
	"loss": 0.5403,
	"step": 3760
	},
	{
	"epoch": 2.41792721582474,
	"grad_norm": 1.234375,
	"learning_rate": 3.1862991870532106e-05,
	"loss": 0.548,
	"step": 3765
	},
	{
	"epoch": 2.421137102275007,
	"grad_norm": 1.2734375,
	"learning_rate": 3.1789898119379156e-05,
	"loss": 0.5466,
	"step": 3770
	},
	{
	"epoch": 2.424346988725274,
	"grad_norm": 1.2578125,
	"learning_rate": 3.171715692879748e-05,
	"loss": 0.5336,
	"step": 3775
	},
	{
	"epoch": 2.4275568751755405,
	"grad_norm": 1.1875,
	"learning_rate": 3.164476913387631e-05,
	"loss": 0.5341,
	"step": 3780
	},
	{
	"epoch": 2.4307667616258075,
	"grad_norm": 1.2578125,
	"learning_rate": 3.1572735565647815e-05,
	"loss": 0.5335,
	"step": 3785
	},
	{
	"epoch": 2.4339766480760745,
	"grad_norm": 1.1640625,
	"learning_rate": 3.1501057051077535e-05,
	"loss": 0.5309,
	"step": 3790
	},
	{
	"epoch": 2.437186534526341,
	"grad_norm": 1.328125,
	"learning_rate": 3.142973441305488e-05,
	"loss": 0.5451,
	"step": 3795
	},
	{
	"epoch": 2.440396420976608,
	"grad_norm": 1.1484375,
	"learning_rate": 3.135876847038371e-05,
	"loss": 0.5381,
	"step": 3800
	},
	{
	"epoch": 2.443606307426875,
	"grad_norm": 1.2109375,
	"learning_rate": 3.1288160037772953e-05,
	"loss": 0.5474,
	"step": 3805
	},
	{
	"epoch": 2.4468161938771416,
	"grad_norm": 1.28125,
	"learning_rate": 3.121790992582717e-05,
	"loss": 0.5424,
	"step": 3810
	},
	{
	"epoch": 2.4500260803274085,
	"grad_norm": 1.2578125,
	"learning_rate": 3.1148018941037324e-05,
	"loss": 0.5475,
	"step": 3815
	},
	{
	"epoch": 2.453235966777675,
	"grad_norm": 1.2265625,
	"learning_rate": 3.10784878857715e-05,
	"loss": 0.5341,
	"step": 3820
	},
	{
	"epoch": 2.456445853227942,
	"grad_norm": 1.203125,
	"learning_rate": 3.100931755826569e-05,
	"loss": 0.5365,
	"step": 3825
	},
	{
	"epoch": 2.459655739678209,
	"grad_norm": 1.234375,
	"learning_rate": 3.094050875261462e-05,
	"loss": 0.5628,
	"step": 3830
	},
	{
	"epoch": 2.4628656261284756,
	"grad_norm": 1.1875,
	"learning_rate": 3.087206225876266e-05,
	"loss": 0.54,
	"step": 3835
	},
	{
	"epoch": 2.4660755125787426,
	"grad_norm": 1.296875,
	"learning_rate": 3.080397886249472e-05,
	"loss": 0.5375,
	"step": 3840
	},
	{
	"epoch": 2.469285399029009,
	"grad_norm": 1.2109375,
	"learning_rate": 3.073625934542727e-05,
	"loss": 0.5427,
	"step": 3845
	},
	{
	"epoch": 2.472495285479276,
	"grad_norm": 1.3828125,
	"learning_rate": 3.0668904484999334e-05,
	"loss": 0.5511,
	"step": 3850
	},
	{
	"epoch": 2.475705171929543,
	"grad_norm": 1.2421875,
	"learning_rate": 3.060191505446357e-05,
	"loss": 0.5377,
	"step": 3855
	},
	{
	"epoch": 2.4789150583798096,
	"grad_norm": 1.2265625,
	"learning_rate": 3.0535291822877405e-05,
	"loss": 0.533,
	"step": 3860
	},
	{
	"epoch": 2.4821249448300766,
	"grad_norm": 1.1640625,
	"learning_rate": 3.0469035555094194e-05,
	"loss": 0.5372,
	"step": 3865
	},
	{
	"epoch": 2.4853348312803436,
	"grad_norm": 1.21875,
	"learning_rate": 3.040314701175445e-05,
	"loss": 0.544,
	"step": 3870
	},
	{
	"epoch": 2.48854471773061,
	"grad_norm": 1.25,
	"learning_rate": 3.0337626949277105e-05,
	"loss": 0.5307,
	"step": 3875
	},
	{
	"epoch": 2.491754604180877,
	"grad_norm": 1.2265625,
	"learning_rate": 3.0272476119850835e-05,
	"loss": 0.5482,
	"step": 3880
	},
	{
	"epoch": 2.494964490631144,
	"grad_norm": 1.3046875,
	"learning_rate": 3.020769527142541e-05,
	"loss": 0.5412,
	"step": 3885
	},
	{
	"epoch": 2.4981743770814107,
	"grad_norm": 1.2265625,
	"learning_rate": 3.0143285147703114e-05,
	"loss": 0.5554,
	"step": 3890
	},
	{
	"epoch": 2.5013842635316776,
	"grad_norm": 1.3046875,
	"learning_rate": 3.0079246488130197e-05,
	"loss": 0.5369,
	"step": 3895
	},
	{
	"epoch": 2.504594149981944,
	"grad_norm": 1.28125,
	"learning_rate": 3.0015580027888424e-05,
	"loss": 0.5504,
	"step": 3900
	},
	{
	"epoch": 2.507804036432211,
	"grad_norm": 1.2578125,
	"learning_rate": 2.9952286497886572e-05,
	"loss": 0.5287,
	"step": 3905
	},
	{
	"epoch": 2.511013922882478,
	"grad_norm": 1.234375,
	"learning_rate": 2.9889366624752118e-05,
	"loss": 0.5553,
	"step": 3910
	},
	{
	"epoch": 2.5142238093327447,
	"grad_norm": 1.2578125,
	"learning_rate": 2.9826821130822807e-05,
	"loss": 0.5343,
	"step": 3915
	},
	{
	"epoch": 2.5174336957830117,
	"grad_norm": 1.25,
	"learning_rate": 2.9764650734138434e-05,
	"loss": 0.5326,
	"step": 3920
	},
	{
	"epoch": 2.5206435822332782,
	"grad_norm": 1.234375,
	"learning_rate": 2.9702856148432573e-05,
	"loss": 0.5366,
	"step": 3925
	},
	{
	"epoch": 2.523853468683545,
	"grad_norm": 1.3671875,
	"learning_rate": 2.9641438083124372e-05,
	"loss": 0.5335,
	"step": 3930
	},
	{
	"epoch": 2.527063355133812,
	"grad_norm": 1.1484375,
	"learning_rate": 2.958039724331042e-05,
	"loss": 0.518,
	"step": 3935
	},
	{
	"epoch": 2.530273241584079,
	"grad_norm": 1.296875,
	"learning_rate": 2.9519734329756666e-05,
	"loss": 0.5379,
	"step": 3940
	},
	{
	"epoch": 2.5334831280343457,
	"grad_norm": 1.203125,
	"learning_rate": 2.9459450038890333e-05,
	"loss": 0.5287,
	"step": 3945
	},
	{
	"epoch": 2.5366930144846127,
	"grad_norm": 1.234375,
	"learning_rate": 2.9399545062791967e-05,
	"loss": 0.5245,
	"step": 3950
	},
	{
	"epoch": 2.5399029009348792,
	"grad_norm": 1.171875,
	"learning_rate": 2.9340020089187492e-05,
	"loss": 0.541,
	"step": 3955
	},
	{
	"epoch": 2.5431127873851462,
	"grad_norm": 1.25,
	"learning_rate": 2.928087580144026e-05,
	"loss": 0.5299,
	"step": 3960
	},
	{
	"epoch": 2.546322673835413,
	"grad_norm": 1.1875,
	"learning_rate": 2.9222112878543273e-05,
	"loss": 0.527,
	"step": 3965
	},
	{
	"epoch": 2.5495325602856798,
	"grad_norm": 1.234375,
	"learning_rate": 2.9163731995111333e-05,
	"loss": 0.5581,
	"step": 3970
	},
	{
	"epoch": 2.5527424467359467,
	"grad_norm": 1.2109375,
	"learning_rate": 2.9105733821373333e-05,
	"loss": 0.5499,
	"step": 3975
	},
	{
	"epoch": 2.5559523331862133,
	"grad_norm": 1.25,
	"learning_rate": 2.9048119023164555e-05,
	"loss": 0.5265,
	"step": 3980
	},
	{
	"epoch": 2.5591622196364803,
	"grad_norm": 1.1640625,
	"learning_rate": 2.8990888261919024e-05,
	"loss": 0.5433,
	"step": 3985
	},
	{
	"epoch": 2.5623721060867473,
	"grad_norm": 1.2265625,
	"learning_rate": 2.8934042194661913e-05,
	"loss": 0.5503,
	"step": 3990
	},
	{
	"epoch": 2.5655819925370142,
	"grad_norm": 1.265625,
	"learning_rate": 2.8877581474001986e-05,
	"loss": 0.5327,
	"step": 3995
	},
	{
	"epoch": 2.568791878987281,
	"grad_norm": 1.2578125,
	"learning_rate": 2.8821506748124132e-05,
	"loss": 0.5499,
	"step": 4000
	},
	{
	"epoch": 2.568791878987281,
	"eval_loss": 0.4683253765106201,
	"eval_runtime": 2.4022,
	"eval_samples_per_second": 83.257,
	"eval_steps_per_second": 83.257,
	"step": 4000
	},
	{
	"epoch": 2.5720017654375478,
	"grad_norm": 1.34375,
	"learning_rate": 2.8765818660781912e-05,
	"loss": 0.5244,
	"step": 4005
	},
	{
	"epoch": 2.5752116518878143,
	"grad_norm": 1.296875,
	"learning_rate": 2.8710517851290174e-05,
	"loss": 0.5457,
	"step": 4010
	},
	{
	"epoch": 2.5784215383380813,
	"grad_norm": 1.28125,
	"learning_rate": 2.865560495451769e-05,
	"loss": 0.539,
	"step": 4015
	},
	{
	"epoch": 2.5816314247883483,
	"grad_norm": 1.21875,
	"learning_rate": 2.8601080600879892e-05,
	"loss": 0.5469,
	"step": 4020
	},
	{
	"epoch": 2.584841311238615,
	"grad_norm": 1.265625,
	"learning_rate": 2.854694541633165e-05,
	"loss": 0.5536,
	"step": 4025
	},
	{
	"epoch": 2.588051197688882,
	"grad_norm": 1.2421875,
	"learning_rate": 2.8493200022360027e-05,
	"loss": 0.5324,
	"step": 4030
	},
	{
	"epoch": 2.5912610841391484,
	"grad_norm": 1.2890625,
	"learning_rate": 2.8439845035977214e-05,
	"loss": 0.519,
	"step": 4035
	},
	{
	"epoch": 2.5944709705894153,
	"grad_norm": 1.2734375,
	"learning_rate": 2.838688106971339e-05,
	"loss": 0.534,
	"step": 4040
	},
	{
	"epoch": 2.5976808570396823,
	"grad_norm": 1.21875,
	"learning_rate": 2.8334308731609722e-05,
	"loss": 0.5333,
	"step": 4045
	},
	{
	"epoch": 2.6008907434899493,
	"grad_norm": 1.2734375,
	"learning_rate": 2.8282128625211378e-05,
	"loss": 0.5319,
	"step": 4050
	},
	{
	"epoch": 2.604100629940216,
	"grad_norm": 1.203125,
	"learning_rate": 2.8230341349560603e-05,
	"loss": 0.5411,
	"step": 4055
	},
	{
	"epoch": 2.607310516390483,
	"grad_norm": 1.25,
	"learning_rate": 2.8178947499189812e-05,
	"loss": 0.5493,
	"step": 4060
	},
	{
	"epoch": 2.6105204028407494,
	"grad_norm": 1.2109375,
	"learning_rate": 2.812794766411481e-05,
	"loss": 0.5491,
	"step": 4065
	},
	{
	"epoch": 2.6137302892910164,
	"grad_norm": 1.2109375,
	"learning_rate": 2.8077342429827992e-05,
	"loss": 0.5423,
	"step": 4070
	},
	{
	"epoch": 2.6169401757412833,
	"grad_norm": 1.2421875,
	"learning_rate": 2.802713237729162e-05,
	"loss": 0.5493,
	"step": 4075
	},
	{
	"epoch": 2.62015006219155,
	"grad_norm": 1.1953125,
	"learning_rate": 2.797731808293116e-05,
	"loss": 0.5503,
	"step": 4080
	},
	{
	"epoch": 2.623359948641817,
	"grad_norm": 1.203125,
	"learning_rate": 2.7927900118628652e-05,
	"loss": 0.5297,
	"step": 4085
	},
	{
	"epoch": 2.6265698350920834,
	"grad_norm": 1.28125,
	"learning_rate": 2.787887905171619e-05,
	"loss": 0.5406,
	"step": 4090
	},
	{
	"epoch": 2.6297797215423504,
	"grad_norm": 1.2109375,
	"learning_rate": 2.7830255444969332e-05,
	"loss": 0.531,
	"step": 4095
	},
	{
	"epoch": 2.6329896079926174,
	"grad_norm": 1.40625,
	"learning_rate": 2.7782029856600715e-05,
	"loss": 0.5403,
	"step": 4100
	},
	{
	"epoch": 2.636199494442884,
	"grad_norm": 1.2578125,
	"learning_rate": 2.77342028402536e-05,
	"loss": 0.5568,
	"step": 4105
	},
	{
	"epoch": 2.639409380893151,
	"grad_norm": 1.1796875,
	"learning_rate": 2.7686774944995526e-05,
	"loss": 0.5364,
	"step": 4110
	},
	{
	"epoch": 2.6426192673434175,
	"grad_norm": 1.25,
	"learning_rate": 2.763974671531201e-05,
	"loss": 0.5501,
	"step": 4115
	},
	{
	"epoch": 2.6458291537936844,
	"grad_norm": 1.3671875,
	"learning_rate": 2.759311869110032e-05,
	"loss": 0.5469,
	"step": 4120
	},
	{
	"epoch": 2.6490390402439514,
	"grad_norm": 1.1328125,
	"learning_rate": 2.7546891407663216e-05,
	"loss": 0.5401,
	"step": 4125
	},
	{
	"epoch": 2.6522489266942184,
	"grad_norm": 1.2890625,
	"learning_rate": 2.7501065395702864e-05,
	"loss": 0.5465,
	"step": 4130
	},
	{
	"epoch": 2.655458813144485,
	"grad_norm": 1.203125,
	"learning_rate": 2.745564118131472e-05,
	"loss": 0.5332,
	"step": 4135
	},
	{
	"epoch": 2.658668699594752,
	"grad_norm": 1.2578125,
	"learning_rate": 2.741061928598149e-05,
	"loss": 0.5376,
	"step": 4140
	},
	{
	"epoch": 2.6618785860450185,
	"grad_norm": 1.25,
	"learning_rate": 2.736600022656714e-05,
	"loss": 0.5382,
	"step": 4145
	},
	{
	"epoch": 2.6650884724952855,
	"grad_norm": 1.203125,
	"learning_rate": 2.7321784515310965e-05,
	"loss": 0.5494,
	"step": 4150
	},
	{
	"epoch": 2.6682983589455525,
	"grad_norm": 1.2421875,
	"learning_rate": 2.7277972659821727e-05,
	"loss": 0.5511,
	"step": 4155
	},
	{
	"epoch": 2.671508245395819,
	"grad_norm": 1.1875,
	"learning_rate": 2.723456516307178e-05,
	"loss": 0.552,
	"step": 4160
	},
	{
	"epoch": 2.674718131846086,
	"grad_norm": 1.2109375,
	"learning_rate": 2.7191562523391363e-05,
	"loss": 0.5295,
	"step": 4165
	},
	{
	"epoch": 2.6779280182963525,
	"grad_norm": 1.203125,
	"learning_rate": 2.7148965234462807e-05,
	"loss": 0.5491,
	"step": 4170
	},
	{
	"epoch": 2.6811379047466195,
	"grad_norm": 1.203125,
	"learning_rate": 2.7106773785314937e-05,
	"loss": 0.5218,
	"step": 4175
	},
	{
	"epoch": 2.6843477911968865,
	"grad_norm": 1.1953125,
	"learning_rate": 2.70649886603174e-05,
	"loss": 0.5303,
	"step": 4180
	},
	{
	"epoch": 2.6875576776471535,
	"grad_norm": 1.25,
	"learning_rate": 2.7023610339175127e-05,
	"loss": 0.5344,
	"step": 4185
	},
	{
	"epoch": 2.69076756409742,
	"grad_norm": 1.1640625,
	"learning_rate": 2.698263929692285e-05,
	"loss": 0.5482,
	"step": 4190
	},
	{
	"epoch": 2.693977450547687,
	"grad_norm": 1.1796875,
	"learning_rate": 2.6942076003919596e-05,
	"loss": 0.5198,
	"step": 4195
	},
	{
	"epoch": 2.6971873369979535,
	"grad_norm": 1.1796875,
	"learning_rate": 2.6901920925843338e-05,
	"loss": 0.5366,
	"step": 4200
	},
	{
	"epoch": 2.7003972234482205,
	"grad_norm": 1.1875,
	"learning_rate": 2.6862174523685618e-05,
	"loss": 0.5151,
	"step": 4205
	},
	{
	"epoch": 2.7036071098984875,
	"grad_norm": 1.2734375,
	"learning_rate": 2.6822837253746258e-05,
	"loss": 0.5174,
	"step": 4210
	},
	{
	"epoch": 2.706816996348754,
	"grad_norm": 1.2578125,
	"learning_rate": 2.6783909567628153e-05,
	"loss": 0.5391,
	"step": 4215
	},
	{
	"epoch": 2.710026882799021,
	"grad_norm": 1.28125,
	"learning_rate": 2.674539191223202e-05,
	"loss": 0.5445,
	"step": 4220
	},
	{
	"epoch": 2.7132367692492876,
	"grad_norm": 1.2578125,
	"learning_rate": 2.6707284729751346e-05,
	"loss": 0.5197,
	"step": 4225
	},
	{
	"epoch": 2.7164466556995546,
	"grad_norm": 1.2265625,
	"learning_rate": 2.666958845766726e-05,
	"loss": 0.5375,
	"step": 4230
	},
	{
	"epoch": 2.7196565421498216,
	"grad_norm": 1.140625,
	"learning_rate": 2.663230352874352e-05,
	"loss": 0.5285,
	"step": 4235
	},
	{
	"epoch": 2.7228664286000885,
	"grad_norm": 1.2421875,
	"learning_rate": 2.659543037102154e-05,
	"loss": 0.5429,
	"step": 4240
	},
	{
	"epoch": 2.726076315050355,
	"grad_norm": 1.1953125,
	"learning_rate": 2.6558969407815525e-05,
	"loss": 0.5288,
	"step": 4245
	},
	{
	"epoch": 2.729286201500622,
	"grad_norm": 1.265625,
	"learning_rate": 2.652292105770753e-05,
	"loss": 0.527,
	"step": 4250
	},
	{
	"epoch": 2.7324960879508886,
	"grad_norm": 1.1484375,
	"learning_rate": 2.648728573454271e-05,
	"loss": 0.5219,
	"step": 4255
	},
	{
	"epoch": 2.7357059744011556,
	"grad_norm": 1.2890625,
	"learning_rate": 2.6452063847424564e-05,
	"loss": 0.5412,
	"step": 4260
	},
	{
	"epoch": 2.7389158608514226,
	"grad_norm": 1.2265625,
	"learning_rate": 2.6417255800710215e-05,
	"loss": 0.5495,
	"step": 4265
	},
	{
	"epoch": 2.742125747301689,
	"grad_norm": 1.3671875,
	"learning_rate": 2.6382861994005792e-05,
	"loss": 0.5353,
	"step": 4270
	},
	{
	"epoch": 2.745335633751956,
	"grad_norm": 1.2421875,
	"learning_rate": 2.6348882822161826e-05,
	"loss": 0.5386,
	"step": 4275
	},
	{
	"epoch": 2.7485455202022226,
	"grad_norm": 1.234375,
	"learning_rate": 2.6315318675268724e-05,
	"loss": 0.55,
	"step": 4280
	},
	{
	"epoch": 2.7517554066524896,
	"grad_norm": 1.25,
	"learning_rate": 2.6282169938652306e-05,
	"loss": 0.5401,
	"step": 4285
	},
	{
	"epoch": 2.7549652931027566,
	"grad_norm": 1.15625,
	"learning_rate": 2.6249436992869342e-05,
	"loss": 0.5289,
	"step": 4290
	},
	{
	"epoch": 2.758175179553023,
	"grad_norm": 1.203125,
	"learning_rate": 2.6217120213703222e-05,
	"loss": 0.541,
	"step": 4295
	},
	{
	"epoch": 2.76138506600329,
	"grad_norm": 1.21875,
	"learning_rate": 2.6185219972159626e-05,
	"loss": 0.5263,
	"step": 4300
	},
	{
	"epoch": 2.7645949524535567,
	"grad_norm": 1.2109375,
	"learning_rate": 2.6153736634462252e-05,
	"loss": 0.5247,
	"step": 4305
	},
	{
	"epoch": 2.7678048389038237,
	"grad_norm": 1.1640625,
	"learning_rate": 2.6122670562048645e-05,
	"loss": 0.5476,
	"step": 4310
	},
	{
	"epoch": 2.7710147253540907,
	"grad_norm": 1.2578125,
	"learning_rate": 2.6092022111566007e-05,
	"loss": 0.5246,
	"step": 4315
	},
	{
	"epoch": 2.7742246118043576,
	"grad_norm": 1.1953125,
	"learning_rate": 2.6061791634867146e-05,
	"loss": 0.5191,
	"step": 4320
	},
	{
	"epoch": 2.777434498254624,
	"grad_norm": 1.2265625,
	"learning_rate": 2.6031979479006395e-05,
	"loss": 0.5341,
	"step": 4325
	},
	{
	"epoch": 2.780644384704891,
	"grad_norm": 1.21875,
	"learning_rate": 2.6002585986235656e-05,
	"loss": 0.5375,
	"step": 4330
	},
	{
	"epoch": 2.7838542711551577,
	"grad_norm": 1.2734375,
	"learning_rate": 2.5973611494000462e-05,
	"loss": 0.5502,
	"step": 4335
	},
	{
	"epoch": 2.7870641576054247,
	"grad_norm": 1.375,
	"learning_rate": 2.5945056334936092e-05,
	"loss": 0.5263,
	"step": 4340
	},
	{
	"epoch": 2.7902740440556917,
	"grad_norm": 1.2265625,
	"learning_rate": 2.5916920836863772e-05,
	"loss": 0.5388,
	"step": 4345
	},
	{
	"epoch": 2.7934839305059582,
	"grad_norm": 1.390625,
	"learning_rate": 2.58892053227869e-05,
	"loss": 0.5378,
	"step": 4350
	},
	{
	"epoch": 2.796693816956225,
	"grad_norm": 1.2890625,
	"learning_rate": 2.5861910110887344e-05,
	"loss": 0.5333,
	"step": 4355
	},
	{
	"epoch": 2.7999037034064918,
	"grad_norm": 1.1484375,
	"learning_rate": 2.5835035514521776e-05,
	"loss": 0.5295,
	"step": 4360
	},
	{
	"epoch": 2.8031135898567587,
	"grad_norm": 1.2265625,
	"learning_rate": 2.58085818422181e-05,
	"loss": 0.5308,
	"step": 4365
	},
	{
	"epoch": 2.8063234763070257,
	"grad_norm": 1.1875,
	"learning_rate": 2.5782549397671872e-05,
	"loss": 0.5339,
	"step": 4370
	},
	{
	"epoch": 2.8095333627572927,
	"grad_norm": 1.28125,
	"learning_rate": 2.575693847974286e-05,
	"loss": 0.543,
	"step": 4375
	},
	{
	"epoch": 2.8127432492075592,
	"grad_norm": 1.1796875,
	"learning_rate": 2.5731749382451565e-05,
	"loss": 0.5417,
	"step": 4380
	},
	{
	"epoch": 2.8159531356578262,
	"grad_norm": 1.2265625,
	"learning_rate": 2.5706982394975875e-05,
	"loss": 0.5473,
	"step": 4385
	},
	{
	"epoch": 2.8191630221080928,
	"grad_norm": 1.21875,
	"learning_rate": 2.568263780164775e-05,
	"loss": 0.536,
	"step": 4390
	},
	{
	"epoch": 2.8223729085583598,
	"grad_norm": 1.3125,
	"learning_rate": 2.5658715881949946e-05,
	"loss": 0.5271,
	"step": 4395
	},
	{
	"epoch": 2.8255827950086267,
	"grad_norm": 1.2265625,
	"learning_rate": 2.5635216910512793e-05,
	"loss": 0.5437,
	"step": 4400
	},
	{
	"epoch": 2.8287926814588933,
	"grad_norm": 1.2109375,
	"learning_rate": 2.561214115711107e-05,
	"loss": 0.5294,
	"step": 4405
	},
	{
	"epoch": 2.8320025679091603,
	"grad_norm": 1.3046875,
	"learning_rate": 2.558948888666088e-05,
	"loss": 0.5353,
	"step": 4410
	},
	{
	"epoch": 2.835212454359427,
	"grad_norm": 1.2578125,
	"learning_rate": 2.556726035921665e-05,
	"loss": 0.544,
	"step": 4415
	},
	{
	"epoch": 2.838422340809694,
	"grad_norm": 1.2421875,
	"learning_rate": 2.5545455829968078e-05,
	"loss": 0.5282,
	"step": 4420
	},
	{
	"epoch": 2.841632227259961,
	"grad_norm": 1.234375,
	"learning_rate": 2.552407554923729e-05,
	"loss": 0.5423,
	"step": 4425
	},
	{
	"epoch": 2.8448421137102278,
	"grad_norm": 1.296875,
	"learning_rate": 2.550311976247588e-05,
	"loss": 0.5348,
	"step": 4430
	},
	{
	"epoch": 2.8480520001604943,
	"grad_norm": 1.25,
	"learning_rate": 2.548258871026216e-05,
	"loss": 0.5591,
	"step": 4435
	},
	{
	"epoch": 2.8512618866107613,
	"grad_norm": 1.2734375,
	"learning_rate": 2.5462482628298357e-05,
	"loss": 0.5325,
	"step": 4440
	},
	{
	"epoch": 2.854471773061028,
	"grad_norm": 1.203125,
	"learning_rate": 2.544280174740792e-05,
	"loss": 0.534,
	"step": 4445
	},
	{
	"epoch": 2.857681659511295,
	"grad_norm": 1.2421875,
	"learning_rate": 2.542354629353288e-05,
	"loss": 0.534,
	"step": 4450
	},
	{
	"epoch": 2.860891545961562,
	"grad_norm": 1.140625,
	"learning_rate": 2.540471648773124e-05,
	"loss": 0.5599,
	"step": 4455
	},
	{
	"epoch": 2.8641014324118284,
	"grad_norm": 1.375,
	"learning_rate": 2.5386312546174434e-05,
	"loss": 0.5492,
	"step": 4460
	},
	{
	"epoch": 2.8673113188620953,
	"grad_norm": 1.15625,
	"learning_rate": 2.5368334680144884e-05,
	"loss": 0.5301,
	"step": 4465
	},
	{
	"epoch": 2.870521205312362,
	"grad_norm": 1.15625,
	"learning_rate": 2.535078309603351e-05,
	"loss": 0.5193,
	"step": 4470
	},
	{
	"epoch": 2.873731091762629,
	"grad_norm": 1.2421875,
	"learning_rate": 2.5333657995337422e-05,
	"loss": 0.5296,
	"step": 4475
	},
	{
	"epoch": 2.876940978212896,
	"grad_norm": 1.1875,
	"learning_rate": 2.5316959574657583e-05,
	"loss": 0.5139,
	"step": 4480
	},
	{
	"epoch": 2.8801508646631624,
	"grad_norm": 1.296875,
	"learning_rate": 2.5300688025696517e-05,
	"loss": 0.5349,
	"step": 4485
	},
	{
	"epoch": 2.8833607511134294,
	"grad_norm": 1.203125,
	"learning_rate": 2.5284843535256182e-05,
	"loss": 0.5442,
	"step": 4490
	},
	{
	"epoch": 2.886570637563696,
	"grad_norm": 1.28125,
	"learning_rate": 2.5269426285235753e-05,
	"loss": 0.5328,
	"step": 4495
	},
	{
	"epoch": 2.889780524013963,
	"grad_norm": 1.171875,
	"learning_rate": 2.5254436452629594e-05,
	"loss": 0.5126,
	"step": 4500
	},
	{
	"epoch": 2.889780524013963,
	"eval_loss": 0.4651297628879547,
	"eval_runtime": 2.403,
	"eval_samples_per_second": 83.23,
	"eval_steps_per_second": 83.23,
	"step": 4500
	},
	{
	"epoch": 2.89299041046423,
	"grad_norm": 1.1875,
	"learning_rate": 2.523987420952516e-05,
	"loss": 0.5352,
	"step": 4505
	},
	{
	"epoch": 2.896200296914497,
	"grad_norm": 1.1484375,
	"learning_rate": 2.5225739723101105e-05,
	"loss": 0.5321,
	"step": 4510
	},
	{
	"epoch": 2.8994101833647634,
	"grad_norm": 1.1796875,
	"learning_rate": 2.521203315562528e-05,
	"loss": 0.5323,
	"step": 4515
	},
	{
	"epoch": 2.9026200698150304,
	"grad_norm": 1.21875,
	"learning_rate": 2.5198754664452913e-05,
	"loss": 0.5468,
	"step": 4520
	},
	{
	"epoch": 2.905829956265297,
	"grad_norm": 1.296875,
	"learning_rate": 2.5185904402024808e-05,
	"loss": 0.53,
	"step": 4525
	},
	{
	"epoch": 2.909039842715564,
	"grad_norm": 1.21875,
	"learning_rate": 2.5173482515865582e-05,
	"loss": 0.5181,
	"step": 4530
	},
	{
	"epoch": 2.912249729165831,
	"grad_norm": 1.1875,
	"learning_rate": 2.5161489148581962e-05,
	"loss": 0.5294,
	"step": 4535
	},
	{
	"epoch": 2.9154596156160975,
	"grad_norm": 1.1796875,
	"learning_rate": 2.514992443786116e-05,
	"loss": 0.5339,
	"step": 4540
	},
	{
	"epoch": 2.9186695020663644,
	"grad_norm": 1.1953125,
	"learning_rate": 2.51387885164693e-05,
	"loss": 0.5416,
	"step": 4545
	},
	{
	"epoch": 2.921879388516631,
	"grad_norm": 1.1875,
	"learning_rate": 2.512808151224988e-05,
	"loss": 0.546,
	"step": 4550
	},
	{
	"epoch": 2.925089274966898,
	"grad_norm": 1.28125,
	"learning_rate": 2.5117803548122305e-05,
	"loss": 0.552,
	"step": 4555
	},
	{
	"epoch": 2.928299161417165,
	"grad_norm": 1.1953125,
	"learning_rate": 2.510795474208048e-05,
	"loss": 0.5195,
	"step": 4560
	},
	{
	"epoch": 2.931509047867432,
	"grad_norm": 1.1640625,
	"learning_rate": 2.5098535207191458e-05,
	"loss": 0.5446,
	"step": 4565
	},
	{
	"epoch": 2.9347189343176985,
	"grad_norm": 1.125,
	"learning_rate": 2.5089545051594136e-05,
	"loss": 0.5417,
	"step": 4570
	},
	{
	"epoch": 2.9379288207679655,
	"grad_norm": 1.234375,
	"learning_rate": 2.5080984378498023e-05,
	"loss": 0.5301,
	"step": 4575
	},
	{
	"epoch": 2.941138707218232,
	"grad_norm": 1.3203125,
	"learning_rate": 2.507285328618204e-05,
	"loss": 0.5464,
	"step": 4580
	},
	{
	"epoch": 2.944348593668499,
	"grad_norm": 1.1875,
	"learning_rate": 2.506515186799341e-05,
	"loss": 0.5348,
	"step": 4585
	},
	{
	"epoch": 2.947558480118766,
	"grad_norm": 1.171875,
	"learning_rate": 2.5057880212346564e-05,
	"loss": 0.5296,
	"step": 4590
	},
	{
	"epoch": 2.9507683665690325,
	"grad_norm": 1.21875,
	"learning_rate": 2.505103840272215e-05,
	"loss": 0.5267,
	"step": 4595
	},
	{
	"epoch": 2.9539782530192995,
	"grad_norm": 1.2421875,
	"learning_rate": 2.5044626517666054e-05,
	"loss": 0.5286,
	"step": 4600
	},
	{
	"epoch": 2.957188139469566,
	"grad_norm": 1.15625,
	"learning_rate": 2.5038644630788517e-05,
	"loss": 0.5401,
	"step": 4605
	},
	{
	"epoch": 2.960398025919833,
	"grad_norm": 1.28125,
	"learning_rate": 2.5033092810763275e-05,
	"loss": 0.5278,
	"step": 4610
	},
	{
	"epoch": 2.9636079123701,
	"grad_norm": 1.171875,
	"learning_rate": 2.5027971121326776e-05,
	"loss": 0.5218,
	"step": 4615
	},
	{
	"epoch": 2.966817798820367,
	"grad_norm": 1.21875,
	"learning_rate": 2.5023279621277444e-05,
	"loss": 0.5288,
	"step": 4620
	},
	{
	"epoch": 2.9700276852706335,
	"grad_norm": 1.203125,
	"learning_rate": 2.5019018364475026e-05,
	"loss": 0.5382,
	"step": 4625
	},
	{
	"epoch": 2.9732375717209005,
	"grad_norm": 1.1171875,
	"learning_rate": 2.5015187399839936e-05,
	"loss": 0.5431,
	"step": 4630
	},
	{
	"epoch": 2.976447458171167,
	"grad_norm": 1.21875,
	"learning_rate": 2.501178677135272e-05,
	"loss": 0.5417,
	"step": 4635
	},
	{
	"epoch": 2.979657344621434,
	"grad_norm": 1.2421875,
	"learning_rate": 2.5008816518053547e-05,
	"loss": 0.5141,
	"step": 4640
	},
	{
	"epoch": 2.982867231071701,
	"grad_norm": 1.15625,
	"learning_rate": 2.500627667404176e-05,
	"loss": 0.5438,
	"step": 4645
	},
	{
	"epoch": 2.9860771175219676,
	"grad_norm": 1.2265625,
	"learning_rate": 2.5004167268475475e-05,
	"loss": 0.5386,
	"step": 4650
	},
	{
	"epoch": 2.9892870039722346,
	"grad_norm": 1.2421875,
	"learning_rate": 2.500248832557126e-05,
	"loss": 0.5358,
	"step": 4655
	},
	{
	"epoch": 2.992496890422501,
	"grad_norm": 1.21875,
	"learning_rate": 2.5001239864603847e-05,
	"loss": 0.5446,
	"step": 4660
	},
	{
	"epoch": 2.995706776872768,
	"grad_norm": 1.1640625,
	"learning_rate": 2.500042189990593e-05,
	"loss": 0.5492,
	"step": 4665
	},
	{
	"epoch": 2.998916663323035,
	"grad_norm": 1.2734375,
	"learning_rate": 2.5000034440867958e-05,
	"loss": 0.5393,
	"step": 4670
	},
	{
	"epoch": 2.9995586406130883,
	"eval_loss": 0.4636688232421875,
	"eval_runtime": 2.4088,
	"eval_samples_per_second": 83.028,
	"eval_steps_per_second": 83.028,
	"step": 4671
	}
	],
	"logging_steps": 5,
	"max_steps": 4671,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.12480186236928e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}