Upload model

437ad67 verified 10 months ago

61.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 4.942630185348632,
	"eval_steps": 500,
	"global_step": 350,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01412180052956752,
	"grad_norm": 5.979931009348192,
	"learning_rate": 2.285714285714286e-06,
	"loss": 0.8154,
	"step": 1
	},
	{
	"epoch": 0.02824360105913504,
	"grad_norm": 6.047301062181586,
	"learning_rate": 4.571428571428572e-06,
	"loss": 0.8243,
	"step": 2
	},
	{
	"epoch": 0.04236540158870256,
	"grad_norm": 5.589397434568418,
	"learning_rate": 6.857142857142858e-06,
	"loss": 0.8057,
	"step": 3
	},
	{
	"epoch": 0.05648720211827008,
	"grad_norm": 4.017126644109988,
	"learning_rate": 9.142857142857144e-06,
	"loss": 0.7602,
	"step": 4
	},
	{
	"epoch": 0.0706090026478376,
	"grad_norm": 2.1627060531795967,
	"learning_rate": 1.1428571428571429e-05,
	"loss": 0.7197,
	"step": 5
	},
	{
	"epoch": 0.08473080317740513,
	"grad_norm": 4.667143281538081,
	"learning_rate": 1.3714285714285716e-05,
	"loss": 0.7374,
	"step": 6
	},
	{
	"epoch": 0.09885260370697264,
	"grad_norm": 6.545492179001986,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.7325,
	"step": 7
	},
	{
	"epoch": 0.11297440423654016,
	"grad_norm": 7.281711055430636,
	"learning_rate": 1.8285714285714288e-05,
	"loss": 0.7502,
	"step": 8
	},
	{
	"epoch": 0.12709620476610767,
	"grad_norm": 4.392674048119666,
	"learning_rate": 2.057142857142857e-05,
	"loss": 0.7051,
	"step": 9
	},
	{
	"epoch": 0.1412180052956752,
	"grad_norm": 2.9074563359884973,
	"learning_rate": 2.2857142857142858e-05,
	"loss": 0.6593,
	"step": 10
	},
	{
	"epoch": 0.1553398058252427,
	"grad_norm": 2.205323794009288,
	"learning_rate": 2.5142857142857143e-05,
	"loss": 0.6276,
	"step": 11
	},
	{
	"epoch": 0.16946160635481025,
	"grad_norm": 1.4150033586173336,
	"learning_rate": 2.742857142857143e-05,
	"loss": 0.6013,
	"step": 12
	},
	{
	"epoch": 0.18358340688437777,
	"grad_norm": 1.3251831618492345,
	"learning_rate": 2.9714285714285717e-05,
	"loss": 0.5859,
	"step": 13
	},
	{
	"epoch": 0.1977052074139453,
	"grad_norm": 3.1805546649918544,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 0.5824,
	"step": 14
	},
	{
	"epoch": 0.2118270079435128,
	"grad_norm": 1.4989971887780031,
	"learning_rate": 3.4285714285714284e-05,
	"loss": 0.5708,
	"step": 15
	},
	{
	"epoch": 0.22594880847308033,
	"grad_norm": 1.203788524759605,
	"learning_rate": 3.6571428571428576e-05,
	"loss": 0.5563,
	"step": 16
	},
	{
	"epoch": 0.24007060900264784,
	"grad_norm": 1.3578810581727971,
	"learning_rate": 3.885714285714286e-05,
	"loss": 0.5566,
	"step": 17
	},
	{
	"epoch": 0.25419240953221534,
	"grad_norm": 0.8074275719021523,
	"learning_rate": 4.114285714285714e-05,
	"loss": 0.5507,
	"step": 18
	},
	{
	"epoch": 0.26831421006178285,
	"grad_norm": 1.1227844753364196,
	"learning_rate": 4.342857142857143e-05,
	"loss": 0.5418,
	"step": 19
	},
	{
	"epoch": 0.2824360105913504,
	"grad_norm": 0.8760389990351023,
	"learning_rate": 4.5714285714285716e-05,
	"loss": 0.5333,
	"step": 20
	},
	{
	"epoch": 0.2965578111209179,
	"grad_norm": 1.1881496989284341,
	"learning_rate": 4.8e-05,
	"loss": 0.5305,
	"step": 21
	},
	{
	"epoch": 0.3106796116504854,
	"grad_norm": 0.9681459485298871,
	"learning_rate": 5.0285714285714286e-05,
	"loss": 0.5189,
	"step": 22
	},
	{
	"epoch": 0.324801412180053,
	"grad_norm": 1.4344211614758422,
	"learning_rate": 5.257142857142858e-05,
	"loss": 0.5198,
	"step": 23
	},
	{
	"epoch": 0.3389232127096205,
	"grad_norm": 0.8492140987790524,
	"learning_rate": 5.485714285714286e-05,
	"loss": 0.5102,
	"step": 24
	},
	{
	"epoch": 0.353045013239188,
	"grad_norm": 1.2351656998878342,
	"learning_rate": 5.714285714285715e-05,
	"loss": 0.5098,
	"step": 25
	},
	{
	"epoch": 0.36716681376875554,
	"grad_norm": 0.898578091846962,
	"learning_rate": 5.9428571428571434e-05,
	"loss": 0.5015,
	"step": 26
	},
	{
	"epoch": 0.38128861429832306,
	"grad_norm": 1.5089247050740433,
	"learning_rate": 6.171428571428573e-05,
	"loss": 0.507,
	"step": 27
	},
	{
	"epoch": 0.3954104148278906,
	"grad_norm": 0.9864208925736987,
	"learning_rate": 6.400000000000001e-05,
	"loss": 0.5034,
	"step": 28
	},
	{
	"epoch": 0.4095322153574581,
	"grad_norm": 1.0206985743120736,
	"learning_rate": 6.62857142857143e-05,
	"loss": 0.4983,
	"step": 29
	},
	{
	"epoch": 0.4236540158870256,
	"grad_norm": 1.4229934179471342,
	"learning_rate": 6.857142857142857e-05,
	"loss": 0.508,
	"step": 30
	},
	{
	"epoch": 0.43777581641659313,
	"grad_norm": 0.9625460430091453,
	"learning_rate": 7.085714285714287e-05,
	"loss": 0.5016,
	"step": 31
	},
	{
	"epoch": 0.45189761694616065,
	"grad_norm": 1.1144628190568628,
	"learning_rate": 7.314285714285715e-05,
	"loss": 0.4939,
	"step": 32
	},
	{
	"epoch": 0.46601941747572817,
	"grad_norm": 0.9463549200929555,
	"learning_rate": 7.542857142857144e-05,
	"loss": 0.4924,
	"step": 33
	},
	{
	"epoch": 0.4801412180052957,
	"grad_norm": 0.8892598203382347,
	"learning_rate": 7.771428571428572e-05,
	"loss": 0.4902,
	"step": 34
	},
	{
	"epoch": 0.4942630185348632,
	"grad_norm": 0.9413854750510515,
	"learning_rate": 8e-05,
	"loss": 0.4852,
	"step": 35
	},
	{
	"epoch": 0.5083848190644307,
	"grad_norm": 0.9034630826375731,
	"learning_rate": 7.999801067823773e-05,
	"loss": 0.4853,
	"step": 36
	},
	{
	"epoch": 0.5225066195939982,
	"grad_norm": 1.2269858722315412,
	"learning_rate": 7.999204291082095e-05,
	"loss": 0.4764,
	"step": 37
	},
	{
	"epoch": 0.5366284201235657,
	"grad_norm": 0.9045227868888749,
	"learning_rate": 7.998209729134014e-05,
	"loss": 0.4809,
	"step": 38
	},
	{
	"epoch": 0.5507502206531333,
	"grad_norm": 1.2176978127037603,
	"learning_rate": 7.996817480904718e-05,
	"loss": 0.4719,
	"step": 39
	},
	{
	"epoch": 0.5648720211827007,
	"grad_norm": 1.2333419409501036,
	"learning_rate": 7.99502768487569e-05,
	"loss": 0.477,
	"step": 40
	},
	{
	"epoch": 0.5789938217122683,
	"grad_norm": 0.7483281237491166,
	"learning_rate": 7.99284051907094e-05,
	"loss": 0.4724,
	"step": 41
	},
	{
	"epoch": 0.5931156222418358,
	"grad_norm": 0.6151558817864059,
	"learning_rate": 7.990256201039297e-05,
	"loss": 0.4662,
	"step": 42
	},
	{
	"epoch": 0.6072374227714034,
	"grad_norm": 0.6814568571856022,
	"learning_rate": 7.987274987832764e-05,
	"loss": 0.4621,
	"step": 43
	},
	{
	"epoch": 0.6213592233009708,
	"grad_norm": 0.9240497143419791,
	"learning_rate": 7.983897175980957e-05,
	"loss": 0.4665,
	"step": 44
	},
	{
	"epoch": 0.6354810238305384,
	"grad_norm": 1.2034986971304784,
	"learning_rate": 7.980123101461606e-05,
	"loss": 0.4761,
	"step": 45
	},
	{
	"epoch": 0.649602824360106,
	"grad_norm": 0.8192788227089312,
	"learning_rate": 7.975953139667141e-05,
	"loss": 0.4652,
	"step": 46
	},
	{
	"epoch": 0.6637246248896734,
	"grad_norm": 0.7683306980890072,
	"learning_rate": 7.97138770536735e-05,
	"loss": 0.4619,
	"step": 47
	},
	{
	"epoch": 0.677846425419241,
	"grad_norm": 0.7567015766907312,
	"learning_rate": 7.966427252668121e-05,
	"loss": 0.4638,
	"step": 48
	},
	{
	"epoch": 0.6919682259488085,
	"grad_norm": 0.6846820764750615,
	"learning_rate": 7.961072274966282e-05,
	"loss": 0.4527,
	"step": 49
	},
	{
	"epoch": 0.706090026478376,
	"grad_norm": 0.7395598100512276,
	"learning_rate": 7.955323304900514e-05,
	"loss": 0.4571,
	"step": 50
	},
	{
	"epoch": 0.7202118270079435,
	"grad_norm": 0.5351232158771764,
	"learning_rate": 7.949180914298383e-05,
	"loss": 0.4496,
	"step": 51
	},
	{
	"epoch": 0.7343336275375111,
	"grad_norm": 0.6324424558337066,
	"learning_rate": 7.942645714119452e-05,
	"loss": 0.4593,
	"step": 52
	},
	{
	"epoch": 0.7484554280670785,
	"grad_norm": 0.547964739600884,
	"learning_rate": 7.93571835439452e-05,
	"loss": 0.4502,
	"step": 53
	},
	{
	"epoch": 0.7625772285966461,
	"grad_norm": 0.7115536296101671,
	"learning_rate": 7.928399524160956e-05,
	"loss": 0.447,
	"step": 54
	},
	{
	"epoch": 0.7766990291262136,
	"grad_norm": 0.742782814289987,
	"learning_rate": 7.920689951394175e-05,
	"loss": 0.4461,
	"step": 55
	},
	{
	"epoch": 0.7908208296557812,
	"grad_norm": 0.6862659469941464,
	"learning_rate": 7.912590402935223e-05,
	"loss": 0.4473,
	"step": 56
	},
	{
	"epoch": 0.8049426301853486,
	"grad_norm": 0.6235041641613883,
	"learning_rate": 7.904101684414498e-05,
	"loss": 0.4472,
	"step": 57
	},
	{
	"epoch": 0.8190644307149162,
	"grad_norm": 0.44600795869954046,
	"learning_rate": 7.895224640171625e-05,
	"loss": 0.4442,
	"step": 58
	},
	{
	"epoch": 0.8331862312444837,
	"grad_norm": 0.48251979778530707,
	"learning_rate": 7.88596015317147e-05,
	"loss": 0.4449,
	"step": 59
	},
	{
	"epoch": 0.8473080317740512,
	"grad_norm": 0.4787558150068957,
	"learning_rate": 7.876309144916312e-05,
	"loss": 0.4433,
	"step": 60
	},
	{
	"epoch": 0.8614298323036187,
	"grad_norm": 0.41827598666685606,
	"learning_rate": 7.86627257535419e-05,
	"loss": 0.4401,
	"step": 61
	},
	{
	"epoch": 0.8755516328331863,
	"grad_norm": 0.4724100749619687,
	"learning_rate": 7.855851442783414e-05,
	"loss": 0.4374,
	"step": 62
	},
	{
	"epoch": 0.8896734333627537,
	"grad_norm": 0.6571994588226032,
	"learning_rate": 7.845046783753276e-05,
	"loss": 0.4409,
	"step": 63
	},
	{
	"epoch": 0.9037952338923213,
	"grad_norm": 0.9369294338435781,
	"learning_rate": 7.833859672960943e-05,
	"loss": 0.4407,
	"step": 64
	},
	{
	"epoch": 0.9179170344218888,
	"grad_norm": 1.1601560447987704,
	"learning_rate": 7.822291223144564e-05,
	"loss": 0.4602,
	"step": 65
	},
	{
	"epoch": 0.9320388349514563,
	"grad_norm": 0.6934703654331164,
	"learning_rate": 7.810342584972585e-05,
	"loss": 0.4369,
	"step": 66
	},
	{
	"epoch": 0.9461606354810238,
	"grad_norm": 0.5791439547503463,
	"learning_rate": 7.798014946929306e-05,
	"loss": 0.4356,
	"step": 67
	},
	{
	"epoch": 0.9602824360105914,
	"grad_norm": 0.8373041828808443,
	"learning_rate": 7.785309535196657e-05,
	"loss": 0.4504,
	"step": 68
	},
	{
	"epoch": 0.9744042365401588,
	"grad_norm": 0.6796500376958069,
	"learning_rate": 7.772227613532242e-05,
	"loss": 0.4392,
	"step": 69
	},
	{
	"epoch": 0.9885260370697264,
	"grad_norm": 0.6686880597044009,
	"learning_rate": 7.758770483143634e-05,
	"loss": 0.4474,
	"step": 70
	},
	{
	"epoch": 1.002647837599294,
	"grad_norm": 0.6901488338737102,
	"learning_rate": 7.74493948255895e-05,
	"loss": 0.5108,
	"step": 71
	},
	{
	"epoch": 1.0167696381288613,
	"grad_norm": 0.7139924415191212,
	"learning_rate": 7.730735987493711e-05,
	"loss": 0.4227,
	"step": 72
	},
	{
	"epoch": 1.030891438658429,
	"grad_norm": 0.7623382444431029,
	"learning_rate": 7.71616141071401e-05,
	"loss": 0.419,
	"step": 73
	},
	{
	"epoch": 1.0450132391879965,
	"grad_norm": 0.8179708530719029,
	"learning_rate": 7.701217201895987e-05,
	"loss": 0.4182,
	"step": 74
	},
	{
	"epoch": 1.059135039717564,
	"grad_norm": 0.6036364923611257,
	"learning_rate": 7.685904847481631e-05,
	"loss": 0.4147,
	"step": 75
	},
	{
	"epoch": 1.0732568402471314,
	"grad_norm": 0.5415944966587694,
	"learning_rate": 7.670225870530936e-05,
	"loss": 0.4192,
	"step": 76
	},
	{
	"epoch": 1.087378640776699,
	"grad_norm": 0.548496642769106,
	"learning_rate": 7.654181830570404e-05,
	"loss": 0.4193,
	"step": 77
	},
	{
	"epoch": 1.1015004413062666,
	"grad_norm": 0.4357435844414465,
	"learning_rate": 7.637774323437929e-05,
	"loss": 0.4126,
	"step": 78
	},
	{
	"epoch": 1.1156222418358341,
	"grad_norm": 0.5890851003105865,
	"learning_rate": 7.62100498112406e-05,
	"loss": 0.4193,
	"step": 79
	},
	{
	"epoch": 1.1297440423654015,
	"grad_norm": 0.5417176133106055,
	"learning_rate": 7.603875471609677e-05,
	"loss": 0.4069,
	"step": 80
	},
	{
	"epoch": 1.143865842894969,
	"grad_norm": 0.5234067170715418,
	"learning_rate": 7.586387498700084e-05,
	"loss": 0.4187,
	"step": 81
	},
	{
	"epoch": 1.1579876434245366,
	"grad_norm": 0.4795761329002007,
	"learning_rate": 7.568542801855535e-05,
	"loss": 0.4101,
	"step": 82
	},
	{
	"epoch": 1.1721094439541042,
	"grad_norm": 0.510485207368403,
	"learning_rate": 7.550343156018217e-05,
	"loss": 0.4074,
	"step": 83
	},
	{
	"epoch": 1.1862312444836718,
	"grad_norm": 0.5160993194955293,
	"learning_rate": 7.531790371435709e-05,
	"loss": 0.4105,
	"step": 84
	},
	{
	"epoch": 1.2003530450132391,
	"grad_norm": 0.6272135654421417,
	"learning_rate": 7.512886293480914e-05,
	"loss": 0.4131,
	"step": 85
	},
	{
	"epoch": 1.2144748455428067,
	"grad_norm": 0.7144516241332823,
	"learning_rate": 7.49363280246852e-05,
	"loss": 0.4123,
	"step": 86
	},
	{
	"epoch": 1.2285966460723743,
	"grad_norm": 1.0197175196301183,
	"learning_rate": 7.474031813467956e-05,
	"loss": 0.4199,
	"step": 87
	},
	{
	"epoch": 1.2427184466019416,
	"grad_norm": 0.9885970877399597,
	"learning_rate": 7.454085276112925e-05,
	"loss": 0.4152,
	"step": 88
	},
	{
	"epoch": 1.2568402471315092,
	"grad_norm": 0.5518795345815659,
	"learning_rate": 7.433795174407465e-05,
	"loss": 0.4064,
	"step": 89
	},
	{
	"epoch": 1.2709620476610768,
	"grad_norm": 0.42697954065556326,
	"learning_rate": 7.413163526528623e-05,
	"loss": 0.409,
	"step": 90
	},
	{
	"epoch": 1.2850838481906444,
	"grad_norm": 0.698380780251885,
	"learning_rate": 7.392192384625704e-05,
	"loss": 0.4054,
	"step": 91
	},
	{
	"epoch": 1.299205648720212,
	"grad_norm": 0.6703174317830842,
	"learning_rate": 7.370883834616157e-05,
	"loss": 0.4099,
	"step": 92
	},
	{
	"epoch": 1.3133274492497793,
	"grad_norm": 0.3951173073488556,
	"learning_rate": 7.349239995978095e-05,
	"loss": 0.4084,
	"step": 93
	},
	{
	"epoch": 1.3274492497793469,
	"grad_norm": 0.43174109319559356,
	"learning_rate": 7.327263021539478e-05,
	"loss": 0.4048,
	"step": 94
	},
	{
	"epoch": 1.3415710503089144,
	"grad_norm": 0.5360712514545947,
	"learning_rate": 7.30495509726398e-05,
	"loss": 0.4068,
	"step": 95
	},
	{
	"epoch": 1.3556928508384818,
	"grad_norm": 0.42774436448586106,
	"learning_rate": 7.282318442033567e-05,
	"loss": 0.4034,
	"step": 96
	},
	{
	"epoch": 1.3698146513680494,
	"grad_norm": 0.5210499488927217,
	"learning_rate": 7.259355307427781e-05,
	"loss": 0.4078,
	"step": 97
	},
	{
	"epoch": 1.383936451897617,
	"grad_norm": 0.7093148406292331,
	"learning_rate": 7.236067977499791e-05,
	"loss": 0.4084,
	"step": 98
	},
	{
	"epoch": 1.3980582524271845,
	"grad_norm": 0.8196300420238753,
	"learning_rate": 7.212458768549208e-05,
	"loss": 0.4069,
	"step": 99
	},
	{
	"epoch": 1.412180052956752,
	"grad_norm": 0.9973540383790642,
	"learning_rate": 7.188530028891691e-05,
	"loss": 0.4047,
	"step": 100
	},
	{
	"epoch": 1.4263018534863194,
	"grad_norm": 1.0704815886198962,
	"learning_rate": 7.164284138625367e-05,
	"loss": 0.4075,
	"step": 101
	},
	{
	"epoch": 1.440423654015887,
	"grad_norm": 0.5848553932345868,
	"learning_rate": 7.13972350939409e-05,
	"loss": 0.4036,
	"step": 102
	},
	{
	"epoch": 1.4545454545454546,
	"grad_norm": 0.37289550464762866,
	"learning_rate": 7.114850584147577e-05,
	"loss": 0.4068,
	"step": 103
	},
	{
	"epoch": 1.468667255075022,
	"grad_norm": 0.6651429035225815,
	"learning_rate": 7.089667836898399e-05,
	"loss": 0.4053,
	"step": 104
	},
	{
	"epoch": 1.4827890556045895,
	"grad_norm": 0.6931193008736451,
	"learning_rate": 7.064177772475912e-05,
	"loss": 0.4002,
	"step": 105
	},
	{
	"epoch": 1.496910856134157,
	"grad_norm": 0.3938085941153356,
	"learning_rate": 7.038382926277113e-05,
	"loss": 0.4013,
	"step": 106
	},
	{
	"epoch": 1.5110326566637247,
	"grad_norm": 0.410899316731272,
	"learning_rate": 7.012285864014445e-05,
	"loss": 0.404,
	"step": 107
	},
	{
	"epoch": 1.5251544571932922,
	"grad_norm": 0.5933306150673846,
	"learning_rate": 6.985889181460602e-05,
	"loss": 0.3992,
	"step": 108
	},
	{
	"epoch": 1.5392762577228596,
	"grad_norm": 0.47465582200581674,
	"learning_rate": 6.959195504190337e-05,
	"loss": 0.4022,
	"step": 109
	},
	{
	"epoch": 1.5533980582524272,
	"grad_norm": 0.29047076547162964,
	"learning_rate": 6.932207487319305e-05,
	"loss": 0.3933,
	"step": 110
	},
	{
	"epoch": 1.5675198587819947,
	"grad_norm": 0.3955673661524972,
	"learning_rate": 6.904927815239972e-05,
	"loss": 0.4014,
	"step": 111
	},
	{
	"epoch": 1.581641659311562,
	"grad_norm": 0.4729958849916794,
	"learning_rate": 6.877359201354606e-05,
	"loss": 0.4014,
	"step": 112
	},
	{
	"epoch": 1.5957634598411299,
	"grad_norm": 0.3117935062342313,
	"learning_rate": 6.84950438780538e-05,
	"loss": 0.4021,
	"step": 113
	},
	{
	"epoch": 1.6098852603706972,
	"grad_norm": 0.29707807435124145,
	"learning_rate": 6.821366145201636e-05,
	"loss": 0.4003,
	"step": 114
	},
	{
	"epoch": 1.6240070609002648,
	"grad_norm": 0.43753418225532925,
	"learning_rate": 6.792947272344292e-05,
	"loss": 0.3992,
	"step": 115
	},
	{
	"epoch": 1.6381288614298324,
	"grad_norm": 0.27791625901461003,
	"learning_rate": 6.76425059594746e-05,
	"loss": 0.3982,
	"step": 116
	},
	{
	"epoch": 1.6522506619593997,
	"grad_norm": 0.2525501356536547,
	"learning_rate": 6.73527897035728e-05,
	"loss": 0.4053,
	"step": 117
	},
	{
	"epoch": 1.6663724624889673,
	"grad_norm": 0.3669470139311434,
	"learning_rate": 6.706035277268022e-05,
	"loss": 0.4024,
	"step": 118
	},
	{
	"epoch": 1.6804942630185349,
	"grad_norm": 0.30825865476024705,
	"learning_rate": 6.676522425435433e-05,
	"loss": 0.3945,
	"step": 119
	},
	{
	"epoch": 1.6946160635481022,
	"grad_norm": 0.28018108144253323,
	"learning_rate": 6.646743350387438e-05,
	"loss": 0.3984,
	"step": 120
	},
	{
	"epoch": 1.70873786407767,
	"grad_norm": 0.30987982118204843,
	"learning_rate": 6.616701014132138e-05,
	"loss": 0.4021,
	"step": 121
	},
	{
	"epoch": 1.7228596646072374,
	"grad_norm": 0.3633571089136772,
	"learning_rate": 6.586398404863198e-05,
	"loss": 0.4026,
	"step": 122
	},
	{
	"epoch": 1.736981465136805,
	"grad_norm": 0.36013913213670684,
	"learning_rate": 6.555838536662624e-05,
	"loss": 0.3925,
	"step": 123
	},
	{
	"epoch": 1.7511032656663725,
	"grad_norm": 0.36709693358558493,
	"learning_rate": 6.525024449200956e-05,
	"loss": 0.3976,
	"step": 124
	},
	{
	"epoch": 1.7652250661959399,
	"grad_norm": 0.44695442666677676,
	"learning_rate": 6.493959207434934e-05,
	"loss": 0.3982,
	"step": 125
	},
	{
	"epoch": 1.7793468667255075,
	"grad_norm": 0.4500722428050271,
	"learning_rate": 6.462645901302633e-05,
	"loss": 0.3947,
	"step": 126
	},
	{
	"epoch": 1.793468667255075,
	"grad_norm": 0.39821702121821073,
	"learning_rate": 6.431087645416121e-05,
	"loss": 0.4015,
	"step": 127
	},
	{
	"epoch": 1.8075904677846424,
	"grad_norm": 0.42798393839154475,
	"learning_rate": 6.399287578751656e-05,
	"loss": 0.3959,
	"step": 128
	},
	{
	"epoch": 1.8217122683142102,
	"grad_norm": 0.4978207058435827,
	"learning_rate": 6.367248864337471e-05,
	"loss": 0.3975,
	"step": 129
	},
	{
	"epoch": 1.8358340688437775,
	"grad_norm": 0.4727933665511357,
	"learning_rate": 6.334974688939161e-05,
	"loss": 0.3961,
	"step": 130
	},
	{
	"epoch": 1.849955869373345,
	"grad_norm": 0.30157997491072186,
	"learning_rate": 6.302468262742695e-05,
	"loss": 0.3923,
	"step": 131
	},
	{
	"epoch": 1.8640776699029127,
	"grad_norm": 0.30111696128126747,
	"learning_rate": 6.269732819035128e-05,
	"loss": 0.3895,
	"step": 132
	},
	{
	"epoch": 1.87819947043248,
	"grad_norm": 0.33866239621320493,
	"learning_rate": 6.236771613882987e-05,
	"loss": 0.3933,
	"step": 133
	},
	{
	"epoch": 1.8923212709620476,
	"grad_norm": 0.2963866045397337,
	"learning_rate": 6.20358792580841e-05,
	"loss": 0.3865,
	"step": 134
	},
	{
	"epoch": 1.9064430714916152,
	"grad_norm": 0.2821832464959724,
	"learning_rate": 6.170185055463039e-05,
	"loss": 0.3985,
	"step": 135
	},
	{
	"epoch": 1.9205648720211828,
	"grad_norm": 0.26513081199542754,
	"learning_rate": 6.136566325299715e-05,
	"loss": 0.3972,
	"step": 136
	},
	{
	"epoch": 1.9346866725507503,
	"grad_norm": 0.25040847849987535,
	"learning_rate": 6.102735079242019e-05,
	"loss": 0.398,
	"step": 137
	},
	{
	"epoch": 1.9488084730803177,
	"grad_norm": 0.303971008854815,
	"learning_rate": 6.068694682351651e-05,
	"loss": 0.3957,
	"step": 138
	},
	{
	"epoch": 1.9629302736098853,
	"grad_norm": 0.2610849344447032,
	"learning_rate": 6.0344485204937274e-05,
	"loss": 0.3953,
	"step": 139
	},
	{
	"epoch": 1.9770520741394528,
	"grad_norm": 0.24540141466965165,
	"learning_rate": 6.000000000000001e-05,
	"loss": 0.3955,
	"step": 140
	},
	{
	"epoch": 1.9911738746690202,
	"grad_norm": 0.2807585102662493,
	"learning_rate": 5.965352547330046e-05,
	"loss": 0.4096,
	"step": 141
	},
	{
	"epoch": 2.005295675198588,
	"grad_norm": 0.4269953277008037,
	"learning_rate": 5.930509608730444e-05,
	"loss": 0.4441,
	"step": 142
	},
	{
	"epoch": 2.0194174757281553,
	"grad_norm": 0.5672907609303462,
	"learning_rate": 5.895474649891995e-05,
	"loss": 0.3728,
	"step": 143
	},
	{
	"epoch": 2.0335392762577227,
	"grad_norm": 0.7266748405757633,
	"learning_rate": 5.860251155605003e-05,
	"loss": 0.3745,
	"step": 144
	},
	{
	"epoch": 2.0476610767872905,
	"grad_norm": 1.0069160934332146,
	"learning_rate": 5.824842629412653e-05,
	"loss": 0.3832,
	"step": 145
	},
	{
	"epoch": 2.061782877316858,
	"grad_norm": 0.9424187541004289,
	"learning_rate": 5.7892525932625305e-05,
	"loss": 0.3779,
	"step": 146
	},
	{
	"epoch": 2.0759046778464256,
	"grad_norm": 0.42574191446629944,
	"learning_rate": 5.75348458715631e-05,
	"loss": 0.3718,
	"step": 147
	},
	{
	"epoch": 2.090026478375993,
	"grad_norm": 0.7408316783846461,
	"learning_rate": 5.7175421687976374e-05,
	"loss": 0.3699,
	"step": 148
	},
	{
	"epoch": 2.1041482789055603,
	"grad_norm": 0.6750908749341442,
	"learning_rate": 5.681428913238263e-05,
	"loss": 0.367,
	"step": 149
	},
	{
	"epoch": 2.118270079435128,
	"grad_norm": 0.486610272879909,
	"learning_rate": 5.645148412522447e-05,
	"loss": 0.3752,
	"step": 150
	},
	{
	"epoch": 2.1323918799646955,
	"grad_norm": 0.5306866815139071,
	"learning_rate": 5.60870427532967e-05,
	"loss": 0.3657,
	"step": 151
	},
	{
	"epoch": 2.146513680494263,
	"grad_norm": 0.4884339447717486,
	"learning_rate": 5.572100126615695e-05,
	"loss": 0.3701,
	"step": 152
	},
	{
	"epoch": 2.1606354810238306,
	"grad_norm": 0.39396923901380754,
	"learning_rate": 5.535339607252003e-05,
	"loss": 0.364,
	"step": 153
	},
	{
	"epoch": 2.174757281553398,
	"grad_norm": 0.3784748162116266,
	"learning_rate": 5.4984263736636494e-05,
	"loss": 0.3641,
	"step": 154
	},
	{
	"epoch": 2.1888790820829658,
	"grad_norm": 0.38537106208995364,
	"learning_rate": 5.461364097465581e-05,
	"loss": 0.3634,
	"step": 155
	},
	{
	"epoch": 2.203000882612533,
	"grad_norm": 0.33639666599879814,
	"learning_rate": 5.424156465097428e-05,
	"loss": 0.3676,
	"step": 156
	},
	{
	"epoch": 2.2171226831421005,
	"grad_norm": 0.3286791724075738,
	"learning_rate": 5.38680717745683e-05,
	"loss": 0.3649,
	"step": 157
	},
	{
	"epoch": 2.2312444836716683,
	"grad_norm": 0.3129994921836922,
	"learning_rate": 5.349319949531321e-05,
	"loss": 0.3646,
	"step": 158
	},
	{
	"epoch": 2.2453662842012356,
	"grad_norm": 0.3031016329231297,
	"learning_rate": 5.3116985100288185e-05,
	"loss": 0.3682,
	"step": 159
	},
	{
	"epoch": 2.259488084730803,
	"grad_norm": 0.27541410223019297,
	"learning_rate": 5.2739466010067385e-05,
	"loss": 0.3606,
	"step": 160
	},
	{
	"epoch": 2.2736098852603708,
	"grad_norm": 0.36257443661095795,
	"learning_rate": 5.23606797749979e-05,
	"loss": 0.3638,
	"step": 161
	},
	{
	"epoch": 2.287731685789938,
	"grad_norm": 0.2567579985831816,
	"learning_rate": 5.1980664071464776e-05,
	"loss": 0.3667,
	"step": 162
	},
	{
	"epoch": 2.301853486319506,
	"grad_norm": 0.31190867351244567,
	"learning_rate": 5.159945669814345e-05,
	"loss": 0.3696,
	"step": 163
	},
	{
	"epoch": 2.3159752868490733,
	"grad_norm": 0.2937382011800516,
	"learning_rate": 5.121709557224011e-05,
	"loss": 0.3606,
	"step": 164
	},
	{
	"epoch": 2.3300970873786406,
	"grad_norm": 0.2256249267158452,
	"learning_rate": 5.0833618725720214e-05,
	"loss": 0.365,
	"step": 165
	},
	{
	"epoch": 2.3442188879082084,
	"grad_norm": 0.298331814145165,
	"learning_rate": 5.044906430152554e-05,
	"loss": 0.3667,
	"step": 166
	},
	{
	"epoch": 2.358340688437776,
	"grad_norm": 0.18895739371171252,
	"learning_rate": 5.006347054978035e-05,
	"loss": 0.3699,
	"step": 167
	},
	{
	"epoch": 2.3724624889673436,
	"grad_norm": 0.25034317840687215,
	"learning_rate": 4.967687582398671e-05,
	"loss": 0.3587,
	"step": 168
	},
	{
	"epoch": 2.386584289496911,
	"grad_norm": 0.17907966208059622,
	"learning_rate": 4.9289318577209706e-05,
	"loss": 0.3636,
	"step": 169
	},
	{
	"epoch": 2.4007060900264783,
	"grad_norm": 0.21210095036882018,
	"learning_rate": 4.890083735825258e-05,
	"loss": 0.3605,
	"step": 170
	},
	{
	"epoch": 2.414827890556046,
	"grad_norm": 0.16489305774518265,
	"learning_rate": 4.851147080782249e-05,
	"loss": 0.3648,
	"step": 171
	},
	{
	"epoch": 2.4289496910856134,
	"grad_norm": 0.19143993377462817,
	"learning_rate": 4.812125765468705e-05,
	"loss": 0.3606,
	"step": 172
	},
	{
	"epoch": 2.443071491615181,
	"grad_norm": 0.17804983590295367,
	"learning_rate": 4.773023671182213e-05,
	"loss": 0.3637,
	"step": 173
	},
	{
	"epoch": 2.4571932921447486,
	"grad_norm": 0.16707259472270428,
	"learning_rate": 4.73384468725513e-05,
	"loss": 0.3636,
	"step": 174
	},
	{
	"epoch": 2.471315092674316,
	"grad_norm": 0.17481885632199456,
	"learning_rate": 4.694592710667723e-05,
	"loss": 0.3645,
	"step": 175
	},
	{
	"epoch": 2.4854368932038833,
	"grad_norm": 0.1681053608116463,
	"learning_rate": 4.6552716456605514e-05,
	"loss": 0.3605,
	"step": 176
	},
	{
	"epoch": 2.499558693733451,
	"grad_norm": 0.14964611415536702,
	"learning_rate": 4.615885403346134e-05,
	"loss": 0.3562,
	"step": 177
	},
	{
	"epoch": 2.5136804942630184,
	"grad_norm": 0.14164675176141614,
	"learning_rate": 4.576437901319921e-05,
	"loss": 0.3636,
	"step": 178
	},
	{
	"epoch": 2.5278022947925862,
	"grad_norm": 0.16548274190466053,
	"learning_rate": 4.5369330632706223e-05,
	"loss": 0.3648,
	"step": 179
	},
	{
	"epoch": 2.5419240953221536,
	"grad_norm": 0.15269683467677936,
	"learning_rate": 4.4973748185899416e-05,
	"loss": 0.3612,
	"step": 180
	},
	{
	"epoch": 2.556045895851721,
	"grad_norm": 0.16869434151649507,
	"learning_rate": 4.457767101981728e-05,
	"loss": 0.3677,
	"step": 181
	},
	{
	"epoch": 2.5701676963812887,
	"grad_norm": 0.13337265767063033,
	"learning_rate": 4.418113853070614e-05,
	"loss": 0.3626,
	"step": 182
	},
	{
	"epoch": 2.584289496910856,
	"grad_norm": 0.14682144236789746,
	"learning_rate": 4.378419016010149e-05,
	"loss": 0.364,
	"step": 183
	},
	{
	"epoch": 2.598411297440424,
	"grad_norm": 0.150937900490833,
	"learning_rate": 4.338686539090493e-05,
	"loss": 0.3615,
	"step": 184
	},
	{
	"epoch": 2.6125330979699912,
	"grad_norm": 0.1341377364551312,
	"learning_rate": 4.298920374345698e-05,
	"loss": 0.3596,
	"step": 185
	},
	{
	"epoch": 2.6266548984995586,
	"grad_norm": 0.15572962430762588,
	"learning_rate": 4.259124477160607e-05,
	"loss": 0.3625,
	"step": 186
	},
	{
	"epoch": 2.6407766990291264,
	"grad_norm": 0.1475404012486826,
	"learning_rate": 4.219302805877441e-05,
	"loss": 0.3617,
	"step": 187
	},
	{
	"epoch": 2.6548984995586937,
	"grad_norm": 0.1781262720167099,
	"learning_rate": 4.17945932140206e-05,
	"loss": 0.3666,
	"step": 188
	},
	{
	"epoch": 2.6690203000882615,
	"grad_norm": 0.13824587532461255,
	"learning_rate": 4.139597986810005e-05,
	"loss": 0.3629,
	"step": 189
	},
	{
	"epoch": 2.683142100617829,
	"grad_norm": 0.15963593698467365,
	"learning_rate": 4.0997227669522924e-05,
	"loss": 0.3628,
	"step": 190
	},
	{
	"epoch": 2.6972639011473962,
	"grad_norm": 0.12511715922220792,
	"learning_rate": 4.059837628061055e-05,
	"loss": 0.3638,
	"step": 191
	},
	{
	"epoch": 2.7113857016769636,
	"grad_norm": 0.15752313446706914,
	"learning_rate": 4.019946537355033e-05,
	"loss": 0.3614,
	"step": 192
	},
	{
	"epoch": 2.7255075022065314,
	"grad_norm": 0.13647413322377422,
	"learning_rate": 3.9800534626449683e-05,
	"loss": 0.3634,
	"step": 193
	},
	{
	"epoch": 2.7396293027360987,
	"grad_norm": 0.13525074863232164,
	"learning_rate": 3.940162371938947e-05,
	"loss": 0.3587,
	"step": 194
	},
	{
	"epoch": 2.7537511032656665,
	"grad_norm": 0.13297285710552217,
	"learning_rate": 3.9002772330477096e-05,
	"loss": 0.3599,
	"step": 195
	},
	{
	"epoch": 2.767872903795234,
	"grad_norm": 0.14225004712058384,
	"learning_rate": 3.860402013189998e-05,
	"loss": 0.3575,
	"step": 196
	},
	{
	"epoch": 2.7819947043248012,
	"grad_norm": 0.13373630438071715,
	"learning_rate": 3.820540678597942e-05,
	"loss": 0.3648,
	"step": 197
	},
	{
	"epoch": 2.796116504854369,
	"grad_norm": 0.12615478953418785,
	"learning_rate": 3.78069719412256e-05,
	"loss": 0.3609,
	"step": 198
	},
	{
	"epoch": 2.8102383053839364,
	"grad_norm": 0.12669967225071216,
	"learning_rate": 3.740875522839393e-05,
	"loss": 0.3608,
	"step": 199
	},
	{
	"epoch": 2.824360105913504,
	"grad_norm": 0.13635382545910668,
	"learning_rate": 3.7010796256543034e-05,
	"loss": 0.3549,
	"step": 200
	},
	{
	"epoch": 2.8384819064430715,
	"grad_norm": 0.11546629160995592,
	"learning_rate": 3.661313460909507e-05,
	"loss": 0.3593,
	"step": 201
	},
	{
	"epoch": 2.852603706972639,
	"grad_norm": 0.12139128794186867,
	"learning_rate": 3.621580983989852e-05,
	"loss": 0.3608,
	"step": 202
	},
	{
	"epoch": 2.8667255075022067,
	"grad_norm": 0.12319344865206981,
	"learning_rate": 3.581886146929387e-05,
	"loss": 0.3605,
	"step": 203
	},
	{
	"epoch": 2.880847308031774,
	"grad_norm": 0.14742473593815408,
	"learning_rate": 3.542232898018273e-05,
	"loss": 0.3582,
	"step": 204
	},
	{
	"epoch": 2.894969108561342,
	"grad_norm": 0.11086460953888361,
	"learning_rate": 3.5026251814100604e-05,
	"loss": 0.359,
	"step": 205
	},
	{
	"epoch": 2.909090909090909,
	"grad_norm": 0.13533789741325936,
	"learning_rate": 3.4630669367293797e-05,
	"loss": 0.3562,
	"step": 206
	},
	{
	"epoch": 2.9232127096204765,
	"grad_norm": 0.11573276006772669,
	"learning_rate": 3.4235620986800806e-05,
	"loss": 0.3641,
	"step": 207
	},
	{
	"epoch": 2.937334510150044,
	"grad_norm": 0.12838446326005826,
	"learning_rate": 3.384114596653866e-05,
	"loss": 0.361,
	"step": 208
	},
	{
	"epoch": 2.9514563106796117,
	"grad_norm": 0.12304575149956651,
	"learning_rate": 3.344728354339449e-05,
	"loss": 0.3586,
	"step": 209
	},
	{
	"epoch": 2.965578111209179,
	"grad_norm": 0.12773291501034634,
	"learning_rate": 3.305407289332279e-05,
	"loss": 0.3559,
	"step": 210
	},
	{
	"epoch": 2.979699911738747,
	"grad_norm": 0.16335068209235123,
	"learning_rate": 3.266155312744871e-05,
	"loss": 0.3631,
	"step": 211
	},
	{
	"epoch": 2.993821712268314,
	"grad_norm": 0.1186978138033666,
	"learning_rate": 3.226976328817788e-05,
	"loss": 0.3927,
	"step": 212
	},
	{
	"epoch": 3.0079435127978815,
	"grad_norm": 0.16211984652497452,
	"learning_rate": 3.187874234531296e-05,
	"loss": 0.3822,
	"step": 213
	},
	{
	"epoch": 3.0220653133274493,
	"grad_norm": 0.14214772364476422,
	"learning_rate": 3.1488529192177526e-05,
	"loss": 0.3393,
	"step": 214
	},
	{
	"epoch": 3.0361871138570167,
	"grad_norm": 0.13255124874063956,
	"learning_rate": 3.109916264174743e-05,
	"loss": 0.3373,
	"step": 215
	},
	{
	"epoch": 3.0503089143865845,
	"grad_norm": 0.16606000923059963,
	"learning_rate": 3.071068142279031e-05,
	"loss": 0.3371,
	"step": 216
	},
	{
	"epoch": 3.064430714916152,
	"grad_norm": 0.14657630327267304,
	"learning_rate": 3.0323124176013297e-05,
	"loss": 0.3355,
	"step": 217
	},
	{
	"epoch": 3.078552515445719,
	"grad_norm": 0.1341605905929287,
	"learning_rate": 2.993652945021966e-05,
	"loss": 0.3377,
	"step": 218
	},
	{
	"epoch": 3.092674315975287,
	"grad_norm": 0.14490108611743277,
	"learning_rate": 2.955093569847447e-05,
	"loss": 0.3366,
	"step": 219
	},
	{
	"epoch": 3.1067961165048543,
	"grad_norm": 0.13919821523407064,
	"learning_rate": 2.9166381274279803e-05,
	"loss": 0.3312,
	"step": 220
	},
	{
	"epoch": 3.120917917034422,
	"grad_norm": 0.16300975058477254,
	"learning_rate": 2.8782904427759898e-05,
	"loss": 0.3311,
	"step": 221
	},
	{
	"epoch": 3.1350397175639895,
	"grad_norm": 0.1183225077661534,
	"learning_rate": 2.8400543301856553e-05,
	"loss": 0.3282,
	"step": 222
	},
	{
	"epoch": 3.149161518093557,
	"grad_norm": 0.14092204872317698,
	"learning_rate": 2.8019335928535234e-05,
	"loss": 0.3297,
	"step": 223
	},
	{
	"epoch": 3.1632833186231246,
	"grad_norm": 0.1282390396455681,
	"learning_rate": 2.7639320225002108e-05,
	"loss": 0.327,
	"step": 224
	},
	{
	"epoch": 3.177405119152692,
	"grad_norm": 0.12936573725572997,
	"learning_rate": 2.7260533989932628e-05,
	"loss": 0.3346,
	"step": 225
	},
	{
	"epoch": 3.1915269196822593,
	"grad_norm": 0.11727309920196596,
	"learning_rate": 2.688301489971183e-05,
	"loss": 0.3271,
	"step": 226
	},
	{
	"epoch": 3.205648720211827,
	"grad_norm": 0.12274146196879084,
	"learning_rate": 2.6506800504686806e-05,
	"loss": 0.328,
	"step": 227
	},
	{
	"epoch": 3.2197705207413945,
	"grad_norm": 0.11029811005681434,
	"learning_rate": 2.6131928225431713e-05,
	"loss": 0.33,
	"step": 228
	},
	{
	"epoch": 3.233892321270962,
	"grad_norm": 0.12463320131443856,
	"learning_rate": 2.575843534902573e-05,
	"loss": 0.3358,
	"step": 229
	},
	{
	"epoch": 3.2480141218005296,
	"grad_norm": 0.11256203223325899,
	"learning_rate": 2.53863590253442e-05,
	"loss": 0.3364,
	"step": 230
	},
	{
	"epoch": 3.262135922330097,
	"grad_norm": 0.10841743259905046,
	"learning_rate": 2.501573626336352e-05,
	"loss": 0.3337,
	"step": 231
	},
	{
	"epoch": 3.2762577228596648,
	"grad_norm": 0.11593566286716334,
	"learning_rate": 2.464660392747999e-05,
	"loss": 0.3301,
	"step": 232
	},
	{
	"epoch": 3.290379523389232,
	"grad_norm": 0.10969283000201786,
	"learning_rate": 2.427899873384306e-05,
	"loss": 0.332,
	"step": 233
	},
	{
	"epoch": 3.3045013239187995,
	"grad_norm": 0.12033857141829916,
	"learning_rate": 2.3912957246703305e-05,
	"loss": 0.3377,
	"step": 234
	},
	{
	"epoch": 3.3186231244483673,
	"grad_norm": 0.10210001952439796,
	"learning_rate": 2.3548515874775547e-05,
	"loss": 0.3297,
	"step": 235
	},
	{
	"epoch": 3.3327449249779346,
	"grad_norm": 0.12241287674636975,
	"learning_rate": 2.3185710867617387e-05,
	"loss": 0.3361,
	"step": 236
	},
	{
	"epoch": 3.3468667255075024,
	"grad_norm": 0.10969299118083352,
	"learning_rate": 2.2824578312023632e-05,
	"loss": 0.3322,
	"step": 237
	},
	{
	"epoch": 3.3609885260370698,
	"grad_norm": 0.12151530040465547,
	"learning_rate": 2.24651541284369e-05,
	"loss": 0.3361,
	"step": 238
	},
	{
	"epoch": 3.375110326566637,
	"grad_norm": 0.10631863902215113,
	"learning_rate": 2.210747406737469e-05,
	"loss": 0.3344,
	"step": 239
	},
	{
	"epoch": 3.389232127096205,
	"grad_norm": 0.11983276963310185,
	"learning_rate": 2.175157370587348e-05,
	"loss": 0.3324,
	"step": 240
	},
	{
	"epoch": 3.4033539276257723,
	"grad_norm": 0.10203118790788067,
	"learning_rate": 2.1397488443949985e-05,
	"loss": 0.3366,
	"step": 241
	},
	{
	"epoch": 3.4174757281553396,
	"grad_norm": 0.11460733945580791,
	"learning_rate": 2.1045253501080058e-05,
	"loss": 0.3335,
	"step": 242
	},
	{
	"epoch": 3.4315975286849074,
	"grad_norm": 0.10361959122829918,
	"learning_rate": 2.0694903912695574e-05,
	"loss": 0.3342,
	"step": 243
	},
	{
	"epoch": 3.4457193292144748,
	"grad_norm": 0.10602009006473866,
	"learning_rate": 2.0346474526699552e-05,
	"loss": 0.3343,
	"step": 244
	},
	{
	"epoch": 3.459841129744042,
	"grad_norm": 0.0981614565374733,
	"learning_rate": 2.0000000000000012e-05,
	"loss": 0.3342,
	"step": 245
	},
	{
	"epoch": 3.47396293027361,
	"grad_norm": 0.10563881070295801,
	"learning_rate": 1.9655514795062746e-05,
	"loss": 0.3317,
	"step": 246
	},
	{
	"epoch": 3.4880847308031773,
	"grad_norm": 0.0982393867459211,
	"learning_rate": 1.931305317648349e-05,
	"loss": 0.336,
	"step": 247
	},
	{
	"epoch": 3.502206531332745,
	"grad_norm": 0.10341107342114168,
	"learning_rate": 1.897264920757981e-05,
	"loss": 0.3329,
	"step": 248
	},
	{
	"epoch": 3.5163283318623124,
	"grad_norm": 0.1009205150822494,
	"learning_rate": 1.8634336747002853e-05,
	"loss": 0.3363,
	"step": 249
	},
	{
	"epoch": 3.5304501323918798,
	"grad_norm": 0.09562831286129422,
	"learning_rate": 1.829814944536963e-05,
	"loss": 0.3366,
	"step": 250
	},
	{
	"epoch": 3.5445719329214476,
	"grad_norm": 0.10055162803558056,
	"learning_rate": 1.7964120741915905e-05,
	"loss": 0.3359,
	"step": 251
	},
	{
	"epoch": 3.558693733451015,
	"grad_norm": 0.10362087580690618,
	"learning_rate": 1.7632283861170135e-05,
	"loss": 0.33,
	"step": 252
	},
	{
	"epoch": 3.5728155339805827,
	"grad_norm": 0.09578324331311534,
	"learning_rate": 1.7302671809648735e-05,
	"loss": 0.3336,
	"step": 253
	},
	{
	"epoch": 3.58693733451015,
	"grad_norm": 0.1021943484963981,
	"learning_rate": 1.6975317372573066e-05,
	"loss": 0.334,
	"step": 254
	},
	{
	"epoch": 3.6010591350397174,
	"grad_norm": 0.10104477227737499,
	"learning_rate": 1.6650253110608415e-05,
	"loss": 0.3352,
	"step": 255
	},
	{
	"epoch": 3.615180935569285,
	"grad_norm": 0.09719144111824624,
	"learning_rate": 1.6327511356625302e-05,
	"loss": 0.3339,
	"step": 256
	},
	{
	"epoch": 3.6293027360988526,
	"grad_norm": 0.10082549447043057,
	"learning_rate": 1.6007124212483453e-05,
	"loss": 0.3303,
	"step": 257
	},
	{
	"epoch": 3.6434245366284204,
	"grad_norm": 0.09855344501708733,
	"learning_rate": 1.5689123545838804e-05,
	"loss": 0.3319,
	"step": 258
	},
	{
	"epoch": 3.6575463371579877,
	"grad_norm": 0.10038693196972406,
	"learning_rate": 1.537354098697367e-05,
	"loss": 0.3285,
	"step": 259
	},
	{
	"epoch": 3.671668137687555,
	"grad_norm": 0.10993218050906065,
	"learning_rate": 1.5060407925650662e-05,
	"loss": 0.3346,
	"step": 260
	},
	{
	"epoch": 3.6857899382171224,
	"grad_norm": 0.09881058692426582,
	"learning_rate": 1.4749755507990449e-05,
	"loss": 0.3265,
	"step": 261
	},
	{
	"epoch": 3.69991173874669,
	"grad_norm": 0.11110424733317653,
	"learning_rate": 1.4441614633373773e-05,
	"loss": 0.3367,
	"step": 262
	},
	{
	"epoch": 3.7140335392762576,
	"grad_norm": 0.09507466207790345,
	"learning_rate": 1.413601595136802e-05,
	"loss": 0.335,
	"step": 263
	},
	{
	"epoch": 3.7281553398058254,
	"grad_norm": 0.10341229060389236,
	"learning_rate": 1.383298985867863e-05,
	"loss": 0.3324,
	"step": 264
	},
	{
	"epoch": 3.7422771403353927,
	"grad_norm": 0.09734360531860331,
	"learning_rate": 1.3532566496125634e-05,
	"loss": 0.3313,
	"step": 265
	},
	{
	"epoch": 3.75639894086496,
	"grad_norm": 0.09174570798780135,
	"learning_rate": 1.3234775745645684e-05,
	"loss": 0.3351,
	"step": 266
	},
	{
	"epoch": 3.770520741394528,
	"grad_norm": 0.10147835781586892,
	"learning_rate": 1.2939647227319791e-05,
	"loss": 0.3353,
	"step": 267
	},
	{
	"epoch": 3.784642541924095,
	"grad_norm": 0.09808246222031777,
	"learning_rate": 1.2647210296427197e-05,
	"loss": 0.3323,
	"step": 268
	},
	{
	"epoch": 3.798764342453663,
	"grad_norm": 0.09735163985861015,
	"learning_rate": 1.2357494040525416e-05,
	"loss": 0.3391,
	"step": 269
	},
	{
	"epoch": 3.8128861429832304,
	"grad_norm": 0.08930562493255255,
	"learning_rate": 1.2070527276557092e-05,
	"loss": 0.3327,
	"step": 270
	},
	{
	"epoch": 3.8270079435127977,
	"grad_norm": 0.09744814905553326,
	"learning_rate": 1.178633854798365e-05,
	"loss": 0.33,
	"step": 271
	},
	{
	"epoch": 3.8411297440423655,
	"grad_norm": 0.09183836496663382,
	"learning_rate": 1.1504956121946216e-05,
	"loss": 0.3317,
	"step": 272
	},
	{
	"epoch": 3.855251544571933,
	"grad_norm": 0.08801876422756064,
	"learning_rate": 1.1226407986453963e-05,
	"loss": 0.3294,
	"step": 273
	},
	{
	"epoch": 3.8693733451015007,
	"grad_norm": 0.08798928229950856,
	"learning_rate": 1.0950721847600282e-05,
	"loss": 0.3282,
	"step": 274
	},
	{
	"epoch": 3.883495145631068,
	"grad_norm": 0.09000845113363774,
	"learning_rate": 1.0677925126806956e-05,
	"loss": 0.335,
	"step": 275
	},
	{
	"epoch": 3.8976169461606354,
	"grad_norm": 0.09609952332604478,
	"learning_rate": 1.040804495809665e-05,
	"loss": 0.3352,
	"step": 276
	},
	{
	"epoch": 3.911738746690203,
	"grad_norm": 0.09426777621829556,
	"learning_rate": 1.0141108185393995e-05,
	"loss": 0.3307,
	"step": 277
	},
	{
	"epoch": 3.9258605472197705,
	"grad_norm": 0.08749576305220681,
	"learning_rate": 9.877141359855567e-06,
	"loss": 0.3316,
	"step": 278
	},
	{
	"epoch": 3.9399823477493383,
	"grad_norm": 0.08573388419725536,
	"learning_rate": 9.616170737228882e-06,
	"loss": 0.3301,
	"step": 279
	},
	{
	"epoch": 3.9541041482789057,
	"grad_norm": 0.08677743094561904,
	"learning_rate": 9.358222275240884e-06,
	"loss": 0.3309,
	"step": 280
	},
	{
	"epoch": 3.968225948808473,
	"grad_norm": 0.08456912932018501,
	"learning_rate": 9.103321631016024e-06,
	"loss": 0.3294,
	"step": 281
	},
	{
	"epoch": 3.9823477493380404,
	"grad_norm": 0.0892840459688823,
	"learning_rate": 8.851494158524242e-06,
	"loss": 0.3299,
	"step": 282
	},
	{
	"epoch": 3.996469549867608,
	"grad_norm": 0.09785834932292316,
	"learning_rate": 8.602764906059109e-06,
	"loss": 0.3734,
	"step": 283
	},
	{
	"epoch": 4.010591350397176,
	"grad_norm": 0.1159182382828669,
	"learning_rate": 8.35715861374636e-06,
	"loss": 0.3432,
	"step": 284
	},
	{
	"epoch": 4.024713150926743,
	"grad_norm": 0.11348869033645836,
	"learning_rate": 8.114699711083113e-06,
	"loss": 0.3187,
	"step": 285
	},
	{
	"epoch": 4.038834951456311,
	"grad_norm": 0.09626843456466473,
	"learning_rate": 7.875412314507942e-06,
	"loss": 0.3213,
	"step": 286
	},
	{
	"epoch": 4.052956751985878,
	"grad_norm": 0.0918806636447836,
	"learning_rate": 7.639320225002106e-06,
	"loss": 0.3169,
	"step": 287
	},
	{
	"epoch": 4.067078552515445,
	"grad_norm": 0.09514043448978982,
	"learning_rate": 7.406446925722211e-06,
	"loss": 0.3148,
	"step": 288
	},
	{
	"epoch": 4.081200353045014,
	"grad_norm": 0.10508295602012874,
	"learning_rate": 7.176815579664343e-06,
	"loss": 0.3132,
	"step": 289
	},
	{
	"epoch": 4.095322153574581,
	"grad_norm": 0.10091079365331981,
	"learning_rate": 6.950449027360213e-06,
	"loss": 0.3175,
	"step": 290
	},
	{
	"epoch": 4.109443954104148,
	"grad_norm": 0.0973346460822993,
	"learning_rate": 6.7273697846052515e-06,
	"loss": 0.3184,
	"step": 291
	},
	{
	"epoch": 4.123565754633716,
	"grad_norm": 0.09115379235697503,
	"learning_rate": 6.507600040219073e-06,
	"loss": 0.3164,
	"step": 292
	},
	{
	"epoch": 4.137687555163283,
	"grad_norm": 0.08901902718597547,
	"learning_rate": 6.291161653838434e-06,
	"loss": 0.3177,
	"step": 293
	},
	{
	"epoch": 4.151809355692851,
	"grad_norm": 0.09132299423316595,
	"learning_rate": 6.078076153742962e-06,
	"loss": 0.3131,
	"step": 294
	},
	{
	"epoch": 4.165931156222419,
	"grad_norm": 0.09543903005749907,
	"learning_rate": 5.868364734713776e-06,
	"loss": 0.3142,
	"step": 295
	},
	{
	"epoch": 4.180052956751986,
	"grad_norm": 0.09061531269851537,
	"learning_rate": 5.662048255925357e-06,
	"loss": 0.3204,
	"step": 296
	},
	{
	"epoch": 4.194174757281553,
	"grad_norm": 0.08551951038992002,
	"learning_rate": 5.459147238870768e-06,
	"loss": 0.3158,
	"step": 297
	},
	{
	"epoch": 4.208296557811121,
	"grad_norm": 0.08387425510980595,
	"learning_rate": 5.259681865320447e-06,
	"loss": 0.3194,
	"step": 298
	},
	{
	"epoch": 4.222418358340688,
	"grad_norm": 0.0901228464398898,
	"learning_rate": 5.063671975314814e-06,
	"loss": 0.3163,
	"step": 299
	},
	{
	"epoch": 4.236540158870256,
	"grad_norm": 0.08691256583540367,
	"learning_rate": 4.871137065190854e-06,
	"loss": 0.315,
	"step": 300
	},
	{
	"epoch": 4.250661959399824,
	"grad_norm": 0.0878527835574059,
	"learning_rate": 4.6820962856429205e-06,
	"loss": 0.3176,
	"step": 301
	},
	{
	"epoch": 4.264783759929391,
	"grad_norm": 0.0840437037057203,
	"learning_rate": 4.496568439817836e-06,
	"loss": 0.322,
	"step": 302
	},
	{
	"epoch": 4.278905560458958,
	"grad_norm": 0.08904988122589128,
	"learning_rate": 4.314571981444666e-06,
	"loss": 0.311,
	"step": 303
	},
	{
	"epoch": 4.293027360988526,
	"grad_norm": 0.08120215219780037,
	"learning_rate": 4.136125012999168e-06,
	"loss": 0.3203,
	"step": 304
	},
	{
	"epoch": 4.307149161518094,
	"grad_norm": 0.08522052695009742,
	"learning_rate": 3.961245283903239e-06,
	"loss": 0.3161,
	"step": 305
	},
	{
	"epoch": 4.321270962047661,
	"grad_norm": 0.08319753808748938,
	"learning_rate": 3.7899501887594102e-06,
	"loss": 0.315,
	"step": 306
	},
	{
	"epoch": 4.335392762577229,
	"grad_norm": 0.08198211403858394,
	"learning_rate": 3.622256765620713e-06,
	"loss": 0.3165,
	"step": 307
	},
	{
	"epoch": 4.349514563106796,
	"grad_norm": 0.07827444542073485,
	"learning_rate": 3.458181694295961e-06,
	"loss": 0.3114,
	"step": 308
	},
	{
	"epoch": 4.363636363636363,
	"grad_norm": 0.07827005931051699,
	"learning_rate": 3.297741294690644e-06,
	"loss": 0.3125,
	"step": 309
	},
	{
	"epoch": 4.3777581641659316,
	"grad_norm": 0.07833274350751808,
	"learning_rate": 3.140951525183691e-06,
	"loss": 0.3156,
	"step": 310
	},
	{
	"epoch": 4.391879964695499,
	"grad_norm": 0.08055700180528477,
	"learning_rate": 2.987827981040132e-06,
	"loss": 0.3144,
	"step": 311
	},
	{
	"epoch": 4.406001765225066,
	"grad_norm": 0.0799614180245514,
	"learning_rate": 2.8383858928598963e-06,
	"loss": 0.3157,
	"step": 312
	},
	{
	"epoch": 4.420123565754634,
	"grad_norm": 0.0722165779006397,
	"learning_rate": 2.692640125062895e-06,
	"loss": 0.3116,
	"step": 313
	},
	{
	"epoch": 4.434245366284201,
	"grad_norm": 0.07776220076295337,
	"learning_rate": 2.550605174410512e-06,
	"loss": 0.3206,
	"step": 314
	},
	{
	"epoch": 4.448367166813769,
	"grad_norm": 0.07577160557474086,
	"learning_rate": 2.4122951685636674e-06,
	"loss": 0.3119,
	"step": 315
	},
	{
	"epoch": 4.4624889673433366,
	"grad_norm": 0.07292199486310709,
	"learning_rate": 2.2777238646775768e-06,
	"loss": 0.314,
	"step": 316
	},
	{
	"epoch": 4.476610767872904,
	"grad_norm": 0.07321270589774292,
	"learning_rate": 2.14690464803343e-06,
	"loss": 0.3116,
	"step": 317
	},
	{
	"epoch": 4.490732568402471,
	"grad_norm": 0.07971761444372055,
	"learning_rate": 2.0198505307069462e-06,
	"loss": 0.3162,
	"step": 318
	},
	{
	"epoch": 4.504854368932039,
	"grad_norm": 0.0823725656624792,
	"learning_rate": 1.896574150274151e-06,
	"loss": 0.318,
	"step": 319
	},
	{
	"epoch": 4.518976169461606,
	"grad_norm": 0.07311612247681858,
	"learning_rate": 1.7770877685543687e-06,
	"loss": 0.3146,
	"step": 320
	},
	{
	"epoch": 4.533097969991174,
	"grad_norm": 0.0754285797360244,
	"learning_rate": 1.6614032703905714e-06,
	"loss": 0.3188,
	"step": 321
	},
	{
	"epoch": 4.5472197705207416,
	"grad_norm": 0.07192329712907819,
	"learning_rate": 1.5495321624672443e-06,
	"loss": 0.3117,
	"step": 322
	},
	{
	"epoch": 4.561341571050309,
	"grad_norm": 0.07683729191513318,
	"learning_rate": 1.4414855721658705e-06,
	"loss": 0.3179,
	"step": 323
	},
	{
	"epoch": 4.575463371579876,
	"grad_norm": 0.07466087193345237,
	"learning_rate": 1.3372742464581134e-06,
	"loss": 0.3169,
	"step": 324
	},
	{
	"epoch": 4.589585172109444,
	"grad_norm": 0.07472750780066512,
	"learning_rate": 1.2369085508368862e-06,
	"loss": 0.313,
	"step": 325
	},
	{
	"epoch": 4.603706972639012,
	"grad_norm": 0.07567268942020543,
	"learning_rate": 1.1403984682852998e-06,
	"loss": 0.3162,
	"step": 326
	},
	{
	"epoch": 4.617828773168579,
	"grad_norm": 0.07193466653913613,
	"learning_rate": 1.0477535982837473e-06,
	"loss": 0.3169,
	"step": 327
	},
	{
	"epoch": 4.631950573698147,
	"grad_norm": 0.07310364397796111,
	"learning_rate": 9.589831558550222e-07,
	"loss": 0.3147,
	"step": 328
	},
	{
	"epoch": 4.646072374227714,
	"grad_norm": 0.07226831665121733,
	"learning_rate": 8.740959706477725e-07,
	"loss": 0.3155,
	"step": 329
	},
	{
	"epoch": 4.660194174757281,
	"grad_norm": 0.07380784680617208,
	"learning_rate": 7.93100486058247e-07,
	"loss": 0.3172,
	"step": 330
	},
	{
	"epoch": 4.674315975286849,
	"grad_norm": 0.07265097137199653,
	"learning_rate": 7.160047583904473e-07,
	"loss": 0.3123,
	"step": 331
	},
	{
	"epoch": 4.688437775816417,
	"grad_norm": 0.07526606061681983,
	"learning_rate": 6.428164560548134e-07,
	"loss": 0.3126,
	"step": 332
	},
	{
	"epoch": 4.702559576345984,
	"grad_norm": 0.07096951660387449,
	"learning_rate": 5.735428588054825e-07,
	"loss": 0.3091,
	"step": 333
	},
	{
	"epoch": 4.716681376875552,
	"grad_norm": 0.07491929428893927,
	"learning_rate": 5.081908570161753e-07,
	"loss": 0.3168,
	"step": 334
	},
	{
	"epoch": 4.730803177405119,
	"grad_norm": 0.07068035565889964,
	"learning_rate": 4.467669509948591e-07,
	"loss": 0.3168,
	"step": 335
	},
	{
	"epoch": 4.744924977934687,
	"grad_norm": 0.07006153238881019,
	"learning_rate": 3.8927725033718553e-07,
	"loss": 0.3096,
	"step": 336
	},
	{
	"epoch": 4.7590467784642545,
	"grad_norm": 0.07031296479074185,
	"learning_rate": 3.3572747331878984e-07,
	"loss": 0.3127,
	"step": 337
	},
	{
	"epoch": 4.773168578993822,
	"grad_norm": 0.07086156685048181,
	"learning_rate": 2.8612294632650586e-07,
	"loss": 0.3165,
	"step": 338
	},
	{
	"epoch": 4.787290379523389,
	"grad_norm": 0.07041702874195928,
	"learning_rate": 2.404686033285897e-07,
	"loss": 0.3211,
	"step": 339
	},
	{
	"epoch": 4.801412180052957,
	"grad_norm": 0.07111545002538634,
	"learning_rate": 1.9876898538394362e-07,
	"loss": 0.3139,
	"step": 340
	},
	{
	"epoch": 4.815533980582524,
	"grad_norm": 0.06964445264833816,
	"learning_rate": 1.6102824019043728e-07,
	"loss": 0.3119,
	"step": 341
	},
	{
	"epoch": 4.829655781112092,
	"grad_norm": 0.07185826317569316,
	"learning_rate": 1.2725012167236207e-07,
	"loss": 0.3189,
	"step": 342
	},
	{
	"epoch": 4.8437775816416595,
	"grad_norm": 0.07175971991165786,
	"learning_rate": 9.74379896070321e-08,
	"loss": 0.3144,
	"step": 343
	},
	{
	"epoch": 4.857899382171227,
	"grad_norm": 0.07027377563502572,
	"learning_rate": 7.159480929059381e-08,
	"loss": 0.3208,
	"step": 344
	},
	{
	"epoch": 4.872021182700794,
	"grad_norm": 0.07130198834034268,
	"learning_rate": 4.9723151243106225e-08,
	"loss": 0.3164,
	"step": 345
	},
	{
	"epoch": 4.886142983230362,
	"grad_norm": 0.07512577557190175,
	"learning_rate": 3.1825190952829986e-08,
	"loss": 0.3183,
	"step": 346
	},
	{
	"epoch": 4.90026478375993,
	"grad_norm": 0.0718819094759202,
	"learning_rate": 1.7902708659867096e-08,
	"loss": 0.3185,
	"step": 347
	},
	{
	"epoch": 4.914386584289497,
	"grad_norm": 0.0706893833001464,
	"learning_rate": 7.957089179058131e-09,
	"loss": 0.3142,
	"step": 348
	},
	{
	"epoch": 4.9285083848190645,
	"grad_norm": 0.07170028442056126,
	"learning_rate": 1.9893217622790616e-09,
	"loss": 0.3181,
	"step": 349
	},
	{
	"epoch": 4.942630185348632,
	"grad_norm": 0.07142066838497432,
	"learning_rate": 0.0,
	"loss": 0.313,
	"step": 350
	},
	{
	"epoch": 4.942630185348632,
	"step": 350,
	"total_flos": 9.306564393200255e+18,
	"train_loss": 0.0,
	"train_runtime": 1.9909,
	"train_samples_per_second": 91040.986,
	"train_steps_per_second": 175.798
	}
	],
	"logging_steps": 1,
	"max_steps": 350,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 9.306564393200255e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}