Training in progress, step 1107, checkpoint

bed099f verified about 1 month ago

196 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.631578947368421,
	"eval_steps": 369,
	"global_step": 1107,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0005705320211096848,
	"grad_norm": 83.0,
	"learning_rate": 0.0,
	"loss": 3.648493528366089,
	"step": 1
	},
	{
	"epoch": 0.0011410640422193695,
	"grad_norm": 84.5,
	"learning_rate": 1.3513513513513515e-06,
	"loss": 3.7405500411987305,
	"step": 2
	},
	{
	"epoch": 0.0017115960633290544,
	"grad_norm": 74.0,
	"learning_rate": 2.702702702702703e-06,
	"loss": 3.510922431945801,
	"step": 3
	},
	{
	"epoch": 0.002282128084438739,
	"grad_norm": 74.0,
	"learning_rate": 4.0540540540540545e-06,
	"loss": 3.477842330932617,
	"step": 4
	},
	{
	"epoch": 0.002852660105548424,
	"grad_norm": 48.5,
	"learning_rate": 5.405405405405406e-06,
	"loss": 3.2050325870513916,
	"step": 5
	},
	{
	"epoch": 0.0034231921266581087,
	"grad_norm": 35.0,
	"learning_rate": 6.7567567567567575e-06,
	"loss": 2.9610347747802734,
	"step": 6
	},
	{
	"epoch": 0.003993724147767793,
	"grad_norm": 25.75,
	"learning_rate": 8.108108108108109e-06,
	"loss": 2.8089160919189453,
	"step": 7
	},
	{
	"epoch": 0.004564256168877478,
	"grad_norm": 15.25,
	"learning_rate": 9.45945945945946e-06,
	"loss": 2.672607183456421,
	"step": 8
	},
	{
	"epoch": 0.005134788189987163,
	"grad_norm": 10.125,
	"learning_rate": 1.0810810810810812e-05,
	"loss": 2.4392411708831787,
	"step": 9
	},
	{
	"epoch": 0.005705320211096848,
	"grad_norm": 8.875,
	"learning_rate": 1.2162162162162164e-05,
	"loss": 2.4409432411193848,
	"step": 10
	},
	{
	"epoch": 0.006275852232206533,
	"grad_norm": 7.40625,
	"learning_rate": 1.3513513513513515e-05,
	"loss": 2.3299427032470703,
	"step": 11
	},
	{
	"epoch": 0.0068463842533162175,
	"grad_norm": 6.6875,
	"learning_rate": 1.4864864864864867e-05,
	"loss": 2.2852554321289062,
	"step": 12
	},
	{
	"epoch": 0.007416916274425902,
	"grad_norm": 6.5625,
	"learning_rate": 1.6216216216216218e-05,
	"loss": 2.2712786197662354,
	"step": 13
	},
	{
	"epoch": 0.007987448295535587,
	"grad_norm": 7.1875,
	"learning_rate": 1.756756756756757e-05,
	"loss": 2.2143714427948,
	"step": 14
	},
	{
	"epoch": 0.008557980316645272,
	"grad_norm": 7.0,
	"learning_rate": 1.891891891891892e-05,
	"loss": 2.0812437534332275,
	"step": 15
	},
	{
	"epoch": 0.009128512337754956,
	"grad_norm": 6.28125,
	"learning_rate": 2.0270270270270273e-05,
	"loss": 2.068169355392456,
	"step": 16
	},
	{
	"epoch": 0.009699044358864642,
	"grad_norm": 5.75,
	"learning_rate": 2.1621621621621624e-05,
	"loss": 1.8387004137039185,
	"step": 17
	},
	{
	"epoch": 0.010269576379974325,
	"grad_norm": 4.3125,
	"learning_rate": 2.2972972972972976e-05,
	"loss": 1.7710001468658447,
	"step": 18
	},
	{
	"epoch": 0.01084010840108401,
	"grad_norm": 4.25,
	"learning_rate": 2.4324324324324327e-05,
	"loss": 1.7796661853790283,
	"step": 19
	},
	{
	"epoch": 0.011410640422193696,
	"grad_norm": 3.5,
	"learning_rate": 2.5675675675675675e-05,
	"loss": 1.6957234144210815,
	"step": 20
	},
	{
	"epoch": 0.01198117244330338,
	"grad_norm": 3.21875,
	"learning_rate": 2.702702702702703e-05,
	"loss": 1.7516167163848877,
	"step": 21
	},
	{
	"epoch": 0.012551704464413066,
	"grad_norm": 2.78125,
	"learning_rate": 2.8378378378378378e-05,
	"loss": 1.6087043285369873,
	"step": 22
	},
	{
	"epoch": 0.01312223648552275,
	"grad_norm": 2.34375,
	"learning_rate": 2.9729729729729733e-05,
	"loss": 1.5943574905395508,
	"step": 23
	},
	{
	"epoch": 0.013692768506632435,
	"grad_norm": 2.140625,
	"learning_rate": 3.108108108108108e-05,
	"loss": 1.599621295928955,
	"step": 24
	},
	{
	"epoch": 0.014263300527742119,
	"grad_norm": 2.234375,
	"learning_rate": 3.2432432432432436e-05,
	"loss": 1.6016688346862793,
	"step": 25
	},
	{
	"epoch": 0.014833832548851804,
	"grad_norm": 1.9609375,
	"learning_rate": 3.3783783783783784e-05,
	"loss": 1.5124552249908447,
	"step": 26
	},
	{
	"epoch": 0.01540436456996149,
	"grad_norm": 1.9765625,
	"learning_rate": 3.513513513513514e-05,
	"loss": 1.5520291328430176,
	"step": 27
	},
	{
	"epoch": 0.015974896591071173,
	"grad_norm": 1.90625,
	"learning_rate": 3.648648648648649e-05,
	"loss": 1.4819629192352295,
	"step": 28
	},
	{
	"epoch": 0.01654542861218086,
	"grad_norm": 2.0,
	"learning_rate": 3.783783783783784e-05,
	"loss": 1.5304462909698486,
	"step": 29
	},
	{
	"epoch": 0.017115960633290545,
	"grad_norm": 1.7734375,
	"learning_rate": 3.918918918918919e-05,
	"loss": 1.4461307525634766,
	"step": 30
	},
	{
	"epoch": 0.017686492654400227,
	"grad_norm": 1.8125,
	"learning_rate": 4.0540540540540545e-05,
	"loss": 1.4548516273498535,
	"step": 31
	},
	{
	"epoch": 0.018257024675509912,
	"grad_norm": 1.6875,
	"learning_rate": 4.189189189189189e-05,
	"loss": 1.435849905014038,
	"step": 32
	},
	{
	"epoch": 0.018827556696619598,
	"grad_norm": 1.578125,
	"learning_rate": 4.324324324324325e-05,
	"loss": 1.4789021015167236,
	"step": 33
	},
	{
	"epoch": 0.019398088717729283,
	"grad_norm": 1.578125,
	"learning_rate": 4.4594594594594596e-05,
	"loss": 1.3856297731399536,
	"step": 34
	},
	{
	"epoch": 0.01996862073883897,
	"grad_norm": 1.65625,
	"learning_rate": 4.594594594594595e-05,
	"loss": 1.5028152465820312,
	"step": 35
	},
	{
	"epoch": 0.02053915275994865,
	"grad_norm": 1.46875,
	"learning_rate": 4.72972972972973e-05,
	"loss": 1.4294812679290771,
	"step": 36
	},
	{
	"epoch": 0.021109684781058336,
	"grad_norm": 1.65625,
	"learning_rate": 4.8648648648648654e-05,
	"loss": 1.3971917629241943,
	"step": 37
	},
	{
	"epoch": 0.02168021680216802,
	"grad_norm": 1.515625,
	"learning_rate": 5e-05,
	"loss": 1.3995487689971924,
	"step": 38
	},
	{
	"epoch": 0.022250748823277707,
	"grad_norm": 1.703125,
	"learning_rate": 4.9972283813747225e-05,
	"loss": 1.4693856239318848,
	"step": 39
	},
	{
	"epoch": 0.022821280844387393,
	"grad_norm": 1.5703125,
	"learning_rate": 4.994456762749446e-05,
	"loss": 1.4715073108673096,
	"step": 40
	},
	{
	"epoch": 0.023391812865497075,
	"grad_norm": 1.703125,
	"learning_rate": 4.9916851441241684e-05,
	"loss": 1.490320086479187,
	"step": 41
	},
	{
	"epoch": 0.02396234488660676,
	"grad_norm": 1.5,
	"learning_rate": 4.9889135254988913e-05,
	"loss": 1.3657546043395996,
	"step": 42
	},
	{
	"epoch": 0.024532876907716446,
	"grad_norm": 1.7109375,
	"learning_rate": 4.986141906873614e-05,
	"loss": 1.4324053525924683,
	"step": 43
	},
	{
	"epoch": 0.02510340892882613,
	"grad_norm": 1.7890625,
	"learning_rate": 4.983370288248337e-05,
	"loss": 1.3849389553070068,
	"step": 44
	},
	{
	"epoch": 0.025673940949935817,
	"grad_norm": 1.453125,
	"learning_rate": 4.98059866962306e-05,
	"loss": 1.425079345703125,
	"step": 45
	},
	{
	"epoch": 0.0262444729710455,
	"grad_norm": 1.484375,
	"learning_rate": 4.977827050997783e-05,
	"loss": 1.4127968549728394,
	"step": 46
	},
	{
	"epoch": 0.026815004992155184,
	"grad_norm": 1.5390625,
	"learning_rate": 4.9750554323725054e-05,
	"loss": 1.429938793182373,
	"step": 47
	},
	{
	"epoch": 0.02738553701326487,
	"grad_norm": 1.4140625,
	"learning_rate": 4.972283813747229e-05,
	"loss": 1.4178887605667114,
	"step": 48
	},
	{
	"epoch": 0.027956069034374555,
	"grad_norm": 1.46875,
	"learning_rate": 4.969512195121951e-05,
	"loss": 1.4397588968276978,
	"step": 49
	},
	{
	"epoch": 0.028526601055484237,
	"grad_norm": 1.453125,
	"learning_rate": 4.966740576496674e-05,
	"loss": 1.3697854280471802,
	"step": 50
	},
	{
	"epoch": 0.029097133076593923,
	"grad_norm": 1.3984375,
	"learning_rate": 4.963968957871397e-05,
	"loss": 1.3517988920211792,
	"step": 51
	},
	{
	"epoch": 0.02966766509770361,
	"grad_norm": 1.3984375,
	"learning_rate": 4.9611973392461195e-05,
	"loss": 1.4193122386932373,
	"step": 52
	},
	{
	"epoch": 0.030238197118813294,
	"grad_norm": 1.34375,
	"learning_rate": 4.958425720620843e-05,
	"loss": 1.37640380859375,
	"step": 53
	},
	{
	"epoch": 0.03080872913992298,
	"grad_norm": 1.40625,
	"learning_rate": 4.9556541019955654e-05,
	"loss": 1.336474895477295,
	"step": 54
	},
	{
	"epoch": 0.031379261161032665,
	"grad_norm": 1.515625,
	"learning_rate": 4.952882483370288e-05,
	"loss": 1.4701391458511353,
	"step": 55
	},
	{
	"epoch": 0.03194979318214235,
	"grad_norm": 1.4765625,
	"learning_rate": 4.950110864745011e-05,
	"loss": 1.3760974407196045,
	"step": 56
	},
	{
	"epoch": 0.032520325203252036,
	"grad_norm": 1.4609375,
	"learning_rate": 4.947339246119734e-05,
	"loss": 1.3897124528884888,
	"step": 57
	},
	{
	"epoch": 0.03309085722436172,
	"grad_norm": 1.578125,
	"learning_rate": 4.944567627494457e-05,
	"loss": 1.4239261150360107,
	"step": 58
	},
	{
	"epoch": 0.0336613892454714,
	"grad_norm": 1.53125,
	"learning_rate": 4.94179600886918e-05,
	"loss": 1.3669216632843018,
	"step": 59
	},
	{
	"epoch": 0.03423192126658109,
	"grad_norm": 1.3515625,
	"learning_rate": 4.9390243902439024e-05,
	"loss": 1.346958041191101,
	"step": 60
	},
	{
	"epoch": 0.03480245328769077,
	"grad_norm": 1.5234375,
	"learning_rate": 4.936252771618626e-05,
	"loss": 1.4235575199127197,
	"step": 61
	},
	{
	"epoch": 0.03537298530880045,
	"grad_norm": 1.3359375,
	"learning_rate": 4.933481152993348e-05,
	"loss": 1.3075377941131592,
	"step": 62
	},
	{
	"epoch": 0.03594351732991014,
	"grad_norm": 1.3203125,
	"learning_rate": 4.930709534368071e-05,
	"loss": 1.3214820623397827,
	"step": 63
	},
	{
	"epoch": 0.036514049351019824,
	"grad_norm": 1.3515625,
	"learning_rate": 4.927937915742794e-05,
	"loss": 1.39829421043396,
	"step": 64
	},
	{
	"epoch": 0.03708458137212951,
	"grad_norm": 1.3671875,
	"learning_rate": 4.9251662971175164e-05,
	"loss": 1.3523836135864258,
	"step": 65
	},
	{
	"epoch": 0.037655113393239195,
	"grad_norm": 1.3125,
	"learning_rate": 4.92239467849224e-05,
	"loss": 1.3268153667449951,
	"step": 66
	},
	{
	"epoch": 0.03822564541434888,
	"grad_norm": 1.28125,
	"learning_rate": 4.919623059866962e-05,
	"loss": 1.3205022811889648,
	"step": 67
	},
	{
	"epoch": 0.038796177435458566,
	"grad_norm": 1.2734375,
	"learning_rate": 4.916851441241685e-05,
	"loss": 1.2956037521362305,
	"step": 68
	},
	{
	"epoch": 0.03936670945656825,
	"grad_norm": 1.375,
	"learning_rate": 4.914079822616408e-05,
	"loss": 1.3702654838562012,
	"step": 69
	},
	{
	"epoch": 0.03993724147767794,
	"grad_norm": 1.296875,
	"learning_rate": 4.911308203991131e-05,
	"loss": 1.388296127319336,
	"step": 70
	},
	{
	"epoch": 0.04050777349878762,
	"grad_norm": 1.5078125,
	"learning_rate": 4.908536585365854e-05,
	"loss": 1.4403045177459717,
	"step": 71
	},
	{
	"epoch": 0.0410783055198973,
	"grad_norm": 1.25,
	"learning_rate": 4.905764966740577e-05,
	"loss": 1.3626902103424072,
	"step": 72
	},
	{
	"epoch": 0.04164883754100699,
	"grad_norm": 1.34375,
	"learning_rate": 4.902993348115299e-05,
	"loss": 1.382088303565979,
	"step": 73
	},
	{
	"epoch": 0.04221936956211667,
	"grad_norm": 1.2578125,
	"learning_rate": 4.900221729490023e-05,
	"loss": 1.3237360715866089,
	"step": 74
	},
	{
	"epoch": 0.04278990158322636,
	"grad_norm": 1.296875,
	"learning_rate": 4.897450110864745e-05,
	"loss": 1.319187879562378,
	"step": 75
	},
	{
	"epoch": 0.04336043360433604,
	"grad_norm": 1.3828125,
	"learning_rate": 4.894678492239468e-05,
	"loss": 1.3707743883132935,
	"step": 76
	},
	{
	"epoch": 0.043930965625445725,
	"grad_norm": 1.2578125,
	"learning_rate": 4.891906873614191e-05,
	"loss": 1.3658738136291504,
	"step": 77
	},
	{
	"epoch": 0.044501497646555414,
	"grad_norm": 1.265625,
	"learning_rate": 4.8891352549889134e-05,
	"loss": 1.3247051239013672,
	"step": 78
	},
	{
	"epoch": 0.045072029667665096,
	"grad_norm": 1.421875,
	"learning_rate": 4.886363636363637e-05,
	"loss": 1.3614035844802856,
	"step": 79
	},
	{
	"epoch": 0.045642561688774785,
	"grad_norm": 1.2734375,
	"learning_rate": 4.883592017738359e-05,
	"loss": 1.2589421272277832,
	"step": 80
	},
	{
	"epoch": 0.04621309370988447,
	"grad_norm": 1.28125,
	"learning_rate": 4.880820399113082e-05,
	"loss": 1.3525424003601074,
	"step": 81
	},
	{
	"epoch": 0.04678362573099415,
	"grad_norm": 1.2578125,
	"learning_rate": 4.878048780487805e-05,
	"loss": 1.2903777360916138,
	"step": 82
	},
	{
	"epoch": 0.04735415775210384,
	"grad_norm": 1.328125,
	"learning_rate": 4.875277161862528e-05,
	"loss": 1.3538789749145508,
	"step": 83
	},
	{
	"epoch": 0.04792468977321352,
	"grad_norm": 1.3046875,
	"learning_rate": 4.872505543237251e-05,
	"loss": 1.3419591188430786,
	"step": 84
	},
	{
	"epoch": 0.04849522179432321,
	"grad_norm": 1.28125,
	"learning_rate": 4.869733924611974e-05,
	"loss": 1.3367938995361328,
	"step": 85
	},
	{
	"epoch": 0.04906575381543289,
	"grad_norm": 1.3046875,
	"learning_rate": 4.866962305986696e-05,
	"loss": 1.2979538440704346,
	"step": 86
	},
	{
	"epoch": 0.049636285836542574,
	"grad_norm": 1.25,
	"learning_rate": 4.864190687361419e-05,
	"loss": 1.348291039466858,
	"step": 87
	},
	{
	"epoch": 0.05020681785765226,
	"grad_norm": 1.3125,
	"learning_rate": 4.861419068736142e-05,
	"loss": 1.3377124071121216,
	"step": 88
	},
	{
	"epoch": 0.050777349878761945,
	"grad_norm": 1.328125,
	"learning_rate": 4.8586474501108644e-05,
	"loss": 1.3180426359176636,
	"step": 89
	},
	{
	"epoch": 0.051347881899871634,
	"grad_norm": 1.2109375,
	"learning_rate": 4.855875831485588e-05,
	"loss": 1.3215968608856201,
	"step": 90
	},
	{
	"epoch": 0.051918413920981316,
	"grad_norm": 1.2421875,
	"learning_rate": 4.85310421286031e-05,
	"loss": 1.3354041576385498,
	"step": 91
	},
	{
	"epoch": 0.052488945942091,
	"grad_norm": 1.28125,
	"learning_rate": 4.850332594235034e-05,
	"loss": 1.3552148342132568,
	"step": 92
	},
	{
	"epoch": 0.05305947796320069,
	"grad_norm": 1.2421875,
	"learning_rate": 4.847560975609756e-05,
	"loss": 1.2916048765182495,
	"step": 93
	},
	{
	"epoch": 0.05363000998431037,
	"grad_norm": 1.3125,
	"learning_rate": 4.844789356984479e-05,
	"loss": 1.3131537437438965,
	"step": 94
	},
	{
	"epoch": 0.05420054200542006,
	"grad_norm": 1.296875,
	"learning_rate": 4.842017738359202e-05,
	"loss": 1.2902660369873047,
	"step": 95
	},
	{
	"epoch": 0.05477107402652974,
	"grad_norm": 1.28125,
	"learning_rate": 4.839246119733925e-05,
	"loss": 1.3799315690994263,
	"step": 96
	},
	{
	"epoch": 0.05534160604763942,
	"grad_norm": 1.3515625,
	"learning_rate": 4.836474501108647e-05,
	"loss": 1.3607311248779297,
	"step": 97
	},
	{
	"epoch": 0.05591213806874911,
	"grad_norm": 1.2421875,
	"learning_rate": 4.833702882483371e-05,
	"loss": 1.3038060665130615,
	"step": 98
	},
	{
	"epoch": 0.05648267008985879,
	"grad_norm": 1.234375,
	"learning_rate": 4.830931263858093e-05,
	"loss": 1.318457841873169,
	"step": 99
	},
	{
	"epoch": 0.057053202110968475,
	"grad_norm": 1.2890625,
	"learning_rate": 4.828159645232816e-05,
	"loss": 1.3159422874450684,
	"step": 100
	},
	{
	"epoch": 0.057623734132078164,
	"grad_norm": 1.25,
	"learning_rate": 4.825388026607539e-05,
	"loss": 1.3275076150894165,
	"step": 101
	},
	{
	"epoch": 0.058194266153187846,
	"grad_norm": 1.1796875,
	"learning_rate": 4.8226164079822614e-05,
	"loss": 1.2983460426330566,
	"step": 102
	},
	{
	"epoch": 0.058764798174297535,
	"grad_norm": 1.171875,
	"learning_rate": 4.819844789356985e-05,
	"loss": 1.3114261627197266,
	"step": 103
	},
	{
	"epoch": 0.05933533019540722,
	"grad_norm": 1.1796875,
	"learning_rate": 4.817073170731707e-05,
	"loss": 1.266122817993164,
	"step": 104
	},
	{
	"epoch": 0.0599058622165169,
	"grad_norm": 1.234375,
	"learning_rate": 4.81430155210643e-05,
	"loss": 1.3662368059158325,
	"step": 105
	},
	{
	"epoch": 0.06047639423762659,
	"grad_norm": 1.296875,
	"learning_rate": 4.811529933481153e-05,
	"loss": 1.3158059120178223,
	"step": 106
	},
	{
	"epoch": 0.06104692625873627,
	"grad_norm": 1.234375,
	"learning_rate": 4.808758314855876e-05,
	"loss": 1.3571752309799194,
	"step": 107
	},
	{
	"epoch": 0.06161745827984596,
	"grad_norm": 1.34375,
	"learning_rate": 4.805986696230599e-05,
	"loss": 1.3249101638793945,
	"step": 108
	},
	{
	"epoch": 0.06218799030095564,
	"grad_norm": 1.21875,
	"learning_rate": 4.803215077605322e-05,
	"loss": 1.3386337757110596,
	"step": 109
	},
	{
	"epoch": 0.06275852232206533,
	"grad_norm": 1.2421875,
	"learning_rate": 4.800443458980044e-05,
	"loss": 1.2874070405960083,
	"step": 110
	},
	{
	"epoch": 0.06332905434317501,
	"grad_norm": 1.28125,
	"learning_rate": 4.797671840354768e-05,
	"loss": 1.3232687711715698,
	"step": 111
	},
	{
	"epoch": 0.0638995863642847,
	"grad_norm": 1.203125,
	"learning_rate": 4.79490022172949e-05,
	"loss": 1.3370904922485352,
	"step": 112
	},
	{
	"epoch": 0.06447011838539438,
	"grad_norm": 1.3203125,
	"learning_rate": 4.792128603104213e-05,
	"loss": 1.3211901187896729,
	"step": 113
	},
	{
	"epoch": 0.06504065040650407,
	"grad_norm": 1.2578125,
	"learning_rate": 4.789356984478936e-05,
	"loss": 1.3841608762741089,
	"step": 114
	},
	{
	"epoch": 0.06561118242761375,
	"grad_norm": 1.2890625,
	"learning_rate": 4.786585365853658e-05,
	"loss": 1.4017915725708008,
	"step": 115
	},
	{
	"epoch": 0.06618171444872344,
	"grad_norm": 1.4140625,
	"learning_rate": 4.783813747228382e-05,
	"loss": 1.4110525846481323,
	"step": 116
	},
	{
	"epoch": 0.06675224646983312,
	"grad_norm": 1.2734375,
	"learning_rate": 4.781042128603104e-05,
	"loss": 1.2671241760253906,
	"step": 117
	},
	{
	"epoch": 0.0673227784909428,
	"grad_norm": 1.21875,
	"learning_rate": 4.778270509977827e-05,
	"loss": 1.2970881462097168,
	"step": 118
	},
	{
	"epoch": 0.06789331051205248,
	"grad_norm": 1.3515625,
	"learning_rate": 4.77549889135255e-05,
	"loss": 1.2626357078552246,
	"step": 119
	},
	{
	"epoch": 0.06846384253316218,
	"grad_norm": 1.3203125,
	"learning_rate": 4.772727272727273e-05,
	"loss": 1.2779147624969482,
	"step": 120
	},
	{
	"epoch": 0.06903437455427186,
	"grad_norm": 1.1796875,
	"learning_rate": 4.769955654101996e-05,
	"loss": 1.308679461479187,
	"step": 121
	},
	{
	"epoch": 0.06960490657538154,
	"grad_norm": 1.234375,
	"learning_rate": 4.767184035476719e-05,
	"loss": 1.299755573272705,
	"step": 122
	},
	{
	"epoch": 0.07017543859649122,
	"grad_norm": 1.2578125,
	"learning_rate": 4.764412416851441e-05,
	"loss": 1.3637490272521973,
	"step": 123
	},
	{
	"epoch": 0.0707459706176009,
	"grad_norm": 1.21875,
	"learning_rate": 4.761640798226164e-05,
	"loss": 1.3058216571807861,
	"step": 124
	},
	{
	"epoch": 0.0713165026387106,
	"grad_norm": 1.2734375,
	"learning_rate": 4.758869179600887e-05,
	"loss": 1.3146748542785645,
	"step": 125
	},
	{
	"epoch": 0.07188703465982028,
	"grad_norm": 1.2109375,
	"learning_rate": 4.75609756097561e-05,
	"loss": 1.2844371795654297,
	"step": 126
	},
	{
	"epoch": 0.07245756668092997,
	"grad_norm": 1.25,
	"learning_rate": 4.753325942350333e-05,
	"loss": 1.3195525407791138,
	"step": 127
	},
	{
	"epoch": 0.07302809870203965,
	"grad_norm": 1.1953125,
	"learning_rate": 4.750554323725055e-05,
	"loss": 1.3399118185043335,
	"step": 128
	},
	{
	"epoch": 0.07359863072314933,
	"grad_norm": 1.15625,
	"learning_rate": 4.747782705099779e-05,
	"loss": 1.2919648885726929,
	"step": 129
	},
	{
	"epoch": 0.07416916274425903,
	"grad_norm": 1.2421875,
	"learning_rate": 4.745011086474501e-05,
	"loss": 1.277235507965088,
	"step": 130
	},
	{
	"epoch": 0.07473969476536871,
	"grad_norm": 1.25,
	"learning_rate": 4.742239467849224e-05,
	"loss": 1.3034231662750244,
	"step": 131
	},
	{
	"epoch": 0.07531022678647839,
	"grad_norm": 1.109375,
	"learning_rate": 4.739467849223947e-05,
	"loss": 1.2368437051773071,
	"step": 132
	},
	{
	"epoch": 0.07588075880758807,
	"grad_norm": 1.2265625,
	"learning_rate": 4.73669623059867e-05,
	"loss": 1.3728649616241455,
	"step": 133
	},
	{
	"epoch": 0.07645129082869775,
	"grad_norm": 1.109375,
	"learning_rate": 4.733924611973393e-05,
	"loss": 1.2506084442138672,
	"step": 134
	},
	{
	"epoch": 0.07702182284980745,
	"grad_norm": 1.2109375,
	"learning_rate": 4.731152993348116e-05,
	"loss": 1.2813055515289307,
	"step": 135
	},
	{
	"epoch": 0.07759235487091713,
	"grad_norm": 1.203125,
	"learning_rate": 4.728381374722838e-05,
	"loss": 1.2894189357757568,
	"step": 136
	},
	{
	"epoch": 0.07816288689202681,
	"grad_norm": 1.203125,
	"learning_rate": 4.725609756097561e-05,
	"loss": 1.3396642208099365,
	"step": 137
	},
	{
	"epoch": 0.0787334189131365,
	"grad_norm": 1.359375,
	"learning_rate": 4.722838137472284e-05,
	"loss": 1.3043787479400635,
	"step": 138
	},
	{
	"epoch": 0.07930395093424618,
	"grad_norm": 1.203125,
	"learning_rate": 4.720066518847007e-05,
	"loss": 1.308459997177124,
	"step": 139
	},
	{
	"epoch": 0.07987448295535587,
	"grad_norm": 1.21875,
	"learning_rate": 4.71729490022173e-05,
	"loss": 1.3281002044677734,
	"step": 140
	},
	{
	"epoch": 0.08044501497646556,
	"grad_norm": 1.171875,
	"learning_rate": 4.714523281596452e-05,
	"loss": 1.3146984577178955,
	"step": 141
	},
	{
	"epoch": 0.08101554699757524,
	"grad_norm": 1.203125,
	"learning_rate": 4.711751662971176e-05,
	"loss": 1.3078755140304565,
	"step": 142
	},
	{
	"epoch": 0.08158607901868492,
	"grad_norm": 1.21875,
	"learning_rate": 4.708980044345898e-05,
	"loss": 1.3129773139953613,
	"step": 143
	},
	{
	"epoch": 0.0821566110397946,
	"grad_norm": 1.171875,
	"learning_rate": 4.706208425720621e-05,
	"loss": 1.2827129364013672,
	"step": 144
	},
	{
	"epoch": 0.0827271430609043,
	"grad_norm": 1.171875,
	"learning_rate": 4.703436807095344e-05,
	"loss": 1.3232603073120117,
	"step": 145
	},
	{
	"epoch": 0.08329767508201398,
	"grad_norm": 1.1796875,
	"learning_rate": 4.700665188470067e-05,
	"loss": 1.220211386680603,
	"step": 146
	},
	{
	"epoch": 0.08386820710312366,
	"grad_norm": 1.2421875,
	"learning_rate": 4.69789356984479e-05,
	"loss": 1.3406665325164795,
	"step": 147
	},
	{
	"epoch": 0.08443873912423334,
	"grad_norm": 1.1875,
	"learning_rate": 4.695121951219512e-05,
	"loss": 1.2698848247528076,
	"step": 148
	},
	{
	"epoch": 0.08500927114534303,
	"grad_norm": 1.1171875,
	"learning_rate": 4.692350332594235e-05,
	"loss": 1.3016014099121094,
	"step": 149
	},
	{
	"epoch": 0.08557980316645272,
	"grad_norm": 1.1484375,
	"learning_rate": 4.689578713968958e-05,
	"loss": 1.2674150466918945,
	"step": 150
	},
	{
	"epoch": 0.0861503351875624,
	"grad_norm": 1.234375,
	"learning_rate": 4.686807095343681e-05,
	"loss": 1.316935420036316,
	"step": 151
	},
	{
	"epoch": 0.08672086720867209,
	"grad_norm": 1.125,
	"learning_rate": 4.684035476718403e-05,
	"loss": 1.263155221939087,
	"step": 152
	},
	{
	"epoch": 0.08729139922978177,
	"grad_norm": 1.1875,
	"learning_rate": 4.681263858093127e-05,
	"loss": 1.30006742477417,
	"step": 153
	},
	{
	"epoch": 0.08786193125089145,
	"grad_norm": 1.296875,
	"learning_rate": 4.678492239467849e-05,
	"loss": 1.3325148820877075,
	"step": 154
	},
	{
	"epoch": 0.08843246327200115,
	"grad_norm": 1.3125,
	"learning_rate": 4.675720620842573e-05,
	"loss": 1.2306278944015503,
	"step": 155
	},
	{
	"epoch": 0.08900299529311083,
	"grad_norm": 1.234375,
	"learning_rate": 4.672949002217295e-05,
	"loss": 1.3476486206054688,
	"step": 156
	},
	{
	"epoch": 0.08957352731422051,
	"grad_norm": 1.1953125,
	"learning_rate": 4.670177383592018e-05,
	"loss": 1.2401833534240723,
	"step": 157
	},
	{
	"epoch": 0.09014405933533019,
	"grad_norm": 1.296875,
	"learning_rate": 4.667405764966741e-05,
	"loss": 1.3140380382537842,
	"step": 158
	},
	{
	"epoch": 0.09071459135643987,
	"grad_norm": 1.1875,
	"learning_rate": 4.664634146341464e-05,
	"loss": 1.29231595993042,
	"step": 159
	},
	{
	"epoch": 0.09128512337754957,
	"grad_norm": 1.15625,
	"learning_rate": 4.661862527716186e-05,
	"loss": 1.2908031940460205,
	"step": 160
	},
	{
	"epoch": 0.09185565539865925,
	"grad_norm": 1.140625,
	"learning_rate": 4.659090909090909e-05,
	"loss": 1.259028434753418,
	"step": 161
	},
	{
	"epoch": 0.09242618741976893,
	"grad_norm": 1.203125,
	"learning_rate": 4.656319290465632e-05,
	"loss": 1.2758322954177856,
	"step": 162
	},
	{
	"epoch": 0.09299671944087862,
	"grad_norm": 1.1640625,
	"learning_rate": 4.653547671840355e-05,
	"loss": 1.2392590045928955,
	"step": 163
	},
	{
	"epoch": 0.0935672514619883,
	"grad_norm": 1.2421875,
	"learning_rate": 4.650776053215078e-05,
	"loss": 1.3232059478759766,
	"step": 164
	},
	{
	"epoch": 0.094137783483098,
	"grad_norm": 1.1328125,
	"learning_rate": 4.6480044345898e-05,
	"loss": 1.3052716255187988,
	"step": 165
	},
	{
	"epoch": 0.09470831550420768,
	"grad_norm": 1.15625,
	"learning_rate": 4.645232815964524e-05,
	"loss": 1.2643868923187256,
	"step": 166
	},
	{
	"epoch": 0.09527884752531736,
	"grad_norm": 1.1796875,
	"learning_rate": 4.642461197339246e-05,
	"loss": 1.3158135414123535,
	"step": 167
	},
	{
	"epoch": 0.09584937954642704,
	"grad_norm": 1.1484375,
	"learning_rate": 4.639689578713969e-05,
	"loss": 1.2975637912750244,
	"step": 168
	},
	{
	"epoch": 0.09641991156753672,
	"grad_norm": 1.09375,
	"learning_rate": 4.636917960088692e-05,
	"loss": 1.202270269393921,
	"step": 169
	},
	{
	"epoch": 0.09699044358864642,
	"grad_norm": 1.1015625,
	"learning_rate": 4.634146341463415e-05,
	"loss": 1.1989184617996216,
	"step": 170
	},
	{
	"epoch": 0.0975609756097561,
	"grad_norm": 1.15625,
	"learning_rate": 4.631374722838138e-05,
	"loss": 1.325451374053955,
	"step": 171
	},
	{
	"epoch": 0.09813150763086578,
	"grad_norm": 1.1484375,
	"learning_rate": 4.628603104212861e-05,
	"loss": 1.3150224685668945,
	"step": 172
	},
	{
	"epoch": 0.09870203965197547,
	"grad_norm": 1.1484375,
	"learning_rate": 4.625831485587583e-05,
	"loss": 1.2864487171173096,
	"step": 173
	},
	{
	"epoch": 0.09927257167308515,
	"grad_norm": 1.140625,
	"learning_rate": 4.623059866962306e-05,
	"loss": 1.3033939599990845,
	"step": 174
	},
	{
	"epoch": 0.09984310369419484,
	"grad_norm": 1.109375,
	"learning_rate": 4.620288248337029e-05,
	"loss": 1.2654147148132324,
	"step": 175
	},
	{
	"epoch": 0.10041363571530453,
	"grad_norm": 1.125,
	"learning_rate": 4.617516629711752e-05,
	"loss": 1.2905241250991821,
	"step": 176
	},
	{
	"epoch": 0.10098416773641421,
	"grad_norm": 1.1484375,
	"learning_rate": 4.614745011086475e-05,
	"loss": 1.2881019115447998,
	"step": 177
	},
	{
	"epoch": 0.10155469975752389,
	"grad_norm": 1.15625,
	"learning_rate": 4.611973392461197e-05,
	"loss": 1.3300973176956177,
	"step": 178
	},
	{
	"epoch": 0.10212523177863357,
	"grad_norm": 1.1484375,
	"learning_rate": 4.609201773835921e-05,
	"loss": 1.3166918754577637,
	"step": 179
	},
	{
	"epoch": 0.10269576379974327,
	"grad_norm": 1.078125,
	"learning_rate": 4.606430155210643e-05,
	"loss": 1.2149487733840942,
	"step": 180
	},
	{
	"epoch": 0.10326629582085295,
	"grad_norm": 1.1171875,
	"learning_rate": 4.603658536585366e-05,
	"loss": 1.284995198249817,
	"step": 181
	},
	{
	"epoch": 0.10383682784196263,
	"grad_norm": 1.171875,
	"learning_rate": 4.600886917960089e-05,
	"loss": 1.3197823762893677,
	"step": 182
	},
	{
	"epoch": 0.10440735986307231,
	"grad_norm": 1.09375,
	"learning_rate": 4.598115299334812e-05,
	"loss": 1.2414249181747437,
	"step": 183
	},
	{
	"epoch": 0.104977891884182,
	"grad_norm": 1.1953125,
	"learning_rate": 4.595343680709535e-05,
	"loss": 1.2936391830444336,
	"step": 184
	},
	{
	"epoch": 0.10554842390529169,
	"grad_norm": 1.203125,
	"learning_rate": 4.592572062084257e-05,
	"loss": 1.2889211177825928,
	"step": 185
	},
	{
	"epoch": 0.10611895592640137,
	"grad_norm": 1.1640625,
	"learning_rate": 4.58980044345898e-05,
	"loss": 1.2958948612213135,
	"step": 186
	},
	{
	"epoch": 0.10668948794751106,
	"grad_norm": 1.15625,
	"learning_rate": 4.587028824833703e-05,
	"loss": 1.3174210786819458,
	"step": 187
	},
	{
	"epoch": 0.10726001996862074,
	"grad_norm": 1.09375,
	"learning_rate": 4.584257206208426e-05,
	"loss": 1.3083107471466064,
	"step": 188
	},
	{
	"epoch": 0.10783055198973042,
	"grad_norm": 1.1015625,
	"learning_rate": 4.581485587583149e-05,
	"loss": 1.2460663318634033,
	"step": 189
	},
	{
	"epoch": 0.10840108401084012,
	"grad_norm": 1.109375,
	"learning_rate": 4.578713968957872e-05,
	"loss": 1.262696623802185,
	"step": 190
	},
	{
	"epoch": 0.1089716160319498,
	"grad_norm": 1.1796875,
	"learning_rate": 4.575942350332594e-05,
	"loss": 1.290346384048462,
	"step": 191
	},
	{
	"epoch": 0.10954214805305948,
	"grad_norm": 1.15625,
	"learning_rate": 4.573170731707318e-05,
	"loss": 1.2630096673965454,
	"step": 192
	},
	{
	"epoch": 0.11011268007416916,
	"grad_norm": 1.1015625,
	"learning_rate": 4.57039911308204e-05,
	"loss": 1.2521231174468994,
	"step": 193
	},
	{
	"epoch": 0.11068321209527884,
	"grad_norm": 1.1484375,
	"learning_rate": 4.567627494456763e-05,
	"loss": 1.2671630382537842,
	"step": 194
	},
	{
	"epoch": 0.11125374411638853,
	"grad_norm": 1.171875,
	"learning_rate": 4.564855875831486e-05,
	"loss": 1.3561689853668213,
	"step": 195
	},
	{
	"epoch": 0.11182427613749822,
	"grad_norm": 1.1484375,
	"learning_rate": 4.562084257206209e-05,
	"loss": 1.2499645948410034,
	"step": 196
	},
	{
	"epoch": 0.1123948081586079,
	"grad_norm": 1.15625,
	"learning_rate": 4.559312638580932e-05,
	"loss": 1.2348875999450684,
	"step": 197
	},
	{
	"epoch": 0.11296534017971759,
	"grad_norm": 1.1640625,
	"learning_rate": 4.556541019955654e-05,
	"loss": 1.322629690170288,
	"step": 198
	},
	{
	"epoch": 0.11353587220082727,
	"grad_norm": 1.171875,
	"learning_rate": 4.553769401330377e-05,
	"loss": 1.2846410274505615,
	"step": 199
	},
	{
	"epoch": 0.11410640422193695,
	"grad_norm": 1.1640625,
	"learning_rate": 4.5509977827051e-05,
	"loss": 1.311292052268982,
	"step": 200
	},
	{
	"epoch": 0.11467693624304665,
	"grad_norm": 1.140625,
	"learning_rate": 4.548226164079823e-05,
	"loss": 1.2933259010314941,
	"step": 201
	},
	{
	"epoch": 0.11524746826415633,
	"grad_norm": 1.21875,
	"learning_rate": 4.545454545454546e-05,
	"loss": 1.3615764379501343,
	"step": 202
	},
	{
	"epoch": 0.11581800028526601,
	"grad_norm": 1.1328125,
	"learning_rate": 4.542682926829269e-05,
	"loss": 1.187692403793335,
	"step": 203
	},
	{
	"epoch": 0.11638853230637569,
	"grad_norm": 1.1796875,
	"learning_rate": 4.539911308203991e-05,
	"loss": 1.2587438821792603,
	"step": 204
	},
	{
	"epoch": 0.11695906432748537,
	"grad_norm": 1.0546875,
	"learning_rate": 4.537139689578715e-05,
	"loss": 1.2154557704925537,
	"step": 205
	},
	{
	"epoch": 0.11752959634859507,
	"grad_norm": 1.09375,
	"learning_rate": 4.534368070953437e-05,
	"loss": 1.2670985460281372,
	"step": 206
	},
	{
	"epoch": 0.11810012836970475,
	"grad_norm": 1.171875,
	"learning_rate": 4.53159645232816e-05,
	"loss": 1.292269229888916,
	"step": 207
	},
	{
	"epoch": 0.11867066039081443,
	"grad_norm": 1.21875,
	"learning_rate": 4.528824833702883e-05,
	"loss": 1.2353066205978394,
	"step": 208
	},
	{
	"epoch": 0.11924119241192412,
	"grad_norm": 1.125,
	"learning_rate": 4.526053215077605e-05,
	"loss": 1.2745922803878784,
	"step": 209
	},
	{
	"epoch": 0.1198117244330338,
	"grad_norm": 1.109375,
	"learning_rate": 4.523281596452328e-05,
	"loss": 1.2637782096862793,
	"step": 210
	},
	{
	"epoch": 0.1203822564541435,
	"grad_norm": 1.125,
	"learning_rate": 4.520509977827051e-05,
	"loss": 1.2595422267913818,
	"step": 211
	},
	{
	"epoch": 0.12095278847525318,
	"grad_norm": 1.0859375,
	"learning_rate": 4.517738359201774e-05,
	"loss": 1.2515778541564941,
	"step": 212
	},
	{
	"epoch": 0.12152332049636286,
	"grad_norm": 1.1953125,
	"learning_rate": 4.514966740576497e-05,
	"loss": 1.2258851528167725,
	"step": 213
	},
	{
	"epoch": 0.12209385251747254,
	"grad_norm": 1.140625,
	"learning_rate": 4.51219512195122e-05,
	"loss": 1.2595672607421875,
	"step": 214
	},
	{
	"epoch": 0.12266438453858222,
	"grad_norm": 1.125,
	"learning_rate": 4.509423503325942e-05,
	"loss": 1.2574856281280518,
	"step": 215
	},
	{
	"epoch": 0.12323491655969192,
	"grad_norm": 1.21875,
	"learning_rate": 4.506651884700666e-05,
	"loss": 1.2860839366912842,
	"step": 216
	},
	{
	"epoch": 0.1238054485808016,
	"grad_norm": 1.1875,
	"learning_rate": 4.503880266075388e-05,
	"loss": 1.2748535871505737,
	"step": 217
	},
	{
	"epoch": 0.12437598060191128,
	"grad_norm": 1.1640625,
	"learning_rate": 4.501108647450111e-05,
	"loss": 1.2630361318588257,
	"step": 218
	},
	{
	"epoch": 0.12494651262302096,
	"grad_norm": 1.1328125,
	"learning_rate": 4.498337028824834e-05,
	"loss": 1.2100318670272827,
	"step": 219
	},
	{
	"epoch": 0.12551704464413066,
	"grad_norm": 1.1328125,
	"learning_rate": 4.495565410199557e-05,
	"loss": 1.279637098312378,
	"step": 220
	},
	{
	"epoch": 0.12608757666524034,
	"grad_norm": 1.09375,
	"learning_rate": 4.49279379157428e-05,
	"loss": 1.241306185722351,
	"step": 221
	},
	{
	"epoch": 0.12665810868635002,
	"grad_norm": 1.125,
	"learning_rate": 4.490022172949002e-05,
	"loss": 1.2467423677444458,
	"step": 222
	},
	{
	"epoch": 0.1272286407074597,
	"grad_norm": 1.1640625,
	"learning_rate": 4.487250554323725e-05,
	"loss": 1.2398571968078613,
	"step": 223
	},
	{
	"epoch": 0.1277991727285694,
	"grad_norm": 1.1171875,
	"learning_rate": 4.484478935698448e-05,
	"loss": 1.298073410987854,
	"step": 224
	},
	{
	"epoch": 0.12836970474967907,
	"grad_norm": 1.1640625,
	"learning_rate": 4.481707317073171e-05,
	"loss": 1.3275305032730103,
	"step": 225
	},
	{
	"epoch": 0.12894023677078875,
	"grad_norm": 1.0859375,
	"learning_rate": 4.478935698447894e-05,
	"loss": 1.2483649253845215,
	"step": 226
	},
	{
	"epoch": 0.12951076879189843,
	"grad_norm": 1.1484375,
	"learning_rate": 4.476164079822617e-05,
	"loss": 1.322462797164917,
	"step": 227
	},
	{
	"epoch": 0.13008130081300814,
	"grad_norm": 1.140625,
	"learning_rate": 4.473392461197339e-05,
	"loss": 1.2100863456726074,
	"step": 228
	},
	{
	"epoch": 0.13065183283411783,
	"grad_norm": 1.1640625,
	"learning_rate": 4.470620842572063e-05,
	"loss": 1.249301552772522,
	"step": 229
	},
	{
	"epoch": 0.1312223648552275,
	"grad_norm": 1.125,
	"learning_rate": 4.467849223946785e-05,
	"loss": 1.2208349704742432,
	"step": 230
	},
	{
	"epoch": 0.1317928968763372,
	"grad_norm": 1.171875,
	"learning_rate": 4.465077605321508e-05,
	"loss": 1.2686306238174438,
	"step": 231
	},
	{
	"epoch": 0.13236342889744687,
	"grad_norm": 1.1796875,
	"learning_rate": 4.462305986696231e-05,
	"loss": 1.2922316789627075,
	"step": 232
	},
	{
	"epoch": 0.13293396091855655,
	"grad_norm": 1.171875,
	"learning_rate": 4.459534368070954e-05,
	"loss": 1.2734718322753906,
	"step": 233
	},
	{
	"epoch": 0.13350449293966624,
	"grad_norm": 1.125,
	"learning_rate": 4.456762749445677e-05,
	"loss": 1.2748900651931763,
	"step": 234
	},
	{
	"epoch": 0.13407502496077592,
	"grad_norm": 1.125,
	"learning_rate": 4.453991130820399e-05,
	"loss": 1.2857415676116943,
	"step": 235
	},
	{
	"epoch": 0.1346455569818856,
	"grad_norm": 1.1640625,
	"learning_rate": 4.451219512195122e-05,
	"loss": 1.2689714431762695,
	"step": 236
	},
	{
	"epoch": 0.13521608900299528,
	"grad_norm": 1.1171875,
	"learning_rate": 4.448447893569845e-05,
	"loss": 1.248453140258789,
	"step": 237
	},
	{
	"epoch": 0.13578662102410496,
	"grad_norm": 1.1484375,
	"learning_rate": 4.445676274944568e-05,
	"loss": 1.2693870067596436,
	"step": 238
	},
	{
	"epoch": 0.13635715304521467,
	"grad_norm": 1.109375,
	"learning_rate": 4.442904656319291e-05,
	"loss": 1.2767329216003418,
	"step": 239
	},
	{
	"epoch": 0.13692768506632436,
	"grad_norm": 1.109375,
	"learning_rate": 4.440133037694014e-05,
	"loss": 1.2598170042037964,
	"step": 240
	},
	{
	"epoch": 0.13749821708743404,
	"grad_norm": 1.140625,
	"learning_rate": 4.437361419068736e-05,
	"loss": 1.2850111722946167,
	"step": 241
	},
	{
	"epoch": 0.13806874910854372,
	"grad_norm": 1.0625,
	"learning_rate": 4.4345898004434597e-05,
	"loss": 1.2005095481872559,
	"step": 242
	},
	{
	"epoch": 0.1386392811296534,
	"grad_norm": 1.09375,
	"learning_rate": 4.431818181818182e-05,
	"loss": 1.2896265983581543,
	"step": 243
	},
	{
	"epoch": 0.13920981315076308,
	"grad_norm": 1.1328125,
	"learning_rate": 4.429046563192905e-05,
	"loss": 1.3427916765213013,
	"step": 244
	},
	{
	"epoch": 0.13978034517187277,
	"grad_norm": 1.1484375,
	"learning_rate": 4.426274944567628e-05,
	"loss": 1.2719500064849854,
	"step": 245
	},
	{
	"epoch": 0.14035087719298245,
	"grad_norm": 1.1640625,
	"learning_rate": 4.42350332594235e-05,
	"loss": 1.2944797277450562,
	"step": 246
	},
	{
	"epoch": 0.14092140921409213,
	"grad_norm": 1.1328125,
	"learning_rate": 4.420731707317074e-05,
	"loss": 1.3022198677062988,
	"step": 247
	},
	{
	"epoch": 0.1414919412352018,
	"grad_norm": 1.2109375,
	"learning_rate": 4.417960088691796e-05,
	"loss": 1.286307454109192,
	"step": 248
	},
	{
	"epoch": 0.14206247325631152,
	"grad_norm": 1.328125,
	"learning_rate": 4.415188470066519e-05,
	"loss": 1.3540141582489014,
	"step": 249
	},
	{
	"epoch": 0.1426330052774212,
	"grad_norm": 1.0859375,
	"learning_rate": 4.412416851441242e-05,
	"loss": 1.2702994346618652,
	"step": 250
	},
	{
	"epoch": 0.1432035372985309,
	"grad_norm": 1.140625,
	"learning_rate": 4.409645232815965e-05,
	"loss": 1.2684781551361084,
	"step": 251
	},
	{
	"epoch": 0.14377406931964057,
	"grad_norm": 1.1484375,
	"learning_rate": 4.406873614190688e-05,
	"loss": 1.1907923221588135,
	"step": 252
	},
	{
	"epoch": 0.14434460134075025,
	"grad_norm": 1.1328125,
	"learning_rate": 4.404101995565411e-05,
	"loss": 1.2790608406066895,
	"step": 253
	},
	{
	"epoch": 0.14491513336185993,
	"grad_norm": 1.1015625,
	"learning_rate": 4.401330376940133e-05,
	"loss": 1.2878901958465576,
	"step": 254
	},
	{
	"epoch": 0.14548566538296961,
	"grad_norm": 1.09375,
	"learning_rate": 4.3985587583148566e-05,
	"loss": 1.2305991649627686,
	"step": 255
	},
	{
	"epoch": 0.1460561974040793,
	"grad_norm": 1.1796875,
	"learning_rate": 4.395787139689579e-05,
	"loss": 1.3150757551193237,
	"step": 256
	},
	{
	"epoch": 0.14662672942518898,
	"grad_norm": 1.0390625,
	"learning_rate": 4.393015521064302e-05,
	"loss": 1.213336706161499,
	"step": 257
	},
	{
	"epoch": 0.14719726144629866,
	"grad_norm": 1.0625,
	"learning_rate": 4.390243902439025e-05,
	"loss": 1.2233829498291016,
	"step": 258
	},
	{
	"epoch": 0.14776779346740837,
	"grad_norm": 1.078125,
	"learning_rate": 4.387472283813747e-05,
	"loss": 1.1772549152374268,
	"step": 259
	},
	{
	"epoch": 0.14833832548851805,
	"grad_norm": 1.171875,
	"learning_rate": 4.3847006651884707e-05,
	"loss": 1.3097314834594727,
	"step": 260
	},
	{
	"epoch": 0.14890885750962773,
	"grad_norm": 1.0703125,
	"learning_rate": 4.381929046563193e-05,
	"loss": 1.3049172163009644,
	"step": 261
	},
	{
	"epoch": 0.14947938953073742,
	"grad_norm": 1.125,
	"learning_rate": 4.379157427937916e-05,
	"loss": 1.3094444274902344,
	"step": 262
	},
	{
	"epoch": 0.1500499215518471,
	"grad_norm": 1.125,
	"learning_rate": 4.376385809312639e-05,
	"loss": 1.3298535346984863,
	"step": 263
	},
	{
	"epoch": 0.15062045357295678,
	"grad_norm": 1.0234375,
	"learning_rate": 4.373614190687362e-05,
	"loss": 1.2394543886184692,
	"step": 264
	},
	{
	"epoch": 0.15119098559406646,
	"grad_norm": 1.1640625,
	"learning_rate": 4.370842572062084e-05,
	"loss": 1.2180919647216797,
	"step": 265
	},
	{
	"epoch": 0.15176151761517614,
	"grad_norm": 1.140625,
	"learning_rate": 4.3680709534368077e-05,
	"loss": 1.2652344703674316,
	"step": 266
	},
	{
	"epoch": 0.15233204963628583,
	"grad_norm": 1.09375,
	"learning_rate": 4.36529933481153e-05,
	"loss": 1.2816247940063477,
	"step": 267
	},
	{
	"epoch": 0.1529025816573955,
	"grad_norm": 1.046875,
	"learning_rate": 4.3625277161862536e-05,
	"loss": 1.2074222564697266,
	"step": 268
	},
	{
	"epoch": 0.15347311367850522,
	"grad_norm": 1.0859375,
	"learning_rate": 4.359756097560976e-05,
	"loss": 1.2124351263046265,
	"step": 269
	},
	{
	"epoch": 0.1540436456996149,
	"grad_norm": 1.0859375,
	"learning_rate": 4.356984478935698e-05,
	"loss": 1.187751293182373,
	"step": 270
	},
	{
	"epoch": 0.15461417772072458,
	"grad_norm": 1.046875,
	"learning_rate": 4.354212860310422e-05,
	"loss": 1.1458532810211182,
	"step": 271
	},
	{
	"epoch": 0.15518470974183426,
	"grad_norm": 1.1171875,
	"learning_rate": 4.351441241685144e-05,
	"loss": 1.229477882385254,
	"step": 272
	},
	{
	"epoch": 0.15575524176294395,
	"grad_norm": 1.2265625,
	"learning_rate": 4.348669623059867e-05,
	"loss": 1.2863445281982422,
	"step": 273
	},
	{
	"epoch": 0.15632577378405363,
	"grad_norm": 1.0703125,
	"learning_rate": 4.34589800443459e-05,
	"loss": 1.226841688156128,
	"step": 274
	},
	{
	"epoch": 0.1568963058051633,
	"grad_norm": 1.1640625,
	"learning_rate": 4.343126385809313e-05,
	"loss": 1.2147347927093506,
	"step": 275
	},
	{
	"epoch": 0.157466837826273,
	"grad_norm": 1.0546875,
	"learning_rate": 4.340354767184036e-05,
	"loss": 1.2533400058746338,
	"step": 276
	},
	{
	"epoch": 0.15803736984738267,
	"grad_norm": 1.0859375,
	"learning_rate": 4.337583148558759e-05,
	"loss": 1.2199838161468506,
	"step": 277
	},
	{
	"epoch": 0.15860790186849236,
	"grad_norm": 1.0546875,
	"learning_rate": 4.334811529933481e-05,
	"loss": 1.196079969406128,
	"step": 278
	},
	{
	"epoch": 0.15917843388960207,
	"grad_norm": 1.140625,
	"learning_rate": 4.3320399113082046e-05,
	"loss": 1.2512052059173584,
	"step": 279
	},
	{
	"epoch": 0.15974896591071175,
	"grad_norm": 1.1171875,
	"learning_rate": 4.329268292682927e-05,
	"loss": 1.2729978561401367,
	"step": 280
	},
	{
	"epoch": 0.16031949793182143,
	"grad_norm": 1.171875,
	"learning_rate": 4.32649667405765e-05,
	"loss": 1.2414803504943848,
	"step": 281
	},
	{
	"epoch": 0.1608900299529311,
	"grad_norm": 1.125,
	"learning_rate": 4.323725055432373e-05,
	"loss": 1.2329685688018799,
	"step": 282
	},
	{
	"epoch": 0.1614605619740408,
	"grad_norm": 1.0703125,
	"learning_rate": 4.320953436807095e-05,
	"loss": 1.2458125352859497,
	"step": 283
	},
	{
	"epoch": 0.16203109399515048,
	"grad_norm": 1.09375,
	"learning_rate": 4.318181818181819e-05,
	"loss": 1.2762466669082642,
	"step": 284
	},
	{
	"epoch": 0.16260162601626016,
	"grad_norm": 1.1484375,
	"learning_rate": 4.315410199556541e-05,
	"loss": 1.2883433103561401,
	"step": 285
	},
	{
	"epoch": 0.16317215803736984,
	"grad_norm": 1.109375,
	"learning_rate": 4.312638580931264e-05,
	"loss": 1.261974811553955,
	"step": 286
	},
	{
	"epoch": 0.16374269005847952,
	"grad_norm": 1.0625,
	"learning_rate": 4.309866962305987e-05,
	"loss": 1.2657639980316162,
	"step": 287
	},
	{
	"epoch": 0.1643132220795892,
	"grad_norm": 1.1328125,
	"learning_rate": 4.30709534368071e-05,
	"loss": 1.295043706893921,
	"step": 288
	},
	{
	"epoch": 0.16488375410069891,
	"grad_norm": 1.09375,
	"learning_rate": 4.304323725055433e-05,
	"loss": 1.2336839437484741,
	"step": 289
	},
	{
	"epoch": 0.1654542861218086,
	"grad_norm": 1.09375,
	"learning_rate": 4.301552106430156e-05,
	"loss": 1.264127492904663,
	"step": 290
	},
	{
	"epoch": 0.16602481814291828,
	"grad_norm": 1.078125,
	"learning_rate": 4.298780487804878e-05,
	"loss": 1.2246544361114502,
	"step": 291
	},
	{
	"epoch": 0.16659535016402796,
	"grad_norm": 1.0546875,
	"learning_rate": 4.2960088691796016e-05,
	"loss": 1.2040233612060547,
	"step": 292
	},
	{
	"epoch": 0.16716588218513764,
	"grad_norm": 1.09375,
	"learning_rate": 4.293237250554324e-05,
	"loss": 1.2784225940704346,
	"step": 293
	},
	{
	"epoch": 0.16773641420624733,
	"grad_norm": 1.109375,
	"learning_rate": 4.290465631929047e-05,
	"loss": 1.3152185678482056,
	"step": 294
	},
	{
	"epoch": 0.168306946227357,
	"grad_norm": 1.1015625,
	"learning_rate": 4.28769401330377e-05,
	"loss": 1.2193617820739746,
	"step": 295
	},
	{
	"epoch": 0.1688774782484667,
	"grad_norm": 1.1015625,
	"learning_rate": 4.284922394678492e-05,
	"loss": 1.2813901901245117,
	"step": 296
	},
	{
	"epoch": 0.16944801026957637,
	"grad_norm": 1.09375,
	"learning_rate": 4.2821507760532156e-05,
	"loss": 1.205044150352478,
	"step": 297
	},
	{
	"epoch": 0.17001854229068605,
	"grad_norm": 1.1015625,
	"learning_rate": 4.279379157427938e-05,
	"loss": 1.2626889944076538,
	"step": 298
	},
	{
	"epoch": 0.17058907431179576,
	"grad_norm": 1.1484375,
	"learning_rate": 4.276607538802661e-05,
	"loss": 1.2680320739746094,
	"step": 299
	},
	{
	"epoch": 0.17115960633290545,
	"grad_norm": 1.0859375,
	"learning_rate": 4.273835920177384e-05,
	"loss": 1.2155548334121704,
	"step": 300
	},
	{
	"epoch": 0.17173013835401513,
	"grad_norm": 1.1875,
	"learning_rate": 4.271064301552107e-05,
	"loss": 1.2199232578277588,
	"step": 301
	},
	{
	"epoch": 0.1723006703751248,
	"grad_norm": 1.1171875,
	"learning_rate": 4.26829268292683e-05,
	"loss": 1.2747461795806885,
	"step": 302
	},
	{
	"epoch": 0.1728712023962345,
	"grad_norm": 1.0546875,
	"learning_rate": 4.2655210643015526e-05,
	"loss": 1.235656976699829,
	"step": 303
	},
	{
	"epoch": 0.17344173441734417,
	"grad_norm": 1.1875,
	"learning_rate": 4.262749445676275e-05,
	"loss": 1.3054769039154053,
	"step": 304
	},
	{
	"epoch": 0.17401226643845386,
	"grad_norm": 1.125,
	"learning_rate": 4.2599778270509985e-05,
	"loss": 1.2325561046600342,
	"step": 305
	},
	{
	"epoch": 0.17458279845956354,
	"grad_norm": 1.0546875,
	"learning_rate": 4.257206208425721e-05,
	"loss": 1.1963461637496948,
	"step": 306
	},
	{
	"epoch": 0.17515333048067322,
	"grad_norm": 1.09375,
	"learning_rate": 4.254434589800444e-05,
	"loss": 1.2029732465744019,
	"step": 307
	},
	{
	"epoch": 0.1757238625017829,
	"grad_norm": 1.0703125,
	"learning_rate": 4.251662971175167e-05,
	"loss": 1.289282202720642,
	"step": 308
	},
	{
	"epoch": 0.17629439452289258,
	"grad_norm": 1.1640625,
	"learning_rate": 4.248891352549889e-05,
	"loss": 1.2570784091949463,
	"step": 309
	},
	{
	"epoch": 0.1768649265440023,
	"grad_norm": 1.0703125,
	"learning_rate": 4.2461197339246126e-05,
	"loss": 1.1787132024765015,
	"step": 310
	},
	{
	"epoch": 0.17743545856511198,
	"grad_norm": 1.1328125,
	"learning_rate": 4.243348115299335e-05,
	"loss": 1.2079870700836182,
	"step": 311
	},
	{
	"epoch": 0.17800599058622166,
	"grad_norm": 1.1640625,
	"learning_rate": 4.240576496674058e-05,
	"loss": 1.2776343822479248,
	"step": 312
	},
	{
	"epoch": 0.17857652260733134,
	"grad_norm": 1.0625,
	"learning_rate": 4.237804878048781e-05,
	"loss": 1.1856639385223389,
	"step": 313
	},
	{
	"epoch": 0.17914705462844102,
	"grad_norm": 1.1328125,
	"learning_rate": 4.235033259423504e-05,
	"loss": 1.268944501876831,
	"step": 314
	},
	{
	"epoch": 0.1797175866495507,
	"grad_norm": 1.140625,
	"learning_rate": 4.2322616407982266e-05,
	"loss": 1.2755537033081055,
	"step": 315
	},
	{
	"epoch": 0.18028811867066039,
	"grad_norm": 1.0703125,
	"learning_rate": 4.2294900221729496e-05,
	"loss": 1.274179458618164,
	"step": 316
	},
	{
	"epoch": 0.18085865069177007,
	"grad_norm": 1.1015625,
	"learning_rate": 4.226718403547672e-05,
	"loss": 1.2530457973480225,
	"step": 317
	},
	{
	"epoch": 0.18142918271287975,
	"grad_norm": 1.1015625,
	"learning_rate": 4.2239467849223955e-05,
	"loss": 1.1844085454940796,
	"step": 318
	},
	{
	"epoch": 0.18199971473398943,
	"grad_norm": 1.1328125,
	"learning_rate": 4.221175166297118e-05,
	"loss": 1.3111554384231567,
	"step": 319
	},
	{
	"epoch": 0.18257024675509914,
	"grad_norm": 1.1328125,
	"learning_rate": 4.21840354767184e-05,
	"loss": 1.2178188562393188,
	"step": 320
	},
	{
	"epoch": 0.18314077877620882,
	"grad_norm": 1.1015625,
	"learning_rate": 4.2156319290465636e-05,
	"loss": 1.2369928359985352,
	"step": 321
	},
	{
	"epoch": 0.1837113107973185,
	"grad_norm": 1.0625,
	"learning_rate": 4.212860310421286e-05,
	"loss": 1.1851946115493774,
	"step": 322
	},
	{
	"epoch": 0.1842818428184282,
	"grad_norm": 1.09375,
	"learning_rate": 4.210088691796009e-05,
	"loss": 1.2697205543518066,
	"step": 323
	},
	{
	"epoch": 0.18485237483953787,
	"grad_norm": 1.078125,
	"learning_rate": 4.207317073170732e-05,
	"loss": 1.2498860359191895,
	"step": 324
	},
	{
	"epoch": 0.18542290686064755,
	"grad_norm": 1.109375,
	"learning_rate": 4.204545454545455e-05,
	"loss": 1.2507086992263794,
	"step": 325
	},
	{
	"epoch": 0.18599343888175723,
	"grad_norm": 1.03125,
	"learning_rate": 4.201773835920178e-05,
	"loss": 1.2160149812698364,
	"step": 326
	},
	{
	"epoch": 0.18656397090286692,
	"grad_norm": 1.078125,
	"learning_rate": 4.1990022172949006e-05,
	"loss": 1.238983392715454,
	"step": 327
	},
	{
	"epoch": 0.1871345029239766,
	"grad_norm": 1.03125,
	"learning_rate": 4.196230598669623e-05,
	"loss": 1.2306344509124756,
	"step": 328
	},
	{
	"epoch": 0.18770503494508628,
	"grad_norm": 1.1015625,
	"learning_rate": 4.1934589800443465e-05,
	"loss": 1.27529776096344,
	"step": 329
	},
	{
	"epoch": 0.188275566966196,
	"grad_norm": 1.0859375,
	"learning_rate": 4.190687361419069e-05,
	"loss": 1.2787272930145264,
	"step": 330
	},
	{
	"epoch": 0.18884609898730567,
	"grad_norm": 1.0546875,
	"learning_rate": 4.187915742793792e-05,
	"loss": 1.2454849481582642,
	"step": 331
	},
	{
	"epoch": 0.18941663100841535,
	"grad_norm": 1.0078125,
	"learning_rate": 4.185144124168515e-05,
	"loss": 1.2060352563858032,
	"step": 332
	},
	{
	"epoch": 0.18998716302952504,
	"grad_norm": 1.078125,
	"learning_rate": 4.182372505543237e-05,
	"loss": 1.2341554164886475,
	"step": 333
	},
	{
	"epoch": 0.19055769505063472,
	"grad_norm": 1.1015625,
	"learning_rate": 4.1796008869179606e-05,
	"loss": 1.2774791717529297,
	"step": 334
	},
	{
	"epoch": 0.1911282270717444,
	"grad_norm": 1.0546875,
	"learning_rate": 4.176829268292683e-05,
	"loss": 1.2547677755355835,
	"step": 335
	},
	{
	"epoch": 0.19169875909285408,
	"grad_norm": 1.1015625,
	"learning_rate": 4.174057649667406e-05,
	"loss": 1.286057472229004,
	"step": 336
	},
	{
	"epoch": 0.19226929111396376,
	"grad_norm": 1.1015625,
	"learning_rate": 4.171286031042129e-05,
	"loss": 1.2891746759414673,
	"step": 337
	},
	{
	"epoch": 0.19283982313507345,
	"grad_norm": 1.046875,
	"learning_rate": 4.168514412416852e-05,
	"loss": 1.2376006841659546,
	"step": 338
	},
	{
	"epoch": 0.19341035515618313,
	"grad_norm": 1.0703125,
	"learning_rate": 4.1657427937915746e-05,
	"loss": 1.2672202587127686,
	"step": 339
	},
	{
	"epoch": 0.19398088717729284,
	"grad_norm": 1.1015625,
	"learning_rate": 4.1629711751662976e-05,
	"loss": 1.2037293910980225,
	"step": 340
	},
	{
	"epoch": 0.19455141919840252,
	"grad_norm": 1.0859375,
	"learning_rate": 4.16019955654102e-05,
	"loss": 1.218858003616333,
	"step": 341
	},
	{
	"epoch": 0.1951219512195122,
	"grad_norm": 1.0859375,
	"learning_rate": 4.1574279379157435e-05,
	"loss": 1.2183986902236938,
	"step": 342
	},
	{
	"epoch": 0.19569248324062188,
	"grad_norm": 1.1171875,
	"learning_rate": 4.154656319290466e-05,
	"loss": 1.2573124170303345,
	"step": 343
	},
	{
	"epoch": 0.19626301526173157,
	"grad_norm": 1.125,
	"learning_rate": 4.151884700665189e-05,
	"loss": 1.21070396900177,
	"step": 344
	},
	{
	"epoch": 0.19683354728284125,
	"grad_norm": 1.09375,
	"learning_rate": 4.1491130820399116e-05,
	"loss": 1.286003589630127,
	"step": 345
	},
	{
	"epoch": 0.19740407930395093,
	"grad_norm": 1.1015625,
	"learning_rate": 4.146341463414634e-05,
	"loss": 1.2600152492523193,
	"step": 346
	},
	{
	"epoch": 0.1979746113250606,
	"grad_norm": 1.203125,
	"learning_rate": 4.1435698447893575e-05,
	"loss": 1.2338290214538574,
	"step": 347
	},
	{
	"epoch": 0.1985451433461703,
	"grad_norm": 1.15625,
	"learning_rate": 4.14079822616408e-05,
	"loss": 1.2722115516662598,
	"step": 348
	},
	{
	"epoch": 0.19911567536727998,
	"grad_norm": 1.0859375,
	"learning_rate": 4.138026607538803e-05,
	"loss": 1.1988334655761719,
	"step": 349
	},
	{
	"epoch": 0.19968620738838969,
	"grad_norm": 1.0859375,
	"learning_rate": 4.135254988913526e-05,
	"loss": 1.2339057922363281,
	"step": 350
	},
	{
	"epoch": 0.20025673940949937,
	"grad_norm": 1.125,
	"learning_rate": 4.1324833702882486e-05,
	"loss": 1.2363622188568115,
	"step": 351
	},
	{
	"epoch": 0.20082727143060905,
	"grad_norm": 1.0859375,
	"learning_rate": 4.1297117516629716e-05,
	"loss": 1.2658472061157227,
	"step": 352
	},
	{
	"epoch": 0.20139780345171873,
	"grad_norm": 1.0546875,
	"learning_rate": 4.1269401330376945e-05,
	"loss": 1.2181835174560547,
	"step": 353
	},
	{
	"epoch": 0.20196833547282841,
	"grad_norm": 1.1171875,
	"learning_rate": 4.124168514412417e-05,
	"loss": 1.2710312604904175,
	"step": 354
	},
	{
	"epoch": 0.2025388674939381,
	"grad_norm": 1.0625,
	"learning_rate": 4.12139689578714e-05,
	"loss": 1.176246166229248,
	"step": 355
	},
	{
	"epoch": 0.20310939951504778,
	"grad_norm": 1.0625,
	"learning_rate": 4.118625277161863e-05,
	"loss": 1.24937903881073,
	"step": 356
	},
	{
	"epoch": 0.20367993153615746,
	"grad_norm": 1.0703125,
	"learning_rate": 4.1158536585365856e-05,
	"loss": 1.2401498556137085,
	"step": 357
	},
	{
	"epoch": 0.20425046355726714,
	"grad_norm": 1.046875,
	"learning_rate": 4.1130820399113086e-05,
	"loss": 1.2015979290008545,
	"step": 358
	},
	{
	"epoch": 0.20482099557837682,
	"grad_norm": 1.1484375,
	"learning_rate": 4.110310421286031e-05,
	"loss": 1.2495380640029907,
	"step": 359
	},
	{
	"epoch": 0.20539152759948653,
	"grad_norm": 1.0703125,
	"learning_rate": 4.1075388026607545e-05,
	"loss": 1.2646973133087158,
	"step": 360
	},
	{
	"epoch": 0.20596205962059622,
	"grad_norm": 1.046875,
	"learning_rate": 4.104767184035477e-05,
	"loss": 1.2007383108139038,
	"step": 361
	},
	{
	"epoch": 0.2065325916417059,
	"grad_norm": 1.046875,
	"learning_rate": 4.1019955654102e-05,
	"loss": 1.226219892501831,
	"step": 362
	},
	{
	"epoch": 0.20710312366281558,
	"grad_norm": 1.0703125,
	"learning_rate": 4.0992239467849226e-05,
	"loss": 1.306444525718689,
	"step": 363
	},
	{
	"epoch": 0.20767365568392526,
	"grad_norm": 1.0625,
	"learning_rate": 4.0964523281596456e-05,
	"loss": 1.2141070365905762,
	"step": 364
	},
	{
	"epoch": 0.20824418770503494,
	"grad_norm": 1.0390625,
	"learning_rate": 4.0936807095343685e-05,
	"loss": 1.2149772644042969,
	"step": 365
	},
	{
	"epoch": 0.20881471972614463,
	"grad_norm": 1.0703125,
	"learning_rate": 4.0909090909090915e-05,
	"loss": 1.2671623229980469,
	"step": 366
	},
	{
	"epoch": 0.2093852517472543,
	"grad_norm": 1.0546875,
	"learning_rate": 4.088137472283814e-05,
	"loss": 1.2434954643249512,
	"step": 367
	},
	{
	"epoch": 0.209955783768364,
	"grad_norm": 1.03125,
	"learning_rate": 4.085365853658537e-05,
	"loss": 1.2326661348342896,
	"step": 368
	},
	{
	"epoch": 0.21052631578947367,
	"grad_norm": 1.0390625,
	"learning_rate": 4.0825942350332596e-05,
	"loss": 1.2969672679901123,
	"step": 369
	},
	{
	"epoch": 0.21052631578947367,
	"eval_loss": 1.238897681236267,
	"eval_runtime": 80.0789,
	"eval_samples_per_second": 11.938,
	"eval_steps_per_second": 2.985,
	"step": 369
	},
	{
	"epoch": 0.21109684781058338,
	"grad_norm": 1.0078125,
	"learning_rate": 4.0798226164079826e-05,
	"loss": 1.203234076499939,
	"step": 370
	},
	{
	"epoch": 0.21166737983169306,
	"grad_norm": 1.0390625,
	"learning_rate": 4.0770509977827055e-05,
	"loss": 1.2333259582519531,
	"step": 371
	},
	{
	"epoch": 0.21223791185280275,
	"grad_norm": 1.046875,
	"learning_rate": 4.074279379157428e-05,
	"loss": 1.2060984373092651,
	"step": 372
	},
	{
	"epoch": 0.21280844387391243,
	"grad_norm": 1.0234375,
	"learning_rate": 4.0715077605321514e-05,
	"loss": 1.1909129619598389,
	"step": 373
	},
	{
	"epoch": 0.2133789758950221,
	"grad_norm": 1.046875,
	"learning_rate": 4.068736141906874e-05,
	"loss": 1.2396963834762573,
	"step": 374
	},
	{
	"epoch": 0.2139495079161318,
	"grad_norm": 1.0078125,
	"learning_rate": 4.0659645232815966e-05,
	"loss": 1.1830250024795532,
	"step": 375
	},
	{
	"epoch": 0.21452003993724147,
	"grad_norm": 1.03125,
	"learning_rate": 4.0631929046563196e-05,
	"loss": 1.207044005393982,
	"step": 376
	},
	{
	"epoch": 0.21509057195835116,
	"grad_norm": 1.203125,
	"learning_rate": 4.0604212860310425e-05,
	"loss": 1.2795757055282593,
	"step": 377
	},
	{
	"epoch": 0.21566110397946084,
	"grad_norm": 1.0546875,
	"learning_rate": 4.057649667405765e-05,
	"loss": 1.2492969036102295,
	"step": 378
	},
	{
	"epoch": 0.21623163600057052,
	"grad_norm": 1.0546875,
	"learning_rate": 4.0548780487804884e-05,
	"loss": 1.3094936609268188,
	"step": 379
	},
	{
	"epoch": 0.21680216802168023,
	"grad_norm": 1.0390625,
	"learning_rate": 4.052106430155211e-05,
	"loss": 1.2260823249816895,
	"step": 380
	},
	{
	"epoch": 0.2173727000427899,
	"grad_norm": 1.078125,
	"learning_rate": 4.0493348115299336e-05,
	"loss": 1.2405587434768677,
	"step": 381
	},
	{
	"epoch": 0.2179432320638996,
	"grad_norm": 1.09375,
	"learning_rate": 4.0465631929046566e-05,
	"loss": 1.1963216066360474,
	"step": 382
	},
	{
	"epoch": 0.21851376408500928,
	"grad_norm": 1.1484375,
	"learning_rate": 4.043791574279379e-05,
	"loss": 1.2458081245422363,
	"step": 383
	},
	{
	"epoch": 0.21908429610611896,
	"grad_norm": 1.0859375,
	"learning_rate": 4.0410199556541025e-05,
	"loss": 1.1974573135375977,
	"step": 384
	},
	{
	"epoch": 0.21965482812722864,
	"grad_norm": 1.0390625,
	"learning_rate": 4.038248337028825e-05,
	"loss": 1.2237815856933594,
	"step": 385
	},
	{
	"epoch": 0.22022536014833832,
	"grad_norm": 1.03125,
	"learning_rate": 4.035476718403548e-05,
	"loss": 1.2369771003723145,
	"step": 386
	},
	{
	"epoch": 0.220795892169448,
	"grad_norm": 1.0859375,
	"learning_rate": 4.0327050997782706e-05,
	"loss": 1.2545832395553589,
	"step": 387
	},
	{
	"epoch": 0.2213664241905577,
	"grad_norm": 1.03125,
	"learning_rate": 4.0299334811529936e-05,
	"loss": 1.2126426696777344,
	"step": 388
	},
	{
	"epoch": 0.22193695621166737,
	"grad_norm": 1.0625,
	"learning_rate": 4.0271618625277165e-05,
	"loss": 1.2321901321411133,
	"step": 389
	},
	{
	"epoch": 0.22250748823277705,
	"grad_norm": 1.03125,
	"learning_rate": 4.0243902439024395e-05,
	"loss": 1.2315490245819092,
	"step": 390
	},
	{
	"epoch": 0.22307802025388676,
	"grad_norm": 1.0390625,
	"learning_rate": 4.021618625277162e-05,
	"loss": 1.1859689950942993,
	"step": 391
	},
	{
	"epoch": 0.22364855227499644,
	"grad_norm": 1.03125,
	"learning_rate": 4.018847006651885e-05,
	"loss": 1.2416760921478271,
	"step": 392
	},
	{
	"epoch": 0.22421908429610612,
	"grad_norm": 1.1015625,
	"learning_rate": 4.0160753880266076e-05,
	"loss": 1.3080382347106934,
	"step": 393
	},
	{
	"epoch": 0.2247896163172158,
	"grad_norm": 1.0625,
	"learning_rate": 4.0133037694013306e-05,
	"loss": 1.2275526523590088,
	"step": 394
	},
	{
	"epoch": 0.2253601483383255,
	"grad_norm": 1.03125,
	"learning_rate": 4.0105321507760535e-05,
	"loss": 1.2734044790267944,
	"step": 395
	},
	{
	"epoch": 0.22593068035943517,
	"grad_norm": 1.09375,
	"learning_rate": 4.007760532150776e-05,
	"loss": 1.2480955123901367,
	"step": 396
	},
	{
	"epoch": 0.22650121238054485,
	"grad_norm": 1.078125,
	"learning_rate": 4.0049889135254994e-05,
	"loss": 1.2629410028457642,
	"step": 397
	},
	{
	"epoch": 0.22707174440165453,
	"grad_norm": 1.046875,
	"learning_rate": 4.002217294900222e-05,
	"loss": 1.190090537071228,
	"step": 398
	},
	{
	"epoch": 0.22764227642276422,
	"grad_norm": 1.0859375,
	"learning_rate": 3.9994456762749446e-05,
	"loss": 1.2843146324157715,
	"step": 399
	},
	{
	"epoch": 0.2282128084438739,
	"grad_norm": 1.0546875,
	"learning_rate": 3.9966740576496676e-05,
	"loss": 1.2836047410964966,
	"step": 400
	},
	{
	"epoch": 0.2287833404649836,
	"grad_norm": 1.0234375,
	"learning_rate": 3.9939024390243905e-05,
	"loss": 1.1873021125793457,
	"step": 401
	},
	{
	"epoch": 0.2293538724860933,
	"grad_norm": 1.03125,
	"learning_rate": 3.9911308203991135e-05,
	"loss": 1.228004813194275,
	"step": 402
	},
	{
	"epoch": 0.22992440450720297,
	"grad_norm": 1.0078125,
	"learning_rate": 3.9883592017738364e-05,
	"loss": 1.2318588495254517,
	"step": 403
	},
	{
	"epoch": 0.23049493652831265,
	"grad_norm": 1.046875,
	"learning_rate": 3.985587583148559e-05,
	"loss": 1.218421220779419,
	"step": 404
	},
	{
	"epoch": 0.23106546854942234,
	"grad_norm": 1.0625,
	"learning_rate": 3.9828159645232816e-05,
	"loss": 1.3068960905075073,
	"step": 405
	},
	{
	"epoch": 0.23163600057053202,
	"grad_norm": 1.0234375,
	"learning_rate": 3.9800443458980046e-05,
	"loss": 1.2189011573791504,
	"step": 406
	},
	{
	"epoch": 0.2322065325916417,
	"grad_norm": 1.046875,
	"learning_rate": 3.9772727272727275e-05,
	"loss": 1.2019367218017578,
	"step": 407
	},
	{
	"epoch": 0.23277706461275138,
	"grad_norm": 1.046875,
	"learning_rate": 3.9745011086474505e-05,
	"loss": 1.2285387516021729,
	"step": 408
	},
	{
	"epoch": 0.23334759663386107,
	"grad_norm": 1.015625,
	"learning_rate": 3.971729490022173e-05,
	"loss": 1.1963067054748535,
	"step": 409
	},
	{
	"epoch": 0.23391812865497075,
	"grad_norm": 1.078125,
	"learning_rate": 3.9689578713968964e-05,
	"loss": 1.3005050420761108,
	"step": 410
	},
	{
	"epoch": 0.23448866067608046,
	"grad_norm": 1.0234375,
	"learning_rate": 3.9661862527716186e-05,
	"loss": 1.2429478168487549,
	"step": 411
	},
	{
	"epoch": 0.23505919269719014,
	"grad_norm": 1.046875,
	"learning_rate": 3.9634146341463416e-05,
	"loss": 1.2445229291915894,
	"step": 412
	},
	{
	"epoch": 0.23562972471829982,
	"grad_norm": 1.046875,
	"learning_rate": 3.9606430155210645e-05,
	"loss": 1.2569499015808105,
	"step": 413
	},
	{
	"epoch": 0.2362002567394095,
	"grad_norm": 1.0,
	"learning_rate": 3.9578713968957875e-05,
	"loss": 1.232776165008545,
	"step": 414
	},
	{
	"epoch": 0.23677078876051919,
	"grad_norm": 1.03125,
	"learning_rate": 3.9550997782705104e-05,
	"loss": 1.2104380130767822,
	"step": 415
	},
	{
	"epoch": 0.23734132078162887,
	"grad_norm": 1.1015625,
	"learning_rate": 3.952328159645233e-05,
	"loss": 1.2908308506011963,
	"step": 416
	},
	{
	"epoch": 0.23791185280273855,
	"grad_norm": 1.0625,
	"learning_rate": 3.9495565410199557e-05,
	"loss": 1.1678047180175781,
	"step": 417
	},
	{
	"epoch": 0.23848238482384823,
	"grad_norm": 1.0859375,
	"learning_rate": 3.9467849223946786e-05,
	"loss": 1.310725212097168,
	"step": 418
	},
	{
	"epoch": 0.2390529168449579,
	"grad_norm": 1.0546875,
	"learning_rate": 3.9440133037694015e-05,
	"loss": 1.2618491649627686,
	"step": 419
	},
	{
	"epoch": 0.2396234488660676,
	"grad_norm": 1.0234375,
	"learning_rate": 3.9412416851441245e-05,
	"loss": 1.1795238256454468,
	"step": 420
	},
	{
	"epoch": 0.2401939808871773,
	"grad_norm": 1.0546875,
	"learning_rate": 3.9384700665188474e-05,
	"loss": 1.2187573909759521,
	"step": 421
	},
	{
	"epoch": 0.240764512908287,
	"grad_norm": 1.03125,
	"learning_rate": 3.93569844789357e-05,
	"loss": 1.2171461582183838,
	"step": 422
	},
	{
	"epoch": 0.24133504492939667,
	"grad_norm": 1.046875,
	"learning_rate": 3.932926829268293e-05,
	"loss": 1.2295634746551514,
	"step": 423
	},
	{
	"epoch": 0.24190557695050635,
	"grad_norm": 1.0859375,
	"learning_rate": 3.9301552106430156e-05,
	"loss": 1.2483271360397339,
	"step": 424
	},
	{
	"epoch": 0.24247610897161603,
	"grad_norm": 1.0546875,
	"learning_rate": 3.9273835920177385e-05,
	"loss": 1.1881691217422485,
	"step": 425
	},
	{
	"epoch": 0.24304664099272572,
	"grad_norm": 1.03125,
	"learning_rate": 3.9246119733924615e-05,
	"loss": 1.1997624635696411,
	"step": 426
	},
	{
	"epoch": 0.2436171730138354,
	"grad_norm": 1.1015625,
	"learning_rate": 3.9218403547671844e-05,
	"loss": 1.2510207891464233,
	"step": 427
	},
	{
	"epoch": 0.24418770503494508,
	"grad_norm": 1.046875,
	"learning_rate": 3.9190687361419074e-05,
	"loss": 1.2188156843185425,
	"step": 428
	},
	{
	"epoch": 0.24475823705605476,
	"grad_norm": 1.0234375,
	"learning_rate": 3.9162971175166297e-05,
	"loss": 1.228477954864502,
	"step": 429
	},
	{
	"epoch": 0.24532876907716444,
	"grad_norm": 1.1171875,
	"learning_rate": 3.9135254988913526e-05,
	"loss": 1.3039709329605103,
	"step": 430
	},
	{
	"epoch": 0.24589930109827415,
	"grad_norm": 1.0703125,
	"learning_rate": 3.9107538802660755e-05,
	"loss": 1.2193942070007324,
	"step": 431
	},
	{
	"epoch": 0.24646983311938384,
	"grad_norm": 1.0859375,
	"learning_rate": 3.9079822616407985e-05,
	"loss": 1.2380352020263672,
	"step": 432
	},
	{
	"epoch": 0.24704036514049352,
	"grad_norm": 1.046875,
	"learning_rate": 3.905210643015521e-05,
	"loss": 1.1670141220092773,
	"step": 433
	},
	{
	"epoch": 0.2476108971616032,
	"grad_norm": 1.0625,
	"learning_rate": 3.9024390243902444e-05,
	"loss": 1.2406682968139648,
	"step": 434
	},
	{
	"epoch": 0.24818142918271288,
	"grad_norm": 1.0625,
	"learning_rate": 3.8996674057649667e-05,
	"loss": 1.200782060623169,
	"step": 435
	},
	{
	"epoch": 0.24875196120382256,
	"grad_norm": 1.046875,
	"learning_rate": 3.89689578713969e-05,
	"loss": 1.1442952156066895,
	"step": 436
	},
	{
	"epoch": 0.24932249322493225,
	"grad_norm": 1.03125,
	"learning_rate": 3.8941241685144125e-05,
	"loss": 1.15338134765625,
	"step": 437
	},
	{
	"epoch": 0.24989302524604193,
	"grad_norm": 0.98828125,
	"learning_rate": 3.8913525498891355e-05,
	"loss": 1.1609077453613281,
	"step": 438
	},
	{
	"epoch": 0.25046355726715164,
	"grad_norm": 1.1015625,
	"learning_rate": 3.8885809312638584e-05,
	"loss": 1.257835030555725,
	"step": 439
	},
	{
	"epoch": 0.2510340892882613,
	"grad_norm": 1.0859375,
	"learning_rate": 3.8858093126385814e-05,
	"loss": 1.2244375944137573,
	"step": 440
	},
	{
	"epoch": 0.251604621309371,
	"grad_norm": 1.0859375,
	"learning_rate": 3.8830376940133037e-05,
	"loss": 1.2138961553573608,
	"step": 441
	},
	{
	"epoch": 0.2521751533304807,
	"grad_norm": 1.0546875,
	"learning_rate": 3.8802660753880266e-05,
	"loss": 1.240128755569458,
	"step": 442
	},
	{
	"epoch": 0.25274568535159037,
	"grad_norm": 1.0,
	"learning_rate": 3.8774944567627496e-05,
	"loss": 1.2070982456207275,
	"step": 443
	},
	{
	"epoch": 0.25331621737270005,
	"grad_norm": 1.0546875,
	"learning_rate": 3.8747228381374725e-05,
	"loss": 1.2733830213546753,
	"step": 444
	},
	{
	"epoch": 0.25388674939380973,
	"grad_norm": 1.046875,
	"learning_rate": 3.8719512195121954e-05,
	"loss": 1.1820507049560547,
	"step": 445
	},
	{
	"epoch": 0.2544572814149194,
	"grad_norm": 1.0078125,
	"learning_rate": 3.869179600886918e-05,
	"loss": 1.196885108947754,
	"step": 446
	},
	{
	"epoch": 0.2550278134360291,
	"grad_norm": 1.03125,
	"learning_rate": 3.866407982261641e-05,
	"loss": 1.1905972957611084,
	"step": 447
	},
	{
	"epoch": 0.2555983454571388,
	"grad_norm": 1.09375,
	"learning_rate": 3.8636363636363636e-05,
	"loss": 1.2579684257507324,
	"step": 448
	},
	{
	"epoch": 0.25616887747824846,
	"grad_norm": 1.0,
	"learning_rate": 3.8608647450110866e-05,
	"loss": 1.1727596521377563,
	"step": 449
	},
	{
	"epoch": 0.25673940949935814,
	"grad_norm": 1.015625,
	"learning_rate": 3.8580931263858095e-05,
	"loss": 1.1504234075546265,
	"step": 450
	},
	{
	"epoch": 0.2573099415204678,
	"grad_norm": 1.015625,
	"learning_rate": 3.8553215077605324e-05,
	"loss": 1.1405715942382812,
	"step": 451
	},
	{
	"epoch": 0.2578804735415775,
	"grad_norm": 0.98828125,
	"learning_rate": 3.8525498891352554e-05,
	"loss": 1.220837116241455,
	"step": 452
	},
	{
	"epoch": 0.2584510055626872,
	"grad_norm": 1.0234375,
	"learning_rate": 3.8497782705099777e-05,
	"loss": 1.1962711811065674,
	"step": 453
	},
	{
	"epoch": 0.25902153758379687,
	"grad_norm": 1.015625,
	"learning_rate": 3.8470066518847006e-05,
	"loss": 1.1877164840698242,
	"step": 454
	},
	{
	"epoch": 0.25959206960490655,
	"grad_norm": 1.046875,
	"learning_rate": 3.8442350332594236e-05,
	"loss": 1.2504132986068726,
	"step": 455
	},
	{
	"epoch": 0.2601626016260163,
	"grad_norm": 1.015625,
	"learning_rate": 3.8414634146341465e-05,
	"loss": 1.1902315616607666,
	"step": 456
	},
	{
	"epoch": 0.26073313364712597,
	"grad_norm": 1.03125,
	"learning_rate": 3.8386917960088694e-05,
	"loss": 1.2856203317642212,
	"step": 457
	},
	{
	"epoch": 0.26130366566823565,
	"grad_norm": 1.0625,
	"learning_rate": 3.8359201773835924e-05,
	"loss": 1.2528060674667358,
	"step": 458
	},
	{
	"epoch": 0.26187419768934533,
	"grad_norm": 1.078125,
	"learning_rate": 3.833148558758315e-05,
	"loss": 1.1831871271133423,
	"step": 459
	},
	{
	"epoch": 0.262444729710455,
	"grad_norm": 1.015625,
	"learning_rate": 3.830376940133038e-05,
	"loss": 1.1781988143920898,
	"step": 460
	},
	{
	"epoch": 0.2630152617315647,
	"grad_norm": 1.015625,
	"learning_rate": 3.8276053215077606e-05,
	"loss": 1.193709373474121,
	"step": 461
	},
	{
	"epoch": 0.2635857937526744,
	"grad_norm": 1.078125,
	"learning_rate": 3.8248337028824835e-05,
	"loss": 1.1997225284576416,
	"step": 462
	},
	{
	"epoch": 0.26415632577378406,
	"grad_norm": 1.0078125,
	"learning_rate": 3.8220620842572064e-05,
	"loss": 1.159136176109314,
	"step": 463
	},
	{
	"epoch": 0.26472685779489374,
	"grad_norm": 1.015625,
	"learning_rate": 3.8192904656319294e-05,
	"loss": 1.242883324623108,
	"step": 464
	},
	{
	"epoch": 0.2652973898160034,
	"grad_norm": 1.0703125,
	"learning_rate": 3.8165188470066523e-05,
	"loss": 1.2907770872116089,
	"step": 465
	},
	{
	"epoch": 0.2658679218371131,
	"grad_norm": 1.09375,
	"learning_rate": 3.8137472283813746e-05,
	"loss": 1.2596560716629028,
	"step": 466
	},
	{
	"epoch": 0.2664384538582228,
	"grad_norm": 1.1171875,
	"learning_rate": 3.8109756097560976e-05,
	"loss": 1.2509888410568237,
	"step": 467
	},
	{
	"epoch": 0.26700898587933247,
	"grad_norm": 0.97265625,
	"learning_rate": 3.8082039911308205e-05,
	"loss": 1.2029120922088623,
	"step": 468
	},
	{
	"epoch": 0.26757951790044215,
	"grad_norm": 1.015625,
	"learning_rate": 3.8054323725055435e-05,
	"loss": 1.210568904876709,
	"step": 469
	},
	{
	"epoch": 0.26815004992155184,
	"grad_norm": 0.9921875,
	"learning_rate": 3.8026607538802664e-05,
	"loss": 1.1661216020584106,
	"step": 470
	},
	{
	"epoch": 0.2687205819426615,
	"grad_norm": 1.03125,
	"learning_rate": 3.7998891352549893e-05,
	"loss": 1.229252576828003,
	"step": 471
	},
	{
	"epoch": 0.2692911139637712,
	"grad_norm": 1.0546875,
	"learning_rate": 3.7971175166297116e-05,
	"loss": 1.209242343902588,
	"step": 472
	},
	{
	"epoch": 0.2698616459848809,
	"grad_norm": 1.0390625,
	"learning_rate": 3.794345898004435e-05,
	"loss": 1.2709503173828125,
	"step": 473
	},
	{
	"epoch": 0.27043217800599056,
	"grad_norm": 1.078125,
	"learning_rate": 3.7915742793791575e-05,
	"loss": 1.2316001653671265,
	"step": 474
	},
	{
	"epoch": 0.27100271002710025,
	"grad_norm": 1.03125,
	"learning_rate": 3.7888026607538805e-05,
	"loss": 1.2138065099716187,
	"step": 475
	},
	{
	"epoch": 0.27157324204820993,
	"grad_norm": 1.0,
	"learning_rate": 3.7860310421286034e-05,
	"loss": 1.1936984062194824,
	"step": 476
	},
	{
	"epoch": 0.27214377406931967,
	"grad_norm": 1.015625,
	"learning_rate": 3.783259423503326e-05,
	"loss": 1.2338573932647705,
	"step": 477
	},
	{
	"epoch": 0.27271430609042935,
	"grad_norm": 1.046875,
	"learning_rate": 3.780487804878049e-05,
	"loss": 1.2421263456344604,
	"step": 478
	},
	{
	"epoch": 0.27328483811153903,
	"grad_norm": 1.03125,
	"learning_rate": 3.7777161862527716e-05,
	"loss": 1.2414464950561523,
	"step": 479
	},
	{
	"epoch": 0.2738553701326487,
	"grad_norm": 0.99609375,
	"learning_rate": 3.7749445676274945e-05,
	"loss": 1.2261340618133545,
	"step": 480
	},
	{
	"epoch": 0.2744259021537584,
	"grad_norm": 1.0234375,
	"learning_rate": 3.7721729490022175e-05,
	"loss": 1.208221435546875,
	"step": 481
	},
	{
	"epoch": 0.2749964341748681,
	"grad_norm": 1.0234375,
	"learning_rate": 3.7694013303769404e-05,
	"loss": 1.2820276021957397,
	"step": 482
	},
	{
	"epoch": 0.27556696619597776,
	"grad_norm": 1.0703125,
	"learning_rate": 3.7666297117516633e-05,
	"loss": 1.262161374092102,
	"step": 483
	},
	{
	"epoch": 0.27613749821708744,
	"grad_norm": 0.9921875,
	"learning_rate": 3.763858093126386e-05,
	"loss": 1.2242916822433472,
	"step": 484
	},
	{
	"epoch": 0.2767080302381971,
	"grad_norm": 1.0078125,
	"learning_rate": 3.7610864745011086e-05,
	"loss": 1.1797833442687988,
	"step": 485
	},
	{
	"epoch": 0.2772785622593068,
	"grad_norm": 1.0546875,
	"learning_rate": 3.758314855875832e-05,
	"loss": 1.2725660800933838,
	"step": 486
	},
	{
	"epoch": 0.2778490942804165,
	"grad_norm": 1.015625,
	"learning_rate": 3.7555432372505545e-05,
	"loss": 1.195313572883606,
	"step": 487
	},
	{
	"epoch": 0.27841962630152617,
	"grad_norm": 0.94921875,
	"learning_rate": 3.7527716186252774e-05,
	"loss": 1.1661468744277954,
	"step": 488
	},
	{
	"epoch": 0.27899015832263585,
	"grad_norm": 1.0390625,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 1.2072978019714355,
	"step": 489
	},
	{
	"epoch": 0.27956069034374553,
	"grad_norm": 0.98828125,
	"learning_rate": 3.7472283813747226e-05,
	"loss": 1.203414797782898,
	"step": 490
	},
	{
	"epoch": 0.2801312223648552,
	"grad_norm": 1.0390625,
	"learning_rate": 3.7444567627494456e-05,
	"loss": 1.2426180839538574,
	"step": 491
	},
	{
	"epoch": 0.2807017543859649,
	"grad_norm": 1.015625,
	"learning_rate": 3.7416851441241685e-05,
	"loss": 1.232536792755127,
	"step": 492
	},
	{
	"epoch": 0.2812722864070746,
	"grad_norm": 1.03125,
	"learning_rate": 3.7389135254988915e-05,
	"loss": 1.266850471496582,
	"step": 493
	},
	{
	"epoch": 0.28184281842818426,
	"grad_norm": 1.046875,
	"learning_rate": 3.7361419068736144e-05,
	"loss": 1.2585172653198242,
	"step": 494
	},
	{
	"epoch": 0.28241335044929394,
	"grad_norm": 0.99609375,
	"learning_rate": 3.7333702882483374e-05,
	"loss": 1.2028322219848633,
	"step": 495
	},
	{
	"epoch": 0.2829838824704036,
	"grad_norm": 1.0546875,
	"learning_rate": 3.7305986696230596e-05,
	"loss": 1.2268320322036743,
	"step": 496
	},
	{
	"epoch": 0.28355441449151336,
	"grad_norm": 1.03125,
	"learning_rate": 3.727827050997783e-05,
	"loss": 1.2339527606964111,
	"step": 497
	},
	{
	"epoch": 0.28412494651262304,
	"grad_norm": 1.046875,
	"learning_rate": 3.7250554323725055e-05,
	"loss": 1.2072274684906006,
	"step": 498
	},
	{
	"epoch": 0.2846954785337327,
	"grad_norm": 0.99609375,
	"learning_rate": 3.7222838137472285e-05,
	"loss": 1.235311508178711,
	"step": 499
	},
	{
	"epoch": 0.2852660105548424,
	"grad_norm": 1.0390625,
	"learning_rate": 3.7195121951219514e-05,
	"loss": 1.2435599565505981,
	"step": 500
	},
	{
	"epoch": 0.2858365425759521,
	"grad_norm": 1.0390625,
	"learning_rate": 3.7167405764966744e-05,
	"loss": 1.2234078645706177,
	"step": 501
	},
	{
	"epoch": 0.2864070745970618,
	"grad_norm": 1.0703125,
	"learning_rate": 3.713968957871397e-05,
	"loss": 1.2654131650924683,
	"step": 502
	},
	{
	"epoch": 0.28697760661817145,
	"grad_norm": 1.0625,
	"learning_rate": 3.7111973392461196e-05,
	"loss": 1.226614236831665,
	"step": 503
	},
	{
	"epoch": 0.28754813863928114,
	"grad_norm": 1.109375,
	"learning_rate": 3.7084257206208425e-05,
	"loss": 1.2334555387496948,
	"step": 504
	},
	{
	"epoch": 0.2881186706603908,
	"grad_norm": 1.0546875,
	"learning_rate": 3.7056541019955655e-05,
	"loss": 1.2169506549835205,
	"step": 505
	},
	{
	"epoch": 0.2886892026815005,
	"grad_norm": 1.078125,
	"learning_rate": 3.7028824833702884e-05,
	"loss": 1.2664920091629028,
	"step": 506
	},
	{
	"epoch": 0.2892597347026102,
	"grad_norm": 1.2109375,
	"learning_rate": 3.7001108647450114e-05,
	"loss": 1.2238786220550537,
	"step": 507
	},
	{
	"epoch": 0.28983026672371986,
	"grad_norm": 1.03125,
	"learning_rate": 3.697339246119734e-05,
	"loss": 1.179901361465454,
	"step": 508
	},
	{
	"epoch": 0.29040079874482955,
	"grad_norm": 1.078125,
	"learning_rate": 3.6945676274944566e-05,
	"loss": 1.2527443170547485,
	"step": 509
	},
	{
	"epoch": 0.29097133076593923,
	"grad_norm": 1.0234375,
	"learning_rate": 3.69179600886918e-05,
	"loss": 1.2478464841842651,
	"step": 510
	},
	{
	"epoch": 0.2915418627870489,
	"grad_norm": 1.1015625,
	"learning_rate": 3.6890243902439025e-05,
	"loss": 1.2006577253341675,
	"step": 511
	},
	{
	"epoch": 0.2921123948081586,
	"grad_norm": 1.1015625,
	"learning_rate": 3.6862527716186254e-05,
	"loss": 1.283043384552002,
	"step": 512
	},
	{
	"epoch": 0.2926829268292683,
	"grad_norm": 1.0234375,
	"learning_rate": 3.6834811529933484e-05,
	"loss": 1.223816156387329,
	"step": 513
	},
	{
	"epoch": 0.29325345885037796,
	"grad_norm": 1.1171875,
	"learning_rate": 3.6807095343680706e-05,
	"loss": 1.2357165813446045,
	"step": 514
	},
	{
	"epoch": 0.29382399087148764,
	"grad_norm": 1.078125,
	"learning_rate": 3.677937915742794e-05,
	"loss": 1.2494802474975586,
	"step": 515
	},
	{
	"epoch": 0.2943945228925973,
	"grad_norm": 1.046875,
	"learning_rate": 3.6751662971175165e-05,
	"loss": 1.2093576192855835,
	"step": 516
	},
	{
	"epoch": 0.29496505491370706,
	"grad_norm": 1.0234375,
	"learning_rate": 3.6723946784922395e-05,
	"loss": 1.192871332168579,
	"step": 517
	},
	{
	"epoch": 0.29553558693481674,
	"grad_norm": 0.93359375,
	"learning_rate": 3.6696230598669624e-05,
	"loss": 1.1430253982543945,
	"step": 518
	},
	{
	"epoch": 0.2961061189559264,
	"grad_norm": 1.03125,
	"learning_rate": 3.6668514412416854e-05,
	"loss": 1.2123762369155884,
	"step": 519
	},
	{
	"epoch": 0.2966766509770361,
	"grad_norm": 1.0703125,
	"learning_rate": 3.664079822616408e-05,
	"loss": 1.2201260328292847,
	"step": 520
	},
	{
	"epoch": 0.2972471829981458,
	"grad_norm": 1.0546875,
	"learning_rate": 3.661308203991131e-05,
	"loss": 1.1812068223953247,
	"step": 521
	},
	{
	"epoch": 0.29781771501925547,
	"grad_norm": 1.078125,
	"learning_rate": 3.6585365853658535e-05,
	"loss": 1.2447538375854492,
	"step": 522
	},
	{
	"epoch": 0.29838824704036515,
	"grad_norm": 1.0625,
	"learning_rate": 3.655764966740577e-05,
	"loss": 1.2636268138885498,
	"step": 523
	},
	{
	"epoch": 0.29895877906147483,
	"grad_norm": 1.0546875,
	"learning_rate": 3.6529933481152994e-05,
	"loss": 1.2320729494094849,
	"step": 524
	},
	{
	"epoch": 0.2995293110825845,
	"grad_norm": 1.0859375,
	"learning_rate": 3.6502217294900224e-05,
	"loss": 1.2655476331710815,
	"step": 525
	},
	{
	"epoch": 0.3000998431036942,
	"grad_norm": 1.0390625,
	"learning_rate": 3.647450110864745e-05,
	"loss": 1.2109198570251465,
	"step": 526
	},
	{
	"epoch": 0.3006703751248039,
	"grad_norm": 1.046875,
	"learning_rate": 3.6446784922394676e-05,
	"loss": 1.2380175590515137,
	"step": 527
	},
	{
	"epoch": 0.30124090714591356,
	"grad_norm": 1.0234375,
	"learning_rate": 3.641906873614191e-05,
	"loss": 1.2023993730545044,
	"step": 528
	},
	{
	"epoch": 0.30181143916702324,
	"grad_norm": 1.0234375,
	"learning_rate": 3.6391352549889135e-05,
	"loss": 1.239518404006958,
	"step": 529
	},
	{
	"epoch": 0.3023819711881329,
	"grad_norm": 0.9921875,
	"learning_rate": 3.6363636363636364e-05,
	"loss": 1.2405352592468262,
	"step": 530
	},
	{
	"epoch": 0.3029525032092426,
	"grad_norm": 1.0390625,
	"learning_rate": 3.6335920177383594e-05,
	"loss": 1.269554853439331,
	"step": 531
	},
	{
	"epoch": 0.3035230352303523,
	"grad_norm": 1.0078125,
	"learning_rate": 3.630820399113082e-05,
	"loss": 1.256522297859192,
	"step": 532
	},
	{
	"epoch": 0.30409356725146197,
	"grad_norm": 0.99609375,
	"learning_rate": 3.628048780487805e-05,
	"loss": 1.2245392799377441,
	"step": 533
	},
	{
	"epoch": 0.30466409927257165,
	"grad_norm": 0.99609375,
	"learning_rate": 3.625277161862528e-05,
	"loss": 1.2256156206130981,
	"step": 534
	},
	{
	"epoch": 0.30523463129368134,
	"grad_norm": 1.078125,
	"learning_rate": 3.6225055432372505e-05,
	"loss": 1.2551851272583008,
	"step": 535
	},
	{
	"epoch": 0.305805163314791,
	"grad_norm": 1.0234375,
	"learning_rate": 3.619733924611974e-05,
	"loss": 1.1682400703430176,
	"step": 536
	},
	{
	"epoch": 0.30637569533590076,
	"grad_norm": 1.0703125,
	"learning_rate": 3.6169623059866964e-05,
	"loss": 1.2278921604156494,
	"step": 537
	},
	{
	"epoch": 0.30694622735701044,
	"grad_norm": 1.03125,
	"learning_rate": 3.6141906873614186e-05,
	"loss": 1.2167140245437622,
	"step": 538
	},
	{
	"epoch": 0.3075167593781201,
	"grad_norm": 0.99609375,
	"learning_rate": 3.611419068736142e-05,
	"loss": 1.2471628189086914,
	"step": 539
	},
	{
	"epoch": 0.3080872913992298,
	"grad_norm": 1.0546875,
	"learning_rate": 3.6086474501108645e-05,
	"loss": 1.2300347089767456,
	"step": 540
	},
	{
	"epoch": 0.3086578234203395,
	"grad_norm": 1.015625,
	"learning_rate": 3.605875831485588e-05,
	"loss": 1.1582870483398438,
	"step": 541
	},
	{
	"epoch": 0.30922835544144917,
	"grad_norm": 1.03125,
	"learning_rate": 3.6031042128603104e-05,
	"loss": 1.2606914043426514,
	"step": 542
	},
	{
	"epoch": 0.30979888746255885,
	"grad_norm": 1.0,
	"learning_rate": 3.6003325942350334e-05,
	"loss": 1.2054803371429443,
	"step": 543
	},
	{
	"epoch": 0.31036941948366853,
	"grad_norm": 1.0078125,
	"learning_rate": 3.597560975609756e-05,
	"loss": 1.1797690391540527,
	"step": 544
	},
	{
	"epoch": 0.3109399515047782,
	"grad_norm": 1.03125,
	"learning_rate": 3.594789356984479e-05,
	"loss": 1.1780451536178589,
	"step": 545
	},
	{
	"epoch": 0.3115104835258879,
	"grad_norm": 1.0546875,
	"learning_rate": 3.5920177383592015e-05,
	"loss": 1.2812529802322388,
	"step": 546
	},
	{
	"epoch": 0.3120810155469976,
	"grad_norm": 1.0625,
	"learning_rate": 3.589246119733925e-05,
	"loss": 1.3007402420043945,
	"step": 547
	},
	{
	"epoch": 0.31265154756810726,
	"grad_norm": 0.9921875,
	"learning_rate": 3.5864745011086474e-05,
	"loss": 1.1987743377685547,
	"step": 548
	},
	{
	"epoch": 0.31322207958921694,
	"grad_norm": 1.078125,
	"learning_rate": 3.583702882483371e-05,
	"loss": 1.2217564582824707,
	"step": 549
	},
	{
	"epoch": 0.3137926116103266,
	"grad_norm": 0.99609375,
	"learning_rate": 3.580931263858093e-05,
	"loss": 1.211827039718628,
	"step": 550
	},
	{
	"epoch": 0.3143631436314363,
	"grad_norm": 1.03125,
	"learning_rate": 3.5781596452328156e-05,
	"loss": 1.2164710760116577,
	"step": 551
	},
	{
	"epoch": 0.314933675652546,
	"grad_norm": 0.98828125,
	"learning_rate": 3.575388026607539e-05,
	"loss": 1.2393014430999756,
	"step": 552
	},
	{
	"epoch": 0.31550420767365567,
	"grad_norm": 0.96875,
	"learning_rate": 3.5726164079822615e-05,
	"loss": 1.1759617328643799,
	"step": 553
	},
	{
	"epoch": 0.31607473969476535,
	"grad_norm": 1.015625,
	"learning_rate": 3.5698447893569844e-05,
	"loss": 1.2184211015701294,
	"step": 554
	},
	{
	"epoch": 0.31664527171587503,
	"grad_norm": 1.046875,
	"learning_rate": 3.5670731707317074e-05,
	"loss": 1.248216152191162,
	"step": 555
	},
	{
	"epoch": 0.3172158037369847,
	"grad_norm": 1.0078125,
	"learning_rate": 3.56430155210643e-05,
	"loss": 1.2055684328079224,
	"step": 556
	},
	{
	"epoch": 0.3177863357580944,
	"grad_norm": 1.0546875,
	"learning_rate": 3.561529933481153e-05,
	"loss": 1.19916832447052,
	"step": 557
	},
	{
	"epoch": 0.31835686777920413,
	"grad_norm": 0.95703125,
	"learning_rate": 3.558758314855876e-05,
	"loss": 1.151750087738037,
	"step": 558
	},
	{
	"epoch": 0.3189273998003138,
	"grad_norm": 0.99609375,
	"learning_rate": 3.5559866962305985e-05,
	"loss": 1.254964828491211,
	"step": 559
	},
	{
	"epoch": 0.3194979318214235,
	"grad_norm": 1.0546875,
	"learning_rate": 3.553215077605322e-05,
	"loss": 1.251706600189209,
	"step": 560
	},
	{
	"epoch": 0.3200684638425332,
	"grad_norm": 1.2265625,
	"learning_rate": 3.5504434589800444e-05,
	"loss": 1.1918596029281616,
	"step": 561
	},
	{
	"epoch": 0.32063899586364286,
	"grad_norm": 1.0625,
	"learning_rate": 3.547671840354767e-05,
	"loss": 1.2538777589797974,
	"step": 562
	},
	{
	"epoch": 0.32120952788475254,
	"grad_norm": 1.078125,
	"learning_rate": 3.54490022172949e-05,
	"loss": 1.227068543434143,
	"step": 563
	},
	{
	"epoch": 0.3217800599058622,
	"grad_norm": 1.015625,
	"learning_rate": 3.5421286031042125e-05,
	"loss": 1.1811244487762451,
	"step": 564
	},
	{
	"epoch": 0.3223505919269719,
	"grad_norm": 1.015625,
	"learning_rate": 3.539356984478936e-05,
	"loss": 1.162517786026001,
	"step": 565
	},
	{
	"epoch": 0.3229211239480816,
	"grad_norm": 0.9921875,
	"learning_rate": 3.5365853658536584e-05,
	"loss": 1.1981290578842163,
	"step": 566
	},
	{
	"epoch": 0.32349165596919127,
	"grad_norm": 0.9765625,
	"learning_rate": 3.5338137472283814e-05,
	"loss": 1.1930001974105835,
	"step": 567
	},
	{
	"epoch": 0.32406218799030095,
	"grad_norm": 1.0546875,
	"learning_rate": 3.531042128603104e-05,
	"loss": 1.2397738695144653,
	"step": 568
	},
	{
	"epoch": 0.32463272001141064,
	"grad_norm": 1.078125,
	"learning_rate": 3.528270509977827e-05,
	"loss": 1.273198127746582,
	"step": 569
	},
	{
	"epoch": 0.3252032520325203,
	"grad_norm": 0.96875,
	"learning_rate": 3.52549889135255e-05,
	"loss": 1.1873741149902344,
	"step": 570
	},
	{
	"epoch": 0.32577378405363,
	"grad_norm": 0.9921875,
	"learning_rate": 3.522727272727273e-05,
	"loss": 1.2132840156555176,
	"step": 571
	},
	{
	"epoch": 0.3263443160747397,
	"grad_norm": 0.984375,
	"learning_rate": 3.5199556541019954e-05,
	"loss": 1.1881725788116455,
	"step": 572
	},
	{
	"epoch": 0.32691484809584936,
	"grad_norm": 1.0546875,
	"learning_rate": 3.517184035476719e-05,
	"loss": 1.2296414375305176,
	"step": 573
	},
	{
	"epoch": 0.32748538011695905,
	"grad_norm": 0.98828125,
	"learning_rate": 3.514412416851441e-05,
	"loss": 1.2116769552230835,
	"step": 574
	},
	{
	"epoch": 0.32805591213806873,
	"grad_norm": 1.0,
	"learning_rate": 3.511640798226164e-05,
	"loss": 1.194542646408081,
	"step": 575
	},
	{
	"epoch": 0.3286264441591784,
	"grad_norm": 1.03125,
	"learning_rate": 3.508869179600887e-05,
	"loss": 1.2189078330993652,
	"step": 576
	},
	{
	"epoch": 0.3291969761802881,
	"grad_norm": 0.96484375,
	"learning_rate": 3.5060975609756095e-05,
	"loss": 1.1380560398101807,
	"step": 577
	},
	{
	"epoch": 0.32976750820139783,
	"grad_norm": 1.015625,
	"learning_rate": 3.503325942350333e-05,
	"loss": 1.1995842456817627,
	"step": 578
	},
	{
	"epoch": 0.3303380402225075,
	"grad_norm": 1.0625,
	"learning_rate": 3.5005543237250554e-05,
	"loss": 1.254304051399231,
	"step": 579
	},
	{
	"epoch": 0.3309085722436172,
	"grad_norm": 1.0,
	"learning_rate": 3.497782705099778e-05,
	"loss": 1.201616883277893,
	"step": 580
	},
	{
	"epoch": 0.3314791042647269,
	"grad_norm": 0.98828125,
	"learning_rate": 3.495011086474501e-05,
	"loss": 1.1772336959838867,
	"step": 581
	},
	{
	"epoch": 0.33204963628583656,
	"grad_norm": 1.0234375,
	"learning_rate": 3.492239467849224e-05,
	"loss": 1.1937668323516846,
	"step": 582
	},
	{
	"epoch": 0.33262016830694624,
	"grad_norm": 0.9765625,
	"learning_rate": 3.489467849223947e-05,
	"loss": 1.186886191368103,
	"step": 583
	},
	{
	"epoch": 0.3331907003280559,
	"grad_norm": 1.0390625,
	"learning_rate": 3.48669623059867e-05,
	"loss": 1.2187786102294922,
	"step": 584
	},
	{
	"epoch": 0.3337612323491656,
	"grad_norm": 1.0234375,
	"learning_rate": 3.4839246119733924e-05,
	"loss": 1.1842401027679443,
	"step": 585
	},
	{
	"epoch": 0.3343317643702753,
	"grad_norm": 1.0,
	"learning_rate": 3.481152993348116e-05,
	"loss": 1.1953545808792114,
	"step": 586
	},
	{
	"epoch": 0.33490229639138497,
	"grad_norm": 1.0078125,
	"learning_rate": 3.478381374722838e-05,
	"loss": 1.1909786462783813,
	"step": 587
	},
	{
	"epoch": 0.33547282841249465,
	"grad_norm": 0.96484375,
	"learning_rate": 3.475609756097561e-05,
	"loss": 1.201062798500061,
	"step": 588
	},
	{
	"epoch": 0.33604336043360433,
	"grad_norm": 0.9921875,
	"learning_rate": 3.472838137472284e-05,
	"loss": 1.2262158393859863,
	"step": 589
	},
	{
	"epoch": 0.336613892454714,
	"grad_norm": 1.0390625,
	"learning_rate": 3.4700665188470064e-05,
	"loss": 1.255564570426941,
	"step": 590
	},
	{
	"epoch": 0.3371844244758237,
	"grad_norm": 0.984375,
	"learning_rate": 3.46729490022173e-05,
	"loss": 1.1916460990905762,
	"step": 591
	},
	{
	"epoch": 0.3377549564969334,
	"grad_norm": 1.03125,
	"learning_rate": 3.464523281596452e-05,
	"loss": 1.1728994846343994,
	"step": 592
	},
	{
	"epoch": 0.33832548851804306,
	"grad_norm": 1.0234375,
	"learning_rate": 3.461751662971175e-05,
	"loss": 1.2145668268203735,
	"step": 593
	},
	{
	"epoch": 0.33889602053915274,
	"grad_norm": 0.9921875,
	"learning_rate": 3.458980044345898e-05,
	"loss": 1.2174324989318848,
	"step": 594
	},
	{
	"epoch": 0.3394665525602624,
	"grad_norm": 1.0390625,
	"learning_rate": 3.456208425720621e-05,
	"loss": 1.1968474388122559,
	"step": 595
	},
	{
	"epoch": 0.3400370845813721,
	"grad_norm": 1.0078125,
	"learning_rate": 3.453436807095344e-05,
	"loss": 1.1793067455291748,
	"step": 596
	},
	{
	"epoch": 0.3406076166024818,
	"grad_norm": 1.03125,
	"learning_rate": 3.450665188470067e-05,
	"loss": 1.2109010219573975,
	"step": 597
	},
	{
	"epoch": 0.3411781486235915,
	"grad_norm": 1.0546875,
	"learning_rate": 3.447893569844789e-05,
	"loss": 1.2412149906158447,
	"step": 598
	},
	{
	"epoch": 0.3417486806447012,
	"grad_norm": 1.0078125,
	"learning_rate": 3.445121951219512e-05,
	"loss": 1.1886482238769531,
	"step": 599
	},
	{
	"epoch": 0.3423192126658109,
	"grad_norm": 1.015625,
	"learning_rate": 3.442350332594235e-05,
	"loss": 1.1711212396621704,
	"step": 600
	},
	{
	"epoch": 0.3428897446869206,
	"grad_norm": 0.98046875,
	"learning_rate": 3.4395787139689575e-05,
	"loss": 1.1890015602111816,
	"step": 601
	},
	{
	"epoch": 0.34346027670803025,
	"grad_norm": 0.95703125,
	"learning_rate": 3.436807095343681e-05,
	"loss": 1.1860285997390747,
	"step": 602
	},
	{
	"epoch": 0.34403080872913994,
	"grad_norm": 0.98046875,
	"learning_rate": 3.4340354767184034e-05,
	"loss": 1.2001878023147583,
	"step": 603
	},
	{
	"epoch": 0.3446013407502496,
	"grad_norm": 1.0234375,
	"learning_rate": 3.431263858093127e-05,
	"loss": 1.1815104484558105,
	"step": 604
	},
	{
	"epoch": 0.3451718727713593,
	"grad_norm": 1.015625,
	"learning_rate": 3.428492239467849e-05,
	"loss": 1.1652307510375977,
	"step": 605
	},
	{
	"epoch": 0.345742404792469,
	"grad_norm": 1.0234375,
	"learning_rate": 3.425720620842572e-05,
	"loss": 1.1888481378555298,
	"step": 606
	},
	{
	"epoch": 0.34631293681357866,
	"grad_norm": 1.0390625,
	"learning_rate": 3.422949002217295e-05,
	"loss": 1.2198981046676636,
	"step": 607
	},
	{
	"epoch": 0.34688346883468835,
	"grad_norm": 1.03125,
	"learning_rate": 3.420177383592018e-05,
	"loss": 1.2088303565979004,
	"step": 608
	},
	{
	"epoch": 0.34745400085579803,
	"grad_norm": 1.046875,
	"learning_rate": 3.4174057649667404e-05,
	"loss": 1.2638548612594604,
	"step": 609
	},
	{
	"epoch": 0.3480245328769077,
	"grad_norm": 1.0234375,
	"learning_rate": 3.414634146341464e-05,
	"loss": 1.2314380407333374,
	"step": 610
	},
	{
	"epoch": 0.3485950648980174,
	"grad_norm": 1.0,
	"learning_rate": 3.411862527716186e-05,
	"loss": 1.1847796440124512,
	"step": 611
	},
	{
	"epoch": 0.3491655969191271,
	"grad_norm": 1.015625,
	"learning_rate": 3.409090909090909e-05,
	"loss": 1.1967138051986694,
	"step": 612
	},
	{
	"epoch": 0.34973612894023676,
	"grad_norm": 1.0546875,
	"learning_rate": 3.406319290465632e-05,
	"loss": 1.1948060989379883,
	"step": 613
	},
	{
	"epoch": 0.35030666096134644,
	"grad_norm": 1.0078125,
	"learning_rate": 3.4035476718403544e-05,
	"loss": 1.248701810836792,
	"step": 614
	},
	{
	"epoch": 0.3508771929824561,
	"grad_norm": 0.98046875,
	"learning_rate": 3.400776053215078e-05,
	"loss": 1.2076679468154907,
	"step": 615
	},
	{
	"epoch": 0.3514477250035658,
	"grad_norm": 1.0234375,
	"learning_rate": 3.3980044345898e-05,
	"loss": 1.20987868309021,
	"step": 616
	},
	{
	"epoch": 0.3520182570246755,
	"grad_norm": 0.9921875,
	"learning_rate": 3.395232815964523e-05,
	"loss": 1.1548939943313599,
	"step": 617
	},
	{
	"epoch": 0.35258878904578517,
	"grad_norm": 1.03125,
	"learning_rate": 3.392461197339246e-05,
	"loss": 1.2160520553588867,
	"step": 618
	},
	{
	"epoch": 0.3531593210668949,
	"grad_norm": 1.03125,
	"learning_rate": 3.389689578713969e-05,
	"loss": 1.2215287685394287,
	"step": 619
	},
	{
	"epoch": 0.3537298530880046,
	"grad_norm": 1.015625,
	"learning_rate": 3.386917960088692e-05,
	"loss": 1.2433137893676758,
	"step": 620
	},
	{
	"epoch": 0.35430038510911427,
	"grad_norm": 1.015625,
	"learning_rate": 3.384146341463415e-05,
	"loss": 1.2307751178741455,
	"step": 621
	},
	{
	"epoch": 0.35487091713022395,
	"grad_norm": 0.99609375,
	"learning_rate": 3.381374722838137e-05,
	"loss": 1.1872355937957764,
	"step": 622
	},
	{
	"epoch": 0.35544144915133363,
	"grad_norm": 1.03125,
	"learning_rate": 3.378603104212861e-05,
	"loss": 1.200265645980835,
	"step": 623
	},
	{
	"epoch": 0.3560119811724433,
	"grad_norm": 1.0546875,
	"learning_rate": 3.375831485587583e-05,
	"loss": 1.3020355701446533,
	"step": 624
	},
	{
	"epoch": 0.356582513193553,
	"grad_norm": 1.03125,
	"learning_rate": 3.373059866962306e-05,
	"loss": 1.1976819038391113,
	"step": 625
	},
	{
	"epoch": 0.3571530452146627,
	"grad_norm": 1.0234375,
	"learning_rate": 3.370288248337029e-05,
	"loss": 1.1945629119873047,
	"step": 626
	},
	{
	"epoch": 0.35772357723577236,
	"grad_norm": 0.9921875,
	"learning_rate": 3.3675166297117514e-05,
	"loss": 1.2189013957977295,
	"step": 627
	},
	{
	"epoch": 0.35829410925688204,
	"grad_norm": 0.9765625,
	"learning_rate": 3.364745011086475e-05,
	"loss": 1.2139533758163452,
	"step": 628
	},
	{
	"epoch": 0.3588646412779917,
	"grad_norm": 0.96484375,
	"learning_rate": 3.361973392461197e-05,
	"loss": 1.1832334995269775,
	"step": 629
	},
	{
	"epoch": 0.3594351732991014,
	"grad_norm": 1.0078125,
	"learning_rate": 3.35920177383592e-05,
	"loss": 1.1789777278900146,
	"step": 630
	},
	{
	"epoch": 0.3600057053202111,
	"grad_norm": 0.97265625,
	"learning_rate": 3.356430155210643e-05,
	"loss": 1.1401221752166748,
	"step": 631
	},
	{
	"epoch": 0.36057623734132077,
	"grad_norm": 1.015625,
	"learning_rate": 3.353658536585366e-05,
	"loss": 1.2332661151885986,
	"step": 632
	},
	{
	"epoch": 0.36114676936243045,
	"grad_norm": 0.9609375,
	"learning_rate": 3.350886917960089e-05,
	"loss": 1.1867516040802002,
	"step": 633
	},
	{
	"epoch": 0.36171730138354014,
	"grad_norm": 1.0078125,
	"learning_rate": 3.348115299334812e-05,
	"loss": 1.2486271858215332,
	"step": 634
	},
	{
	"epoch": 0.3622878334046498,
	"grad_norm": 1.0390625,
	"learning_rate": 3.345343680709534e-05,
	"loss": 1.1644282341003418,
	"step": 635
	},
	{
	"epoch": 0.3628583654257595,
	"grad_norm": 0.98828125,
	"learning_rate": 3.342572062084257e-05,
	"loss": 1.1926931142807007,
	"step": 636
	},
	{
	"epoch": 0.3634288974468692,
	"grad_norm": 0.98046875,
	"learning_rate": 3.33980044345898e-05,
	"loss": 1.2337167263031006,
	"step": 637
	},
	{
	"epoch": 0.36399942946797886,
	"grad_norm": 1.0078125,
	"learning_rate": 3.337028824833703e-05,
	"loss": 1.2726258039474487,
	"step": 638
	},
	{
	"epoch": 0.3645699614890886,
	"grad_norm": 1.046875,
	"learning_rate": 3.334257206208426e-05,
	"loss": 1.229848861694336,
	"step": 639
	},
	{
	"epoch": 0.3651404935101983,
	"grad_norm": 0.94921875,
	"learning_rate": 3.3314855875831483e-05,
	"loss": 1.1424199342727661,
	"step": 640
	},
	{
	"epoch": 0.36571102553130796,
	"grad_norm": 1.0234375,
	"learning_rate": 3.328713968957872e-05,
	"loss": 1.2158143520355225,
	"step": 641
	},
	{
	"epoch": 0.36628155755241765,
	"grad_norm": 1.0234375,
	"learning_rate": 3.325942350332594e-05,
	"loss": 1.213433027267456,
	"step": 642
	},
	{
	"epoch": 0.36685208957352733,
	"grad_norm": 1.0234375,
	"learning_rate": 3.323170731707317e-05,
	"loss": 1.1552369594573975,
	"step": 643
	},
	{
	"epoch": 0.367422621594637,
	"grad_norm": 0.9765625,
	"learning_rate": 3.32039911308204e-05,
	"loss": 1.1470410823822021,
	"step": 644
	},
	{
	"epoch": 0.3679931536157467,
	"grad_norm": 1.0234375,
	"learning_rate": 3.317627494456763e-05,
	"loss": 1.227137804031372,
	"step": 645
	},
	{
	"epoch": 0.3685636856368564,
	"grad_norm": 0.98046875,
	"learning_rate": 3.314855875831486e-05,
	"loss": 1.1736478805541992,
	"step": 646
	},
	{
	"epoch": 0.36913421765796606,
	"grad_norm": 1.0078125,
	"learning_rate": 3.312084257206209e-05,
	"loss": 1.2192144393920898,
	"step": 647
	},
	{
	"epoch": 0.36970474967907574,
	"grad_norm": 0.97265625,
	"learning_rate": 3.309312638580931e-05,
	"loss": 1.1780518293380737,
	"step": 648
	},
	{
	"epoch": 0.3702752817001854,
	"grad_norm": 1.015625,
	"learning_rate": 3.306541019955654e-05,
	"loss": 1.2205878496170044,
	"step": 649
	},
	{
	"epoch": 0.3708458137212951,
	"grad_norm": 0.99609375,
	"learning_rate": 3.303769401330377e-05,
	"loss": 1.2226086854934692,
	"step": 650
	},
	{
	"epoch": 0.3714163457424048,
	"grad_norm": 1.0078125,
	"learning_rate": 3.3009977827051e-05,
	"loss": 1.1905219554901123,
	"step": 651
	},
	{
	"epoch": 0.37198687776351447,
	"grad_norm": 1.015625,
	"learning_rate": 3.298226164079823e-05,
	"loss": 1.1790423393249512,
	"step": 652
	},
	{
	"epoch": 0.37255740978462415,
	"grad_norm": 0.9609375,
	"learning_rate": 3.295454545454545e-05,
	"loss": 1.1909444332122803,
	"step": 653
	},
	{
	"epoch": 0.37312794180573383,
	"grad_norm": 0.98828125,
	"learning_rate": 3.292682926829269e-05,
	"loss": 1.2416154146194458,
	"step": 654
	},
	{
	"epoch": 0.3736984738268435,
	"grad_norm": 1.0234375,
	"learning_rate": 3.289911308203991e-05,
	"loss": 1.2464513778686523,
	"step": 655
	},
	{
	"epoch": 0.3742690058479532,
	"grad_norm": 1.015625,
	"learning_rate": 3.287139689578714e-05,
	"loss": 1.239952802658081,
	"step": 656
	},
	{
	"epoch": 0.3748395378690629,
	"grad_norm": 0.99609375,
	"learning_rate": 3.284368070953437e-05,
	"loss": 1.2005925178527832,
	"step": 657
	},
	{
	"epoch": 0.37541006989017256,
	"grad_norm": 1.0078125,
	"learning_rate": 3.28159645232816e-05,
	"loss": 1.2646636962890625,
	"step": 658
	},
	{
	"epoch": 0.3759806019112823,
	"grad_norm": 0.98828125,
	"learning_rate": 3.278824833702882e-05,
	"loss": 1.203331470489502,
	"step": 659
	},
	{
	"epoch": 0.376551133932392,
	"grad_norm": 0.97265625,
	"learning_rate": 3.276053215077605e-05,
	"loss": 1.1849339008331299,
	"step": 660
	},
	{
	"epoch": 0.37712166595350166,
	"grad_norm": 1.0078125,
	"learning_rate": 3.273281596452328e-05,
	"loss": 1.2010148763656616,
	"step": 661
	},
	{
	"epoch": 0.37769219797461134,
	"grad_norm": 0.9921875,
	"learning_rate": 3.270509977827051e-05,
	"loss": 1.2384660243988037,
	"step": 662
	},
	{
	"epoch": 0.378262729995721,
	"grad_norm": 0.984375,
	"learning_rate": 3.267738359201774e-05,
	"loss": 1.2244110107421875,
	"step": 663
	},
	{
	"epoch": 0.3788332620168307,
	"grad_norm": 1.015625,
	"learning_rate": 3.2649667405764963e-05,
	"loss": 1.2706053256988525,
	"step": 664
	},
	{
	"epoch": 0.3794037940379404,
	"grad_norm": 0.98828125,
	"learning_rate": 3.26219512195122e-05,
	"loss": 1.2451549768447876,
	"step": 665
	},
	{
	"epoch": 0.37997432605905007,
	"grad_norm": 1.015625,
	"learning_rate": 3.259423503325942e-05,
	"loss": 1.2653909921646118,
	"step": 666
	},
	{
	"epoch": 0.38054485808015975,
	"grad_norm": 1.0078125,
	"learning_rate": 3.256651884700665e-05,
	"loss": 1.2227097749710083,
	"step": 667
	},
	{
	"epoch": 0.38111539010126944,
	"grad_norm": 0.98828125,
	"learning_rate": 3.253880266075388e-05,
	"loss": 1.2289211750030518,
	"step": 668
	},
	{
	"epoch": 0.3816859221223791,
	"grad_norm": 1.0078125,
	"learning_rate": 3.251108647450111e-05,
	"loss": 1.2068843841552734,
	"step": 669
	},
	{
	"epoch": 0.3822564541434888,
	"grad_norm": 0.9453125,
	"learning_rate": 3.248337028824834e-05,
	"loss": 1.166361689567566,
	"step": 670
	},
	{
	"epoch": 0.3828269861645985,
	"grad_norm": 0.9609375,
	"learning_rate": 3.245565410199557e-05,
	"loss": 1.220710277557373,
	"step": 671
	},
	{
	"epoch": 0.38339751818570816,
	"grad_norm": 0.984375,
	"learning_rate": 3.242793791574279e-05,
	"loss": 1.1663460731506348,
	"step": 672
	},
	{
	"epoch": 0.38396805020681785,
	"grad_norm": 1.0078125,
	"learning_rate": 3.240022172949002e-05,
	"loss": 1.1803617477416992,
	"step": 673
	},
	{
	"epoch": 0.38453858222792753,
	"grad_norm": 0.9921875,
	"learning_rate": 3.237250554323725e-05,
	"loss": 1.1342628002166748,
	"step": 674
	},
	{
	"epoch": 0.3851091142490372,
	"grad_norm": 0.9921875,
	"learning_rate": 3.234478935698448e-05,
	"loss": 1.2325470447540283,
	"step": 675
	},
	{
	"epoch": 0.3856796462701469,
	"grad_norm": 1.0078125,
	"learning_rate": 3.231707317073171e-05,
	"loss": 1.1941877603530884,
	"step": 676
	},
	{
	"epoch": 0.3862501782912566,
	"grad_norm": 1.0,
	"learning_rate": 3.228935698447893e-05,
	"loss": 1.1775301694869995,
	"step": 677
	},
	{
	"epoch": 0.38682071031236626,
	"grad_norm": 1.0546875,
	"learning_rate": 3.226164079822617e-05,
	"loss": 1.248462438583374,
	"step": 678
	},
	{
	"epoch": 0.387391242333476,
	"grad_norm": 1.03125,
	"learning_rate": 3.223392461197339e-05,
	"loss": 1.2440953254699707,
	"step": 679
	},
	{
	"epoch": 0.3879617743545857,
	"grad_norm": 0.98046875,
	"learning_rate": 3.220620842572062e-05,
	"loss": 1.1706881523132324,
	"step": 680
	},
	{
	"epoch": 0.38853230637569536,
	"grad_norm": 1.0390625,
	"learning_rate": 3.217849223946785e-05,
	"loss": 1.227694034576416,
	"step": 681
	},
	{
	"epoch": 0.38910283839680504,
	"grad_norm": 1.0234375,
	"learning_rate": 3.215077605321508e-05,
	"loss": 1.2553303241729736,
	"step": 682
	},
	{
	"epoch": 0.3896733704179147,
	"grad_norm": 0.94140625,
	"learning_rate": 3.212305986696231e-05,
	"loss": 1.1399942636489868,
	"step": 683
	},
	{
	"epoch": 0.3902439024390244,
	"grad_norm": 0.98828125,
	"learning_rate": 3.209534368070954e-05,
	"loss": 1.2082273960113525,
	"step": 684
	},
	{
	"epoch": 0.3908144344601341,
	"grad_norm": 1.0625,
	"learning_rate": 3.206762749445676e-05,
	"loss": 1.2403631210327148,
	"step": 685
	},
	{
	"epoch": 0.39138496648124377,
	"grad_norm": 1.03125,
	"learning_rate": 3.203991130820399e-05,
	"loss": 1.1668493747711182,
	"step": 686
	},
	{
	"epoch": 0.39195549850235345,
	"grad_norm": 1.0,
	"learning_rate": 3.201219512195122e-05,
	"loss": 1.1642647981643677,
	"step": 687
	},
	{
	"epoch": 0.39252603052346313,
	"grad_norm": 0.94921875,
	"learning_rate": 3.198447893569845e-05,
	"loss": 1.169840693473816,
	"step": 688
	},
	{
	"epoch": 0.3930965625445728,
	"grad_norm": 1.0625,
	"learning_rate": 3.195676274944568e-05,
	"loss": 1.1918284893035889,
	"step": 689
	},
	{
	"epoch": 0.3936670945656825,
	"grad_norm": 1.0546875,
	"learning_rate": 3.19290465631929e-05,
	"loss": 1.2486236095428467,
	"step": 690
	},
	{
	"epoch": 0.3942376265867922,
	"grad_norm": 1.0,
	"learning_rate": 3.190133037694014e-05,
	"loss": 1.212164044380188,
	"step": 691
	},
	{
	"epoch": 0.39480815860790186,
	"grad_norm": 1.0,
	"learning_rate": 3.187361419068736e-05,
	"loss": 1.2184773683547974,
	"step": 692
	},
	{
	"epoch": 0.39537869062901154,
	"grad_norm": 1.0625,
	"learning_rate": 3.184589800443459e-05,
	"loss": 1.2665815353393555,
	"step": 693
	},
	{
	"epoch": 0.3959492226501212,
	"grad_norm": 1.0625,
	"learning_rate": 3.181818181818182e-05,
	"loss": 1.1956299543380737,
	"step": 694
	},
	{
	"epoch": 0.3965197546712309,
	"grad_norm": 0.98828125,
	"learning_rate": 3.179046563192905e-05,
	"loss": 1.1868462562561035,
	"step": 695
	},
	{
	"epoch": 0.3970902866923406,
	"grad_norm": 1.0234375,
	"learning_rate": 3.176274944567628e-05,
	"loss": 1.2558304071426392,
	"step": 696
	},
	{
	"epoch": 0.39766081871345027,
	"grad_norm": 1.0078125,
	"learning_rate": 3.17350332594235e-05,
	"loss": 1.2197167873382568,
	"step": 697
	},
	{
	"epoch": 0.39823135073455995,
	"grad_norm": 1.0390625,
	"learning_rate": 3.170731707317073e-05,
	"loss": 1.2546510696411133,
	"step": 698
	},
	{
	"epoch": 0.39880188275566963,
	"grad_norm": 1.078125,
	"learning_rate": 3.167960088691796e-05,
	"loss": 1.2634811401367188,
	"step": 699
	},
	{
	"epoch": 0.39937241477677937,
	"grad_norm": 0.953125,
	"learning_rate": 3.165188470066519e-05,
	"loss": 1.1409438848495483,
	"step": 700
	},
	{
	"epoch": 0.39994294679788905,
	"grad_norm": 1.0,
	"learning_rate": 3.162416851441242e-05,
	"loss": 1.167540431022644,
	"step": 701
	},
	{
	"epoch": 0.40051347881899874,
	"grad_norm": 0.98828125,
	"learning_rate": 3.159645232815965e-05,
	"loss": 1.2233819961547852,
	"step": 702
	},
	{
	"epoch": 0.4010840108401084,
	"grad_norm": 1.0625,
	"learning_rate": 3.156873614190687e-05,
	"loss": 1.2183570861816406,
	"step": 703
	},
	{
	"epoch": 0.4016545428612181,
	"grad_norm": 1.0234375,
	"learning_rate": 3.154101995565411e-05,
	"loss": 1.2039064168930054,
	"step": 704
	},
	{
	"epoch": 0.4022250748823278,
	"grad_norm": 1.0234375,
	"learning_rate": 3.151330376940133e-05,
	"loss": 1.2583222389221191,
	"step": 705
	},
	{
	"epoch": 0.40279560690343746,
	"grad_norm": 0.9765625,
	"learning_rate": 3.148558758314856e-05,
	"loss": 1.2133885622024536,
	"step": 706
	},
	{
	"epoch": 0.40336613892454715,
	"grad_norm": 0.99609375,
	"learning_rate": 3.145787139689579e-05,
	"loss": 1.2497689723968506,
	"step": 707
	},
	{
	"epoch": 0.40393667094565683,
	"grad_norm": 1.015625,
	"learning_rate": 3.143015521064302e-05,
	"loss": 1.1765098571777344,
	"step": 708
	},
	{
	"epoch": 0.4045072029667665,
	"grad_norm": 0.9765625,
	"learning_rate": 3.140243902439025e-05,
	"loss": 1.1668319702148438,
	"step": 709
	},
	{
	"epoch": 0.4050777349878762,
	"grad_norm": 1.0,
	"learning_rate": 3.137472283813747e-05,
	"loss": 1.1545255184173584,
	"step": 710
	},
	{
	"epoch": 0.4056482670089859,
	"grad_norm": 1.0,
	"learning_rate": 3.13470066518847e-05,
	"loss": 1.2044893503189087,
	"step": 711
	},
	{
	"epoch": 0.40621879903009556,
	"grad_norm": 0.99609375,
	"learning_rate": 3.131929046563193e-05,
	"loss": 1.2121517658233643,
	"step": 712
	},
	{
	"epoch": 0.40678933105120524,
	"grad_norm": 1.0390625,
	"learning_rate": 3.129157427937916e-05,
	"loss": 1.276052713394165,
	"step": 713
	},
	{
	"epoch": 0.4073598630723149,
	"grad_norm": 1.015625,
	"learning_rate": 3.126385809312638e-05,
	"loss": 1.1800833940505981,
	"step": 714
	},
	{
	"epoch": 0.4079303950934246,
	"grad_norm": 0.984375,
	"learning_rate": 3.123614190687362e-05,
	"loss": 1.1513339281082153,
	"step": 715
	},
	{
	"epoch": 0.4085009271145343,
	"grad_norm": 0.98046875,
	"learning_rate": 3.120842572062084e-05,
	"loss": 1.2298616170883179,
	"step": 716
	},
	{
	"epoch": 0.40907145913564397,
	"grad_norm": 0.9765625,
	"learning_rate": 3.118070953436808e-05,
	"loss": 1.1709084510803223,
	"step": 717
	},
	{
	"epoch": 0.40964199115675365,
	"grad_norm": 0.98828125,
	"learning_rate": 3.11529933481153e-05,
	"loss": 1.1676058769226074,
	"step": 718
	},
	{
	"epoch": 0.41021252317786333,
	"grad_norm": 0.98828125,
	"learning_rate": 3.112527716186253e-05,
	"loss": 1.2025721073150635,
	"step": 719
	},
	{
	"epoch": 0.41078305519897307,
	"grad_norm": 1.0390625,
	"learning_rate": 3.109756097560976e-05,
	"loss": 1.2218658924102783,
	"step": 720
	},
	{
	"epoch": 0.41135358722008275,
	"grad_norm": 0.96875,
	"learning_rate": 3.106984478935698e-05,
	"loss": 1.1744896173477173,
	"step": 721
	},
	{
	"epoch": 0.41192411924119243,
	"grad_norm": 0.94921875,
	"learning_rate": 3.104212860310421e-05,
	"loss": 1.1989339590072632,
	"step": 722
	},
	{
	"epoch": 0.4124946512623021,
	"grad_norm": 0.9765625,
	"learning_rate": 3.101441241685144e-05,
	"loss": 1.2189137935638428,
	"step": 723
	},
	{
	"epoch": 0.4130651832834118,
	"grad_norm": 0.9921875,
	"learning_rate": 3.098669623059867e-05,
	"loss": 1.2155076265335083,
	"step": 724
	},
	{
	"epoch": 0.4136357153045215,
	"grad_norm": 0.9921875,
	"learning_rate": 3.09589800443459e-05,
	"loss": 1.1465799808502197,
	"step": 725
	},
	{
	"epoch": 0.41420624732563116,
	"grad_norm": 0.98828125,
	"learning_rate": 3.093126385809313e-05,
	"loss": 1.2145007848739624,
	"step": 726
	},
	{
	"epoch": 0.41477677934674084,
	"grad_norm": 0.984375,
	"learning_rate": 3.090354767184035e-05,
	"loss": 1.2057294845581055,
	"step": 727
	},
	{
	"epoch": 0.4153473113678505,
	"grad_norm": 0.9921875,
	"learning_rate": 3.087583148558759e-05,
	"loss": 1.2041752338409424,
	"step": 728
	},
	{
	"epoch": 0.4159178433889602,
	"grad_norm": 0.9765625,
	"learning_rate": 3.084811529933481e-05,
	"loss": 1.1989641189575195,
	"step": 729
	},
	{
	"epoch": 0.4164883754100699,
	"grad_norm": 0.9453125,
	"learning_rate": 3.082039911308204e-05,
	"loss": 1.188431739807129,
	"step": 730
	},
	{
	"epoch": 0.41705890743117957,
	"grad_norm": 0.96875,
	"learning_rate": 3.079268292682927e-05,
	"loss": 1.1488507986068726,
	"step": 731
	},
	{
	"epoch": 0.41762943945228925,
	"grad_norm": 1.015625,
	"learning_rate": 3.07649667405765e-05,
	"loss": 1.2174850702285767,
	"step": 732
	},
	{
	"epoch": 0.41819997147339893,
	"grad_norm": 0.96875,
	"learning_rate": 3.073725055432373e-05,
	"loss": 1.2141880989074707,
	"step": 733
	},
	{
	"epoch": 0.4187705034945086,
	"grad_norm": 1.03125,
	"learning_rate": 3.070953436807095e-05,
	"loss": 1.2875535488128662,
	"step": 734
	},
	{
	"epoch": 0.4193410355156183,
	"grad_norm": 0.984375,
	"learning_rate": 3.068181818181818e-05,
	"loss": 1.168579339981079,
	"step": 735
	},
	{
	"epoch": 0.419911567536728,
	"grad_norm": 0.96875,
	"learning_rate": 3.065410199556541e-05,
	"loss": 1.1168636083602905,
	"step": 736
	},
	{
	"epoch": 0.42048209955783766,
	"grad_norm": 0.984375,
	"learning_rate": 3.062638580931264e-05,
	"loss": 1.1600708961486816,
	"step": 737
	},
	{
	"epoch": 0.42105263157894735,
	"grad_norm": 0.9765625,
	"learning_rate": 3.059866962305987e-05,
	"loss": 1.1832588911056519,
	"step": 738
	},
	{
	"epoch": 0.42105263157894735,
	"eval_loss": 1.1941628456115723,
	"eval_runtime": 80.1253,
	"eval_samples_per_second": 11.931,
	"eval_steps_per_second": 2.983,
	"step": 738
	},
	{
	"epoch": 0.421623163600057,
	"grad_norm": 0.98828125,
	"learning_rate": 3.05709534368071e-05,
	"loss": 1.193061351776123,
	"step": 739
	},
	{
	"epoch": 0.42219369562116676,
	"grad_norm": 1.03125,
	"learning_rate": 3.054323725055432e-05,
	"loss": 1.1793735027313232,
	"step": 740
	},
	{
	"epoch": 0.42276422764227645,
	"grad_norm": 0.95703125,
	"learning_rate": 3.0515521064301554e-05,
	"loss": 1.1607141494750977,
	"step": 741
	},
	{
	"epoch": 0.42333475966338613,
	"grad_norm": 0.99609375,
	"learning_rate": 3.048780487804878e-05,
	"loss": 1.1790132522583008,
	"step": 742
	},
	{
	"epoch": 0.4239052916844958,
	"grad_norm": 0.98046875,
	"learning_rate": 3.0460088691796013e-05,
	"loss": 1.155259132385254,
	"step": 743
	},
	{
	"epoch": 0.4244758237056055,
	"grad_norm": 0.9609375,
	"learning_rate": 3.043237250554324e-05,
	"loss": 1.1134623289108276,
	"step": 744
	},
	{
	"epoch": 0.4250463557267152,
	"grad_norm": 0.93359375,
	"learning_rate": 3.0404656319290465e-05,
	"loss": 1.198337435722351,
	"step": 745
	},
	{
	"epoch": 0.42561688774782486,
	"grad_norm": 0.9921875,
	"learning_rate": 3.0376940133037695e-05,
	"loss": 1.1744345426559448,
	"step": 746
	},
	{
	"epoch": 0.42618741976893454,
	"grad_norm": 0.984375,
	"learning_rate": 3.034922394678492e-05,
	"loss": 1.1646068096160889,
	"step": 747
	},
	{
	"epoch": 0.4267579517900442,
	"grad_norm": 0.984375,
	"learning_rate": 3.0321507760532154e-05,
	"loss": 1.1827648878097534,
	"step": 748
	},
	{
	"epoch": 0.4273284838111539,
	"grad_norm": 0.953125,
	"learning_rate": 3.029379157427938e-05,
	"loss": 1.1942888498306274,
	"step": 749
	},
	{
	"epoch": 0.4278990158322636,
	"grad_norm": 0.9765625,
	"learning_rate": 3.026607538802661e-05,
	"loss": 1.1896655559539795,
	"step": 750
	},
	{
	"epoch": 0.42846954785337327,
	"grad_norm": 0.98046875,
	"learning_rate": 3.0238359201773835e-05,
	"loss": 1.197471022605896,
	"step": 751
	},
	{
	"epoch": 0.42904007987448295,
	"grad_norm": 1.0078125,
	"learning_rate": 3.021064301552107e-05,
	"loss": 1.1281297206878662,
	"step": 752
	},
	{
	"epoch": 0.42961061189559263,
	"grad_norm": 0.99609375,
	"learning_rate": 3.0182926829268294e-05,
	"loss": 1.1960434913635254,
	"step": 753
	},
	{
	"epoch": 0.4301811439167023,
	"grad_norm": 0.95703125,
	"learning_rate": 3.0155210643015524e-05,
	"loss": 1.1772822141647339,
	"step": 754
	},
	{
	"epoch": 0.430751675937812,
	"grad_norm": 0.98046875,
	"learning_rate": 3.012749445676275e-05,
	"loss": 1.2077326774597168,
	"step": 755
	},
	{
	"epoch": 0.4313222079589217,
	"grad_norm": 1.0,
	"learning_rate": 3.0099778270509983e-05,
	"loss": 1.216168999671936,
	"step": 756
	},
	{
	"epoch": 0.43189273998003136,
	"grad_norm": 0.97265625,
	"learning_rate": 3.007206208425721e-05,
	"loss": 1.1528898477554321,
	"step": 757
	},
	{
	"epoch": 0.43246327200114104,
	"grad_norm": 1.0,
	"learning_rate": 3.0044345898004435e-05,
	"loss": 1.1724753379821777,
	"step": 758
	},
	{
	"epoch": 0.4330338040222507,
	"grad_norm": 0.96484375,
	"learning_rate": 3.0016629711751664e-05,
	"loss": 1.1700730323791504,
	"step": 759
	},
	{
	"epoch": 0.43360433604336046,
	"grad_norm": 0.9609375,
	"learning_rate": 2.998891352549889e-05,
	"loss": 1.1328129768371582,
	"step": 760
	},
	{
	"epoch": 0.43417486806447014,
	"grad_norm": 0.9765625,
	"learning_rate": 2.9961197339246123e-05,
	"loss": 1.191325306892395,
	"step": 761
	},
	{
	"epoch": 0.4347454000855798,
	"grad_norm": 0.97265625,
	"learning_rate": 2.993348115299335e-05,
	"loss": 1.160369873046875,
	"step": 762
	},
	{
	"epoch": 0.4353159321066895,
	"grad_norm": 0.96484375,
	"learning_rate": 2.990576496674058e-05,
	"loss": 1.196010947227478,
	"step": 763
	},
	{
	"epoch": 0.4358864641277992,
	"grad_norm": 0.96875,
	"learning_rate": 2.9878048780487805e-05,
	"loss": 1.1497125625610352,
	"step": 764
	},
	{
	"epoch": 0.43645699614890887,
	"grad_norm": 1.0078125,
	"learning_rate": 2.9850332594235038e-05,
	"loss": 1.152623176574707,
	"step": 765
	},
	{
	"epoch": 0.43702752817001855,
	"grad_norm": 1.015625,
	"learning_rate": 2.9822616407982264e-05,
	"loss": 1.1713566780090332,
	"step": 766
	},
	{
	"epoch": 0.43759806019112824,
	"grad_norm": 1.1640625,
	"learning_rate": 2.9794900221729493e-05,
	"loss": 1.263333797454834,
	"step": 767
	},
	{
	"epoch": 0.4381685922122379,
	"grad_norm": 0.96875,
	"learning_rate": 2.976718403547672e-05,
	"loss": 1.144421935081482,
	"step": 768
	},
	{
	"epoch": 0.4387391242333476,
	"grad_norm": 0.953125,
	"learning_rate": 2.9739467849223952e-05,
	"loss": 1.2290055751800537,
	"step": 769
	},
	{
	"epoch": 0.4393096562544573,
	"grad_norm": 0.9921875,
	"learning_rate": 2.971175166297118e-05,
	"loss": 1.1050488948822021,
	"step": 770
	},
	{
	"epoch": 0.43988018827556696,
	"grad_norm": 0.9765625,
	"learning_rate": 2.96840354767184e-05,
	"loss": 1.2218358516693115,
	"step": 771
	},
	{
	"epoch": 0.44045072029667665,
	"grad_norm": 0.94921875,
	"learning_rate": 2.9656319290465634e-05,
	"loss": 1.1308021545410156,
	"step": 772
	},
	{
	"epoch": 0.4410212523177863,
	"grad_norm": 0.99609375,
	"learning_rate": 2.962860310421286e-05,
	"loss": 1.2299238443374634,
	"step": 773
	},
	{
	"epoch": 0.441591784338896,
	"grad_norm": 0.98046875,
	"learning_rate": 2.960088691796009e-05,
	"loss": 1.1389673948287964,
	"step": 774
	},
	{
	"epoch": 0.4421623163600057,
	"grad_norm": 1.0078125,
	"learning_rate": 2.9573170731707316e-05,
	"loss": 1.2660845518112183,
	"step": 775
	},
	{
	"epoch": 0.4427328483811154,
	"grad_norm": 0.96484375,
	"learning_rate": 2.954545454545455e-05,
	"loss": 1.099113941192627,
	"step": 776
	},
	{
	"epoch": 0.44330338040222506,
	"grad_norm": 0.953125,
	"learning_rate": 2.9517738359201774e-05,
	"loss": 1.2134381532669067,
	"step": 777
	},
	{
	"epoch": 0.44387391242333474,
	"grad_norm": 0.96875,
	"learning_rate": 2.9490022172949004e-05,
	"loss": 1.1754953861236572,
	"step": 778
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 0.98046875,
	"learning_rate": 2.946230598669623e-05,
	"loss": 1.1886742115020752,
	"step": 779
	},
	{
	"epoch": 0.4450149764655541,
	"grad_norm": 0.953125,
	"learning_rate": 2.9434589800443463e-05,
	"loss": 1.192276954650879,
	"step": 780
	},
	{
	"epoch": 0.44558550848666384,
	"grad_norm": 1.0078125,
	"learning_rate": 2.940687361419069e-05,
	"loss": 1.2006890773773193,
	"step": 781
	},
	{
	"epoch": 0.4461560405077735,
	"grad_norm": 0.98828125,
	"learning_rate": 2.9379157427937915e-05,
	"loss": 1.1819924116134644,
	"step": 782
	},
	{
	"epoch": 0.4467265725288832,
	"grad_norm": 0.9453125,
	"learning_rate": 2.9351441241685145e-05,
	"loss": 1.1743961572647095,
	"step": 783
	},
	{
	"epoch": 0.4472971045499929,
	"grad_norm": 0.98046875,
	"learning_rate": 2.932372505543237e-05,
	"loss": 1.2021007537841797,
	"step": 784
	},
	{
	"epoch": 0.44786763657110257,
	"grad_norm": 1.0,
	"learning_rate": 2.9296008869179603e-05,
	"loss": 1.2032489776611328,
	"step": 785
	},
	{
	"epoch": 0.44843816859221225,
	"grad_norm": 1.015625,
	"learning_rate": 2.926829268292683e-05,
	"loss": 1.1912821531295776,
	"step": 786
	},
	{
	"epoch": 0.44900870061332193,
	"grad_norm": 0.9609375,
	"learning_rate": 2.924057649667406e-05,
	"loss": 1.184190034866333,
	"step": 787
	},
	{
	"epoch": 0.4495792326344316,
	"grad_norm": 1.015625,
	"learning_rate": 2.9212860310421285e-05,
	"loss": 1.272563099861145,
	"step": 788
	},
	{
	"epoch": 0.4501497646555413,
	"grad_norm": 0.98046875,
	"learning_rate": 2.9185144124168518e-05,
	"loss": 1.2212070226669312,
	"step": 789
	},
	{
	"epoch": 0.450720296676651,
	"grad_norm": 1.03125,
	"learning_rate": 2.9157427937915744e-05,
	"loss": 1.1937004327774048,
	"step": 790
	},
	{
	"epoch": 0.45129082869776066,
	"grad_norm": 1.0390625,
	"learning_rate": 2.9129711751662973e-05,
	"loss": 1.1712844371795654,
	"step": 791
	},
	{
	"epoch": 0.45186136071887034,
	"grad_norm": 0.9609375,
	"learning_rate": 2.91019955654102e-05,
	"loss": 1.1701891422271729,
	"step": 792
	},
	{
	"epoch": 0.45243189273998,
	"grad_norm": 1.015625,
	"learning_rate": 2.9074279379157432e-05,
	"loss": 1.2575602531433105,
	"step": 793
	},
	{
	"epoch": 0.4530024247610897,
	"grad_norm": 0.9765625,
	"learning_rate": 2.904656319290466e-05,
	"loss": 1.1968649625778198,
	"step": 794
	},
	{
	"epoch": 0.4535729567821994,
	"grad_norm": 0.97265625,
	"learning_rate": 2.9018847006651885e-05,
	"loss": 1.205810546875,
	"step": 795
	},
	{
	"epoch": 0.45414348880330907,
	"grad_norm": 0.96875,
	"learning_rate": 2.8991130820399114e-05,
	"loss": 1.1697238683700562,
	"step": 796
	},
	{
	"epoch": 0.45471402082441875,
	"grad_norm": 1.0703125,
	"learning_rate": 2.896341463414634e-05,
	"loss": 1.27318274974823,
	"step": 797
	},
	{
	"epoch": 0.45528455284552843,
	"grad_norm": 1.015625,
	"learning_rate": 2.8935698447893573e-05,
	"loss": 1.2104084491729736,
	"step": 798
	},
	{
	"epoch": 0.4558550848666381,
	"grad_norm": 1.0234375,
	"learning_rate": 2.89079822616408e-05,
	"loss": 1.2579401731491089,
	"step": 799
	},
	{
	"epoch": 0.4564256168877478,
	"grad_norm": 0.97265625,
	"learning_rate": 2.888026607538803e-05,
	"loss": 1.1750009059906006,
	"step": 800
	},
	{
	"epoch": 0.45699614890885754,
	"grad_norm": 1.03125,
	"learning_rate": 2.8852549889135255e-05,
	"loss": 1.1911466121673584,
	"step": 801
	},
	{
	"epoch": 0.4575666809299672,
	"grad_norm": 0.96875,
	"learning_rate": 2.8824833702882487e-05,
	"loss": 1.0935354232788086,
	"step": 802
	},
	{
	"epoch": 0.4581372129510769,
	"grad_norm": 0.9453125,
	"learning_rate": 2.8797117516629713e-05,
	"loss": 1.1621028184890747,
	"step": 803
	},
	{
	"epoch": 0.4587077449721866,
	"grad_norm": 0.98828125,
	"learning_rate": 2.8769401330376943e-05,
	"loss": 1.1952382326126099,
	"step": 804
	},
	{
	"epoch": 0.45927827699329626,
	"grad_norm": 0.984375,
	"learning_rate": 2.874168514412417e-05,
	"loss": 1.2074031829833984,
	"step": 805
	},
	{
	"epoch": 0.45984880901440595,
	"grad_norm": 0.94921875,
	"learning_rate": 2.8713968957871395e-05,
	"loss": 1.191246509552002,
	"step": 806
	},
	{
	"epoch": 0.46041934103551563,
	"grad_norm": 0.921875,
	"learning_rate": 2.8686252771618628e-05,
	"loss": 1.2298707962036133,
	"step": 807
	},
	{
	"epoch": 0.4609898730566253,
	"grad_norm": 1.015625,
	"learning_rate": 2.8658536585365854e-05,
	"loss": 1.2514528036117554,
	"step": 808
	},
	{
	"epoch": 0.461560405077735,
	"grad_norm": 0.96484375,
	"learning_rate": 2.8630820399113084e-05,
	"loss": 1.2710151672363281,
	"step": 809
	},
	{
	"epoch": 0.4621309370988447,
	"grad_norm": 0.93359375,
	"learning_rate": 2.860310421286031e-05,
	"loss": 1.1337497234344482,
	"step": 810
	},
	{
	"epoch": 0.46270146911995436,
	"grad_norm": 0.96875,
	"learning_rate": 2.8575388026607542e-05,
	"loss": 1.1267883777618408,
	"step": 811
	},
	{
	"epoch": 0.46327200114106404,
	"grad_norm": 0.9609375,
	"learning_rate": 2.854767184035477e-05,
	"loss": 1.1755304336547852,
	"step": 812
	},
	{
	"epoch": 0.4638425331621737,
	"grad_norm": 0.96875,
	"learning_rate": 2.8519955654101998e-05,
	"loss": 1.1366599798202515,
	"step": 813
	},
	{
	"epoch": 0.4644130651832834,
	"grad_norm": 1.0234375,
	"learning_rate": 2.8492239467849224e-05,
	"loss": 1.2038339376449585,
	"step": 814
	},
	{
	"epoch": 0.4649835972043931,
	"grad_norm": 0.96875,
	"learning_rate": 2.8464523281596457e-05,
	"loss": 1.2154085636138916,
	"step": 815
	},
	{
	"epoch": 0.46555412922550277,
	"grad_norm": 1.0078125,
	"learning_rate": 2.8436807095343683e-05,
	"loss": 1.1818276643753052,
	"step": 816
	},
	{
	"epoch": 0.46612466124661245,
	"grad_norm": 1.0078125,
	"learning_rate": 2.8409090909090912e-05,
	"loss": 1.2436468601226807,
	"step": 817
	},
	{
	"epoch": 0.46669519326772213,
	"grad_norm": 0.953125,
	"learning_rate": 2.838137472283814e-05,
	"loss": 1.1363047361373901,
	"step": 818
	},
	{
	"epoch": 0.4672657252888318,
	"grad_norm": 0.984375,
	"learning_rate": 2.8353658536585365e-05,
	"loss": 1.1960558891296387,
	"step": 819
	},
	{
	"epoch": 0.4678362573099415,
	"grad_norm": 0.96875,
	"learning_rate": 2.8325942350332597e-05,
	"loss": 1.171709418296814,
	"step": 820
	},
	{
	"epoch": 0.46840678933105123,
	"grad_norm": 0.953125,
	"learning_rate": 2.8298226164079824e-05,
	"loss": 1.1537501811981201,
	"step": 821
	},
	{
	"epoch": 0.4689773213521609,
	"grad_norm": 0.9609375,
	"learning_rate": 2.8270509977827053e-05,
	"loss": 1.1839423179626465,
	"step": 822
	},
	{
	"epoch": 0.4695478533732706,
	"grad_norm": 0.98046875,
	"learning_rate": 2.824279379157428e-05,
	"loss": 1.1610156297683716,
	"step": 823
	},
	{
	"epoch": 0.4701183853943803,
	"grad_norm": 0.984375,
	"learning_rate": 2.8215077605321512e-05,
	"loss": 1.1708459854125977,
	"step": 824
	},
	{
	"epoch": 0.47068891741548996,
	"grad_norm": 1.015625,
	"learning_rate": 2.8187361419068735e-05,
	"loss": 1.251354455947876,
	"step": 825
	},
	{
	"epoch": 0.47125944943659964,
	"grad_norm": 0.984375,
	"learning_rate": 2.8159645232815967e-05,
	"loss": 1.2049927711486816,
	"step": 826
	},
	{
	"epoch": 0.4718299814577093,
	"grad_norm": 0.99609375,
	"learning_rate": 2.8131929046563194e-05,
	"loss": 1.230988621711731,
	"step": 827
	},
	{
	"epoch": 0.472400513478819,
	"grad_norm": 0.96484375,
	"learning_rate": 2.8104212860310426e-05,
	"loss": 1.1739616394042969,
	"step": 828
	},
	{
	"epoch": 0.4729710454999287,
	"grad_norm": 0.99609375,
	"learning_rate": 2.807649667405765e-05,
	"loss": 1.1999741792678833,
	"step": 829
	},
	{
	"epoch": 0.47354157752103837,
	"grad_norm": 1.0,
	"learning_rate": 2.8048780487804882e-05,
	"loss": 1.2062275409698486,
	"step": 830
	},
	{
	"epoch": 0.47411210954214805,
	"grad_norm": 1.0078125,
	"learning_rate": 2.8021064301552108e-05,
	"loss": 1.1344287395477295,
	"step": 831
	},
	{
	"epoch": 0.47468264156325773,
	"grad_norm": 0.96484375,
	"learning_rate": 2.7993348115299334e-05,
	"loss": 1.2056477069854736,
	"step": 832
	},
	{
	"epoch": 0.4752531735843674,
	"grad_norm": 1.015625,
	"learning_rate": 2.7965631929046564e-05,
	"loss": 1.1727713346481323,
	"step": 833
	},
	{
	"epoch": 0.4758237056054771,
	"grad_norm": 0.99609375,
	"learning_rate": 2.793791574279379e-05,
	"loss": 1.2081948518753052,
	"step": 834
	},
	{
	"epoch": 0.4763942376265868,
	"grad_norm": 0.98046875,
	"learning_rate": 2.7910199556541023e-05,
	"loss": 1.255791187286377,
	"step": 835
	},
	{
	"epoch": 0.47696476964769646,
	"grad_norm": 0.9921875,
	"learning_rate": 2.788248337028825e-05,
	"loss": 1.1889286041259766,
	"step": 836
	},
	{
	"epoch": 0.47753530166880614,
	"grad_norm": 0.9921875,
	"learning_rate": 2.7854767184035478e-05,
	"loss": 1.241337776184082,
	"step": 837
	},
	{
	"epoch": 0.4781058336899158,
	"grad_norm": 0.98828125,
	"learning_rate": 2.7827050997782704e-05,
	"loss": 1.2144089937210083,
	"step": 838
	},
	{
	"epoch": 0.4786763657110255,
	"grad_norm": 0.95703125,
	"learning_rate": 2.7799334811529937e-05,
	"loss": 1.1527715921401978,
	"step": 839
	},
	{
	"epoch": 0.4792468977321352,
	"grad_norm": 0.96875,
	"learning_rate": 2.7771618625277163e-05,
	"loss": 1.181959629058838,
	"step": 840
	},
	{
	"epoch": 0.47981742975324493,
	"grad_norm": 0.9921875,
	"learning_rate": 2.7743902439024393e-05,
	"loss": 1.1999069452285767,
	"step": 841
	},
	{
	"epoch": 0.4803879617743546,
	"grad_norm": 0.984375,
	"learning_rate": 2.771618625277162e-05,
	"loss": 1.2098867893218994,
	"step": 842
	},
	{
	"epoch": 0.4809584937954643,
	"grad_norm": 0.9765625,
	"learning_rate": 2.7688470066518845e-05,
	"loss": 1.1860891580581665,
	"step": 843
	},
	{
	"epoch": 0.481529025816574,
	"grad_norm": 0.9609375,
	"learning_rate": 2.7660753880266078e-05,
	"loss": 1.1108654737472534,
	"step": 844
	},
	{
	"epoch": 0.48209955783768366,
	"grad_norm": 0.953125,
	"learning_rate": 2.7633037694013304e-05,
	"loss": 1.2157371044158936,
	"step": 845
	},
	{
	"epoch": 0.48267008985879334,
	"grad_norm": 0.96875,
	"learning_rate": 2.7605321507760533e-05,
	"loss": 1.2216970920562744,
	"step": 846
	},
	{
	"epoch": 0.483240621879903,
	"grad_norm": 0.98046875,
	"learning_rate": 2.757760532150776e-05,
	"loss": 1.1434253454208374,
	"step": 847
	},
	{
	"epoch": 0.4838111539010127,
	"grad_norm": 0.99609375,
	"learning_rate": 2.7549889135254992e-05,
	"loss": 1.1241540908813477,
	"step": 848
	},
	{
	"epoch": 0.4843816859221224,
	"grad_norm": 0.9921875,
	"learning_rate": 2.7522172949002218e-05,
	"loss": 1.186653971672058,
	"step": 849
	},
	{
	"epoch": 0.48495221794323207,
	"grad_norm": 1.015625,
	"learning_rate": 2.7494456762749448e-05,
	"loss": 1.2525804042816162,
	"step": 850
	},
	{
	"epoch": 0.48552274996434175,
	"grad_norm": 0.98046875,
	"learning_rate": 2.7466740576496674e-05,
	"loss": 1.1987820863723755,
	"step": 851
	},
	{
	"epoch": 0.48609328198545143,
	"grad_norm": 0.96875,
	"learning_rate": 2.7439024390243906e-05,
	"loss": 1.2217812538146973,
	"step": 852
	},
	{
	"epoch": 0.4866638140065611,
	"grad_norm": 0.97265625,
	"learning_rate": 2.7411308203991133e-05,
	"loss": 1.201343297958374,
	"step": 853
	},
	{
	"epoch": 0.4872343460276708,
	"grad_norm": 0.953125,
	"learning_rate": 2.7383592017738362e-05,
	"loss": 1.1668754816055298,
	"step": 854
	},
	{
	"epoch": 0.4878048780487805,
	"grad_norm": 0.96875,
	"learning_rate": 2.7355875831485588e-05,
	"loss": 1.1264851093292236,
	"step": 855
	},
	{
	"epoch": 0.48837541006989016,
	"grad_norm": 0.9921875,
	"learning_rate": 2.7328159645232814e-05,
	"loss": 1.202168345451355,
	"step": 856
	},
	{
	"epoch": 0.48894594209099984,
	"grad_norm": 1.015625,
	"learning_rate": 2.7300443458980047e-05,
	"loss": 1.2231934070587158,
	"step": 857
	},
	{
	"epoch": 0.4895164741121095,
	"grad_norm": 1.0078125,
	"learning_rate": 2.7272727272727273e-05,
	"loss": 1.1511149406433105,
	"step": 858
	},
	{
	"epoch": 0.4900870061332192,
	"grad_norm": 1.0,
	"learning_rate": 2.7245011086474503e-05,
	"loss": 1.1898903846740723,
	"step": 859
	},
	{
	"epoch": 0.4906575381543289,
	"grad_norm": 1.0,
	"learning_rate": 2.721729490022173e-05,
	"loss": 1.1848946809768677,
	"step": 860
	},
	{
	"epoch": 0.49122807017543857,
	"grad_norm": 0.97265625,
	"learning_rate": 2.718957871396896e-05,
	"loss": 1.1898174285888672,
	"step": 861
	},
	{
	"epoch": 0.4917986021965483,
	"grad_norm": 1.0234375,
	"learning_rate": 2.7161862527716188e-05,
	"loss": 1.2187345027923584,
	"step": 862
	},
	{
	"epoch": 0.492369134217658,
	"grad_norm": 0.9765625,
	"learning_rate": 2.7134146341463417e-05,
	"loss": 1.1753157377243042,
	"step": 863
	},
	{
	"epoch": 0.49293966623876767,
	"grad_norm": 1.0078125,
	"learning_rate": 2.7106430155210643e-05,
	"loss": 1.2812843322753906,
	"step": 864
	},
	{
	"epoch": 0.49351019825987735,
	"grad_norm": 0.9921875,
	"learning_rate": 2.7078713968957876e-05,
	"loss": 1.2476832866668701,
	"step": 865
	},
	{
	"epoch": 0.49408073028098703,
	"grad_norm": 0.95703125,
	"learning_rate": 2.7050997782705102e-05,
	"loss": 1.1763570308685303,
	"step": 866
	},
	{
	"epoch": 0.4946512623020967,
	"grad_norm": 0.9609375,
	"learning_rate": 2.7023281596452328e-05,
	"loss": 1.159504771232605,
	"step": 867
	},
	{
	"epoch": 0.4952217943232064,
	"grad_norm": 0.94140625,
	"learning_rate": 2.6995565410199558e-05,
	"loss": 1.2344439029693604,
	"step": 868
	},
	{
	"epoch": 0.4957923263443161,
	"grad_norm": 0.98046875,
	"learning_rate": 2.6967849223946784e-05,
	"loss": 1.2668113708496094,
	"step": 869
	},
	{
	"epoch": 0.49636285836542576,
	"grad_norm": 0.96875,
	"learning_rate": 2.6940133037694017e-05,
	"loss": 1.2388842105865479,
	"step": 870
	},
	{
	"epoch": 0.49693339038653545,
	"grad_norm": 1.0,
	"learning_rate": 2.6912416851441243e-05,
	"loss": 1.197232723236084,
	"step": 871
	},
	{
	"epoch": 0.4975039224076451,
	"grad_norm": 0.98046875,
	"learning_rate": 2.6884700665188472e-05,
	"loss": 1.1960959434509277,
	"step": 872
	},
	{
	"epoch": 0.4980744544287548,
	"grad_norm": 0.99609375,
	"learning_rate": 2.6856984478935698e-05,
	"loss": 1.222888469696045,
	"step": 873
	},
	{
	"epoch": 0.4986449864498645,
	"grad_norm": 0.98828125,
	"learning_rate": 2.682926829268293e-05,
	"loss": 1.239640474319458,
	"step": 874
	},
	{
	"epoch": 0.4992155184709742,
	"grad_norm": 0.953125,
	"learning_rate": 2.6801552106430157e-05,
	"loss": 1.1557681560516357,
	"step": 875
	},
	{
	"epoch": 0.49978605049208386,
	"grad_norm": 1.0,
	"learning_rate": 2.6773835920177387e-05,
	"loss": 1.1697707176208496,
	"step": 876
	},
	{
	"epoch": 0.5003565825131936,
	"grad_norm": 1.0234375,
	"learning_rate": 2.6746119733924613e-05,
	"loss": 1.2065680027008057,
	"step": 877
	},
	{
	"epoch": 0.5009271145343033,
	"grad_norm": 0.9921875,
	"learning_rate": 2.6718403547671845e-05,
	"loss": 1.2194795608520508,
	"step": 878
	},
	{
	"epoch": 0.501497646555413,
	"grad_norm": 0.9609375,
	"learning_rate": 2.669068736141907e-05,
	"loss": 1.1722071170806885,
	"step": 879
	},
	{
	"epoch": 0.5020681785765226,
	"grad_norm": 0.99609375,
	"learning_rate": 2.6662971175166294e-05,
	"loss": 1.1860017776489258,
	"step": 880
	},
	{
	"epoch": 0.5026387105976323,
	"grad_norm": 0.9921875,
	"learning_rate": 2.6635254988913527e-05,
	"loss": 1.173937439918518,
	"step": 881
	},
	{
	"epoch": 0.503209242618742,
	"grad_norm": 1.0234375,
	"learning_rate": 2.6607538802660753e-05,
	"loss": 1.1348332166671753,
	"step": 882
	},
	{
	"epoch": 0.5037797746398517,
	"grad_norm": 0.97265625,
	"learning_rate": 2.6579822616407986e-05,
	"loss": 1.205221176147461,
	"step": 883
	},
	{
	"epoch": 0.5043503066609614,
	"grad_norm": 0.95703125,
	"learning_rate": 2.655210643015521e-05,
	"loss": 1.1510381698608398,
	"step": 884
	},
	{
	"epoch": 0.504920838682071,
	"grad_norm": 0.9921875,
	"learning_rate": 2.652439024390244e-05,
	"loss": 1.194382905960083,
	"step": 885
	},
	{
	"epoch": 0.5054913707031807,
	"grad_norm": 1.015625,
	"learning_rate": 2.6496674057649668e-05,
	"loss": 1.2697436809539795,
	"step": 886
	},
	{
	"epoch": 0.5060619027242904,
	"grad_norm": 0.9609375,
	"learning_rate": 2.64689578713969e-05,
	"loss": 1.1560388803482056,
	"step": 887
	},
	{
	"epoch": 0.5066324347454001,
	"grad_norm": 0.984375,
	"learning_rate": 2.6441241685144123e-05,
	"loss": 1.2498875856399536,
	"step": 888
	},
	{
	"epoch": 0.5072029667665098,
	"grad_norm": 0.9609375,
	"learning_rate": 2.6413525498891356e-05,
	"loss": 1.1706441640853882,
	"step": 889
	},
	{
	"epoch": 0.5077734987876195,
	"grad_norm": 0.99609375,
	"learning_rate": 2.6385809312638582e-05,
	"loss": 1.1960177421569824,
	"step": 890
	},
	{
	"epoch": 0.5083440308087291,
	"grad_norm": 1.0,
	"learning_rate": 2.6358093126385815e-05,
	"loss": 1.1732114553451538,
	"step": 891
	},
	{
	"epoch": 0.5089145628298388,
	"grad_norm": 0.984375,
	"learning_rate": 2.6330376940133038e-05,
	"loss": 1.1812173128128052,
	"step": 892
	},
	{
	"epoch": 0.5094850948509485,
	"grad_norm": 1.0,
	"learning_rate": 2.6302660753880264e-05,
	"loss": 1.243033528327942,
	"step": 893
	},
	{
	"epoch": 0.5100556268720582,
	"grad_norm": 0.984375,
	"learning_rate": 2.6274944567627497e-05,
	"loss": 1.1132174730300903,
	"step": 894
	},
	{
	"epoch": 0.5106261588931679,
	"grad_norm": 0.9296875,
	"learning_rate": 2.6247228381374723e-05,
	"loss": 1.129286289215088,
	"step": 895
	},
	{
	"epoch": 0.5111966909142776,
	"grad_norm": 1.0078125,
	"learning_rate": 2.6219512195121952e-05,
	"loss": 1.1969499588012695,
	"step": 896
	},
	{
	"epoch": 0.5117672229353872,
	"grad_norm": 0.9921875,
	"learning_rate": 2.6191796008869178e-05,
	"loss": 1.1295521259307861,
	"step": 897
	},
	{
	"epoch": 0.5123377549564969,
	"grad_norm": 1.0390625,
	"learning_rate": 2.616407982261641e-05,
	"loss": 1.1657040119171143,
	"step": 898
	},
	{
	"epoch": 0.5129082869776066,
	"grad_norm": 0.953125,
	"learning_rate": 2.6136363636363637e-05,
	"loss": 1.182844638824463,
	"step": 899
	},
	{
	"epoch": 0.5134788189987163,
	"grad_norm": 0.92578125,
	"learning_rate": 2.6108647450110867e-05,
	"loss": 1.11708664894104,
	"step": 900
	},
	{
	"epoch": 0.514049351019826,
	"grad_norm": 0.953125,
	"learning_rate": 2.6080931263858093e-05,
	"loss": 1.1282655000686646,
	"step": 901
	},
	{
	"epoch": 0.5146198830409356,
	"grad_norm": 0.98046875,
	"learning_rate": 2.6053215077605326e-05,
	"loss": 1.1830154657363892,
	"step": 902
	},
	{
	"epoch": 0.5151904150620453,
	"grad_norm": 0.9765625,
	"learning_rate": 2.602549889135255e-05,
	"loss": 1.1873393058776855,
	"step": 903
	},
	{
	"epoch": 0.515760947083155,
	"grad_norm": 0.953125,
	"learning_rate": 2.5997782705099778e-05,
	"loss": 1.1280049085617065,
	"step": 904
	},
	{
	"epoch": 0.5163314791042647,
	"grad_norm": 0.96875,
	"learning_rate": 2.5970066518847007e-05,
	"loss": 1.1866214275360107,
	"step": 905
	},
	{
	"epoch": 0.5169020111253744,
	"grad_norm": 0.9296875,
	"learning_rate": 2.5942350332594233e-05,
	"loss": 1.132464051246643,
	"step": 906
	},
	{
	"epoch": 0.517472543146484,
	"grad_norm": 0.9921875,
	"learning_rate": 2.5914634146341466e-05,
	"loss": 1.2057054042816162,
	"step": 907
	},
	{
	"epoch": 0.5180430751675937,
	"grad_norm": 0.96875,
	"learning_rate": 2.5886917960088692e-05,
	"loss": 1.1725504398345947,
	"step": 908
	},
	{
	"epoch": 0.5186136071887034,
	"grad_norm": 1.0078125,
	"learning_rate": 2.585920177383592e-05,
	"loss": 1.2105215787887573,
	"step": 909
	},
	{
	"epoch": 0.5191841392098131,
	"grad_norm": 0.9375,
	"learning_rate": 2.5831485587583148e-05,
	"loss": 1.126555323600769,
	"step": 910
	},
	{
	"epoch": 0.5197546712309228,
	"grad_norm": 0.953125,
	"learning_rate": 2.580376940133038e-05,
	"loss": 1.117220401763916,
	"step": 911
	},
	{
	"epoch": 0.5203252032520326,
	"grad_norm": 0.98828125,
	"learning_rate": 2.5776053215077607e-05,
	"loss": 1.1578710079193115,
	"step": 912
	},
	{
	"epoch": 0.5208957352731423,
	"grad_norm": 0.97265625,
	"learning_rate": 2.5748337028824836e-05,
	"loss": 1.1631922721862793,
	"step": 913
	},
	{
	"epoch": 0.5214662672942519,
	"grad_norm": 0.9921875,
	"learning_rate": 2.5720620842572062e-05,
	"loss": 1.2013893127441406,
	"step": 914
	},
	{
	"epoch": 0.5220367993153616,
	"grad_norm": 1.0,
	"learning_rate": 2.5692904656319295e-05,
	"loss": 1.159932017326355,
	"step": 915
	},
	{
	"epoch": 0.5226073313364713,
	"grad_norm": 0.9453125,
	"learning_rate": 2.566518847006652e-05,
	"loss": 1.1213711500167847,
	"step": 916
	},
	{
	"epoch": 0.523177863357581,
	"grad_norm": 1.0,
	"learning_rate": 2.5637472283813747e-05,
	"loss": 1.2035624980926514,
	"step": 917
	},
	{
	"epoch": 0.5237483953786907,
	"grad_norm": 0.921875,
	"learning_rate": 2.5609756097560977e-05,
	"loss": 1.100569725036621,
	"step": 918
	},
	{
	"epoch": 0.5243189273998003,
	"grad_norm": 0.99609375,
	"learning_rate": 2.5582039911308203e-05,
	"loss": 1.1802055835723877,
	"step": 919
	},
	{
	"epoch": 0.52488945942091,
	"grad_norm": 0.9453125,
	"learning_rate": 2.5554323725055436e-05,
	"loss": 1.2129563093185425,
	"step": 920
	},
	{
	"epoch": 0.5254599914420197,
	"grad_norm": 0.984375,
	"learning_rate": 2.552660753880266e-05,
	"loss": 1.2040753364562988,
	"step": 921
	},
	{
	"epoch": 0.5260305234631294,
	"grad_norm": 0.9921875,
	"learning_rate": 2.549889135254989e-05,
	"loss": 1.1266067028045654,
	"step": 922
	},
	{
	"epoch": 0.5266010554842391,
	"grad_norm": 1.0078125,
	"learning_rate": 2.5471175166297117e-05,
	"loss": 1.1967592239379883,
	"step": 923
	},
	{
	"epoch": 0.5271715875053488,
	"grad_norm": 0.97265625,
	"learning_rate": 2.544345898004435e-05,
	"loss": 1.1658574342727661,
	"step": 924
	},
	{
	"epoch": 0.5277421195264584,
	"grad_norm": 0.96875,
	"learning_rate": 2.5415742793791576e-05,
	"loss": 1.1974247694015503,
	"step": 925
	},
	{
	"epoch": 0.5283126515475681,
	"grad_norm": 0.96484375,
	"learning_rate": 2.5388026607538806e-05,
	"loss": 1.175785779953003,
	"step": 926
	},
	{
	"epoch": 0.5288831835686778,
	"grad_norm": 0.98828125,
	"learning_rate": 2.5360310421286032e-05,
	"loss": 1.2295399904251099,
	"step": 927
	},
	{
	"epoch": 0.5294537155897875,
	"grad_norm": 1.015625,
	"learning_rate": 2.5332594235033258e-05,
	"loss": 1.1797332763671875,
	"step": 928
	},
	{
	"epoch": 0.5300242476108972,
	"grad_norm": 0.9375,
	"learning_rate": 2.530487804878049e-05,
	"loss": 1.1036921739578247,
	"step": 929
	},
	{
	"epoch": 0.5305947796320069,
	"grad_norm": 1.0,
	"learning_rate": 2.5277161862527717e-05,
	"loss": 1.1661919355392456,
	"step": 930
	},
	{
	"epoch": 0.5311653116531165,
	"grad_norm": 1.015625,
	"learning_rate": 2.5249445676274946e-05,
	"loss": 1.220758318901062,
	"step": 931
	},
	{
	"epoch": 0.5317358436742262,
	"grad_norm": 1.015625,
	"learning_rate": 2.5221729490022172e-05,
	"loss": 1.2072967290878296,
	"step": 932
	},
	{
	"epoch": 0.5323063756953359,
	"grad_norm": 0.98046875,
	"learning_rate": 2.5194013303769405e-05,
	"loss": 1.211767315864563,
	"step": 933
	},
	{
	"epoch": 0.5328769077164456,
	"grad_norm": 1.0,
	"learning_rate": 2.516629711751663e-05,
	"loss": 1.196463942527771,
	"step": 934
	},
	{
	"epoch": 0.5334474397375553,
	"grad_norm": 0.96484375,
	"learning_rate": 2.513858093126386e-05,
	"loss": 1.1342837810516357,
	"step": 935
	},
	{
	"epoch": 0.5340179717586649,
	"grad_norm": 0.9765625,
	"learning_rate": 2.5110864745011087e-05,
	"loss": 1.155871868133545,
	"step": 936
	},
	{
	"epoch": 0.5345885037797746,
	"grad_norm": 1.0,
	"learning_rate": 2.508314855875832e-05,
	"loss": 1.1863211393356323,
	"step": 937
	},
	{
	"epoch": 0.5351590358008843,
	"grad_norm": 0.96484375,
	"learning_rate": 2.5055432372505546e-05,
	"loss": 1.1399109363555908,
	"step": 938
	},
	{
	"epoch": 0.535729567821994,
	"grad_norm": 0.96875,
	"learning_rate": 2.5027716186252775e-05,
	"loss": 1.148442268371582,
	"step": 939
	},
	{
	"epoch": 0.5363000998431037,
	"grad_norm": 1.0234375,
	"learning_rate": 2.5e-05,
	"loss": 1.2298827171325684,
	"step": 940
	},
	{
	"epoch": 0.5368706318642134,
	"grad_norm": 0.953125,
	"learning_rate": 2.497228381374723e-05,
	"loss": 1.1379940509796143,
	"step": 941
	},
	{
	"epoch": 0.537441163885323,
	"grad_norm": 0.9453125,
	"learning_rate": 2.4944567627494457e-05,
	"loss": 1.1394915580749512,
	"step": 942
	},
	{
	"epoch": 0.5380116959064327,
	"grad_norm": 0.9921875,
	"learning_rate": 2.4916851441241686e-05,
	"loss": 1.180498480796814,
	"step": 943
	},
	{
	"epoch": 0.5385822279275424,
	"grad_norm": 1.0546875,
	"learning_rate": 2.4889135254988916e-05,
	"loss": 1.2175443172454834,
	"step": 944
	},
	{
	"epoch": 0.5391527599486521,
	"grad_norm": 0.98828125,
	"learning_rate": 2.4861419068736145e-05,
	"loss": 1.1404181718826294,
	"step": 945
	},
	{
	"epoch": 0.5397232919697618,
	"grad_norm": 0.9765625,
	"learning_rate": 2.483370288248337e-05,
	"loss": 1.1929075717926025,
	"step": 946
	},
	{
	"epoch": 0.5402938239908714,
	"grad_norm": 0.96484375,
	"learning_rate": 2.4805986696230597e-05,
	"loss": 1.1470379829406738,
	"step": 947
	},
	{
	"epoch": 0.5408643560119811,
	"grad_norm": 1.0,
	"learning_rate": 2.4778270509977827e-05,
	"loss": 1.1692397594451904,
	"step": 948
	},
	{
	"epoch": 0.5414348880330908,
	"grad_norm": 1.0078125,
	"learning_rate": 2.4750554323725056e-05,
	"loss": 1.2243307828903198,
	"step": 949
	},
	{
	"epoch": 0.5420054200542005,
	"grad_norm": 0.99609375,
	"learning_rate": 2.4722838137472286e-05,
	"loss": 1.1853331327438354,
	"step": 950
	},
	{
	"epoch": 0.5425759520753102,
	"grad_norm": 1.015625,
	"learning_rate": 2.4695121951219512e-05,
	"loss": 1.2312514781951904,
	"step": 951
	},
	{
	"epoch": 0.5431464840964199,
	"grad_norm": 0.953125,
	"learning_rate": 2.466740576496674e-05,
	"loss": 1.1487960815429688,
	"step": 952
	},
	{
	"epoch": 0.5437170161175297,
	"grad_norm": 0.96875,
	"learning_rate": 2.463968957871397e-05,
	"loss": 1.1434435844421387,
	"step": 953
	},
	{
	"epoch": 0.5442875481386393,
	"grad_norm": 0.97265625,
	"learning_rate": 2.46119733924612e-05,
	"loss": 1.2065646648406982,
	"step": 954
	},
	{
	"epoch": 0.544858080159749,
	"grad_norm": 0.96875,
	"learning_rate": 2.4584257206208426e-05,
	"loss": 1.1631767749786377,
	"step": 955
	},
	{
	"epoch": 0.5454286121808587,
	"grad_norm": 0.94921875,
	"learning_rate": 2.4556541019955656e-05,
	"loss": 1.19287109375,
	"step": 956
	},
	{
	"epoch": 0.5459991442019684,
	"grad_norm": 0.98828125,
	"learning_rate": 2.4528824833702885e-05,
	"loss": 1.183131456375122,
	"step": 957
	},
	{
	"epoch": 0.5465696762230781,
	"grad_norm": 0.953125,
	"learning_rate": 2.4501108647450115e-05,
	"loss": 1.1865886449813843,
	"step": 958
	},
	{
	"epoch": 0.5471402082441877,
	"grad_norm": 0.98046875,
	"learning_rate": 2.447339246119734e-05,
	"loss": 1.1511285305023193,
	"step": 959
	},
	{
	"epoch": 0.5477107402652974,
	"grad_norm": 0.96484375,
	"learning_rate": 2.4445676274944567e-05,
	"loss": 1.1591591835021973,
	"step": 960
	},
	{
	"epoch": 0.5482812722864071,
	"grad_norm": 0.9375,
	"learning_rate": 2.4417960088691796e-05,
	"loss": 1.1885075569152832,
	"step": 961
	},
	{
	"epoch": 0.5488518043075168,
	"grad_norm": 0.97265625,
	"learning_rate": 2.4390243902439026e-05,
	"loss": 1.1785187721252441,
	"step": 962
	},
	{
	"epoch": 0.5494223363286265,
	"grad_norm": 0.96484375,
	"learning_rate": 2.4362527716186255e-05,
	"loss": 1.1689701080322266,
	"step": 963
	},
	{
	"epoch": 0.5499928683497362,
	"grad_norm": 0.94921875,
	"learning_rate": 2.433481152993348e-05,
	"loss": 1.1543480157852173,
	"step": 964
	},
	{
	"epoch": 0.5505634003708458,
	"grad_norm": 1.0078125,
	"learning_rate": 2.430709534368071e-05,
	"loss": 1.196134328842163,
	"step": 965
	},
	{
	"epoch": 0.5511339323919555,
	"grad_norm": 0.98828125,
	"learning_rate": 2.427937915742794e-05,
	"loss": 1.2235426902770996,
	"step": 966
	},
	{
	"epoch": 0.5517044644130652,
	"grad_norm": 0.96484375,
	"learning_rate": 2.425166297117517e-05,
	"loss": 1.2253239154815674,
	"step": 967
	},
	{
	"epoch": 0.5522749964341749,
	"grad_norm": 0.953125,
	"learning_rate": 2.4223946784922396e-05,
	"loss": 1.1899304389953613,
	"step": 968
	},
	{
	"epoch": 0.5528455284552846,
	"grad_norm": 1.0234375,
	"learning_rate": 2.4196230598669625e-05,
	"loss": 1.1620666980743408,
	"step": 969
	},
	{
	"epoch": 0.5534160604763942,
	"grad_norm": 0.9765625,
	"learning_rate": 2.4168514412416855e-05,
	"loss": 1.1896693706512451,
	"step": 970
	},
	{
	"epoch": 0.5539865924975039,
	"grad_norm": 0.921875,
	"learning_rate": 2.414079822616408e-05,
	"loss": 1.1168513298034668,
	"step": 971
	},
	{
	"epoch": 0.5545571245186136,
	"grad_norm": 0.9453125,
	"learning_rate": 2.4113082039911307e-05,
	"loss": 1.1533100605010986,
	"step": 972
	},
	{
	"epoch": 0.5551276565397233,
	"grad_norm": 0.953125,
	"learning_rate": 2.4085365853658536e-05,
	"loss": 1.11790132522583,
	"step": 973
	},
	{
	"epoch": 0.555698188560833,
	"grad_norm": 0.96875,
	"learning_rate": 2.4057649667405766e-05,
	"loss": 1.1832971572875977,
	"step": 974
	},
	{
	"epoch": 0.5562687205819427,
	"grad_norm": 0.9375,
	"learning_rate": 2.4029933481152995e-05,
	"loss": 1.136374592781067,
	"step": 975
	},
	{
	"epoch": 0.5568392526030523,
	"grad_norm": 0.94140625,
	"learning_rate": 2.400221729490022e-05,
	"loss": 1.13529634475708,
	"step": 976
	},
	{
	"epoch": 0.557409784624162,
	"grad_norm": 0.94140625,
	"learning_rate": 2.397450110864745e-05,
	"loss": 1.152282476425171,
	"step": 977
	},
	{
	"epoch": 0.5579803166452717,
	"grad_norm": 0.9375,
	"learning_rate": 2.394678492239468e-05,
	"loss": 1.1445283889770508,
	"step": 978
	},
	{
	"epoch": 0.5585508486663814,
	"grad_norm": 0.96875,
	"learning_rate": 2.391906873614191e-05,
	"loss": 1.1682907342910767,
	"step": 979
	},
	{
	"epoch": 0.5591213806874911,
	"grad_norm": 0.96484375,
	"learning_rate": 2.3891352549889136e-05,
	"loss": 1.2181129455566406,
	"step": 980
	},
	{
	"epoch": 0.5596919127086007,
	"grad_norm": 0.94140625,
	"learning_rate": 2.3863636363636365e-05,
	"loss": 1.1683390140533447,
	"step": 981
	},
	{
	"epoch": 0.5602624447297104,
	"grad_norm": 0.9609375,
	"learning_rate": 2.3835920177383595e-05,
	"loss": 1.1526210308074951,
	"step": 982
	},
	{
	"epoch": 0.5608329767508201,
	"grad_norm": 0.94140625,
	"learning_rate": 2.380820399113082e-05,
	"loss": 1.1839709281921387,
	"step": 983
	},
	{
	"epoch": 0.5614035087719298,
	"grad_norm": 0.96875,
	"learning_rate": 2.378048780487805e-05,
	"loss": 1.171961784362793,
	"step": 984
	},
	{
	"epoch": 0.5619740407930395,
	"grad_norm": 0.96484375,
	"learning_rate": 2.3752771618625276e-05,
	"loss": 1.1404699087142944,
	"step": 985
	},
	{
	"epoch": 0.5625445728141492,
	"grad_norm": 0.9375,
	"learning_rate": 2.3725055432372506e-05,
	"loss": 1.1446641683578491,
	"step": 986
	},
	{
	"epoch": 0.5631151048352588,
	"grad_norm": 0.9375,
	"learning_rate": 2.3697339246119735e-05,
	"loss": 1.1063508987426758,
	"step": 987
	},
	{
	"epoch": 0.5636856368563685,
	"grad_norm": 0.9921875,
	"learning_rate": 2.3669623059866965e-05,
	"loss": 1.1023223400115967,
	"step": 988
	},
	{
	"epoch": 0.5642561688774782,
	"grad_norm": 0.9453125,
	"learning_rate": 2.364190687361419e-05,
	"loss": 1.157923698425293,
	"step": 989
	},
	{
	"epoch": 0.5648267008985879,
	"grad_norm": 0.9609375,
	"learning_rate": 2.361419068736142e-05,
	"loss": 1.1578837633132935,
	"step": 990
	},
	{
	"epoch": 0.5653972329196976,
	"grad_norm": 0.94140625,
	"learning_rate": 2.358647450110865e-05,
	"loss": 1.110813856124878,
	"step": 991
	},
	{
	"epoch": 0.5659677649408072,
	"grad_norm": 0.91796875,
	"learning_rate": 2.355875831485588e-05,
	"loss": 1.1383073329925537,
	"step": 992
	},
	{
	"epoch": 0.566538296961917,
	"grad_norm": 0.94921875,
	"learning_rate": 2.3531042128603105e-05,
	"loss": 1.1709469556808472,
	"step": 993
	},
	{
	"epoch": 0.5671088289830267,
	"grad_norm": 0.984375,
	"learning_rate": 2.3503325942350335e-05,
	"loss": 1.1664437055587769,
	"step": 994
	},
	{
	"epoch": 0.5676793610041364,
	"grad_norm": 0.953125,
	"learning_rate": 2.347560975609756e-05,
	"loss": 1.1766831874847412,
	"step": 995
	},
	{
	"epoch": 0.5682498930252461,
	"grad_norm": 0.92578125,
	"learning_rate": 2.344789356984479e-05,
	"loss": 1.1888954639434814,
	"step": 996
	},
	{
	"epoch": 0.5688204250463558,
	"grad_norm": 1.0078125,
	"learning_rate": 2.3420177383592016e-05,
	"loss": 1.1901835203170776,
	"step": 997
	},
	{
	"epoch": 0.5693909570674655,
	"grad_norm": 0.9140625,
	"learning_rate": 2.3392461197339246e-05,
	"loss": 1.13261079788208,
	"step": 998
	},
	{
	"epoch": 0.5699614890885751,
	"grad_norm": 0.99609375,
	"learning_rate": 2.3364745011086475e-05,
	"loss": 1.2113161087036133,
	"step": 999
	},
	{
	"epoch": 0.5705320211096848,
	"grad_norm": 0.9609375,
	"learning_rate": 2.3337028824833705e-05,
	"loss": 1.1643033027648926,
	"step": 1000
	},
	{
	"epoch": 0.5711025531307945,
	"grad_norm": 1.0,
	"learning_rate": 2.330931263858093e-05,
	"loss": 1.2085559368133545,
	"step": 1001
	},
	{
	"epoch": 0.5716730851519042,
	"grad_norm": 0.97265625,
	"learning_rate": 2.328159645232816e-05,
	"loss": 1.1837122440338135,
	"step": 1002
	},
	{
	"epoch": 0.5722436171730139,
	"grad_norm": 1.03125,
	"learning_rate": 2.325388026607539e-05,
	"loss": 1.2685991525650024,
	"step": 1003
	},
	{
	"epoch": 0.5728141491941235,
	"grad_norm": 0.95703125,
	"learning_rate": 2.322616407982262e-05,
	"loss": 1.1660895347595215,
	"step": 1004
	},
	{
	"epoch": 0.5733846812152332,
	"grad_norm": 1.0,
	"learning_rate": 2.3198447893569845e-05,
	"loss": 1.1840052604675293,
	"step": 1005
	},
	{
	"epoch": 0.5739552132363429,
	"grad_norm": 0.9296875,
	"learning_rate": 2.3170731707317075e-05,
	"loss": 1.1665326356887817,
	"step": 1006
	},
	{
	"epoch": 0.5745257452574526,
	"grad_norm": 0.99609375,
	"learning_rate": 2.3143015521064304e-05,
	"loss": 1.1994144916534424,
	"step": 1007
	},
	{
	"epoch": 0.5750962772785623,
	"grad_norm": 0.9921875,
	"learning_rate": 2.311529933481153e-05,
	"loss": 1.1023156642913818,
	"step": 1008
	},
	{
	"epoch": 0.575666809299672,
	"grad_norm": 0.9453125,
	"learning_rate": 2.308758314855876e-05,
	"loss": 1.2176637649536133,
	"step": 1009
	},
	{
	"epoch": 0.5762373413207816,
	"grad_norm": 1.0390625,
	"learning_rate": 2.3059866962305986e-05,
	"loss": 1.2663724422454834,
	"step": 1010
	},
	{
	"epoch": 0.5768078733418913,
	"grad_norm": 1.0,
	"learning_rate": 2.3032150776053215e-05,
	"loss": 1.1681220531463623,
	"step": 1011
	},
	{
	"epoch": 0.577378405363001,
	"grad_norm": 1.0078125,
	"learning_rate": 2.3004434589800445e-05,
	"loss": 1.221947431564331,
	"step": 1012
	},
	{
	"epoch": 0.5779489373841107,
	"grad_norm": 0.9921875,
	"learning_rate": 2.2976718403547674e-05,
	"loss": 1.1309971809387207,
	"step": 1013
	},
	{
	"epoch": 0.5785194694052204,
	"grad_norm": 0.98828125,
	"learning_rate": 2.29490022172949e-05,
	"loss": 1.1859217882156372,
	"step": 1014
	},
	{
	"epoch": 0.57909000142633,
	"grad_norm": 1.0,
	"learning_rate": 2.292128603104213e-05,
	"loss": 1.1979272365570068,
	"step": 1015
	},
	{
	"epoch": 0.5796605334474397,
	"grad_norm": 1.0,
	"learning_rate": 2.289356984478936e-05,
	"loss": 1.1865754127502441,
	"step": 1016
	},
	{
	"epoch": 0.5802310654685494,
	"grad_norm": 0.95703125,
	"learning_rate": 2.286585365853659e-05,
	"loss": 1.1868486404418945,
	"step": 1017
	},
	{
	"epoch": 0.5808015974896591,
	"grad_norm": 0.921875,
	"learning_rate": 2.2838137472283815e-05,
	"loss": 1.129669427871704,
	"step": 1018
	},
	{
	"epoch": 0.5813721295107688,
	"grad_norm": 0.9375,
	"learning_rate": 2.2810421286031044e-05,
	"loss": 1.1734843254089355,
	"step": 1019
	},
	{
	"epoch": 0.5819426615318785,
	"grad_norm": 1.0390625,
	"learning_rate": 2.278270509977827e-05,
	"loss": 1.2343952655792236,
	"step": 1020
	},
	{
	"epoch": 0.5825131935529881,
	"grad_norm": 0.96484375,
	"learning_rate": 2.27549889135255e-05,
	"loss": 1.21380615234375,
	"step": 1021
	},
	{
	"epoch": 0.5830837255740978,
	"grad_norm": 0.9296875,
	"learning_rate": 2.272727272727273e-05,
	"loss": 1.1312305927276611,
	"step": 1022
	},
	{
	"epoch": 0.5836542575952075,
	"grad_norm": 0.9609375,
	"learning_rate": 2.2699556541019955e-05,
	"loss": 1.1510472297668457,
	"step": 1023
	},
	{
	"epoch": 0.5842247896163172,
	"grad_norm": 1.0,
	"learning_rate": 2.2671840354767185e-05,
	"loss": 1.1997393369674683,
	"step": 1024
	},
	{
	"epoch": 0.5847953216374269,
	"grad_norm": 0.953125,
	"learning_rate": 2.2644124168514414e-05,
	"loss": 1.1844977140426636,
	"step": 1025
	},
	{
	"epoch": 0.5853658536585366,
	"grad_norm": 0.95703125,
	"learning_rate": 2.261640798226164e-05,
	"loss": 1.1642664670944214,
	"step": 1026
	},
	{
	"epoch": 0.5859363856796462,
	"grad_norm": 0.95703125,
	"learning_rate": 2.258869179600887e-05,
	"loss": 1.1929872035980225,
	"step": 1027
	},
	{
	"epoch": 0.5865069177007559,
	"grad_norm": 0.98046875,
	"learning_rate": 2.25609756097561e-05,
	"loss": 1.2264790534973145,
	"step": 1028
	},
	{
	"epoch": 0.5870774497218656,
	"grad_norm": 0.96484375,
	"learning_rate": 2.253325942350333e-05,
	"loss": 1.208320140838623,
	"step": 1029
	},
	{
	"epoch": 0.5876479817429753,
	"grad_norm": 0.9140625,
	"learning_rate": 2.2505543237250555e-05,
	"loss": 1.1017545461654663,
	"step": 1030
	},
	{
	"epoch": 0.588218513764085,
	"grad_norm": 0.91015625,
	"learning_rate": 2.2477827050997784e-05,
	"loss": 1.0866947174072266,
	"step": 1031
	},
	{
	"epoch": 0.5887890457851946,
	"grad_norm": 0.94140625,
	"learning_rate": 2.245011086474501e-05,
	"loss": 1.134414553642273,
	"step": 1032
	},
	{
	"epoch": 0.5893595778063043,
	"grad_norm": 0.9609375,
	"learning_rate": 2.242239467849224e-05,
	"loss": 1.1386680603027344,
	"step": 1033
	},
	{
	"epoch": 0.5899301098274141,
	"grad_norm": 0.93359375,
	"learning_rate": 2.239467849223947e-05,
	"loss": 1.098857045173645,
	"step": 1034
	},
	{
	"epoch": 0.5905006418485238,
	"grad_norm": 0.98046875,
	"learning_rate": 2.2366962305986695e-05,
	"loss": 1.1710071563720703,
	"step": 1035
	},
	{
	"epoch": 0.5910711738696335,
	"grad_norm": 0.90234375,
	"learning_rate": 2.2339246119733925e-05,
	"loss": 1.1196489334106445,
	"step": 1036
	},
	{
	"epoch": 0.5916417058907432,
	"grad_norm": 0.94140625,
	"learning_rate": 2.2311529933481154e-05,
	"loss": 1.132148265838623,
	"step": 1037
	},
	{
	"epoch": 0.5922122379118528,
	"grad_norm": 0.9453125,
	"learning_rate": 2.2283813747228384e-05,
	"loss": 1.1694618463516235,
	"step": 1038
	},
	{
	"epoch": 0.5927827699329625,
	"grad_norm": 0.94140625,
	"learning_rate": 2.225609756097561e-05,
	"loss": 1.141546607017517,
	"step": 1039
	},
	{
	"epoch": 0.5933533019540722,
	"grad_norm": 1.015625,
	"learning_rate": 2.222838137472284e-05,
	"loss": 1.214141607284546,
	"step": 1040
	},
	{
	"epoch": 0.5939238339751819,
	"grad_norm": 0.9375,
	"learning_rate": 2.220066518847007e-05,
	"loss": 1.142057180404663,
	"step": 1041
	},
	{
	"epoch": 0.5944943659962916,
	"grad_norm": 0.9609375,
	"learning_rate": 2.2172949002217298e-05,
	"loss": 1.1707711219787598,
	"step": 1042
	},
	{
	"epoch": 0.5950648980174013,
	"grad_norm": 0.91796875,
	"learning_rate": 2.2145232815964524e-05,
	"loss": 1.164795994758606,
	"step": 1043
	},
	{
	"epoch": 0.5956354300385109,
	"grad_norm": 0.97265625,
	"learning_rate": 2.211751662971175e-05,
	"loss": 1.1659691333770752,
	"step": 1044
	},
	{
	"epoch": 0.5962059620596206,
	"grad_norm": 0.94921875,
	"learning_rate": 2.208980044345898e-05,
	"loss": 1.1294951438903809,
	"step": 1045
	},
	{
	"epoch": 0.5967764940807303,
	"grad_norm": 0.96875,
	"learning_rate": 2.206208425720621e-05,
	"loss": 1.1925092935562134,
	"step": 1046
	},
	{
	"epoch": 0.59734702610184,
	"grad_norm": 0.93359375,
	"learning_rate": 2.203436807095344e-05,
	"loss": 1.1600418090820312,
	"step": 1047
	},
	{
	"epoch": 0.5979175581229497,
	"grad_norm": 0.98046875,
	"learning_rate": 2.2006651884700665e-05,
	"loss": 1.157020092010498,
	"step": 1048
	},
	{
	"epoch": 0.5984880901440593,
	"grad_norm": 1.0234375,
	"learning_rate": 2.1978935698447894e-05,
	"loss": 1.1589795351028442,
	"step": 1049
	},
	{
	"epoch": 0.599058622165169,
	"grad_norm": 0.9453125,
	"learning_rate": 2.1951219512195124e-05,
	"loss": 1.1546876430511475,
	"step": 1050
	},
	{
	"epoch": 0.5996291541862787,
	"grad_norm": 0.94140625,
	"learning_rate": 2.1923503325942353e-05,
	"loss": 1.1549787521362305,
	"step": 1051
	},
	{
	"epoch": 0.6001996862073884,
	"grad_norm": 0.9921875,
	"learning_rate": 2.189578713968958e-05,
	"loss": 1.1518681049346924,
	"step": 1052
	},
	{
	"epoch": 0.6007702182284981,
	"grad_norm": 0.96484375,
	"learning_rate": 2.186807095343681e-05,
	"loss": 1.1609306335449219,
	"step": 1053
	},
	{
	"epoch": 0.6013407502496078,
	"grad_norm": 0.97265625,
	"learning_rate": 2.1840354767184038e-05,
	"loss": 1.1526927947998047,
	"step": 1054
	},
	{
	"epoch": 0.6019112822707174,
	"grad_norm": 0.98046875,
	"learning_rate": 2.1812638580931268e-05,
	"loss": 1.2030518054962158,
	"step": 1055
	},
	{
	"epoch": 0.6024818142918271,
	"grad_norm": 0.94921875,
	"learning_rate": 2.178492239467849e-05,
	"loss": 1.087314248085022,
	"step": 1056
	},
	{
	"epoch": 0.6030523463129368,
	"grad_norm": 0.93359375,
	"learning_rate": 2.175720620842572e-05,
	"loss": 1.120784044265747,
	"step": 1057
	},
	{
	"epoch": 0.6036228783340465,
	"grad_norm": 0.921875,
	"learning_rate": 2.172949002217295e-05,
	"loss": 1.0867156982421875,
	"step": 1058
	},
	{
	"epoch": 0.6041934103551562,
	"grad_norm": 0.96484375,
	"learning_rate": 2.170177383592018e-05,
	"loss": 1.2083582878112793,
	"step": 1059
	},
	{
	"epoch": 0.6047639423762659,
	"grad_norm": 0.94921875,
	"learning_rate": 2.1674057649667405e-05,
	"loss": 1.1944574117660522,
	"step": 1060
	},
	{
	"epoch": 0.6053344743973755,
	"grad_norm": 0.92578125,
	"learning_rate": 2.1646341463414634e-05,
	"loss": 1.118787169456482,
	"step": 1061
	},
	{
	"epoch": 0.6059050064184852,
	"grad_norm": 0.94921875,
	"learning_rate": 2.1618625277161864e-05,
	"loss": 1.1591801643371582,
	"step": 1062
	},
	{
	"epoch": 0.6064755384395949,
	"grad_norm": 0.95703125,
	"learning_rate": 2.1590909090909093e-05,
	"loss": 1.1802964210510254,
	"step": 1063
	},
	{
	"epoch": 0.6070460704607046,
	"grad_norm": 0.97265625,
	"learning_rate": 2.156319290465632e-05,
	"loss": 1.1993342638015747,
	"step": 1064
	},
	{
	"epoch": 0.6076166024818143,
	"grad_norm": 0.96484375,
	"learning_rate": 2.153547671840355e-05,
	"loss": 1.2244541645050049,
	"step": 1065
	},
	{
	"epoch": 0.6081871345029239,
	"grad_norm": 0.9375,
	"learning_rate": 2.150776053215078e-05,
	"loss": 1.1696969270706177,
	"step": 1066
	},
	{
	"epoch": 0.6087576665240336,
	"grad_norm": 0.9609375,
	"learning_rate": 2.1480044345898008e-05,
	"loss": 1.204698085784912,
	"step": 1067
	},
	{
	"epoch": 0.6093281985451433,
	"grad_norm": 0.96875,
	"learning_rate": 2.1452328159645234e-05,
	"loss": 1.167772650718689,
	"step": 1068
	},
	{
	"epoch": 0.609898730566253,
	"grad_norm": 0.93359375,
	"learning_rate": 2.142461197339246e-05,
	"loss": 1.1064563989639282,
	"step": 1069
	},
	{
	"epoch": 0.6104692625873627,
	"grad_norm": 0.9296875,
	"learning_rate": 2.139689578713969e-05,
	"loss": 1.1095709800720215,
	"step": 1070
	},
	{
	"epoch": 0.6110397946084724,
	"grad_norm": 0.953125,
	"learning_rate": 2.136917960088692e-05,
	"loss": 1.1526896953582764,
	"step": 1071
	},
	{
	"epoch": 0.611610326629582,
	"grad_norm": 0.98828125,
	"learning_rate": 2.134146341463415e-05,
	"loss": 1.1842620372772217,
	"step": 1072
	},
	{
	"epoch": 0.6121808586506917,
	"grad_norm": 0.96484375,
	"learning_rate": 2.1313747228381374e-05,
	"loss": 1.1854032278060913,
	"step": 1073
	},
	{
	"epoch": 0.6127513906718015,
	"grad_norm": 0.94140625,
	"learning_rate": 2.1286031042128604e-05,
	"loss": 1.1536649465560913,
	"step": 1074
	},
	{
	"epoch": 0.6133219226929112,
	"grad_norm": 0.99609375,
	"learning_rate": 2.1258314855875833e-05,
	"loss": 1.162165641784668,
	"step": 1075
	},
	{
	"epoch": 0.6138924547140209,
	"grad_norm": 0.95703125,
	"learning_rate": 2.1230598669623063e-05,
	"loss": 1.1589579582214355,
	"step": 1076
	},
	{
	"epoch": 0.6144629867351306,
	"grad_norm": 0.99609375,
	"learning_rate": 2.120288248337029e-05,
	"loss": 1.2380765676498413,
	"step": 1077
	},
	{
	"epoch": 0.6150335187562402,
	"grad_norm": 0.9921875,
	"learning_rate": 2.117516629711752e-05,
	"loss": 1.1789859533309937,
	"step": 1078
	},
	{
	"epoch": 0.6156040507773499,
	"grad_norm": 0.92578125,
	"learning_rate": 2.1147450110864748e-05,
	"loss": 1.1379293203353882,
	"step": 1079
	},
	{
	"epoch": 0.6161745827984596,
	"grad_norm": 0.984375,
	"learning_rate": 2.1119733924611977e-05,
	"loss": 1.176946759223938,
	"step": 1080
	},
	{
	"epoch": 0.6167451148195693,
	"grad_norm": 0.98046875,
	"learning_rate": 2.10920177383592e-05,
	"loss": 1.232793927192688,
	"step": 1081
	},
	{
	"epoch": 0.617315646840679,
	"grad_norm": 0.94140625,
	"learning_rate": 2.106430155210643e-05,
	"loss": 1.1333751678466797,
	"step": 1082
	},
	{
	"epoch": 0.6178861788617886,
	"grad_norm": 0.98046875,
	"learning_rate": 2.103658536585366e-05,
	"loss": 1.1847493648529053,
	"step": 1083
	},
	{
	"epoch": 0.6184567108828983,
	"grad_norm": 0.98828125,
	"learning_rate": 2.100886917960089e-05,
	"loss": 1.1365629434585571,
	"step": 1084
	},
	{
	"epoch": 0.619027242904008,
	"grad_norm": 0.9609375,
	"learning_rate": 2.0981152993348114e-05,
	"loss": 1.1531561613082886,
	"step": 1085
	},
	{
	"epoch": 0.6195977749251177,
	"grad_norm": 0.9765625,
	"learning_rate": 2.0953436807095344e-05,
	"loss": 1.1419352293014526,
	"step": 1086
	},
	{
	"epoch": 0.6201683069462274,
	"grad_norm": 0.95703125,
	"learning_rate": 2.0925720620842573e-05,
	"loss": 1.2071990966796875,
	"step": 1087
	},
	{
	"epoch": 0.6207388389673371,
	"grad_norm": 1.0078125,
	"learning_rate": 2.0898004434589803e-05,
	"loss": 1.146884799003601,
	"step": 1088
	},
	{
	"epoch": 0.6213093709884467,
	"grad_norm": 1.0,
	"learning_rate": 2.087028824833703e-05,
	"loss": 1.1956453323364258,
	"step": 1089
	},
	{
	"epoch": 0.6218799030095564,
	"grad_norm": 0.97265625,
	"learning_rate": 2.084257206208426e-05,
	"loss": 1.182574987411499,
	"step": 1090
	},
	{
	"epoch": 0.6224504350306661,
	"grad_norm": 0.9765625,
	"learning_rate": 2.0814855875831488e-05,
	"loss": 1.1805145740509033,
	"step": 1091
	},
	{
	"epoch": 0.6230209670517758,
	"grad_norm": 0.96484375,
	"learning_rate": 2.0787139689578717e-05,
	"loss": 1.173978567123413,
	"step": 1092
	},
	{
	"epoch": 0.6235914990728855,
	"grad_norm": 0.9375,
	"learning_rate": 2.0759423503325943e-05,
	"loss": 1.1732361316680908,
	"step": 1093
	},
	{
	"epoch": 0.6241620310939952,
	"grad_norm": 0.94921875,
	"learning_rate": 2.073170731707317e-05,
	"loss": 1.1978164911270142,
	"step": 1094
	},
	{
	"epoch": 0.6247325631151048,
	"grad_norm": 0.96484375,
	"learning_rate": 2.07039911308204e-05,
	"loss": 1.161289930343628,
	"step": 1095
	},
	{
	"epoch": 0.6253030951362145,
	"grad_norm": 0.953125,
	"learning_rate": 2.067627494456763e-05,
	"loss": 1.1583458185195923,
	"step": 1096
	},
	{
	"epoch": 0.6258736271573242,
	"grad_norm": 0.9765625,
	"learning_rate": 2.0648558758314858e-05,
	"loss": 1.1835911273956299,
	"step": 1097
	},
	{
	"epoch": 0.6264441591784339,
	"grad_norm": 0.9921875,
	"learning_rate": 2.0620842572062084e-05,
	"loss": 1.1692794561386108,
	"step": 1098
	},
	{
	"epoch": 0.6270146911995436,
	"grad_norm": 0.97265625,
	"learning_rate": 2.0593126385809313e-05,
	"loss": 1.1748257875442505,
	"step": 1099
	},
	{
	"epoch": 0.6275852232206532,
	"grad_norm": 0.9765625,
	"learning_rate": 2.0565410199556543e-05,
	"loss": 1.172876238822937,
	"step": 1100
	},
	{
	"epoch": 0.6281557552417629,
	"grad_norm": 1.0078125,
	"learning_rate": 2.0537694013303772e-05,
	"loss": 1.1829420328140259,
	"step": 1101
	},
	{
	"epoch": 0.6287262872628726,
	"grad_norm": 0.9375,
	"learning_rate": 2.0509977827051e-05,
	"loss": 1.163160800933838,
	"step": 1102
	},
	{
	"epoch": 0.6292968192839823,
	"grad_norm": 0.96484375,
	"learning_rate": 2.0482261640798228e-05,
	"loss": 1.144565463066101,
	"step": 1103
	},
	{
	"epoch": 0.629867351305092,
	"grad_norm": 0.953125,
	"learning_rate": 2.0454545454545457e-05,
	"loss": 1.1199369430541992,
	"step": 1104
	},
	{
	"epoch": 0.6304378833262017,
	"grad_norm": 0.9765625,
	"learning_rate": 2.0426829268292683e-05,
	"loss": 1.1951239109039307,
	"step": 1105
	},
	{
	"epoch": 0.6310084153473113,
	"grad_norm": 0.96484375,
	"learning_rate": 2.0399113082039913e-05,
	"loss": 1.1440958976745605,
	"step": 1106
	},
	{
	"epoch": 0.631578947368421,
	"grad_norm": 0.94140625,
	"learning_rate": 2.037139689578714e-05,
	"loss": 1.1329402923583984,
	"step": 1107
	},
	{
	"epoch": 0.631578947368421,
	"eval_loss": 1.1687453985214233,
	"eval_runtime": 80.1565,
	"eval_samples_per_second": 11.927,
	"eval_steps_per_second": 2.982,
	"step": 1107
	}
	],
	"logging_steps": 1,
	"max_steps": 1841,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 369,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 9.75350724523733e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}