diffractgpt_mistral_chemical_formula / trainer_state.json

Upload 11 files

ed72316 verified 3 months ago

114 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.06842285323297982,
	"eval_steps": 500,
	"global_step": 650,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00010526592805073818,
	"grad_norm": 2.6939258575439453,
	"learning_rate": 0.0,
	"loss": 0.8515,
	"step": 1
	},
	{
	"epoch": 0.00021053185610147635,
	"grad_norm": 2.7966604232788086,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 0.8166,
	"step": 2
	},
	{
	"epoch": 0.00031579778415221455,
	"grad_norm": 2.257108211517334,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.8018,
	"step": 3
	},
	{
	"epoch": 0.0004210637122029527,
	"grad_norm": 1.1128956079483032,
	"learning_rate": 5e-05,
	"loss": 0.5497,
	"step": 4
	},
	{
	"epoch": 0.0005263296402536909,
	"grad_norm": 1.2874521017074585,
	"learning_rate": 4.999473462510531e-05,
	"loss": 0.6127,
	"step": 5
	},
	{
	"epoch": 0.0006315955683044291,
	"grad_norm": 0.9699161648750305,
	"learning_rate": 4.998946925021062e-05,
	"loss": 0.6407,
	"step": 6
	},
	{
	"epoch": 0.0007368614963551673,
	"grad_norm": 1.0630613565444946,
	"learning_rate": 4.998420387531593e-05,
	"loss": 0.4727,
	"step": 7
	},
	{
	"epoch": 0.0008421274244059054,
	"grad_norm": 0.882173478603363,
	"learning_rate": 4.997893850042124e-05,
	"loss": 0.5235,
	"step": 8
	},
	{
	"epoch": 0.0009473933524566436,
	"grad_norm": 0.676689088344574,
	"learning_rate": 4.997367312552654e-05,
	"loss": 0.4341,
	"step": 9
	},
	{
	"epoch": 0.0010526592805073817,
	"grad_norm": 0.7519457936286926,
	"learning_rate": 4.996840775063184e-05,
	"loss": 0.4338,
	"step": 10
	},
	{
	"epoch": 0.00115792520855812,
	"grad_norm": 0.7073312401771545,
	"learning_rate": 4.996314237573715e-05,
	"loss": 0.3924,
	"step": 11
	},
	{
	"epoch": 0.0012631911366088582,
	"grad_norm": 0.7425239086151123,
	"learning_rate": 4.995787700084246e-05,
	"loss": 0.4859,
	"step": 12
	},
	{
	"epoch": 0.0013684570646595963,
	"grad_norm": 0.6777500510215759,
	"learning_rate": 4.995261162594777e-05,
	"loss": 0.4235,
	"step": 13
	},
	{
	"epoch": 0.0014737229927103345,
	"grad_norm": 0.6901292204856873,
	"learning_rate": 4.994734625105308e-05,
	"loss": 0.4709,
	"step": 14
	},
	{
	"epoch": 0.0015789889207610726,
	"grad_norm": 0.8694287538528442,
	"learning_rate": 4.994208087615839e-05,
	"loss": 0.5086,
	"step": 15
	},
	{
	"epoch": 0.0016842548488118108,
	"grad_norm": 0.6798275113105774,
	"learning_rate": 4.99368155012637e-05,
	"loss": 0.4937,
	"step": 16
	},
	{
	"epoch": 0.001789520776862549,
	"grad_norm": 0.7667484879493713,
	"learning_rate": 4.9931550126369e-05,
	"loss": 0.4974,
	"step": 17
	},
	{
	"epoch": 0.0018947867049132871,
	"grad_norm": 0.6613733172416687,
	"learning_rate": 4.992628475147431e-05,
	"loss": 0.4181,
	"step": 18
	},
	{
	"epoch": 0.0020000526329640254,
	"grad_norm": 0.7069230079650879,
	"learning_rate": 4.992101937657962e-05,
	"loss": 0.4834,
	"step": 19
	},
	{
	"epoch": 0.0021053185610147634,
	"grad_norm": 0.5691242814064026,
	"learning_rate": 4.991575400168492e-05,
	"loss": 0.4405,
	"step": 20
	},
	{
	"epoch": 0.002210584489065502,
	"grad_norm": 0.701371431350708,
	"learning_rate": 4.991048862679023e-05,
	"loss": 0.3933,
	"step": 21
	},
	{
	"epoch": 0.00231585041711624,
	"grad_norm": 0.5670080780982971,
	"learning_rate": 4.990522325189554e-05,
	"loss": 0.5061,
	"step": 22
	},
	{
	"epoch": 0.002421116345166978,
	"grad_norm": 0.6001436114311218,
	"learning_rate": 4.9899957877000847e-05,
	"loss": 0.4879,
	"step": 23
	},
	{
	"epoch": 0.0025263822732177164,
	"grad_norm": 0.6185859441757202,
	"learning_rate": 4.9894692502106156e-05,
	"loss": 0.4006,
	"step": 24
	},
	{
	"epoch": 0.0026316482012684545,
	"grad_norm": 0.677813708782196,
	"learning_rate": 4.988942712721146e-05,
	"loss": 0.4347,
	"step": 25
	},
	{
	"epoch": 0.0027369141293191925,
	"grad_norm": 0.5357967019081116,
	"learning_rate": 4.988416175231677e-05,
	"loss": 0.4594,
	"step": 26
	},
	{
	"epoch": 0.002842180057369931,
	"grad_norm": 0.5995861291885376,
	"learning_rate": 4.9878896377422076e-05,
	"loss": 0.4947,
	"step": 27
	},
	{
	"epoch": 0.002947445985420669,
	"grad_norm": 0.5909422636032104,
	"learning_rate": 4.9873631002527385e-05,
	"loss": 0.5316,
	"step": 28
	},
	{
	"epoch": 0.003052711913471407,
	"grad_norm": 0.6816675662994385,
	"learning_rate": 4.9868365627632694e-05,
	"loss": 0.4705,
	"step": 29
	},
	{
	"epoch": 0.003157977841522145,
	"grad_norm": 0.5410743355751038,
	"learning_rate": 4.9863100252737996e-05,
	"loss": 0.4229,
	"step": 30
	},
	{
	"epoch": 0.0032632437695728836,
	"grad_norm": 0.7362250089645386,
	"learning_rate": 4.9857834877843305e-05,
	"loss": 0.4922,
	"step": 31
	},
	{
	"epoch": 0.0033685096976236216,
	"grad_norm": 0.7518715262413025,
	"learning_rate": 4.9852569502948614e-05,
	"loss": 0.3942,
	"step": 32
	},
	{
	"epoch": 0.0034737756256743597,
	"grad_norm": 0.6200836300849915,
	"learning_rate": 4.9847304128053916e-05,
	"loss": 0.3937,
	"step": 33
	},
	{
	"epoch": 0.003579041553725098,
	"grad_norm": 0.6816834807395935,
	"learning_rate": 4.9842038753159225e-05,
	"loss": 0.492,
	"step": 34
	},
	{
	"epoch": 0.003684307481775836,
	"grad_norm": 0.6341183185577393,
	"learning_rate": 4.9836773378264534e-05,
	"loss": 0.5873,
	"step": 35
	},
	{
	"epoch": 0.0037895734098265742,
	"grad_norm": 0.5888874530792236,
	"learning_rate": 4.9831508003369843e-05,
	"loss": 0.3784,
	"step": 36
	},
	{
	"epoch": 0.0038948393378773127,
	"grad_norm": 0.503926157951355,
	"learning_rate": 4.982624262847515e-05,
	"loss": 0.5116,
	"step": 37
	},
	{
	"epoch": 0.004000105265928051,
	"grad_norm": 0.6205700039863586,
	"learning_rate": 4.982097725358046e-05,
	"loss": 0.4237,
	"step": 38
	},
	{
	"epoch": 0.004105371193978789,
	"grad_norm": 0.47863858938217163,
	"learning_rate": 4.9815711878685764e-05,
	"loss": 0.5397,
	"step": 39
	},
	{
	"epoch": 0.004210637122029527,
	"grad_norm": 0.5036730766296387,
	"learning_rate": 4.981044650379107e-05,
	"loss": 0.46,
	"step": 40
	},
	{
	"epoch": 0.004315903050080265,
	"grad_norm": 0.4822523593902588,
	"learning_rate": 4.9805181128896375e-05,
	"loss": 0.4988,
	"step": 41
	},
	{
	"epoch": 0.004421168978131004,
	"grad_norm": 0.5173696875572205,
	"learning_rate": 4.9799915754001684e-05,
	"loss": 0.4003,
	"step": 42
	},
	{
	"epoch": 0.004526434906181742,
	"grad_norm": 0.6021311283111572,
	"learning_rate": 4.979465037910699e-05,
	"loss": 0.4306,
	"step": 43
	},
	{
	"epoch": 0.00463170083423248,
	"grad_norm": 0.5137932300567627,
	"learning_rate": 4.97893850042123e-05,
	"loss": 0.4453,
	"step": 44
	},
	{
	"epoch": 0.004736966762283218,
	"grad_norm": 0.5420482158660889,
	"learning_rate": 4.978411962931761e-05,
	"loss": 0.5377,
	"step": 45
	},
	{
	"epoch": 0.004842232690333956,
	"grad_norm": 0.5643067359924316,
	"learning_rate": 4.977885425442292e-05,
	"loss": 0.4519,
	"step": 46
	},
	{
	"epoch": 0.004947498618384694,
	"grad_norm": 0.5466287136077881,
	"learning_rate": 4.977358887952823e-05,
	"loss": 0.4221,
	"step": 47
	},
	{
	"epoch": 0.005052764546435433,
	"grad_norm": 0.5712279677391052,
	"learning_rate": 4.976832350463354e-05,
	"loss": 0.4987,
	"step": 48
	},
	{
	"epoch": 0.005158030474486171,
	"grad_norm": 0.4822379946708679,
	"learning_rate": 4.976305812973884e-05,
	"loss": 0.4848,
	"step": 49
	},
	{
	"epoch": 0.005263296402536909,
	"grad_norm": 0.5017122626304626,
	"learning_rate": 4.975779275484414e-05,
	"loss": 0.4196,
	"step": 50
	},
	{
	"epoch": 0.005368562330587647,
	"grad_norm": 0.4559021592140198,
	"learning_rate": 4.975252737994945e-05,
	"loss": 0.4412,
	"step": 51
	},
	{
	"epoch": 0.005473828258638385,
	"grad_norm": 0.5421490669250488,
	"learning_rate": 4.974726200505476e-05,
	"loss": 0.3746,
	"step": 52
	},
	{
	"epoch": 0.005579094186689123,
	"grad_norm": 0.46819037199020386,
	"learning_rate": 4.974199663016007e-05,
	"loss": 0.4521,
	"step": 53
	},
	{
	"epoch": 0.005684360114739862,
	"grad_norm": 0.45857539772987366,
	"learning_rate": 4.973673125526538e-05,
	"loss": 0.3941,
	"step": 54
	},
	{
	"epoch": 0.0057896260427906,
	"grad_norm": 0.5490565896034241,
	"learning_rate": 4.973146588037069e-05,
	"loss": 0.4551,
	"step": 55
	},
	{
	"epoch": 0.005894891970841338,
	"grad_norm": 0.5232876539230347,
	"learning_rate": 4.9726200505475997e-05,
	"loss": 0.4356,
	"step": 56
	},
	{
	"epoch": 0.006000157898892076,
	"grad_norm": 0.5434950590133667,
	"learning_rate": 4.97209351305813e-05,
	"loss": 0.436,
	"step": 57
	},
	{
	"epoch": 0.006105423826942814,
	"grad_norm": 0.44252631068229675,
	"learning_rate": 4.971566975568661e-05,
	"loss": 0.4263,
	"step": 58
	},
	{
	"epoch": 0.006210689754993552,
	"grad_norm": 0.49957412481307983,
	"learning_rate": 4.971040438079192e-05,
	"loss": 0.4422,
	"step": 59
	},
	{
	"epoch": 0.00631595568304429,
	"grad_norm": 0.46676474809646606,
	"learning_rate": 4.970513900589722e-05,
	"loss": 0.434,
	"step": 60
	},
	{
	"epoch": 0.006421221611095029,
	"grad_norm": 0.5107528567314148,
	"learning_rate": 4.969987363100253e-05,
	"loss": 0.5225,
	"step": 61
	},
	{
	"epoch": 0.006526487539145767,
	"grad_norm": 0.4967051148414612,
	"learning_rate": 4.969460825610784e-05,
	"loss": 0.4199,
	"step": 62
	},
	{
	"epoch": 0.006631753467196505,
	"grad_norm": 0.4968240559101105,
	"learning_rate": 4.9689342881213146e-05,
	"loss": 0.4157,
	"step": 63
	},
	{
	"epoch": 0.006737019395247243,
	"grad_norm": 0.5468823909759521,
	"learning_rate": 4.9684077506318455e-05,
	"loss": 0.4204,
	"step": 64
	},
	{
	"epoch": 0.006842285323297981,
	"grad_norm": 0.49830362200737,
	"learning_rate": 4.967881213142376e-05,
	"loss": 0.4381,
	"step": 65
	},
	{
	"epoch": 0.006947551251348719,
	"grad_norm": 0.6488986611366272,
	"learning_rate": 4.9673546756529066e-05,
	"loss": 0.5919,
	"step": 66
	},
	{
	"epoch": 0.007052817179399458,
	"grad_norm": 0.5668662190437317,
	"learning_rate": 4.9668281381634375e-05,
	"loss": 0.4089,
	"step": 67
	},
	{
	"epoch": 0.007158083107450196,
	"grad_norm": 0.5446314811706543,
	"learning_rate": 4.9663016006739684e-05,
	"loss": 0.4116,
	"step": 68
	},
	{
	"epoch": 0.007263349035500934,
	"grad_norm": 0.5011276006698608,
	"learning_rate": 4.9657750631844993e-05,
	"loss": 0.4808,
	"step": 69
	},
	{
	"epoch": 0.007368614963551672,
	"grad_norm": 0.7226698398590088,
	"learning_rate": 4.9652485256950296e-05,
	"loss": 0.4645,
	"step": 70
	},
	{
	"epoch": 0.00747388089160241,
	"grad_norm": 0.47501352429389954,
	"learning_rate": 4.9647219882055605e-05,
	"loss": 0.5207,
	"step": 71
	},
	{
	"epoch": 0.0075791468196531485,
	"grad_norm": 0.4856880307197571,
	"learning_rate": 4.9641954507160914e-05,
	"loss": 0.4878,
	"step": 72
	},
	{
	"epoch": 0.007684412747703887,
	"grad_norm": 0.5225908756256104,
	"learning_rate": 4.9636689132266216e-05,
	"loss": 0.514,
	"step": 73
	},
	{
	"epoch": 0.007789678675754625,
	"grad_norm": 0.526539146900177,
	"learning_rate": 4.9631423757371525e-05,
	"loss": 0.4572,
	"step": 74
	},
	{
	"epoch": 0.007894944603805363,
	"grad_norm": 0.49719616770744324,
	"learning_rate": 4.9626158382476834e-05,
	"loss": 0.4352,
	"step": 75
	},
	{
	"epoch": 0.008000210531856101,
	"grad_norm": 0.5542761087417603,
	"learning_rate": 4.962089300758214e-05,
	"loss": 0.5408,
	"step": 76
	},
	{
	"epoch": 0.00810547645990684,
	"grad_norm": 0.4830870032310486,
	"learning_rate": 4.961562763268745e-05,
	"loss": 0.3941,
	"step": 77
	},
	{
	"epoch": 0.008210742387957578,
	"grad_norm": 0.504296600818634,
	"learning_rate": 4.961036225779276e-05,
	"loss": 0.4609,
	"step": 78
	},
	{
	"epoch": 0.008316008316008316,
	"grad_norm": 0.5107358694076538,
	"learning_rate": 4.960509688289807e-05,
	"loss": 0.4313,
	"step": 79
	},
	{
	"epoch": 0.008421274244059054,
	"grad_norm": 0.5339490175247192,
	"learning_rate": 4.959983150800337e-05,
	"loss": 0.5046,
	"step": 80
	},
	{
	"epoch": 0.008526540172109793,
	"grad_norm": 0.4737516939640045,
	"learning_rate": 4.9594566133108675e-05,
	"loss": 0.5728,
	"step": 81
	},
	{
	"epoch": 0.00863180610016053,
	"grad_norm": 0.4952607750892639,
	"learning_rate": 4.9589300758213984e-05,
	"loss": 0.4464,
	"step": 82
	},
	{
	"epoch": 0.008737072028211269,
	"grad_norm": 0.5083893537521362,
	"learning_rate": 4.958403538331929e-05,
	"loss": 0.4429,
	"step": 83
	},
	{
	"epoch": 0.008842337956262008,
	"grad_norm": 0.5977057218551636,
	"learning_rate": 4.95787700084246e-05,
	"loss": 0.4367,
	"step": 84
	},
	{
	"epoch": 0.008947603884312745,
	"grad_norm": 0.6330780982971191,
	"learning_rate": 4.957350463352991e-05,
	"loss": 0.4736,
	"step": 85
	},
	{
	"epoch": 0.009052869812363484,
	"grad_norm": 0.4460638761520386,
	"learning_rate": 4.956823925863522e-05,
	"loss": 0.4933,
	"step": 86
	},
	{
	"epoch": 0.00915813574041422,
	"grad_norm": 0.508703351020813,
	"learning_rate": 4.956297388374053e-05,
	"loss": 0.5794,
	"step": 87
	},
	{
	"epoch": 0.00926340166846496,
	"grad_norm": 0.45487043261528015,
	"learning_rate": 4.955770850884584e-05,
	"loss": 0.5156,
	"step": 88
	},
	{
	"epoch": 0.009368667596515699,
	"grad_norm": 0.46359360218048096,
	"learning_rate": 4.955244313395114e-05,
	"loss": 0.4634,
	"step": 89
	},
	{
	"epoch": 0.009473933524566436,
	"grad_norm": 0.5234309434890747,
	"learning_rate": 4.954717775905645e-05,
	"loss": 0.383,
	"step": 90
	},
	{
	"epoch": 0.009579199452617175,
	"grad_norm": 0.5344865322113037,
	"learning_rate": 4.954191238416175e-05,
	"loss": 0.4619,
	"step": 91
	},
	{
	"epoch": 0.009684465380667912,
	"grad_norm": 0.6055357456207275,
	"learning_rate": 4.953664700926706e-05,
	"loss": 0.495,
	"step": 92
	},
	{
	"epoch": 0.00978973130871865,
	"grad_norm": 0.4749431014060974,
	"learning_rate": 4.953138163437237e-05,
	"loss": 0.5209,
	"step": 93
	},
	{
	"epoch": 0.009894997236769388,
	"grad_norm": 0.4775514602661133,
	"learning_rate": 4.952611625947768e-05,
	"loss": 0.4064,
	"step": 94
	},
	{
	"epoch": 0.010000263164820127,
	"grad_norm": 0.4580100178718567,
	"learning_rate": 4.952085088458299e-05,
	"loss": 0.4479,
	"step": 95
	},
	{
	"epoch": 0.010105529092870866,
	"grad_norm": 0.5589710474014282,
	"learning_rate": 4.9515585509688296e-05,
	"loss": 0.4072,
	"step": 96
	},
	{
	"epoch": 0.010210795020921603,
	"grad_norm": 0.45461875200271606,
	"learning_rate": 4.95103201347936e-05,
	"loss": 0.4933,
	"step": 97
	},
	{
	"epoch": 0.010316060948972342,
	"grad_norm": 0.4552902579307556,
	"learning_rate": 4.950505475989891e-05,
	"loss": 0.4038,
	"step": 98
	},
	{
	"epoch": 0.010421326877023079,
	"grad_norm": 0.5590063333511353,
	"learning_rate": 4.9499789385004216e-05,
	"loss": 0.4928,
	"step": 99
	},
	{
	"epoch": 0.010526592805073818,
	"grad_norm": 0.5689685344696045,
	"learning_rate": 4.949452401010952e-05,
	"loss": 0.3962,
	"step": 100
	},
	{
	"epoch": 0.010631858733124555,
	"grad_norm": 0.5378232598304749,
	"learning_rate": 4.948925863521483e-05,
	"loss": 0.4843,
	"step": 101
	},
	{
	"epoch": 0.010737124661175294,
	"grad_norm": 0.6677789688110352,
	"learning_rate": 4.948399326032014e-05,
	"loss": 0.5839,
	"step": 102
	},
	{
	"epoch": 0.010842390589226033,
	"grad_norm": 0.4315250515937805,
	"learning_rate": 4.9478727885425446e-05,
	"loss": 0.5467,
	"step": 103
	},
	{
	"epoch": 0.01094765651727677,
	"grad_norm": 0.6344457268714905,
	"learning_rate": 4.9473462510530755e-05,
	"loss": 0.5048,
	"step": 104
	},
	{
	"epoch": 0.011052922445327509,
	"grad_norm": 0.41527998447418213,
	"learning_rate": 4.946819713563606e-05,
	"loss": 0.5559,
	"step": 105
	},
	{
	"epoch": 0.011158188373378246,
	"grad_norm": 0.46887871623039246,
	"learning_rate": 4.9462931760741366e-05,
	"loss": 0.4165,
	"step": 106
	},
	{
	"epoch": 0.011263454301428985,
	"grad_norm": 0.5572345852851868,
	"learning_rate": 4.9457666385846675e-05,
	"loss": 0.4496,
	"step": 107
	},
	{
	"epoch": 0.011368720229479724,
	"grad_norm": 0.46033406257629395,
	"learning_rate": 4.9452401010951984e-05,
	"loss": 0.4699,
	"step": 108
	},
	{
	"epoch": 0.011473986157530461,
	"grad_norm": 0.5205333232879639,
	"learning_rate": 4.944713563605729e-05,
	"loss": 0.4291,
	"step": 109
	},
	{
	"epoch": 0.0115792520855812,
	"grad_norm": 0.5044732689857483,
	"learning_rate": 4.9441870261162595e-05,
	"loss": 0.4424,
	"step": 110
	},
	{
	"epoch": 0.011684518013631937,
	"grad_norm": 0.5410451889038086,
	"learning_rate": 4.9436604886267904e-05,
	"loss": 0.3803,
	"step": 111
	},
	{
	"epoch": 0.011789783941682676,
	"grad_norm": 0.5163026452064514,
	"learning_rate": 4.943133951137321e-05,
	"loss": 0.4276,
	"step": 112
	},
	{
	"epoch": 0.011895049869733413,
	"grad_norm": 0.4330487847328186,
	"learning_rate": 4.9426074136478516e-05,
	"loss": 0.4644,
	"step": 113
	},
	{
	"epoch": 0.012000315797784152,
	"grad_norm": 0.41046929359436035,
	"learning_rate": 4.9420808761583825e-05,
	"loss": 0.4161,
	"step": 114
	},
	{
	"epoch": 0.012105581725834891,
	"grad_norm": 0.4908786714076996,
	"learning_rate": 4.9415543386689134e-05,
	"loss": 0.4502,
	"step": 115
	},
	{
	"epoch": 0.012210847653885628,
	"grad_norm": 0.4866664707660675,
	"learning_rate": 4.941027801179444e-05,
	"loss": 0.3923,
	"step": 116
	},
	{
	"epoch": 0.012316113581936367,
	"grad_norm": 0.4272409677505493,
	"learning_rate": 4.940501263689975e-05,
	"loss": 0.4828,
	"step": 117
	},
	{
	"epoch": 0.012421379509987104,
	"grad_norm": 0.517900288105011,
	"learning_rate": 4.939974726200506e-05,
	"loss": 0.4661,
	"step": 118
	},
	{
	"epoch": 0.012526645438037843,
	"grad_norm": 0.5139513611793518,
	"learning_rate": 4.939448188711037e-05,
	"loss": 0.536,
	"step": 119
	},
	{
	"epoch": 0.01263191136608858,
	"grad_norm": 0.5204519629478455,
	"learning_rate": 4.938921651221567e-05,
	"loss": 0.4156,
	"step": 120
	},
	{
	"epoch": 0.01273717729413932,
	"grad_norm": 0.566659152507782,
	"learning_rate": 4.9383951137320974e-05,
	"loss": 0.4675,
	"step": 121
	},
	{
	"epoch": 0.012842443222190058,
	"grad_norm": 0.5262351632118225,
	"learning_rate": 4.937868576242628e-05,
	"loss": 0.5002,
	"step": 122
	},
	{
	"epoch": 0.012947709150240795,
	"grad_norm": 0.5888293981552124,
	"learning_rate": 4.937342038753159e-05,
	"loss": 0.4058,
	"step": 123
	},
	{
	"epoch": 0.013052975078291534,
	"grad_norm": 0.5911523103713989,
	"learning_rate": 4.93681550126369e-05,
	"loss": 0.392,
	"step": 124
	},
	{
	"epoch": 0.013158241006342272,
	"grad_norm": 0.48798367381095886,
	"learning_rate": 4.936288963774221e-05,
	"loss": 0.4442,
	"step": 125
	},
	{
	"epoch": 0.01326350693439301,
	"grad_norm": 0.5228798985481262,
	"learning_rate": 4.935762426284752e-05,
	"loss": 0.4673,
	"step": 126
	},
	{
	"epoch": 0.01336877286244375,
	"grad_norm": 0.4832141399383545,
	"learning_rate": 4.935235888795283e-05,
	"loss": 0.4259,
	"step": 127
	},
	{
	"epoch": 0.013474038790494487,
	"grad_norm": 0.6188245415687561,
	"learning_rate": 4.934709351305814e-05,
	"loss": 0.4982,
	"step": 128
	},
	{
	"epoch": 0.013579304718545225,
	"grad_norm": 0.4905821979045868,
	"learning_rate": 4.934182813816344e-05,
	"loss": 0.4539,
	"step": 129
	},
	{
	"epoch": 0.013684570646595963,
	"grad_norm": 0.6506298184394836,
	"learning_rate": 4.933656276326875e-05,
	"loss": 0.3982,
	"step": 130
	},
	{
	"epoch": 0.013789836574646702,
	"grad_norm": 0.570380687713623,
	"learning_rate": 4.933129738837405e-05,
	"loss": 0.3901,
	"step": 131
	},
	{
	"epoch": 0.013895102502697439,
	"grad_norm": 0.44687098264694214,
	"learning_rate": 4.932603201347936e-05,
	"loss": 0.4176,
	"step": 132
	},
	{
	"epoch": 0.014000368430748178,
	"grad_norm": 0.6272158622741699,
	"learning_rate": 4.932076663858467e-05,
	"loss": 0.4455,
	"step": 133
	},
	{
	"epoch": 0.014105634358798917,
	"grad_norm": 0.6358391046524048,
	"learning_rate": 4.931550126368998e-05,
	"loss": 0.384,
	"step": 134
	},
	{
	"epoch": 0.014210900286849654,
	"grad_norm": 0.6558123826980591,
	"learning_rate": 4.931023588879529e-05,
	"loss": 0.5024,
	"step": 135
	},
	{
	"epoch": 0.014316166214900393,
	"grad_norm": 0.4577985107898712,
	"learning_rate": 4.9304970513900596e-05,
	"loss": 0.3906,
	"step": 136
	},
	{
	"epoch": 0.01442143214295113,
	"grad_norm": 0.5580503344535828,
	"learning_rate": 4.92997051390059e-05,
	"loss": 0.4589,
	"step": 137
	},
	{
	"epoch": 0.014526698071001869,
	"grad_norm": 0.5660861134529114,
	"learning_rate": 4.929443976411121e-05,
	"loss": 0.3913,
	"step": 138
	},
	{
	"epoch": 0.014631963999052606,
	"grad_norm": 0.49188342690467834,
	"learning_rate": 4.9289174389216516e-05,
	"loss": 0.3951,
	"step": 139
	},
	{
	"epoch": 0.014737229927103345,
	"grad_norm": 0.6210848689079285,
	"learning_rate": 4.9283909014321825e-05,
	"loss": 0.4282,
	"step": 140
	},
	{
	"epoch": 0.014842495855154084,
	"grad_norm": 0.48430967330932617,
	"learning_rate": 4.927864363942713e-05,
	"loss": 0.4667,
	"step": 141
	},
	{
	"epoch": 0.01494776178320482,
	"grad_norm": 0.5269038677215576,
	"learning_rate": 4.9273378264532436e-05,
	"loss": 0.3845,
	"step": 142
	},
	{
	"epoch": 0.01505302771125556,
	"grad_norm": 0.5490912199020386,
	"learning_rate": 4.9268112889637745e-05,
	"loss": 0.4477,
	"step": 143
	},
	{
	"epoch": 0.015158293639306297,
	"grad_norm": 0.4111802279949188,
	"learning_rate": 4.9262847514743054e-05,
	"loss": 0.4351,
	"step": 144
	},
	{
	"epoch": 0.015263559567357036,
	"grad_norm": 0.48929688334465027,
	"learning_rate": 4.9257582139848357e-05,
	"loss": 0.4512,
	"step": 145
	},
	{
	"epoch": 0.015368825495407775,
	"grad_norm": 0.9201393723487854,
	"learning_rate": 4.9252316764953666e-05,
	"loss": 0.5254,
	"step": 146
	},
	{
	"epoch": 0.015474091423458512,
	"grad_norm": 0.5191910862922668,
	"learning_rate": 4.9247051390058975e-05,
	"loss": 0.5455,
	"step": 147
	},
	{
	"epoch": 0.01557935735150925,
	"grad_norm": 0.3562093675136566,
	"learning_rate": 4.9241786015164284e-05,
	"loss": 0.5303,
	"step": 148
	},
	{
	"epoch": 0.015684623279559988,
	"grad_norm": 0.7195460796356201,
	"learning_rate": 4.923652064026959e-05,
	"loss": 0.4389,
	"step": 149
	},
	{
	"epoch": 0.015789889207610725,
	"grad_norm": 0.448176771402359,
	"learning_rate": 4.9231255265374895e-05,
	"loss": 0.3987,
	"step": 150
	},
	{
	"epoch": 0.015895155135661466,
	"grad_norm": 0.48504385352134705,
	"learning_rate": 4.9225989890480204e-05,
	"loss": 0.4725,
	"step": 151
	},
	{
	"epoch": 0.016000421063712203,
	"grad_norm": 0.5456967353820801,
	"learning_rate": 4.922072451558551e-05,
	"loss": 0.5143,
	"step": 152
	},
	{
	"epoch": 0.01610568699176294,
	"grad_norm": 0.61397784948349,
	"learning_rate": 4.9215459140690815e-05,
	"loss": 0.4295,
	"step": 153
	},
	{
	"epoch": 0.01621095291981368,
	"grad_norm": 0.6359485387802124,
	"learning_rate": 4.9210193765796124e-05,
	"loss": 0.4498,
	"step": 154
	},
	{
	"epoch": 0.016316218847864418,
	"grad_norm": 0.5002400279045105,
	"learning_rate": 4.920492839090143e-05,
	"loss": 0.467,
	"step": 155
	},
	{
	"epoch": 0.016421484775915155,
	"grad_norm": 0.5669925212860107,
	"learning_rate": 4.919966301600674e-05,
	"loss": 0.5151,
	"step": 156
	},
	{
	"epoch": 0.016526750703965892,
	"grad_norm": 0.4109033942222595,
	"learning_rate": 4.919439764111205e-05,
	"loss": 0.4672,
	"step": 157
	},
	{
	"epoch": 0.016632016632016633,
	"grad_norm": 0.5119397044181824,
	"learning_rate": 4.918913226621736e-05,
	"loss": 0.4846,
	"step": 158
	},
	{
	"epoch": 0.01673728256006737,
	"grad_norm": 0.5187058448791504,
	"learning_rate": 4.918386689132267e-05,
	"loss": 0.4698,
	"step": 159
	},
	{
	"epoch": 0.016842548488118107,
	"grad_norm": 0.55632483959198,
	"learning_rate": 4.917860151642797e-05,
	"loss": 0.3904,
	"step": 160
	},
	{
	"epoch": 0.016947814416168848,
	"grad_norm": 0.5332942008972168,
	"learning_rate": 4.917333614153328e-05,
	"loss": 0.4253,
	"step": 161
	},
	{
	"epoch": 0.017053080344219585,
	"grad_norm": 0.5523495078086853,
	"learning_rate": 4.916807076663858e-05,
	"loss": 0.415,
	"step": 162
	},
	{
	"epoch": 0.017158346272270322,
	"grad_norm": 0.5162644386291504,
	"learning_rate": 4.916280539174389e-05,
	"loss": 0.514,
	"step": 163
	},
	{
	"epoch": 0.01726361220032106,
	"grad_norm": 0.414809912443161,
	"learning_rate": 4.91575400168492e-05,
	"loss": 0.4757,
	"step": 164
	},
	{
	"epoch": 0.0173688781283718,
	"grad_norm": 0.5634474754333496,
	"learning_rate": 4.915227464195451e-05,
	"loss": 0.3643,
	"step": 165
	},
	{
	"epoch": 0.017474144056422537,
	"grad_norm": 0.5438713431358337,
	"learning_rate": 4.914700926705982e-05,
	"loss": 0.4315,
	"step": 166
	},
	{
	"epoch": 0.017579409984473274,
	"grad_norm": 0.49885427951812744,
	"learning_rate": 4.914174389216513e-05,
	"loss": 0.4697,
	"step": 167
	},
	{
	"epoch": 0.017684675912524015,
	"grad_norm": 0.46923205256462097,
	"learning_rate": 4.913647851727044e-05,
	"loss": 0.4189,
	"step": 168
	},
	{
	"epoch": 0.017789941840574752,
	"grad_norm": 0.4423271119594574,
	"learning_rate": 4.913121314237574e-05,
	"loss": 0.4602,
	"step": 169
	},
	{
	"epoch": 0.01789520776862549,
	"grad_norm": 0.6115851402282715,
	"learning_rate": 4.912594776748105e-05,
	"loss": 0.4399,
	"step": 170
	},
	{
	"epoch": 0.018000473696676227,
	"grad_norm": 0.5554397106170654,
	"learning_rate": 4.912068239258635e-05,
	"loss": 0.4262,
	"step": 171
	},
	{
	"epoch": 0.018105739624726967,
	"grad_norm": 0.565323531627655,
	"learning_rate": 4.911541701769166e-05,
	"loss": 0.4424,
	"step": 172
	},
	{
	"epoch": 0.018211005552777704,
	"grad_norm": 0.44236519932746887,
	"learning_rate": 4.911015164279697e-05,
	"loss": 0.424,
	"step": 173
	},
	{
	"epoch": 0.01831627148082844,
	"grad_norm": 0.6567726731300354,
	"learning_rate": 4.910488626790228e-05,
	"loss": 0.4231,
	"step": 174
	},
	{
	"epoch": 0.018421537408879182,
	"grad_norm": 0.42518746852874756,
	"learning_rate": 4.9099620893007586e-05,
	"loss": 0.4878,
	"step": 175
	},
	{
	"epoch": 0.01852680333692992,
	"grad_norm": 0.5739135146141052,
	"learning_rate": 4.9094355518112895e-05,
	"loss": 0.4514,
	"step": 176
	},
	{
	"epoch": 0.018632069264980657,
	"grad_norm": 0.628442645072937,
	"learning_rate": 4.90890901432182e-05,
	"loss": 0.3625,
	"step": 177
	},
	{
	"epoch": 0.018737335193031397,
	"grad_norm": 0.445872962474823,
	"learning_rate": 4.9083824768323507e-05,
	"loss": 0.5256,
	"step": 178
	},
	{
	"epoch": 0.018842601121082134,
	"grad_norm": 0.5037261247634888,
	"learning_rate": 4.9078559393428816e-05,
	"loss": 0.4322,
	"step": 179
	},
	{
	"epoch": 0.01894786704913287,
	"grad_norm": 0.5586241483688354,
	"learning_rate": 4.9073294018534125e-05,
	"loss": 0.5682,
	"step": 180
	},
	{
	"epoch": 0.01905313297718361,
	"grad_norm": 0.5735304355621338,
	"learning_rate": 4.906802864363943e-05,
	"loss": 0.4486,
	"step": 181
	},
	{
	"epoch": 0.01915839890523435,
	"grad_norm": 0.6629624962806702,
	"learning_rate": 4.9062763268744736e-05,
	"loss": 0.4748,
	"step": 182
	},
	{
	"epoch": 0.019263664833285087,
	"grad_norm": 0.5536085963249207,
	"learning_rate": 4.9057497893850045e-05,
	"loss": 0.3779,
	"step": 183
	},
	{
	"epoch": 0.019368930761335824,
	"grad_norm": 0.37973251938819885,
	"learning_rate": 4.9052232518955354e-05,
	"loss": 0.4913,
	"step": 184
	},
	{
	"epoch": 0.019474196689386564,
	"grad_norm": 0.6046680212020874,
	"learning_rate": 4.9046967144060656e-05,
	"loss": 0.4644,
	"step": 185
	},
	{
	"epoch": 0.0195794626174373,
	"grad_norm": 0.5051435828208923,
	"learning_rate": 4.9041701769165965e-05,
	"loss": 0.5042,
	"step": 186
	},
	{
	"epoch": 0.01968472854548804,
	"grad_norm": 0.5261257290840149,
	"learning_rate": 4.9036436394271274e-05,
	"loss": 0.4679,
	"step": 187
	},
	{
	"epoch": 0.019789994473538776,
	"grad_norm": 0.5349376797676086,
	"learning_rate": 4.903117101937658e-05,
	"loss": 0.4206,
	"step": 188
	},
	{
	"epoch": 0.019895260401589517,
	"grad_norm": 0.5617197751998901,
	"learning_rate": 4.902590564448189e-05,
	"loss": 0.3974,
	"step": 189
	},
	{
	"epoch": 0.020000526329640254,
	"grad_norm": 0.549514889717102,
	"learning_rate": 4.90206402695872e-05,
	"loss": 0.5034,
	"step": 190
	},
	{
	"epoch": 0.02010579225769099,
	"grad_norm": 0.6475022435188293,
	"learning_rate": 4.9015374894692503e-05,
	"loss": 0.4651,
	"step": 191
	},
	{
	"epoch": 0.02021105818574173,
	"grad_norm": 0.6060453057289124,
	"learning_rate": 4.901010951979781e-05,
	"loss": 0.3981,
	"step": 192
	},
	{
	"epoch": 0.02031632411379247,
	"grad_norm": 0.6936651468276978,
	"learning_rate": 4.9004844144903115e-05,
	"loss": 0.3804,
	"step": 193
	},
	{
	"epoch": 0.020421590041843206,
	"grad_norm": 0.44638895988464355,
	"learning_rate": 4.8999578770008424e-05,
	"loss": 0.4596,
	"step": 194
	},
	{
	"epoch": 0.020526855969893943,
	"grad_norm": 0.5297572612762451,
	"learning_rate": 4.899431339511373e-05,
	"loss": 0.4385,
	"step": 195
	},
	{
	"epoch": 0.020632121897944684,
	"grad_norm": 0.5046480894088745,
	"learning_rate": 4.898904802021904e-05,
	"loss": 0.4557,
	"step": 196
	},
	{
	"epoch": 0.02073738782599542,
	"grad_norm": 0.5276935696601868,
	"learning_rate": 4.898378264532435e-05,
	"loss": 0.39,
	"step": 197
	},
	{
	"epoch": 0.020842653754046158,
	"grad_norm": 0.4923096001148224,
	"learning_rate": 4.897851727042966e-05,
	"loss": 0.4585,
	"step": 198
	},
	{
	"epoch": 0.0209479196820969,
	"grad_norm": 0.4554820954799652,
	"learning_rate": 4.897325189553497e-05,
	"loss": 0.5175,
	"step": 199
	},
	{
	"epoch": 0.021053185610147636,
	"grad_norm": 0.47559452056884766,
	"learning_rate": 4.896798652064027e-05,
	"loss": 0.5275,
	"step": 200
	},
	{
	"epoch": 0.021158451538198373,
	"grad_norm": 0.5070779323577881,
	"learning_rate": 4.896272114574558e-05,
	"loss": 0.4958,
	"step": 201
	},
	{
	"epoch": 0.02126371746624911,
	"grad_norm": 0.5040444135665894,
	"learning_rate": 4.895745577085088e-05,
	"loss": 0.4616,
	"step": 202
	},
	{
	"epoch": 0.02136898339429985,
	"grad_norm": 0.5290699601173401,
	"learning_rate": 4.895219039595619e-05,
	"loss": 0.5178,
	"step": 203
	},
	{
	"epoch": 0.021474249322350588,
	"grad_norm": 0.5007508993148804,
	"learning_rate": 4.89469250210615e-05,
	"loss": 0.4489,
	"step": 204
	},
	{
	"epoch": 0.021579515250401325,
	"grad_norm": 0.6373962759971619,
	"learning_rate": 4.894165964616681e-05,
	"loss": 0.4124,
	"step": 205
	},
	{
	"epoch": 0.021684781178452066,
	"grad_norm": 0.5132836699485779,
	"learning_rate": 4.893639427127212e-05,
	"loss": 0.4534,
	"step": 206
	},
	{
	"epoch": 0.021790047106502803,
	"grad_norm": 0.6253231167793274,
	"learning_rate": 4.893112889637743e-05,
	"loss": 0.3986,
	"step": 207
	},
	{
	"epoch": 0.02189531303455354,
	"grad_norm": 0.5937986373901367,
	"learning_rate": 4.8925863521482736e-05,
	"loss": 0.3956,
	"step": 208
	},
	{
	"epoch": 0.022000578962604277,
	"grad_norm": 0.4578053951263428,
	"learning_rate": 4.892059814658804e-05,
	"loss": 0.4068,
	"step": 209
	},
	{
	"epoch": 0.022105844890655018,
	"grad_norm": 0.5060281157493591,
	"learning_rate": 4.891533277169335e-05,
	"loss": 0.5179,
	"step": 210
	},
	{
	"epoch": 0.022211110818705755,
	"grad_norm": 0.561792254447937,
	"learning_rate": 4.8910067396798657e-05,
	"loss": 0.4547,
	"step": 211
	},
	{
	"epoch": 0.022316376746756492,
	"grad_norm": 0.38052886724472046,
	"learning_rate": 4.890480202190396e-05,
	"loss": 0.4493,
	"step": 212
	},
	{
	"epoch": 0.022421642674807233,
	"grad_norm": 0.5639155507087708,
	"learning_rate": 4.889953664700927e-05,
	"loss": 0.4239,
	"step": 213
	},
	{
	"epoch": 0.02252690860285797,
	"grad_norm": 0.5452573299407959,
	"learning_rate": 4.889427127211458e-05,
	"loss": 0.4393,
	"step": 214
	},
	{
	"epoch": 0.022632174530908707,
	"grad_norm": 0.4861447811126709,
	"learning_rate": 4.8889005897219886e-05,
	"loss": 0.4971,
	"step": 215
	},
	{
	"epoch": 0.022737440458959448,
	"grad_norm": 0.5619585514068604,
	"learning_rate": 4.8883740522325195e-05,
	"loss": 0.3992,
	"step": 216
	},
	{
	"epoch": 0.022842706387010185,
	"grad_norm": 0.5488256812095642,
	"learning_rate": 4.88784751474305e-05,
	"loss": 0.4155,
	"step": 217
	},
	{
	"epoch": 0.022947972315060922,
	"grad_norm": 0.517796516418457,
	"learning_rate": 4.8873209772535806e-05,
	"loss": 0.5018,
	"step": 218
	},
	{
	"epoch": 0.02305323824311166,
	"grad_norm": 0.6027892827987671,
	"learning_rate": 4.8867944397641115e-05,
	"loss": 0.4684,
	"step": 219
	},
	{
	"epoch": 0.0231585041711624,
	"grad_norm": 0.47196510434150696,
	"learning_rate": 4.8862679022746424e-05,
	"loss": 0.4423,
	"step": 220
	},
	{
	"epoch": 0.023263770099213137,
	"grad_norm": 0.41390231251716614,
	"learning_rate": 4.8857413647851726e-05,
	"loss": 0.4031,
	"step": 221
	},
	{
	"epoch": 0.023369036027263874,
	"grad_norm": 0.5514193773269653,
	"learning_rate": 4.8852148272957035e-05,
	"loss": 0.6308,
	"step": 222
	},
	{
	"epoch": 0.023474301955314615,
	"grad_norm": 0.4564357101917267,
	"learning_rate": 4.8846882898062344e-05,
	"loss": 0.5284,
	"step": 223
	},
	{
	"epoch": 0.023579567883365352,
	"grad_norm": 0.45888492465019226,
	"learning_rate": 4.8841617523167653e-05,
	"loss": 0.4536,
	"step": 224
	},
	{
	"epoch": 0.02368483381141609,
	"grad_norm": 0.4363495409488678,
	"learning_rate": 4.8836352148272956e-05,
	"loss": 0.4838,
	"step": 225
	},
	{
	"epoch": 0.023790099739466827,
	"grad_norm": 0.40970975160598755,
	"learning_rate": 4.8831086773378265e-05,
	"loss": 0.5299,
	"step": 226
	},
	{
	"epoch": 0.023895365667517567,
	"grad_norm": 0.5274611711502075,
	"learning_rate": 4.8825821398483574e-05,
	"loss": 0.3967,
	"step": 227
	},
	{
	"epoch": 0.024000631595568304,
	"grad_norm": 0.5038068890571594,
	"learning_rate": 4.882055602358888e-05,
	"loss": 0.5067,
	"step": 228
	},
	{
	"epoch": 0.02410589752361904,
	"grad_norm": 0.5031372904777527,
	"learning_rate": 4.881529064869419e-05,
	"loss": 0.3756,
	"step": 229
	},
	{
	"epoch": 0.024211163451669782,
	"grad_norm": 0.49740293622016907,
	"learning_rate": 4.88100252737995e-05,
	"loss": 0.4809,
	"step": 230
	},
	{
	"epoch": 0.02431642937972052,
	"grad_norm": 0.4950021207332611,
	"learning_rate": 4.88047598989048e-05,
	"loss": 0.4149,
	"step": 231
	},
	{
	"epoch": 0.024421695307771257,
	"grad_norm": 0.46618038415908813,
	"learning_rate": 4.879949452401011e-05,
	"loss": 0.4737,
	"step": 232
	},
	{
	"epoch": 0.024526961235821994,
	"grad_norm": 0.4663354158401489,
	"learning_rate": 4.8794229149115414e-05,
	"loss": 0.3884,
	"step": 233
	},
	{
	"epoch": 0.024632227163872734,
	"grad_norm": 0.6165478229522705,
	"learning_rate": 4.878896377422072e-05,
	"loss": 0.3875,
	"step": 234
	},
	{
	"epoch": 0.02473749309192347,
	"grad_norm": 0.4838646948337555,
	"learning_rate": 4.878369839932603e-05,
	"loss": 0.4679,
	"step": 235
	},
	{
	"epoch": 0.02484275901997421,
	"grad_norm": 0.49089592695236206,
	"learning_rate": 4.877843302443134e-05,
	"loss": 0.5484,
	"step": 236
	},
	{
	"epoch": 0.02494802494802495,
	"grad_norm": 0.4166033864021301,
	"learning_rate": 4.877316764953665e-05,
	"loss": 0.4594,
	"step": 237
	},
	{
	"epoch": 0.025053290876075687,
	"grad_norm": 0.6557610630989075,
	"learning_rate": 4.876790227464196e-05,
	"loss": 0.422,
	"step": 238
	},
	{
	"epoch": 0.025158556804126424,
	"grad_norm": 0.4997393786907196,
	"learning_rate": 4.876263689974727e-05,
	"loss": 0.4165,
	"step": 239
	},
	{
	"epoch": 0.02526382273217716,
	"grad_norm": 0.3650420606136322,
	"learning_rate": 4.875737152485258e-05,
	"loss": 0.4758,
	"step": 240
	},
	{
	"epoch": 0.0253690886602279,
	"grad_norm": 0.5316746830940247,
	"learning_rate": 4.875210614995788e-05,
	"loss": 0.4703,
	"step": 241
	},
	{
	"epoch": 0.02547435458827864,
	"grad_norm": 0.3838014602661133,
	"learning_rate": 4.874684077506318e-05,
	"loss": 0.6512,
	"step": 242
	},
	{
	"epoch": 0.025579620516329376,
	"grad_norm": 0.5243346095085144,
	"learning_rate": 4.874157540016849e-05,
	"loss": 0.4515,
	"step": 243
	},
	{
	"epoch": 0.025684886444380117,
	"grad_norm": 0.46801677346229553,
	"learning_rate": 4.87363100252738e-05,
	"loss": 0.4605,
	"step": 244
	},
	{
	"epoch": 0.025790152372430854,
	"grad_norm": 0.4614790081977844,
	"learning_rate": 4.873104465037911e-05,
	"loss": 0.4101,
	"step": 245
	},
	{
	"epoch": 0.02589541830048159,
	"grad_norm": 0.4433145821094513,
	"learning_rate": 4.872577927548442e-05,
	"loss": 0.4578,
	"step": 246
	},
	{
	"epoch": 0.026000684228532328,
	"grad_norm": 0.43368014693260193,
	"learning_rate": 4.872051390058973e-05,
	"loss": 0.4077,
	"step": 247
	},
	{
	"epoch": 0.02610595015658307,
	"grad_norm": 0.4347352385520935,
	"learning_rate": 4.8715248525695036e-05,
	"loss": 0.4451,
	"step": 248
	},
	{
	"epoch": 0.026211216084633806,
	"grad_norm": 0.5047518610954285,
	"learning_rate": 4.870998315080034e-05,
	"loss": 0.4308,
	"step": 249
	},
	{
	"epoch": 0.026316482012684543,
	"grad_norm": 0.6036553978919983,
	"learning_rate": 4.870471777590565e-05,
	"loss": 0.5001,
	"step": 250
	},
	{
	"epoch": 0.026421747940735284,
	"grad_norm": 0.5581931471824646,
	"learning_rate": 4.8699452401010956e-05,
	"loss": 0.3939,
	"step": 251
	},
	{
	"epoch": 0.02652701386878602,
	"grad_norm": 0.4085439145565033,
	"learning_rate": 4.869418702611626e-05,
	"loss": 0.5321,
	"step": 252
	},
	{
	"epoch": 0.026632279796836758,
	"grad_norm": 0.6976563334465027,
	"learning_rate": 4.868892165122157e-05,
	"loss": 0.4767,
	"step": 253
	},
	{
	"epoch": 0.0267375457248875,
	"grad_norm": 0.48653343319892883,
	"learning_rate": 4.8683656276326876e-05,
	"loss": 0.5387,
	"step": 254
	},
	{
	"epoch": 0.026842811652938236,
	"grad_norm": 0.5379003286361694,
	"learning_rate": 4.8678390901432185e-05,
	"loss": 0.4418,
	"step": 255
	},
	{
	"epoch": 0.026948077580988973,
	"grad_norm": 0.42478466033935547,
	"learning_rate": 4.8673125526537494e-05,
	"loss": 0.4751,
	"step": 256
	},
	{
	"epoch": 0.02705334350903971,
	"grad_norm": 0.4857715666294098,
	"learning_rate": 4.86678601516428e-05,
	"loss": 0.4608,
	"step": 257
	},
	{
	"epoch": 0.02715860943709045,
	"grad_norm": 0.46174147725105286,
	"learning_rate": 4.8662594776748106e-05,
	"loss": 0.4611,
	"step": 258
	},
	{
	"epoch": 0.027263875365141188,
	"grad_norm": 0.5316092371940613,
	"learning_rate": 4.8657329401853415e-05,
	"loss": 0.4463,
	"step": 259
	},
	{
	"epoch": 0.027369141293191925,
	"grad_norm": 0.5541107058525085,
	"learning_rate": 4.8652064026958724e-05,
	"loss": 0.4619,
	"step": 260
	},
	{
	"epoch": 0.027474407221242666,
	"grad_norm": 0.4637160003185272,
	"learning_rate": 4.864679865206403e-05,
	"loss": 0.425,
	"step": 261
	},
	{
	"epoch": 0.027579673149293403,
	"grad_norm": 0.4406774938106537,
	"learning_rate": 4.8641533277169335e-05,
	"loss": 0.5234,
	"step": 262
	},
	{
	"epoch": 0.02768493907734414,
	"grad_norm": 0.5540871620178223,
	"learning_rate": 4.8636267902274644e-05,
	"loss": 0.4565,
	"step": 263
	},
	{
	"epoch": 0.027790205005394877,
	"grad_norm": 0.5119719505310059,
	"learning_rate": 4.863100252737995e-05,
	"loss": 0.4224,
	"step": 264
	},
	{
	"epoch": 0.027895470933445618,
	"grad_norm": 0.6064046025276184,
	"learning_rate": 4.8625737152485255e-05,
	"loss": 0.453,
	"step": 265
	},
	{
	"epoch": 0.028000736861496355,
	"grad_norm": 0.5928232669830322,
	"learning_rate": 4.8620471777590564e-05,
	"loss": 0.4444,
	"step": 266
	},
	{
	"epoch": 0.028106002789547092,
	"grad_norm": 0.5610330700874329,
	"learning_rate": 4.861520640269587e-05,
	"loss": 0.4051,
	"step": 267
	},
	{
	"epoch": 0.028211268717597833,
	"grad_norm": 0.4866770803928375,
	"learning_rate": 4.860994102780118e-05,
	"loss": 0.4629,
	"step": 268
	},
	{
	"epoch": 0.02831653464564857,
	"grad_norm": 0.5181504487991333,
	"learning_rate": 4.860467565290649e-05,
	"loss": 0.4225,
	"step": 269
	},
	{
	"epoch": 0.028421800573699307,
	"grad_norm": 0.36064937710762024,
	"learning_rate": 4.85994102780118e-05,
	"loss": 0.4136,
	"step": 270
	},
	{
	"epoch": 0.028527066501750045,
	"grad_norm": 0.4846802353858948,
	"learning_rate": 4.85941449031171e-05,
	"loss": 0.4321,
	"step": 271
	},
	{
	"epoch": 0.028632332429800785,
	"grad_norm": 0.4463631510734558,
	"learning_rate": 4.858887952822241e-05,
	"loss": 0.5485,
	"step": 272
	},
	{
	"epoch": 0.028737598357851522,
	"grad_norm": 0.4516132175922394,
	"learning_rate": 4.8583614153327714e-05,
	"loss": 0.4853,
	"step": 273
	},
	{
	"epoch": 0.02884286428590226,
	"grad_norm": 0.40815305709838867,
	"learning_rate": 4.857834877843302e-05,
	"loss": 0.3355,
	"step": 274
	},
	{
	"epoch": 0.028948130213953,
	"grad_norm": 0.54203200340271,
	"learning_rate": 4.857308340353833e-05,
	"loss": 0.3969,
	"step": 275
	},
	{
	"epoch": 0.029053396142003737,
	"grad_norm": 0.5161415338516235,
	"learning_rate": 4.856781802864364e-05,
	"loss": 0.3776,
	"step": 276
	},
	{
	"epoch": 0.029158662070054474,
	"grad_norm": 0.4058281183242798,
	"learning_rate": 4.856255265374895e-05,
	"loss": 0.4268,
	"step": 277
	},
	{
	"epoch": 0.02926392799810521,
	"grad_norm": 0.43867388367652893,
	"learning_rate": 4.855728727885426e-05,
	"loss": 0.4458,
	"step": 278
	},
	{
	"epoch": 0.029369193926155952,
	"grad_norm": 0.441211998462677,
	"learning_rate": 4.855202190395957e-05,
	"loss": 0.4532,
	"step": 279
	},
	{
	"epoch": 0.02947445985420669,
	"grad_norm": 0.5454714894294739,
	"learning_rate": 4.854675652906488e-05,
	"loss": 0.4907,
	"step": 280
	},
	{
	"epoch": 0.029579725782257427,
	"grad_norm": 0.47156885266304016,
	"learning_rate": 4.854149115417018e-05,
	"loss": 0.4905,
	"step": 281
	},
	{
	"epoch": 0.029684991710308167,
	"grad_norm": 0.40513938665390015,
	"learning_rate": 4.853622577927549e-05,
	"loss": 0.4808,
	"step": 282
	},
	{
	"epoch": 0.029790257638358904,
	"grad_norm": 0.47520211338996887,
	"learning_rate": 4.853096040438079e-05,
	"loss": 0.4501,
	"step": 283
	},
	{
	"epoch": 0.02989552356640964,
	"grad_norm": 0.5248693823814392,
	"learning_rate": 4.85256950294861e-05,
	"loss": 0.4287,
	"step": 284
	},
	{
	"epoch": 0.03000078949446038,
	"grad_norm": 0.4880824089050293,
	"learning_rate": 4.852042965459141e-05,
	"loss": 0.3947,
	"step": 285
	},
	{
	"epoch": 0.03010605542251112,
	"grad_norm": 0.4884517788887024,
	"learning_rate": 4.851516427969672e-05,
	"loss": 0.4521,
	"step": 286
	},
	{
	"epoch": 0.030211321350561857,
	"grad_norm": 0.5394681096076965,
	"learning_rate": 4.8509898904802026e-05,
	"loss": 0.4033,
	"step": 287
	},
	{
	"epoch": 0.030316587278612594,
	"grad_norm": 0.46996134519577026,
	"learning_rate": 4.8504633529907335e-05,
	"loss": 0.4217,
	"step": 288
	},
	{
	"epoch": 0.030421853206663334,
	"grad_norm": 0.4631175398826599,
	"learning_rate": 4.849936815501264e-05,
	"loss": 0.4114,
	"step": 289
	},
	{
	"epoch": 0.03052711913471407,
	"grad_norm": 0.5271033644676208,
	"learning_rate": 4.849410278011795e-05,
	"loss": 0.4044,
	"step": 290
	},
	{
	"epoch": 0.03063238506276481,
	"grad_norm": 0.46999993920326233,
	"learning_rate": 4.8488837405223256e-05,
	"loss": 0.4408,
	"step": 291
	},
	{
	"epoch": 0.03073765099081555,
	"grad_norm": 0.3656292259693146,
	"learning_rate": 4.848357203032856e-05,
	"loss": 0.4169,
	"step": 292
	},
	{
	"epoch": 0.030842916918866287,
	"grad_norm": 0.5758498907089233,
	"learning_rate": 4.847830665543387e-05,
	"loss": 0.4718,
	"step": 293
	},
	{
	"epoch": 0.030948182846917024,
	"grad_norm": 0.43184739351272583,
	"learning_rate": 4.8473041280539176e-05,
	"loss": 0.4081,
	"step": 294
	},
	{
	"epoch": 0.03105344877496776,
	"grad_norm": 0.44835662841796875,
	"learning_rate": 4.8467775905644485e-05,
	"loss": 0.4249,
	"step": 295
	},
	{
	"epoch": 0.0311587147030185,
	"grad_norm": 0.4488978087902069,
	"learning_rate": 4.8462510530749794e-05,
	"loss": 0.5449,
	"step": 296
	},
	{
	"epoch": 0.031263980631069235,
	"grad_norm": 0.5275838971138,
	"learning_rate": 4.8457245155855096e-05,
	"loss": 0.4624,
	"step": 297
	},
	{
	"epoch": 0.031369246559119976,
	"grad_norm": 0.6487151980400085,
	"learning_rate": 4.8451979780960405e-05,
	"loss": 0.4815,
	"step": 298
	},
	{
	"epoch": 0.03147451248717072,
	"grad_norm": 0.5481114983558655,
	"learning_rate": 4.8446714406065714e-05,
	"loss": 0.3889,
	"step": 299
	},
	{
	"epoch": 0.03157977841522145,
	"grad_norm": 0.516204833984375,
	"learning_rate": 4.844144903117102e-05,
	"loss": 0.3923,
	"step": 300
	},
	{
	"epoch": 0.03168504434327219,
	"grad_norm": 0.5541898012161255,
	"learning_rate": 4.843618365627633e-05,
	"loss": 0.4513,
	"step": 301
	},
	{
	"epoch": 0.03179031027132293,
	"grad_norm": 0.5141636729240417,
	"learning_rate": 4.8430918281381635e-05,
	"loss": 0.4993,
	"step": 302
	},
	{
	"epoch": 0.031895576199373665,
	"grad_norm": 0.46877187490463257,
	"learning_rate": 4.8425652906486944e-05,
	"loss": 0.4815,
	"step": 303
	},
	{
	"epoch": 0.032000842127424406,
	"grad_norm": 0.5002549886703491,
	"learning_rate": 4.842038753159225e-05,
	"loss": 0.5064,
	"step": 304
	},
	{
	"epoch": 0.03210610805547515,
	"grad_norm": 0.45424237847328186,
	"learning_rate": 4.8415122156697555e-05,
	"loss": 0.4549,
	"step": 305
	},
	{
	"epoch": 0.03221137398352588,
	"grad_norm": 0.4908994138240814,
	"learning_rate": 4.8409856781802864e-05,
	"loss": 0.5029,
	"step": 306
	},
	{
	"epoch": 0.03231663991157662,
	"grad_norm": 0.6221848726272583,
	"learning_rate": 4.840459140690817e-05,
	"loss": 0.4033,
	"step": 307
	},
	{
	"epoch": 0.03242190583962736,
	"grad_norm": 0.5026724934577942,
	"learning_rate": 4.839932603201348e-05,
	"loss": 0.3765,
	"step": 308
	},
	{
	"epoch": 0.032527171767678095,
	"grad_norm": 0.4318561255931854,
	"learning_rate": 4.839406065711879e-05,
	"loss": 0.4174,
	"step": 309
	},
	{
	"epoch": 0.032632437695728836,
	"grad_norm": 0.5485970377922058,
	"learning_rate": 4.83887952822241e-05,
	"loss": 0.4528,
	"step": 310
	},
	{
	"epoch": 0.03273770362377958,
	"grad_norm": 0.49032801389694214,
	"learning_rate": 4.838352990732941e-05,
	"loss": 0.4687,
	"step": 311
	},
	{
	"epoch": 0.03284296955183031,
	"grad_norm": 0.4289769232273102,
	"learning_rate": 4.837826453243471e-05,
	"loss": 0.5144,
	"step": 312
	},
	{
	"epoch": 0.03294823547988105,
	"grad_norm": 0.500663697719574,
	"learning_rate": 4.8372999157540013e-05,
	"loss": 0.3923,
	"step": 313
	},
	{
	"epoch": 0.033053501407931785,
	"grad_norm": 0.5670647025108337,
	"learning_rate": 4.836773378264532e-05,
	"loss": 0.4049,
	"step": 314
	},
	{
	"epoch": 0.033158767335982525,
	"grad_norm": 0.4813581109046936,
	"learning_rate": 4.836246840775063e-05,
	"loss": 0.443,
	"step": 315
	},
	{
	"epoch": 0.033264033264033266,
	"grad_norm": 0.5485454797744751,
	"learning_rate": 4.835720303285594e-05,
	"loss": 0.4008,
	"step": 316
	},
	{
	"epoch": 0.033369299192084,
	"grad_norm": 0.5390880703926086,
	"learning_rate": 4.835193765796125e-05,
	"loss": 0.3993,
	"step": 317
	},
	{
	"epoch": 0.03347456512013474,
	"grad_norm": 0.498060017824173,
	"learning_rate": 4.834667228306656e-05,
	"loss": 0.3953,
	"step": 318
	},
	{
	"epoch": 0.03357983104818548,
	"grad_norm": 0.49461764097213745,
	"learning_rate": 4.834140690817187e-05,
	"loss": 0.3972,
	"step": 319
	},
	{
	"epoch": 0.033685096976236215,
	"grad_norm": 0.723934531211853,
	"learning_rate": 4.8336141533277176e-05,
	"loss": 0.4582,
	"step": 320
	},
	{
	"epoch": 0.033790362904286955,
	"grad_norm": 0.4396905303001404,
	"learning_rate": 4.833087615838248e-05,
	"loss": 0.404,
	"step": 321
	},
	{
	"epoch": 0.033895628832337696,
	"grad_norm": 0.4418332576751709,
	"learning_rate": 4.832561078348779e-05,
	"loss": 0.5145,
	"step": 322
	},
	{
	"epoch": 0.03400089476038843,
	"grad_norm": 0.5111250281333923,
	"learning_rate": 4.832034540859309e-05,
	"loss": 0.5276,
	"step": 323
	},
	{
	"epoch": 0.03410616068843917,
	"grad_norm": 0.5635156035423279,
	"learning_rate": 4.83150800336984e-05,
	"loss": 0.5484,
	"step": 324
	},
	{
	"epoch": 0.03421142661648991,
	"grad_norm": 0.5792466402053833,
	"learning_rate": 4.830981465880371e-05,
	"loss": 0.5747,
	"step": 325
	},
	{
	"epoch": 0.034316692544540645,
	"grad_norm": 0.4661281406879425,
	"learning_rate": 4.830454928390902e-05,
	"loss": 0.4601,
	"step": 326
	},
	{
	"epoch": 0.034421958472591385,
	"grad_norm": 0.6661891937255859,
	"learning_rate": 4.8299283909014326e-05,
	"loss": 0.4993,
	"step": 327
	},
	{
	"epoch": 0.03452722440064212,
	"grad_norm": 0.5207692384719849,
	"learning_rate": 4.8294018534119635e-05,
	"loss": 0.421,
	"step": 328
	},
	{
	"epoch": 0.03463249032869286,
	"grad_norm": 0.6618428826332092,
	"learning_rate": 4.828875315922494e-05,
	"loss": 0.4163,
	"step": 329
	},
	{
	"epoch": 0.0347377562567436,
	"grad_norm": 0.513272225856781,
	"learning_rate": 4.8283487784330246e-05,
	"loss": 0.3797,
	"step": 330
	},
	{
	"epoch": 0.034843022184794334,
	"grad_norm": 0.4838692545890808,
	"learning_rate": 4.8278222409435555e-05,
	"loss": 0.3843,
	"step": 331
	},
	{
	"epoch": 0.034948288112845075,
	"grad_norm": 0.5403527021408081,
	"learning_rate": 4.8272957034540864e-05,
	"loss": 0.4821,
	"step": 332
	},
	{
	"epoch": 0.035053554040895815,
	"grad_norm": 0.48934701085090637,
	"learning_rate": 4.8267691659646167e-05,
	"loss": 0.4205,
	"step": 333
	},
	{
	"epoch": 0.03515881996894655,
	"grad_norm": 0.5227293968200684,
	"learning_rate": 4.8262426284751476e-05,
	"loss": 0.483,
	"step": 334
	},
	{
	"epoch": 0.03526408589699729,
	"grad_norm": 0.5904392004013062,
	"learning_rate": 4.8257160909856785e-05,
	"loss": 0.3868,
	"step": 335
	},
	{
	"epoch": 0.03536935182504803,
	"grad_norm": 0.4555564522743225,
	"learning_rate": 4.8251895534962094e-05,
	"loss": 0.4235,
	"step": 336
	},
	{
	"epoch": 0.035474617753098764,
	"grad_norm": 0.8526967763900757,
	"learning_rate": 4.8246630160067396e-05,
	"loss": 0.4588,
	"step": 337
	},
	{
	"epoch": 0.035579883681149505,
	"grad_norm": 0.45085299015045166,
	"learning_rate": 4.8241364785172705e-05,
	"loss": 0.4228,
	"step": 338
	},
	{
	"epoch": 0.035685149609200245,
	"grad_norm": 0.5043511390686035,
	"learning_rate": 4.8236099410278014e-05,
	"loss": 0.4632,
	"step": 339
	},
	{
	"epoch": 0.03579041553725098,
	"grad_norm": 0.5064621567726135,
	"learning_rate": 4.823083403538332e-05,
	"loss": 0.4844,
	"step": 340
	},
	{
	"epoch": 0.03589568146530172,
	"grad_norm": 0.48965758085250854,
	"learning_rate": 4.822556866048863e-05,
	"loss": 0.4481,
	"step": 341
	},
	{
	"epoch": 0.03600094739335245,
	"grad_norm": 0.4565337300300598,
	"learning_rate": 4.8220303285593934e-05,
	"loss": 0.4011,
	"step": 342
	},
	{
	"epoch": 0.036106213321403194,
	"grad_norm": 0.5424944758415222,
	"learning_rate": 4.821503791069924e-05,
	"loss": 0.5101,
	"step": 343
	},
	{
	"epoch": 0.036211479249453934,
	"grad_norm": 0.4527457058429718,
	"learning_rate": 4.820977253580455e-05,
	"loss": 0.4097,
	"step": 344
	},
	{
	"epoch": 0.03631674517750467,
	"grad_norm": 0.3896700441837311,
	"learning_rate": 4.8204507160909854e-05,
	"loss": 0.4177,
	"step": 345
	},
	{
	"epoch": 0.03642201110555541,
	"grad_norm": 0.5583755373954773,
	"learning_rate": 4.8199241786015163e-05,
	"loss": 0.4437,
	"step": 346
	},
	{
	"epoch": 0.03652727703360615,
	"grad_norm": 0.41155165433883667,
	"learning_rate": 4.819397641112047e-05,
	"loss": 0.4382,
	"step": 347
	},
	{
	"epoch": 0.03663254296165688,
	"grad_norm": 0.36993688344955444,
	"learning_rate": 4.818871103622578e-05,
	"loss": 0.4839,
	"step": 348
	},
	{
	"epoch": 0.036737808889707624,
	"grad_norm": 0.449740469455719,
	"learning_rate": 4.818344566133109e-05,
	"loss": 0.4251,
	"step": 349
	},
	{
	"epoch": 0.036843074817758364,
	"grad_norm": 0.3957495391368866,
	"learning_rate": 4.81781802864364e-05,
	"loss": 0.4743,
	"step": 350
	},
	{
	"epoch": 0.0369483407458091,
	"grad_norm": 0.5629512667655945,
	"learning_rate": 4.817291491154171e-05,
	"loss": 0.4002,
	"step": 351
	},
	{
	"epoch": 0.03705360667385984,
	"grad_norm": 0.4598921239376068,
	"learning_rate": 4.816764953664701e-05,
	"loss": 0.4692,
	"step": 352
	},
	{
	"epoch": 0.03715887260191058,
	"grad_norm": 0.516234278678894,
	"learning_rate": 4.816238416175232e-05,
	"loss": 0.4175,
	"step": 353
	},
	{
	"epoch": 0.03726413852996131,
	"grad_norm": 0.5708214044570923,
	"learning_rate": 4.815711878685762e-05,
	"loss": 0.4306,
	"step": 354
	},
	{
	"epoch": 0.037369404458012054,
	"grad_norm": 0.6185720562934875,
	"learning_rate": 4.815185341196293e-05,
	"loss": 0.4598,
	"step": 355
	},
	{
	"epoch": 0.037474670386062794,
	"grad_norm": 0.5227758884429932,
	"learning_rate": 4.814658803706824e-05,
	"loss": 0.3782,
	"step": 356
	},
	{
	"epoch": 0.03757993631411353,
	"grad_norm": 0.5345552563667297,
	"learning_rate": 4.814132266217355e-05,
	"loss": 0.418,
	"step": 357
	},
	{
	"epoch": 0.03768520224216427,
	"grad_norm": 0.5797765254974365,
	"learning_rate": 4.813605728727886e-05,
	"loss": 0.5089,
	"step": 358
	},
	{
	"epoch": 0.037790468170215,
	"grad_norm": 0.5567287802696228,
	"learning_rate": 4.813079191238417e-05,
	"loss": 0.4304,
	"step": 359
	},
	{
	"epoch": 0.03789573409826574,
	"grad_norm": 0.4520246982574463,
	"learning_rate": 4.8125526537489476e-05,
	"loss": 0.4626,
	"step": 360
	},
	{
	"epoch": 0.038001000026316484,
	"grad_norm": 0.44900500774383545,
	"learning_rate": 4.812026116259478e-05,
	"loss": 0.3843,
	"step": 361
	},
	{
	"epoch": 0.03810626595436722,
	"grad_norm": 0.48296135663986206,
	"learning_rate": 4.811499578770009e-05,
	"loss": 0.4855,
	"step": 362
	},
	{
	"epoch": 0.03821153188241796,
	"grad_norm": 0.4269002377986908,
	"learning_rate": 4.810973041280539e-05,
	"loss": 0.3795,
	"step": 363
	},
	{
	"epoch": 0.0383167978104687,
	"grad_norm": 0.9296995401382446,
	"learning_rate": 4.81044650379107e-05,
	"loss": 0.4861,
	"step": 364
	},
	{
	"epoch": 0.03842206373851943,
	"grad_norm": 0.5746780633926392,
	"learning_rate": 4.809919966301601e-05,
	"loss": 0.3991,
	"step": 365
	},
	{
	"epoch": 0.03852732966657017,
	"grad_norm": 0.47170913219451904,
	"learning_rate": 4.8093934288121317e-05,
	"loss": 0.4348,
	"step": 366
	},
	{
	"epoch": 0.038632595594620914,
	"grad_norm": 0.4327333867549896,
	"learning_rate": 4.8088668913226626e-05,
	"loss": 0.405,
	"step": 367
	},
	{
	"epoch": 0.03873786152267165,
	"grad_norm": 0.4907747507095337,
	"learning_rate": 4.8083403538331935e-05,
	"loss": 0.4467,
	"step": 368
	},
	{
	"epoch": 0.03884312745072239,
	"grad_norm": 0.48626840114593506,
	"learning_rate": 4.807813816343724e-05,
	"loss": 0.485,
	"step": 369
	},
	{
	"epoch": 0.03894839337877313,
	"grad_norm": 0.5155723094940186,
	"learning_rate": 4.8072872788542546e-05,
	"loss": 0.3931,
	"step": 370
	},
	{
	"epoch": 0.03905365930682386,
	"grad_norm": 0.5703728795051575,
	"learning_rate": 4.8067607413647855e-05,
	"loss": 0.3728,
	"step": 371
	},
	{
	"epoch": 0.0391589252348746,
	"grad_norm": 0.5467020273208618,
	"learning_rate": 4.8062342038753164e-05,
	"loss": 0.477,
	"step": 372
	},
	{
	"epoch": 0.03926419116292534,
	"grad_norm": 0.4459872543811798,
	"learning_rate": 4.8057076663858466e-05,
	"loss": 0.4712,
	"step": 373
	},
	{
	"epoch": 0.03936945709097608,
	"grad_norm": 0.511060357093811,
	"learning_rate": 4.8051811288963775e-05,
	"loss": 0.5146,
	"step": 374
	},
	{
	"epoch": 0.03947472301902682,
	"grad_norm": 0.3677018880844116,
	"learning_rate": 4.8046545914069084e-05,
	"loss": 0.4605,
	"step": 375
	},
	{
	"epoch": 0.03957998894707755,
	"grad_norm": 0.47560691833496094,
	"learning_rate": 4.804128053917439e-05,
	"loss": 0.4479,
	"step": 376
	},
	{
	"epoch": 0.03968525487512829,
	"grad_norm": 0.5171210169792175,
	"learning_rate": 4.8036015164279695e-05,
	"loss": 0.4413,
	"step": 377
	},
	{
	"epoch": 0.03979052080317903,
	"grad_norm": 0.448194295167923,
	"learning_rate": 4.8030749789385004e-05,
	"loss": 0.4637,
	"step": 378
	},
	{
	"epoch": 0.03989578673122977,
	"grad_norm": 0.5280170440673828,
	"learning_rate": 4.8025484414490313e-05,
	"loss": 0.4365,
	"step": 379
	},
	{
	"epoch": 0.04000105265928051,
	"grad_norm": 0.490249902009964,
	"learning_rate": 4.802021903959562e-05,
	"loss": 0.4618,
	"step": 380
	},
	{
	"epoch": 0.04010631858733125,
	"grad_norm": 0.5452317595481873,
	"learning_rate": 4.801495366470093e-05,
	"loss": 0.3972,
	"step": 381
	},
	{
	"epoch": 0.04021158451538198,
	"grad_norm": 0.5572560429573059,
	"learning_rate": 4.800968828980624e-05,
	"loss": 0.4756,
	"step": 382
	},
	{
	"epoch": 0.04031685044343272,
	"grad_norm": 0.45014721155166626,
	"learning_rate": 4.800442291491154e-05,
	"loss": 0.3915,
	"step": 383
	},
	{
	"epoch": 0.04042211637148346,
	"grad_norm": 0.6049466729164124,
	"learning_rate": 4.799915754001685e-05,
	"loss": 0.3675,
	"step": 384
	},
	{
	"epoch": 0.0405273822995342,
	"grad_norm": 0.6129103302955627,
	"learning_rate": 4.7993892165122154e-05,
	"loss": 0.378,
	"step": 385
	},
	{
	"epoch": 0.04063264822758494,
	"grad_norm": 0.5461925864219666,
	"learning_rate": 4.798862679022746e-05,
	"loss": 0.4091,
	"step": 386
	},
	{
	"epoch": 0.04073791415563568,
	"grad_norm": 0.41969093680381775,
	"learning_rate": 4.798336141533277e-05,
	"loss": 0.4843,
	"step": 387
	},
	{
	"epoch": 0.04084318008368641,
	"grad_norm": 0.510870635509491,
	"learning_rate": 4.797809604043808e-05,
	"loss": 0.581,
	"step": 388
	},
	{
	"epoch": 0.04094844601173715,
	"grad_norm": 0.5956604480743408,
	"learning_rate": 4.797283066554339e-05,
	"loss": 0.3163,
	"step": 389
	},
	{
	"epoch": 0.041053711939787886,
	"grad_norm": 0.4685046076774597,
	"learning_rate": 4.79675652906487e-05,
	"loss": 0.4587,
	"step": 390
	},
	{
	"epoch": 0.04115897786783863,
	"grad_norm": 0.4563463628292084,
	"learning_rate": 4.796229991575401e-05,
	"loss": 0.468,
	"step": 391
	},
	{
	"epoch": 0.04126424379588937,
	"grad_norm": 0.5047011971473694,
	"learning_rate": 4.795703454085931e-05,
	"loss": 0.4117,
	"step": 392
	},
	{
	"epoch": 0.0413695097239401,
	"grad_norm": 0.6256960034370422,
	"learning_rate": 4.795176916596462e-05,
	"loss": 0.4522,
	"step": 393
	},
	{
	"epoch": 0.04147477565199084,
	"grad_norm": 0.479109525680542,
	"learning_rate": 4.794650379106992e-05,
	"loss": 0.5458,
	"step": 394
	},
	{
	"epoch": 0.04158004158004158,
	"grad_norm": 0.5637032985687256,
	"learning_rate": 4.794123841617523e-05,
	"loss": 0.4724,
	"step": 395
	},
	{
	"epoch": 0.041685307508092316,
	"grad_norm": 0.5758900046348572,
	"learning_rate": 4.793597304128054e-05,
	"loss": 0.3943,
	"step": 396
	},
	{
	"epoch": 0.04179057343614306,
	"grad_norm": 0.41813746094703674,
	"learning_rate": 4.793070766638585e-05,
	"loss": 0.4937,
	"step": 397
	},
	{
	"epoch": 0.0418958393641938,
	"grad_norm": 0.4549589455127716,
	"learning_rate": 4.792544229149116e-05,
	"loss": 0.4055,
	"step": 398
	},
	{
	"epoch": 0.04200110529224453,
	"grad_norm": 0.42384806275367737,
	"learning_rate": 4.792017691659647e-05,
	"loss": 0.4189,
	"step": 399
	},
	{
	"epoch": 0.04210637122029527,
	"grad_norm": 0.4235416352748871,
	"learning_rate": 4.7914911541701776e-05,
	"loss": 0.4304,
	"step": 400
	},
	{
	"epoch": 0.04221163714834601,
	"grad_norm": 0.44901612401008606,
	"learning_rate": 4.7909646166807085e-05,
	"loss": 0.4575,
	"step": 401
	},
	{
	"epoch": 0.042316903076396746,
	"grad_norm": 0.4786452353000641,
	"learning_rate": 4.790438079191239e-05,
	"loss": 0.4031,
	"step": 402
	},
	{
	"epoch": 0.04242216900444749,
	"grad_norm": 0.64895099401474,
	"learning_rate": 4.7899115417017696e-05,
	"loss": 0.4437,
	"step": 403
	},
	{
	"epoch": 0.04252743493249822,
	"grad_norm": 0.7129364609718323,
	"learning_rate": 4.7893850042123e-05,
	"loss": 0.426,
	"step": 404
	},
	{
	"epoch": 0.04263270086054896,
	"grad_norm": 0.5261722207069397,
	"learning_rate": 4.788858466722831e-05,
	"loss": 0.4704,
	"step": 405
	},
	{
	"epoch": 0.0427379667885997,
	"grad_norm": 0.5278510451316833,
	"learning_rate": 4.7883319292333616e-05,
	"loss": 0.43,
	"step": 406
	},
	{
	"epoch": 0.042843232716650435,
	"grad_norm": 0.47645267844200134,
	"learning_rate": 4.7878053917438925e-05,
	"loss": 0.4399,
	"step": 407
	},
	{
	"epoch": 0.042948498644701176,
	"grad_norm": 0.5606099367141724,
	"learning_rate": 4.7872788542544234e-05,
	"loss": 0.5023,
	"step": 408
	},
	{
	"epoch": 0.04305376457275192,
	"grad_norm": 0.5183596611022949,
	"learning_rate": 4.786752316764954e-05,
	"loss": 0.4431,
	"step": 409
	},
	{
	"epoch": 0.04315903050080265,
	"grad_norm": 0.4570636451244354,
	"learning_rate": 4.7862257792754845e-05,
	"loss": 0.4435,
	"step": 410
	},
	{
	"epoch": 0.04326429642885339,
	"grad_norm": 0.5054503679275513,
	"learning_rate": 4.7856992417860154e-05,
	"loss": 0.4884,
	"step": 411
	},
	{
	"epoch": 0.04336956235690413,
	"grad_norm": 0.4896951913833618,
	"learning_rate": 4.7851727042965463e-05,
	"loss": 0.472,
	"step": 412
	},
	{
	"epoch": 0.043474828284954865,
	"grad_norm": 0.6141940951347351,
	"learning_rate": 4.7846461668070766e-05,
	"loss": 0.426,
	"step": 413
	},
	{
	"epoch": 0.043580094213005606,
	"grad_norm": 0.48963436484336853,
	"learning_rate": 4.7841196293176075e-05,
	"loss": 0.4668,
	"step": 414
	},
	{
	"epoch": 0.04368536014105635,
	"grad_norm": 0.5451966524124146,
	"learning_rate": 4.7835930918281384e-05,
	"loss": 0.4728,
	"step": 415
	},
	{
	"epoch": 0.04379062606910708,
	"grad_norm": 0.434573769569397,
	"learning_rate": 4.783066554338669e-05,
	"loss": 0.4055,
	"step": 416
	},
	{
	"epoch": 0.04389589199715782,
	"grad_norm": 0.5499134659767151,
	"learning_rate": 4.7825400168492e-05,
	"loss": 0.3879,
	"step": 417
	},
	{
	"epoch": 0.044001157925208555,
	"grad_norm": 0.5180830955505371,
	"learning_rate": 4.7820134793597304e-05,
	"loss": 0.4445,
	"step": 418
	},
	{
	"epoch": 0.044106423853259295,
	"grad_norm": 0.4541892409324646,
	"learning_rate": 4.781486941870261e-05,
	"loss": 0.4059,
	"step": 419
	},
	{
	"epoch": 0.044211689781310036,
	"grad_norm": 0.3752939999103546,
	"learning_rate": 4.780960404380792e-05,
	"loss": 0.5885,
	"step": 420
	},
	{
	"epoch": 0.04431695570936077,
	"grad_norm": 0.4906155467033386,
	"learning_rate": 4.780433866891323e-05,
	"loss": 0.4839,
	"step": 421
	},
	{
	"epoch": 0.04442222163741151,
	"grad_norm": 0.4721757769584656,
	"learning_rate": 4.779907329401854e-05,
	"loss": 0.4177,
	"step": 422
	},
	{
	"epoch": 0.04452748756546225,
	"grad_norm": 0.42130014300346375,
	"learning_rate": 4.779380791912384e-05,
	"loss": 0.4295,
	"step": 423
	},
	{
	"epoch": 0.044632753493512985,
	"grad_norm": 0.5732069611549377,
	"learning_rate": 4.778854254422915e-05,
	"loss": 0.3721,
	"step": 424
	},
	{
	"epoch": 0.044738019421563725,
	"grad_norm": 0.48826277256011963,
	"learning_rate": 4.778327716933446e-05,
	"loss": 0.4228,
	"step": 425
	},
	{
	"epoch": 0.044843285349614466,
	"grad_norm": 0.5234729051589966,
	"learning_rate": 4.777801179443976e-05,
	"loss": 0.4014,
	"step": 426
	},
	{
	"epoch": 0.0449485512776652,
	"grad_norm": 0.46457454562187195,
	"learning_rate": 4.777274641954507e-05,
	"loss": 0.5259,
	"step": 427
	},
	{
	"epoch": 0.04505381720571594,
	"grad_norm": 0.5036742091178894,
	"learning_rate": 4.776748104465038e-05,
	"loss": 0.4361,
	"step": 428
	},
	{
	"epoch": 0.04515908313376668,
	"grad_norm": 0.5410817265510559,
	"learning_rate": 4.776221566975569e-05,
	"loss": 0.463,
	"step": 429
	},
	{
	"epoch": 0.045264349061817415,
	"grad_norm": 0.4173840284347534,
	"learning_rate": 4.7756950294861e-05,
	"loss": 0.4048,
	"step": 430
	},
	{
	"epoch": 0.045369614989868155,
	"grad_norm": 0.726842999458313,
	"learning_rate": 4.775168491996631e-05,
	"loss": 0.5549,
	"step": 431
	},
	{
	"epoch": 0.045474880917918896,
	"grad_norm": 0.40877723693847656,
	"learning_rate": 4.774641954507162e-05,
	"loss": 0.4433,
	"step": 432
	},
	{
	"epoch": 0.04558014684596963,
	"grad_norm": 0.6194121241569519,
	"learning_rate": 4.774115417017692e-05,
	"loss": 0.4257,
	"step": 433
	},
	{
	"epoch": 0.04568541277402037,
	"grad_norm": 0.5976036787033081,
	"learning_rate": 4.773588879528222e-05,
	"loss": 0.4709,
	"step": 434
	},
	{
	"epoch": 0.045790678702071104,
	"grad_norm": 0.6144199371337891,
	"learning_rate": 4.773062342038753e-05,
	"loss": 0.3868,
	"step": 435
	},
	{
	"epoch": 0.045895944630121845,
	"grad_norm": 0.5125494599342346,
	"learning_rate": 4.772535804549284e-05,
	"loss": 0.4116,
	"step": 436
	},
	{
	"epoch": 0.046001210558172585,
	"grad_norm": 0.5164209604263306,
	"learning_rate": 4.772009267059815e-05,
	"loss": 0.3564,
	"step": 437
	},
	{
	"epoch": 0.04610647648622332,
	"grad_norm": 0.4817107319831848,
	"learning_rate": 4.771482729570346e-05,
	"loss": 0.4801,
	"step": 438
	},
	{
	"epoch": 0.04621174241427406,
	"grad_norm": 0.44076791405677795,
	"learning_rate": 4.7709561920808766e-05,
	"loss": 0.551,
	"step": 439
	},
	{
	"epoch": 0.0463170083423248,
	"grad_norm": 0.634650707244873,
	"learning_rate": 4.7704296545914075e-05,
	"loss": 0.533,
	"step": 440
	},
	{
	"epoch": 0.046422274270375534,
	"grad_norm": 0.4300638437271118,
	"learning_rate": 4.7699031171019384e-05,
	"loss": 0.4219,
	"step": 441
	},
	{
	"epoch": 0.046527540198426275,
	"grad_norm": 0.5052940249443054,
	"learning_rate": 4.7693765796124686e-05,
	"loss": 0.4419,
	"step": 442
	},
	{
	"epoch": 0.046632806126477015,
	"grad_norm": 0.4833763539791107,
	"learning_rate": 4.7688500421229995e-05,
	"loss": 0.4074,
	"step": 443
	},
	{
	"epoch": 0.04673807205452775,
	"grad_norm": 0.4841054677963257,
	"learning_rate": 4.76832350463353e-05,
	"loss": 0.4357,
	"step": 444
	},
	{
	"epoch": 0.04684333798257849,
	"grad_norm": 0.5227946639060974,
	"learning_rate": 4.767796967144061e-05,
	"loss": 0.4471,
	"step": 445
	},
	{
	"epoch": 0.04694860391062923,
	"grad_norm": 0.5761273503303528,
	"learning_rate": 4.7672704296545916e-05,
	"loss": 0.4422,
	"step": 446
	},
	{
	"epoch": 0.047053869838679964,
	"grad_norm": 0.47115081548690796,
	"learning_rate": 4.7667438921651225e-05,
	"loss": 0.4172,
	"step": 447
	},
	{
	"epoch": 0.047159135766730705,
	"grad_norm": 0.5475848913192749,
	"learning_rate": 4.7662173546756534e-05,
	"loss": 0.4435,
	"step": 448
	},
	{
	"epoch": 0.04726440169478144,
	"grad_norm": 0.4437314569950104,
	"learning_rate": 4.765690817186184e-05,
	"loss": 0.389,
	"step": 449
	},
	{
	"epoch": 0.04736966762283218,
	"grad_norm": 0.4307888448238373,
	"learning_rate": 4.7651642796967145e-05,
	"loss": 0.4354,
	"step": 450
	},
	{
	"epoch": 0.04747493355088292,
	"grad_norm": 0.3933163285255432,
	"learning_rate": 4.7646377422072454e-05,
	"loss": 0.561,
	"step": 451
	},
	{
	"epoch": 0.04758019947893365,
	"grad_norm": 0.37329408526420593,
	"learning_rate": 4.764111204717776e-05,
	"loss": 0.4767,
	"step": 452
	},
	{
	"epoch": 0.047685465406984394,
	"grad_norm": 0.554229199886322,
	"learning_rate": 4.763584667228307e-05,
	"loss": 0.3594,
	"step": 453
	},
	{
	"epoch": 0.047790731335035135,
	"grad_norm": 0.4243522882461548,
	"learning_rate": 4.7630581297388374e-05,
	"loss": 0.44,
	"step": 454
	},
	{
	"epoch": 0.04789599726308587,
	"grad_norm": 0.5723696351051331,
	"learning_rate": 4.762531592249368e-05,
	"loss": 0.4377,
	"step": 455
	},
	{
	"epoch": 0.04800126319113661,
	"grad_norm": 0.5366947054862976,
	"learning_rate": 4.762005054759899e-05,
	"loss": 0.4021,
	"step": 456
	},
	{
	"epoch": 0.04810652911918735,
	"grad_norm": 0.5559504628181458,
	"learning_rate": 4.76147851727043e-05,
	"loss": 0.3775,
	"step": 457
	},
	{
	"epoch": 0.04821179504723808,
	"grad_norm": 0.48702389001846313,
	"learning_rate": 4.7609519797809604e-05,
	"loss": 0.4751,
	"step": 458
	},
	{
	"epoch": 0.048317060975288824,
	"grad_norm": 0.36137351393699646,
	"learning_rate": 4.760425442291491e-05,
	"loss": 0.482,
	"step": 459
	},
	{
	"epoch": 0.048422326903339565,
	"grad_norm": 0.4528438150882721,
	"learning_rate": 4.759898904802022e-05,
	"loss": 0.4059,
	"step": 460
	},
	{
	"epoch": 0.0485275928313903,
	"grad_norm": 0.5218043923377991,
	"learning_rate": 4.759372367312553e-05,
	"loss": 0.4095,
	"step": 461
	},
	{
	"epoch": 0.04863285875944104,
	"grad_norm": 0.5252096652984619,
	"learning_rate": 4.758845829823084e-05,
	"loss": 0.4989,
	"step": 462
	},
	{
	"epoch": 0.04873812468749178,
	"grad_norm": 0.3626563549041748,
	"learning_rate": 4.758319292333614e-05,
	"loss": 0.5983,
	"step": 463
	},
	{
	"epoch": 0.04884339061554251,
	"grad_norm": 0.473537415266037,
	"learning_rate": 4.757792754844145e-05,
	"loss": 0.5459,
	"step": 464
	},
	{
	"epoch": 0.048948656543593254,
	"grad_norm": 0.7054407596588135,
	"learning_rate": 4.757266217354676e-05,
	"loss": 0.3718,
	"step": 465
	},
	{
	"epoch": 0.04905392247164399,
	"grad_norm": 0.4829826056957245,
	"learning_rate": 4.756739679865206e-05,
	"loss": 0.4165,
	"step": 466
	},
	{
	"epoch": 0.04915918839969473,
	"grad_norm": 0.5529534816741943,
	"learning_rate": 4.756213142375737e-05,
	"loss": 0.5058,
	"step": 467
	},
	{
	"epoch": 0.04926445432774547,
	"grad_norm": 0.4331270456314087,
	"learning_rate": 4.755686604886268e-05,
	"loss": 0.4267,
	"step": 468
	},
	{
	"epoch": 0.0493697202557962,
	"grad_norm": 0.48735421895980835,
	"learning_rate": 4.755160067396799e-05,
	"loss": 0.443,
	"step": 469
	},
	{
	"epoch": 0.04947498618384694,
	"grad_norm": 0.6138409972190857,
	"learning_rate": 4.75463352990733e-05,
	"loss": 0.4449,
	"step": 470
	},
	{
	"epoch": 0.049580252111897684,
	"grad_norm": 0.4512140154838562,
	"learning_rate": 4.754106992417861e-05,
	"loss": 0.486,
	"step": 471
	},
	{
	"epoch": 0.04968551803994842,
	"grad_norm": 0.5221918225288391,
	"learning_rate": 4.7535804549283916e-05,
	"loss": 0.4122,
	"step": 472
	},
	{
	"epoch": 0.04979078396799916,
	"grad_norm": 0.5450029969215393,
	"learning_rate": 4.753053917438922e-05,
	"loss": 0.3362,
	"step": 473
	},
	{
	"epoch": 0.0498960498960499,
	"grad_norm": 0.5064875483512878,
	"learning_rate": 4.752527379949452e-05,
	"loss": 0.4868,
	"step": 474
	},
	{
	"epoch": 0.05000131582410063,
	"grad_norm": 0.5182908177375793,
	"learning_rate": 4.752000842459983e-05,
	"loss": 0.4034,
	"step": 475
	},
	{
	"epoch": 0.05010658175215137,
	"grad_norm": 0.5384114384651184,
	"learning_rate": 4.751474304970514e-05,
	"loss": 0.5353,
	"step": 476
	},
	{
	"epoch": 0.050211847680202114,
	"grad_norm": 0.5357162952423096,
	"learning_rate": 4.750947767481045e-05,
	"loss": 0.3976,
	"step": 477
	},
	{
	"epoch": 0.05031711360825285,
	"grad_norm": 0.45556405186653137,
	"learning_rate": 4.750421229991576e-05,
	"loss": 0.403,
	"step": 478
	},
	{
	"epoch": 0.05042237953630359,
	"grad_norm": 0.5855860710144043,
	"learning_rate": 4.7498946925021066e-05,
	"loss": 0.3754,
	"step": 479
	},
	{
	"epoch": 0.05052764546435432,
	"grad_norm": 0.5920200943946838,
	"learning_rate": 4.7493681550126375e-05,
	"loss": 0.3944,
	"step": 480
	},
	{
	"epoch": 0.05063291139240506,
	"grad_norm": 0.5460993051528931,
	"learning_rate": 4.7488416175231684e-05,
	"loss": 0.5356,
	"step": 481
	},
	{
	"epoch": 0.0507381773204558,
	"grad_norm": 0.5433392524719238,
	"learning_rate": 4.7483150800336986e-05,
	"loss": 0.4043,
	"step": 482
	},
	{
	"epoch": 0.05084344324850654,
	"grad_norm": 0.6986379027366638,
	"learning_rate": 4.7477885425442295e-05,
	"loss": 0.4374,
	"step": 483
	},
	{
	"epoch": 0.05094870917655728,
	"grad_norm": 0.6336686611175537,
	"learning_rate": 4.74726200505476e-05,
	"loss": 0.4308,
	"step": 484
	},
	{
	"epoch": 0.05105397510460802,
	"grad_norm": 0.5509925484657288,
	"learning_rate": 4.7467354675652906e-05,
	"loss": 0.4101,
	"step": 485
	},
	{
	"epoch": 0.05115924103265875,
	"grad_norm": 0.5978362560272217,
	"learning_rate": 4.7462089300758215e-05,
	"loss": 0.379,
	"step": 486
	},
	{
	"epoch": 0.05126450696070949,
	"grad_norm": 0.5480085015296936,
	"learning_rate": 4.7456823925863524e-05,
	"loss": 0.3327,
	"step": 487
	},
	{
	"epoch": 0.05136977288876023,
	"grad_norm": 0.5396241545677185,
	"learning_rate": 4.745155855096883e-05,
	"loss": 0.4283,
	"step": 488
	},
	{
	"epoch": 0.05147503881681097,
	"grad_norm": 0.43143001198768616,
	"learning_rate": 4.744629317607414e-05,
	"loss": 0.584,
	"step": 489
	},
	{
	"epoch": 0.05158030474486171,
	"grad_norm": 0.4590414762496948,
	"learning_rate": 4.7441027801179445e-05,
	"loss": 0.3794,
	"step": 490
	},
	{
	"epoch": 0.05168557067291245,
	"grad_norm": 0.4620942175388336,
	"learning_rate": 4.7435762426284754e-05,
	"loss": 0.4421,
	"step": 491
	},
	{
	"epoch": 0.05179083660096318,
	"grad_norm": 0.5003826022148132,
	"learning_rate": 4.743049705139006e-05,
	"loss": 0.4408,
	"step": 492
	},
	{
	"epoch": 0.05189610252901392,
	"grad_norm": 0.5184903740882874,
	"learning_rate": 4.742523167649537e-05,
	"loss": 0.4523,
	"step": 493
	},
	{
	"epoch": 0.052001368457064656,
	"grad_norm": 0.5750355124473572,
	"learning_rate": 4.7419966301600674e-05,
	"loss": 0.3512,
	"step": 494
	},
	{
	"epoch": 0.0521066343851154,
	"grad_norm": 0.516768217086792,
	"learning_rate": 4.741470092670598e-05,
	"loss": 0.3583,
	"step": 495
	},
	{
	"epoch": 0.05221190031316614,
	"grad_norm": 0.5511295199394226,
	"learning_rate": 4.740943555181129e-05,
	"loss": 0.4536,
	"step": 496
	},
	{
	"epoch": 0.05231716624121687,
	"grad_norm": 0.4026057720184326,
	"learning_rate": 4.74041701769166e-05,
	"loss": 0.4834,
	"step": 497
	},
	{
	"epoch": 0.05242243216926761,
	"grad_norm": 0.6032986044883728,
	"learning_rate": 4.73989048020219e-05,
	"loss": 0.3901,
	"step": 498
	},
	{
	"epoch": 0.05252769809731835,
	"grad_norm": 0.45538461208343506,
	"learning_rate": 4.739363942712721e-05,
	"loss": 0.4174,
	"step": 499
	},
	{
	"epoch": 0.052632964025369086,
	"grad_norm": 0.564687967300415,
	"learning_rate": 4.738837405223252e-05,
	"loss": 0.4543,
	"step": 500
	},
	{
	"epoch": 0.05273822995341983,
	"grad_norm": 0.5365861058235168,
	"learning_rate": 4.738310867733783e-05,
	"loss": 0.3998,
	"step": 501
	},
	{
	"epoch": 0.05284349588147057,
	"grad_norm": 0.5887376666069031,
	"learning_rate": 4.737784330244314e-05,
	"loss": 0.4881,
	"step": 502
	},
	{
	"epoch": 0.0529487618095213,
	"grad_norm": 0.5137104392051697,
	"learning_rate": 4.737257792754845e-05,
	"loss": 0.4158,
	"step": 503
	},
	{
	"epoch": 0.05305402773757204,
	"grad_norm": 0.7075323462486267,
	"learning_rate": 4.736731255265375e-05,
	"loss": 0.4249,
	"step": 504
	},
	{
	"epoch": 0.05315929366562278,
	"grad_norm": 0.5085923075675964,
	"learning_rate": 4.736204717775906e-05,
	"loss": 0.3974,
	"step": 505
	},
	{
	"epoch": 0.053264559593673516,
	"grad_norm": 0.4885638654232025,
	"learning_rate": 4.735678180286436e-05,
	"loss": 0.3569,
	"step": 506
	},
	{
	"epoch": 0.05336982552172426,
	"grad_norm": 0.5807955265045166,
	"learning_rate": 4.735151642796967e-05,
	"loss": 0.3868,
	"step": 507
	},
	{
	"epoch": 0.053475091449775,
	"grad_norm": 0.4715438485145569,
	"learning_rate": 4.734625105307498e-05,
	"loss": 0.4592,
	"step": 508
	},
	{
	"epoch": 0.05358035737782573,
	"grad_norm": 0.4971379041671753,
	"learning_rate": 4.734098567818029e-05,
	"loss": 0.4449,
	"step": 509
	},
	{
	"epoch": 0.05368562330587647,
	"grad_norm": 0.5600916743278503,
	"learning_rate": 4.73357203032856e-05,
	"loss": 0.3905,
	"step": 510
	},
	{
	"epoch": 0.053790889233927205,
	"grad_norm": 0.5462086200714111,
	"learning_rate": 4.733045492839091e-05,
	"loss": 0.3757,
	"step": 511
	},
	{
	"epoch": 0.053896155161977946,
	"grad_norm": 0.4880779981613159,
	"learning_rate": 4.7325189553496216e-05,
	"loss": 0.4084,
	"step": 512
	},
	{
	"epoch": 0.05400142109002869,
	"grad_norm": 0.5553451180458069,
	"learning_rate": 4.731992417860152e-05,
	"loss": 0.4088,
	"step": 513
	},
	{
	"epoch": 0.05410668701807942,
	"grad_norm": 0.4913026690483093,
	"learning_rate": 4.731465880370683e-05,
	"loss": 0.4286,
	"step": 514
	},
	{
	"epoch": 0.05421195294613016,
	"grad_norm": 0.43161246180534363,
	"learning_rate": 4.730939342881213e-05,
	"loss": 0.413,
	"step": 515
	},
	{
	"epoch": 0.0543172188741809,
	"grad_norm": 0.5062459707260132,
	"learning_rate": 4.730412805391744e-05,
	"loss": 0.4713,
	"step": 516
	},
	{
	"epoch": 0.054422484802231635,
	"grad_norm": 0.4592074751853943,
	"learning_rate": 4.729886267902275e-05,
	"loss": 0.4902,
	"step": 517
	},
	{
	"epoch": 0.054527750730282376,
	"grad_norm": 0.49476075172424316,
	"learning_rate": 4.7293597304128056e-05,
	"loss": 0.4016,
	"step": 518
	},
	{
	"epoch": 0.05463301665833312,
	"grad_norm": 0.4191977381706238,
	"learning_rate": 4.7288331929233365e-05,
	"loss": 0.4672,
	"step": 519
	},
	{
	"epoch": 0.05473828258638385,
	"grad_norm": 0.5030830502510071,
	"learning_rate": 4.7283066554338674e-05,
	"loss": 0.4905,
	"step": 520
	},
	{
	"epoch": 0.05484354851443459,
	"grad_norm": 0.4686654210090637,
	"learning_rate": 4.727780117944398e-05,
	"loss": 0.4441,
	"step": 521
	},
	{
	"epoch": 0.05494881444248533,
	"grad_norm": 0.46608471870422363,
	"learning_rate": 4.7272535804549286e-05,
	"loss": 0.3742,
	"step": 522
	},
	{
	"epoch": 0.055054080370536065,
	"grad_norm": 0.5822672247886658,
	"learning_rate": 4.7267270429654595e-05,
	"loss": 0.4266,
	"step": 523
	},
	{
	"epoch": 0.055159346298586806,
	"grad_norm": 0.4522544741630554,
	"learning_rate": 4.7262005054759904e-05,
	"loss": 0.4532,
	"step": 524
	},
	{
	"epoch": 0.05526461222663754,
	"grad_norm": 0.47990643978118896,
	"learning_rate": 4.7256739679865206e-05,
	"loss": 0.3853,
	"step": 525
	},
	{
	"epoch": 0.05536987815468828,
	"grad_norm": 0.5252960920333862,
	"learning_rate": 4.7251474304970515e-05,
	"loss": 0.4716,
	"step": 526
	},
	{
	"epoch": 0.05547514408273902,
	"grad_norm": 0.45028603076934814,
	"learning_rate": 4.7246208930075824e-05,
	"loss": 0.4579,
	"step": 527
	},
	{
	"epoch": 0.055580410010789755,
	"grad_norm": 0.5253304243087769,
	"learning_rate": 4.724094355518113e-05,
	"loss": 0.4433,
	"step": 528
	},
	{
	"epoch": 0.055685675938840495,
	"grad_norm": 0.48800671100616455,
	"learning_rate": 4.723567818028644e-05,
	"loss": 0.4228,
	"step": 529
	},
	{
	"epoch": 0.055790941866891236,
	"grad_norm": 0.5435435771942139,
	"learning_rate": 4.7230412805391744e-05,
	"loss": 0.4181,
	"step": 530
	},
	{
	"epoch": 0.05589620779494197,
	"grad_norm": 0.5906736254692078,
	"learning_rate": 4.722514743049705e-05,
	"loss": 0.4003,
	"step": 531
	},
	{
	"epoch": 0.05600147372299271,
	"grad_norm": 0.49869149923324585,
	"learning_rate": 4.721988205560236e-05,
	"loss": 0.4781,
	"step": 532
	},
	{
	"epoch": 0.05610673965104345,
	"grad_norm": 0.4748145341873169,
	"learning_rate": 4.721461668070767e-05,
	"loss": 0.4291,
	"step": 533
	},
	{
	"epoch": 0.056212005579094185,
	"grad_norm": 0.471021831035614,
	"learning_rate": 4.7209351305812973e-05,
	"loss": 0.4683,
	"step": 534
	},
	{
	"epoch": 0.056317271507144925,
	"grad_norm": 0.6247691512107849,
	"learning_rate": 4.720408593091828e-05,
	"loss": 0.3932,
	"step": 535
	},
	{
	"epoch": 0.056422537435195666,
	"grad_norm": 0.6917199492454529,
	"learning_rate": 4.719882055602359e-05,
	"loss": 0.597,
	"step": 536
	},
	{
	"epoch": 0.0565278033632464,
	"grad_norm": 0.607105553150177,
	"learning_rate": 4.71935551811289e-05,
	"loss": 0.5024,
	"step": 537
	},
	{
	"epoch": 0.05663306929129714,
	"grad_norm": 0.6015260815620422,
	"learning_rate": 4.71882898062342e-05,
	"loss": 0.4569,
	"step": 538
	},
	{
	"epoch": 0.05673833521934788,
	"grad_norm": 0.6226845979690552,
	"learning_rate": 4.718302443133951e-05,
	"loss": 0.4134,
	"step": 539
	},
	{
	"epoch": 0.056843601147398615,
	"grad_norm": 0.46711722016334534,
	"learning_rate": 4.717775905644482e-05,
	"loss": 0.4957,
	"step": 540
	},
	{
	"epoch": 0.056948867075449355,
	"grad_norm": 0.4069374203681946,
	"learning_rate": 4.717249368155013e-05,
	"loss": 0.4173,
	"step": 541
	},
	{
	"epoch": 0.05705413300350009,
	"grad_norm": 0.47599026560783386,
	"learning_rate": 4.716722830665544e-05,
	"loss": 0.4865,
	"step": 542
	},
	{
	"epoch": 0.05715939893155083,
	"grad_norm": 0.46828117966651917,
	"learning_rate": 4.716196293176075e-05,
	"loss": 0.4763,
	"step": 543
	},
	{
	"epoch": 0.05726466485960157,
	"grad_norm": 0.3772525191307068,
	"learning_rate": 4.715669755686605e-05,
	"loss": 0.4225,
	"step": 544
	},
	{
	"epoch": 0.057369930787652304,
	"grad_norm": 0.44674021005630493,
	"learning_rate": 4.715143218197136e-05,
	"loss": 0.5063,
	"step": 545
	},
	{
	"epoch": 0.057475196715703045,
	"grad_norm": 0.5613642334938049,
	"learning_rate": 4.714616680707666e-05,
	"loss": 0.5388,
	"step": 546
	},
	{
	"epoch": 0.057580462643753785,
	"grad_norm": 0.5140121579170227,
	"learning_rate": 4.714090143218197e-05,
	"loss": 0.4481,
	"step": 547
	},
	{
	"epoch": 0.05768572857180452,
	"grad_norm": 0.4728577435016632,
	"learning_rate": 4.713563605728728e-05,
	"loss": 0.3896,
	"step": 548
	},
	{
	"epoch": 0.05779099449985526,
	"grad_norm": 0.4167439639568329,
	"learning_rate": 4.713037068239259e-05,
	"loss": 0.3863,
	"step": 549
	},
	{
	"epoch": 0.057896260427906,
	"grad_norm": 0.5620428919792175,
	"learning_rate": 4.71251053074979e-05,
	"loss": 0.4342,
	"step": 550
	},
	{
	"epoch": 0.058001526355956734,
	"grad_norm": 0.424396812915802,
	"learning_rate": 4.7119839932603206e-05,
	"loss": 0.5043,
	"step": 551
	},
	{
	"epoch": 0.058106792284007475,
	"grad_norm": 0.4943045675754547,
	"learning_rate": 4.7114574557708515e-05,
	"loss": 0.3649,
	"step": 552
	},
	{
	"epoch": 0.058212058212058215,
	"grad_norm": 0.5179657340049744,
	"learning_rate": 4.7109309182813824e-05,
	"loss": 0.3986,
	"step": 553
	},
	{
	"epoch": 0.05831732414010895,
	"grad_norm": 0.46122902631759644,
	"learning_rate": 4.710404380791913e-05,
	"loss": 0.4501,
	"step": 554
	},
	{
	"epoch": 0.05842259006815969,
	"grad_norm": 0.5129498243331909,
	"learning_rate": 4.709877843302443e-05,
	"loss": 0.4105,
	"step": 555
	},
	{
	"epoch": 0.05852785599621042,
	"grad_norm": 0.5061764121055603,
	"learning_rate": 4.709351305812974e-05,
	"loss": 0.3993,
	"step": 556
	},
	{
	"epoch": 0.058633121924261164,
	"grad_norm": 0.5676811933517456,
	"learning_rate": 4.708824768323505e-05,
	"loss": 0.3786,
	"step": 557
	},
	{
	"epoch": 0.058738387852311905,
	"grad_norm": 0.5383573174476624,
	"learning_rate": 4.7082982308340356e-05,
	"loss": 0.4541,
	"step": 558
	},
	{
	"epoch": 0.05884365378036264,
	"grad_norm": 0.6130087375640869,
	"learning_rate": 4.7077716933445665e-05,
	"loss": 0.4215,
	"step": 559
	},
	{
	"epoch": 0.05894891970841338,
	"grad_norm": 0.6504372954368591,
	"learning_rate": 4.7072451558550974e-05,
	"loss": 0.3891,
	"step": 560
	},
	{
	"epoch": 0.05905418563646412,
	"grad_norm": 0.5079691410064697,
	"learning_rate": 4.706718618365628e-05,
	"loss": 0.4668,
	"step": 561
	},
	{
	"epoch": 0.05915945156451485,
	"grad_norm": 0.528856635093689,
	"learning_rate": 4.7061920808761585e-05,
	"loss": 0.3965,
	"step": 562
	},
	{
	"epoch": 0.059264717492565594,
	"grad_norm": 0.44504040479660034,
	"learning_rate": 4.7056655433866894e-05,
	"loss": 0.5032,
	"step": 563
	},
	{
	"epoch": 0.059369983420616335,
	"grad_norm": 0.5209716558456421,
	"learning_rate": 4.70513900589722e-05,
	"loss": 0.4837,
	"step": 564
	},
	{
	"epoch": 0.05947524934866707,
	"grad_norm": 0.48046526312828064,
	"learning_rate": 4.7046124684077505e-05,
	"loss": 0.3989,
	"step": 565
	},
	{
	"epoch": 0.05958051527671781,
	"grad_norm": 0.5712192058563232,
	"learning_rate": 4.7040859309182814e-05,
	"loss": 0.4788,
	"step": 566
	},
	{
	"epoch": 0.05968578120476855,
	"grad_norm": 0.6029406785964966,
	"learning_rate": 4.7035593934288123e-05,
	"loss": 0.3974,
	"step": 567
	},
	{
	"epoch": 0.05979104713281928,
	"grad_norm": 0.5272865295410156,
	"learning_rate": 4.703032855939343e-05,
	"loss": 0.4562,
	"step": 568
	},
	{
	"epoch": 0.059896313060870024,
	"grad_norm": 0.5821331143379211,
	"learning_rate": 4.702506318449874e-05,
	"loss": 0.3848,
	"step": 569
	},
	{
	"epoch": 0.06000157898892076,
	"grad_norm": 0.45264291763305664,
	"learning_rate": 4.7019797809604044e-05,
	"loss": 0.491,
	"step": 570
	},
	{
	"epoch": 0.0601068449169715,
	"grad_norm": 0.5712417364120483,
	"learning_rate": 4.701453243470935e-05,
	"loss": 0.4128,
	"step": 571
	},
	{
	"epoch": 0.06021211084502224,
	"grad_norm": 0.5191047787666321,
	"learning_rate": 4.700926705981466e-05,
	"loss": 0.4552,
	"step": 572
	},
	{
	"epoch": 0.06031737677307297,
	"grad_norm": 0.4191204607486725,
	"learning_rate": 4.700400168491997e-05,
	"loss": 0.4669,
	"step": 573
	},
	{
	"epoch": 0.06042264270112371,
	"grad_norm": 0.508425235748291,
	"learning_rate": 4.699873631002528e-05,
	"loss": 0.4031,
	"step": 574
	},
	{
	"epoch": 0.060527908629174454,
	"grad_norm": 0.47075721621513367,
	"learning_rate": 4.699347093513058e-05,
	"loss": 0.4773,
	"step": 575
	},
	{
	"epoch": 0.06063317455722519,
	"grad_norm": 0.5133448839187622,
	"learning_rate": 4.698820556023589e-05,
	"loss": 0.3865,
	"step": 576
	},
	{
	"epoch": 0.06073844048527593,
	"grad_norm": 0.5425415635108948,
	"learning_rate": 4.69829401853412e-05,
	"loss": 0.4117,
	"step": 577
	},
	{
	"epoch": 0.06084370641332667,
	"grad_norm": 0.61476731300354,
	"learning_rate": 4.69776748104465e-05,
	"loss": 0.4307,
	"step": 578
	},
	{
	"epoch": 0.0609489723413774,
	"grad_norm": 0.553023099899292,
	"learning_rate": 4.697240943555181e-05,
	"loss": 0.3579,
	"step": 579
	},
	{
	"epoch": 0.06105423826942814,
	"grad_norm": 0.4436430037021637,
	"learning_rate": 4.696714406065712e-05,
	"loss": 0.4099,
	"step": 580
	},
	{
	"epoch": 0.061159504197478884,
	"grad_norm": 0.5598846673965454,
	"learning_rate": 4.696187868576243e-05,
	"loss": 0.3615,
	"step": 581
	},
	{
	"epoch": 0.06126477012552962,
	"grad_norm": 0.6036468744277954,
	"learning_rate": 4.695661331086774e-05,
	"loss": 0.4438,
	"step": 582
	},
	{
	"epoch": 0.06137003605358036,
	"grad_norm": 0.6011479496955872,
	"learning_rate": 4.695134793597305e-05,
	"loss": 0.4288,
	"step": 583
	},
	{
	"epoch": 0.0614753019816311,
	"grad_norm": 0.5292397141456604,
	"learning_rate": 4.694608256107835e-05,
	"loss": 0.4086,
	"step": 584
	},
	{
	"epoch": 0.06158056790968183,
	"grad_norm": 0.5526982545852661,
	"learning_rate": 4.694081718618366e-05,
	"loss": 0.3941,
	"step": 585
	},
	{
	"epoch": 0.06168583383773257,
	"grad_norm": 0.5088376402854919,
	"learning_rate": 4.693555181128896e-05,
	"loss": 0.4356,
	"step": 586
	},
	{
	"epoch": 0.06179109976578331,
	"grad_norm": 0.5751054286956787,
	"learning_rate": 4.693028643639427e-05,
	"loss": 0.4629,
	"step": 587
	},
	{
	"epoch": 0.06189636569383405,
	"grad_norm": 0.47562679648399353,
	"learning_rate": 4.692502106149958e-05,
	"loss": 0.4875,
	"step": 588
	},
	{
	"epoch": 0.06200163162188479,
	"grad_norm": 0.406876802444458,
	"learning_rate": 4.691975568660489e-05,
	"loss": 0.5099,
	"step": 589
	},
	{
	"epoch": 0.06210689754993552,
	"grad_norm": 0.43212106823921204,
	"learning_rate": 4.69144903117102e-05,
	"loss": 0.5271,
	"step": 590
	},
	{
	"epoch": 0.06221216347798626,
	"grad_norm": 0.5265733003616333,
	"learning_rate": 4.6909224936815506e-05,
	"loss": 0.4456,
	"step": 591
	},
	{
	"epoch": 0.062317429406037,
	"grad_norm": 0.37871816754341125,
	"learning_rate": 4.6903959561920815e-05,
	"loss": 0.3964,
	"step": 592
	},
	{
	"epoch": 0.06242269533408774,
	"grad_norm": 0.443781316280365,
	"learning_rate": 4.6898694187026124e-05,
	"loss": 0.4575,
	"step": 593
	},
	{
	"epoch": 0.06252796126213847,
	"grad_norm": 0.5184212923049927,
	"learning_rate": 4.6893428812131426e-05,
	"loss": 0.4791,
	"step": 594
	},
	{
	"epoch": 0.06263322719018921,
	"grad_norm": 0.4982917308807373,
	"learning_rate": 4.688816343723673e-05,
	"loss": 0.4104,
	"step": 595
	},
	{
	"epoch": 0.06273849311823995,
	"grad_norm": 0.43113309144973755,
	"learning_rate": 4.688289806234204e-05,
	"loss": 0.4384,
	"step": 596
	},
	{
	"epoch": 0.06284375904629069,
	"grad_norm": 0.5594951510429382,
	"learning_rate": 4.6877632687447346e-05,
	"loss": 0.4428,
	"step": 597
	},
	{
	"epoch": 0.06294902497434143,
	"grad_norm": 0.408655047416687,
	"learning_rate": 4.6872367312552655e-05,
	"loss": 0.4328,
	"step": 598
	},
	{
	"epoch": 0.06305429090239217,
	"grad_norm": 0.41858869791030884,
	"learning_rate": 4.6867101937657964e-05,
	"loss": 0.4822,
	"step": 599
	},
	{
	"epoch": 0.0631595568304429,
	"grad_norm": 0.5304632186889648,
	"learning_rate": 4.6861836562763274e-05,
	"loss": 0.4376,
	"step": 600
	},
	{
	"epoch": 0.06326482275849364,
	"grad_norm": 0.4693495035171509,
	"learning_rate": 4.685657118786858e-05,
	"loss": 0.3905,
	"step": 601
	},
	{
	"epoch": 0.06337008868654438,
	"grad_norm": 0.5536295771598816,
	"learning_rate": 4.6851305812973885e-05,
	"loss": 0.4378,
	"step": 602
	},
	{
	"epoch": 0.06347535461459512,
	"grad_norm": 0.4618769884109497,
	"learning_rate": 4.6846040438079194e-05,
	"loss": 0.4642,
	"step": 603
	},
	{
	"epoch": 0.06358062054264586,
	"grad_norm": 0.463776171207428,
	"learning_rate": 4.68407750631845e-05,
	"loss": 0.4518,
	"step": 604
	},
	{
	"epoch": 0.0636858864706966,
	"grad_norm": 0.5297257900238037,
	"learning_rate": 4.6835509688289805e-05,
	"loss": 0.3222,
	"step": 605
	},
	{
	"epoch": 0.06379115239874733,
	"grad_norm": 0.47493240237236023,
	"learning_rate": 4.6830244313395114e-05,
	"loss": 0.4,
	"step": 606
	},
	{
	"epoch": 0.06389641832679807,
	"grad_norm": 0.6347471475601196,
	"learning_rate": 4.682497893850042e-05,
	"loss": 0.4315,
	"step": 607
	},
	{
	"epoch": 0.06400168425484881,
	"grad_norm": 0.5118055939674377,
	"learning_rate": 4.681971356360573e-05,
	"loss": 0.4136,
	"step": 608
	},
	{
	"epoch": 0.06410695018289955,
	"grad_norm": 0.5062241554260254,
	"learning_rate": 4.681444818871104e-05,
	"loss": 0.51,
	"step": 609
	},
	{
	"epoch": 0.0642122161109503,
	"grad_norm": 0.45359355211257935,
	"learning_rate": 4.680918281381634e-05,
	"loss": 0.3897,
	"step": 610
	},
	{
	"epoch": 0.06431748203900102,
	"grad_norm": 0.4978649914264679,
	"learning_rate": 4.680391743892165e-05,
	"loss": 0.4234,
	"step": 611
	},
	{
	"epoch": 0.06442274796705176,
	"grad_norm": 0.5025052428245544,
	"learning_rate": 4.679865206402696e-05,
	"loss": 0.4344,
	"step": 612
	},
	{
	"epoch": 0.0645280138951025,
	"grad_norm": 0.4677049517631531,
	"learning_rate": 4.679338668913227e-05,
	"loss": 0.3997,
	"step": 613
	},
	{
	"epoch": 0.06463327982315324,
	"grad_norm": 0.38490286469459534,
	"learning_rate": 4.678812131423758e-05,
	"loss": 0.4778,
	"step": 614
	},
	{
	"epoch": 0.06473854575120398,
	"grad_norm": 0.4486238956451416,
	"learning_rate": 4.678285593934288e-05,
	"loss": 0.4002,
	"step": 615
	},
	{
	"epoch": 0.06484381167925472,
	"grad_norm": 0.48641228675842285,
	"learning_rate": 4.677759056444819e-05,
	"loss": 0.4302,
	"step": 616
	},
	{
	"epoch": 0.06494907760730545,
	"grad_norm": 0.5490376353263855,
	"learning_rate": 4.67723251895535e-05,
	"loss": 0.4203,
	"step": 617
	},
	{
	"epoch": 0.06505434353535619,
	"grad_norm": 0.4899100363254547,
	"learning_rate": 4.67670598146588e-05,
	"loss": 0.399,
	"step": 618
	},
	{
	"epoch": 0.06515960946340693,
	"grad_norm": 0.7570556998252869,
	"learning_rate": 4.676179443976411e-05,
	"loss": 0.4409,
	"step": 619
	},
	{
	"epoch": 0.06526487539145767,
	"grad_norm": 0.5624217391014099,
	"learning_rate": 4.675652906486942e-05,
	"loss": 0.3867,
	"step": 620
	},
	{
	"epoch": 0.06537014131950841,
	"grad_norm": 0.47434237599372864,
	"learning_rate": 4.675126368997473e-05,
	"loss": 0.3962,
	"step": 621
	},
	{
	"epoch": 0.06547540724755915,
	"grad_norm": 0.5388314723968506,
	"learning_rate": 4.674599831508004e-05,
	"loss": 0.3872,
	"step": 622
	},
	{
	"epoch": 0.06558067317560988,
	"grad_norm": 0.49027901887893677,
	"learning_rate": 4.674073294018535e-05,
	"loss": 0.4786,
	"step": 623
	},
	{
	"epoch": 0.06568593910366062,
	"grad_norm": 0.4333001673221588,
	"learning_rate": 4.6735467565290656e-05,
	"loss": 0.4245,
	"step": 624
	},
	{
	"epoch": 0.06579120503171136,
	"grad_norm": 0.4188300669193268,
	"learning_rate": 4.673020219039596e-05,
	"loss": 0.4713,
	"step": 625
	},
	{
	"epoch": 0.0658964709597621,
	"grad_norm": 0.48492878675460815,
	"learning_rate": 4.672493681550126e-05,
	"loss": 0.4896,
	"step": 626
	},
	{
	"epoch": 0.06600173688781284,
	"grad_norm": 0.5120576024055481,
	"learning_rate": 4.671967144060657e-05,
	"loss": 0.4209,
	"step": 627
	},
	{
	"epoch": 0.06610700281586357,
	"grad_norm": 0.5438317060470581,
	"learning_rate": 4.671440606571188e-05,
	"loss": 0.4494,
	"step": 628
	},
	{
	"epoch": 0.06621226874391431,
	"grad_norm": 0.5266952514648438,
	"learning_rate": 4.670914069081719e-05,
	"loss": 0.5609,
	"step": 629
	},
	{
	"epoch": 0.06631753467196505,
	"grad_norm": 0.6691259741783142,
	"learning_rate": 4.6703875315922496e-05,
	"loss": 0.405,
	"step": 630
	},
	{
	"epoch": 0.06642280060001579,
	"grad_norm": 0.6721771955490112,
	"learning_rate": 4.6698609941027806e-05,
	"loss": 0.537,
	"step": 631
	},
	{
	"epoch": 0.06652806652806653,
	"grad_norm": 0.6021822690963745,
	"learning_rate": 4.6693344566133115e-05,
	"loss": 0.4862,
	"step": 632
	},
	{
	"epoch": 0.06663333245611727,
	"grad_norm": 0.42799803614616394,
	"learning_rate": 4.6688079191238424e-05,
	"loss": 0.4316,
	"step": 633
	},
	{
	"epoch": 0.066738598384168,
	"grad_norm": 0.3875657320022583,
	"learning_rate": 4.6682813816343726e-05,
	"loss": 0.4557,
	"step": 634
	},
	{
	"epoch": 0.06684386431221874,
	"grad_norm": 0.4300662577152252,
	"learning_rate": 4.6677548441449035e-05,
	"loss": 0.5253,
	"step": 635
	},
	{
	"epoch": 0.06694913024026948,
	"grad_norm": 0.4926076829433441,
	"learning_rate": 4.667228306655434e-05,
	"loss": 0.5151,
	"step": 636
	},
	{
	"epoch": 0.06705439616832022,
	"grad_norm": 0.457466185092926,
	"learning_rate": 4.6667017691659646e-05,
	"loss": 0.4296,
	"step": 637
	},
	{
	"epoch": 0.06715966209637096,
	"grad_norm": 0.5367447137832642,
	"learning_rate": 4.6661752316764955e-05,
	"loss": 0.43,
	"step": 638
	},
	{
	"epoch": 0.06726492802442169,
	"grad_norm": 0.5215645432472229,
	"learning_rate": 4.6656486941870264e-05,
	"loss": 0.4355,
	"step": 639
	},
	{
	"epoch": 0.06737019395247243,
	"grad_norm": 0.5821287035942078,
	"learning_rate": 4.665122156697557e-05,
	"loss": 0.3576,
	"step": 640
	},
	{
	"epoch": 0.06747545988052317,
	"grad_norm": 0.5504344701766968,
	"learning_rate": 4.664595619208088e-05,
	"loss": 0.4843,
	"step": 641
	},
	{
	"epoch": 0.06758072580857391,
	"grad_norm": 0.4482622742652893,
	"learning_rate": 4.6640690817186184e-05,
	"loss": 0.4474,
	"step": 642
	},
	{
	"epoch": 0.06768599173662465,
	"grad_norm": 0.5162287950515747,
	"learning_rate": 4.663542544229149e-05,
	"loss": 0.5323,
	"step": 643
	},
	{
	"epoch": 0.06779125766467539,
	"grad_norm": 0.5771566033363342,
	"learning_rate": 4.66301600673968e-05,
	"loss": 0.3508,
	"step": 644
	},
	{
	"epoch": 0.06789652359272612,
	"grad_norm": 0.473014235496521,
	"learning_rate": 4.6624894692502105e-05,
	"loss": 0.3959,
	"step": 645
	},
	{
	"epoch": 0.06800178952077686,
	"grad_norm": 0.4953562915325165,
	"learning_rate": 4.6619629317607414e-05,
	"loss": 0.4301,
	"step": 646
	},
	{
	"epoch": 0.0681070554488276,
	"grad_norm": 0.519964337348938,
	"learning_rate": 4.661436394271272e-05,
	"loss": 0.4395,
	"step": 647
	},
	{
	"epoch": 0.06821232137687834,
	"grad_norm": 0.5988878607749939,
	"learning_rate": 4.660909856781803e-05,
	"loss": 0.4151,
	"step": 648
	},
	{
	"epoch": 0.06831758730492908,
	"grad_norm": 0.5311563014984131,
	"learning_rate": 4.660383319292334e-05,
	"loss": 0.431,
	"step": 649
	},
	{
	"epoch": 0.06842285323297982,
	"grad_norm": 0.48196783661842346,
	"learning_rate": 4.659856781802864e-05,
	"loss": 0.4645,
	"step": 650
	}
	],
	"logging_steps": 1,
	"max_steps": 9499,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 4.570341741428736e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}