f1_avg_domain / trainer_state.json

End of training

4eb9384 verified 11 months ago

109 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 4.992511233150275,
	"eval_steps": 500,
	"global_step": 625,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00798801797304044,
	"grad_norm": 5.8922959558083035,
	"learning_rate": 1.26984126984127e-06,
	"loss": 0.9284,
	"step": 1
	},
	{
	"epoch": 0.01597603594608088,
	"grad_norm": 5.937587864934546,
	"learning_rate": 2.53968253968254e-06,
	"loss": 0.9318,
	"step": 2
	},
	{
	"epoch": 0.023964053919121316,
	"grad_norm": 5.861772382161128,
	"learning_rate": 3.80952380952381e-06,
	"loss": 0.9331,
	"step": 3
	},
	{
	"epoch": 0.03195207189216176,
	"grad_norm": 5.239005126601421,
	"learning_rate": 5.07936507936508e-06,
	"loss": 0.9119,
	"step": 4
	},
	{
	"epoch": 0.0399400898652022,
	"grad_norm": 3.629499849213271,
	"learning_rate": 6.349206349206349e-06,
	"loss": 0.8754,
	"step": 5
	},
	{
	"epoch": 0.04792810783824263,
	"grad_norm": 2.106015204146543,
	"learning_rate": 7.61904761904762e-06,
	"loss": 0.836,
	"step": 6
	},
	{
	"epoch": 0.05591612581128307,
	"grad_norm": 4.356383106407689,
	"learning_rate": 8.888888888888888e-06,
	"loss": 0.8711,
	"step": 7
	},
	{
	"epoch": 0.06390414378432352,
	"grad_norm": 4.748038669119492,
	"learning_rate": 1.015873015873016e-05,
	"loss": 0.8657,
	"step": 8
	},
	{
	"epoch": 0.07189216175736396,
	"grad_norm": 4.437164847463165,
	"learning_rate": 1.1428571428571429e-05,
	"loss": 0.8249,
	"step": 9
	},
	{
	"epoch": 0.0798801797304044,
	"grad_norm": 4.231505558889787,
	"learning_rate": 1.2698412698412699e-05,
	"loss": 0.8205,
	"step": 10
	},
	{
	"epoch": 0.08786819770344484,
	"grad_norm": 2.771780905554085,
	"learning_rate": 1.3968253968253968e-05,
	"loss": 0.8071,
	"step": 11
	},
	{
	"epoch": 0.09585621567648527,
	"grad_norm": 1.7918482116297212,
	"learning_rate": 1.523809523809524e-05,
	"loss": 0.7653,
	"step": 12
	},
	{
	"epoch": 0.1038442336495257,
	"grad_norm": 1.6236141779129738,
	"learning_rate": 1.6507936507936507e-05,
	"loss": 0.7437,
	"step": 13
	},
	{
	"epoch": 0.11183225162256615,
	"grad_norm": 1.2870146428263272,
	"learning_rate": 1.7777777777777777e-05,
	"loss": 0.736,
	"step": 14
	},
	{
	"epoch": 0.11982026959560658,
	"grad_norm": 1.0068702786417012,
	"learning_rate": 1.904761904761905e-05,
	"loss": 0.7124,
	"step": 15
	},
	{
	"epoch": 0.12780828756864704,
	"grad_norm": 1.1636059875738414,
	"learning_rate": 2.031746031746032e-05,
	"loss": 0.7004,
	"step": 16
	},
	{
	"epoch": 0.13579630554168748,
	"grad_norm": 0.8899548891950194,
	"learning_rate": 2.158730158730159e-05,
	"loss": 0.6953,
	"step": 17
	},
	{
	"epoch": 0.14378432351472792,
	"grad_norm": 0.8171634825879731,
	"learning_rate": 2.2857142857142858e-05,
	"loss": 0.6899,
	"step": 18
	},
	{
	"epoch": 0.15177234148776836,
	"grad_norm": 0.8423601505147725,
	"learning_rate": 2.4126984126984128e-05,
	"loss": 0.6759,
	"step": 19
	},
	{
	"epoch": 0.1597603594608088,
	"grad_norm": 0.9144240660639567,
	"learning_rate": 2.5396825396825397e-05,
	"loss": 0.6768,
	"step": 20
	},
	{
	"epoch": 0.16774837743384924,
	"grad_norm": 0.7527042679957461,
	"learning_rate": 2.6666666666666667e-05,
	"loss": 0.6664,
	"step": 21
	},
	{
	"epoch": 0.17573639540688968,
	"grad_norm": 0.9115589252395023,
	"learning_rate": 2.7936507936507936e-05,
	"loss": 0.6685,
	"step": 22
	},
	{
	"epoch": 0.18372441337993012,
	"grad_norm": 0.7794511419641769,
	"learning_rate": 2.9206349206349206e-05,
	"loss": 0.6476,
	"step": 23
	},
	{
	"epoch": 0.19171243135297053,
	"grad_norm": 0.8206145936410231,
	"learning_rate": 3.047619047619048e-05,
	"loss": 0.6555,
	"step": 24
	},
	{
	"epoch": 0.19970044932601097,
	"grad_norm": 0.8660748611689925,
	"learning_rate": 3.1746031746031745e-05,
	"loss": 0.6504,
	"step": 25
	},
	{
	"epoch": 0.2076884672990514,
	"grad_norm": 1.09005656089158,
	"learning_rate": 3.3015873015873014e-05,
	"loss": 0.6468,
	"step": 26
	},
	{
	"epoch": 0.21567648527209185,
	"grad_norm": 1.2233269812335474,
	"learning_rate": 3.4285714285714284e-05,
	"loss": 0.6554,
	"step": 27
	},
	{
	"epoch": 0.2236645032451323,
	"grad_norm": 0.7202441107469458,
	"learning_rate": 3.555555555555555e-05,
	"loss": 0.6351,
	"step": 28
	},
	{
	"epoch": 0.23165252121817273,
	"grad_norm": 1.549610538416556,
	"learning_rate": 3.682539682539683e-05,
	"loss": 0.6386,
	"step": 29
	},
	{
	"epoch": 0.23964053919121317,
	"grad_norm": 0.7964826077261805,
	"learning_rate": 3.80952380952381e-05,
	"loss": 0.6282,
	"step": 30
	},
	{
	"epoch": 0.2476285571642536,
	"grad_norm": 0.6903264777596222,
	"learning_rate": 3.936507936507937e-05,
	"loss": 0.6281,
	"step": 31
	},
	{
	"epoch": 0.2556165751372941,
	"grad_norm": 1.2761326884044875,
	"learning_rate": 4.063492063492064e-05,
	"loss": 0.6216,
	"step": 32
	},
	{
	"epoch": 0.2636045931103345,
	"grad_norm": 1.3286354473207003,
	"learning_rate": 4.190476190476191e-05,
	"loss": 0.6196,
	"step": 33
	},
	{
	"epoch": 0.27159261108337496,
	"grad_norm": 0.6908894226839724,
	"learning_rate": 4.317460317460318e-05,
	"loss": 0.6144,
	"step": 34
	},
	{
	"epoch": 0.2795806290564154,
	"grad_norm": 1.0386450814645398,
	"learning_rate": 4.444444444444445e-05,
	"loss": 0.6155,
	"step": 35
	},
	{
	"epoch": 0.28756864702945584,
	"grad_norm": 0.7231485406568985,
	"learning_rate": 4.5714285714285716e-05,
	"loss": 0.6081,
	"step": 36
	},
	{
	"epoch": 0.2955566650024963,
	"grad_norm": 1.0158040603959178,
	"learning_rate": 4.698412698412699e-05,
	"loss": 0.6071,
	"step": 37
	},
	{
	"epoch": 0.3035446829755367,
	"grad_norm": 1.5638712924845808,
	"learning_rate": 4.8253968253968255e-05,
	"loss": 0.6011,
	"step": 38
	},
	{
	"epoch": 0.31153270094857716,
	"grad_norm": 0.9158856622661424,
	"learning_rate": 4.952380952380953e-05,
	"loss": 0.6029,
	"step": 39
	},
	{
	"epoch": 0.3195207189216176,
	"grad_norm": 1.533932723524169,
	"learning_rate": 5.0793650793650794e-05,
	"loss": 0.6007,
	"step": 40
	},
	{
	"epoch": 0.32750873689465804,
	"grad_norm": 1.1151203871839255,
	"learning_rate": 5.206349206349207e-05,
	"loss": 0.614,
	"step": 41
	},
	{
	"epoch": 0.3354967548676985,
	"grad_norm": 1.7936006261869704,
	"learning_rate": 5.333333333333333e-05,
	"loss": 0.5964,
	"step": 42
	},
	{
	"epoch": 0.3434847728407389,
	"grad_norm": 1.6373220709210505,
	"learning_rate": 5.460317460317461e-05,
	"loss": 0.6048,
	"step": 43
	},
	{
	"epoch": 0.35147279081377936,
	"grad_norm": 1.1820238351172419,
	"learning_rate": 5.587301587301587e-05,
	"loss": 0.5983,
	"step": 44
	},
	{
	"epoch": 0.3594608087868198,
	"grad_norm": 1.0448595195163097,
	"learning_rate": 5.714285714285715e-05,
	"loss": 0.6015,
	"step": 45
	},
	{
	"epoch": 0.36744882675986024,
	"grad_norm": 0.9595564806215681,
	"learning_rate": 5.841269841269841e-05,
	"loss": 0.5845,
	"step": 46
	},
	{
	"epoch": 0.3754368447329007,
	"grad_norm": 1.5962786237575002,
	"learning_rate": 5.968253968253969e-05,
	"loss": 0.5995,
	"step": 47
	},
	{
	"epoch": 0.38342486270594106,
	"grad_norm": 1.5871239780794693,
	"learning_rate": 6.095238095238096e-05,
	"loss": 0.5884,
	"step": 48
	},
	{
	"epoch": 0.3914128806789815,
	"grad_norm": 1.1244276800474557,
	"learning_rate": 6.222222222222223e-05,
	"loss": 0.597,
	"step": 49
	},
	{
	"epoch": 0.39940089865202194,
	"grad_norm": 1.971108394067141,
	"learning_rate": 6.349206349206349e-05,
	"loss": 0.5959,
	"step": 50
	},
	{
	"epoch": 0.4073889166250624,
	"grad_norm": 1.119155483104472,
	"learning_rate": 6.476190476190477e-05,
	"loss": 0.595,
	"step": 51
	},
	{
	"epoch": 0.4153769345981028,
	"grad_norm": 2.3293959233637813,
	"learning_rate": 6.603174603174603e-05,
	"loss": 0.5968,
	"step": 52
	},
	{
	"epoch": 0.42336495257114326,
	"grad_norm": 1.7690872710201135,
	"learning_rate": 6.730158730158731e-05,
	"loss": 0.5942,
	"step": 53
	},
	{
	"epoch": 0.4313529705441837,
	"grad_norm": 1.5082563438406895,
	"learning_rate": 6.857142857142857e-05,
	"loss": 0.5929,
	"step": 54
	},
	{
	"epoch": 0.43934098851722414,
	"grad_norm": 1.705505860185178,
	"learning_rate": 6.984126984126985e-05,
	"loss": 0.5886,
	"step": 55
	},
	{
	"epoch": 0.4473290064902646,
	"grad_norm": 1.311562682930509,
	"learning_rate": 7.11111111111111e-05,
	"loss": 0.5942,
	"step": 56
	},
	{
	"epoch": 0.455317024463305,
	"grad_norm": 1.3702806631104458,
	"learning_rate": 7.238095238095239e-05,
	"loss": 0.5918,
	"step": 57
	},
	{
	"epoch": 0.46330504243634546,
	"grad_norm": 1.3735083834456305,
	"learning_rate": 7.365079365079366e-05,
	"loss": 0.5944,
	"step": 58
	},
	{
	"epoch": 0.4712930604093859,
	"grad_norm": 1.5109411814380815,
	"learning_rate": 7.492063492063493e-05,
	"loss": 0.5859,
	"step": 59
	},
	{
	"epoch": 0.47928107838242634,
	"grad_norm": 1.8414765598754854,
	"learning_rate": 7.61904761904762e-05,
	"loss": 0.5932,
	"step": 60
	},
	{
	"epoch": 0.4872690963554668,
	"grad_norm": 1.1402061244328228,
	"learning_rate": 7.746031746031747e-05,
	"loss": 0.5828,
	"step": 61
	},
	{
	"epoch": 0.4952571143285072,
	"grad_norm": 1.794539731996526,
	"learning_rate": 7.873015873015874e-05,
	"loss": 0.5792,
	"step": 62
	},
	{
	"epoch": 0.5032451323015477,
	"grad_norm": 1.4047554942240879,
	"learning_rate": 8e-05,
	"loss": 0.5804,
	"step": 63
	},
	{
	"epoch": 0.5112331502745882,
	"grad_norm": 1.3931552496353343,
	"learning_rate": 7.999937503459301e-05,
	"loss": 0.5775,
	"step": 64
	},
	{
	"epoch": 0.5192211682476285,
	"grad_norm": 1.1656900196646254,
	"learning_rate": 7.999750015790111e-05,
	"loss": 0.5909,
	"step": 65
	},
	{
	"epoch": 0.527209186220669,
	"grad_norm": 1.1493581998452567,
	"learning_rate": 7.999437542851095e-05,
	"loss": 0.5754,
	"step": 66
	},
	{
	"epoch": 0.5351972041937094,
	"grad_norm": 1.9412467459743252,
	"learning_rate": 7.999000094406493e-05,
	"loss": 0.5932,
	"step": 67
	},
	{
	"epoch": 0.5431852221667499,
	"grad_norm": 1.3410903514703634,
	"learning_rate": 7.998437684125812e-05,
	"loss": 0.5849,
	"step": 68
	},
	{
	"epoch": 0.5511732401397903,
	"grad_norm": 1.1599213167605864,
	"learning_rate": 7.997750329583402e-05,
	"loss": 0.5779,
	"step": 69
	},
	{
	"epoch": 0.5591612581128308,
	"grad_norm": 2.611492770456904,
	"learning_rate": 7.9969380522579e-05,
	"loss": 0.5936,
	"step": 70
	},
	{
	"epoch": 0.5671492760858712,
	"grad_norm": 1.5087257150690652,
	"learning_rate": 7.996000877531569e-05,
	"loss": 0.5884,
	"step": 71
	},
	{
	"epoch": 0.5751372940589117,
	"grad_norm": 2.6141462248634086,
	"learning_rate": 7.9949388346895e-05,
	"loss": 0.5951,
	"step": 72
	},
	{
	"epoch": 0.5831253120319521,
	"grad_norm": 1.9836349293790256,
	"learning_rate": 7.993751956918693e-05,
	"loss": 0.5874,
	"step": 73
	},
	{
	"epoch": 0.5911133300049926,
	"grad_norm": 1.5274699003911547,
	"learning_rate": 7.992440281307027e-05,
	"loss": 0.5962,
	"step": 74
	},
	{
	"epoch": 0.5991013479780329,
	"grad_norm": 1.2158179637702575,
	"learning_rate": 7.991003848842093e-05,
	"loss": 0.5801,
	"step": 75
	},
	{
	"epoch": 0.6070893659510734,
	"grad_norm": 1.2430162793293555,
	"learning_rate": 7.989442704409925e-05,
	"loss": 0.5757,
	"step": 76
	},
	{
	"epoch": 0.6150773839241138,
	"grad_norm": 0.9546052456533828,
	"learning_rate": 7.987756896793583e-05,
	"loss": 0.5836,
	"step": 77
	},
	{
	"epoch": 0.6230654018971543,
	"grad_norm": 1.051061984198158,
	"learning_rate": 7.985946478671642e-05,
	"loss": 0.575,
	"step": 78
	},
	{
	"epoch": 0.6310534198701947,
	"grad_norm": 1.025823090309492,
	"learning_rate": 7.984011506616534e-05,
	"loss": 0.5792,
	"step": 79
	},
	{
	"epoch": 0.6390414378432352,
	"grad_norm": 1.0879892769571216,
	"learning_rate": 7.981952041092792e-05,
	"loss": 0.575,
	"step": 80
	},
	{
	"epoch": 0.6470294558162756,
	"grad_norm": 1.3203984543837413,
	"learning_rate": 7.979768146455148e-05,
	"loss": 0.5725,
	"step": 81
	},
	{
	"epoch": 0.6550174737893161,
	"grad_norm": 0.8793400599633049,
	"learning_rate": 7.977459890946534e-05,
	"loss": 0.5643,
	"step": 82
	},
	{
	"epoch": 0.6630054917623565,
	"grad_norm": 0.9839614386276342,
	"learning_rate": 7.975027346695943e-05,
	"loss": 0.5609,
	"step": 83
	},
	{
	"epoch": 0.670993509735397,
	"grad_norm": 1.087269282291481,
	"learning_rate": 7.972470589716175e-05,
	"loss": 0.5706,
	"step": 84
	},
	{
	"epoch": 0.6789815277084373,
	"grad_norm": 0.8949957037226873,
	"learning_rate": 7.969789699901462e-05,
	"loss": 0.5718,
	"step": 85
	},
	{
	"epoch": 0.6869695456814778,
	"grad_norm": 0.5685210804043624,
	"learning_rate": 7.966984761024974e-05,
	"loss": 0.5651,
	"step": 86
	},
	{
	"epoch": 0.6949575636545182,
	"grad_norm": 0.7365421304468946,
	"learning_rate": 7.964055860736199e-05,
	"loss": 0.5625,
	"step": 87
	},
	{
	"epoch": 0.7029455816275587,
	"grad_norm": 0.6519155688073771,
	"learning_rate": 7.961003090558208e-05,
	"loss": 0.5602,
	"step": 88
	},
	{
	"epoch": 0.7109335996005991,
	"grad_norm": 0.47928031192412984,
	"learning_rate": 7.957826545884786e-05,
	"loss": 0.5549,
	"step": 89
	},
	{
	"epoch": 0.7189216175736396,
	"grad_norm": 0.7685907979864348,
	"learning_rate": 7.95452632597746e-05,
	"loss": 0.5558,
	"step": 90
	},
	{
	"epoch": 0.72690963554668,
	"grad_norm": 0.7342212353643156,
	"learning_rate": 7.951102533962393e-05,
	"loss": 0.5539,
	"step": 91
	},
	{
	"epoch": 0.7348976535197205,
	"grad_norm": 0.526378766562186,
	"learning_rate": 7.947555276827166e-05,
	"loss": 0.5604,
	"step": 92
	},
	{
	"epoch": 0.7428856714927609,
	"grad_norm": 0.763635167097638,
	"learning_rate": 7.94388466541743e-05,
	"loss": 0.5604,
	"step": 93
	},
	{
	"epoch": 0.7508736894658014,
	"grad_norm": 1.1133910887739713,
	"learning_rate": 7.940090814433437e-05,
	"loss": 0.5502,
	"step": 94
	},
	{
	"epoch": 0.7588617074388417,
	"grad_norm": 1.350450301452925,
	"learning_rate": 7.936173842426473e-05,
	"loss": 0.5607,
	"step": 95
	},
	{
	"epoch": 0.7668497254118821,
	"grad_norm": 0.47766209706502316,
	"learning_rate": 7.932133871795136e-05,
	"loss": 0.5584,
	"step": 96
	},
	{
	"epoch": 0.7748377433849226,
	"grad_norm": 0.8964819495426043,
	"learning_rate": 7.927971028781522e-05,
	"loss": 0.5533,
	"step": 97
	},
	{
	"epoch": 0.782825761357963,
	"grad_norm": 1.2844756885032345,
	"learning_rate": 7.923685443467275e-05,
	"loss": 0.5439,
	"step": 98
	},
	{
	"epoch": 0.7908137793310035,
	"grad_norm": 0.7076588316414215,
	"learning_rate": 7.919277249769522e-05,
	"loss": 0.5516,
	"step": 99
	},
	{
	"epoch": 0.7988017973040439,
	"grad_norm": 0.9548748366290979,
	"learning_rate": 7.914746585436692e-05,
	"loss": 0.5622,
	"step": 100
	},
	{
	"epoch": 0.8067898152770844,
	"grad_norm": 1.0033397557294186,
	"learning_rate": 7.91009359204421e-05,
	"loss": 0.55,
	"step": 101
	},
	{
	"epoch": 0.8147778332501248,
	"grad_norm": 0.8058153670114928,
	"learning_rate": 7.90531841499007e-05,
	"loss": 0.5472,
	"step": 102
	},
	{
	"epoch": 0.8227658512231653,
	"grad_norm": 0.7522684804995226,
	"learning_rate": 7.900421203490295e-05,
	"loss": 0.5475,
	"step": 103
	},
	{
	"epoch": 0.8307538691962056,
	"grad_norm": 0.8260701286176672,
	"learning_rate": 7.895402110574277e-05,
	"loss": 0.546,
	"step": 104
	},
	{
	"epoch": 0.8387418871692461,
	"grad_norm": 0.9294034148971123,
	"learning_rate": 7.890261293079985e-05,
	"loss": 0.5486,
	"step": 105
	},
	{
	"epoch": 0.8467299051422865,
	"grad_norm": 0.6210859012554373,
	"learning_rate": 7.884998911649077e-05,
	"loss": 0.5565,
	"step": 106
	},
	{
	"epoch": 0.854717923115327,
	"grad_norm": 0.6446646964930844,
	"learning_rate": 7.879615130721868e-05,
	"loss": 0.539,
	"step": 107
	},
	{
	"epoch": 0.8627059410883674,
	"grad_norm": 0.8996911090197094,
	"learning_rate": 7.8741101185322e-05,
	"loss": 0.5422,
	"step": 108
	},
	{
	"epoch": 0.8706939590614079,
	"grad_norm": 0.9338087827721026,
	"learning_rate": 7.868484047102183e-05,
	"loss": 0.5535,
	"step": 109
	},
	{
	"epoch": 0.8786819770344483,
	"grad_norm": 1.1026810388479344,
	"learning_rate": 7.862737092236818e-05,
	"loss": 0.5453,
	"step": 110
	},
	{
	"epoch": 0.8866699950074888,
	"grad_norm": 0.9663842431402072,
	"learning_rate": 7.856869433518506e-05,
	"loss": 0.5452,
	"step": 111
	},
	{
	"epoch": 0.8946580129805292,
	"grad_norm": 1.0210253102387117,
	"learning_rate": 7.850881254301432e-05,
	"loss": 0.5568,
	"step": 112
	},
	{
	"epoch": 0.9026460309535697,
	"grad_norm": 0.8477567856764551,
	"learning_rate": 7.844772741705835e-05,
	"loss": 0.545,
	"step": 113
	},
	{
	"epoch": 0.91063404892661,
	"grad_norm": 0.5613356829580358,
	"learning_rate": 7.838544086612174e-05,
	"loss": 0.5438,
	"step": 114
	},
	{
	"epoch": 0.9186220668996505,
	"grad_norm": 0.6248181380373118,
	"learning_rate": 7.832195483655144e-05,
	"loss": 0.5366,
	"step": 115
	},
	{
	"epoch": 0.9266100848726909,
	"grad_norm": 0.8519302343250585,
	"learning_rate": 7.825727131217609e-05,
	"loss": 0.5401,
	"step": 116
	},
	{
	"epoch": 0.9345981028457314,
	"grad_norm": 0.45919068712258837,
	"learning_rate": 7.81913923142439e-05,
	"loss": 0.5518,
	"step": 117
	},
	{
	"epoch": 0.9425861208187718,
	"grad_norm": 0.5491942320357649,
	"learning_rate": 7.812431990135965e-05,
	"loss": 0.545,
	"step": 118
	},
	{
	"epoch": 0.9505741387918123,
	"grad_norm": 0.7204970814629463,
	"learning_rate": 7.805605616942023e-05,
	"loss": 0.5502,
	"step": 119
	},
	{
	"epoch": 0.9585621567648527,
	"grad_norm": 0.624445399157028,
	"learning_rate": 7.798660325154917e-05,
	"loss": 0.5465,
	"step": 120
	},
	{
	"epoch": 0.9665501747378932,
	"grad_norm": 0.43723265221924457,
	"learning_rate": 7.791596331803003e-05,
	"loss": 0.5387,
	"step": 121
	},
	{
	"epoch": 0.9745381927109336,
	"grad_norm": 0.40296635700807665,
	"learning_rate": 7.784413857623856e-05,
	"loss": 0.5384,
	"step": 122
	},
	{
	"epoch": 0.982526210683974,
	"grad_norm": 0.4355607269982166,
	"learning_rate": 7.77711312705737e-05,
	"loss": 0.5391,
	"step": 123
	},
	{
	"epoch": 0.9905142286570144,
	"grad_norm": 0.37094543758250353,
	"learning_rate": 7.769694368238746e-05,
	"loss": 0.534,
	"step": 124
	},
	{
	"epoch": 0.9985022466300549,
	"grad_norm": 0.36678250566452825,
	"learning_rate": 7.762157812991369e-05,
	"loss": 0.535,
	"step": 125
	},
	{
	"epoch": 1.0064902646030953,
	"grad_norm": 0.7573100076200363,
	"learning_rate": 7.754503696819553e-05,
	"loss": 0.955,
	"step": 126
	},
	{
	"epoch": 1.0144782825761358,
	"grad_norm": 1.0167041671110564,
	"learning_rate": 7.74673225890119e-05,
	"loss": 0.5181,
	"step": 127
	},
	{
	"epoch": 1.0224663005491763,
	"grad_norm": 1.0181250181107355,
	"learning_rate": 7.738843742080269e-05,
	"loss": 0.5237,
	"step": 128
	},
	{
	"epoch": 1.0304543185222166,
	"grad_norm": 1.1080605772500498,
	"learning_rate": 7.730838392859303e-05,
	"loss": 0.5312,
	"step": 129
	},
	{
	"epoch": 1.038442336495257,
	"grad_norm": 0.7638562997222614,
	"learning_rate": 7.722716461391603e-05,
	"loss": 0.5338,
	"step": 130
	},
	{
	"epoch": 1.0464303544682976,
	"grad_norm": 0.8619620628236141,
	"learning_rate": 7.714478201473483e-05,
	"loss": 0.5249,
	"step": 131
	},
	{
	"epoch": 1.054418372441338,
	"grad_norm": 1.1654304124994774,
	"learning_rate": 7.706123870536315e-05,
	"loss": 0.5208,
	"step": 132
	},
	{
	"epoch": 1.0624063904143783,
	"grad_norm": 0.5330720342927018,
	"learning_rate": 7.697653729638489e-05,
	"loss": 0.5184,
	"step": 133
	},
	{
	"epoch": 1.0703944083874188,
	"grad_norm": 1.020325885284434,
	"learning_rate": 7.689068043457261e-05,
	"loss": 0.5128,
	"step": 134
	},
	{
	"epoch": 1.0783824263604593,
	"grad_norm": 0.6983781848617573,
	"learning_rate": 7.68036708028047e-05,
	"loss": 0.518,
	"step": 135
	},
	{
	"epoch": 1.0863704443334998,
	"grad_norm": 0.6057523169656847,
	"learning_rate": 7.671551111998169e-05,
	"loss": 0.5196,
	"step": 136
	},
	{
	"epoch": 1.09435846230654,
	"grad_norm": 0.5211411106516707,
	"learning_rate": 7.662620414094117e-05,
	"loss": 0.5199,
	"step": 137
	},
	{
	"epoch": 1.1023464802795806,
	"grad_norm": 0.5166573997289899,
	"learning_rate": 7.653575265637177e-05,
	"loss": 0.5154,
	"step": 138
	},
	{
	"epoch": 1.110334498252621,
	"grad_norm": 0.4470708726865469,
	"learning_rate": 7.644415949272591e-05,
	"loss": 0.5098,
	"step": 139
	},
	{
	"epoch": 1.1183225162256616,
	"grad_norm": 0.5357218094920962,
	"learning_rate": 7.635142751213156e-05,
	"loss": 0.5196,
	"step": 140
	},
	{
	"epoch": 1.1263105341987019,
	"grad_norm": 0.48982578714373154,
	"learning_rate": 7.62575596123027e-05,
	"loss": 0.5112,
	"step": 141
	},
	{
	"epoch": 1.1342985521717424,
	"grad_norm": 0.3953911478616972,
	"learning_rate": 7.616255872644888e-05,
	"loss": 0.5022,
	"step": 142
	},
	{
	"epoch": 1.1422865701447829,
	"grad_norm": 0.46599322968658796,
	"learning_rate": 7.60664278231834e-05,
	"loss": 0.5067,
	"step": 143
	},
	{
	"epoch": 1.1502745881178233,
	"grad_norm": 0.47850160868681485,
	"learning_rate": 7.596916990643077e-05,
	"loss": 0.5028,
	"step": 144
	},
	{
	"epoch": 1.1582626060908636,
	"grad_norm": 0.42978953466708475,
	"learning_rate": 7.587078801533262e-05,
	"loss": 0.5015,
	"step": 145
	},
	{
	"epoch": 1.1662506240639041,
	"grad_norm": 0.3540055333518291,
	"learning_rate": 7.577128522415292e-05,
	"loss": 0.5076,
	"step": 146
	},
	{
	"epoch": 1.1742386420369446,
	"grad_norm": 0.3351153000601574,
	"learning_rate": 7.567066464218178e-05,
	"loss": 0.4989,
	"step": 147
	},
	{
	"epoch": 1.182226660009985,
	"grad_norm": 0.3005800301999229,
	"learning_rate": 7.556892941363833e-05,
	"loss": 0.4967,
	"step": 148
	},
	{
	"epoch": 1.1902146779830254,
	"grad_norm": 0.3563502792477842,
	"learning_rate": 7.546608271757251e-05,
	"loss": 0.5107,
	"step": 149
	},
	{
	"epoch": 1.1982026959560659,
	"grad_norm": 0.38770493909399334,
	"learning_rate": 7.536212776776567e-05,
	"loss": 0.5104,
	"step": 150
	},
	{
	"epoch": 1.2061907139291064,
	"grad_norm": 0.3767151991317555,
	"learning_rate": 7.525706781263023e-05,
	"loss": 0.5102,
	"step": 151
	},
	{
	"epoch": 1.2141787319021469,
	"grad_norm": 0.4105950587040687,
	"learning_rate": 7.515090613510801e-05,
	"loss": 0.4986,
	"step": 152
	},
	{
	"epoch": 1.2221667498751871,
	"grad_norm": 0.42936249879191585,
	"learning_rate": 7.504364605256784e-05,
	"loss": 0.5035,
	"step": 153
	},
	{
	"epoch": 1.2301547678482276,
	"grad_norm": 0.4346225237944244,
	"learning_rate": 7.493529091670181e-05,
	"loss": 0.4988,
	"step": 154
	},
	{
	"epoch": 1.2381427858212681,
	"grad_norm": 0.4396844168311194,
	"learning_rate": 7.482584411342043e-05,
	"loss": 0.5077,
	"step": 155
	},
	{
	"epoch": 1.2461308037943086,
	"grad_norm": 0.431746092302867,
	"learning_rate": 7.471530906274704e-05,
	"loss": 0.4983,
	"step": 156
	},
	{
	"epoch": 1.254118821767349,
	"grad_norm": 0.5889910567664702,
	"learning_rate": 7.460368921871077e-05,
	"loss": 0.5122,
	"step": 157
	},
	{
	"epoch": 1.2621068397403894,
	"grad_norm": 0.6830133790630488,
	"learning_rate": 7.44909880692387e-05,
	"loss": 0.5073,
	"step": 158
	},
	{
	"epoch": 1.27009485771343,
	"grad_norm": 0.6354350767066138,
	"learning_rate": 7.437720913604681e-05,
	"loss": 0.5117,
	"step": 159
	},
	{
	"epoch": 1.2780828756864704,
	"grad_norm": 0.4963286720098572,
	"learning_rate": 7.426235597452995e-05,
	"loss": 0.4993,
	"step": 160
	},
	{
	"epoch": 1.2860708936595107,
	"grad_norm": 0.418831779419711,
	"learning_rate": 7.41464321736508e-05,
	"loss": 0.5021,
	"step": 161
	},
	{
	"epoch": 1.2940589116325512,
	"grad_norm": 0.4787432347277129,
	"learning_rate": 7.402944135582758e-05,
	"loss": 0.502,
	"step": 162
	},
	{
	"epoch": 1.3020469296055917,
	"grad_norm": 0.50062737801301,
	"learning_rate": 7.391138717682103e-05,
	"loss": 0.4937,
	"step": 163
	},
	{
	"epoch": 1.310034947578632,
	"grad_norm": 0.39201954318713855,
	"learning_rate": 7.379227332562005e-05,
	"loss": 0.5003,
	"step": 164
	},
	{
	"epoch": 1.3180229655516724,
	"grad_norm": 0.31007216413114186,
	"learning_rate": 7.367210352432645e-05,
	"loss": 0.502,
	"step": 165
	},
	{
	"epoch": 1.326010983524713,
	"grad_norm": 0.42076785863557453,
	"learning_rate": 7.355088152803866e-05,
	"loss": 0.501,
	"step": 166
	},
	{
	"epoch": 1.3339990014977534,
	"grad_norm": 0.4745296323176778,
	"learning_rate": 7.342861112473442e-05,
	"loss": 0.4979,
	"step": 167
	},
	{
	"epoch": 1.341987019470794,
	"grad_norm": 0.4199718916823893,
	"learning_rate": 7.330529613515232e-05,
	"loss": 0.4984,
	"step": 168
	},
	{
	"epoch": 1.3499750374438342,
	"grad_norm": 0.3814943625708202,
	"learning_rate": 7.318094041267253e-05,
	"loss": 0.4946,
	"step": 169
	},
	{
	"epoch": 1.3579630554168747,
	"grad_norm": 0.3584958844621985,
	"learning_rate": 7.305554784319625e-05,
	"loss": 0.4945,
	"step": 170
	},
	{
	"epoch": 1.3659510733899152,
	"grad_norm": 0.3258027404514737,
	"learning_rate": 7.29291223450244e-05,
	"loss": 0.4936,
	"step": 171
	},
	{
	"epoch": 1.3739390913629554,
	"grad_norm": 0.3304823682468289,
	"learning_rate": 7.280166786873514e-05,
	"loss": 0.4957,
	"step": 172
	},
	{
	"epoch": 1.381927109335996,
	"grad_norm": 0.285695277322611,
	"learning_rate": 7.267318839706038e-05,
	"loss": 0.5004,
	"step": 173
	},
	{
	"epoch": 1.3899151273090364,
	"grad_norm": 0.360711874339804,
	"learning_rate": 7.25436879447614e-05,
	"loss": 0.4946,
	"step": 174
	},
	{
	"epoch": 1.397903145282077,
	"grad_norm": 0.4690067762041838,
	"learning_rate": 7.241317055850336e-05,
	"loss": 0.4933,
	"step": 175
	},
	{
	"epoch": 1.4058911632551174,
	"grad_norm": 0.48954294072750454,
	"learning_rate": 7.228164031672879e-05,
	"loss": 0.4958,
	"step": 176
	},
	{
	"epoch": 1.4138791812281577,
	"grad_norm": 0.5871985410108085,
	"learning_rate": 7.214910132953027e-05,
	"loss": 0.495,
	"step": 177
	},
	{
	"epoch": 1.4218671992011982,
	"grad_norm": 0.720040324723498,
	"learning_rate": 7.201555773852189e-05,
	"loss": 0.4989,
	"step": 178
	},
	{
	"epoch": 1.4298552171742387,
	"grad_norm": 0.8159522745469254,
	"learning_rate": 7.188101371670991e-05,
	"loss": 0.5006,
	"step": 179
	},
	{
	"epoch": 1.437843235147279,
	"grad_norm": 0.8363865485901019,
	"learning_rate": 7.174547346836228e-05,
	"loss": 0.5069,
	"step": 180
	},
	{
	"epoch": 1.4458312531203195,
	"grad_norm": 0.7345453619769279,
	"learning_rate": 7.160894122887733e-05,
	"loss": 0.4927,
	"step": 181
	},
	{
	"epoch": 1.45381927109336,
	"grad_norm": 0.589527692471703,
	"learning_rate": 7.147142126465138e-05,
	"loss": 0.4955,
	"step": 182
	},
	{
	"epoch": 1.4618072890664005,
	"grad_norm": 0.4423587194525166,
	"learning_rate": 7.133291787294547e-05,
	"loss": 0.5094,
	"step": 183
	},
	{
	"epoch": 1.469795307039441,
	"grad_norm": 0.40340279142628255,
	"learning_rate": 7.119343538175102e-05,
	"loss": 0.4967,
	"step": 184
	},
	{
	"epoch": 1.4777833250124812,
	"grad_norm": 0.4982976531352129,
	"learning_rate": 7.10529781496546e-05,
	"loss": 0.4951,
	"step": 185
	},
	{
	"epoch": 1.4857713429855217,
	"grad_norm": 0.45741686448136076,
	"learning_rate": 7.09115505657018e-05,
	"loss": 0.4839,
	"step": 186
	},
	{
	"epoch": 1.4937593609585622,
	"grad_norm": 0.32134532426731377,
	"learning_rate": 7.076915704926e-05,
	"loss": 0.4947,
	"step": 187
	},
	{
	"epoch": 1.5017473789316025,
	"grad_norm": 0.2578730665869774,
	"learning_rate": 7.062580204988028e-05,
	"loss": 0.4885,
	"step": 188
	},
	{
	"epoch": 1.509735396904643,
	"grad_norm": 0.3424320920246288,
	"learning_rate": 7.048149004715843e-05,
	"loss": 0.4968,
	"step": 189
	},
	{
	"epoch": 1.5177234148776835,
	"grad_norm": 0.40215949965851383,
	"learning_rate": 7.033622555059491e-05,
	"loss": 0.4964,
	"step": 190
	},
	{
	"epoch": 1.525711432850724,
	"grad_norm": 0.3989533402101727,
	"learning_rate": 7.0190013099454e-05,
	"loss": 0.4993,
	"step": 191
	},
	{
	"epoch": 1.5336994508237645,
	"grad_norm": 0.2863829598271095,
	"learning_rate": 7.004285726262188e-05,
	"loss": 0.5058,
	"step": 192
	},
	{
	"epoch": 1.5416874687968047,
	"grad_norm": 0.24052248409440963,
	"learning_rate": 6.989476263846396e-05,
	"loss": 0.4861,
	"step": 193
	},
	{
	"epoch": 1.5496754867698452,
	"grad_norm": 0.4598329169035325,
	"learning_rate": 6.974573385468105e-05,
	"loss": 0.5007,
	"step": 194
	},
	{
	"epoch": 1.5576635047428855,
	"grad_norm": 0.6079055307812807,
	"learning_rate": 6.95957755681649e-05,
	"loss": 0.5008,
	"step": 195
	},
	{
	"epoch": 1.565651522715926,
	"grad_norm": 0.5580132412627938,
	"learning_rate": 6.944489246485257e-05,
	"loss": 0.4962,
	"step": 196
	},
	{
	"epoch": 1.5736395406889665,
	"grad_norm": 0.42994805656529084,
	"learning_rate": 6.929308925958009e-05,
	"loss": 0.5076,
	"step": 197
	},
	{
	"epoch": 1.581627558662007,
	"grad_norm": 0.3842832421038355,
	"learning_rate": 6.914037069593504e-05,
	"loss": 0.4924,
	"step": 198
	},
	{
	"epoch": 1.5896155766350475,
	"grad_norm": 0.32699055905703517,
	"learning_rate": 6.898674154610839e-05,
	"loss": 0.4921,
	"step": 199
	},
	{
	"epoch": 1.597603594608088,
	"grad_norm": 0.42528398283904756,
	"learning_rate": 6.883220661074534e-05,
	"loss": 0.4928,
	"step": 200
	},
	{
	"epoch": 1.6055916125811283,
	"grad_norm": 0.6183497108648602,
	"learning_rate": 6.867677071879535e-05,
	"loss": 0.4993,
	"step": 201
	},
	{
	"epoch": 1.6135796305541688,
	"grad_norm": 0.7584925576329896,
	"learning_rate": 6.852043872736116e-05,
	"loss": 0.4846,
	"step": 202
	},
	{
	"epoch": 1.621567648527209,
	"grad_norm": 0.6243564361060799,
	"learning_rate": 6.836321552154714e-05,
	"loss": 0.5007,
	"step": 203
	},
	{
	"epoch": 1.6295556665002495,
	"grad_norm": 0.3651441665883393,
	"learning_rate": 6.820510601430649e-05,
	"loss": 0.4936,
	"step": 204
	},
	{
	"epoch": 1.63754368447329,
	"grad_norm": 0.23834669483267124,
	"learning_rate": 6.804611514628788e-05,
	"loss": 0.4857,
	"step": 205
	},
	{
	"epoch": 1.6455317024463305,
	"grad_norm": 0.3073254289591667,
	"learning_rate": 6.78862478856809e-05,
	"loss": 0.4974,
	"step": 206
	},
	{
	"epoch": 1.653519720419371,
	"grad_norm": 0.3183758714531585,
	"learning_rate": 6.772550922806096e-05,
	"loss": 0.4915,
	"step": 207
	},
	{
	"epoch": 1.6615077383924115,
	"grad_norm": 0.2710320114390746,
	"learning_rate": 6.756390419623307e-05,
	"loss": 0.4901,
	"step": 208
	},
	{
	"epoch": 1.6694957563654518,
	"grad_norm": 0.27532630096114225,
	"learning_rate": 6.740143784007495e-05,
	"loss": 0.4885,
	"step": 209
	},
	{
	"epoch": 1.6774837743384923,
	"grad_norm": 0.24949516998489749,
	"learning_rate": 6.723811523637923e-05,
	"loss": 0.4948,
	"step": 210
	},
	{
	"epoch": 1.6854717923115325,
	"grad_norm": 0.27385769367337703,
	"learning_rate": 6.707394148869479e-05,
	"loss": 0.4963,
	"step": 211
	},
	{
	"epoch": 1.693459810284573,
	"grad_norm": 0.3041551075828834,
	"learning_rate": 6.690892172716726e-05,
	"loss": 0.486,
	"step": 212
	},
	{
	"epoch": 1.7014478282576135,
	"grad_norm": 0.3555632959677351,
	"learning_rate": 6.674306110837881e-05,
	"loss": 0.499,
	"step": 213
	},
	{
	"epoch": 1.709435846230654,
	"grad_norm": 0.3329437137508577,
	"learning_rate": 6.657636481518683e-05,
	"loss": 0.4949,
	"step": 214
	},
	{
	"epoch": 1.7174238642036945,
	"grad_norm": 0.3417126321251888,
	"learning_rate": 6.640883805656221e-05,
	"loss": 0.4913,
	"step": 215
	},
	{
	"epoch": 1.725411882176735,
	"grad_norm": 0.3989241732557222,
	"learning_rate": 6.624048606742636e-05,
	"loss": 0.4911,
	"step": 216
	},
	{
	"epoch": 1.7333999001497753,
	"grad_norm": 0.45014562286637283,
	"learning_rate": 6.607131410848777e-05,
	"loss": 0.4932,
	"step": 217
	},
	{
	"epoch": 1.7413879181228158,
	"grad_norm": 0.4927365755110579,
	"learning_rate": 6.590132746607755e-05,
	"loss": 0.4929,
	"step": 218
	},
	{
	"epoch": 1.749375936095856,
	"grad_norm": 0.5486106005274718,
	"learning_rate": 6.573053145198422e-05,
	"loss": 0.4924,
	"step": 219
	},
	{
	"epoch": 1.7573639540688966,
	"grad_norm": 0.5493013804791822,
	"learning_rate": 6.555893140328787e-05,
	"loss": 0.5029,
	"step": 220
	},
	{
	"epoch": 1.765351972041937,
	"grad_norm": 0.4921038998096511,
	"learning_rate": 6.538653268219316e-05,
	"loss": 0.501,
	"step": 221
	},
	{
	"epoch": 1.7733399900149776,
	"grad_norm": 0.36708379922405937,
	"learning_rate": 6.521334067586194e-05,
	"loss": 0.4912,
	"step": 222
	},
	{
	"epoch": 1.781328007988018,
	"grad_norm": 0.2934447036565008,
	"learning_rate": 6.503936079624486e-05,
	"loss": 0.4924,
	"step": 223
	},
	{
	"epoch": 1.7893160259610585,
	"grad_norm": 0.41971512428606667,
	"learning_rate": 6.486459847991226e-05,
	"loss": 0.4867,
	"step": 224
	},
	{
	"epoch": 1.7973040439340988,
	"grad_norm": 0.38954075869198324,
	"learning_rate": 6.46890591878842e-05,
	"loss": 0.4833,
	"step": 225
	},
	{
	"epoch": 1.8052920619071393,
	"grad_norm": 0.34504882506932716,
	"learning_rate": 6.451274840545995e-05,
	"loss": 0.4952,
	"step": 226
	},
	{
	"epoch": 1.8132800798801796,
	"grad_norm": 0.3115751552302506,
	"learning_rate": 6.433567164204652e-05,
	"loss": 0.4838,
	"step": 227
	},
	{
	"epoch": 1.82126809785322,
	"grad_norm": 0.3412485251072806,
	"learning_rate": 6.415783443098645e-05,
	"loss": 0.4855,
	"step": 228
	},
	{
	"epoch": 1.8292561158262606,
	"grad_norm": 0.4108218843875664,
	"learning_rate": 6.397924232938504e-05,
	"loss": 0.4911,
	"step": 229
	},
	{
	"epoch": 1.837244133799301,
	"grad_norm": 0.348838980704177,
	"learning_rate": 6.379990091793653e-05,
	"loss": 0.4924,
	"step": 230
	},
	{
	"epoch": 1.8452321517723416,
	"grad_norm": 0.2727569106903297,
	"learning_rate": 6.361981580074983e-05,
	"loss": 0.4875,
	"step": 231
	},
	{
	"epoch": 1.853220169745382,
	"grad_norm": 0.31966296310063425,
	"learning_rate": 6.343899260517339e-05,
	"loss": 0.4929,
	"step": 232
	},
	{
	"epoch": 1.8612081877184223,
	"grad_norm": 0.2973479822646696,
	"learning_rate": 6.325743698161927e-05,
	"loss": 0.4929,
	"step": 233
	},
	{
	"epoch": 1.8691962056914628,
	"grad_norm": 0.34272092476530364,
	"learning_rate": 6.307515460338672e-05,
	"loss": 0.4896,
	"step": 234
	},
	{
	"epoch": 1.877184223664503,
	"grad_norm": 0.3581061926529654,
	"learning_rate": 6.289215116648477e-05,
	"loss": 0.486,
	"step": 235
	},
	{
	"epoch": 1.8851722416375436,
	"grad_norm": 0.2528403776001991,
	"learning_rate": 6.270843238945426e-05,
	"loss": 0.4941,
	"step": 236
	},
	{
	"epoch": 1.893160259610584,
	"grad_norm": 0.2684767914087712,
	"learning_rate": 6.252400401318924e-05,
	"loss": 0.495,
	"step": 237
	},
	{
	"epoch": 1.9011482775836246,
	"grad_norm": 0.3089206948515233,
	"learning_rate": 6.233887180075744e-05,
	"loss": 0.4952,
	"step": 238
	},
	{
	"epoch": 1.909136295556665,
	"grad_norm": 0.30351254889018653,
	"learning_rate": 6.21530415372203e-05,
	"loss": 0.4846,
	"step": 239
	},
	{
	"epoch": 1.9171243135297056,
	"grad_norm": 0.4047998399516971,
	"learning_rate": 6.196651902945213e-05,
	"loss": 0.4961,
	"step": 240
	},
	{
	"epoch": 1.9251123315027459,
	"grad_norm": 0.34718079097807986,
	"learning_rate": 6.17793101059587e-05,
	"loss": 0.4784,
	"step": 241
	},
	{
	"epoch": 1.9331003494757864,
	"grad_norm": 0.23676859947641374,
	"learning_rate": 6.159142061669504e-05,
	"loss": 0.4816,
	"step": 242
	},
	{
	"epoch": 1.9410883674488266,
	"grad_norm": 0.3083982484226228,
	"learning_rate": 6.14028564328827e-05,
	"loss": 0.4846,
	"step": 243
	},
	{
	"epoch": 1.9490763854218671,
	"grad_norm": 0.23280924719224474,
	"learning_rate": 6.12136234468263e-05,
	"loss": 0.4901,
	"step": 244
	},
	{
	"epoch": 1.9570644033949076,
	"grad_norm": 0.23217318367899584,
	"learning_rate": 6.1023727571729334e-05,
	"loss": 0.4922,
	"step": 245
	},
	{
	"epoch": 1.965052421367948,
	"grad_norm": 0.3110861621844553,
	"learning_rate": 6.083317474150943e-05,
	"loss": 0.4897,
	"step": 246
	},
	{
	"epoch": 1.9730404393409886,
	"grad_norm": 0.2740981225422537,
	"learning_rate": 6.0641970910612966e-05,
	"loss": 0.4884,
	"step": 247
	},
	{
	"epoch": 1.981028457314029,
	"grad_norm": 0.30045631025591646,
	"learning_rate": 6.045012205382894e-05,
	"loss": 0.4842,
	"step": 248
	},
	{
	"epoch": 1.9890164752870694,
	"grad_norm": 0.3426504942977091,
	"learning_rate": 6.025763416610229e-05,
	"loss": 0.4805,
	"step": 249
	},
	{
	"epoch": 1.9970044932601099,
	"grad_norm": 0.2696833408525596,
	"learning_rate": 6.006451326234656e-05,
	"loss": 0.4955,
	"step": 250
	},
	{
	"epoch": 2.00499251123315,
	"grad_norm": 0.5162311215778072,
	"learning_rate": 5.987076537725598e-05,
	"loss": 0.8356,
	"step": 251
	},
	{
	"epoch": 2.0129805292061906,
	"grad_norm": 0.8755278174646857,
	"learning_rate": 5.9676396565116814e-05,
	"loss": 0.4597,
	"step": 252
	},
	{
	"epoch": 2.020968547179231,
	"grad_norm": 1.2654521868820567,
	"learning_rate": 5.9481412899618286e-05,
	"loss": 0.4832,
	"step": 253
	},
	{
	"epoch": 2.0289565651522716,
	"grad_norm": 0.7005128945439788,
	"learning_rate": 5.9285820473662676e-05,
	"loss": 0.4576,
	"step": 254
	},
	{
	"epoch": 2.036944583125312,
	"grad_norm": 0.8900852330925937,
	"learning_rate": 5.9089625399174975e-05,
	"loss": 0.4677,
	"step": 255
	},
	{
	"epoch": 2.0449326010983526,
	"grad_norm": 0.9295293387128268,
	"learning_rate": 5.8892833806911934e-05,
	"loss": 0.4581,
	"step": 256
	},
	{
	"epoch": 2.052920619071393,
	"grad_norm": 0.7632251727706844,
	"learning_rate": 5.869545184627041e-05,
	"loss": 0.4564,
	"step": 257
	},
	{
	"epoch": 2.060908637044433,
	"grad_norm": 0.606887179521497,
	"learning_rate": 5.849748568509529e-05,
	"loss": 0.4446,
	"step": 258
	},
	{
	"epoch": 2.0688966550174737,
	"grad_norm": 0.7617777810480713,
	"learning_rate": 5.829894150948668e-05,
	"loss": 0.4501,
	"step": 259
	},
	{
	"epoch": 2.076884672990514,
	"grad_norm": 0.6040763884991026,
	"learning_rate": 5.8099825523606675e-05,
	"loss": 0.4468,
	"step": 260
	},
	{
	"epoch": 2.0848726909635547,
	"grad_norm": 0.6051469481172999,
	"learning_rate": 5.790014394948542e-05,
	"loss": 0.4543,
	"step": 261
	},
	{
	"epoch": 2.092860708936595,
	"grad_norm": 0.478413783344682,
	"learning_rate": 5.769990302682672e-05,
	"loss": 0.4506,
	"step": 262
	},
	{
	"epoch": 2.1008487269096356,
	"grad_norm": 0.562558957244333,
	"learning_rate": 5.749910901281309e-05,
	"loss": 0.453,
	"step": 263
	},
	{
	"epoch": 2.108836744882676,
	"grad_norm": 0.4282466955885263,
	"learning_rate": 5.729776818191014e-05,
	"loss": 0.4545,
	"step": 264
	},
	{
	"epoch": 2.1168247628557166,
	"grad_norm": 0.5285703751553213,
	"learning_rate": 5.709588682567059e-05,
	"loss": 0.4479,
	"step": 265
	},
	{
	"epoch": 2.1248127808287567,
	"grad_norm": 0.40043659559155015,
	"learning_rate": 5.689347125253765e-05,
	"loss": 0.4442,
	"step": 266
	},
	{
	"epoch": 2.132800798801797,
	"grad_norm": 0.45748239783102446,
	"learning_rate": 5.6690527787647856e-05,
	"loss": 0.4507,
	"step": 267
	},
	{
	"epoch": 2.1407888167748377,
	"grad_norm": 0.4448537769428446,
	"learning_rate": 5.6487062772633455e-05,
	"loss": 0.4518,
	"step": 268
	},
	{
	"epoch": 2.148776834747878,
	"grad_norm": 0.3496452875829841,
	"learning_rate": 5.628308256542428e-05,
	"loss": 0.4511,
	"step": 269
	},
	{
	"epoch": 2.1567648527209187,
	"grad_norm": 0.36851827820489447,
	"learning_rate": 5.607859354004897e-05,
	"loss": 0.4475,
	"step": 270
	},
	{
	"epoch": 2.164752870693959,
	"grad_norm": 0.3581014245926748,
	"learning_rate": 5.5873602086435876e-05,
	"loss": 0.4559,
	"step": 271
	},
	{
	"epoch": 2.1727408886669997,
	"grad_norm": 0.3124251429586786,
	"learning_rate": 5.566811461021335e-05,
	"loss": 0.4507,
	"step": 272
	},
	{
	"epoch": 2.1807289066400397,
	"grad_norm": 0.363939895859037,
	"learning_rate": 5.5462137532509624e-05,
	"loss": 0.4488,
	"step": 273
	},
	{
	"epoch": 2.18871692461308,
	"grad_norm": 0.26872286843640025,
	"learning_rate": 5.5255677289752086e-05,
	"loss": 0.445,
	"step": 274
	},
	{
	"epoch": 2.1967049425861207,
	"grad_norm": 0.31188711856580686,
	"learning_rate": 5.504874033346623e-05,
	"loss": 0.4518,
	"step": 275
	},
	{
	"epoch": 2.204692960559161,
	"grad_norm": 0.27440306176835016,
	"learning_rate": 5.4841333130074015e-05,
	"loss": 0.4398,
	"step": 276
	},
	{
	"epoch": 2.2126809785322017,
	"grad_norm": 0.2443244556857597,
	"learning_rate": 5.4633462160691793e-05,
	"loss": 0.4496,
	"step": 277
	},
	{
	"epoch": 2.220668996505242,
	"grad_norm": 0.3469310336287689,
	"learning_rate": 5.442513392092783e-05,
	"loss": 0.4434,
	"step": 278
	},
	{
	"epoch": 2.2286570144782827,
	"grad_norm": 0.2103072041810048,
	"learning_rate": 5.4216354920679256e-05,
	"loss": 0.4536,
	"step": 279
	},
	{
	"epoch": 2.236645032451323,
	"grad_norm": 0.302897592656899,
	"learning_rate": 5.400713168392874e-05,
	"loss": 0.4469,
	"step": 280
	},
	{
	"epoch": 2.2446330504243637,
	"grad_norm": 0.26907620566043555,
	"learning_rate": 5.379747074854054e-05,
	"loss": 0.4429,
	"step": 281
	},
	{
	"epoch": 2.2526210683974037,
	"grad_norm": 0.242767529010096,
	"learning_rate": 5.358737866605624e-05,
	"loss": 0.4526,
	"step": 282
	},
	{
	"epoch": 2.260609086370444,
	"grad_norm": 0.24059729283753153,
	"learning_rate": 5.337686200149004e-05,
	"loss": 0.4496,
	"step": 283
	},
	{
	"epoch": 2.2685971043434847,
	"grad_norm": 0.16892626513698825,
	"learning_rate": 5.316592733312359e-05,
	"loss": 0.4444,
	"step": 284
	},
	{
	"epoch": 2.276585122316525,
	"grad_norm": 0.2428921866442825,
	"learning_rate": 5.2954581252300416e-05,
	"loss": 0.4475,
	"step": 285
	},
	{
	"epoch": 2.2845731402895657,
	"grad_norm": 0.24079102043869002,
	"learning_rate": 5.2742830363220014e-05,
	"loss": 0.4443,
	"step": 286
	},
	{
	"epoch": 2.292561158262606,
	"grad_norm": 0.1691131754858366,
	"learning_rate": 5.25306812827314e-05,
	"loss": 0.4423,
	"step": 287
	},
	{
	"epoch": 2.3005491762356467,
	"grad_norm": 0.26332279757319926,
	"learning_rate": 5.231814064012639e-05,
	"loss": 0.4482,
	"step": 288
	},
	{
	"epoch": 2.3085371942086867,
	"grad_norm": 0.30874064763423864,
	"learning_rate": 5.210521507693245e-05,
	"loss": 0.4439,
	"step": 289
	},
	{
	"epoch": 2.3165252121817272,
	"grad_norm": 0.22311973873687838,
	"learning_rate": 5.189191124670514e-05,
	"loss": 0.4402,
	"step": 290
	},
	{
	"epoch": 2.3245132301547677,
	"grad_norm": 0.1922497454060213,
	"learning_rate": 5.167823581482022e-05,
	"loss": 0.4409,
	"step": 291
	},
	{
	"epoch": 2.3325012481278082,
	"grad_norm": 0.16710905147214794,
	"learning_rate": 5.146419545826535e-05,
	"loss": 0.4471,
	"step": 292
	},
	{
	"epoch": 2.3404892661008487,
	"grad_norm": 0.18694588888380953,
	"learning_rate": 5.124979686543145e-05,
	"loss": 0.4514,
	"step": 293
	},
	{
	"epoch": 2.3484772840738892,
	"grad_norm": 0.19041976798949875,
	"learning_rate": 5.103504673590372e-05,
	"loss": 0.4385,
	"step": 294
	},
	{
	"epoch": 2.3564653020469297,
	"grad_norm": 0.20694395753288766,
	"learning_rate": 5.081995178025228e-05,
	"loss": 0.4486,
	"step": 295
	},
	{
	"epoch": 2.36445332001997,
	"grad_norm": 0.16778281147710722,
	"learning_rate": 5.060451871982242e-05,
	"loss": 0.455,
	"step": 296
	},
	{
	"epoch": 2.3724413379930107,
	"grad_norm": 0.17343940615670786,
	"learning_rate": 5.038875428652468e-05,
	"loss": 0.447,
	"step": 297
	},
	{
	"epoch": 2.3804293559660508,
	"grad_norm": 0.17734566622982126,
	"learning_rate": 5.0172665222624395e-05,
	"loss": 0.4481,
	"step": 298
	},
	{
	"epoch": 2.3884173739390913,
	"grad_norm": 0.1766718931672107,
	"learning_rate": 4.995625828053106e-05,
	"loss": 0.4524,
	"step": 299
	},
	{
	"epoch": 2.3964053919121318,
	"grad_norm": 0.19583636193380063,
	"learning_rate": 4.973954022258729e-05,
	"loss": 0.4547,
	"step": 300
	},
	{
	"epoch": 2.4043934098851723,
	"grad_norm": 0.17026857168289744,
	"learning_rate": 4.952251782085757e-05,
	"loss": 0.448,
	"step": 301
	},
	{
	"epoch": 2.4123814278582127,
	"grad_norm": 0.1394946256958487,
	"learning_rate": 4.930519785691657e-05,
	"loss": 0.4482,
	"step": 302
	},
	{
	"epoch": 2.4203694458312532,
	"grad_norm": 0.1507130531191368,
	"learning_rate": 4.9087587121637284e-05,
	"loss": 0.4489,
	"step": 303
	},
	{
	"epoch": 2.4283574638042937,
	"grad_norm": 0.19875894846238537,
	"learning_rate": 4.886969241497878e-05,
	"loss": 0.4445,
	"step": 304
	},
	{
	"epoch": 2.436345481777334,
	"grad_norm": 0.23769686285223604,
	"learning_rate": 4.865152054577379e-05,
	"loss": 0.4524,
	"step": 305
	},
	{
	"epoch": 2.4443334997503743,
	"grad_norm": 0.22560472662810682,
	"learning_rate": 4.843307833151583e-05,
	"loss": 0.4473,
	"step": 306
	},
	{
	"epoch": 2.452321517723415,
	"grad_norm": 0.15975420253786612,
	"learning_rate": 4.82143725981463e-05,
	"loss": 0.4474,
	"step": 307
	},
	{
	"epoch": 2.4603095356964553,
	"grad_norm": 0.1453747344586306,
	"learning_rate": 4.7995410179841065e-05,
	"loss": 0.4496,
	"step": 308
	},
	{
	"epoch": 2.4682975536694958,
	"grad_norm": 0.15320122247522389,
	"learning_rate": 4.777619791879698e-05,
	"loss": 0.4445,
	"step": 309
	},
	{
	"epoch": 2.4762855716425363,
	"grad_norm": 0.20898054566985402,
	"learning_rate": 4.755674266501802e-05,
	"loss": 0.4557,
	"step": 310
	},
	{
	"epoch": 2.4842735896155768,
	"grad_norm": 0.21741215675606498,
	"learning_rate": 4.73370512761013e-05,
	"loss": 0.4417,
	"step": 311
	},
	{
	"epoch": 2.4922616075886173,
	"grad_norm": 0.16889794561130403,
	"learning_rate": 4.711713061702274e-05,
	"loss": 0.4443,
	"step": 312
	},
	{
	"epoch": 2.5002496255616578,
	"grad_norm": 0.17993307076723922,
	"learning_rate": 4.689698755992255e-05,
	"loss": 0.4479,
	"step": 313
	},
	{
	"epoch": 2.508237643534698,
	"grad_norm": 0.19257453660181062,
	"learning_rate": 4.667662898389048e-05,
	"loss": 0.4491,
	"step": 314
	},
	{
	"epoch": 2.5162256615077383,
	"grad_norm": 0.1472085090976699,
	"learning_rate": 4.645606177475089e-05,
	"loss": 0.4373,
	"step": 315
	},
	{
	"epoch": 2.524213679480779,
	"grad_norm": 0.19033455613068187,
	"learning_rate": 4.6235292824847575e-05,
	"loss": 0.4544,
	"step": 316
	},
	{
	"epoch": 2.5322016974538193,
	"grad_norm": 0.18170601952075063,
	"learning_rate": 4.601432903282836e-05,
	"loss": 0.4412,
	"step": 317
	},
	{
	"epoch": 2.54018971542686,
	"grad_norm": 0.15727860647785666,
	"learning_rate": 4.579317730342955e-05,
	"loss": 0.4399,
	"step": 318
	},
	{
	"epoch": 2.5481777333999003,
	"grad_norm": 0.17970878529305648,
	"learning_rate": 4.5571844547260184e-05,
	"loss": 0.4403,
	"step": 319
	},
	{
	"epoch": 2.5561657513729408,
	"grad_norm": 0.15429718810042514,
	"learning_rate": 4.535033768058604e-05,
	"loss": 0.4485,
	"step": 320
	},
	{
	"epoch": 2.564153769345981,
	"grad_norm": 0.15715864822910056,
	"learning_rate": 4.512866362511361e-05,
	"loss": 0.4467,
	"step": 321
	},
	{
	"epoch": 2.5721417873190213,
	"grad_norm": 0.14222629722842062,
	"learning_rate": 4.490682930777368e-05,
	"loss": 0.4374,
	"step": 322
	},
	{
	"epoch": 2.580129805292062,
	"grad_norm": 0.16416055580887054,
	"learning_rate": 4.468484166050499e-05,
	"loss": 0.4429,
	"step": 323
	},
	{
	"epoch": 2.5881178232651023,
	"grad_norm": 0.1378665667643313,
	"learning_rate": 4.446270762003754e-05,
	"loss": 0.4439,
	"step": 324
	},
	{
	"epoch": 2.596105841238143,
	"grad_norm": 0.14749790568854468,
	"learning_rate": 4.424043412767589e-05,
	"loss": 0.4466,
	"step": 325
	},
	{
	"epoch": 2.6040938592111833,
	"grad_norm": 0.146540138127552,
	"learning_rate": 4.401802812908221e-05,
	"loss": 0.4419,
	"step": 326
	},
	{
	"epoch": 2.612081877184224,
	"grad_norm": 0.17339116836008553,
	"learning_rate": 4.379549657405928e-05,
	"loss": 0.4467,
	"step": 327
	},
	{
	"epoch": 2.620069895157264,
	"grad_norm": 0.18348099975421248,
	"learning_rate": 4.35728464163333e-05,
	"loss": 0.4416,
	"step": 328
	},
	{
	"epoch": 2.628057913130305,
	"grad_norm": 0.13620309620113327,
	"learning_rate": 4.335008461333657e-05,
	"loss": 0.4427,
	"step": 329
	},
	{
	"epoch": 2.636045931103345,
	"grad_norm": 0.1709480972281254,
	"learning_rate": 4.312721812599016e-05,
	"loss": 0.4414,
	"step": 330
	},
	{
	"epoch": 2.6440339490763853,
	"grad_norm": 0.16164451064940724,
	"learning_rate": 4.2904253918486295e-05,
	"loss": 0.4535,
	"step": 331
	},
	{
	"epoch": 2.652021967049426,
	"grad_norm": 0.14081917286088105,
	"learning_rate": 4.268119895807084e-05,
	"loss": 0.4429,
	"step": 332
	},
	{
	"epoch": 2.6600099850224663,
	"grad_norm": 0.18137180021156257,
	"learning_rate": 4.245806021482547e-05,
	"loss": 0.4427,
	"step": 333
	},
	{
	"epoch": 2.667998002995507,
	"grad_norm": 0.13800609298110714,
	"learning_rate": 4.2234844661449964e-05,
	"loss": 0.44,
	"step": 334
	},
	{
	"epoch": 2.6759860209685473,
	"grad_norm": 0.1551146252415665,
	"learning_rate": 4.20115592730443e-05,
	"loss": 0.4507,
	"step": 335
	},
	{
	"epoch": 2.683974038941588,
	"grad_norm": 0.15173038583107296,
	"learning_rate": 4.178821102689064e-05,
	"loss": 0.4426,
	"step": 336
	},
	{
	"epoch": 2.691962056914628,
	"grad_norm": 0.15116080328062176,
	"learning_rate": 4.156480690223537e-05,
	"loss": 0.447,
	"step": 337
	},
	{
	"epoch": 2.6999500748876684,
	"grad_norm": 0.17450805671193279,
	"learning_rate": 4.134135388007097e-05,
	"loss": 0.4469,
	"step": 338
	},
	{
	"epoch": 2.707938092860709,
	"grad_norm": 0.17281860373285934,
	"learning_rate": 4.111785894291789e-05,
	"loss": 0.4427,
	"step": 339
	},
	{
	"epoch": 2.7159261108337494,
	"grad_norm": 0.13324453353593427,
	"learning_rate": 4.089432907460634e-05,
	"loss": 0.45,
	"step": 340
	},
	{
	"epoch": 2.72391412880679,
	"grad_norm": 0.15126807617639215,
	"learning_rate": 4.0670771260058106e-05,
	"loss": 0.4486,
	"step": 341
	},
	{
	"epoch": 2.7319021467798303,
	"grad_norm": 0.16029221354477333,
	"learning_rate": 4.044719248506819e-05,
	"loss": 0.4408,
	"step": 342
	},
	{
	"epoch": 2.739890164752871,
	"grad_norm": 0.1463219695798821,
	"learning_rate": 4.0223599736086596e-05,
	"loss": 0.4479,
	"step": 343
	},
	{
	"epoch": 2.747878182725911,
	"grad_norm": 0.14595637335852438,
	"learning_rate": 4e-05,
	"loss": 0.4473,
	"step": 344
	},
	{
	"epoch": 2.755866200698952,
	"grad_norm": 0.13738467367514962,
	"learning_rate": 3.9776400263913404e-05,
	"loss": 0.4541,
	"step": 345
	},
	{
	"epoch": 2.763854218671992,
	"grad_norm": 0.1439562510526391,
	"learning_rate": 3.9552807514931824e-05,
	"loss": 0.4436,
	"step": 346
	},
	{
	"epoch": 2.7718422366450324,
	"grad_norm": 0.13006608621756496,
	"learning_rate": 3.93292287399419e-05,
	"loss": 0.4397,
	"step": 347
	},
	{
	"epoch": 2.779830254618073,
	"grad_norm": 0.14041358992697037,
	"learning_rate": 3.9105670925393665e-05,
	"loss": 0.4322,
	"step": 348
	},
	{
	"epoch": 2.7878182725911134,
	"grad_norm": 0.1495382630742624,
	"learning_rate": 3.8882141057082117e-05,
	"loss": 0.449,
	"step": 349
	},
	{
	"epoch": 2.795806290564154,
	"grad_norm": 0.13422760316245289,
	"learning_rate": 3.8658646119929046e-05,
	"loss": 0.4481,
	"step": 350
	},
	{
	"epoch": 2.8037943085371944,
	"grad_norm": 0.16641223994983959,
	"learning_rate": 3.843519309776464e-05,
	"loss": 0.4454,
	"step": 351
	},
	{
	"epoch": 2.811782326510235,
	"grad_norm": 0.12812350342466014,
	"learning_rate": 3.821178897310938e-05,
	"loss": 0.4535,
	"step": 352
	},
	{
	"epoch": 2.819770344483275,
	"grad_norm": 0.15337686560279318,
	"learning_rate": 3.798844072695571e-05,
	"loss": 0.4455,
	"step": 353
	},
	{
	"epoch": 2.8277583624563154,
	"grad_norm": 0.13561487109024523,
	"learning_rate": 3.776515533855004e-05,
	"loss": 0.4421,
	"step": 354
	},
	{
	"epoch": 2.835746380429356,
	"grad_norm": 0.12405473708728454,
	"learning_rate": 3.7541939785174545e-05,
	"loss": 0.4433,
	"step": 355
	},
	{
	"epoch": 2.8437343984023964,
	"grad_norm": 0.12633600414835006,
	"learning_rate": 3.731880104192917e-05,
	"loss": 0.4432,
	"step": 356
	},
	{
	"epoch": 2.851722416375437,
	"grad_norm": 0.1317080752956006,
	"learning_rate": 3.709574608151371e-05,
	"loss": 0.4465,
	"step": 357
	},
	{
	"epoch": 2.8597104343484774,
	"grad_norm": 0.1475249153982226,
	"learning_rate": 3.687278187400985e-05,
	"loss": 0.4401,
	"step": 358
	},
	{
	"epoch": 2.867698452321518,
	"grad_norm": 0.1458288492905671,
	"learning_rate": 3.664991538666344e-05,
	"loss": 0.4344,
	"step": 359
	},
	{
	"epoch": 2.875686470294558,
	"grad_norm": 0.11939958255100196,
	"learning_rate": 3.6427153583666715e-05,
	"loss": 0.4367,
	"step": 360
	},
	{
	"epoch": 2.883674488267599,
	"grad_norm": 0.16554239338436524,
	"learning_rate": 3.620450342594073e-05,
	"loss": 0.4418,
	"step": 361
	},
	{
	"epoch": 2.891662506240639,
	"grad_norm": 0.1187974636724584,
	"learning_rate": 3.59819718709178e-05,
	"loss": 0.45,
	"step": 362
	},
	{
	"epoch": 2.8996505242136794,
	"grad_norm": 0.15936228812392336,
	"learning_rate": 3.575956587232413e-05,
	"loss": 0.4508,
	"step": 363
	},
	{
	"epoch": 2.90763854218672,
	"grad_norm": 0.13367105463505505,
	"learning_rate": 3.5537292379962474e-05,
	"loss": 0.4465,
	"step": 364
	},
	{
	"epoch": 2.9156265601597604,
	"grad_norm": 0.14243006994077556,
	"learning_rate": 3.5315158339495015e-05,
	"loss": 0.4464,
	"step": 365
	},
	{
	"epoch": 2.923614578132801,
	"grad_norm": 0.1399001261869002,
	"learning_rate": 3.509317069222633e-05,
	"loss": 0.4502,
	"step": 366
	},
	{
	"epoch": 2.9316025961058414,
	"grad_norm": 0.13108273735056272,
	"learning_rate": 3.487133637488639e-05,
	"loss": 0.4369,
	"step": 367
	},
	{
	"epoch": 2.939590614078882,
	"grad_norm": 0.14943325684519726,
	"learning_rate": 3.464966231941397e-05,
	"loss": 0.4415,
	"step": 368
	},
	{
	"epoch": 2.947578632051922,
	"grad_norm": 0.13558373438864768,
	"learning_rate": 3.442815545273983e-05,
	"loss": 0.4382,
	"step": 369
	},
	{
	"epoch": 2.9555666500249624,
	"grad_norm": 0.12912584792295748,
	"learning_rate": 3.420682269657047e-05,
	"loss": 0.4363,
	"step": 370
	},
	{
	"epoch": 2.963554667998003,
	"grad_norm": 0.12458007215100302,
	"learning_rate": 3.398567096717165e-05,
	"loss": 0.4409,
	"step": 371
	},
	{
	"epoch": 2.9715426859710434,
	"grad_norm": 0.12840111428281253,
	"learning_rate": 3.376470717515244e-05,
	"loss": 0.4407,
	"step": 372
	},
	{
	"epoch": 2.979530703944084,
	"grad_norm": 0.13058809738960123,
	"learning_rate": 3.354393822524913e-05,
	"loss": 0.4407,
	"step": 373
	},
	{
	"epoch": 2.9875187219171244,
	"grad_norm": 0.15613845334671814,
	"learning_rate": 3.332337101610953e-05,
	"loss": 0.4473,
	"step": 374
	},
	{
	"epoch": 2.995506739890165,
	"grad_norm": 0.13389617942366203,
	"learning_rate": 3.310301244007747e-05,
	"loss": 0.4352,
	"step": 375
	},
	{
	"epoch": 3.0034947578632054,
	"grad_norm": 0.30944417126328405,
	"learning_rate": 3.2882869382977265e-05,
	"loss": 0.7723,
	"step": 376
	},
	{
	"epoch": 3.0114827758362455,
	"grad_norm": 0.29354627871039446,
	"learning_rate": 3.266294872389871e-05,
	"loss": 0.4025,
	"step": 377
	},
	{
	"epoch": 3.019470793809286,
	"grad_norm": 0.2010591684487564,
	"learning_rate": 3.2443257334981985e-05,
	"loss": 0.4024,
	"step": 378
	},
	{
	"epoch": 3.0274588117823265,
	"grad_norm": 0.27298247297612654,
	"learning_rate": 3.222380208120304e-05,
	"loss": 0.4089,
	"step": 379
	},
	{
	"epoch": 3.035446829755367,
	"grad_norm": 0.23270934832932566,
	"learning_rate": 3.200458982015894e-05,
	"loss": 0.4072,
	"step": 380
	},
	{
	"epoch": 3.0434348477284074,
	"grad_norm": 0.20268308202991778,
	"learning_rate": 3.178562740185372e-05,
	"loss": 0.4022,
	"step": 381
	},
	{
	"epoch": 3.051422865701448,
	"grad_norm": 0.20766736812021794,
	"learning_rate": 3.156692166848418e-05,
	"loss": 0.4024,
	"step": 382
	},
	{
	"epoch": 3.0594108836744884,
	"grad_norm": 0.2547479854625852,
	"learning_rate": 3.134847945422622e-05,
	"loss": 0.4072,
	"step": 383
	},
	{
	"epoch": 3.067398901647529,
	"grad_norm": 0.1969866280565691,
	"learning_rate": 3.113030758502123e-05,
	"loss": 0.4118,
	"step": 384
	},
	{
	"epoch": 3.075386919620569,
	"grad_norm": 0.23153499880928385,
	"learning_rate": 3.091241287836272e-05,
	"loss": 0.4077,
	"step": 385
	},
	{
	"epoch": 3.0833749375936095,
	"grad_norm": 0.20503882652518132,
	"learning_rate": 3.0694802143083436e-05,
	"loss": 0.4132,
	"step": 386
	},
	{
	"epoch": 3.09136295556665,
	"grad_norm": 0.17320798113782282,
	"learning_rate": 3.0477482179142432e-05,
	"loss": 0.4097,
	"step": 387
	},
	{
	"epoch": 3.0993509735396905,
	"grad_norm": 0.20168474769945824,
	"learning_rate": 3.026045977741272e-05,
	"loss": 0.3965,
	"step": 388
	},
	{
	"epoch": 3.107338991512731,
	"grad_norm": 0.19398918365065387,
	"learning_rate": 3.004374171946895e-05,
	"loss": 0.402,
	"step": 389
	},
	{
	"epoch": 3.1153270094857715,
	"grad_norm": 0.16700046485980305,
	"learning_rate": 2.9827334777375622e-05,
	"loss": 0.4136,
	"step": 390
	},
	{
	"epoch": 3.123315027458812,
	"grad_norm": 0.25279169008131713,
	"learning_rate": 2.9611245713475328e-05,
	"loss": 0.4003,
	"step": 391
	},
	{
	"epoch": 3.131303045431852,
	"grad_norm": 0.16080528287954057,
	"learning_rate": 2.9395481280177596e-05,
	"loss": 0.4011,
	"step": 392
	},
	{
	"epoch": 3.1392910634048925,
	"grad_norm": 0.22759163441812938,
	"learning_rate": 2.9180048219747736e-05,
	"loss": 0.4034,
	"step": 393
	},
	{
	"epoch": 3.147279081377933,
	"grad_norm": 0.17841534466968145,
	"learning_rate": 2.8964953264096277e-05,
	"loss": 0.4086,
	"step": 394
	},
	{
	"epoch": 3.1552670993509735,
	"grad_norm": 0.17487802806512123,
	"learning_rate": 2.8750203134568564e-05,
	"loss": 0.408,
	"step": 395
	},
	{
	"epoch": 3.163255117324014,
	"grad_norm": 0.18241625540198192,
	"learning_rate": 2.8535804541734663e-05,
	"loss": 0.4077,
	"step": 396
	},
	{
	"epoch": 3.1712431352970545,
	"grad_norm": 0.16398724549614757,
	"learning_rate": 2.832176418517979e-05,
	"loss": 0.4098,
	"step": 397
	},
	{
	"epoch": 3.179231153270095,
	"grad_norm": 0.16170229114317095,
	"learning_rate": 2.8108088753294864e-05,
	"loss": 0.4,
	"step": 398
	},
	{
	"epoch": 3.1872191712431355,
	"grad_norm": 0.14606650542275093,
	"learning_rate": 2.7894784923067563e-05,
	"loss": 0.4081,
	"step": 399
	},
	{
	"epoch": 3.195207189216176,
	"grad_norm": 0.154688060281461,
	"learning_rate": 2.768185935987362e-05,
	"loss": 0.4095,
	"step": 400
	},
	{
	"epoch": 3.203195207189216,
	"grad_norm": 0.14458385897335363,
	"learning_rate": 2.7469318717268622e-05,
	"loss": 0.4083,
	"step": 401
	},
	{
	"epoch": 3.2111832251622565,
	"grad_norm": 0.14953811526297756,
	"learning_rate": 2.7257169636779992e-05,
	"loss": 0.4082,
	"step": 402
	},
	{
	"epoch": 3.219171243135297,
	"grad_norm": 0.13312099784173914,
	"learning_rate": 2.704541874769958e-05,
	"loss": 0.4068,
	"step": 403
	},
	{
	"epoch": 3.2271592611083375,
	"grad_norm": 0.1386674411611782,
	"learning_rate": 2.6834072666876427e-05,
	"loss": 0.402,
	"step": 404
	},
	{
	"epoch": 3.235147279081378,
	"grad_norm": 0.12924251838188583,
	"learning_rate": 2.6623137998509964e-05,
	"loss": 0.4113,
	"step": 405
	},
	{
	"epoch": 3.2431352970544185,
	"grad_norm": 0.13222743176356805,
	"learning_rate": 2.641262133394378e-05,
	"loss": 0.4093,
	"step": 406
	},
	{
	"epoch": 3.251123315027459,
	"grad_norm": 0.13021912109847186,
	"learning_rate": 2.6202529251459475e-05,
	"loss": 0.4104,
	"step": 407
	},
	{
	"epoch": 3.259111333000499,
	"grad_norm": 0.13606000089551518,
	"learning_rate": 2.599286831607127e-05,
	"loss": 0.4089,
	"step": 408
	},
	{
	"epoch": 3.2670993509735395,
	"grad_norm": 0.13357003115707924,
	"learning_rate": 2.5783645079320757e-05,
	"loss": 0.4055,
	"step": 409
	},
	{
	"epoch": 3.27508736894658,
	"grad_norm": 0.1232470250676397,
	"learning_rate": 2.5574866079072188e-05,
	"loss": 0.4133,
	"step": 410
	},
	{
	"epoch": 3.2830753869196205,
	"grad_norm": 0.14061126711951444,
	"learning_rate": 2.5366537839308213e-05,
	"loss": 0.4023,
	"step": 411
	},
	{
	"epoch": 3.291063404892661,
	"grad_norm": 0.12020419683198272,
	"learning_rate": 2.515866686992599e-05,
	"loss": 0.406,
	"step": 412
	},
	{
	"epoch": 3.2990514228657015,
	"grad_norm": 0.13624018306536384,
	"learning_rate": 2.4951259666533778e-05,
	"loss": 0.4137,
	"step": 413
	},
	{
	"epoch": 3.307039440838742,
	"grad_norm": 0.13470595005125394,
	"learning_rate": 2.4744322710247914e-05,
	"loss": 0.4072,
	"step": 414
	},
	{
	"epoch": 3.3150274588117825,
	"grad_norm": 0.11406991036845995,
	"learning_rate": 2.4537862467490393e-05,
	"loss": 0.4032,
	"step": 415
	},
	{
	"epoch": 3.323015476784823,
	"grad_norm": 0.12469392558548403,
	"learning_rate": 2.4331885389786648e-05,
	"loss": 0.4061,
	"step": 416
	},
	{
	"epoch": 3.331003494757863,
	"grad_norm": 0.11240496673470576,
	"learning_rate": 2.4126397913564138e-05,
	"loss": 0.3972,
	"step": 417
	},
	{
	"epoch": 3.3389915127309036,
	"grad_norm": 0.11440176304944144,
	"learning_rate": 2.3921406459951038e-05,
	"loss": 0.401,
	"step": 418
	},
	{
	"epoch": 3.346979530703944,
	"grad_norm": 0.12061267695807164,
	"learning_rate": 2.371691743457573e-05,
	"loss": 0.4042,
	"step": 419
	},
	{
	"epoch": 3.3549675486769845,
	"grad_norm": 0.12408924452739928,
	"learning_rate": 2.3512937227366548e-05,
	"loss": 0.4042,
	"step": 420
	},
	{
	"epoch": 3.362955566650025,
	"grad_norm": 0.119324320832681,
	"learning_rate": 2.330947221235217e-05,
	"loss": 0.3999,
	"step": 421
	},
	{
	"epoch": 3.3709435846230655,
	"grad_norm": 0.11372319294009971,
	"learning_rate": 2.3106528747462374e-05,
	"loss": 0.411,
	"step": 422
	},
	{
	"epoch": 3.378931602596106,
	"grad_norm": 0.11440578627516848,
	"learning_rate": 2.290411317432942e-05,
	"loss": 0.4103,
	"step": 423
	},
	{
	"epoch": 3.386919620569146,
	"grad_norm": 0.11396557333843903,
	"learning_rate": 2.270223181808988e-05,
	"loss": 0.4056,
	"step": 424
	},
	{
	"epoch": 3.3949076385421866,
	"grad_norm": 0.1073175497389294,
	"learning_rate": 2.250089098718692e-05,
	"loss": 0.4001,
	"step": 425
	},
	{
	"epoch": 3.402895656515227,
	"grad_norm": 0.11142545752473547,
	"learning_rate": 2.2300096973173276e-05,
	"loss": 0.4013,
	"step": 426
	},
	{
	"epoch": 3.4108836744882676,
	"grad_norm": 0.11528253053702402,
	"learning_rate": 2.2099856050514593e-05,
	"loss": 0.4074,
	"step": 427
	},
	{
	"epoch": 3.418871692461308,
	"grad_norm": 0.1075239061798206,
	"learning_rate": 2.1900174476393335e-05,
	"loss": 0.4035,
	"step": 428
	},
	{
	"epoch": 3.4268597104343486,
	"grad_norm": 0.10808021553369461,
	"learning_rate": 2.170105849051332e-05,
	"loss": 0.4052,
	"step": 429
	},
	{
	"epoch": 3.434847728407389,
	"grad_norm": 0.11387661467604573,
	"learning_rate": 2.1502514314904723e-05,
	"loss": 0.4011,
	"step": 430
	},
	{
	"epoch": 3.442835746380429,
	"grad_norm": 0.10171924087995715,
	"learning_rate": 2.1304548153729596e-05,
	"loss": 0.4077,
	"step": 431
	},
	{
	"epoch": 3.4508237643534696,
	"grad_norm": 0.1285002444781682,
	"learning_rate": 2.1107166193088073e-05,
	"loss": 0.4063,
	"step": 432
	},
	{
	"epoch": 3.45881178232651,
	"grad_norm": 0.11335168282371334,
	"learning_rate": 2.091037460082503e-05,
	"loss": 0.4154,
	"step": 433
	},
	{
	"epoch": 3.4667998002995506,
	"grad_norm": 0.11343444669438019,
	"learning_rate": 2.0714179526337334e-05,
	"loss": 0.41,
	"step": 434
	},
	{
	"epoch": 3.474787818272591,
	"grad_norm": 0.1217156602130217,
	"learning_rate": 2.0518587100381727e-05,
	"loss": 0.4075,
	"step": 435
	},
	{
	"epoch": 3.4827758362456316,
	"grad_norm": 0.10725293992167916,
	"learning_rate": 2.0323603434883186e-05,
	"loss": 0.4066,
	"step": 436
	},
	{
	"epoch": 3.490763854218672,
	"grad_norm": 0.12028103178489573,
	"learning_rate": 2.0129234622744044e-05,
	"loss": 0.4103,
	"step": 437
	},
	{
	"epoch": 3.4987518721917126,
	"grad_norm": 0.1029854987347421,
	"learning_rate": 1.9935486737653452e-05,
	"loss": 0.4038,
	"step": 438
	},
	{
	"epoch": 3.506739890164753,
	"grad_norm": 0.11857347505878003,
	"learning_rate": 1.9742365833897733e-05,
	"loss": 0.4074,
	"step": 439
	},
	{
	"epoch": 3.514727908137793,
	"grad_norm": 0.1105825700379065,
	"learning_rate": 1.954987794617107e-05,
	"loss": 0.4105,
	"step": 440
	},
	{
	"epoch": 3.5227159261108336,
	"grad_norm": 0.11511596034752838,
	"learning_rate": 1.9358029089387034e-05,
	"loss": 0.4131,
	"step": 441
	},
	{
	"epoch": 3.530703944083874,
	"grad_norm": 0.11612657903144337,
	"learning_rate": 1.916682525849058e-05,
	"loss": 0.4068,
	"step": 442
	},
	{
	"epoch": 3.5386919620569146,
	"grad_norm": 0.10575599755099882,
	"learning_rate": 1.897627242827068e-05,
	"loss": 0.4038,
	"step": 443
	},
	{
	"epoch": 3.546679980029955,
	"grad_norm": 0.11088748332110426,
	"learning_rate": 1.878637655317372e-05,
	"loss": 0.4078,
	"step": 444
	},
	{
	"epoch": 3.5546679980029956,
	"grad_norm": 0.11466223345296331,
	"learning_rate": 1.859714356711731e-05,
	"loss": 0.3939,
	"step": 445
	},
	{
	"epoch": 3.562656015976036,
	"grad_norm": 0.11673865175002288,
	"learning_rate": 1.8408579383304985e-05,
	"loss": 0.4049,
	"step": 446
	},
	{
	"epoch": 3.570644033949076,
	"grad_norm": 0.11577952607867907,
	"learning_rate": 1.8220689894041314e-05,
	"loss": 0.4088,
	"step": 447
	},
	{
	"epoch": 3.578632051922117,
	"grad_norm": 0.10690091900937719,
	"learning_rate": 1.8033480970547872e-05,
	"loss": 0.4056,
	"step": 448
	},
	{
	"epoch": 3.586620069895157,
	"grad_norm": 0.11541573082426308,
	"learning_rate": 1.7846958462779716e-05,
	"loss": 0.4007,
	"step": 449
	},
	{
	"epoch": 3.5946080878681976,
	"grad_norm": 0.1100114302346526,
	"learning_rate": 1.7661128199242576e-05,
	"loss": 0.4089,
	"step": 450
	},
	{
	"epoch": 3.602596105841238,
	"grad_norm": 0.10956511339867736,
	"learning_rate": 1.7475995986810775e-05,
	"loss": 0.4018,
	"step": 451
	},
	{
	"epoch": 3.6105841238142786,
	"grad_norm": 0.10850454028936493,
	"learning_rate": 1.7291567610545738e-05,
	"loss": 0.4051,
	"step": 452
	},
	{
	"epoch": 3.618572141787319,
	"grad_norm": 0.1131878747175685,
	"learning_rate": 1.7107848833515244e-05,
	"loss": 0.4079,
	"step": 453
	},
	{
	"epoch": 3.6265601597603596,
	"grad_norm": 0.09884020665129564,
	"learning_rate": 1.6924845396613275e-05,
	"loss": 0.407,
	"step": 454
	},
	{
	"epoch": 3.6345481777334,
	"grad_norm": 0.11216709502149264,
	"learning_rate": 1.6742563018380734e-05,
	"loss": 0.4087,
	"step": 455
	},
	{
	"epoch": 3.64253619570644,
	"grad_norm": 0.0996580768122796,
	"learning_rate": 1.6561007394826623e-05,
	"loss": 0.4039,
	"step": 456
	},
	{
	"epoch": 3.6505242136794807,
	"grad_norm": 0.10651639312645377,
	"learning_rate": 1.638018419925018e-05,
	"loss": 0.3996,
	"step": 457
	},
	{
	"epoch": 3.658512231652521,
	"grad_norm": 0.09841162160967377,
	"learning_rate": 1.6200099082063477e-05,
	"loss": 0.4055,
	"step": 458
	},
	{
	"epoch": 3.6665002496255616,
	"grad_norm": 0.11559374542937897,
	"learning_rate": 1.602075767061497e-05,
	"loss": 0.4088,
	"step": 459
	},
	{
	"epoch": 3.674488267598602,
	"grad_norm": 0.11049592658320795,
	"learning_rate": 1.584216556901355e-05,
	"loss": 0.4053,
	"step": 460
	},
	{
	"epoch": 3.6824762855716426,
	"grad_norm": 0.09690459875455099,
	"learning_rate": 1.566432835795349e-05,
	"loss": 0.4052,
	"step": 461
	},
	{
	"epoch": 3.690464303544683,
	"grad_norm": 0.11084043420560455,
	"learning_rate": 1.5487251594540062e-05,
	"loss": 0.4013,
	"step": 462
	},
	{
	"epoch": 3.698452321517723,
	"grad_norm": 0.11145942008644477,
	"learning_rate": 1.5310940812115812e-05,
	"loss": 0.404,
	"step": 463
	},
	{
	"epoch": 3.706440339490764,
	"grad_norm": 0.09702858045834936,
	"learning_rate": 1.5135401520087757e-05,
	"loss": 0.4033,
	"step": 464
	},
	{
	"epoch": 3.714428357463804,
	"grad_norm": 0.10073536549329104,
	"learning_rate": 1.4960639203755136e-05,
	"loss": 0.4046,
	"step": 465
	},
	{
	"epoch": 3.7224163754368447,
	"grad_norm": 0.09948648507952308,
	"learning_rate": 1.4786659324138075e-05,
	"loss": 0.4041,
	"step": 466
	},
	{
	"epoch": 3.730404393409885,
	"grad_norm": 0.09373041246826647,
	"learning_rate": 1.4613467317806861e-05,
	"loss": 0.4075,
	"step": 467
	},
	{
	"epoch": 3.7383924113829257,
	"grad_norm": 0.10208986391007283,
	"learning_rate": 1.4441068596712157e-05,
	"loss": 0.3999,
	"step": 468
	},
	{
	"epoch": 3.746380429355966,
	"grad_norm": 0.10239549924151786,
	"learning_rate": 1.4269468548015785e-05,
	"loss": 0.3954,
	"step": 469
	},
	{
	"epoch": 3.7543684473290067,
	"grad_norm": 0.10434926470085772,
	"learning_rate": 1.4098672533922471e-05,
	"loss": 0.4103,
	"step": 470
	},
	{
	"epoch": 3.762356465302047,
	"grad_norm": 0.1022671854724037,
	"learning_rate": 1.3928685891512248e-05,
	"loss": 0.4068,
	"step": 471
	},
	{
	"epoch": 3.770344483275087,
	"grad_norm": 0.10372672313209318,
	"learning_rate": 1.375951393257365e-05,
	"loss": 0.4063,
	"step": 472
	},
	{
	"epoch": 3.7783325012481277,
	"grad_norm": 0.1001467709798247,
	"learning_rate": 1.35911619434378e-05,
	"loss": 0.3982,
	"step": 473
	},
	{
	"epoch": 3.786320519221168,
	"grad_norm": 0.10848171250475616,
	"learning_rate": 1.3423635184813182e-05,
	"loss": 0.3994,
	"step": 474
	},
	{
	"epoch": 3.7943085371942087,
	"grad_norm": 0.10297059459791853,
	"learning_rate": 1.3256938891621208e-05,
	"loss": 0.4051,
	"step": 475
	},
	{
	"epoch": 3.802296555167249,
	"grad_norm": 0.09850487513786725,
	"learning_rate": 1.3091078272832732e-05,
	"loss": 0.4039,
	"step": 476
	},
	{
	"epoch": 3.8102845731402897,
	"grad_norm": 0.09654837279347964,
	"learning_rate": 1.2926058511305221e-05,
	"loss": 0.4027,
	"step": 477
	},
	{
	"epoch": 3.81827259111333,
	"grad_norm": 0.10106233469187086,
	"learning_rate": 1.2761884763620773e-05,
	"loss": 0.4028,
	"step": 478
	},
	{
	"epoch": 3.8262606090863702,
	"grad_norm": 0.10521144963578496,
	"learning_rate": 1.2598562159925068e-05,
	"loss": 0.4047,
	"step": 479
	},
	{
	"epoch": 3.8342486270594107,
	"grad_norm": 0.10055170090272858,
	"learning_rate": 1.2436095803766946e-05,
	"loss": 0.408,
	"step": 480
	},
	{
	"epoch": 3.842236645032451,
	"grad_norm": 0.10030963723827738,
	"learning_rate": 1.2274490771939047e-05,
	"loss": 0.4139,
	"step": 481
	},
	{
	"epoch": 3.8502246630054917,
	"grad_norm": 0.11291159209305866,
	"learning_rate": 1.2113752114319107e-05,
	"loss": 0.4075,
	"step": 482
	},
	{
	"epoch": 3.858212680978532,
	"grad_norm": 0.09711749318081525,
	"learning_rate": 1.195388485371213e-05,
	"loss": 0.4008,
	"step": 483
	},
	{
	"epoch": 3.8662006989515727,
	"grad_norm": 0.09587092246627478,
	"learning_rate": 1.1794893985693517e-05,
	"loss": 0.4072,
	"step": 484
	},
	{
	"epoch": 3.874188716924613,
	"grad_norm": 0.10842252534792915,
	"learning_rate": 1.1636784478452872e-05,
	"loss": 0.3983,
	"step": 485
	},
	{
	"epoch": 3.8821767348976532,
	"grad_norm": 0.10030989962078998,
	"learning_rate": 1.1479561272638851e-05,
	"loss": 0.405,
	"step": 486
	},
	{
	"epoch": 3.890164752870694,
	"grad_norm": 0.09668292596476558,
	"learning_rate": 1.1323229281204667e-05,
	"loss": 0.4046,
	"step": 487
	},
	{
	"epoch": 3.8981527708437342,
	"grad_norm": 0.11229884300303226,
	"learning_rate": 1.1167793389254671e-05,
	"loss": 0.4077,
	"step": 488
	},
	{
	"epoch": 3.9061407888167747,
	"grad_norm": 0.1007265262970734,
	"learning_rate": 1.1013258453891624e-05,
	"loss": 0.4079,
	"step": 489
	},
	{
	"epoch": 3.9141288067898152,
	"grad_norm": 0.09800596022091544,
	"learning_rate": 1.0859629304064966e-05,
	"loss": 0.4124,
	"step": 490
	},
	{
	"epoch": 3.9221168247628557,
	"grad_norm": 0.0972237859271068,
	"learning_rate": 1.0706910740419927e-05,
	"loss": 0.3995,
	"step": 491
	},
	{
	"epoch": 3.930104842735896,
	"grad_norm": 0.09568160375704794,
	"learning_rate": 1.055510753514744e-05,
	"loss": 0.4044,
	"step": 492
	},
	{
	"epoch": 3.9380928607089367,
	"grad_norm": 0.10293942587001009,
	"learning_rate": 1.0404224431835127e-05,
	"loss": 0.3999,
	"step": 493
	},
	{
	"epoch": 3.946080878681977,
	"grad_norm": 0.09547704742606819,
	"learning_rate": 1.025426614531897e-05,
	"loss": 0.4012,
	"step": 494
	},
	{
	"epoch": 3.9540688966550173,
	"grad_norm": 0.09843903422495338,
	"learning_rate": 1.0105237361536058e-05,
	"loss": 0.4029,
	"step": 495
	},
	{
	"epoch": 3.9620569146280578,
	"grad_norm": 0.0995011244677626,
	"learning_rate": 9.957142737378128e-06,
	"loss": 0.4084,
	"step": 496
	},
	{
	"epoch": 3.9700449326010983,
	"grad_norm": 0.10559619287684664,
	"learning_rate": 9.809986900546011e-06,
	"loss": 0.4031,
	"step": 497
	},
	{
	"epoch": 3.9780329505741387,
	"grad_norm": 0.09619833393540202,
	"learning_rate": 9.663774449405095e-06,
	"loss": 0.3986,
	"step": 498
	},
	{
	"epoch": 3.9860209685471792,
	"grad_norm": 0.09183866726575214,
	"learning_rate": 9.518509952841586e-06,
	"loss": 0.4066,
	"step": 499
	},
	{
	"epoch": 3.9940089865202197,
	"grad_norm": 0.09366222741801747,
	"learning_rate": 9.374197950119726e-06,
	"loss": 0.4039,
	"step": 500
	},
	{
	"epoch": 4.00199700449326,
	"grad_norm": 0.2243873122878777,
	"learning_rate": 9.230842950740002e-06,
	"loss": 0.7111,
	"step": 501
	},
	{
	"epoch": 4.0099850224663,
	"grad_norm": 0.16901611231637365,
	"learning_rate": 9.088449434298204e-06,
	"loss": 0.3809,
	"step": 502
	},
	{
	"epoch": 4.017973040439341,
	"grad_norm": 0.13423991777929192,
	"learning_rate": 8.947021850345398e-06,
	"loss": 0.3726,
	"step": 503
	},
	{
	"epoch": 4.025961058412381,
	"grad_norm": 0.1178503561561421,
	"learning_rate": 8.806564618248999e-06,
	"loss": 0.3808,
	"step": 504
	},
	{
	"epoch": 4.033949076385422,
	"grad_norm": 0.14732236266291146,
	"learning_rate": 8.667082127054533e-06,
	"loss": 0.3832,
	"step": 505
	},
	{
	"epoch": 4.041937094358462,
	"grad_norm": 0.15778749749862814,
	"learning_rate": 8.52857873534862e-06,
	"loss": 0.3779,
	"step": 506
	},
	{
	"epoch": 4.049925112331502,
	"grad_norm": 0.1386627835810346,
	"learning_rate": 8.391058771122673e-06,
	"loss": 0.3831,
	"step": 507
	},
	{
	"epoch": 4.057913130304543,
	"grad_norm": 0.12467125366104446,
	"learning_rate": 8.254526531637727e-06,
	"loss": 0.3874,
	"step": 508
	},
	{
	"epoch": 4.065901148277583,
	"grad_norm": 0.1255433393864893,
	"learning_rate": 8.118986283290096e-06,
	"loss": 0.3873,
	"step": 509
	},
	{
	"epoch": 4.073889166250624,
	"grad_norm": 0.13259474782114336,
	"learning_rate": 7.984442261478108e-06,
	"loss": 0.3779,
	"step": 510
	},
	{
	"epoch": 4.081877184223664,
	"grad_norm": 0.1313024483917481,
	"learning_rate": 7.850898670469745e-06,
	"loss": 0.3796,
	"step": 511
	},
	{
	"epoch": 4.089865202196705,
	"grad_norm": 0.12062485435615429,
	"learning_rate": 7.718359683271224e-06,
	"loss": 0.3801,
	"step": 512
	},
	{
	"epoch": 4.097853220169745,
	"grad_norm": 0.11323572660175975,
	"learning_rate": 7.586829441496668e-06,
	"loss": 0.3692,
	"step": 513
	},
	{
	"epoch": 4.105841238142786,
	"grad_norm": 0.12334975202412422,
	"learning_rate": 7.456312055238606e-06,
	"loss": 0.3792,
	"step": 514
	},
	{
	"epoch": 4.113829256115826,
	"grad_norm": 0.12055598843637728,
	"learning_rate": 7.326811602939634e-06,
	"loss": 0.3825,
	"step": 515
	},
	{
	"epoch": 4.121817274088866,
	"grad_norm": 0.11922302158014507,
	"learning_rate": 7.198332131264876e-06,
	"loss": 0.3827,
	"step": 516
	},
	{
	"epoch": 4.129805292061907,
	"grad_norm": 0.1197396216655153,
	"learning_rate": 7.070877654975614e-06,
	"loss": 0.3858,
	"step": 517
	},
	{
	"epoch": 4.137793310034947,
	"grad_norm": 0.10303380534845168,
	"learning_rate": 6.944452156803763e-06,
	"loss": 0.3763,
	"step": 518
	},
	{
	"epoch": 4.145781328007988,
	"grad_norm": 0.10771564322360738,
	"learning_rate": 6.819059587327479e-06,
	"loss": 0.3798,
	"step": 519
	},
	{
	"epoch": 4.153769345981028,
	"grad_norm": 0.11083630377147478,
	"learning_rate": 6.694703864847673e-06,
	"loss": 0.3812,
	"step": 520
	},
	{
	"epoch": 4.161757363954069,
	"grad_norm": 0.1036678793429057,
	"learning_rate": 6.571388875265592e-06,
	"loss": 0.3804,
	"step": 521
	},
	{
	"epoch": 4.169745381927109,
	"grad_norm": 0.10290514415858039,
	"learning_rate": 6.449118471961342e-06,
	"loss": 0.3815,
	"step": 522
	},
	{
	"epoch": 4.177733399900149,
	"grad_norm": 0.09999602037947594,
	"learning_rate": 6.327896475673561e-06,
	"loss": 0.3796,
	"step": 523
	},
	{
	"epoch": 4.18572141787319,
	"grad_norm": 0.10176649553175782,
	"learning_rate": 6.207726674379961e-06,
	"loss": 0.3802,
	"step": 524
	},
	{
	"epoch": 4.19370943584623,
	"grad_norm": 0.10341756297649503,
	"learning_rate": 6.088612823178968e-06,
	"loss": 0.3752,
	"step": 525
	},
	{
	"epoch": 4.201697453819271,
	"grad_norm": 0.10010538520744762,
	"learning_rate": 5.970558644172424e-06,
	"loss": 0.3772,
	"step": 526
	},
	{
	"epoch": 4.209685471792311,
	"grad_norm": 0.09383564748055143,
	"learning_rate": 5.853567826349213e-06,
	"loss": 0.3738,
	"step": 527
	},
	{
	"epoch": 4.217673489765352,
	"grad_norm": 0.09458974198014311,
	"learning_rate": 5.737644025470057e-06,
	"loss": 0.3752,
	"step": 528
	},
	{
	"epoch": 4.225661507738392,
	"grad_norm": 0.10200091444940393,
	"learning_rate": 5.6227908639532045e-06,
	"loss": 0.3822,
	"step": 529
	},
	{
	"epoch": 4.233649525711433,
	"grad_norm": 0.09730500481091861,
	"learning_rate": 5.509011930761308e-06,
	"loss": 0.381,
	"step": 530
	},
	{
	"epoch": 4.241637543684473,
	"grad_norm": 0.09532139450671104,
	"learning_rate": 5.396310781289243e-06,
	"loss": 0.3816,
	"step": 531
	},
	{
	"epoch": 4.249625561657513,
	"grad_norm": 0.09644789239600618,
	"learning_rate": 5.284690937252977e-06,
	"loss": 0.3696,
	"step": 532
	},
	{
	"epoch": 4.257613579630554,
	"grad_norm": 0.10066108394874461,
	"learning_rate": 5.1741558865795906e-06,
	"loss": 0.3859,
	"step": 533
	},
	{
	"epoch": 4.265601597603594,
	"grad_norm": 0.09693373503450557,
	"learning_rate": 5.064709083298214e-06,
	"loss": 0.3822,
	"step": 534
	},
	{
	"epoch": 4.273589615576635,
	"grad_norm": 0.08926912859612744,
	"learning_rate": 4.95635394743216e-06,
	"loss": 0.3782,
	"step": 535
	},
	{
	"epoch": 4.281577633549675,
	"grad_norm": 0.09076499502790894,
	"learning_rate": 4.849093864891994e-06,
	"loss": 0.3822,
	"step": 536
	},
	{
	"epoch": 4.289565651522716,
	"grad_norm": 0.08773426720097247,
	"learning_rate": 4.7429321873697865e-06,
	"loss": 0.3783,
	"step": 537
	},
	{
	"epoch": 4.297553669495756,
	"grad_norm": 0.0879998661027265,
	"learning_rate": 4.637872232234326e-06,
	"loss": 0.3805,
	"step": 538
	},
	{
	"epoch": 4.305541687468796,
	"grad_norm": 0.09409764491066522,
	"learning_rate": 4.5339172824274955e-06,
	"loss": 0.3795,
	"step": 539
	},
	{
	"epoch": 4.313529705441837,
	"grad_norm": 0.089547761049764,
	"learning_rate": 4.4310705863616835e-06,
	"loss": 0.3794,
	"step": 540
	},
	{
	"epoch": 4.321517723414877,
	"grad_norm": 0.09066889486649515,
	"learning_rate": 4.329335357818236e-06,
	"loss": 0.3759,
	"step": 541
	},
	{
	"epoch": 4.329505741387918,
	"grad_norm": 0.09166858551173564,
	"learning_rate": 4.228714775847084e-06,
	"loss": 0.3877,
	"step": 542
	},
	{
	"epoch": 4.337493759360958,
	"grad_norm": 0.09606401143384108,
	"learning_rate": 4.129211984667385e-06,
	"loss": 0.3803,
	"step": 543
	},
	{
	"epoch": 4.345481777333999,
	"grad_norm": 0.08718065900580216,
	"learning_rate": 4.030830093569247e-06,
	"loss": 0.3764,
	"step": 544
	},
	{
	"epoch": 4.353469795307039,
	"grad_norm": 0.09279816372084171,
	"learning_rate": 3.933572176816602e-06,
	"loss": 0.3818,
	"step": 545
	},
	{
	"epoch": 4.361457813280079,
	"grad_norm": 0.0895802314032739,
	"learning_rate": 3.837441273551137e-06,
	"loss": 0.3749,
	"step": 546
	},
	{
	"epoch": 4.36944583125312,
	"grad_norm": 0.08925866632093443,
	"learning_rate": 3.7424403876972924e-06,
	"loss": 0.3741,
	"step": 547
	},
	{
	"epoch": 4.37743384922616,
	"grad_norm": 0.09077149176473304,
	"learning_rate": 3.6485724878684382e-06,
	"loss": 0.3889,
	"step": 548
	},
	{
	"epoch": 4.385421867199201,
	"grad_norm": 0.08624641665702638,
	"learning_rate": 3.555840507274093e-06,
	"loss": 0.3788,
	"step": 549
	},
	{
	"epoch": 4.393409885172241,
	"grad_norm": 0.09155307608035071,
	"learning_rate": 3.464247343628242e-06,
	"loss": 0.3833,
	"step": 550
	},
	{
	"epoch": 4.401397903145282,
	"grad_norm": 0.08659198159245704,
	"learning_rate": 3.373795859058837e-06,
	"loss": 0.3756,
	"step": 551
	},
	{
	"epoch": 4.409385921118322,
	"grad_norm": 0.08959149189104454,
	"learning_rate": 3.284488880018315e-06,
	"loss": 0.3809,
	"step": 552
	},
	{
	"epoch": 4.417373939091363,
	"grad_norm": 0.08570866197339067,
	"learning_rate": 3.196329197195307e-06,
	"loss": 0.379,
	"step": 553
	},
	{
	"epoch": 4.425361957064403,
	"grad_norm": 0.08585759689716206,
	"learning_rate": 3.1093195654274024e-06,
	"loss": 0.3844,
	"step": 554
	},
	{
	"epoch": 4.433349975037443,
	"grad_norm": 0.08851894364844058,
	"learning_rate": 3.0234627036151186e-06,
	"loss": 0.3754,
	"step": 555
	},
	{
	"epoch": 4.441337993010484,
	"grad_norm": 0.08546993455255109,
	"learning_rate": 2.9387612946368647e-06,
	"loss": 0.3767,
	"step": 556
	},
	{
	"epoch": 4.449326010983524,
	"grad_norm": 0.08689133858962513,
	"learning_rate": 2.855217985265184e-06,
	"loss": 0.3818,
	"step": 557
	},
	{
	"epoch": 4.457314028956565,
	"grad_norm": 0.08705508747400349,
	"learning_rate": 2.7728353860839763e-06,
	"loss": 0.3789,
	"step": 558
	},
	{
	"epoch": 4.465302046929605,
	"grad_norm": 0.08598514484683649,
	"learning_rate": 2.6916160714069817e-06,
	"loss": 0.3721,
	"step": 559
	},
	{
	"epoch": 4.473290064902646,
	"grad_norm": 0.08768951265999986,
	"learning_rate": 2.6115625791973155e-06,
	"loss": 0.3777,
	"step": 560
	},
	{
	"epoch": 4.481278082875686,
	"grad_norm": 0.08479223708104064,
	"learning_rate": 2.5326774109881223e-06,
	"loss": 0.3805,
	"step": 561
	},
	{
	"epoch": 4.489266100848727,
	"grad_norm": 0.08131123805163427,
	"learning_rate": 2.454963031804485e-06,
	"loss": 0.3746,
	"step": 562
	},
	{
	"epoch": 4.497254118821767,
	"grad_norm": 0.08329047935604311,
	"learning_rate": 2.378421870086314e-06,
	"loss": 0.3761,
	"step": 563
	},
	{
	"epoch": 4.5052421367948075,
	"grad_norm": 0.08462162107210089,
	"learning_rate": 2.3030563176125444e-06,
	"loss": 0.3738,
	"step": 564
	},
	{
	"epoch": 4.513230154767848,
	"grad_norm": 0.09812143956960612,
	"learning_rate": 2.228868729426319e-06,
	"loss": 0.3765,
	"step": 565
	},
	{
	"epoch": 4.521218172740888,
	"grad_norm": 0.08490273500457897,
	"learning_rate": 2.1558614237614516e-06,
	"loss": 0.3778,
	"step": 566
	},
	{
	"epoch": 4.529206190713929,
	"grad_norm": 0.08570430572140957,
	"learning_rate": 2.0840366819699788e-06,
	"loss": 0.3857,
	"step": 567
	},
	{
	"epoch": 4.537194208686969,
	"grad_norm": 0.08300561137308456,
	"learning_rate": 2.013396748450842e-06,
	"loss": 0.3761,
	"step": 568
	},
	{
	"epoch": 4.54518222666001,
	"grad_norm": 0.08443227783552133,
	"learning_rate": 1.9439438305797776e-06,
	"loss": 0.3756,
	"step": 569
	},
	{
	"epoch": 4.55317024463305,
	"grad_norm": 0.08135395570142633,
	"learning_rate": 1.8756800986403466e-06,
	"loss": 0.3782,
	"step": 570
	},
	{
	"epoch": 4.5611582626060905,
	"grad_norm": 0.08279967533402854,
	"learning_rate": 1.808607685756103e-06,
	"loss": 0.3776,
	"step": 571
	},
	{
	"epoch": 4.569146280579131,
	"grad_norm": 0.0834623870625263,
	"learning_rate": 1.7427286878239247e-06,
	"loss": 0.3713,
	"step": 572
	},
	{
	"epoch": 4.5771342985521715,
	"grad_norm": 0.08512591892730595,
	"learning_rate": 1.6780451634485606e-06,
	"loss": 0.3781,
	"step": 573
	},
	{
	"epoch": 4.585122316525212,
	"grad_norm": 0.08121169235017031,
	"learning_rate": 1.614559133878264e-06,
	"loss": 0.3822,
	"step": 574
	},
	{
	"epoch": 4.5931103344982525,
	"grad_norm": 0.0815454483422227,
	"learning_rate": 1.5522725829416474e-06,
	"loss": 0.3789,
	"step": 575
	},
	{
	"epoch": 4.601098352471293,
	"grad_norm": 0.0819923460505712,
	"learning_rate": 1.4911874569856965e-06,
	"loss": 0.3777,
	"step": 576
	},
	{
	"epoch": 4.6090863704443334,
	"grad_norm": 0.08276809528907374,
	"learning_rate": 1.4313056648149393e-06,
	"loss": 0.3818,
	"step": 577
	},
	{
	"epoch": 4.6170743884173735,
	"grad_norm": 0.08123407989783393,
	"learning_rate": 1.3726290776318175e-06,
	"loss": 0.3752,
	"step": 578
	},
	{
	"epoch": 4.625062406390414,
	"grad_norm": 0.08137283984240884,
	"learning_rate": 1.3151595289781738e-06,
	"loss": 0.3846,
	"step": 579
	},
	{
	"epoch": 4.6330504243634545,
	"grad_norm": 0.08150026114578374,
	"learning_rate": 1.2588988146780135e-06,
	"loss": 0.3884,
	"step": 580
	},
	{
	"epoch": 4.641038442336495,
	"grad_norm": 0.08281920320562544,
	"learning_rate": 1.2038486927813354e-06,
	"loss": 0.3841,
	"step": 581
	},
	{
	"epoch": 4.6490264603095355,
	"grad_norm": 0.08355306503400638,
	"learning_rate": 1.1500108835092472e-06,
	"loss": 0.3812,
	"step": 582
	},
	{
	"epoch": 4.657014478282576,
	"grad_norm": 0.08418060141581976,
	"learning_rate": 1.0973870692001554e-06,
	"loss": 0.3792,
	"step": 583
	},
	{
	"epoch": 4.6650024962556165,
	"grad_norm": 0.08223524263153421,
	"learning_rate": 1.0459788942572423e-06,
	"loss": 0.3843,
	"step": 584
	},
	{
	"epoch": 4.6729905142286565,
	"grad_norm": 0.08271968804038993,
	"learning_rate": 9.957879650970549e-07,
	"loss": 0.3857,
	"step": 585
	},
	{
	"epoch": 4.6809785322016975,
	"grad_norm": 0.08244656434489289,
	"learning_rate": 9.468158500993207e-07,
	"loss": 0.3874,
	"step": 586
	},
	{
	"epoch": 4.6889665501747375,
	"grad_norm": 0.0819506533129172,
	"learning_rate": 8.990640795579186e-07,
	"loss": 0.3808,
	"step": 587
	},
	{
	"epoch": 4.6969545681477785,
	"grad_norm": 0.08149745500782653,
	"learning_rate": 8.525341456330883e-07,
	"loss": 0.3727,
	"step": 588
	},
	{
	"epoch": 4.7049425861208185,
	"grad_norm": 0.08076187044142838,
	"learning_rate": 8.072275023047926e-07,
	"loss": 0.3761,
	"step": 589
	},
	{
	"epoch": 4.712930604093859,
	"grad_norm": 0.08151591065997134,
	"learning_rate": 7.631455653272613e-07,
	"loss": 0.3832,
	"step": 590
	},
	{
	"epoch": 4.7209186220668995,
	"grad_norm": 0.08462271380326744,
	"learning_rate": 7.202897121847852e-07,
	"loss": 0.3749,
	"step": 591
	},
	{
	"epoch": 4.72890664003994,
	"grad_norm": 0.08308313300815548,
	"learning_rate": 6.786612820486449e-07,
	"loss": 0.3742,
	"step": 592
	},
	{
	"epoch": 4.7368946580129805,
	"grad_norm": 0.08421663571704587,
	"learning_rate": 6.382615757352817e-07,
	"loss": 0.383,
	"step": 593
	},
	{
	"epoch": 4.744882675986021,
	"grad_norm": 0.08208417725816322,
	"learning_rate": 5.990918556656411e-07,
	"loss": 0.3802,
	"step": 594
	},
	{
	"epoch": 4.7528706939590615,
	"grad_norm": 0.08235652164981158,
	"learning_rate": 5.611533458257245e-07,
	"loss": 0.3826,
	"step": 595
	},
	{
	"epoch": 4.7608587119321015,
	"grad_norm": 0.0823525460961533,
	"learning_rate": 5.2444723172834e-07,
	"loss": 0.375,
	"step": 596
	},
	{
	"epoch": 4.7688467299051425,
	"grad_norm": 0.08291828155167397,
	"learning_rate": 4.889746603760693e-07,
	"loss": 0.3841,
	"step": 597
	},
	{
	"epoch": 4.7768347478781825,
	"grad_norm": 0.0809741018796145,
	"learning_rate": 4.5473674022541213e-07,
	"loss": 0.3753,
	"step": 598
	},
	{
	"epoch": 4.7848227658512235,
	"grad_norm": 0.08124124038278724,
	"learning_rate": 4.2173454115214783e-07,
	"loss": 0.3838,
	"step": 599
	},
	{
	"epoch": 4.7928107838242635,
	"grad_norm": 0.08103520713384339,
	"learning_rate": 3.899690944179257e-07,
	"loss": 0.3765,
	"step": 600
	},
	{
	"epoch": 4.8007988017973044,
	"grad_norm": 0.08227217638870313,
	"learning_rate": 3.5944139263800694e-07,
	"loss": 0.3834,
	"step": 601
	},
	{
	"epoch": 4.8087868197703445,
	"grad_norm": 0.07899228317121158,
	"learning_rate": 3.3015238975026675e-07,
	"loss": 0.3694,
	"step": 602
	},
	{
	"epoch": 4.8167748377433846,
	"grad_norm": 0.09227389493594652,
	"learning_rate": 3.021030009853876e-07,
	"loss": 0.3783,
	"step": 603
	},
	{
	"epoch": 4.8247628557164255,
	"grad_norm": 0.08106531182197436,
	"learning_rate": 2.752941028382594e-07,
	"loss": 0.3773,
	"step": 604
	},
	{
	"epoch": 4.8327508736894655,
	"grad_norm": 0.08015145752167932,
	"learning_rate": 2.4972653304057073e-07,
	"loss": 0.3777,
	"step": 605
	},
	{
	"epoch": 4.8407388916625065,
	"grad_norm": 0.08160453860592876,
	"learning_rate": 2.25401090534656e-07,
	"loss": 0.3808,
	"step": 606
	},
	{
	"epoch": 4.8487269096355465,
	"grad_norm": 0.07966427336497452,
	"learning_rate": 2.0231853544852465e-07,
	"loss": 0.3744,
	"step": 607
	},
	{
	"epoch": 4.8567149276085875,
	"grad_norm": 0.08123242623536424,
	"learning_rate": 1.8047958907209339e-07,
	"loss": 0.3825,
	"step": 608
	},
	{
	"epoch": 4.8647029455816275,
	"grad_norm": 0.0805412707928896,
	"learning_rate": 1.5988493383466198e-07,
	"loss": 0.3749,
	"step": 609
	},
	{
	"epoch": 4.872690963554668,
	"grad_norm": 0.08036474123731352,
	"learning_rate": 1.40535213283588e-07,
	"loss": 0.3748,
	"step": 610
	},
	{
	"epoch": 4.8806789815277085,
	"grad_norm": 0.08213950898863626,
	"learning_rate": 1.2243103206417418e-07,
	"loss": 0.3819,
	"step": 611
	},
	{
	"epoch": 4.888666999500749,
	"grad_norm": 0.07935174486804004,
	"learning_rate": 1.05572955900759e-07,
	"loss": 0.3827,
	"step": 612
	},
	{
	"epoch": 4.8966550174737895,
	"grad_norm": 0.07731873027438858,
	"learning_rate": 8.996151157907306e-08,
	"loss": 0.3674,
	"step": 613
	},
	{
	"epoch": 4.90464303544683,
	"grad_norm": 0.07905308777211134,
	"learning_rate": 7.559718692974116e-08,
	"loss": 0.3755,
	"step": 614
	},
	{
	"epoch": 4.9126310534198705,
	"grad_norm": 0.08188223266669394,
	"learning_rate": 6.248043081307664e-08,
	"loss": 0.3848,
	"step": 615
	},
	{
	"epoch": 4.9206190713929105,
	"grad_norm": 0.07960614583875532,
	"learning_rate": 5.0611653105003824e-08,
	"loss": 0.3754,
	"step": 616
	},
	{
	"epoch": 4.928607089365951,
	"grad_norm": 0.08159036451816658,
	"learning_rate": 3.99912246843126e-08,
	"loss": 0.384,
	"step": 617
	},
	{
	"epoch": 4.9365951073389915,
	"grad_norm": 0.08068916515639828,
	"learning_rate": 3.061947742101001e-08,
	"loss": 0.3797,
	"step": 618
	},
	{
	"epoch": 4.944583125312032,
	"grad_norm": 0.07945334308304049,
	"learning_rate": 2.2496704165995142e-08,
	"loss": 0.378,
	"step": 619
	},
	{
	"epoch": 4.9525711432850725,
	"grad_norm": 0.08051278989431843,
	"learning_rate": 1.5623158741884247e-08,
	"loss": 0.3804,
	"step": 620
	},
	{
	"epoch": 4.960559161258113,
	"grad_norm": 0.07952219440080063,
	"learning_rate": 9.999055935074887e-09,
	"loss": 0.3661,
	"step": 621
	},
	{
	"epoch": 4.9685471792311535,
	"grad_norm": 0.08077553977056519,
	"learning_rate": 5.624571489053488e-09,
	"loss": 0.3829,
	"step": 622
	},
	{
	"epoch": 4.976535197204194,
	"grad_norm": 0.08255739947277718,
	"learning_rate": 2.499842098901972e-09,
	"loss": 0.3842,
	"step": 623
	},
	{
	"epoch": 4.9845232151772345,
	"grad_norm": 0.08097383031020737,
	"learning_rate": 6.249654069989674e-10,
	"loss": 0.3817,
	"step": 624
	},
	{
	"epoch": 4.992511233150275,
	"grad_norm": 0.08105708331755175,
	"learning_rate": 0.0,
	"loss": 0.377,
	"step": 625
	},
	{
	"epoch": 4.992511233150275,
	"step": 625,
	"total_flos": 1.6083110655493669e+19,
	"train_loss": 0.47168621559143065,
	"train_runtime": 96267.4715,
	"train_samples_per_second": 3.329,
	"train_steps_per_second": 0.006
	}
	],
	"logging_steps": 1.0,
	"max_steps": 625,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.6083110655493669e+19,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}