sft_r1_barc_pot_10k / trainer_state.json

Model save

eabb649 verified about 1 year ago

86.1 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 492,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.006097560975609756,
	"grad_norm": 13.761144051368902,
	"learning_rate": 4.0000000000000003e-07,
	"loss": 4.6438,
	"step": 1
	},
	{
	"epoch": 0.012195121951219513,
	"grad_norm": 13.183326369804801,
	"learning_rate": 8.000000000000001e-07,
	"loss": 4.8577,
	"step": 2
	},
	{
	"epoch": 0.018292682926829267,
	"grad_norm": 11.29732095469755,
	"learning_rate": 1.2000000000000002e-06,
	"loss": 4.7954,
	"step": 3
	},
	{
	"epoch": 0.024390243902439025,
	"grad_norm": 11.769209187889713,
	"learning_rate": 1.6000000000000001e-06,
	"loss": 4.7998,
	"step": 4
	},
	{
	"epoch": 0.03048780487804878,
	"grad_norm": 12.522749869416966,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 4.7958,
	"step": 5
	},
	{
	"epoch": 0.036585365853658534,
	"grad_norm": 13.40825064276547,
	"learning_rate": 2.4000000000000003e-06,
	"loss": 4.5537,
	"step": 6
	},
	{
	"epoch": 0.042682926829268296,
	"grad_norm": 13.224745779198466,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 4.5891,
	"step": 7
	},
	{
	"epoch": 0.04878048780487805,
	"grad_norm": 11.459531949346005,
	"learning_rate": 3.2000000000000003e-06,
	"loss": 4.8212,
	"step": 8
	},
	{
	"epoch": 0.054878048780487805,
	"grad_norm": 12.942263223893391,
	"learning_rate": 3.6000000000000003e-06,
	"loss": 4.6557,
	"step": 9
	},
	{
	"epoch": 0.06097560975609756,
	"grad_norm": 11.67916919497089,
	"learning_rate": 4.000000000000001e-06,
	"loss": 4.6643,
	"step": 10
	},
	{
	"epoch": 0.06707317073170732,
	"grad_norm": 11.256361402107963,
	"learning_rate": 4.4e-06,
	"loss": 4.6234,
	"step": 11
	},
	{
	"epoch": 0.07317073170731707,
	"grad_norm": 10.918667814241992,
	"learning_rate": 4.800000000000001e-06,
	"loss": 4.5428,
	"step": 12
	},
	{
	"epoch": 0.07926829268292683,
	"grad_norm": 11.18941706027207,
	"learning_rate": 5.2e-06,
	"loss": 4.1207,
	"step": 13
	},
	{
	"epoch": 0.08536585365853659,
	"grad_norm": 10.834833962041147,
	"learning_rate": 5.600000000000001e-06,
	"loss": 4.2727,
	"step": 14
	},
	{
	"epoch": 0.09146341463414634,
	"grad_norm": 11.193544605148698,
	"learning_rate": 6e-06,
	"loss": 4.3305,
	"step": 15
	},
	{
	"epoch": 0.0975609756097561,
	"grad_norm": 11.156213868367029,
	"learning_rate": 6.4000000000000006e-06,
	"loss": 3.855,
	"step": 16
	},
	{
	"epoch": 0.10365853658536585,
	"grad_norm": 11.03392463912042,
	"learning_rate": 6.800000000000001e-06,
	"loss": 3.8251,
	"step": 17
	},
	{
	"epoch": 0.10975609756097561,
	"grad_norm": 10.92516220698292,
	"learning_rate": 7.2000000000000005e-06,
	"loss": 3.6552,
	"step": 18
	},
	{
	"epoch": 0.11585365853658537,
	"grad_norm": 9.360934765475477,
	"learning_rate": 7.600000000000001e-06,
	"loss": 3.4844,
	"step": 19
	},
	{
	"epoch": 0.12195121951219512,
	"grad_norm": 8.698890724234088,
	"learning_rate": 8.000000000000001e-06,
	"loss": 3.4775,
	"step": 20
	},
	{
	"epoch": 0.12804878048780488,
	"grad_norm": 8.307940622795766,
	"learning_rate": 8.400000000000001e-06,
	"loss": 3.1046,
	"step": 21
	},
	{
	"epoch": 0.13414634146341464,
	"grad_norm": 7.873509354464809,
	"learning_rate": 8.8e-06,
	"loss": 2.8967,
	"step": 22
	},
	{
	"epoch": 0.1402439024390244,
	"grad_norm": 6.74058652993515,
	"learning_rate": 9.200000000000002e-06,
	"loss": 2.7398,
	"step": 23
	},
	{
	"epoch": 0.14634146341463414,
	"grad_norm": 5.6682482038936985,
	"learning_rate": 9.600000000000001e-06,
	"loss": 2.554,
	"step": 24
	},
	{
	"epoch": 0.1524390243902439,
	"grad_norm": 5.196466384583255,
	"learning_rate": 1e-05,
	"loss": 2.4104,
	"step": 25
	},
	{
	"epoch": 0.15853658536585366,
	"grad_norm": 4.379173110371979,
	"learning_rate": 1.04e-05,
	"loss": 2.0813,
	"step": 26
	},
	{
	"epoch": 0.16463414634146342,
	"grad_norm": 4.041770670660932,
	"learning_rate": 1.0800000000000002e-05,
	"loss": 2.1974,
	"step": 27
	},
	{
	"epoch": 0.17073170731707318,
	"grad_norm": 3.7890756018085083,
	"learning_rate": 1.1200000000000001e-05,
	"loss": 2.1635,
	"step": 28
	},
	{
	"epoch": 0.17682926829268292,
	"grad_norm": 2.760454794268313,
	"learning_rate": 1.16e-05,
	"loss": 1.7247,
	"step": 29
	},
	{
	"epoch": 0.18292682926829268,
	"grad_norm": 2.084883247086018,
	"learning_rate": 1.2e-05,
	"loss": 1.7248,
	"step": 30
	},
	{
	"epoch": 0.18902439024390244,
	"grad_norm": 1.8946267393458731,
	"learning_rate": 1.2400000000000002e-05,
	"loss": 1.6519,
	"step": 31
	},
	{
	"epoch": 0.1951219512195122,
	"grad_norm": 1.4683657417452,
	"learning_rate": 1.2800000000000001e-05,
	"loss": 1.5153,
	"step": 32
	},
	{
	"epoch": 0.20121951219512196,
	"grad_norm": 1.1510156850186328,
	"learning_rate": 1.3200000000000002e-05,
	"loss": 1.4752,
	"step": 33
	},
	{
	"epoch": 0.2073170731707317,
	"grad_norm": 0.9975006671404031,
	"learning_rate": 1.3600000000000002e-05,
	"loss": 1.3437,
	"step": 34
	},
	{
	"epoch": 0.21341463414634146,
	"grad_norm": 1.175487116789021,
	"learning_rate": 1.4e-05,
	"loss": 1.5412,
	"step": 35
	},
	{
	"epoch": 0.21951219512195122,
	"grad_norm": 1.0595320461986457,
	"learning_rate": 1.4400000000000001e-05,
	"loss": 1.3513,
	"step": 36
	},
	{
	"epoch": 0.22560975609756098,
	"grad_norm": 1.1536993931361366,
	"learning_rate": 1.48e-05,
	"loss": 1.387,
	"step": 37
	},
	{
	"epoch": 0.23170731707317074,
	"grad_norm": 1.166131895120981,
	"learning_rate": 1.5200000000000002e-05,
	"loss": 1.3192,
	"step": 38
	},
	{
	"epoch": 0.23780487804878048,
	"grad_norm": 1.1083262024444887,
	"learning_rate": 1.5600000000000003e-05,
	"loss": 1.3045,
	"step": 39
	},
	{
	"epoch": 0.24390243902439024,
	"grad_norm": 1.0376815768281262,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 1.3058,
	"step": 40
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.87640355368596,
	"learning_rate": 1.64e-05,
	"loss": 1.1079,
	"step": 41
	},
	{
	"epoch": 0.25609756097560976,
	"grad_norm": 0.8012590361351394,
	"learning_rate": 1.6800000000000002e-05,
	"loss": 1.0897,
	"step": 42
	},
	{
	"epoch": 0.2621951219512195,
	"grad_norm": 0.7274182856521663,
	"learning_rate": 1.72e-05,
	"loss": 1.1044,
	"step": 43
	},
	{
	"epoch": 0.2682926829268293,
	"grad_norm": 0.6432052930355101,
	"learning_rate": 1.76e-05,
	"loss": 1.071,
	"step": 44
	},
	{
	"epoch": 0.27439024390243905,
	"grad_norm": 0.6162901066533818,
	"learning_rate": 1.8e-05,
	"loss": 1.0739,
	"step": 45
	},
	{
	"epoch": 0.2804878048780488,
	"grad_norm": 0.4936365689365201,
	"learning_rate": 1.8400000000000003e-05,
	"loss": 0.9854,
	"step": 46
	},
	{
	"epoch": 0.2865853658536585,
	"grad_norm": 0.4413825753074836,
	"learning_rate": 1.88e-05,
	"loss": 0.9589,
	"step": 47
	},
	{
	"epoch": 0.2926829268292683,
	"grad_norm": 0.3835552689369408,
	"learning_rate": 1.9200000000000003e-05,
	"loss": 0.9157,
	"step": 48
	},
	{
	"epoch": 0.29878048780487804,
	"grad_norm": 0.36169118496626246,
	"learning_rate": 1.9600000000000002e-05,
	"loss": 0.9501,
	"step": 49
	},
	{
	"epoch": 0.3048780487804878,
	"grad_norm": 0.3201102977202935,
	"learning_rate": 2e-05,
	"loss": 0.8649,
	"step": 50
	},
	{
	"epoch": 0.31097560975609756,
	"grad_norm": 0.3301312685545821,
	"learning_rate": 1.9999747405795057e-05,
	"loss": 0.9233,
	"step": 51
	},
	{
	"epoch": 0.3170731707317073,
	"grad_norm": 0.31971021695823615,
	"learning_rate": 1.9998989635940996e-05,
	"loss": 0.8435,
	"step": 52
	},
	{
	"epoch": 0.3231707317073171,
	"grad_norm": 0.35515389044587536,
	"learning_rate": 1.9997726728719468e-05,
	"loss": 0.8589,
	"step": 53
	},
	{
	"epoch": 0.32926829268292684,
	"grad_norm": 0.36743148858881,
	"learning_rate": 1.9995958747931083e-05,
	"loss": 0.8576,
	"step": 54
	},
	{
	"epoch": 0.3353658536585366,
	"grad_norm": 0.42811375031790766,
	"learning_rate": 1.9993685782892184e-05,
	"loss": 0.9279,
	"step": 55
	},
	{
	"epoch": 0.34146341463414637,
	"grad_norm": 0.41721558479353726,
	"learning_rate": 1.9990907948430327e-05,
	"loss": 0.8907,
	"step": 56
	},
	{
	"epoch": 0.3475609756097561,
	"grad_norm": 0.35352961285727363,
	"learning_rate": 1.9987625384878493e-05,
	"loss": 0.8291,
	"step": 57
	},
	{
	"epoch": 0.35365853658536583,
	"grad_norm": 0.2804864451654209,
	"learning_rate": 1.998383825806799e-05,
	"loss": 0.7566,
	"step": 58
	},
	{
	"epoch": 0.3597560975609756,
	"grad_norm": 0.2882591085430372,
	"learning_rate": 1.997954675932006e-05,
	"loss": 0.8485,
	"step": 59
	},
	{
	"epoch": 0.36585365853658536,
	"grad_norm": 0.2607140485168168,
	"learning_rate": 1.9974751105436266e-05,
	"loss": 0.8366,
	"step": 60
	},
	{
	"epoch": 0.3719512195121951,
	"grad_norm": 0.23074985418491212,
	"learning_rate": 1.9969451538687474e-05,
	"loss": 0.8274,
	"step": 61
	},
	{
	"epoch": 0.3780487804878049,
	"grad_norm": 0.23223595784320752,
	"learning_rate": 1.9963648326801653e-05,
	"loss": 0.9039,
	"step": 62
	},
	{
	"epoch": 0.38414634146341464,
	"grad_norm": 0.17404598061817236,
	"learning_rate": 1.9957341762950346e-05,
	"loss": 0.6557,
	"step": 63
	},
	{
	"epoch": 0.3902439024390244,
	"grad_norm": 0.20998407134341585,
	"learning_rate": 1.9950532165733847e-05,
	"loss": 0.7985,
	"step": 64
	},
	{
	"epoch": 0.39634146341463417,
	"grad_norm": 0.194171035037221,
	"learning_rate": 1.9943219879165113e-05,
	"loss": 0.7393,
	"step": 65
	},
	{
	"epoch": 0.4024390243902439,
	"grad_norm": 0.19325266400118835,
	"learning_rate": 1.993540527265239e-05,
	"loss": 0.7448,
	"step": 66
	},
	{
	"epoch": 0.40853658536585363,
	"grad_norm": 0.22349087274155047,
	"learning_rate": 1.992708874098054e-05,
	"loss": 0.9037,
	"step": 67
	},
	{
	"epoch": 0.4146341463414634,
	"grad_norm": 0.1952833479528782,
	"learning_rate": 1.9918270704291104e-05,
	"loss": 0.7685,
	"step": 68
	},
	{
	"epoch": 0.42073170731707316,
	"grad_norm": 0.18405443762754753,
	"learning_rate": 1.9908951608061078e-05,
	"loss": 0.6956,
	"step": 69
	},
	{
	"epoch": 0.4268292682926829,
	"grad_norm": 0.18503738755792795,
	"learning_rate": 1.98991319230804e-05,
	"loss": 0.7063,
	"step": 70
	},
	{
	"epoch": 0.4329268292682927,
	"grad_norm": 0.19690421628538282,
	"learning_rate": 1.9888812145428172e-05,
	"loss": 0.7793,
	"step": 71
	},
	{
	"epoch": 0.43902439024390244,
	"grad_norm": 0.16284982763895423,
	"learning_rate": 1.9877992796447604e-05,
	"loss": 0.6833,
	"step": 72
	},
	{
	"epoch": 0.4451219512195122,
	"grad_norm": 0.14309181240903507,
	"learning_rate": 1.9866674422719666e-05,
	"loss": 0.6706,
	"step": 73
	},
	{
	"epoch": 0.45121951219512196,
	"grad_norm": 0.15477185844290706,
	"learning_rate": 1.9854857596035476e-05,
	"loss": 0.7312,
	"step": 74
	},
	{
	"epoch": 0.4573170731707317,
	"grad_norm": 0.1293717417561759,
	"learning_rate": 1.984254291336743e-05,
	"loss": 0.6589,
	"step": 75
	},
	{
	"epoch": 0.4634146341463415,
	"grad_norm": 0.12123882539222287,
	"learning_rate": 1.982973099683902e-05,
	"loss": 0.62,
	"step": 76
	},
	{
	"epoch": 0.4695121951219512,
	"grad_norm": 0.13924219962219428,
	"learning_rate": 1.9816422493693417e-05,
	"loss": 0.7501,
	"step": 77
	},
	{
	"epoch": 0.47560975609756095,
	"grad_norm": 0.11917935845470132,
	"learning_rate": 1.9802618076260784e-05,
	"loss": 0.6819,
	"step": 78
	},
	{
	"epoch": 0.4817073170731707,
	"grad_norm": 0.11800076531829735,
	"learning_rate": 1.9788318441924276e-05,
	"loss": 0.615,
	"step": 79
	},
	{
	"epoch": 0.4878048780487805,
	"grad_norm": 0.11971198977185014,
	"learning_rate": 1.9773524313084857e-05,
	"loss": 0.6414,
	"step": 80
	},
	{
	"epoch": 0.49390243902439024,
	"grad_norm": 0.13027819783391864,
	"learning_rate": 1.9758236437124768e-05,
	"loss": 0.6463,
	"step": 81
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.12460980978522168,
	"learning_rate": 1.9742455586369786e-05,
	"loss": 0.6529,
	"step": 82
	},
	{
	"epoch": 0.5060975609756098,
	"grad_norm": 0.13756050372643888,
	"learning_rate": 1.972618255805019e-05,
	"loss": 0.7114,
	"step": 83
	},
	{
	"epoch": 0.5121951219512195,
	"grad_norm": 0.12522657328282585,
	"learning_rate": 1.9709418174260523e-05,
	"loss": 0.6289,
	"step": 84
	},
	{
	"epoch": 0.5182926829268293,
	"grad_norm": 0.12334790238705769,
	"learning_rate": 1.9692163281918016e-05,
	"loss": 0.6985,
	"step": 85
	},
	{
	"epoch": 0.524390243902439,
	"grad_norm": 0.10972400668603455,
	"learning_rate": 1.9674418752719835e-05,
	"loss": 0.6453,
	"step": 86
	},
	{
	"epoch": 0.5304878048780488,
	"grad_norm": 0.10309779127439034,
	"learning_rate": 1.9656185483099027e-05,
	"loss": 0.6347,
	"step": 87
	},
	{
	"epoch": 0.5365853658536586,
	"grad_norm": 0.10717651442117264,
	"learning_rate": 1.963746439417924e-05,
	"loss": 0.6389,
	"step": 88
	},
	{
	"epoch": 0.5426829268292683,
	"grad_norm": 0.10108518878859295,
	"learning_rate": 1.961825643172819e-05,
	"loss": 0.6449,
	"step": 89
	},
	{
	"epoch": 0.5487804878048781,
	"grad_norm": 0.10582770991792313,
	"learning_rate": 1.959856256610988e-05,
	"loss": 0.6407,
	"step": 90
	},
	{
	"epoch": 0.5548780487804879,
	"grad_norm": 0.09805540518718314,
	"learning_rate": 1.9578383792235573e-05,
	"loss": 0.6146,
	"step": 91
	},
	{
	"epoch": 0.5609756097560976,
	"grad_norm": 0.09178135236393883,
	"learning_rate": 1.9557721129513538e-05,
	"loss": 0.5477,
	"step": 92
	},
	{
	"epoch": 0.5670731707317073,
	"grad_norm": 0.09658702034736838,
	"learning_rate": 1.9536575621797546e-05,
	"loss": 0.5892,
	"step": 93
	},
	{
	"epoch": 0.573170731707317,
	"grad_norm": 0.09736462601933246,
	"learning_rate": 1.9514948337334144e-05,
	"loss": 0.6138,
	"step": 94
	},
	{
	"epoch": 0.5792682926829268,
	"grad_norm": 0.08905830955745823,
	"learning_rate": 1.9492840368708668e-05,
	"loss": 0.5399,
	"step": 95
	},
	{
	"epoch": 0.5853658536585366,
	"grad_norm": 0.09660552709108973,
	"learning_rate": 1.947025283279008e-05,
	"loss": 0.6364,
	"step": 96
	},
	{
	"epoch": 0.5914634146341463,
	"grad_norm": 0.09133915004182258,
	"learning_rate": 1.9447186870674505e-05,
	"loss": 0.5921,
	"step": 97
	},
	{
	"epoch": 0.5975609756097561,
	"grad_norm": 0.0933997331456134,
	"learning_rate": 1.9423643647627625e-05,
	"loss": 0.6915,
	"step": 98
	},
	{
	"epoch": 0.6036585365853658,
	"grad_norm": 0.08353569640772877,
	"learning_rate": 1.9399624353025774e-05,
	"loss": 0.6408,
	"step": 99
	},
	{
	"epoch": 0.6097560975609756,
	"grad_norm": 0.08634151989354441,
	"learning_rate": 1.937513020029588e-05,
	"loss": 0.5963,
	"step": 100
	},
	{
	"epoch": 0.6158536585365854,
	"grad_norm": 0.08898929542438962,
	"learning_rate": 1.9350162426854152e-05,
	"loss": 0.595,
	"step": 101
	},
	{
	"epoch": 0.6219512195121951,
	"grad_norm": 0.08305460595097429,
	"learning_rate": 1.932472229404356e-05,
	"loss": 0.5669,
	"step": 102
	},
	{
	"epoch": 0.6280487804878049,
	"grad_norm": 0.08888872021259317,
	"learning_rate": 1.9298811087070134e-05,
	"loss": 0.6165,
	"step": 103
	},
	{
	"epoch": 0.6341463414634146,
	"grad_norm": 0.08058144202586265,
	"learning_rate": 1.9272430114938018e-05,
	"loss": 0.5728,
	"step": 104
	},
	{
	"epoch": 0.6402439024390244,
	"grad_norm": 0.08217790638268045,
	"learning_rate": 1.9245580710383344e-05,
	"loss": 0.577,
	"step": 105
	},
	{
	"epoch": 0.6463414634146342,
	"grad_norm": 0.07659807407519503,
	"learning_rate": 1.9218264229806917e-05,
	"loss": 0.5881,
	"step": 106
	},
	{
	"epoch": 0.6524390243902439,
	"grad_norm": 0.07540223196226505,
	"learning_rate": 1.9190482053205673e-05,
	"loss": 0.62,
	"step": 107
	},
	{
	"epoch": 0.6585365853658537,
	"grad_norm": 0.08107411301661235,
	"learning_rate": 1.9162235584102973e-05,
	"loss": 0.6488,
	"step": 108
	},
	{
	"epoch": 0.6646341463414634,
	"grad_norm": 0.07719107791626204,
	"learning_rate": 1.91335262494777e-05,
	"loss": 0.5771,
	"step": 109
	},
	{
	"epoch": 0.6707317073170732,
	"grad_norm": 0.08173053132540807,
	"learning_rate": 1.9104355499692166e-05,
	"loss": 0.5666,
	"step": 110
	},
	{
	"epoch": 0.676829268292683,
	"grad_norm": 0.07965621160015979,
	"learning_rate": 1.9074724808418837e-05,
	"loss": 0.6113,
	"step": 111
	},
	{
	"epoch": 0.6829268292682927,
	"grad_norm": 0.08980818058271649,
	"learning_rate": 1.9044635672565898e-05,
	"loss": 0.6089,
	"step": 112
	},
	{
	"epoch": 0.6890243902439024,
	"grad_norm": 0.07194337673119468,
	"learning_rate": 1.9014089612201612e-05,
	"loss": 0.5728,
	"step": 113
	},
	{
	"epoch": 0.6951219512195121,
	"grad_norm": 0.08706992381814065,
	"learning_rate": 1.8983088170477556e-05,
	"loss": 0.7144,
	"step": 114
	},
	{
	"epoch": 0.7012195121951219,
	"grad_norm": 0.06652366663030163,
	"learning_rate": 1.8951632913550625e-05,
	"loss": 0.5026,
	"step": 115
	},
	{
	"epoch": 0.7073170731707317,
	"grad_norm": 0.07192252823061802,
	"learning_rate": 1.8919725430503946e-05,
	"loss": 0.5533,
	"step": 116
	},
	{
	"epoch": 0.7134146341463414,
	"grad_norm": 0.08014714412171235,
	"learning_rate": 1.888736733326658e-05,
	"loss": 0.6077,
	"step": 117
	},
	{
	"epoch": 0.7195121951219512,
	"grad_norm": 0.0751151009465322,
	"learning_rate": 1.8854560256532098e-05,
	"loss": 0.5554,
	"step": 118
	},
	{
	"epoch": 0.725609756097561,
	"grad_norm": 0.08384104993084439,
	"learning_rate": 1.8821305857675997e-05,
	"loss": 0.6079,
	"step": 119
	},
	{
	"epoch": 0.7317073170731707,
	"grad_norm": 0.07596092975802397,
	"learning_rate": 1.8787605816671956e-05,
	"loss": 0.6262,
	"step": 120
	},
	{
	"epoch": 0.7378048780487805,
	"grad_norm": 0.06984378368031652,
	"learning_rate": 1.875346183600699e-05,
	"loss": 0.5579,
	"step": 121
	},
	{
	"epoch": 0.7439024390243902,
	"grad_norm": 0.06972708877396938,
	"learning_rate": 1.8718875640595432e-05,
	"loss": 0.5568,
	"step": 122
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.0708625905901818,
	"learning_rate": 1.8683848977691784e-05,
	"loss": 0.582,
	"step": 123
	},
	{
	"epoch": 0.7560975609756098,
	"grad_norm": 0.07712676436551813,
	"learning_rate": 1.864838361680247e-05,
	"loss": 0.5935,
	"step": 124
	},
	{
	"epoch": 0.7621951219512195,
	"grad_norm": 0.06823828416067228,
	"learning_rate": 1.8612481349596406e-05,
	"loss": 0.5503,
	"step": 125
	},
	{
	"epoch": 0.7682926829268293,
	"grad_norm": 0.07681189237975657,
	"learning_rate": 1.8576143989814524e-05,
	"loss": 0.6412,
	"step": 126
	},
	{
	"epoch": 0.774390243902439,
	"grad_norm": 0.06850293773437466,
	"learning_rate": 1.8539373373178126e-05,
	"loss": 0.5771,
	"step": 127
	},
	{
	"epoch": 0.7804878048780488,
	"grad_norm": 0.06791710528546226,
	"learning_rate": 1.8502171357296144e-05,
	"loss": 0.6076,
	"step": 128
	},
	{
	"epoch": 0.7865853658536586,
	"grad_norm": 0.06599767271998445,
	"learning_rate": 1.8464539821571302e-05,
	"loss": 0.5583,
	"step": 129
	},
	{
	"epoch": 0.7926829268292683,
	"grad_norm": 0.07021764659304032,
	"learning_rate": 1.8426480667105178e-05,
	"loss": 0.5439,
	"step": 130
	},
	{
	"epoch": 0.7987804878048781,
	"grad_norm": 0.06809097796108884,
	"learning_rate": 1.8387995816602137e-05,
	"loss": 0.5584,
	"step": 131
	},
	{
	"epoch": 0.8048780487804879,
	"grad_norm": 0.07552768082187959,
	"learning_rate": 1.8349087214272222e-05,
	"loss": 0.6235,
	"step": 132
	},
	{
	"epoch": 0.8109756097560976,
	"grad_norm": 0.07388542257010466,
	"learning_rate": 1.830975682573293e-05,
	"loss": 0.5605,
	"step": 133
	},
	{
	"epoch": 0.8170731707317073,
	"grad_norm": 0.0734139769106561,
	"learning_rate": 1.8270006637909907e-05,
	"loss": 0.4911,
	"step": 134
	},
	{
	"epoch": 0.823170731707317,
	"grad_norm": 0.06661902834297227,
	"learning_rate": 1.8229838658936566e-05,
	"loss": 0.5263,
	"step": 135
	},
	{
	"epoch": 0.8292682926829268,
	"grad_norm": 0.08000530324170357,
	"learning_rate": 1.818925491805265e-05,
	"loss": 0.6063,
	"step": 136
	},
	{
	"epoch": 0.8353658536585366,
	"grad_norm": 0.06955587209390625,
	"learning_rate": 1.8148257465501718e-05,
	"loss": 0.5664,
	"step": 137
	},
	{
	"epoch": 0.8414634146341463,
	"grad_norm": 0.06999764411415345,
	"learning_rate": 1.810684837242755e-05,
	"loss": 0.5731,
	"step": 138
	},
	{
	"epoch": 0.8475609756097561,
	"grad_norm": 0.07392487537186451,
	"learning_rate": 1.8065029730769534e-05,
	"loss": 0.5771,
	"step": 139
	},
	{
	"epoch": 0.8536585365853658,
	"grad_norm": 0.07023462293275694,
	"learning_rate": 1.8022803653156983e-05,
	"loss": 0.5586,
	"step": 140
	},
	{
	"epoch": 0.8597560975609756,
	"grad_norm": 0.0754370714846295,
	"learning_rate": 1.7980172272802398e-05,
	"loss": 0.5386,
	"step": 141
	},
	{
	"epoch": 0.8658536585365854,
	"grad_norm": 0.06014064520411485,
	"learning_rate": 1.7937137743393695e-05,
	"loss": 0.5019,
	"step": 142
	},
	{
	"epoch": 0.8719512195121951,
	"grad_norm": 0.0684039280130895,
	"learning_rate": 1.7893702238985433e-05,
	"loss": 0.5593,
	"step": 143
	},
	{
	"epoch": 0.8780487804878049,
	"grad_norm": 0.07523983909087964,
	"learning_rate": 1.784986795388895e-05,
	"loss": 0.608,
	"step": 144
	},
	{
	"epoch": 0.8841463414634146,
	"grad_norm": 0.06631906454003386,
	"learning_rate": 1.7805637102561516e-05,
	"loss": 0.5496,
	"step": 145
	},
	{
	"epoch": 0.8902439024390244,
	"grad_norm": 0.06861615150079985,
	"learning_rate": 1.776101191949449e-05,
	"loss": 0.543,
	"step": 146
	},
	{
	"epoch": 0.8963414634146342,
	"grad_norm": 0.06396979787588344,
	"learning_rate": 1.771599465910039e-05,
	"loss": 0.565,
	"step": 147
	},
	{
	"epoch": 0.9024390243902439,
	"grad_norm": 0.06363428283758014,
	"learning_rate": 1.7670587595599034e-05,
	"loss": 0.5657,
	"step": 148
	},
	{
	"epoch": 0.9085365853658537,
	"grad_norm": 0.06397911394577013,
	"learning_rate": 1.7624793022902648e-05,
	"loss": 0.5343,
	"step": 149
	},
	{
	"epoch": 0.9146341463414634,
	"grad_norm": 0.06974823526096927,
	"learning_rate": 1.757861325449997e-05,
	"loss": 0.5022,
	"step": 150
	},
	{
	"epoch": 0.9207317073170732,
	"grad_norm": 0.06210202598875651,
	"learning_rate": 1.753205062333937e-05,
	"loss": 0.486,
	"step": 151
	},
	{
	"epoch": 0.926829268292683,
	"grad_norm": 0.07077403367537935,
	"learning_rate": 1.7485107481711014e-05,
	"loss": 0.4869,
	"step": 152
	},
	{
	"epoch": 0.9329268292682927,
	"grad_norm": 0.06531115051828462,
	"learning_rate": 1.7437786201128003e-05,
	"loss": 0.5544,
	"step": 153
	},
	{
	"epoch": 0.9390243902439024,
	"grad_norm": 0.0705614281634583,
	"learning_rate": 1.7390089172206594e-05,
	"loss": 0.5951,
	"step": 154
	},
	{
	"epoch": 0.9451219512195121,
	"grad_norm": 0.08044467420017791,
	"learning_rate": 1.73420188045454e-05,
	"loss": 0.5882,
	"step": 155
	},
	{
	"epoch": 0.9512195121951219,
	"grad_norm": 0.06778031094228984,
	"learning_rate": 1.7293577526603684e-05,
	"loss": 0.5307,
	"step": 156
	},
	{
	"epoch": 0.9573170731707317,
	"grad_norm": 0.07735829065491621,
	"learning_rate": 1.724476778557866e-05,
	"loss": 0.5803,
	"step": 157
	},
	{
	"epoch": 0.9634146341463414,
	"grad_norm": 0.06740940804822154,
	"learning_rate": 1.719559204728188e-05,
	"loss": 0.517,
	"step": 158
	},
	{
	"epoch": 0.9695121951219512,
	"grad_norm": 0.07639960491412072,
	"learning_rate": 1.7146052796014646e-05,
	"loss": 0.5753,
	"step": 159
	},
	{
	"epoch": 0.975609756097561,
	"grad_norm": 0.061081285281898906,
	"learning_rate": 1.7096152534442515e-05,
	"loss": 0.4686,
	"step": 160
	},
	{
	"epoch": 0.9817073170731707,
	"grad_norm": 0.06793168030335978,
	"learning_rate": 1.704589378346886e-05,
	"loss": 0.5447,
	"step": 161
	},
	{
	"epoch": 0.9878048780487805,
	"grad_norm": 0.07395695811692952,
	"learning_rate": 1.6995279082107537e-05,
	"loss": 0.5657,
	"step": 162
	},
	{
	"epoch": 0.9939024390243902,
	"grad_norm": 0.065555783375453,
	"learning_rate": 1.6944310987354597e-05,
	"loss": 0.5449,
	"step": 163
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.07050013910319028,
	"learning_rate": 1.689299207405911e-05,
	"loss": 0.5184,
	"step": 164
	},
	{
	"epoch": 1.0060975609756098,
	"grad_norm": 0.0733901169113276,
	"learning_rate": 1.6841324934793096e-05,
	"loss": 0.5226,
	"step": 165
	},
	{
	"epoch": 1.0121951219512195,
	"grad_norm": 0.06589566948346295,
	"learning_rate": 1.678931217972055e-05,
	"loss": 0.4873,
	"step": 166
	},
	{
	"epoch": 1.0182926829268293,
	"grad_norm": 0.07475734276172114,
	"learning_rate": 1.6736956436465573e-05,
	"loss": 0.4827,
	"step": 167
	},
	{
	"epoch": 1.024390243902439,
	"grad_norm": 0.058903086819527835,
	"learning_rate": 1.6684260349979637e-05,
	"loss": 0.5053,
	"step": 168
	},
	{
	"epoch": 1.0304878048780488,
	"grad_norm": 0.06353582735567607,
	"learning_rate": 1.6631226582407954e-05,
	"loss": 0.5482,
	"step": 169
	},
	{
	"epoch": 1.0365853658536586,
	"grad_norm": 0.06380787517800868,
	"learning_rate": 1.6577857812954994e-05,
	"loss": 0.5248,
	"step": 170
	},
	{
	"epoch": 1.0426829268292683,
	"grad_norm": 0.06730058327208745,
	"learning_rate": 1.6524156737749132e-05,
	"loss": 0.4964,
	"step": 171
	},
	{
	"epoch": 1.048780487804878,
	"grad_norm": 0.06293892448460658,
	"learning_rate": 1.6470126069706456e-05,
	"loss": 0.5168,
	"step": 172
	},
	{
	"epoch": 1.0548780487804879,
	"grad_norm": 0.0694624094267741,
	"learning_rate": 1.641576853839369e-05,
	"loss": 0.5526,
	"step": 173
	},
	{
	"epoch": 1.0609756097560976,
	"grad_norm": 0.06478295672497261,
	"learning_rate": 1.6361086889890307e-05,
	"loss": 0.4853,
	"step": 174
	},
	{
	"epoch": 1.0670731707317074,
	"grad_norm": 0.06608027299921394,
	"learning_rate": 1.6306083886649823e-05,
	"loss": 0.5226,
	"step": 175
	},
	{
	"epoch": 1.0731707317073171,
	"grad_norm": 0.06681662898135733,
	"learning_rate": 1.6250762307360206e-05,
	"loss": 0.537,
	"step": 176
	},
	{
	"epoch": 1.079268292682927,
	"grad_norm": 0.06053711484659685,
	"learning_rate": 1.6195124946803527e-05,
	"loss": 0.4683,
	"step": 177
	},
	{
	"epoch": 1.0853658536585367,
	"grad_norm": 0.07013371267663553,
	"learning_rate": 1.6139174615714753e-05,
	"loss": 0.5767,
	"step": 178
	},
	{
	"epoch": 1.0914634146341464,
	"grad_norm": 0.06617676868427722,
	"learning_rate": 1.6082914140639768e-05,
	"loss": 0.5357,
	"step": 179
	},
	{
	"epoch": 1.0975609756097562,
	"grad_norm": 0.06805254845313483,
	"learning_rate": 1.6026346363792565e-05,
	"loss": 0.5179,
	"step": 180
	},
	{
	"epoch": 1.103658536585366,
	"grad_norm": 0.06882718691143014,
	"learning_rate": 1.596947414291167e-05,
	"loss": 0.5665,
	"step": 181
	},
	{
	"epoch": 1.1097560975609757,
	"grad_norm": 0.06329003072823183,
	"learning_rate": 1.591230035111576e-05,
	"loss": 0.512,
	"step": 182
	},
	{
	"epoch": 1.1158536585365855,
	"grad_norm": 0.06713658217392786,
	"learning_rate": 1.5854827876758535e-05,
	"loss": 0.4958,
	"step": 183
	},
	{
	"epoch": 1.1219512195121952,
	"grad_norm": 0.0677868436901709,
	"learning_rate": 1.5797059623282787e-05,
	"loss": 0.4715,
	"step": 184
	},
	{
	"epoch": 1.1280487804878048,
	"grad_norm": 0.06613758460632664,
	"learning_rate": 1.573899850907373e-05,
	"loss": 0.4829,
	"step": 185
	},
	{
	"epoch": 1.1341463414634148,
	"grad_norm": 0.06887716201911288,
	"learning_rate": 1.568064746731156e-05,
	"loss": 0.5418,
	"step": 186
	},
	{
	"epoch": 1.1402439024390243,
	"grad_norm": 0.07682982503987941,
	"learning_rate": 1.5622009445823274e-05,
	"loss": 0.5929,
	"step": 187
	},
	{
	"epoch": 1.146341463414634,
	"grad_norm": 0.06571420924574008,
	"learning_rate": 1.5563087406933762e-05,
	"loss": 0.511,
	"step": 188
	},
	{
	"epoch": 1.1524390243902438,
	"grad_norm": 0.0664511649725902,
	"learning_rate": 1.550388432731613e-05,
	"loss": 0.4558,
	"step": 189
	},
	{
	"epoch": 1.1585365853658536,
	"grad_norm": 0.07492574855512298,
	"learning_rate": 1.5444403197841345e-05,
	"loss": 0.5396,
	"step": 190
	},
	{
	"epoch": 1.1646341463414633,
	"grad_norm": 0.07122982585751268,
	"learning_rate": 1.5384647023427136e-05,
	"loss": 0.5301,
	"step": 191
	},
	{
	"epoch": 1.170731707317073,
	"grad_norm": 0.0658921691477124,
	"learning_rate": 1.5324618822886167e-05,
	"loss": 0.4947,
	"step": 192
	},
	{
	"epoch": 1.1768292682926829,
	"grad_norm": 0.07813967262256015,
	"learning_rate": 1.526432162877356e-05,
	"loss": 0.5522,
	"step": 193
	},
	{
	"epoch": 1.1829268292682926,
	"grad_norm": 0.06731988936901052,
	"learning_rate": 1.5203758487233677e-05,
	"loss": 0.476,
	"step": 194
	},
	{
	"epoch": 1.1890243902439024,
	"grad_norm": 0.07228505085779448,
	"learning_rate": 1.514293245784623e-05,
	"loss": 0.5278,
	"step": 195
	},
	{
	"epoch": 1.1951219512195121,
	"grad_norm": 0.07452980948980172,
	"learning_rate": 1.5081846613471736e-05,
	"loss": 0.5773,
	"step": 196
	},
	{
	"epoch": 1.201219512195122,
	"grad_norm": 0.06955858620563475,
	"learning_rate": 1.5020504040096241e-05,
	"loss": 0.5147,
	"step": 197
	},
	{
	"epoch": 1.2073170731707317,
	"grad_norm": 0.07065384450910228,
	"learning_rate": 1.4958907836675467e-05,
	"loss": 0.5275,
	"step": 198
	},
	{
	"epoch": 1.2134146341463414,
	"grad_norm": 0.07110195242202547,
	"learning_rate": 1.489706111497821e-05,
	"loss": 0.4819,
	"step": 199
	},
	{
	"epoch": 1.2195121951219512,
	"grad_norm": 0.06820779355050262,
	"learning_rate": 1.4834966999429179e-05,
	"loss": 0.521,
	"step": 200
	},
	{
	"epoch": 1.225609756097561,
	"grad_norm": 0.06964782085920465,
	"learning_rate": 1.4772628626951114e-05,
	"loss": 0.5234,
	"step": 201
	},
	{
	"epoch": 1.2317073170731707,
	"grad_norm": 0.06930582742745629,
	"learning_rate": 1.4710049146806348e-05,
	"loss": 0.4911,
	"step": 202
	},
	{
	"epoch": 1.2378048780487805,
	"grad_norm": 0.06741877286597113,
	"learning_rate": 1.4647231720437687e-05,
	"loss": 0.5215,
	"step": 203
	},
	{
	"epoch": 1.2439024390243902,
	"grad_norm": 0.06792423855223992,
	"learning_rate": 1.4584179521308703e-05,
	"loss": 0.5117,
	"step": 204
	},
	{
	"epoch": 1.25,
	"grad_norm": 0.07167343063555995,
	"learning_rate": 1.4520895734743419e-05,
	"loss": 0.538,
	"step": 205
	},
	{
	"epoch": 1.2560975609756098,
	"grad_norm": 0.07256282666966574,
	"learning_rate": 1.4457383557765385e-05,
	"loss": 0.5529,
	"step": 206
	},
	{
	"epoch": 1.2621951219512195,
	"grad_norm": 0.06757284467612035,
	"learning_rate": 1.4393646198936169e-05,
	"loss": 0.4892,
	"step": 207
	},
	{
	"epoch": 1.2682926829268293,
	"grad_norm": 0.07188557520197532,
	"learning_rate": 1.4329686878193271e-05,
	"loss": 0.5602,
	"step": 208
	},
	{
	"epoch": 1.274390243902439,
	"grad_norm": 0.07747770661719462,
	"learning_rate": 1.4265508826687442e-05,
	"loss": 0.5658,
	"step": 209
	},
	{
	"epoch": 1.2804878048780488,
	"grad_norm": 0.06809716748651344,
	"learning_rate": 1.4201115286619464e-05,
	"loss": 0.4713,
	"step": 210
	},
	{
	"epoch": 1.2865853658536586,
	"grad_norm": 0.07448043410586613,
	"learning_rate": 1.4136509511076347e-05,
	"loss": 0.5311,
	"step": 211
	},
	{
	"epoch": 1.2926829268292683,
	"grad_norm": 0.08085706529770824,
	"learning_rate": 1.4071694763866988e-05,
	"loss": 0.5617,
	"step": 212
	},
	{
	"epoch": 1.298780487804878,
	"grad_norm": 0.0728263083382011,
	"learning_rate": 1.4006674319357298e-05,
	"loss": 0.4792,
	"step": 213
	},
	{
	"epoch": 1.3048780487804879,
	"grad_norm": 0.0670268791274602,
	"learning_rate": 1.3941451462304778e-05,
	"loss": 0.4675,
	"step": 214
	},
	{
	"epoch": 1.3109756097560976,
	"grad_norm": 0.08039512209656642,
	"learning_rate": 1.387602948769257e-05,
	"loss": 0.5056,
	"step": 215
	},
	{
	"epoch": 1.3170731707317074,
	"grad_norm": 0.06817800650730356,
	"learning_rate": 1.3810411700563005e-05,
	"loss": 0.4739,
	"step": 216
	},
	{
	"epoch": 1.3231707317073171,
	"grad_norm": 0.07057112884463199,
	"learning_rate": 1.3744601415850637e-05,
	"loss": 0.5573,
	"step": 217
	},
	{
	"epoch": 1.329268292682927,
	"grad_norm": 0.06981321032667759,
	"learning_rate": 1.3678601958214779e-05,
	"loss": 0.5014,
	"step": 218
	},
	{
	"epoch": 1.3353658536585367,
	"grad_norm": 0.06993357941167098,
	"learning_rate": 1.3612416661871532e-05,
	"loss": 0.524,
	"step": 219
	},
	{
	"epoch": 1.3414634146341464,
	"grad_norm": 0.06483182405879527,
	"learning_rate": 1.3546048870425356e-05,
	"loss": 0.4806,
	"step": 220
	},
	{
	"epoch": 1.3475609756097562,
	"grad_norm": 0.07027433088183081,
	"learning_rate": 1.3479501936700161e-05,
	"loss": 0.4944,
	"step": 221
	},
	{
	"epoch": 1.3536585365853657,
	"grad_norm": 0.08129330060634665,
	"learning_rate": 1.3412779222569907e-05,
	"loss": 0.5541,
	"step": 222
	},
	{
	"epoch": 1.3597560975609757,
	"grad_norm": 0.06825577692381518,
	"learning_rate": 1.3345884098788775e-05,
	"loss": 0.473,
	"step": 223
	},
	{
	"epoch": 1.3658536585365852,
	"grad_norm": 0.06613216751504289,
	"learning_rate": 1.3278819944820893e-05,
	"loss": 0.4318,
	"step": 224
	},
	{
	"epoch": 1.3719512195121952,
	"grad_norm": 0.07283827698992242,
	"learning_rate": 1.3211590148669586e-05,
	"loss": 0.5125,
	"step": 225
	},
	{
	"epoch": 1.3780487804878048,
	"grad_norm": 0.06892969965848932,
	"learning_rate": 1.314419810670624e-05,
	"loss": 0.4533,
	"step": 226
	},
	{
	"epoch": 1.3841463414634148,
	"grad_norm": 0.07855732769188979,
	"learning_rate": 1.3076647223498703e-05,
	"loss": 0.5461,
	"step": 227
	},
	{
	"epoch": 1.3902439024390243,
	"grad_norm": 0.07382325404677605,
	"learning_rate": 1.3008940911639302e-05,
	"loss": 0.4379,
	"step": 228
	},
	{
	"epoch": 1.3963414634146343,
	"grad_norm": 0.07190670195425049,
	"learning_rate": 1.2941082591572443e-05,
	"loss": 0.533,
	"step": 229
	},
	{
	"epoch": 1.4024390243902438,
	"grad_norm": 0.06888657163333817,
	"learning_rate": 1.2873075691421808e-05,
	"loss": 0.5146,
	"step": 230
	},
	{
	"epoch": 1.4085365853658536,
	"grad_norm": 0.06879068933807653,
	"learning_rate": 1.2804923646817169e-05,
	"loss": 0.542,
	"step": 231
	},
	{
	"epoch": 1.4146341463414633,
	"grad_norm": 0.06316663754312257,
	"learning_rate": 1.2736629900720832e-05,
	"loss": 0.4763,
	"step": 232
	},
	{
	"epoch": 1.420731707317073,
	"grad_norm": 0.0745177281343944,
	"learning_rate": 1.2668197903253694e-05,
	"loss": 0.5063,
	"step": 233
	},
	{
	"epoch": 1.4268292682926829,
	"grad_norm": 0.07549236104105322,
	"learning_rate": 1.2599631111520956e-05,
	"loss": 0.4871,
	"step": 234
	},
	{
	"epoch": 1.4329268292682926,
	"grad_norm": 0.07608890942436555,
	"learning_rate": 1.2530932989437463e-05,
	"loss": 0.5216,
	"step": 235
	},
	{
	"epoch": 1.4390243902439024,
	"grad_norm": 0.08852428564425496,
	"learning_rate": 1.2462107007552726e-05,
	"loss": 0.5814,
	"step": 236
	},
	{
	"epoch": 1.4451219512195121,
	"grad_norm": 0.07169927489263321,
	"learning_rate": 1.2393156642875579e-05,
	"loss": 0.5097,
	"step": 237
	},
	{
	"epoch": 1.451219512195122,
	"grad_norm": 0.0714844858843735,
	"learning_rate": 1.2324085378698529e-05,
	"loss": 0.4943,
	"step": 238
	},
	{
	"epoch": 1.4573170731707317,
	"grad_norm": 0.07303490526979263,
	"learning_rate": 1.2254896704421789e-05,
	"loss": 0.5254,
	"step": 239
	},
	{
	"epoch": 1.4634146341463414,
	"grad_norm": 0.07649861873490388,
	"learning_rate": 1.2185594115376991e-05,
	"loss": 0.4628,
	"step": 240
	},
	{
	"epoch": 1.4695121951219512,
	"grad_norm": 0.07968432654727967,
	"learning_rate": 1.211618111265061e-05,
	"loss": 0.5311,
	"step": 241
	},
	{
	"epoch": 1.475609756097561,
	"grad_norm": 0.08164340764032027,
	"learning_rate": 1.2046661202907101e-05,
	"loss": 0.5082,
	"step": 242
	},
	{
	"epoch": 1.4817073170731707,
	"grad_norm": 0.07536455518754334,
	"learning_rate": 1.1977037898211723e-05,
	"loss": 0.4963,
	"step": 243
	},
	{
	"epoch": 1.4878048780487805,
	"grad_norm": 0.07838988741024766,
	"learning_rate": 1.1907314715853138e-05,
	"loss": 0.4964,
	"step": 244
	},
	{
	"epoch": 1.4939024390243902,
	"grad_norm": 0.07681652298019655,
	"learning_rate": 1.1837495178165706e-05,
	"loss": 0.531,
	"step": 245
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.07585351296872528,
	"learning_rate": 1.176758281235155e-05,
	"loss": 0.4971,
	"step": 246
	},
	{
	"epoch": 1.5060975609756098,
	"grad_norm": 0.07391818296648663,
	"learning_rate": 1.1697581150302362e-05,
	"loss": 0.5189,
	"step": 247
	},
	{
	"epoch": 1.5121951219512195,
	"grad_norm": 0.07240466805493384,
	"learning_rate": 1.1627493728420978e-05,
	"loss": 0.4696,
	"step": 248
	},
	{
	"epoch": 1.5182926829268293,
	"grad_norm": 0.07336052530563156,
	"learning_rate": 1.1557324087442719e-05,
	"loss": 0.5158,
	"step": 249
	},
	{
	"epoch": 1.524390243902439,
	"grad_norm": 0.0734922713913184,
	"learning_rate": 1.1487075772256517e-05,
	"loss": 0.5013,
	"step": 250
	},
	{
	"epoch": 1.5304878048780488,
	"grad_norm": 0.07041146771920755,
	"learning_rate": 1.1416752331725842e-05,
	"loss": 0.4925,
	"step": 251
	},
	{
	"epoch": 1.5365853658536586,
	"grad_norm": 0.07749242303496245,
	"learning_rate": 1.1346357318509395e-05,
	"loss": 0.5115,
	"step": 252
	},
	{
	"epoch": 1.5426829268292683,
	"grad_norm": 0.06688029575585173,
	"learning_rate": 1.1275894288881664e-05,
	"loss": 0.434,
	"step": 253
	},
	{
	"epoch": 1.548780487804878,
	"grad_norm": 0.07880736062509318,
	"learning_rate": 1.1205366802553231e-05,
	"loss": 0.513,
	"step": 254
	},
	{
	"epoch": 1.5548780487804879,
	"grad_norm": 0.07925969227352526,
	"learning_rate": 1.1134778422490971e-05,
	"loss": 0.5467,
	"step": 255
	},
	{
	"epoch": 1.5609756097560976,
	"grad_norm": 0.07331952124747425,
	"learning_rate": 1.1064132714738024e-05,
	"loss": 0.5394,
	"step": 256
	},
	{
	"epoch": 1.5670731707317072,
	"grad_norm": 0.06881324378789994,
	"learning_rate": 1.0993433248233672e-05,
	"loss": 0.481,
	"step": 257
	},
	{
	"epoch": 1.5731707317073171,
	"grad_norm": 0.0760805406679711,
	"learning_rate": 1.092268359463302e-05,
	"loss": 0.4998,
	"step": 258
	},
	{
	"epoch": 1.5792682926829267,
	"grad_norm": 0.0723622186584405,
	"learning_rate": 1.0851887328126569e-05,
	"loss": 0.4989,
	"step": 259
	},
	{
	"epoch": 1.5853658536585367,
	"grad_norm": 0.0691805814488331,
	"learning_rate": 1.0781048025259648e-05,
	"loss": 0.4491,
	"step": 260
	},
	{
	"epoch": 1.5914634146341462,
	"grad_norm": 0.07332736517126122,
	"learning_rate": 1.0710169264751733e-05,
	"loss": 0.4767,
	"step": 261
	},
	{
	"epoch": 1.5975609756097562,
	"grad_norm": 0.07503167590781622,
	"learning_rate": 1.0639254627315658e-05,
	"loss": 0.5108,
	"step": 262
	},
	{
	"epoch": 1.6036585365853657,
	"grad_norm": 0.07676152916231047,
	"learning_rate": 1.0568307695476712e-05,
	"loss": 0.5324,
	"step": 263
	},
	{
	"epoch": 1.6097560975609757,
	"grad_norm": 0.0834575992691424,
	"learning_rate": 1.049733205339167e-05,
	"loss": 0.5628,
	"step": 264
	},
	{
	"epoch": 1.6158536585365852,
	"grad_norm": 0.07979828063308889,
	"learning_rate": 1.0426331286667701e-05,
	"loss": 0.5017,
	"step": 265
	},
	{
	"epoch": 1.6219512195121952,
	"grad_norm": 0.07227807983837574,
	"learning_rate": 1.0355308982181254e-05,
	"loss": 0.4286,
	"step": 266
	},
	{
	"epoch": 1.6280487804878048,
	"grad_norm": 0.08033151020781615,
	"learning_rate": 1.0284268727896833e-05,
	"loss": 0.4991,
	"step": 267
	},
	{
	"epoch": 1.6341463414634148,
	"grad_norm": 0.07726754814987509,
	"learning_rate": 1.0213214112685747e-05,
	"loss": 0.5663,
	"step": 268
	},
	{
	"epoch": 1.6402439024390243,
	"grad_norm": 0.06975489529697236,
	"learning_rate": 1.0142148726144807e-05,
	"loss": 0.4509,
	"step": 269
	},
	{
	"epoch": 1.6463414634146343,
	"grad_norm": 0.08607941878366727,
	"learning_rate": 1.0071076158414977e-05,
	"loss": 0.5012,
	"step": 270
	},
	{
	"epoch": 1.6524390243902438,
	"grad_norm": 0.07924808288315173,
	"learning_rate": 1e-05,
	"loss": 0.4968,
	"step": 271
	},
	{
	"epoch": 1.6585365853658538,
	"grad_norm": 0.07521641587131223,
	"learning_rate": 9.928923841585025e-06,
	"loss": 0.5333,
	"step": 272
	},
	{
	"epoch": 1.6646341463414633,
	"grad_norm": 0.0810914472998851,
	"learning_rate": 9.857851273855195e-06,
	"loss": 0.5256,
	"step": 273
	},
	{
	"epoch": 1.6707317073170733,
	"grad_norm": 0.07570611716859411,
	"learning_rate": 9.786785887314255e-06,
	"loss": 0.4844,
	"step": 274
	},
	{
	"epoch": 1.6768292682926829,
	"grad_norm": 0.08692043191937647,
	"learning_rate": 9.715731272103172e-06,
	"loss": 0.55,
	"step": 275
	},
	{
	"epoch": 1.6829268292682928,
	"grad_norm": 0.07549433485077096,
	"learning_rate": 9.644691017818752e-06,
	"loss": 0.4599,
	"step": 276
	},
	{
	"epoch": 1.6890243902439024,
	"grad_norm": 0.07013095295478262,
	"learning_rate": 9.573668713332305e-06,
	"loss": 0.4641,
	"step": 277
	},
	{
	"epoch": 1.6951219512195121,
	"grad_norm": 0.085732485667367,
	"learning_rate": 9.502667946608332e-06,
	"loss": 0.5409,
	"step": 278
	},
	{
	"epoch": 1.701219512195122,
	"grad_norm": 0.0786732581180552,
	"learning_rate": 9.43169230452329e-06,
	"loss": 0.5047,
	"step": 279
	},
	{
	"epoch": 1.7073170731707317,
	"grad_norm": 0.06973904067642213,
	"learning_rate": 9.360745372684346e-06,
	"loss": 0.4611,
	"step": 280
	},
	{
	"epoch": 1.7134146341463414,
	"grad_norm": 0.07149507221102347,
	"learning_rate": 9.289830735248269e-06,
	"loss": 0.5249,
	"step": 281
	},
	{
	"epoch": 1.7195121951219512,
	"grad_norm": 0.07598878917991338,
	"learning_rate": 9.218951974740354e-06,
	"loss": 0.53,
	"step": 282
	},
	{
	"epoch": 1.725609756097561,
	"grad_norm": 0.07880251948989025,
	"learning_rate": 9.148112671873433e-06,
	"loss": 0.5195,
	"step": 283
	},
	{
	"epoch": 1.7317073170731707,
	"grad_norm": 0.08006942318123801,
	"learning_rate": 9.07731640536698e-06,
	"loss": 0.4935,
	"step": 284
	},
	{
	"epoch": 1.7378048780487805,
	"grad_norm": 0.07419436980709716,
	"learning_rate": 9.00656675176633e-06,
	"loss": 0.5,
	"step": 285
	},
	{
	"epoch": 1.7439024390243902,
	"grad_norm": 0.07335821062357814,
	"learning_rate": 8.935867285261977e-06,
	"loss": 0.4689,
	"step": 286
	},
	{
	"epoch": 1.75,
	"grad_norm": 0.08300432948525868,
	"learning_rate": 8.865221577509034e-06,
	"loss": 0.5499,
	"step": 287
	},
	{
	"epoch": 1.7560975609756098,
	"grad_norm": 0.07414556420580612,
	"learning_rate": 8.79463319744677e-06,
	"loss": 0.5016,
	"step": 288
	},
	{
	"epoch": 1.7621951219512195,
	"grad_norm": 0.0777082606308814,
	"learning_rate": 8.724105711118342e-06,
	"loss": 0.5094,
	"step": 289
	},
	{
	"epoch": 1.7682926829268293,
	"grad_norm": 0.07879787724881869,
	"learning_rate": 8.653642681490608e-06,
	"loss": 0.504,
	"step": 290
	},
	{
	"epoch": 1.774390243902439,
	"grad_norm": 0.07782466491724375,
	"learning_rate": 8.583247668274163e-06,
	"loss": 0.4871,
	"step": 291
	},
	{
	"epoch": 1.7804878048780488,
	"grad_norm": 0.07959753822335783,
	"learning_rate": 8.512924227743482e-06,
	"loss": 0.4637,
	"step": 292
	},
	{
	"epoch": 1.7865853658536586,
	"grad_norm": 0.08403574176326123,
	"learning_rate": 8.442675912557281e-06,
	"loss": 0.4978,
	"step": 293
	},
	{
	"epoch": 1.7926829268292683,
	"grad_norm": 0.07506838029170206,
	"learning_rate": 8.372506271579022e-06,
	"loss": 0.4801,
	"step": 294
	},
	{
	"epoch": 1.798780487804878,
	"grad_norm": 0.08007620776198685,
	"learning_rate": 8.30241884969764e-06,
	"loss": 0.5467,
	"step": 295
	},
	{
	"epoch": 1.8048780487804879,
	"grad_norm": 0.07302138656473144,
	"learning_rate": 8.232417187648454e-06,
	"loss": 0.4591,
	"step": 296
	},
	{
	"epoch": 1.8109756097560976,
	"grad_norm": 0.07968477173539414,
	"learning_rate": 8.162504821834296e-06,
	"loss": 0.4869,
	"step": 297
	},
	{
	"epoch": 1.8170731707317072,
	"grad_norm": 0.07295556591701204,
	"learning_rate": 8.092685284146865e-06,
	"loss": 0.4857,
	"step": 298
	},
	{
	"epoch": 1.8231707317073171,
	"grad_norm": 0.0687852684162483,
	"learning_rate": 8.02296210178828e-06,
	"loss": 0.4376,
	"step": 299
	},
	{
	"epoch": 1.8292682926829267,
	"grad_norm": 0.07614301377824628,
	"learning_rate": 7.953338797092902e-06,
	"loss": 0.4687,
	"step": 300
	},
	{
	"epoch": 1.8353658536585367,
	"grad_norm": 0.08065344887657697,
	"learning_rate": 7.883818887349391e-06,
	"loss": 0.558,
	"step": 301
	},
	{
	"epoch": 1.8414634146341462,
	"grad_norm": 0.07537828658738212,
	"learning_rate": 7.814405884623012e-06,
	"loss": 0.4641,
	"step": 302
	},
	{
	"epoch": 1.8475609756097562,
	"grad_norm": 0.07520932682727934,
	"learning_rate": 7.745103295578216e-06,
	"loss": 0.4807,
	"step": 303
	},
	{
	"epoch": 1.8536585365853657,
	"grad_norm": 0.08194352024084861,
	"learning_rate": 7.675914621301476e-06,
	"loss": 0.5249,
	"step": 304
	},
	{
	"epoch": 1.8597560975609757,
	"grad_norm": 0.06548230309414133,
	"learning_rate": 7.606843357124426e-06,
	"loss": 0.4296,
	"step": 305
	},
	{
	"epoch": 1.8658536585365852,
	"grad_norm": 0.07539507791922381,
	"learning_rate": 7.5378929924472735e-06,
	"loss": 0.4906,
	"step": 306
	},
	{
	"epoch": 1.8719512195121952,
	"grad_norm": 0.07757046744416946,
	"learning_rate": 7.469067010562538e-06,
	"loss": 0.4764,
	"step": 307
	},
	{
	"epoch": 1.8780487804878048,
	"grad_norm": 0.08347451677435065,
	"learning_rate": 7.400368888479048e-06,
	"loss": 0.5079,
	"step": 308
	},
	{
	"epoch": 1.8841463414634148,
	"grad_norm": 0.09459522265909277,
	"learning_rate": 7.331802096746309e-06,
	"loss": 0.5622,
	"step": 309
	},
	{
	"epoch": 1.8902439024390243,
	"grad_norm": 0.07271276680988117,
	"learning_rate": 7.263370099279173e-06,
	"loss": 0.4646,
	"step": 310
	},
	{
	"epoch": 1.8963414634146343,
	"grad_norm": 0.07270944162582102,
	"learning_rate": 7.195076353182834e-06,
	"loss": 0.4824,
	"step": 311
	},
	{
	"epoch": 1.9024390243902438,
	"grad_norm": 0.07557182291040342,
	"learning_rate": 7.126924308578196e-06,
	"loss": 0.4434,
	"step": 312
	},
	{
	"epoch": 1.9085365853658538,
	"grad_norm": 0.07838104917336293,
	"learning_rate": 7.058917408427559e-06,
	"loss": 0.4969,
	"step": 313
	},
	{
	"epoch": 1.9146341463414633,
	"grad_norm": 0.0772118612308542,
	"learning_rate": 6.9910590883607e-06,
	"loss": 0.4897,
	"step": 314
	},
	{
	"epoch": 1.9207317073170733,
	"grad_norm": 0.06733566470669253,
	"learning_rate": 6.923352776501302e-06,
	"loss": 0.4541,
	"step": 315
	},
	{
	"epoch": 1.9268292682926829,
	"grad_norm": 0.07768052936426381,
	"learning_rate": 6.855801893293765e-06,
	"loss": 0.4746,
	"step": 316
	},
	{
	"epoch": 1.9329268292682928,
	"grad_norm": 0.07601549840390559,
	"learning_rate": 6.788409851330419e-06,
	"loss": 0.5037,
	"step": 317
	},
	{
	"epoch": 1.9390243902439024,
	"grad_norm": 0.08311022242797193,
	"learning_rate": 6.721180055179113e-06,
	"loss": 0.5478,
	"step": 318
	},
	{
	"epoch": 1.9451219512195121,
	"grad_norm": 0.07527262749855876,
	"learning_rate": 6.654115901211229e-06,
	"loss": 0.4801,
	"step": 319
	},
	{
	"epoch": 1.951219512195122,
	"grad_norm": 0.0819908930356081,
	"learning_rate": 6.587220777430097e-06,
	"loss": 0.5252,
	"step": 320
	},
	{
	"epoch": 1.9573170731707317,
	"grad_norm": 0.07276145316957822,
	"learning_rate": 6.5204980632998394e-06,
	"loss": 0.411,
	"step": 321
	},
	{
	"epoch": 1.9634146341463414,
	"grad_norm": 0.06904185307886326,
	"learning_rate": 6.453951129574644e-06,
	"loss": 0.4813,
	"step": 322
	},
	{
	"epoch": 1.9695121951219512,
	"grad_norm": 0.07458141714965788,
	"learning_rate": 6.387583338128471e-06,
	"loss": 0.5033,
	"step": 323
	},
	{
	"epoch": 1.975609756097561,
	"grad_norm": 0.07431900473667878,
	"learning_rate": 6.321398041785225e-06,
	"loss": 0.4907,
	"step": 324
	},
	{
	"epoch": 1.9817073170731707,
	"grad_norm": 0.07780066087542951,
	"learning_rate": 6.255398584149366e-06,
	"loss": 0.4902,
	"step": 325
	},
	{
	"epoch": 1.9878048780487805,
	"grad_norm": 0.07639692261752619,
	"learning_rate": 6.189588299436997e-06,
	"loss": 0.4978,
	"step": 326
	},
	{
	"epoch": 1.9939024390243902,
	"grad_norm": 0.07548995093210441,
	"learning_rate": 6.123970512307433e-06,
	"loss": 0.4664,
	"step": 327
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.0747178162965431,
	"learning_rate": 6.058548537695225e-06,
	"loss": 0.474,
	"step": 328
	},
	{
	"epoch": 2.0060975609756095,
	"grad_norm": 0.07256188615230309,
	"learning_rate": 5.9933256806427056e-06,
	"loss": 0.45,
	"step": 329
	},
	{
	"epoch": 2.0121951219512195,
	"grad_norm": 0.07890015744026495,
	"learning_rate": 5.928305236133016e-06,
	"loss": 0.5278,
	"step": 330
	},
	{
	"epoch": 2.018292682926829,
	"grad_norm": 0.0743608081300144,
	"learning_rate": 5.86349048892366e-06,
	"loss": 0.5151,
	"step": 331
	},
	{
	"epoch": 2.024390243902439,
	"grad_norm": 0.07744372435832222,
	"learning_rate": 5.798884713380542e-06,
	"loss": 0.4706,
	"step": 332
	},
	{
	"epoch": 2.0304878048780486,
	"grad_norm": 0.07446342377276646,
	"learning_rate": 5.734491173312559e-06,
	"loss": 0.3936,
	"step": 333
	},
	{
	"epoch": 2.0365853658536586,
	"grad_norm": 0.07700683633251168,
	"learning_rate": 5.67031312180673e-06,
	"loss": 0.4931,
	"step": 334
	},
	{
	"epoch": 2.042682926829268,
	"grad_norm": 0.07438951456585641,
	"learning_rate": 5.60635380106383e-06,
	"loss": 0.4958,
	"step": 335
	},
	{
	"epoch": 2.048780487804878,
	"grad_norm": 0.07659907187784923,
	"learning_rate": 5.542616442234618e-06,
	"loss": 0.4846,
	"step": 336
	},
	{
	"epoch": 2.0548780487804876,
	"grad_norm": 0.06905536948425527,
	"learning_rate": 5.479104265256583e-06,
	"loss": 0.4426,
	"step": 337
	},
	{
	"epoch": 2.0609756097560976,
	"grad_norm": 0.07334778911378619,
	"learning_rate": 5.415820478691301e-06,
	"loss": 0.5074,
	"step": 338
	},
	{
	"epoch": 2.067073170731707,
	"grad_norm": 0.08664025624260953,
	"learning_rate": 5.352768279562315e-06,
	"loss": 0.5383,
	"step": 339
	},
	{
	"epoch": 2.073170731707317,
	"grad_norm": 0.08278651278238408,
	"learning_rate": 5.2899508531936526e-06,
	"loss": 0.4713,
	"step": 340
	},
	{
	"epoch": 2.0792682926829267,
	"grad_norm": 0.0705392226402741,
	"learning_rate": 5.2273713730488886e-06,
	"loss": 0.403,
	"step": 341
	},
	{
	"epoch": 2.0853658536585367,
	"grad_norm": 0.0717929565778019,
	"learning_rate": 5.165033000570825e-06,
	"loss": 0.472,
	"step": 342
	},
	{
	"epoch": 2.091463414634146,
	"grad_norm": 0.07551856711067856,
	"learning_rate": 5.1029388850217935e-06,
	"loss": 0.4945,
	"step": 343
	},
	{
	"epoch": 2.097560975609756,
	"grad_norm": 0.07438201387306197,
	"learning_rate": 5.041092163324537e-06,
	"loss": 0.4939,
	"step": 344
	},
	{
	"epoch": 2.1036585365853657,
	"grad_norm": 0.07626903753672695,
	"learning_rate": 4.979495959903759e-06,
	"loss": 0.4662,
	"step": 345
	},
	{
	"epoch": 2.1097560975609757,
	"grad_norm": 0.07374673606028373,
	"learning_rate": 4.918153386528271e-06,
	"loss": 0.4792,
	"step": 346
	},
	{
	"epoch": 2.1158536585365852,
	"grad_norm": 0.08229855647674697,
	"learning_rate": 4.8570675421537685e-06,
	"loss": 0.5428,
	"step": 347
	},
	{
	"epoch": 2.1219512195121952,
	"grad_norm": 0.07472947580500576,
	"learning_rate": 4.7962415127663265e-06,
	"loss": 0.5573,
	"step": 348
	},
	{
	"epoch": 2.1280487804878048,
	"grad_norm": 0.07720860403921907,
	"learning_rate": 4.7356783712264405e-06,
	"loss": 0.5366,
	"step": 349
	},
	{
	"epoch": 2.1341463414634148,
	"grad_norm": 0.07671762679161022,
	"learning_rate": 4.675381177113837e-06,
	"loss": 0.4991,
	"step": 350
	},
	{
	"epoch": 2.1402439024390243,
	"grad_norm": 0.0698611175055525,
	"learning_rate": 4.615352976572867e-06,
	"loss": 0.463,
	"step": 351
	},
	{
	"epoch": 2.1463414634146343,
	"grad_norm": 0.08168992782435783,
	"learning_rate": 4.555596802158653e-06,
	"loss": 0.5243,
	"step": 352
	},
	{
	"epoch": 2.152439024390244,
	"grad_norm": 0.07634240659584558,
	"learning_rate": 4.4961156726838725e-06,
	"loss": 0.4832,
	"step": 353
	},
	{
	"epoch": 2.158536585365854,
	"grad_norm": 0.07065742577897564,
	"learning_rate": 4.436912593066241e-06,
	"loss": 0.5121,
	"step": 354
	},
	{
	"epoch": 2.1646341463414633,
	"grad_norm": 0.07396087251257588,
	"learning_rate": 4.377990554176729e-06,
	"loss": 0.4896,
	"step": 355
	},
	{
	"epoch": 2.1707317073170733,
	"grad_norm": 0.07474646282993128,
	"learning_rate": 4.319352532688444e-06,
	"loss": 0.4612,
	"step": 356
	},
	{
	"epoch": 2.176829268292683,
	"grad_norm": 0.08069543680226443,
	"learning_rate": 4.261001490926272e-06,
	"loss": 0.5218,
	"step": 357
	},
	{
	"epoch": 2.182926829268293,
	"grad_norm": 0.07346735875767992,
	"learning_rate": 4.2029403767172175e-06,
	"loss": 0.435,
	"step": 358
	},
	{
	"epoch": 2.1890243902439024,
	"grad_norm": 0.07522119438266486,
	"learning_rate": 4.14517212324147e-06,
	"loss": 0.4956,
	"step": 359
	},
	{
	"epoch": 2.1951219512195124,
	"grad_norm": 0.08032494668646596,
	"learning_rate": 4.087699648884248e-06,
	"loss": 0.4752,
	"step": 360
	},
	{
	"epoch": 2.201219512195122,
	"grad_norm": 0.08192204498128373,
	"learning_rate": 4.0305258570883336e-06,
	"loss": 0.5108,
	"step": 361
	},
	{
	"epoch": 2.207317073170732,
	"grad_norm": 0.08394146118190073,
	"learning_rate": 3.973653636207437e-06,
	"loss": 0.5567,
	"step": 362
	},
	{
	"epoch": 2.2134146341463414,
	"grad_norm": 0.07596087618305393,
	"learning_rate": 3.917085859360234e-06,
	"loss": 0.4685,
	"step": 363
	},
	{
	"epoch": 2.2195121951219514,
	"grad_norm": 0.07887155715773822,
	"learning_rate": 3.860825384285247e-06,
	"loss": 0.5206,
	"step": 364
	},
	{
	"epoch": 2.225609756097561,
	"grad_norm": 0.07296513823227467,
	"learning_rate": 3.804875053196477e-06,
	"loss": 0.4469,
	"step": 365
	},
	{
	"epoch": 2.231707317073171,
	"grad_norm": 0.08190684855847946,
	"learning_rate": 3.7492376926397966e-06,
	"loss": 0.5094,
	"step": 366
	},
	{
	"epoch": 2.2378048780487805,
	"grad_norm": 0.07617526219017642,
	"learning_rate": 3.6939161133501823e-06,
	"loss": 0.4479,
	"step": 367
	},
	{
	"epoch": 2.2439024390243905,
	"grad_norm": 0.08063324451878306,
	"learning_rate": 3.6389131101096953e-06,
	"loss": 0.5099,
	"step": 368
	},
	{
	"epoch": 2.25,
	"grad_norm": 0.07739599643572288,
	"learning_rate": 3.5842314616063134e-06,
	"loss": 0.491,
	"step": 369
	},
	{
	"epoch": 2.2560975609756095,
	"grad_norm": 0.07768918830309231,
	"learning_rate": 3.529873930293546e-06,
	"loss": 0.5417,
	"step": 370
	},
	{
	"epoch": 2.2621951219512195,
	"grad_norm": 0.0822012033362632,
	"learning_rate": 3.4758432622508677e-06,
	"loss": 0.5186,
	"step": 371
	},
	{
	"epoch": 2.2682926829268295,
	"grad_norm": 0.0764020181839071,
	"learning_rate": 3.422142187045011e-06,
	"loss": 0.4754,
	"step": 372
	},
	{
	"epoch": 2.274390243902439,
	"grad_norm": 0.08335314099643498,
	"learning_rate": 3.3687734175920505e-06,
	"loss": 0.5537,
	"step": 373
	},
	{
	"epoch": 2.2804878048780486,
	"grad_norm": 0.0803475394628154,
	"learning_rate": 3.3157396500203655e-06,
	"loss": 0.4212,
	"step": 374
	},
	{
	"epoch": 2.2865853658536586,
	"grad_norm": 0.06853604150629149,
	"learning_rate": 3.2630435635344283e-06,
	"loss": 0.4197,
	"step": 375
	},
	{
	"epoch": 2.292682926829268,
	"grad_norm": 0.07027233118743227,
	"learning_rate": 3.2106878202794513e-06,
	"loss": 0.426,
	"step": 376
	},
	{
	"epoch": 2.298780487804878,
	"grad_norm": 0.08035482501355977,
	"learning_rate": 3.1586750652069077e-06,
	"loss": 0.4768,
	"step": 377
	},
	{
	"epoch": 2.3048780487804876,
	"grad_norm": 0.0767033268066497,
	"learning_rate": 3.1070079259408934e-06,
	"loss": 0.4298,
	"step": 378
	},
	{
	"epoch": 2.3109756097560976,
	"grad_norm": 0.07871530893320917,
	"learning_rate": 3.0556890126454075e-06,
	"loss": 0.5194,
	"step": 379
	},
	{
	"epoch": 2.317073170731707,
	"grad_norm": 0.0694907669966186,
	"learning_rate": 3.004720917892464e-06,
	"loss": 0.4458,
	"step": 380
	},
	{
	"epoch": 2.323170731707317,
	"grad_norm": 0.07550036175573449,
	"learning_rate": 2.954106216531141e-06,
	"loss": 0.4877,
	"step": 381
	},
	{
	"epoch": 2.3292682926829267,
	"grad_norm": 0.06828766275227673,
	"learning_rate": 2.90384746555749e-06,
	"loss": 0.4694,
	"step": 382
	},
	{
	"epoch": 2.3353658536585367,
	"grad_norm": 0.07957885134154746,
	"learning_rate": 2.8539472039853557e-06,
	"loss": 0.4549,
	"step": 383
	},
	{
	"epoch": 2.341463414634146,
	"grad_norm": 0.07312612756103479,
	"learning_rate": 2.804407952718119e-06,
	"loss": 0.4717,
	"step": 384
	},
	{
	"epoch": 2.347560975609756,
	"grad_norm": 0.07462194695242244,
	"learning_rate": 2.7552322144213405e-06,
	"loss": 0.4681,
	"step": 385
	},
	{
	"epoch": 2.3536585365853657,
	"grad_norm": 0.07382029470746747,
	"learning_rate": 2.7064224733963197e-06,
	"loss": 0.4455,
	"step": 386
	},
	{
	"epoch": 2.3597560975609757,
	"grad_norm": 0.07566404170504752,
	"learning_rate": 2.6579811954546054e-06,
	"loss": 0.4601,
	"step": 387
	},
	{
	"epoch": 2.3658536585365852,
	"grad_norm": 0.06650889658374204,
	"learning_rate": 2.6099108277934105e-06,
	"loss": 0.403,
	"step": 388
	},
	{
	"epoch": 2.3719512195121952,
	"grad_norm": 0.08128051733864035,
	"learning_rate": 2.5622137988719985e-06,
	"loss": 0.5062,
	"step": 389
	},
	{
	"epoch": 2.3780487804878048,
	"grad_norm": 0.07645763895183058,
	"learning_rate": 2.514892518288988e-06,
	"loss": 0.4992,
	"step": 390
	},
	{
	"epoch": 2.3841463414634148,
	"grad_norm": 0.08185922748732076,
	"learning_rate": 2.46794937666063e-06,
	"loss": 0.4998,
	"step": 391
	},
	{
	"epoch": 2.3902439024390243,
	"grad_norm": 0.07724446363577575,
	"learning_rate": 2.421386745500034e-06,
	"loss": 0.4832,
	"step": 392
	},
	{
	"epoch": 2.3963414634146343,
	"grad_norm": 0.0719202945692499,
	"learning_rate": 2.375206977097353e-06,
	"loss": 0.4625,
	"step": 393
	},
	{
	"epoch": 2.402439024390244,
	"grad_norm": 0.07160181702178699,
	"learning_rate": 2.329412404400969e-06,
	"loss": 0.4786,
	"step": 394
	},
	{
	"epoch": 2.408536585365854,
	"grad_norm": 0.07705465155073153,
	"learning_rate": 2.2840053408996154e-06,
	"loss": 0.4873,
	"step": 395
	},
	{
	"epoch": 2.4146341463414633,
	"grad_norm": 0.06734740120536699,
	"learning_rate": 2.238988080505513e-06,
	"loss": 0.4268,
	"step": 396
	},
	{
	"epoch": 2.4207317073170733,
	"grad_norm": 0.07171806752940019,
	"learning_rate": 2.1943628974384858e-06,
	"loss": 0.4657,
	"step": 397
	},
	{
	"epoch": 2.426829268292683,
	"grad_norm": 0.06712821968746505,
	"learning_rate": 2.150132046111054e-06,
	"loss": 0.4201,
	"step": 398
	},
	{
	"epoch": 2.432926829268293,
	"grad_norm": 0.08316643198749764,
	"learning_rate": 2.1062977610145697e-06,
	"loss": 0.513,
	"step": 399
	},
	{
	"epoch": 2.4390243902439024,
	"grad_norm": 0.0730957075364869,
	"learning_rate": 2.0628622566063063e-06,
	"loss": 0.4895,
	"step": 400
	},
	{
	"epoch": 2.4451219512195124,
	"grad_norm": 0.07287061567762979,
	"learning_rate": 2.019827727197605e-06,
	"loss": 0.4306,
	"step": 401
	},
	{
	"epoch": 2.451219512195122,
	"grad_norm": 0.06700730358392487,
	"learning_rate": 1.977196346843019e-06,
	"loss": 0.4141,
	"step": 402
	},
	{
	"epoch": 2.457317073170732,
	"grad_norm": 0.07927651728219412,
	"learning_rate": 1.934970269230464e-06,
	"loss": 0.4702,
	"step": 403
	},
	{
	"epoch": 2.4634146341463414,
	"grad_norm": 0.07966939559181735,
	"learning_rate": 1.8931516275724527e-06,
	"loss": 0.4209,
	"step": 404
	},
	{
	"epoch": 2.4695121951219514,
	"grad_norm": 0.07505835152415707,
	"learning_rate": 1.8517425344982831e-06,
	"loss": 0.5004,
	"step": 405
	},
	{
	"epoch": 2.475609756097561,
	"grad_norm": 0.0792696269268693,
	"learning_rate": 1.8107450819473505e-06,
	"loss": 0.4954,
	"step": 406
	},
	{
	"epoch": 2.4817073170731705,
	"grad_norm": 0.07162945978931057,
	"learning_rate": 1.7701613410634367e-06,
	"loss": 0.496,
	"step": 407
	},
	{
	"epoch": 2.4878048780487805,
	"grad_norm": 0.07893944712223014,
	"learning_rate": 1.7299933620900945e-06,
	"loss": 0.4774,
	"step": 408
	},
	{
	"epoch": 2.4939024390243905,
	"grad_norm": 0.06827623677585598,
	"learning_rate": 1.690243174267071e-06,
	"loss": 0.4177,
	"step": 409
	},
	{
	"epoch": 2.5,
	"grad_norm": 0.0754447597879692,
	"learning_rate": 1.6509127857277784e-06,
	"loss": 0.4889,
	"step": 410
	},
	{
	"epoch": 2.5060975609756095,
	"grad_norm": 0.08857036691886101,
	"learning_rate": 1.6120041833978662e-06,
	"loss": 0.5317,
	"step": 411
	},
	{
	"epoch": 2.5121951219512195,
	"grad_norm": 0.07177001116277269,
	"learning_rate": 1.573519332894824e-06,
	"loss": 0.414,
	"step": 412
	},
	{
	"epoch": 2.5182926829268295,
	"grad_norm": 0.07831205185485109,
	"learning_rate": 1.535460178428697e-06,
	"loss": 0.5028,
	"step": 413
	},
	{
	"epoch": 2.524390243902439,
	"grad_norm": 0.07285605695660612,
	"learning_rate": 1.4978286427038602e-06,
	"loss": 0.5031,
	"step": 414
	},
	{
	"epoch": 2.5304878048780486,
	"grad_norm": 0.08720951847793187,
	"learning_rate": 1.4606266268218783e-06,
	"loss": 0.5084,
	"step": 415
	},
	{
	"epoch": 2.5365853658536586,
	"grad_norm": 0.06975140711559835,
	"learning_rate": 1.4238560101854815e-06,
	"loss": 0.4253,
	"step": 416
	},
	{
	"epoch": 2.5426829268292686,
	"grad_norm": 0.07714853710418437,
	"learning_rate": 1.3875186504035965e-06,
	"loss": 0.4744,
	"step": 417
	},
	{
	"epoch": 2.548780487804878,
	"grad_norm": 0.07565492373996721,
	"learning_rate": 1.3516163831975337e-06,
	"loss": 0.5152,
	"step": 418
	},
	{
	"epoch": 2.5548780487804876,
	"grad_norm": 0.07030057664082874,
	"learning_rate": 1.3161510223082152e-06,
	"loss": 0.4461,
	"step": 419
	},
	{
	"epoch": 2.5609756097560976,
	"grad_norm": 0.0800726969605912,
	"learning_rate": 1.2811243594045697e-06,
	"loss": 0.5135,
	"step": 420
	},
	{
	"epoch": 2.567073170731707,
	"grad_norm": 0.07816897719762364,
	"learning_rate": 1.246538163993013e-06,
	"loss": 0.4999,
	"step": 421
	},
	{
	"epoch": 2.573170731707317,
	"grad_norm": 0.07745184122312047,
	"learning_rate": 1.2123941833280472e-06,
	"loss": 0.4847,
	"step": 422
	},
	{
	"epoch": 2.5792682926829267,
	"grad_norm": 0.07419017119462436,
	"learning_rate": 1.1786941423240072e-06,
	"loss": 0.4843,
	"step": 423
	},
	{
	"epoch": 2.5853658536585367,
	"grad_norm": 0.07931455390788596,
	"learning_rate": 1.1454397434679022e-06,
	"loss": 0.4946,
	"step": 424
	},
	{
	"epoch": 2.591463414634146,
	"grad_norm": 0.07615796865199526,
	"learning_rate": 1.1126326667334196e-06,
	"loss": 0.4524,
	"step": 425
	},
	{
	"epoch": 2.597560975609756,
	"grad_norm": 0.0772418363352449,
	"learning_rate": 1.080274569496057e-06,
	"loss": 0.5152,
	"step": 426
	},
	{
	"epoch": 2.6036585365853657,
	"grad_norm": 0.07025077296325957,
	"learning_rate": 1.0483670864493777e-06,
	"loss": 0.4332,
	"step": 427
	},
	{
	"epoch": 2.6097560975609757,
	"grad_norm": 0.07566288563595869,
	"learning_rate": 1.0169118295224488e-06,
	"loss": 0.5029,
	"step": 428
	},
	{
	"epoch": 2.6158536585365852,
	"grad_norm": 0.0758658441769188,
	"learning_rate": 9.85910387798389e-07,
	"loss": 0.4573,
	"step": 429
	},
	{
	"epoch": 2.6219512195121952,
	"grad_norm": 0.07964262946952728,
	"learning_rate": 9.55364327434105e-07,
	"loss": 0.4933,
	"step": 430
	},
	{
	"epoch": 2.6280487804878048,
	"grad_norm": 0.07874589016859943,
	"learning_rate": 9.252751915811642e-07,
	"loss": 0.473,
	"step": 431
	},
	{
	"epoch": 2.6341463414634148,
	"grad_norm": 0.0766185482028681,
	"learning_rate": 8.956445003078351e-07,
	"loss": 0.5018,
	"step": 432
	},
	{
	"epoch": 2.6402439024390243,
	"grad_norm": 0.08140880877769818,
	"learning_rate": 8.664737505223009e-07,
	"loss": 0.5203,
	"step": 433
	},
	{
	"epoch": 2.6463414634146343,
	"grad_norm": 0.08015141287053174,
	"learning_rate": 8.377644158970277e-07,
	"loss": 0.5215,
	"step": 434
	},
	{
	"epoch": 2.652439024390244,
	"grad_norm": 0.07563574533469265,
	"learning_rate": 8.095179467943293e-07,
	"loss": 0.4877,
	"step": 435
	},
	{
	"epoch": 2.658536585365854,
	"grad_norm": 0.08532123143914754,
	"learning_rate": 7.81735770193085e-07,
	"loss": 0.5027,
	"step": 436
	},
	{
	"epoch": 2.6646341463414633,
	"grad_norm": 0.06972127152615569,
	"learning_rate": 7.544192896166569e-07,
	"loss": 0.4691,
	"step": 437
	},
	{
	"epoch": 2.6707317073170733,
	"grad_norm": 0.0748196016294252,
	"learning_rate": 7.275698850619861e-07,
	"loss": 0.5059,
	"step": 438
	},
	{
	"epoch": 2.676829268292683,
	"grad_norm": 0.07757312698493772,
	"learning_rate": 7.011889129298688e-07,
	"loss": 0.5559,
	"step": 439
	},
	{
	"epoch": 2.682926829268293,
	"grad_norm": 0.07577704718768018,
	"learning_rate": 6.752777059564431e-07,
	"loss": 0.4718,
	"step": 440
	},
	{
	"epoch": 2.6890243902439024,
	"grad_norm": 0.07357519669905033,
	"learning_rate": 6.498375731458529e-07,
	"loss": 0.4876,
	"step": 441
	},
	{
	"epoch": 2.6951219512195124,
	"grad_norm": 0.07445682597283106,
	"learning_rate": 6.248697997041219e-07,
	"loss": 0.4833,
	"step": 442
	},
	{
	"epoch": 2.701219512195122,
	"grad_norm": 0.07241140052205494,
	"learning_rate": 6.003756469742294e-07,
	"loss": 0.4713,
	"step": 443
	},
	{
	"epoch": 2.7073170731707314,
	"grad_norm": 0.07656055745393084,
	"learning_rate": 5.763563523723769e-07,
	"loss": 0.4525,
	"step": 444
	},
	{
	"epoch": 2.7134146341463414,
	"grad_norm": 0.07364895292854746,
	"learning_rate": 5.528131293254957e-07,
	"loss": 0.477,
	"step": 445
	},
	{
	"epoch": 2.7195121951219514,
	"grad_norm": 0.07520667622845931,
	"learning_rate": 5.29747167209923e-07,
	"loss": 0.4747,
	"step": 446
	},
	{
	"epoch": 2.725609756097561,
	"grad_norm": 0.08218001537128848,
	"learning_rate": 5.071596312913329e-07,
	"loss": 0.54,
	"step": 447
	},
	{
	"epoch": 2.7317073170731705,
	"grad_norm": 0.0867606649208939,
	"learning_rate": 4.850516626658585e-07,
	"loss": 0.5081,
	"step": 448
	},
	{
	"epoch": 2.7378048780487805,
	"grad_norm": 0.07210738314053156,
	"learning_rate": 4.634243782024539e-07,
	"loss": 0.4431,
	"step": 449
	},
	{
	"epoch": 2.7439024390243905,
	"grad_norm": 0.06582252551133536,
	"learning_rate": 4.4227887048646335e-07,
	"loss": 0.4192,
	"step": 450
	},
	{
	"epoch": 2.75,
	"grad_norm": 0.07567885015733454,
	"learning_rate": 4.216162077644281e-07,
	"loss": 0.4887,
	"step": 451
	},
	{
	"epoch": 2.7560975609756095,
	"grad_norm": 0.07689928271198733,
	"learning_rate": 4.014374338901206e-07,
	"loss": 0.4683,
	"step": 452
	},
	{
	"epoch": 2.7621951219512195,
	"grad_norm": 0.07188606850501078,
	"learning_rate": 3.817435682718096e-07,
	"loss": 0.467,
	"step": 453
	},
	{
	"epoch": 2.7682926829268295,
	"grad_norm": 0.07163831506927039,
	"learning_rate": 3.6253560582076075e-07,
	"loss": 0.4539,
	"step": 454
	},
	{
	"epoch": 2.774390243902439,
	"grad_norm": 0.07592375615552627,
	"learning_rate": 3.4381451690097653e-07,
	"loss": 0.4736,
	"step": 455
	},
	{
	"epoch": 2.7804878048780486,
	"grad_norm": 0.0814766286311381,
	"learning_rate": 3.255812472801689e-07,
	"loss": 0.532,
	"step": 456
	},
	{
	"epoch": 2.7865853658536586,
	"grad_norm": 0.0717352396757339,
	"learning_rate": 3.078367180819863e-07,
	"loss": 0.4316,
	"step": 457
	},
	{
	"epoch": 2.7926829268292686,
	"grad_norm": 0.0746931546839919,
	"learning_rate": 2.905818257394799e-07,
	"loss": 0.5206,
	"step": 458
	},
	{
	"epoch": 2.798780487804878,
	"grad_norm": 0.07272697545910387,
	"learning_rate": 2.7381744194980963e-07,
	"loss": 0.4832,
	"step": 459
	},
	{
	"epoch": 2.8048780487804876,
	"grad_norm": 0.07230252882563974,
	"learning_rate": 2.5754441363021854e-07,
	"loss": 0.4778,
	"step": 460
	},
	{
	"epoch": 2.8109756097560976,
	"grad_norm": 0.08033515297716644,
	"learning_rate": 2.417635628752324e-07,
	"loss": 0.5301,
	"step": 461
	},
	{
	"epoch": 2.817073170731707,
	"grad_norm": 0.08891143823100789,
	"learning_rate": 2.264756869151441e-07,
	"loss": 0.5255,
	"step": 462
	},
	{
	"epoch": 2.823170731707317,
	"grad_norm": 0.07069972457447841,
	"learning_rate": 2.1168155807572476e-07,
	"loss": 0.431,
	"step": 463
	},
	{
	"epoch": 2.8292682926829267,
	"grad_norm": 0.0735272098530535,
	"learning_rate": 1.973819237392205e-07,
	"loss": 0.4968,
	"step": 464
	},
	{
	"epoch": 2.8353658536585367,
	"grad_norm": 0.08455153800014176,
	"learning_rate": 1.8357750630658367e-07,
	"loss": 0.4924,
	"step": 465
	},
	{
	"epoch": 2.841463414634146,
	"grad_norm": 0.06931732980810784,
	"learning_rate": 1.7026900316098217e-07,
	"loss": 0.4309,
	"step": 466
	},
	{
	"epoch": 2.847560975609756,
	"grad_norm": 0.07200984122635784,
	"learning_rate": 1.5745708663257199e-07,
	"loss": 0.4667,
	"step": 467
	},
	{
	"epoch": 2.8536585365853657,
	"grad_norm": 0.07677994816913122,
	"learning_rate": 1.4514240396452438e-07,
	"loss": 0.4834,
	"step": 468
	},
	{
	"epoch": 2.8597560975609757,
	"grad_norm": 0.08178248437061655,
	"learning_rate": 1.333255772803377e-07,
	"loss": 0.5251,
	"step": 469
	},
	{
	"epoch": 2.8658536585365852,
	"grad_norm": 0.07923538700790901,
	"learning_rate": 1.2200720355239893e-07,
	"loss": 0.5171,
	"step": 470
	},
	{
	"epoch": 2.8719512195121952,
	"grad_norm": 0.06761152489499198,
	"learning_rate": 1.1118785457183034e-07,
	"loss": 0.4615,
	"step": 471
	},
	{
	"epoch": 2.8780487804878048,
	"grad_norm": 0.0767262597066072,
	"learning_rate": 1.0086807691960243e-07,
	"loss": 0.4976,
	"step": 472
	},
	{
	"epoch": 2.8841463414634148,
	"grad_norm": 0.08266454055489816,
	"learning_rate": 9.104839193892379e-08,
	"loss": 0.5389,
	"step": 473
	},
	{
	"epoch": 2.8902439024390243,
	"grad_norm": 0.08086361495523785,
	"learning_rate": 8.172929570889553e-08,
	"loss": 0.4929,
	"step": 474
	},
	{
	"epoch": 2.8963414634146343,
	"grad_norm": 0.0745089911333017,
	"learning_rate": 7.291125901946027e-08,
	"loss": 0.4939,
	"step": 475
	},
	{
	"epoch": 2.902439024390244,
	"grad_norm": 0.08025945659207359,
	"learning_rate": 6.459472734760997e-08,
	"loss": 0.4876,
	"step": 476
	},
	{
	"epoch": 2.908536585365854,
	"grad_norm": 0.07053947220102097,
	"learning_rate": 5.6780120834887264e-08,
	"loss": 0.4611,
	"step": 477
	},
	{
	"epoch": 2.9146341463414633,
	"grad_norm": 0.0803969476007233,
	"learning_rate": 4.9467834266154756e-08,
	"loss": 0.5419,
	"step": 478
	},
	{
	"epoch": 2.9207317073170733,
	"grad_norm": 0.07482955639907388,
	"learning_rate": 4.2658237049655325e-08,
	"loss": 0.4889,
	"step": 479
	},
	{
	"epoch": 2.926829268292683,
	"grad_norm": 0.07752759847951908,
	"learning_rate": 3.635167319834709e-08,
	"loss": 0.4749,
	"step": 480
	},
	{
	"epoch": 2.932926829268293,
	"grad_norm": 0.08359023148499886,
	"learning_rate": 3.054846131252731e-08,
	"loss": 0.5334,
	"step": 481
	},
	{
	"epoch": 2.9390243902439024,
	"grad_norm": 0.08139586618522474,
	"learning_rate": 2.524889456373525e-08,
	"loss": 0.5523,
	"step": 482
	},
	{
	"epoch": 2.9451219512195124,
	"grad_norm": 0.07935921771678194,
	"learning_rate": 2.045324067993959e-08,
	"loss": 0.4853,
	"step": 483
	},
	{
	"epoch": 2.951219512195122,
	"grad_norm": 0.07808298733873976,
	"learning_rate": 1.6161741932017026e-08,
	"loss": 0.5005,
	"step": 484
	},
	{
	"epoch": 2.9573170731707314,
	"grad_norm": 0.0649213930995393,
	"learning_rate": 1.2374615121508726e-08,
	"loss": 0.4098,
	"step": 485
	},
	{
	"epoch": 2.9634146341463414,
	"grad_norm": 0.08655284099627421,
	"learning_rate": 9.092051569674632e-09,
	"loss": 0.4856,
	"step": 486
	},
	{
	"epoch": 2.9695121951219514,
	"grad_norm": 0.07707319839718253,
	"learning_rate": 6.314217107817877e-09,
	"loss": 0.5193,
	"step": 487
	},
	{
	"epoch": 2.975609756097561,
	"grad_norm": 0.07715334723099698,
	"learning_rate": 4.041252068918145e-09,
	"loss": 0.5263,
	"step": 488
	},
	{
	"epoch": 2.9817073170731705,
	"grad_norm": 0.07908531746017289,
	"learning_rate": 2.273271280534006e-09,
	"loss": 0.4823,
	"step": 489
	},
	{
	"epoch": 2.9878048780487805,
	"grad_norm": 0.07306053297024867,
	"learning_rate": 1.0103640590064524e-09,
	"loss": 0.4543,
	"step": 490
	},
	{
	"epoch": 2.9939024390243905,
	"grad_norm": 0.08516212104693965,
	"learning_rate": 2.525942049436125e-10,
	"loss": 0.5,
	"step": 491
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.07775010775380628,
	"learning_rate": 0.0,
	"loss": 0.4651,
	"step": 492
	},
	{
	"epoch": 3.0,
	"step": 492,
	"total_flos": 7801758436818944.0,
	"train_loss": 0.7506088816780385,
	"train_runtime": 5228.6286,
	"train_samples_per_second": 6.005,
	"train_steps_per_second": 0.094
	}
	],
	"logging_steps": 1,
	"max_steps": 492,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7801758436818944.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}