pc-agent-7b / trainer_state.json

Henry He

upload the model

31b3ee1 10 months ago

73.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.9949177877428999,
	"eval_steps": 500,
	"global_step": 418,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004783258594917788,
	"grad_norm": 0.709558174057161,
	"learning_rate": 9.523809523809523e-08,
	"loss": 1.2153,
	"step": 1
	},
	{
	"epoch": 0.009566517189835576,
	"grad_norm": 0.7136115199943648,
	"learning_rate": 1.9047619047619045e-07,
	"loss": 1.1666,
	"step": 2
	},
	{
	"epoch": 0.014349775784753363,
	"grad_norm": 0.675693723617585,
	"learning_rate": 2.857142857142857e-07,
	"loss": 1.1641,
	"step": 3
	},
	{
	"epoch": 0.019133034379671152,
	"grad_norm": 0.6920682930548318,
	"learning_rate": 3.809523809523809e-07,
	"loss": 1.1522,
	"step": 4
	},
	{
	"epoch": 0.02391629297458894,
	"grad_norm": 0.7102565482472595,
	"learning_rate": 4.761904761904761e-07,
	"loss": 1.1849,
	"step": 5
	},
	{
	"epoch": 0.028699551569506727,
	"grad_norm": 0.7063832004098226,
	"learning_rate": 5.714285714285714e-07,
	"loss": 1.1832,
	"step": 6
	},
	{
	"epoch": 0.03348281016442452,
	"grad_norm": 0.7273064919061014,
	"learning_rate": 6.666666666666666e-07,
	"loss": 1.1646,
	"step": 7
	},
	{
	"epoch": 0.038266068759342305,
	"grad_norm": 0.6515215643931184,
	"learning_rate": 7.619047619047618e-07,
	"loss": 1.1492,
	"step": 8
	},
	{
	"epoch": 0.04304932735426009,
	"grad_norm": 0.662055704210126,
	"learning_rate": 8.57142857142857e-07,
	"loss": 1.1356,
	"step": 9
	},
	{
	"epoch": 0.04783258594917788,
	"grad_norm": 0.6717882944749636,
	"learning_rate": 9.523809523809522e-07,
	"loss": 1.1373,
	"step": 10
	},
	{
	"epoch": 0.052615844544095666,
	"grad_norm": 0.5448741661939914,
	"learning_rate": 1.0476190476190476e-06,
	"loss": 1.1133,
	"step": 11
	},
	{
	"epoch": 0.05739910313901345,
	"grad_norm": 0.5462157636865493,
	"learning_rate": 1.1428571428571428e-06,
	"loss": 1.1025,
	"step": 12
	},
	{
	"epoch": 0.06218236173393124,
	"grad_norm": 0.5384420206966651,
	"learning_rate": 1.238095238095238e-06,
	"loss": 1.1102,
	"step": 13
	},
	{
	"epoch": 0.06696562032884903,
	"grad_norm": 0.5199166835309963,
	"learning_rate": 1.3333333333333332e-06,
	"loss": 1.0716,
	"step": 14
	},
	{
	"epoch": 0.07174887892376682,
	"grad_norm": 0.3132434598969462,
	"learning_rate": 1.4285714285714286e-06,
	"loss": 1.0198,
	"step": 15
	},
	{
	"epoch": 0.07653213751868461,
	"grad_norm": 0.2906366968418868,
	"learning_rate": 1.5238095238095236e-06,
	"loss": 1.0402,
	"step": 16
	},
	{
	"epoch": 0.08131539611360239,
	"grad_norm": 0.27762786913003945,
	"learning_rate": 1.619047619047619e-06,
	"loss": 1.0027,
	"step": 17
	},
	{
	"epoch": 0.08609865470852018,
	"grad_norm": 0.27399342611565175,
	"learning_rate": 1.714285714285714e-06,
	"loss": 1.0022,
	"step": 18
	},
	{
	"epoch": 0.09088191330343796,
	"grad_norm": 0.24537662923792491,
	"learning_rate": 1.8095238095238095e-06,
	"loss": 1.0272,
	"step": 19
	},
	{
	"epoch": 0.09566517189835576,
	"grad_norm": 0.20010147123002528,
	"learning_rate": 1.9047619047619045e-06,
	"loss": 0.9569,
	"step": 20
	},
	{
	"epoch": 0.10044843049327354,
	"grad_norm": 0.25587399010113915,
	"learning_rate": 2e-06,
	"loss": 0.9848,
	"step": 21
	},
	{
	"epoch": 0.10523168908819133,
	"grad_norm": 0.3007962756012024,
	"learning_rate": 1.9999686897547167e-06,
	"loss": 0.9581,
	"step": 22
	},
	{
	"epoch": 0.11001494768310911,
	"grad_norm": 0.3006848188189002,
	"learning_rate": 1.9998747609795305e-06,
	"loss": 0.9478,
	"step": 23
	},
	{
	"epoch": 0.1147982062780269,
	"grad_norm": 0.30781981272131237,
	"learning_rate": 1.999718219556307e-06,
	"loss": 0.9834,
	"step": 24
	},
	{
	"epoch": 0.11958146487294469,
	"grad_norm": 0.3118837626745979,
	"learning_rate": 1.999499075287747e-06,
	"loss": 0.9852,
	"step": 25
	},
	{
	"epoch": 0.12436472346786248,
	"grad_norm": 0.26545213805928825,
	"learning_rate": 1.999217341896772e-06,
	"loss": 0.9549,
	"step": 26
	},
	{
	"epoch": 0.12914798206278028,
	"grad_norm": 0.28369668711343804,
	"learning_rate": 1.998873037025665e-06,
	"loss": 0.9395,
	"step": 27
	},
	{
	"epoch": 0.13393124065769807,
	"grad_norm": 0.228056096803738,
	"learning_rate": 1.9984661822349665e-06,
	"loss": 0.9124,
	"step": 28
	},
	{
	"epoch": 0.13871449925261584,
	"grad_norm": 0.23393624794141885,
	"learning_rate": 1.997996803002123e-06,
	"loss": 0.9306,
	"step": 29
	},
	{
	"epoch": 0.14349775784753363,
	"grad_norm": 0.20376330319941563,
	"learning_rate": 1.9974649287198914e-06,
	"loss": 0.8882,
	"step": 30
	},
	{
	"epoch": 0.14828101644245142,
	"grad_norm": 0.19033042713450593,
	"learning_rate": 1.9968705926945013e-06,
	"loss": 0.8699,
	"step": 31
	},
	{
	"epoch": 0.15306427503736922,
	"grad_norm": 0.20517384186395837,
	"learning_rate": 1.9962138321435656e-06,
	"loss": 0.8919,
	"step": 32
	},
	{
	"epoch": 0.15784753363228698,
	"grad_norm": 0.19219397333283395,
	"learning_rate": 1.9954946881937524e-06,
	"loss": 0.8985,
	"step": 33
	},
	{
	"epoch": 0.16263079222720478,
	"grad_norm": 0.18095506989716384,
	"learning_rate": 1.994713205878208e-06,
	"loss": 0.8504,
	"step": 34
	},
	{
	"epoch": 0.16741405082212257,
	"grad_norm": 0.1722529909885032,
	"learning_rate": 1.9938694341337393e-06,
	"loss": 0.8743,
	"step": 35
	},
	{
	"epoch": 0.17219730941704037,
	"grad_norm": 0.16508567356320156,
	"learning_rate": 1.9929634257977467e-06,
	"loss": 0.857,
	"step": 36
	},
	{
	"epoch": 0.17698056801195813,
	"grad_norm": 0.15380307949646846,
	"learning_rate": 1.991995237604916e-06,
	"loss": 0.8487,
	"step": 37
	},
	{
	"epoch": 0.18176382660687593,
	"grad_norm": 0.14856130486975244,
	"learning_rate": 1.9909649301836674e-06,
	"loss": 0.8692,
	"step": 38
	},
	{
	"epoch": 0.18654708520179372,
	"grad_norm": 0.1518842900714723,
	"learning_rate": 1.9898725680523566e-06,
	"loss": 0.8679,
	"step": 39
	},
	{
	"epoch": 0.19133034379671152,
	"grad_norm": 0.1443106182213824,
	"learning_rate": 1.9887182196152367e-06,
	"loss": 0.8504,
	"step": 40
	},
	{
	"epoch": 0.1961136023916293,
	"grad_norm": 0.14664015617981188,
	"learning_rate": 1.9875019571581726e-06,
	"loss": 0.8125,
	"step": 41
	},
	{
	"epoch": 0.20089686098654708,
	"grad_norm": 0.14692793192413753,
	"learning_rate": 1.9862238568441165e-06,
	"loss": 0.8257,
	"step": 42
	},
	{
	"epoch": 0.20568011958146487,
	"grad_norm": 0.13896889627771705,
	"learning_rate": 1.9848839987083364e-06,
	"loss": 0.8329,
	"step": 43
	},
	{
	"epoch": 0.21046337817638266,
	"grad_norm": 0.14943974659921427,
	"learning_rate": 1.983482466653407e-06,
	"loss": 0.8409,
	"step": 44
	},
	{
	"epoch": 0.21524663677130046,
	"grad_norm": 0.138210028938997,
	"learning_rate": 1.982019348443952e-06,
	"loss": 0.8323,
	"step": 45
	},
	{
	"epoch": 0.22002989536621823,
	"grad_norm": 0.1250406305407292,
	"learning_rate": 1.9804947357011523e-06,
	"loss": 0.8673,
	"step": 46
	},
	{
	"epoch": 0.22481315396113602,
	"grad_norm": 0.12719252526959784,
	"learning_rate": 1.978908723897005e-06,
	"loss": 0.8192,
	"step": 47
	},
	{
	"epoch": 0.2295964125560538,
	"grad_norm": 0.10853106729801387,
	"learning_rate": 1.9772614123483485e-06,
	"loss": 0.8384,
	"step": 48
	},
	{
	"epoch": 0.2343796711509716,
	"grad_norm": 0.11375286279894396,
	"learning_rate": 1.9755529042106393e-06,
	"loss": 0.7854,
	"step": 49
	},
	{
	"epoch": 0.23916292974588937,
	"grad_norm": 0.11326113932314119,
	"learning_rate": 1.973783306471495e-06,
	"loss": 0.795,
	"step": 50
	},
	{
	"epoch": 0.24394618834080717,
	"grad_norm": 0.12664705711535487,
	"learning_rate": 1.971952729943994e-06,
	"loss": 0.783,
	"step": 51
	},
	{
	"epoch": 0.24872944693572496,
	"grad_norm": 0.11119059988645158,
	"learning_rate": 1.9700612892597372e-06,
	"loss": 0.8059,
	"step": 52
	},
	{
	"epoch": 0.25351270553064276,
	"grad_norm": 0.10545114737351395,
	"learning_rate": 1.9681091028616676e-06,
	"loss": 0.7885,
	"step": 53
	},
	{
	"epoch": 0.25829596412556055,
	"grad_norm": 0.11679452392637804,
	"learning_rate": 1.966096292996655e-06,
	"loss": 0.8031,
	"step": 54
	},
	{
	"epoch": 0.26307922272047835,
	"grad_norm": 0.11363287552532539,
	"learning_rate": 1.9640229857078413e-06,
	"loss": 0.7774,
	"step": 55
	},
	{
	"epoch": 0.26786248131539614,
	"grad_norm": 0.1164225509000403,
	"learning_rate": 1.9618893108267454e-06,
	"loss": 0.7949,
	"step": 56
	},
	{
	"epoch": 0.2726457399103139,
	"grad_norm": 0.11077425052933487,
	"learning_rate": 1.9596954019651354e-06,
	"loss": 0.7674,
	"step": 57
	},
	{
	"epoch": 0.27742899850523167,
	"grad_norm": 0.10576177825898277,
	"learning_rate": 1.95744139650666e-06,
	"loss": 0.7953,
	"step": 58
	},
	{
	"epoch": 0.28221225710014947,
	"grad_norm": 0.10359885133841641,
	"learning_rate": 1.955127435598247e-06,
	"loss": 0.7881,
	"step": 59
	},
	{
	"epoch": 0.28699551569506726,
	"grad_norm": 0.10586032252156977,
	"learning_rate": 1.9527536641412637e-06,
	"loss": 0.7984,
	"step": 60
	},
	{
	"epoch": 0.29177877428998505,
	"grad_norm": 0.10642116844371083,
	"learning_rate": 1.950320230782443e-06,
	"loss": 0.7666,
	"step": 61
	},
	{
	"epoch": 0.29656203288490285,
	"grad_norm": 0.11202675632435576,
	"learning_rate": 1.9478272879045763e-06,
	"loss": 0.7809,
	"step": 62
	},
	{
	"epoch": 0.30134529147982064,
	"grad_norm": 0.10728322195233368,
	"learning_rate": 1.9452749916169685e-06,
	"loss": 0.7948,
	"step": 63
	},
	{
	"epoch": 0.30612855007473844,
	"grad_norm": 0.10427886124668943,
	"learning_rate": 1.942663501745666e-06,
	"loss": 0.7843,
	"step": 64
	},
	{
	"epoch": 0.3109118086696562,
	"grad_norm": 0.09150641957182463,
	"learning_rate": 1.939992981823445e-06,
	"loss": 0.7713,
	"step": 65
	},
	{
	"epoch": 0.31569506726457397,
	"grad_norm": 0.10652939965487439,
	"learning_rate": 1.9372635990795744e-06,
	"loss": 0.7338,
	"step": 66
	},
	{
	"epoch": 0.32047832585949176,
	"grad_norm": 0.12224668990837938,
	"learning_rate": 1.934475524429339e-06,
	"loss": 0.7651,
	"step": 67
	},
	{
	"epoch": 0.32526158445440956,
	"grad_norm": 0.09554788331952155,
	"learning_rate": 1.9316289324633416e-06,
	"loss": 0.7743,
	"step": 68
	},
	{
	"epoch": 0.33004484304932735,
	"grad_norm": 0.10311314948775388,
	"learning_rate": 1.928724001436568e-06,
	"loss": 0.7818,
	"step": 69
	},
	{
	"epoch": 0.33482810164424515,
	"grad_norm": 0.11402809897006772,
	"learning_rate": 1.925760913257224e-06,
	"loss": 0.7738,
	"step": 70
	},
	{
	"epoch": 0.33961136023916294,
	"grad_norm": 0.10099702778225672,
	"learning_rate": 1.922739853475345e-06,
	"loss": 0.7694,
	"step": 71
	},
	{
	"epoch": 0.34439461883408073,
	"grad_norm": 0.09669133625846159,
	"learning_rate": 1.919661011271176e-06,
	"loss": 0.7695,
	"step": 72
	},
	{
	"epoch": 0.34917787742899853,
	"grad_norm": 0.10013746372306316,
	"learning_rate": 1.916524579443327e-06,
	"loss": 0.7762,
	"step": 73
	},
	{
	"epoch": 0.35396113602391627,
	"grad_norm": 0.09840254254939616,
	"learning_rate": 1.9133307543966972e-06,
	"loss": 0.7465,
	"step": 74
	},
	{
	"epoch": 0.35874439461883406,
	"grad_norm": 0.10348087475535427,
	"learning_rate": 1.910079736130178e-06,
	"loss": 0.7591,
	"step": 75
	},
	{
	"epoch": 0.36352765321375186,
	"grad_norm": 0.09831488128647803,
	"learning_rate": 1.9067717282241275e-06,
	"loss": 0.7473,
	"step": 76
	},
	{
	"epoch": 0.36831091180866965,
	"grad_norm": 0.10747256347092367,
	"learning_rate": 1.9034069378276248e-06,
	"loss": 0.7899,
	"step": 77
	},
	{
	"epoch": 0.37309417040358744,
	"grad_norm": 0.10145726153107046,
	"learning_rate": 1.8999855756454943e-06,
	"loss": 0.759,
	"step": 78
	},
	{
	"epoch": 0.37787742899850524,
	"grad_norm": 0.09521749859691808,
	"learning_rate": 1.8965078559251141e-06,
	"loss": 0.765,
	"step": 79
	},
	{
	"epoch": 0.38266068759342303,
	"grad_norm": 0.09559204768504546,
	"learning_rate": 1.892973996443e-06,
	"loss": 0.7653,
	"step": 80
	},
	{
	"epoch": 0.3874439461883408,
	"grad_norm": 0.09893961689958143,
	"learning_rate": 1.8893842184911652e-06,
	"loss": 0.7585,
	"step": 81
	},
	{
	"epoch": 0.3922272047832586,
	"grad_norm": 0.10469293200053865,
	"learning_rate": 1.8857387468632673e-06,
	"loss": 0.7396,
	"step": 82
	},
	{
	"epoch": 0.39701046337817636,
	"grad_norm": 0.09881168266263542,
	"learning_rate": 1.8820378098405269e-06,
	"loss": 0.7449,
	"step": 83
	},
	{
	"epoch": 0.40179372197309415,
	"grad_norm": 0.09472923155314936,
	"learning_rate": 1.878281639177437e-06,
	"loss": 0.7536,
	"step": 84
	},
	{
	"epoch": 0.40657698056801195,
	"grad_norm": 0.09940252508830999,
	"learning_rate": 1.874470470087246e-06,
	"loss": 0.7695,
	"step": 85
	},
	{
	"epoch": 0.41136023916292974,
	"grad_norm": 0.10835992130612712,
	"learning_rate": 1.8706045412272329e-06,
	"loss": 0.7804,
	"step": 86
	},
	{
	"epoch": 0.41614349775784754,
	"grad_norm": 0.09850260645852206,
	"learning_rate": 1.8666840946837588e-06,
	"loss": 0.7581,
	"step": 87
	},
	{
	"epoch": 0.42092675635276533,
	"grad_norm": 0.10663807706116737,
	"learning_rate": 1.8627093759571097e-06,
	"loss": 0.7486,
	"step": 88
	},
	{
	"epoch": 0.4257100149476831,
	"grad_norm": 0.09576966700987803,
	"learning_rate": 1.8586806339461223e-06,
	"loss": 0.7393,
	"step": 89
	},
	{
	"epoch": 0.4304932735426009,
	"grad_norm": 0.13616509255793824,
	"learning_rate": 1.8545981209325974e-06,
	"loss": 0.7412,
	"step": 90
	},
	{
	"epoch": 0.43527653213751866,
	"grad_norm": 0.10078747049635026,
	"learning_rate": 1.850462092565503e-06,
	"loss": 0.7522,
	"step": 91
	},
	{
	"epoch": 0.44005979073243645,
	"grad_norm": 0.09590506182617801,
	"learning_rate": 1.846272807844964e-06,
	"loss": 0.7361,
	"step": 92
	},
	{
	"epoch": 0.44484304932735425,
	"grad_norm": 0.09599938671410663,
	"learning_rate": 1.8420305291060453e-06,
	"loss": 0.7454,
	"step": 93
	},
	{
	"epoch": 0.44962630792227204,
	"grad_norm": 0.10175459960116054,
	"learning_rate": 1.837735522002322e-06,
	"loss": 0.7776,
	"step": 94
	},
	{
	"epoch": 0.45440956651718983,
	"grad_norm": 0.10921604960602464,
	"learning_rate": 1.8333880554892465e-06,
	"loss": 0.7284,
	"step": 95
	},
	{
	"epoch": 0.4591928251121076,
	"grad_norm": 0.10701793438795469,
	"learning_rate": 1.828988401807304e-06,
	"loss": 0.7275,
	"step": 96
	},
	{
	"epoch": 0.4639760837070254,
	"grad_norm": 0.10671158442373065,
	"learning_rate": 1.8245368364649672e-06,
	"loss": 0.7176,
	"step": 97
	},
	{
	"epoch": 0.4687593423019432,
	"grad_norm": 0.09323865008012455,
	"learning_rate": 1.8200336382214404e-06,
	"loss": 0.7558,
	"step": 98
	},
	{
	"epoch": 0.473542600896861,
	"grad_norm": 0.09924243426975013,
	"learning_rate": 1.815479089069208e-06,
	"loss": 0.7477,
	"step": 99
	},
	{
	"epoch": 0.47832585949177875,
	"grad_norm": 0.10034019533981096,
	"learning_rate": 1.8108734742163714e-06,
	"loss": 0.7302,
	"step": 100
	},
	{
	"epoch": 0.48310911808669654,
	"grad_norm": 0.09289950458176202,
	"learning_rate": 1.8062170820687923e-06,
	"loss": 0.7461,
	"step": 101
	},
	{
	"epoch": 0.48789237668161434,
	"grad_norm": 0.10063821105969947,
	"learning_rate": 1.8015102042120314e-06,
	"loss": 0.7374,
	"step": 102
	},
	{
	"epoch": 0.49267563527653213,
	"grad_norm": 0.10431764482912426,
	"learning_rate": 1.796753135393089e-06,
	"loss": 0.753,
	"step": 103
	},
	{
	"epoch": 0.4974588938714499,
	"grad_norm": 0.09777703419526715,
	"learning_rate": 1.791946173501948e-06,
	"loss": 0.7172,
	"step": 104
	},
	{
	"epoch": 0.5022421524663677,
	"grad_norm": 0.09880039694565383,
	"learning_rate": 1.7870896195529204e-06,
	"loss": 0.7157,
	"step": 105
	},
	{
	"epoch": 0.5070254110612855,
	"grad_norm": 0.10103523012523379,
	"learning_rate": 1.7821837776657967e-06,
	"loss": 0.7522,
	"step": 106
	},
	{
	"epoch": 0.5118086696562033,
	"grad_norm": 0.09953632352625874,
	"learning_rate": 1.777228955046803e-06,
	"loss": 0.7215,
	"step": 107
	},
	{
	"epoch": 0.5165919282511211,
	"grad_norm": 0.09448842637214858,
	"learning_rate": 1.7722254619693617e-06,
	"loss": 0.7311,
	"step": 108
	},
	{
	"epoch": 0.5213751868460389,
	"grad_norm": 0.09926544596139777,
	"learning_rate": 1.7671736117546643e-06,
	"loss": 0.7242,
	"step": 109
	},
	{
	"epoch": 0.5261584454409567,
	"grad_norm": 0.09420983432319698,
	"learning_rate": 1.7620737207520498e-06,
	"loss": 0.7302,
	"step": 110
	},
	{
	"epoch": 0.5309417040358745,
	"grad_norm": 0.09391867567605319,
	"learning_rate": 1.756926108319194e-06,
	"loss": 0.7222,
	"step": 111
	},
	{
	"epoch": 0.5357249626307923,
	"grad_norm": 0.09479652603956866,
	"learning_rate": 1.751731096802113e-06,
	"loss": 0.7361,
	"step": 112
	},
	{
	"epoch": 0.54050822122571,
	"grad_norm": 0.09440230389077435,
	"learning_rate": 1.7464890115149759e-06,
	"loss": 0.7183,
	"step": 113
	},
	{
	"epoch": 0.5452914798206278,
	"grad_norm": 0.09514244364363002,
	"learning_rate": 1.7412001807197361e-06,
	"loss": 0.7342,
	"step": 114
	},
	{
	"epoch": 0.5500747384155455,
	"grad_norm": 0.10939831006494534,
	"learning_rate": 1.735864935605572e-06,
	"loss": 0.7251,
	"step": 115
	},
	{
	"epoch": 0.5548579970104633,
	"grad_norm": 0.10066676165355973,
	"learning_rate": 1.7304836102681493e-06,
	"loss": 0.7081,
	"step": 116
	},
	{
	"epoch": 0.5596412556053811,
	"grad_norm": 0.10100361164339053,
	"learning_rate": 1.7250565416887015e-06,
	"loss": 0.742,
	"step": 117
	},
	{
	"epoch": 0.5644245142002989,
	"grad_norm": 0.09740229601345607,
	"learning_rate": 1.719584069712925e-06,
	"loss": 0.7314,
	"step": 118
	},
	{
	"epoch": 0.5692077727952167,
	"grad_norm": 0.1012821496567702,
	"learning_rate": 1.7140665370296992e-06,
	"loss": 0.7167,
	"step": 119
	},
	{
	"epoch": 0.5739910313901345,
	"grad_norm": 0.09994075838359362,
	"learning_rate": 1.708504289149628e-06,
	"loss": 0.7421,
	"step": 120
	},
	{
	"epoch": 0.5787742899850523,
	"grad_norm": 0.09513046173828367,
	"learning_rate": 1.702897674383402e-06,
	"loss": 0.7067,
	"step": 121
	},
	{
	"epoch": 0.5835575485799701,
	"grad_norm": 0.10488877885042427,
	"learning_rate": 1.697247043819988e-06,
	"loss": 0.7283,
	"step": 122
	},
	{
	"epoch": 0.5883408071748879,
	"grad_norm": 0.10017563354892535,
	"learning_rate": 1.6915527513046443e-06,
	"loss": 0.7289,
	"step": 123
	},
	{
	"epoch": 0.5931240657698057,
	"grad_norm": 0.09910676006320021,
	"learning_rate": 1.6858151534167616e-06,
	"loss": 0.7258,
	"step": 124
	},
	{
	"epoch": 0.5979073243647235,
	"grad_norm": 0.10226756484228856,
	"learning_rate": 1.6800346094475346e-06,
	"loss": 0.7294,
	"step": 125
	},
	{
	"epoch": 0.6026905829596413,
	"grad_norm": 0.0941277312513867,
	"learning_rate": 1.6742114813774618e-06,
	"loss": 0.7059,
	"step": 126
	},
	{
	"epoch": 0.6074738415545591,
	"grad_norm": 0.10468386708851042,
	"learning_rate": 1.6683461338536798e-06,
	"loss": 0.76,
	"step": 127
	},
	{
	"epoch": 0.6122571001494769,
	"grad_norm": 0.09546912003315239,
	"learning_rate": 1.6624389341671278e-06,
	"loss": 0.7199,
	"step": 128
	},
	{
	"epoch": 0.6170403587443947,
	"grad_norm": 0.09278710008849092,
	"learning_rate": 1.656490252229548e-06,
	"loss": 0.71,
	"step": 129
	},
	{
	"epoch": 0.6218236173393124,
	"grad_norm": 0.09629578223078193,
	"learning_rate": 1.6505004605503223e-06,
	"loss": 0.7297,
	"step": 130
	},
	{
	"epoch": 0.6266068759342301,
	"grad_norm": 0.10564515959559177,
	"learning_rate": 1.6444699342131428e-06,
	"loss": 0.7323,
	"step": 131
	},
	{
	"epoch": 0.6313901345291479,
	"grad_norm": 0.11359024419098725,
	"learning_rate": 1.638399050852528e-06,
	"loss": 0.7091,
	"step": 132
	},
	{
	"epoch": 0.6361733931240657,
	"grad_norm": 0.11261022540293862,
	"learning_rate": 1.632288190630172e-06,
	"loss": 0.7092,
	"step": 133
	},
	{
	"epoch": 0.6409566517189835,
	"grad_norm": 0.11356374624941931,
	"learning_rate": 1.6261377362111396e-06,
	"loss": 0.7226,
	"step": 134
	},
	{
	"epoch": 0.6457399103139013,
	"grad_norm": 0.09628738165774237,
	"learning_rate": 1.6199480727399032e-06,
	"loss": 0.7313,
	"step": 135
	},
	{
	"epoch": 0.6505231689088191,
	"grad_norm": 0.09955265729242128,
	"learning_rate": 1.6137195878162267e-06,
	"loss": 0.7264,
	"step": 136
	},
	{
	"epoch": 0.6553064275037369,
	"grad_norm": 0.10088157860044299,
	"learning_rate": 1.607452671470891e-06,
	"loss": 0.72,
	"step": 137
	},
	{
	"epoch": 0.6600896860986547,
	"grad_norm": 0.09316854100471951,
	"learning_rate": 1.601147716141272e-06,
	"loss": 0.7043,
	"step": 138
	},
	{
	"epoch": 0.6648729446935725,
	"grad_norm": 0.09866104920600266,
	"learning_rate": 1.5948051166467657e-06,
	"loss": 0.7314,
	"step": 139
	},
	{
	"epoch": 0.6696562032884903,
	"grad_norm": 0.09908667617176863,
	"learning_rate": 1.5884252701640634e-06,
	"loss": 0.7223,
	"step": 140
	},
	{
	"epoch": 0.6744394618834081,
	"grad_norm": 0.10108043693556777,
	"learning_rate": 1.5820085762022823e-06,
	"loss": 0.7145,
	"step": 141
	},
	{
	"epoch": 0.6792227204783259,
	"grad_norm": 0.09483321797525981,
	"learning_rate": 1.5755554365779455e-06,
	"loss": 0.712,
	"step": 142
	},
	{
	"epoch": 0.6840059790732437,
	"grad_norm": 0.09772063438530315,
	"learning_rate": 1.5690662553898222e-06,
	"loss": 0.7262,
	"step": 143
	},
	{
	"epoch": 0.6887892376681615,
	"grad_norm": 0.09547210509162248,
	"learning_rate": 1.5625414389936218e-06,
	"loss": 0.6881,
	"step": 144
	},
	{
	"epoch": 0.6935724962630793,
	"grad_norm": 0.10198333563773951,
	"learning_rate": 1.555981395976548e-06,
	"loss": 0.7023,
	"step": 145
	},
	{
	"epoch": 0.6983557548579971,
	"grad_norm": 0.0960216671080163,
	"learning_rate": 1.5493865371317123e-06,
	"loss": 0.7041,
	"step": 146
	},
	{
	"epoch": 0.7031390134529149,
	"grad_norm": 0.10811878950887173,
	"learning_rate": 1.542757275432411e-06,
	"loss": 0.7121,
	"step": 147
	},
	{
	"epoch": 0.7079222720478325,
	"grad_norm": 0.09745342759060693,
	"learning_rate": 1.5360940260062635e-06,
	"loss": 0.7,
	"step": 148
	},
	{
	"epoch": 0.7127055306427503,
	"grad_norm": 0.10002068890855158,
	"learning_rate": 1.5293972061092185e-06,
	"loss": 0.7174,
	"step": 149
	},
	{
	"epoch": 0.7174887892376681,
	"grad_norm": 0.094440761646848,
	"learning_rate": 1.522667235099422e-06,
	"loss": 0.6842,
	"step": 150
	},
	{
	"epoch": 0.7222720478325859,
	"grad_norm": 0.09714805521617614,
	"learning_rate": 1.515904534410961e-06,
	"loss": 0.6917,
	"step": 151
	},
	{
	"epoch": 0.7270553064275037,
	"grad_norm": 0.09206634939711936,
	"learning_rate": 1.5091095275274699e-06,
	"loss": 0.6807,
	"step": 152
	},
	{
	"epoch": 0.7318385650224215,
	"grad_norm": 0.09811924963451824,
	"learning_rate": 1.5022826399556133e-06,
	"loss": 0.6938,
	"step": 153
	},
	{
	"epoch": 0.7366218236173393,
	"grad_norm": 0.09469018906462104,
	"learning_rate": 1.4954242991984396e-06,
	"loss": 0.7262,
	"step": 154
	},
	{
	"epoch": 0.7414050822122571,
	"grad_norm": 0.09900495842570976,
	"learning_rate": 1.4885349347286115e-06,
	"loss": 0.6928,
	"step": 155
	},
	{
	"epoch": 0.7461883408071749,
	"grad_norm": 0.09813499443182924,
	"learning_rate": 1.4816149779615126e-06,
	"loss": 0.7041,
	"step": 156
	},
	{
	"epoch": 0.7509715994020927,
	"grad_norm": 0.09285509032551069,
	"learning_rate": 1.474664862228229e-06,
	"loss": 0.7157,
	"step": 157
	},
	{
	"epoch": 0.7557548579970105,
	"grad_norm": 0.09930227957877516,
	"learning_rate": 1.467685022748419e-06,
	"loss": 0.7077,
	"step": 158
	},
	{
	"epoch": 0.7605381165919283,
	"grad_norm": 0.09336816965151891,
	"learning_rate": 1.4606758966030534e-06,
	"loss": 0.6905,
	"step": 159
	},
	{
	"epoch": 0.7653213751868461,
	"grad_norm": 0.09584860785157516,
	"learning_rate": 1.4536379227070509e-06,
	"loss": 0.704,
	"step": 160
	},
	{
	"epoch": 0.7701046337817639,
	"grad_norm": 0.09906164552724124,
	"learning_rate": 1.4465715417817888e-06,
	"loss": 0.7014,
	"step": 161
	},
	{
	"epoch": 0.7748878923766817,
	"grad_norm": 0.09920929186360831,
	"learning_rate": 1.4394771963275076e-06,
	"loss": 0.6711,
	"step": 162
	},
	{
	"epoch": 0.7796711509715994,
	"grad_norm": 0.09312914704123235,
	"learning_rate": 1.4323553305955997e-06,
	"loss": 0.704,
	"step": 163
	},
	{
	"epoch": 0.7844544095665172,
	"grad_norm": 0.09380001375870357,
	"learning_rate": 1.4252063905607909e-06,
	"loss": 0.6769,
	"step": 164
	},
	{
	"epoch": 0.7892376681614349,
	"grad_norm": 0.09383108087011895,
	"learning_rate": 1.4180308238932135e-06,
	"loss": 0.6903,
	"step": 165
	},
	{
	"epoch": 0.7940209267563527,
	"grad_norm": 0.09761627284743495,
	"learning_rate": 1.410829079930372e-06,
	"loss": 0.7126,
	"step": 166
	},
	{
	"epoch": 0.7988041853512705,
	"grad_norm": 0.09591926993818495,
	"learning_rate": 1.4036016096490064e-06,
	"loss": 0.6936,
	"step": 167
	},
	{
	"epoch": 0.8035874439461883,
	"grad_norm": 0.09463907898930997,
	"learning_rate": 1.3963488656368517e-06,
	"loss": 0.6918,
	"step": 168
	},
	{
	"epoch": 0.8083707025411061,
	"grad_norm": 0.10314575539858357,
	"learning_rate": 1.389071302064295e-06,
	"loss": 0.6837,
	"step": 169
	},
	{
	"epoch": 0.8131539611360239,
	"grad_norm": 0.0964154089668258,
	"learning_rate": 1.381769374655938e-06,
	"loss": 0.7087,
	"step": 170
	},
	{
	"epoch": 0.8179372197309417,
	"grad_norm": 0.10458955759891816,
	"learning_rate": 1.374443540662057e-06,
	"loss": 0.7132,
	"step": 171
	},
	{
	"epoch": 0.8227204783258595,
	"grad_norm": 0.11118113052583456,
	"learning_rate": 1.3670942588299705e-06,
	"loss": 0.689,
	"step": 172
	},
	{
	"epoch": 0.8275037369207773,
	"grad_norm": 0.09430050647819165,
	"learning_rate": 1.3597219893753117e-06,
	"loss": 0.6669,
	"step": 173
	},
	{
	"epoch": 0.8322869955156951,
	"grad_norm": 0.10018122520539552,
	"learning_rate": 1.352327193953211e-06,
	"loss": 0.675,
	"step": 174
	},
	{
	"epoch": 0.8370702541106129,
	"grad_norm": 0.1036112926787395,
	"learning_rate": 1.3449103356293852e-06,
	"loss": 0.7151,
	"step": 175
	},
	{
	"epoch": 0.8418535127055307,
	"grad_norm": 0.09652117392718416,
	"learning_rate": 1.337471878851141e-06,
	"loss": 0.6819,
	"step": 176
	},
	{
	"epoch": 0.8466367713004485,
	"grad_norm": 0.11467070226240633,
	"learning_rate": 1.3300122894182909e-06,
	"loss": 0.7063,
	"step": 177
	},
	{
	"epoch": 0.8514200298953662,
	"grad_norm": 0.0974406950357686,
	"learning_rate": 1.3225320344539842e-06,
	"loss": 0.7154,
	"step": 178
	},
	{
	"epoch": 0.856203288490284,
	"grad_norm": 0.10056923973958724,
	"learning_rate": 1.315031582375457e-06,
	"loss": 0.7119,
	"step": 179
	},
	{
	"epoch": 0.8609865470852018,
	"grad_norm": 0.10289512917324216,
	"learning_rate": 1.3075114028646974e-06,
	"loss": 0.6872,
	"step": 180
	},
	{
	"epoch": 0.8657698056801196,
	"grad_norm": 0.10284996024746469,
	"learning_rate": 1.299971966839036e-06,
	"loss": 0.6995,
	"step": 181
	},
	{
	"epoch": 0.8705530642750373,
	"grad_norm": 0.09442402879665361,
	"learning_rate": 1.292413746421655e-06,
	"loss": 0.6788,
	"step": 182
	},
	{
	"epoch": 0.8753363228699551,
	"grad_norm": 0.09221585066528634,
	"learning_rate": 1.2848372149120246e-06,
	"loss": 0.6625,
	"step": 183
	},
	{
	"epoch": 0.8801195814648729,
	"grad_norm": 0.09614590670948946,
	"learning_rate": 1.2772428467562651e-06,
	"loss": 0.6993,
	"step": 184
	},
	{
	"epoch": 0.8849028400597907,
	"grad_norm": 0.09884964743533457,
	"learning_rate": 1.2696311175174357e-06,
	"loss": 0.6826,
	"step": 185
	},
	{
	"epoch": 0.8896860986547085,
	"grad_norm": 0.10049262287084837,
	"learning_rate": 1.2620025038457554e-06,
	"loss": 0.6875,
	"step": 186
	},
	{
	"epoch": 0.8944693572496263,
	"grad_norm": 0.0951319815934962,
	"learning_rate": 1.254357483448755e-06,
	"loss": 0.6763,
	"step": 187
	},
	{
	"epoch": 0.8992526158445441,
	"grad_norm": 0.0935897850203258,
	"learning_rate": 1.2466965350613615e-06,
	"loss": 0.7191,
	"step": 188
	},
	{
	"epoch": 0.9040358744394619,
	"grad_norm": 0.10488228598924217,
	"learning_rate": 1.2390201384159219e-06,
	"loss": 0.7031,
	"step": 189
	},
	{
	"epoch": 0.9088191330343797,
	"grad_norm": 0.09803611282531831,
	"learning_rate": 1.231328774212159e-06,
	"loss": 0.6596,
	"step": 190
	},
	{
	"epoch": 0.9136023916292975,
	"grad_norm": 0.10982924572402691,
	"learning_rate": 1.223622924087073e-06,
	"loss": 0.685,
	"step": 191
	},
	{
	"epoch": 0.9183856502242153,
	"grad_norm": 0.0990057467989385,
	"learning_rate": 1.215903070584779e-06,
	"loss": 0.6905,
	"step": 192
	},
	{
	"epoch": 0.923168908819133,
	"grad_norm": 0.09806799076875558,
	"learning_rate": 1.2081696971262903e-06,
	"loss": 0.6888,
	"step": 193
	},
	{
	"epoch": 0.9279521674140508,
	"grad_norm": 0.09725950749183558,
	"learning_rate": 1.2004232879792464e-06,
	"loss": 0.6897,
	"step": 194
	},
	{
	"epoch": 0.9327354260089686,
	"grad_norm": 0.09998658118754998,
	"learning_rate": 1.1926643282275882e-06,
	"loss": 0.6808,
	"step": 195
	},
	{
	"epoch": 0.9375186846038864,
	"grad_norm": 0.09991311679692257,
	"learning_rate": 1.1848933037411825e-06,
	"loss": 0.6721,
	"step": 196
	},
	{
	"epoch": 0.9423019431988042,
	"grad_norm": 0.09570773453199784,
	"learning_rate": 1.1771107011453933e-06,
	"loss": 0.6943,
	"step": 197
	},
	{
	"epoch": 0.947085201793722,
	"grad_norm": 0.09891331359398514,
	"learning_rate": 1.1693170077906143e-06,
	"loss": 0.6989,
	"step": 198
	},
	{
	"epoch": 0.9518684603886398,
	"grad_norm": 0.09162536810525922,
	"learning_rate": 1.1615127117217463e-06,
	"loss": 0.6705,
	"step": 199
	},
	{
	"epoch": 0.9566517189835575,
	"grad_norm": 0.08903988395053124,
	"learning_rate": 1.1536983016476373e-06,
	"loss": 0.679,
	"step": 200
	},
	{
	"epoch": 0.9614349775784753,
	"grad_norm": 0.09042806424104788,
	"learning_rate": 1.1458742669104803e-06,
	"loss": 0.6652,
	"step": 201
	},
	{
	"epoch": 0.9662182361733931,
	"grad_norm": 0.10347050843667145,
	"learning_rate": 1.1380410974551682e-06,
	"loss": 0.6891,
	"step": 202
	},
	{
	"epoch": 0.9710014947683109,
	"grad_norm": 0.0937785288147842,
	"learning_rate": 1.130199283798615e-06,
	"loss": 0.662,
	"step": 203
	},
	{
	"epoch": 0.9757847533632287,
	"grad_norm": 0.10125646071292,
	"learning_rate": 1.1223493169990391e-06,
	"loss": 0.6857,
	"step": 204
	},
	{
	"epoch": 0.9805680119581465,
	"grad_norm": 0.09552098120941739,
	"learning_rate": 1.1144916886252124e-06,
	"loss": 0.6693,
	"step": 205
	},
	{
	"epoch": 0.9853512705530643,
	"grad_norm": 0.0939464203547695,
	"learning_rate": 1.1066268907256782e-06,
	"loss": 0.689,
	"step": 206
	},
	{
	"epoch": 0.9901345291479821,
	"grad_norm": 0.1083244661837491,
	"learning_rate": 1.098755415797939e-06,
	"loss": 0.6795,
	"step": 207
	},
	{
	"epoch": 0.9949177877428999,
	"grad_norm": 0.09671011359258122,
	"learning_rate": 1.0908777567576168e-06,
	"loss": 0.697,
	"step": 208
	},
	{
	"epoch": 0.9997010463378176,
	"grad_norm": 0.09491067631505212,
	"learning_rate": 1.0829944069075847e-06,
	"loss": 0.6913,
	"step": 209
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.09491067631505212,
	"learning_rate": 1.0751058599070781e-06,
	"loss": 0.0398,
	"step": 210
	},
	{
	"epoch": 1.0047832585949177,
	"grad_norm": 0.09568291564665689,
	"learning_rate": 1.0672126097407795e-06,
	"loss": 0.6558,
	"step": 211
	},
	{
	"epoch": 1.0095665171898356,
	"grad_norm": 0.0890899262566247,
	"learning_rate": 1.0593151506878865e-06,
	"loss": 0.6742,
	"step": 212
	},
	{
	"epoch": 1.0143497757847533,
	"grad_norm": 0.08951496407842846,
	"learning_rate": 1.0514139772911597e-06,
	"loss": 0.6589,
	"step": 213
	},
	{
	"epoch": 1.0191330343796712,
	"grad_norm": 0.09303979677050327,
	"learning_rate": 1.043509584325953e-06,
	"loss": 0.6526,
	"step": 214
	},
	{
	"epoch": 1.0239162929745889,
	"grad_norm": 0.10551892280989528,
	"learning_rate": 1.0356024667692314e-06,
	"loss": 0.6849,
	"step": 215
	},
	{
	"epoch": 1.0286995515695068,
	"grad_norm": 0.10560698057117009,
	"learning_rate": 1.0276931197685753e-06,
	"loss": 0.6947,
	"step": 216
	},
	{
	"epoch": 1.0334828101644244,
	"grad_norm": 0.09055248425609617,
	"learning_rate": 1.0197820386111737e-06,
	"loss": 0.6692,
	"step": 217
	},
	{
	"epoch": 1.0382660687593424,
	"grad_norm": 0.08952534903326591,
	"learning_rate": 1.0118697186928105e-06,
	"loss": 0.6481,
	"step": 218
	},
	{
	"epoch": 1.04304932735426,
	"grad_norm": 0.0949207133753394,
	"learning_rate": 1.0039566554868392e-06,
	"loss": 0.6561,
	"step": 219
	},
	{
	"epoch": 1.047832585949178,
	"grad_norm": 0.09247582314260705,
	"learning_rate": 9.960433445131607e-07,
	"loss": 0.6727,
	"step": 220
	},
	{
	"epoch": 1.0526158445440956,
	"grad_norm": 0.0922431854223743,
	"learning_rate": 9.881302813071896e-07,
	"loss": 0.6786,
	"step": 221
	},
	{
	"epoch": 1.0573991031390135,
	"grad_norm": 0.09921340856730206,
	"learning_rate": 9.802179613888262e-07,
	"loss": 0.6492,
	"step": 222
	},
	{
	"epoch": 1.0621823617339312,
	"grad_norm": 0.09405904196612806,
	"learning_rate": 9.723068802314246e-07,
	"loss": 0.6435,
	"step": 223
	},
	{
	"epoch": 1.0669656203288491,
	"grad_norm": 0.10252064804861775,
	"learning_rate": 9.643975332307687e-07,
	"loss": 0.6693,
	"step": 224
	},
	{
	"epoch": 1.0717488789237668,
	"grad_norm": 0.09137882604103069,
	"learning_rate": 9.564904156740471e-07,
	"loss": 0.6554,
	"step": 225
	},
	{
	"epoch": 1.0765321375186847,
	"grad_norm": 0.09506143141231545,
	"learning_rate": 9.485860227088405e-07,
	"loss": 0.6524,
	"step": 226
	},
	{
	"epoch": 1.0813153961136024,
	"grad_norm": 0.09471266291722098,
	"learning_rate": 9.406848493121134e-07,
	"loss": 0.6598,
	"step": 227
	},
	{
	"epoch": 1.08609865470852,
	"grad_norm": 0.09374158444399681,
	"learning_rate": 9.327873902592205e-07,
	"loss": 0.6546,
	"step": 228
	},
	{
	"epoch": 1.090881913303438,
	"grad_norm": 0.0988485463507574,
	"learning_rate": 9.248941400929222e-07,
	"loss": 0.6659,
	"step": 229
	},
	{
	"epoch": 1.0956651718983557,
	"grad_norm": 0.09989186431558944,
	"learning_rate": 9.17005593092415e-07,
	"loss": 0.6789,
	"step": 230
	},
	{
	"epoch": 1.1004484304932736,
	"grad_norm": 0.09577210416129449,
	"learning_rate": 9.09122243242383e-07,
	"loss": 0.6395,
	"step": 231
	},
	{
	"epoch": 1.1052316890881912,
	"grad_norm": 0.09417460653116495,
	"learning_rate": 9.01244584202061e-07,
	"loss": 0.6351,
	"step": 232
	},
	{
	"epoch": 1.1100149476831092,
	"grad_norm": 0.1060296134876217,
	"learning_rate": 8.933731092743219e-07,
	"loss": 0.6843,
	"step": 233
	},
	{
	"epoch": 1.1147982062780268,
	"grad_norm": 0.1015156854708665,
	"learning_rate": 8.855083113747875e-07,
	"loss": 0.6533,
	"step": 234
	},
	{
	"epoch": 1.1195814648729447,
	"grad_norm": 0.09252864648733664,
	"learning_rate": 8.776506830009607e-07,
	"loss": 0.6529,
	"step": 235
	},
	{
	"epoch": 1.1243647234678624,
	"grad_norm": 0.09810040579156247,
	"learning_rate": 8.698007162013849e-07,
	"loss": 0.6622,
	"step": 236
	},
	{
	"epoch": 1.1291479820627803,
	"grad_norm": 0.10333456832019272,
	"learning_rate": 8.619589025448318e-07,
	"loss": 0.6698,
	"step": 237
	},
	{
	"epoch": 1.133931240657698,
	"grad_norm": 0.09369526359642345,
	"learning_rate": 8.541257330895197e-07,
	"loss": 0.6397,
	"step": 238
	},
	{
	"epoch": 1.138714499252616,
	"grad_norm": 0.0934070849673633,
	"learning_rate": 8.463016983523627e-07,
	"loss": 0.6724,
	"step": 239
	},
	{
	"epoch": 1.1434977578475336,
	"grad_norm": 0.0968568071003159,
	"learning_rate": 8.384872882782541e-07,
	"loss": 0.6651,
	"step": 240
	},
	{
	"epoch": 1.1482810164424515,
	"grad_norm": 0.09218848184783551,
	"learning_rate": 8.306829922093857e-07,
	"loss": 0.6482,
	"step": 241
	},
	{
	"epoch": 1.1530642750373692,
	"grad_norm": 0.09367162146496326,
	"learning_rate": 8.228892988546067e-07,
	"loss": 0.6532,
	"step": 242
	},
	{
	"epoch": 1.157847533632287,
	"grad_norm": 0.09179870741014423,
	"learning_rate": 8.15106696258818e-07,
	"loss": 0.6458,
	"step": 243
	},
	{
	"epoch": 1.1626307922272048,
	"grad_norm": 0.10425982157218257,
	"learning_rate": 8.073356717724115e-07,
	"loss": 0.6476,
	"step": 244
	},
	{
	"epoch": 1.1674140508221225,
	"grad_norm": 0.10785978296392415,
	"learning_rate": 7.995767120207536e-07,
	"loss": 0.6542,
	"step": 245
	},
	{
	"epoch": 1.1721973094170404,
	"grad_norm": 0.09053925155843066,
	"learning_rate": 7.918303028737096e-07,
	"loss": 0.6444,
	"step": 246
	},
	{
	"epoch": 1.176980568011958,
	"grad_norm": 0.11054671698924359,
	"learning_rate": 7.840969294152211e-07,
	"loss": 0.6546,
	"step": 247
	},
	{
	"epoch": 1.181763826606876,
	"grad_norm": 0.09190168624229306,
	"learning_rate": 7.763770759129269e-07,
	"loss": 0.6483,
	"step": 248
	},
	{
	"epoch": 1.1865470852017936,
	"grad_norm": 0.10112895278117082,
	"learning_rate": 7.68671225787841e-07,
	"loss": 0.6607,
	"step": 249
	},
	{
	"epoch": 1.1913303437967115,
	"grad_norm": 0.09521368142452571,
	"learning_rate": 7.609798615840785e-07,
	"loss": 0.6632,
	"step": 250
	},
	{
	"epoch": 1.1961136023916292,
	"grad_norm": 0.09631678500828386,
	"learning_rate": 7.533034649386384e-07,
	"loss": 0.6271,
	"step": 251
	},
	{
	"epoch": 1.2008968609865471,
	"grad_norm": 0.09402110237205977,
	"learning_rate": 7.456425165512452e-07,
	"loss": 0.649,
	"step": 252
	},
	{
	"epoch": 1.2056801195814648,
	"grad_norm": 0.10452266128761932,
	"learning_rate": 7.379974961542447e-07,
	"loss": 0.6744,
	"step": 253
	},
	{
	"epoch": 1.2104633781763827,
	"grad_norm": 0.09522707743392524,
	"learning_rate": 7.303688824825646e-07,
	"loss": 0.6608,
	"step": 254
	},
	{
	"epoch": 1.2152466367713004,
	"grad_norm": 0.09573208889216732,
	"learning_rate": 7.227571532437349e-07,
	"loss": 0.652,
	"step": 255
	},
	{
	"epoch": 1.2200298953662183,
	"grad_norm": 0.08917908293059873,
	"learning_rate": 7.151627850879755e-07,
	"loss": 0.6543,
	"step": 256
	},
	{
	"epoch": 1.224813153961136,
	"grad_norm": 0.09616438435062312,
	"learning_rate": 7.075862535783453e-07,
	"loss": 0.6337,
	"step": 257
	},
	{
	"epoch": 1.229596412556054,
	"grad_norm": 0.09640367364080155,
	"learning_rate": 7.00028033160964e-07,
	"loss": 0.6839,
	"step": 258
	},
	{
	"epoch": 1.2343796711509716,
	"grad_norm": 0.09586353497663917,
	"learning_rate": 6.924885971353026e-07,
	"loss": 0.6669,
	"step": 259
	},
	{
	"epoch": 1.2391629297458895,
	"grad_norm": 0.09267059238961081,
	"learning_rate": 6.849684176245431e-07,
	"loss": 0.6314,
	"step": 260
	},
	{
	"epoch": 1.2439461883408072,
	"grad_norm": 0.09031407329588002,
	"learning_rate": 6.774679655460158e-07,
	"loss": 0.6449,
	"step": 261
	},
	{
	"epoch": 1.2487294469357249,
	"grad_norm": 0.09470627715876291,
	"learning_rate": 6.699877105817092e-07,
	"loss": 0.6502,
	"step": 262
	},
	{
	"epoch": 1.2535127055306428,
	"grad_norm": 0.10074811226580811,
	"learning_rate": 6.625281211488591e-07,
	"loss": 0.6686,
	"step": 263
	},
	{
	"epoch": 1.2582959641255607,
	"grad_norm": 0.10063396201285223,
	"learning_rate": 6.55089664370615e-07,
	"loss": 0.6695,
	"step": 264
	},
	{
	"epoch": 1.2630792227204783,
	"grad_norm": 0.0918463846096307,
	"learning_rate": 6.476728060467888e-07,
	"loss": 0.6451,
	"step": 265
	},
	{
	"epoch": 1.267862481315396,
	"grad_norm": 0.09328601851356563,
	"learning_rate": 6.402780106246884e-07,
	"loss": 0.6532,
	"step": 266
	},
	{
	"epoch": 1.272645739910314,
	"grad_norm": 0.09424847785405825,
	"learning_rate": 6.329057411700298e-07,
	"loss": 0.6673,
	"step": 267
	},
	{
	"epoch": 1.2774289985052316,
	"grad_norm": 0.10008134051501576,
	"learning_rate": 6.255564593379429e-07,
	"loss": 0.6672,
	"step": 268
	},
	{
	"epoch": 1.2822122571001495,
	"grad_norm": 0.09294984655524738,
	"learning_rate": 6.182306253440619e-07,
	"loss": 0.6395,
	"step": 269
	},
	{
	"epoch": 1.2869955156950672,
	"grad_norm": 0.10285895388747343,
	"learning_rate": 6.109286979357051e-07,
	"loss": 0.6637,
	"step": 270
	},
	{
	"epoch": 1.291778774289985,
	"grad_norm": 0.11139784795321246,
	"learning_rate": 6.036511343631488e-07,
	"loss": 0.6455,
	"step": 271
	},
	{
	"epoch": 1.2965620328849028,
	"grad_norm": 0.09212296328590026,
	"learning_rate": 5.963983903509935e-07,
	"loss": 0.6638,
	"step": 272
	},
	{
	"epoch": 1.3013452914798207,
	"grad_norm": 0.0949968377343012,
	"learning_rate": 5.89170920069628e-07,
	"loss": 0.6548,
	"step": 273
	},
	{
	"epoch": 1.3061285500747384,
	"grad_norm": 0.09690303299554558,
	"learning_rate": 5.819691761067865e-07,
	"loss": 0.6388,
	"step": 274
	},
	{
	"epoch": 1.310911808669656,
	"grad_norm": 0.09255296263795812,
	"learning_rate": 5.747936094392089e-07,
	"loss": 0.6435,
	"step": 275
	},
	{
	"epoch": 1.315695067264574,
	"grad_norm": 0.09503263182638313,
	"learning_rate": 5.676446694044002e-07,
	"loss": 0.638,
	"step": 276
	},
	{
	"epoch": 1.3204783258594919,
	"grad_norm": 0.09478054996201758,
	"learning_rate": 5.605228036724927e-07,
	"loss": 0.6502,
	"step": 277
	},
	{
	"epoch": 1.3252615844544096,
	"grad_norm": 0.0933411883471192,
	"learning_rate": 5.534284582182114e-07,
	"loss": 0.6511,
	"step": 278
	},
	{
	"epoch": 1.3300448430493272,
	"grad_norm": 0.09944351370813859,
	"learning_rate": 5.463620772929494e-07,
	"loss": 0.6325,
	"step": 279
	},
	{
	"epoch": 1.3348281016442451,
	"grad_norm": 0.10023032726854744,
	"learning_rate": 5.393241033969466e-07,
	"loss": 0.6418,
	"step": 280
	},
	{
	"epoch": 1.339611360239163,
	"grad_norm": 0.09729398494948012,
	"learning_rate": 5.323149772515812e-07,
	"loss": 0.6372,
	"step": 281
	},
	{
	"epoch": 1.3443946188340807,
	"grad_norm": 0.09323209082587747,
	"learning_rate": 5.253351377717706e-07,
	"loss": 0.6504,
	"step": 282
	},
	{
	"epoch": 1.3491778774289984,
	"grad_norm": 0.08940562070783202,
	"learning_rate": 5.183850220384873e-07,
	"loss": 0.6461,
	"step": 283
	},
	{
	"epoch": 1.3539611360239163,
	"grad_norm": 0.09092518318025446,
	"learning_rate": 5.114650652713884e-07,
	"loss": 0.6542,
	"step": 284
	},
	{
	"epoch": 1.358744394618834,
	"grad_norm": 0.0957083892879257,
	"learning_rate": 5.045757008015606e-07,
	"loss": 0.6627,
	"step": 285
	},
	{
	"epoch": 1.363527653213752,
	"grad_norm": 0.09918131125769998,
	"learning_rate": 4.977173600443868e-07,
	"loss": 0.6447,
	"step": 286
	},
	{
	"epoch": 1.3683109118086696,
	"grad_norm": 0.09079455495976413,
	"learning_rate": 4.908904724725299e-07,
	"loss": 0.651,
	"step": 287
	},
	{
	"epoch": 1.3730941704035875,
	"grad_norm": 0.09533039778556848,
	"learning_rate": 4.840954655890391e-07,
	"loss": 0.6518,
	"step": 288
	},
	{
	"epoch": 1.3778774289985052,
	"grad_norm": 0.09328409620590697,
	"learning_rate": 4.773327649005777e-07,
	"loss": 0.6712,
	"step": 289
	},
	{
	"epoch": 1.382660687593423,
	"grad_norm": 0.10546886430926707,
	"learning_rate": 4.7060279389078184e-07,
	"loss": 0.6594,
	"step": 290
	},
	{
	"epoch": 1.3874439461883408,
	"grad_norm": 0.09513157037379577,
	"learning_rate": 4.6390597399373644e-07,
	"loss": 0.6311,
	"step": 291
	},
	{
	"epoch": 1.3922272047832587,
	"grad_norm": 0.0910714399276055,
	"learning_rate": 4.5724272456758907e-07,
	"loss": 0.6524,
	"step": 292
	},
	{
	"epoch": 1.3970104633781764,
	"grad_norm": 0.08960044994197404,
	"learning_rate": 4.506134628682877e-07,
	"loss": 0.6515,
	"step": 293
	},
	{
	"epoch": 1.4017937219730943,
	"grad_norm": 0.0939439987196228,
	"learning_rate": 4.440186040234524e-07,
	"loss": 0.6487,
	"step": 294
	},
	{
	"epoch": 1.406576980568012,
	"grad_norm": 0.10645194425387064,
	"learning_rate": 4.3745856100637834e-07,
	"loss": 0.629,
	"step": 295
	},
	{
	"epoch": 1.4113602391629296,
	"grad_norm": 0.1047763121754449,
	"learning_rate": 4.3093374461017785e-07,
	"loss": 0.6466,
	"step": 296
	},
	{
	"epoch": 1.4161434977578475,
	"grad_norm": 0.09982639743024341,
	"learning_rate": 4.244445634220545e-07,
	"loss": 0.6504,
	"step": 297
	},
	{
	"epoch": 1.4209267563527654,
	"grad_norm": 0.094704337085837,
	"learning_rate": 4.1799142379771766e-07,
	"loss": 0.6675,
	"step": 298
	},
	{
	"epoch": 1.4257100149476831,
	"grad_norm": 0.09542340607816273,
	"learning_rate": 4.115747298359363e-07,
	"loss": 0.6379,
	"step": 299
	},
	{
	"epoch": 1.4304932735426008,
	"grad_norm": 0.09975848410849608,
	"learning_rate": 4.0519488335323415e-07,
	"loss": 0.6684,
	"step": 300
	},
	{
	"epoch": 1.4352765321375187,
	"grad_norm": 0.09564133208363568,
	"learning_rate": 3.9885228385872806e-07,
	"loss": 0.6345,
	"step": 301
	},
	{
	"epoch": 1.4400597907324364,
	"grad_norm": 0.0955432935737647,
	"learning_rate": 3.925473285291091e-07,
	"loss": 0.6419,
	"step": 302
	},
	{
	"epoch": 1.4448430493273543,
	"grad_norm": 0.0971708074341661,
	"learning_rate": 3.862804121837733e-07,
	"loss": 0.6568,
	"step": 303
	},
	{
	"epoch": 1.449626307922272,
	"grad_norm": 0.09654206097129785,
	"learning_rate": 3.8005192726009663e-07,
	"loss": 0.6526,
	"step": 304
	},
	{
	"epoch": 1.45440956651719,
	"grad_norm": 0.1047844291301578,
	"learning_rate": 3.738622637888608e-07,
	"loss": 0.6554,
	"step": 305
	},
	{
	"epoch": 1.4591928251121076,
	"grad_norm": 0.10495835343403974,
	"learning_rate": 3.677118093698278e-07,
	"loss": 0.639,
	"step": 306
	},
	{
	"epoch": 1.4639760837070255,
	"grad_norm": 0.09312185978330073,
	"learning_rate": 3.61600949147472e-07,
	"loss": 0.6534,
	"step": 307
	},
	{
	"epoch": 1.4687593423019432,
	"grad_norm": 0.0914400067851364,
	"learning_rate": 3.5553006578685706e-07,
	"loss": 0.6364,
	"step": 308
	},
	{
	"epoch": 1.473542600896861,
	"grad_norm": 0.10168751711517944,
	"learning_rate": 3.494995394496778e-07,
	"loss": 0.6438,
	"step": 309
	},
	{
	"epoch": 1.4783258594917787,
	"grad_norm": 0.08777082505313431,
	"learning_rate": 3.435097477704517e-07,
	"loss": 0.6159,
	"step": 310
	},
	{
	"epoch": 1.4831091180866967,
	"grad_norm": 0.0992483436164171,
	"learning_rate": 3.3756106583287205e-07,
	"loss": 0.6692,
	"step": 311
	},
	{
	"epoch": 1.4878923766816143,
	"grad_norm": 0.09763140125702534,
	"learning_rate": 3.316538661463204e-07,
	"loss": 0.6704,
	"step": 312
	},
	{
	"epoch": 1.492675635276532,
	"grad_norm": 0.103958466638517,
	"learning_rate": 3.2578851862253796e-07,
	"loss": 0.6582,
	"step": 313
	},
	{
	"epoch": 1.49745889387145,
	"grad_norm": 0.09058417960194183,
	"learning_rate": 3.199653905524654e-07,
	"loss": 0.6353,
	"step": 314
	},
	{
	"epoch": 1.5022421524663678,
	"grad_norm": 0.10131403619552605,
	"learning_rate": 3.1418484658323806e-07,
	"loss": 0.6566,
	"step": 315
	},
	{
	"epoch": 1.5070254110612855,
	"grad_norm": 0.09681513597634411,
	"learning_rate": 3.0844724869535577e-07,
	"loss": 0.6437,
	"step": 316
	},
	{
	"epoch": 1.5118086696562032,
	"grad_norm": 0.10073309195120103,
	"learning_rate": 3.027529561800117e-07,
	"loss": 0.6541,
	"step": 317
	},
	{
	"epoch": 1.516591928251121,
	"grad_norm": 0.09187767379862512,
	"learning_rate": 2.971023256165983e-07,
	"loss": 0.6429,
	"step": 318
	},
	{
	"epoch": 1.521375186846039,
	"grad_norm": 0.09322468814151724,
	"learning_rate": 2.9149571085037215e-07,
	"loss": 0.6536,
	"step": 319
	},
	{
	"epoch": 1.5261584454409567,
	"grad_norm": 0.09535864278016615,
	"learning_rate": 2.8593346297030073e-07,
	"loss": 0.6448,
	"step": 320
	},
	{
	"epoch": 1.5309417040358744,
	"grad_norm": 0.09853757658051235,
	"learning_rate": 2.804159302870751e-07,
	"loss": 0.6361,
	"step": 321
	},
	{
	"epoch": 1.5357249626307923,
	"grad_norm": 0.08652865663588583,
	"learning_rate": 2.7494345831129837e-07,
	"loss": 0.6275,
	"step": 322
	},
	{
	"epoch": 1.54050822122571,
	"grad_norm": 0.09209381258321075,
	"learning_rate": 2.6951638973185073e-07,
	"loss": 0.6528,
	"step": 323
	},
	{
	"epoch": 1.5452914798206279,
	"grad_norm": 0.09568385273192681,
	"learning_rate": 2.64135064394428e-07,
	"loss": 0.6632,
	"step": 324
	},
	{
	"epoch": 1.5500747384155455,
	"grad_norm": 0.0947277435093391,
	"learning_rate": 2.587998192802638e-07,
	"loss": 0.6306,
	"step": 325
	},
	{
	"epoch": 1.5548579970104632,
	"grad_norm": 0.0985703474276344,
	"learning_rate": 2.5351098848502386e-07,
	"loss": 0.6511,
	"step": 326
	},
	{
	"epoch": 1.5596412556053811,
	"grad_norm": 0.09427610648180619,
	"learning_rate": 2.482689031978872e-07,
	"loss": 0.6533,
	"step": 327
	},
	{
	"epoch": 1.564424514200299,
	"grad_norm": 0.09520925811802433,
	"learning_rate": 2.4307389168080606e-07,
	"loss": 0.6603,
	"step": 328
	},
	{
	"epoch": 1.5692077727952167,
	"grad_norm": 0.0907369263004915,
	"learning_rate": 2.3792627924795038e-07,
	"loss": 0.6818,
	"step": 329
	},
	{
	"epoch": 1.5739910313901344,
	"grad_norm": 0.09440279581013306,
	"learning_rate": 2.3282638824533529e-07,
	"loss": 0.6531,
	"step": 330
	},
	{
	"epoch": 1.5787742899850523,
	"grad_norm": 0.09614745051429147,
	"learning_rate": 2.277745380306383e-07,
	"loss": 0.6795,
	"step": 331
	},
	{
	"epoch": 1.5835575485799702,
	"grad_norm": 0.09778941686336041,
	"learning_rate": 2.227710449531971e-07,
	"loss": 0.6778,
	"step": 332
	},
	{
	"epoch": 1.588340807174888,
	"grad_norm": 0.09575250682717351,
	"learning_rate": 2.178162223342035e-07,
	"loss": 0.6404,
	"step": 333
	},
	{
	"epoch": 1.5931240657698056,
	"grad_norm": 0.09627217057571222,
	"learning_rate": 2.1291038044707965e-07,
	"loss": 0.6528,
	"step": 334
	},
	{
	"epoch": 1.5979073243647235,
	"grad_norm": 0.09572743591446818,
	"learning_rate": 2.0805382649805225e-07,
	"loss": 0.6461,
	"step": 335
	},
	{
	"epoch": 1.6026905829596414,
	"grad_norm": 0.09528928099830879,
	"learning_rate": 2.032468646069112e-07,
	"loss": 0.6425,
	"step": 336
	},
	{
	"epoch": 1.607473841554559,
	"grad_norm": 0.09652866769512121,
	"learning_rate": 1.9848979578796865e-07,
	"loss": 0.6548,
	"step": 337
	},
	{
	"epoch": 1.6122571001494768,
	"grad_norm": 0.0954083836089715,
	"learning_rate": 1.937829179312076e-07,
	"loss": 0.6633,
	"step": 338
	},
	{
	"epoch": 1.6170403587443947,
	"grad_norm": 0.09389212828330971,
	"learning_rate": 1.8912652578362853e-07,
	"loss": 0.653,
	"step": 339
	},
	{
	"epoch": 1.6218236173393124,
	"grad_norm": 0.09323975661872334,
	"learning_rate": 1.8452091093079215e-07,
	"loss": 0.6405,
	"step": 340
	},
	{
	"epoch": 1.6266068759342303,
	"grad_norm": 0.1030124431981675,
	"learning_rate": 1.7996636177855928e-07,
	"loss": 0.6776,
	"step": 341
	},
	{
	"epoch": 1.631390134529148,
	"grad_norm": 0.09627742650338285,
	"learning_rate": 1.75463163535033e-07,
	"loss": 0.6579,
	"step": 342
	},
	{
	"epoch": 1.6361733931240656,
	"grad_norm": 0.09724021609427144,
	"learning_rate": 1.7101159819269583e-07,
	"loss": 0.6432,
	"step": 343
	},
	{
	"epoch": 1.6409566517189835,
	"grad_norm": 0.09615121849981347,
	"learning_rate": 1.6661194451075345e-07,
	"loss": 0.6628,
	"step": 344
	},
	{
	"epoch": 1.6457399103139014,
	"grad_norm": 0.11302849698050037,
	"learning_rate": 1.6226447799767772e-07,
	"loss": 0.6306,
	"step": 345
	},
	{
	"epoch": 1.6505231689088191,
	"grad_norm": 0.10400127614773519,
	"learning_rate": 1.5796947089395475e-07,
	"loss": 0.6462,
	"step": 346
	},
	{
	"epoch": 1.6553064275037368,
	"grad_norm": 0.08798479350296001,
	"learning_rate": 1.5372719215503582e-07,
	"loss": 0.6309,
	"step": 347
	},
	{
	"epoch": 1.6600896860986547,
	"grad_norm": 0.09514870211869147,
	"learning_rate": 1.4953790743449702e-07,
	"loss": 0.6631,
	"step": 348
	},
	{
	"epoch": 1.6648729446935726,
	"grad_norm": 0.09749807157916107,
	"learning_rate": 1.4540187906740241e-07,
	"loss": 0.6285,
	"step": 349
	},
	{
	"epoch": 1.6696562032884903,
	"grad_norm": 0.0901583318721974,
	"learning_rate": 1.4131936605387762e-07,
	"loss": 0.6731,
	"step": 350
	},
	{
	"epoch": 1.674439461883408,
	"grad_norm": 0.09526536450165937,
	"learning_rate": 1.3729062404289017e-07,
	"loss": 0.6729,
	"step": 351
	},
	{
	"epoch": 1.6792227204783259,
	"grad_norm": 0.09836491336123554,
	"learning_rate": 1.3331590531624115e-07,
	"loss": 0.6515,
	"step": 352
	},
	{
	"epoch": 1.6840059790732438,
	"grad_norm": 0.10075181987095727,
	"learning_rate": 1.2939545877276726e-07,
	"loss": 0.6452,
	"step": 353
	},
	{
	"epoch": 1.6887892376681615,
	"grad_norm": 0.09365016014154177,
	"learning_rate": 1.25529529912754e-07,
	"loss": 0.6477,
	"step": 354
	},
	{
	"epoch": 1.6935724962630792,
	"grad_norm": 0.09704957910910289,
	"learning_rate": 1.2171836082256316e-07,
	"loss": 0.6678,
	"step": 355
	},
	{
	"epoch": 1.698355754857997,
	"grad_norm": 0.0902657671425916,
	"learning_rate": 1.1796219015947285e-07,
	"loss": 0.6515,
	"step": 356
	},
	{
	"epoch": 1.703139013452915,
	"grad_norm": 0.09237650202510098,
	"learning_rate": 1.1426125313673285e-07,
	"loss": 0.6645,
	"step": 357
	},
	{
	"epoch": 1.7079222720478326,
	"grad_norm": 0.09196231975892524,
	"learning_rate": 1.1061578150883444e-07,
	"loss": 0.6092,
	"step": 358
	},
	{
	"epoch": 1.7127055306427503,
	"grad_norm": 0.10378820492061246,
	"learning_rate": 1.070260035570002e-07,
	"loss": 0.6539,
	"step": 359
	},
	{
	"epoch": 1.717488789237668,
	"grad_norm": 0.09091589756400278,
	"learning_rate": 1.0349214407488571e-07,
	"loss": 0.6454,
	"step": 360
	},
	{
	"epoch": 1.722272047832586,
	"grad_norm": 0.09881444337923977,
	"learning_rate": 1.000144243545058e-07,
	"loss": 0.6486,
	"step": 361
	},
	{
	"epoch": 1.7270553064275038,
	"grad_norm": 0.09311309771551186,
	"learning_rate": 9.659306217237517e-08,
	"loss": 0.6402,
	"step": 362
	},
	{
	"epoch": 1.7318385650224215,
	"grad_norm": 0.09631340848121332,
	"learning_rate": 9.322827177587212e-08,
	"loss": 0.6469,
	"step": 363
	},
	{
	"epoch": 1.7366218236173392,
	"grad_norm": 0.08882699558772723,
	"learning_rate": 8.992026386982221e-08,
	"loss": 0.6535,
	"step": 364
	},
	{
	"epoch": 1.741405082212257,
	"grad_norm": 0.09280206311141305,
	"learning_rate": 8.66692456033029e-08,
	"loss": 0.648,
	"step": 365
	},
	{
	"epoch": 1.746188340807175,
	"grad_norm": 0.0909402496845187,
	"learning_rate": 8.347542055667311e-08,
	"loss": 0.6529,
	"step": 366
	},
	{
	"epoch": 1.7509715994020927,
	"grad_norm": 0.09512784479004122,
	"learning_rate": 8.033898872882394e-08,
	"loss": 0.6383,
	"step": 367
	},
	{
	"epoch": 1.7557548579970104,
	"grad_norm": 0.09252600518424785,
	"learning_rate": 7.726014652465507e-08,
	"loss": 0.6202,
	"step": 368
	},
	{
	"epoch": 1.7605381165919283,
	"grad_norm": 0.09450252582803388,
	"learning_rate": 7.423908674277579e-08,
	"loss": 0.6494,
	"step": 369
	},
	{
	"epoch": 1.7653213751868462,
	"grad_norm": 0.09089301547199258,
	"learning_rate": 7.127599856343192e-08,
	"loss": 0.6583,
	"step": 370
	},
	{
	"epoch": 1.7701046337817639,
	"grad_norm": 0.0917284963739844,
	"learning_rate": 6.837106753665823e-08,
	"loss": 0.666,
	"step": 371
	},
	{
	"epoch": 1.7748878923766815,
	"grad_norm": 0.09493041895710681,
	"learning_rate": 6.552447557066109e-08,
	"loss": 0.6464,
	"step": 372
	},
	{
	"epoch": 1.7796711509715994,
	"grad_norm": 0.08941486424509316,
	"learning_rate": 6.273640092042575e-08,
	"loss": 0.6367,
	"step": 373
	},
	{
	"epoch": 1.7844544095665174,
	"grad_norm": 0.08812104207206783,
	"learning_rate": 6.000701817655474e-08,
	"loss": 0.6259,
	"step": 374
	},
	{
	"epoch": 1.789237668161435,
	"grad_norm": 0.09772722276760373,
	"learning_rate": 5.733649825433384e-08,
	"loss": 0.6316,
	"step": 375
	},
	{
	"epoch": 1.7940209267563527,
	"grad_norm": 0.09550366242600927,
	"learning_rate": 5.47250083830314e-08,
	"loss": 0.6764,
	"step": 376
	},
	{
	"epoch": 1.7988041853512704,
	"grad_norm": 0.09529244067030168,
	"learning_rate": 5.217271209542384e-08,
	"loss": 0.6581,
	"step": 377
	},
	{
	"epoch": 1.8035874439461883,
	"grad_norm": 0.09484969927499808,
	"learning_rate": 4.967976921755679e-08,
	"loss": 0.6238,
	"step": 378
	},
	{
	"epoch": 1.8083707025411062,
	"grad_norm": 0.0922584352432481,
	"learning_rate": 4.724633585873627e-08,
	"loss": 0.6417,
	"step": 379
	},
	{
	"epoch": 1.813153961136024,
	"grad_norm": 0.09178466251978876,
	"learning_rate": 4.487256440175291e-08,
	"loss": 0.6563,
	"step": 380
	},
	{
	"epoch": 1.8179372197309416,
	"grad_norm": 0.0945223759439494,
	"learning_rate": 4.255860349334006e-08,
	"loss": 0.6479,
	"step": 381
	},
	{
	"epoch": 1.8227204783258595,
	"grad_norm": 0.08929357609354767,
	"learning_rate": 4.030459803486464e-08,
	"loss": 0.6378,
	"step": 382
	},
	{
	"epoch": 1.8275037369207774,
	"grad_norm": 0.08950252320624025,
	"learning_rate": 3.811068917325444e-08,
	"loss": 0.6128,
	"step": 383
	},
	{
	"epoch": 1.832286995515695,
	"grad_norm": 0.09959763380863362,
	"learning_rate": 3.5977014292158495e-08,
	"loss": 0.6493,
	"step": 384
	},
	{
	"epoch": 1.8370702541106128,
	"grad_norm": 0.09877239003895597,
	"learning_rate": 3.3903707003344774e-08,
	"loss": 0.6453,
	"step": 385
	},
	{
	"epoch": 1.8418535127055307,
	"grad_norm": 0.09253710326481404,
	"learning_rate": 3.189089713833226e-08,
	"loss": 0.6564,
	"step": 386
	},
	{
	"epoch": 1.8466367713004486,
	"grad_norm": 0.09295026609135121,
	"learning_rate": 2.9938710740262884e-08,
	"loss": 0.6286,
	"step": 387
	},
	{
	"epoch": 1.8514200298953662,
	"grad_norm": 0.0931563883337063,
	"learning_rate": 2.8047270056005934e-08,
	"loss": 0.6431,
	"step": 388
	},
	{
	"epoch": 1.856203288490284,
	"grad_norm": 0.10071203031568553,
	"learning_rate": 2.6216693528505195e-08,
	"loss": 0.6419,
	"step": 389
	},
	{
	"epoch": 1.8609865470852018,
	"grad_norm": 0.0926672982724561,
	"learning_rate": 2.4447095789360884e-08,
	"loss": 0.6426,
	"step": 390
	},
	{
	"epoch": 1.8657698056801197,
	"grad_norm": 0.10839157436286975,
	"learning_rate": 2.2738587651651487e-08,
	"loss": 0.6418,
	"step": 391
	},
	{
	"epoch": 1.8705530642750374,
	"grad_norm": 0.09452841812388145,
	"learning_rate": 2.109127610299466e-08,
	"loss": 0.6534,
	"step": 392
	},
	{
	"epoch": 1.875336322869955,
	"grad_norm": 0.09059164967961951,
	"learning_rate": 1.950526429884769e-08,
	"loss": 0.6385,
	"step": 393
	},
	{
	"epoch": 1.8801195814648728,
	"grad_norm": 0.09541292286319235,
	"learning_rate": 1.7980651556048e-08,
	"loss": 0.6533,
	"step": 394
	},
	{
	"epoch": 1.8849028400597907,
	"grad_norm": 0.09352871341544354,
	"learning_rate": 1.6517533346593226e-08,
	"loss": 0.6533,
	"step": 395
	},
	{
	"epoch": 1.8896860986547086,
	"grad_norm": 0.09830540898676399,
	"learning_rate": 1.5116001291663462e-08,
	"loss": 0.686,
	"step": 396
	},
	{
	"epoch": 1.8944693572496263,
	"grad_norm": 0.09186784336874675,
	"learning_rate": 1.3776143155883491e-08,
	"loss": 0.6265,
	"step": 397
	},
	{
	"epoch": 1.899252615844544,
	"grad_norm": 0.0903805903035563,
	"learning_rate": 1.2498042841827317e-08,
	"loss": 0.6444,
	"step": 398
	},
	{
	"epoch": 1.9040358744394619,
	"grad_norm": 0.09251729842752435,
	"learning_rate": 1.128178038476324e-08,
	"loss": 0.643,
	"step": 399
	},
	{
	"epoch": 1.9088191330343798,
	"grad_norm": 0.08909847951509034,
	"learning_rate": 1.0127431947643316e-08,
	"loss": 0.643,
	"step": 400
	},
	{
	"epoch": 1.9136023916292975,
	"grad_norm": 0.09779029431433935,
	"learning_rate": 9.035069816332619e-09,
	"loss": 0.6312,
	"step": 401
	},
	{
	"epoch": 1.9183856502242151,
	"grad_norm": 0.09602092233428558,
	"learning_rate": 8.004762395083963e-09,
	"loss": 0.629,
	"step": 402
	},
	{
	"epoch": 1.923168908819133,
	"grad_norm": 0.09003448698278545,
	"learning_rate": 7.036574202253343e-09,
	"loss": 0.6706,
	"step": 403
	},
	{
	"epoch": 1.927952167414051,
	"grad_norm": 0.09531787472090986,
	"learning_rate": 6.130565866260484e-09,
	"loss": 0.65,
	"step": 404
	},
	{
	"epoch": 1.9327354260089686,
	"grad_norm": 0.09179251340184746,
	"learning_rate": 5.286794121791782e-09,
	"loss": 0.6574,
	"step": 405
	},
	{
	"epoch": 1.9375186846038863,
	"grad_norm": 0.09493544791044316,
	"learning_rate": 4.5053118062478025e-09,
	"loss": 0.6322,
	"step": 406
	},
	{
	"epoch": 1.9423019431988042,
	"grad_norm": 0.09306468796228341,
	"learning_rate": 3.786167856434375e-09,
	"loss": 0.6634,
	"step": 407
	},
	{
	"epoch": 1.9470852017937221,
	"grad_norm": 0.09006826318963117,
	"learning_rate": 3.1294073054987102e-09,
	"loss": 0.6418,
	"step": 408
	},
	{
	"epoch": 1.9518684603886398,
	"grad_norm": 0.09638156976673805,
	"learning_rate": 2.5350712801084363e-09,
	"loss": 0.631,
	"step": 409
	},
	{
	"epoch": 1.9566517189835575,
	"grad_norm": 0.09585138354438733,
	"learning_rate": 2.003196997877099e-09,
	"loss": 0.6405,
	"step": 410
	},
	{
	"epoch": 1.9614349775784752,
	"grad_norm": 0.0982765637161277,
	"learning_rate": 1.5338177650332517e-09,
	"loss": 0.631,
	"step": 411
	},
	{
	"epoch": 1.966218236173393,
	"grad_norm": 0.0924075594922873,
	"learning_rate": 1.1269629743346777e-09,
	"loss": 0.6433,
	"step": 412
	},
	{
	"epoch": 1.971001494768311,
	"grad_norm": 0.09407079001673903,
	"learning_rate": 7.826581032279734e-10,
	"loss": 0.6422,
	"step": 413
	},
	{
	"epoch": 1.9757847533632287,
	"grad_norm": 0.09103323653600585,
	"learning_rate": 5.00924712252937e-10,
	"loss": 0.6645,
	"step": 414
	},
	{
	"epoch": 1.9805680119581464,
	"grad_norm": 0.09999729799669839,
	"learning_rate": 2.8178044369286945e-10,
	"loss": 0.6495,
	"step": 415
	},
	{
	"epoch": 1.9853512705530643,
	"grad_norm": 0.0958229669734574,
	"learning_rate": 1.2523902046934763e-10,
	"loss": 0.6238,
	"step": 416
	},
	{
	"epoch": 1.9901345291479822,
	"grad_norm": 0.08983387781419207,
	"learning_rate": 3.131024528302273e-11,
	"loss": 0.6478,
	"step": 417
	},
	{
	"epoch": 1.9949177877428999,
	"grad_norm": 0.09621386225221452,
	"learning_rate": 0.0,
	"loss": 0.6557,
	"step": 418
	},
	{
	"epoch": 1.9949177877428999,
	"step": 418,
	"total_flos": 862605439369216.0,
	"train_loss": 0.715426175948678,
	"train_runtime": 10328.0995,
	"train_samples_per_second": 5.181,
	"train_steps_per_second": 0.04
	}
	],
	"logging_steps": 1,
	"max_steps": 418,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 862605439369216.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}