nemo_nano_math_100k / trainer_state.json

Upload model

b89d797 verified 10 months ago

60.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 4.977457168620378,
	"eval_steps": 500,
	"global_step": 345,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.014427412082957619,
	"grad_norm": 6.30643255752035,
	"learning_rate": 2.285714285714286e-06,
	"loss": 0.8669,
	"step": 1
	},
	{
	"epoch": 0.028854824165915238,
	"grad_norm": 6.348193987490592,
	"learning_rate": 4.571428571428572e-06,
	"loss": 0.87,
	"step": 2
	},
	{
	"epoch": 0.04328223624887286,
	"grad_norm": 5.780015353700753,
	"learning_rate": 6.857142857142858e-06,
	"loss": 0.8477,
	"step": 3
	},
	{
	"epoch": 0.057709648331830475,
	"grad_norm": 4.234197549907419,
	"learning_rate": 9.142857142857144e-06,
	"loss": 0.8118,
	"step": 4
	},
	{
	"epoch": 0.0721370604147881,
	"grad_norm": 2.3155214212097306,
	"learning_rate": 1.1428571428571429e-05,
	"loss": 0.7747,
	"step": 5
	},
	{
	"epoch": 0.08656447249774572,
	"grad_norm": 5.1118273278397846,
	"learning_rate": 1.3714285714285716e-05,
	"loss": 0.8053,
	"step": 6
	},
	{
	"epoch": 0.10099188458070334,
	"grad_norm": 7.1277227926615,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.7794,
	"step": 7
	},
	{
	"epoch": 0.11541929666366095,
	"grad_norm": 8.187688384697006,
	"learning_rate": 1.8285714285714288e-05,
	"loss": 0.7978,
	"step": 8
	},
	{
	"epoch": 0.12984670874661858,
	"grad_norm": 5.093195709417533,
	"learning_rate": 2.057142857142857e-05,
	"loss": 0.7518,
	"step": 9
	},
	{
	"epoch": 0.1442741208295762,
	"grad_norm": 3.1265792874681977,
	"learning_rate": 2.2857142857142858e-05,
	"loss": 0.7116,
	"step": 10
	},
	{
	"epoch": 0.1587015329125338,
	"grad_norm": 2.5188366289278323,
	"learning_rate": 2.5142857142857143e-05,
	"loss": 0.6783,
	"step": 11
	},
	{
	"epoch": 0.17312894499549145,
	"grad_norm": 1.4940573526303949,
	"learning_rate": 2.742857142857143e-05,
	"loss": 0.6532,
	"step": 12
	},
	{
	"epoch": 0.18755635707844906,
	"grad_norm": 1.6352594758559187,
	"learning_rate": 2.9714285714285717e-05,
	"loss": 0.6347,
	"step": 13
	},
	{
	"epoch": 0.20198376916140667,
	"grad_norm": 1.2187588508966425,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 0.6195,
	"step": 14
	},
	{
	"epoch": 0.2164111812443643,
	"grad_norm": 1.2755607008946352,
	"learning_rate": 3.4285714285714284e-05,
	"loss": 0.6142,
	"step": 15
	},
	{
	"epoch": 0.2308385933273219,
	"grad_norm": 1.0456746979084692,
	"learning_rate": 3.6571428571428576e-05,
	"loss": 0.6038,
	"step": 16
	},
	{
	"epoch": 0.24526600541027954,
	"grad_norm": 1.4162214811220066,
	"learning_rate": 3.885714285714286e-05,
	"loss": 0.5997,
	"step": 17
	},
	{
	"epoch": 0.25969341749323716,
	"grad_norm": 1.123092592959995,
	"learning_rate": 4.114285714285714e-05,
	"loss": 0.5855,
	"step": 18
	},
	{
	"epoch": 0.27412082957619477,
	"grad_norm": 1.247093949716292,
	"learning_rate": 4.342857142857143e-05,
	"loss": 0.5783,
	"step": 19
	},
	{
	"epoch": 0.2885482416591524,
	"grad_norm": 0.9162444696210892,
	"learning_rate": 4.5714285714285716e-05,
	"loss": 0.5762,
	"step": 20
	},
	{
	"epoch": 0.30297565374211,
	"grad_norm": 1.7011597008607717,
	"learning_rate": 4.8e-05,
	"loss": 0.5788,
	"step": 21
	},
	{
	"epoch": 0.3174030658250676,
	"grad_norm": 1.0313827493696333,
	"learning_rate": 5.0285714285714286e-05,
	"loss": 0.5711,
	"step": 22
	},
	{
	"epoch": 0.3318304779080252,
	"grad_norm": 2.0638257126228083,
	"learning_rate": 5.257142857142858e-05,
	"loss": 0.589,
	"step": 23
	},
	{
	"epoch": 0.3462578899909829,
	"grad_norm": 1.2864831655829803,
	"learning_rate": 5.485714285714286e-05,
	"loss": 0.5638,
	"step": 24
	},
	{
	"epoch": 0.3606853020739405,
	"grad_norm": 1.9339557478184641,
	"learning_rate": 5.714285714285715e-05,
	"loss": 0.58,
	"step": 25
	},
	{
	"epoch": 0.3751127141568981,
	"grad_norm": 1.5799611967220424,
	"learning_rate": 5.9428571428571434e-05,
	"loss": 0.5647,
	"step": 26
	},
	{
	"epoch": 0.38954012623985573,
	"grad_norm": 1.251826447578104,
	"learning_rate": 6.171428571428573e-05,
	"loss": 0.5586,
	"step": 27
	},
	{
	"epoch": 0.40396753832281335,
	"grad_norm": 1.5898160634262704,
	"learning_rate": 6.400000000000001e-05,
	"loss": 0.5526,
	"step": 28
	},
	{
	"epoch": 0.41839495040577096,
	"grad_norm": 1.1139638002205856,
	"learning_rate": 6.62857142857143e-05,
	"loss": 0.5503,
	"step": 29
	},
	{
	"epoch": 0.4328223624887286,
	"grad_norm": 1.2940676544230694,
	"learning_rate": 6.857142857142857e-05,
	"loss": 0.556,
	"step": 30
	},
	{
	"epoch": 0.4472497745716862,
	"grad_norm": 1.4125777791117147,
	"learning_rate": 7.085714285714287e-05,
	"loss": 0.5429,
	"step": 31
	},
	{
	"epoch": 0.4616771866546438,
	"grad_norm": 0.6917885537888634,
	"learning_rate": 7.314285714285715e-05,
	"loss": 0.537,
	"step": 32
	},
	{
	"epoch": 0.47610459873760147,
	"grad_norm": 1.0491224041512421,
	"learning_rate": 7.542857142857144e-05,
	"loss": 0.5431,
	"step": 33
	},
	{
	"epoch": 0.4905320108205591,
	"grad_norm": 1.1841266996810977,
	"learning_rate": 7.771428571428572e-05,
	"loss": 0.5408,
	"step": 34
	},
	{
	"epoch": 0.5049594229035167,
	"grad_norm": 1.3485916713931527,
	"learning_rate": 8e-05,
	"loss": 0.5369,
	"step": 35
	},
	{
	"epoch": 0.5193868349864743,
	"grad_norm": 1.381633742212091,
	"learning_rate": 7.999794598960815e-05,
	"loss": 0.5447,
	"step": 36
	},
	{
	"epoch": 0.5338142470694319,
	"grad_norm": 1.113965104171002,
	"learning_rate": 7.999178416938051e-05,
	"loss": 0.5343,
	"step": 37
	},
	{
	"epoch": 0.5482416591523895,
	"grad_norm": 3.2942969304440877,
	"learning_rate": 7.998151517213926e-05,
	"loss": 0.5223,
	"step": 38
	},
	{
	"epoch": 0.5626690712353472,
	"grad_norm": 1.8632536229114898,
	"learning_rate": 7.996714005251569e-05,
	"loss": 0.5358,
	"step": 39
	},
	{
	"epoch": 0.5770964833183048,
	"grad_norm": 1.3196787168296893,
	"learning_rate": 7.994866028684212e-05,
	"loss": 0.5372,
	"step": 40
	},
	{
	"epoch": 0.5915238954012624,
	"grad_norm": 1.1177800163283473,
	"learning_rate": 7.992607777300004e-05,
	"loss": 0.5274,
	"step": 41
	},
	{
	"epoch": 0.60595130748422,
	"grad_norm": 1.016337599180268,
	"learning_rate": 7.989939483022537e-05,
	"loss": 0.5209,
	"step": 42
	},
	{
	"epoch": 0.6203787195671776,
	"grad_norm": 1.395873276215236,
	"learning_rate": 7.98686141988702e-05,
	"loss": 0.5209,
	"step": 43
	},
	{
	"epoch": 0.6348061316501352,
	"grad_norm": 0.5976851739788052,
	"learning_rate": 7.983373904012138e-05,
	"loss": 0.5189,
	"step": 44
	},
	{
	"epoch": 0.6492335437330928,
	"grad_norm": 0.8805510948652211,
	"learning_rate": 7.97947729356758e-05,
	"loss": 0.5158,
	"step": 45
	},
	{
	"epoch": 0.6636609558160504,
	"grad_norm": 0.9279297933278495,
	"learning_rate": 7.975171988737267e-05,
	"loss": 0.5237,
	"step": 46
	},
	{
	"epoch": 0.6780883678990082,
	"grad_norm": 1.2997587022594848,
	"learning_rate": 7.970458431678239e-05,
	"loss": 0.5426,
	"step": 47
	},
	{
	"epoch": 0.6925157799819658,
	"grad_norm": 0.7359557953904674,
	"learning_rate": 7.965337106475256e-05,
	"loss": 0.5146,
	"step": 48
	},
	{
	"epoch": 0.7069431920649234,
	"grad_norm": 0.950140709774444,
	"learning_rate": 7.959808539091077e-05,
	"loss": 0.5207,
	"step": 49
	},
	{
	"epoch": 0.721370604147881,
	"grad_norm": 0.9262413860600672,
	"learning_rate": 7.953873297312447e-05,
	"loss": 0.5114,
	"step": 50
	},
	{
	"epoch": 0.7357980162308386,
	"grad_norm": 0.659161414732944,
	"learning_rate": 7.947531990691778e-05,
	"loss": 0.5065,
	"step": 51
	},
	{
	"epoch": 0.7502254283137962,
	"grad_norm": 0.6193539698881468,
	"learning_rate": 7.940785270484556e-05,
	"loss": 0.5082,
	"step": 52
	},
	{
	"epoch": 0.7646528403967539,
	"grad_norm": 0.6484786655929663,
	"learning_rate": 7.933633829582451e-05,
	"loss": 0.5073,
	"step": 53
	},
	{
	"epoch": 0.7790802524797115,
	"grad_norm": 0.5246514937970682,
	"learning_rate": 7.926078402442161e-05,
	"loss": 0.5034,
	"step": 54
	},
	{
	"epoch": 0.7935076645626691,
	"grad_norm": 0.7555014101024001,
	"learning_rate": 7.918119765009979e-05,
	"loss": 0.5011,
	"step": 55
	},
	{
	"epoch": 0.8079350766456267,
	"grad_norm": 0.7908819876305151,
	"learning_rate": 7.909758734642103e-05,
	"loss": 0.5034,
	"step": 56
	},
	{
	"epoch": 0.8223624887285843,
	"grad_norm": 0.8314592679002677,
	"learning_rate": 7.900996170020697e-05,
	"loss": 0.4941,
	"step": 57
	},
	{
	"epoch": 0.8367899008115419,
	"grad_norm": 0.6541181086969657,
	"learning_rate": 7.8918329710657e-05,
	"loss": 0.4971,
	"step": 58
	},
	{
	"epoch": 0.8512173128944995,
	"grad_norm": 0.572541817797756,
	"learning_rate": 7.882270078842407e-05,
	"loss": 0.4945,
	"step": 59
	},
	{
	"epoch": 0.8656447249774571,
	"grad_norm": 0.7068090025887374,
	"learning_rate": 7.872308475464818e-05,
	"loss": 0.496,
	"step": 60
	},
	{
	"epoch": 0.8800721370604148,
	"grad_norm": 0.5503187486959946,
	"learning_rate": 7.861949183994774e-05,
	"loss": 0.4921,
	"step": 61
	},
	{
	"epoch": 0.8944995491433724,
	"grad_norm": 0.6381310310432255,
	"learning_rate": 7.851193268336894e-05,
	"loss": 0.4993,
	"step": 62
	},
	{
	"epoch": 0.90892696122633,
	"grad_norm": 0.7118765648942602,
	"learning_rate": 7.840041833129304e-05,
	"loss": 0.488,
	"step": 63
	},
	{
	"epoch": 0.9233543733092876,
	"grad_norm": 0.8229902231799235,
	"learning_rate": 7.828496023630193e-05,
	"loss": 0.4886,
	"step": 64
	},
	{
	"epoch": 0.9377817853922452,
	"grad_norm": 0.8472076467453001,
	"learning_rate": 7.816557025600196e-05,
	"loss": 0.4954,
	"step": 65
	},
	{
	"epoch": 0.9522091974752029,
	"grad_norm": 0.9110400155251186,
	"learning_rate": 7.804226065180615e-05,
	"loss": 0.4869,
	"step": 66
	},
	{
	"epoch": 0.9666366095581606,
	"grad_norm": 1.0607731617003107,
	"learning_rate": 7.791504408767492e-05,
	"loss": 0.4867,
	"step": 67
	},
	{
	"epoch": 0.9810640216411182,
	"grad_norm": 0.8705421661545191,
	"learning_rate": 7.778393362881549e-05,
	"loss": 0.4873,
	"step": 68
	},
	{
	"epoch": 0.9954914337240758,
	"grad_norm": 0.598223438503932,
	"learning_rate": 7.764894274034014e-05,
	"loss": 0.4866,
	"step": 69
	},
	{
	"epoch": 1.0099188458070334,
	"grad_norm": 1.3726649121858878,
	"learning_rate": 7.751008528588322e-05,
	"loss": 0.8287,
	"step": 70
	},
	{
	"epoch": 1.024346257889991,
	"grad_norm": 1.4843499216749163,
	"learning_rate": 7.736737552617749e-05,
	"loss": 0.4874,
	"step": 71
	},
	{
	"epoch": 1.0387736699729486,
	"grad_norm": 0.5218559993997877,
	"learning_rate": 7.722082811758939e-05,
	"loss": 0.4768,
	"step": 72
	},
	{
	"epoch": 1.0532010820559061,
	"grad_norm": 1.3743390311137267,
	"learning_rate": 7.707045811061396e-05,
	"loss": 0.4805,
	"step": 73
	},
	{
	"epoch": 1.0676284941388638,
	"grad_norm": 0.6090236020230758,
	"learning_rate": 7.691628094832901e-05,
	"loss": 0.4731,
	"step": 74
	},
	{
	"epoch": 1.0820559062218216,
	"grad_norm": 0.897847351023635,
	"learning_rate": 7.675831246480923e-05,
	"loss": 0.4821,
	"step": 75
	},
	{
	"epoch": 1.096483318304779,
	"grad_norm": 0.7029565517391541,
	"learning_rate": 7.659656888349997e-05,
	"loss": 0.4724,
	"step": 76
	},
	{
	"epoch": 1.1109107303877368,
	"grad_norm": 0.6183945563644426,
	"learning_rate": 7.643106681555106e-05,
	"loss": 0.4763,
	"step": 77
	},
	{
	"epoch": 1.1253381424706943,
	"grad_norm": 0.5847084533277753,
	"learning_rate": 7.626182325811089e-05,
	"loss": 0.4664,
	"step": 78
	},
	{
	"epoch": 1.139765554553652,
	"grad_norm": 0.6749737142635733,
	"learning_rate": 7.60888555925807e-05,
	"loss": 0.4671,
	"step": 79
	},
	{
	"epoch": 1.1541929666366095,
	"grad_norm": 0.4481798380260001,
	"learning_rate": 7.591218158282968e-05,
	"loss": 0.4656,
	"step": 80
	},
	{
	"epoch": 1.1686203787195673,
	"grad_norm": 0.649578910722019,
	"learning_rate": 7.573181937337037e-05,
	"loss": 0.4685,
	"step": 81
	},
	{
	"epoch": 1.1830477908025248,
	"grad_norm": 0.511575614745596,
	"learning_rate": 7.554778748749543e-05,
	"loss": 0.4608,
	"step": 82
	},
	{
	"epoch": 1.1974752028854825,
	"grad_norm": 0.5161021268023156,
	"learning_rate": 7.536010482537514e-05,
	"loss": 0.4613,
	"step": 83
	},
	{
	"epoch": 1.21190261496844,
	"grad_norm": 0.46897677283090455,
	"learning_rate": 7.516879066211644e-05,
	"loss": 0.4691,
	"step": 84
	},
	{
	"epoch": 1.2263300270513977,
	"grad_norm": 0.5762897639302133,
	"learning_rate": 7.497386464578329e-05,
	"loss": 0.4654,
	"step": 85
	},
	{
	"epoch": 1.2407574391343552,
	"grad_norm": 0.3969665274048659,
	"learning_rate": 7.477534679537885e-05,
	"loss": 0.4587,
	"step": 86
	},
	{
	"epoch": 1.255184851217313,
	"grad_norm": 0.4524782612023369,
	"learning_rate": 7.457325749878951e-05,
	"loss": 0.4534,
	"step": 87
	},
	{
	"epoch": 1.2696122633002704,
	"grad_norm": 0.5470294599409099,
	"learning_rate": 7.436761751069103e-05,
	"loss": 0.4643,
	"step": 88
	},
	{
	"epoch": 1.2840396753832282,
	"grad_norm": 0.5658245365895949,
	"learning_rate": 7.415844795041704e-05,
	"loss": 0.4602,
	"step": 89
	},
	{
	"epoch": 1.2984670874661859,
	"grad_norm": 0.6284954594621484,
	"learning_rate": 7.394577029979004e-05,
	"loss": 0.4676,
	"step": 90
	},
	{
	"epoch": 1.3128944995491434,
	"grad_norm": 0.7345913995003851,
	"learning_rate": 7.372960640091529e-05,
	"loss": 0.4606,
	"step": 91
	},
	{
	"epoch": 1.327321911632101,
	"grad_norm": 0.8342633496573308,
	"learning_rate": 7.350997845393752e-05,
	"loss": 0.4557,
	"step": 92
	},
	{
	"epoch": 1.3417493237150586,
	"grad_norm": 0.8330096859025692,
	"learning_rate": 7.328690901476095e-05,
	"loss": 0.4647,
	"step": 93
	},
	{
	"epoch": 1.3561767357980163,
	"grad_norm": 0.6546676985057208,
	"learning_rate": 7.306042099273297e-05,
	"loss": 0.4592,
	"step": 94
	},
	{
	"epoch": 1.3706041478809738,
	"grad_norm": 0.47502637705371126,
	"learning_rate": 7.283053764829106e-05,
	"loss": 0.4605,
	"step": 95
	},
	{
	"epoch": 1.3850315599639313,
	"grad_norm": 0.5531078683869538,
	"learning_rate": 7.259728259057417e-05,
	"loss": 0.4567,
	"step": 96
	},
	{
	"epoch": 1.399458972046889,
	"grad_norm": 0.515899958416822,
	"learning_rate": 7.236067977499791e-05,
	"loss": 0.4578,
	"step": 97
	},
	{
	"epoch": 1.4138863841298468,
	"grad_norm": 0.3492664441384964,
	"learning_rate": 7.212075350079437e-05,
	"loss": 0.4561,
	"step": 98
	},
	{
	"epoch": 1.4283137962128043,
	"grad_norm": 0.42413300170898927,
	"learning_rate": 7.187752840851661e-05,
	"loss": 0.4569,
	"step": 99
	},
	{
	"epoch": 1.442741208295762,
	"grad_norm": 0.4947663891832909,
	"learning_rate": 7.163102947750794e-05,
	"loss": 0.456,
	"step": 100
	},
	{
	"epoch": 1.4571686203787195,
	"grad_norm": 0.36507776313239376,
	"learning_rate": 7.13812820233367e-05,
	"loss": 0.4592,
	"step": 101
	},
	{
	"epoch": 1.4715960324616773,
	"grad_norm": 0.37547804843247373,
	"learning_rate": 7.112831169519617e-05,
	"loss": 0.459,
	"step": 102
	},
	{
	"epoch": 1.4860234445446348,
	"grad_norm": 0.36635807000670995,
	"learning_rate": 7.087214447327049e-05,
	"loss": 0.4561,
	"step": 103
	},
	{
	"epoch": 1.5004508566275925,
	"grad_norm": 0.315478417939894,
	"learning_rate": 7.061280666606646e-05,
	"loss": 0.4563,
	"step": 104
	},
	{
	"epoch": 1.5148782687105502,
	"grad_norm": 0.4096625613828037,
	"learning_rate": 7.035032490771165e-05,
	"loss": 0.4541,
	"step": 105
	},
	{
	"epoch": 1.5293056807935077,
	"grad_norm": 0.4422620826291203,
	"learning_rate": 7.008472615521898e-05,
	"loss": 0.4508,
	"step": 106
	},
	{
	"epoch": 1.5437330928764652,
	"grad_norm": 0.3213468597989991,
	"learning_rate": 6.98160376857184e-05,
	"loss": 0.458,
	"step": 107
	},
	{
	"epoch": 1.558160504959423,
	"grad_norm": 0.35471415827924724,
	"learning_rate": 6.954428709365527e-05,
	"loss": 0.4563,
	"step": 108
	},
	{
	"epoch": 1.5725879170423807,
	"grad_norm": 0.4247233136060684,
	"learning_rate": 6.926950228795663e-05,
	"loss": 0.4516,
	"step": 109
	},
	{
	"epoch": 1.5870153291253382,
	"grad_norm": 0.31840084731849594,
	"learning_rate": 6.89917114891648e-05,
	"loss": 0.4547,
	"step": 110
	},
	{
	"epoch": 1.6014427412082957,
	"grad_norm": 0.3573055805732088,
	"learning_rate": 6.871094322653916e-05,
	"loss": 0.4574,
	"step": 111
	},
	{
	"epoch": 1.6158701532912534,
	"grad_norm": 0.33089511640034097,
	"learning_rate": 6.842722633512614e-05,
	"loss": 0.4568,
	"step": 112
	},
	{
	"epoch": 1.630297565374211,
	"grad_norm": 0.32234159444311866,
	"learning_rate": 6.814058995279793e-05,
	"loss": 0.4506,
	"step": 113
	},
	{
	"epoch": 1.6447249774571686,
	"grad_norm": 0.2842035714714675,
	"learning_rate": 6.785106351725992e-05,
	"loss": 0.4451,
	"step": 114
	},
	{
	"epoch": 1.6591523895401261,
	"grad_norm": 0.24782641096472402,
	"learning_rate": 6.755867676302747e-05,
	"loss": 0.4524,
	"step": 115
	},
	{
	"epoch": 1.6735798016230838,
	"grad_norm": 0.29530488172037256,
	"learning_rate": 6.726345971837217e-05,
	"loss": 0.4523,
	"step": 116
	},
	{
	"epoch": 1.6880072137060416,
	"grad_norm": 0.29231108013584617,
	"learning_rate": 6.69654427022379e-05,
	"loss": 0.448,
	"step": 117
	},
	{
	"epoch": 1.702434625788999,
	"grad_norm": 0.3209263624489444,
	"learning_rate": 6.666465632112707e-05,
	"loss": 0.4523,
	"step": 118
	},
	{
	"epoch": 1.7168620378719566,
	"grad_norm": 0.4315596822756952,
	"learning_rate": 6.636113146595729e-05,
	"loss": 0.4491,
	"step": 119
	},
	{
	"epoch": 1.7312894499549143,
	"grad_norm": 0.4570225349432179,
	"learning_rate": 6.60548993088889e-05,
	"loss": 0.4464,
	"step": 120
	},
	{
	"epoch": 1.745716862037872,
	"grad_norm": 0.44762480786064185,
	"learning_rate": 6.574599130012355e-05,
	"loss": 0.4548,
	"step": 121
	},
	{
	"epoch": 1.7601442741208295,
	"grad_norm": 0.4937434929135096,
	"learning_rate": 6.543443916467426e-05,
	"loss": 0.4503,
	"step": 122
	},
	{
	"epoch": 1.7745716862037872,
	"grad_norm": 0.606568052119448,
	"learning_rate": 6.512027489910718e-05,
	"loss": 0.4486,
	"step": 123
	},
	{
	"epoch": 1.788999098286745,
	"grad_norm": 0.6858758315433683,
	"learning_rate": 6.480353076825566e-05,
	"loss": 0.449,
	"step": 124
	},
	{
	"epoch": 1.8034265103697025,
	"grad_norm": 0.5123808792652511,
	"learning_rate": 6.448423930190653e-05,
	"loss": 0.4464,
	"step": 125
	},
	{
	"epoch": 1.81785392245266,
	"grad_norm": 0.38964320431553595,
	"learning_rate": 6.416243329145923e-05,
	"loss": 0.4475,
	"step": 126
	},
	{
	"epoch": 1.8322813345356177,
	"grad_norm": 0.35099016991264836,
	"learning_rate": 6.383814578655829e-05,
	"loss": 0.4547,
	"step": 127
	},
	{
	"epoch": 1.8467087466185754,
	"grad_norm": 0.3451471240491199,
	"learning_rate": 6.351141009169893e-05,
	"loss": 0.4502,
	"step": 128
	},
	{
	"epoch": 1.861136158701533,
	"grad_norm": 0.33153601295599006,
	"learning_rate": 6.31822597628068e-05,
	"loss": 0.4487,
	"step": 129
	},
	{
	"epoch": 1.8755635707844904,
	"grad_norm": 0.34266592441777854,
	"learning_rate": 6.28507286037917e-05,
	"loss": 0.4477,
	"step": 130
	},
	{
	"epoch": 1.8899909828674482,
	"grad_norm": 0.3492224166038735,
	"learning_rate": 6.251685066307592e-05,
	"loss": 0.4577,
	"step": 131
	},
	{
	"epoch": 1.9044183949504059,
	"grad_norm": 0.2600600833378922,
	"learning_rate": 6.218066023009743e-05,
	"loss": 0.4491,
	"step": 132
	},
	{
	"epoch": 1.9188458070333634,
	"grad_norm": 0.2930478733859803,
	"learning_rate": 6.184219183178842e-05,
	"loss": 0.4378,
	"step": 133
	},
	{
	"epoch": 1.9332732191163209,
	"grad_norm": 0.344123397095677,
	"learning_rate": 6.150148022902922e-05,
	"loss": 0.4486,
	"step": 134
	},
	{
	"epoch": 1.9477006311992786,
	"grad_norm": 0.32732494053257644,
	"learning_rate": 6.11585604130785e-05,
	"loss": 0.4451,
	"step": 135
	},
	{
	"epoch": 1.9621280432822363,
	"grad_norm": 0.25454887232448653,
	"learning_rate": 6.081346760197953e-05,
	"loss": 0.4435,
	"step": 136
	},
	{
	"epoch": 1.9765554553651938,
	"grad_norm": 0.21336525188734806,
	"learning_rate": 6.04662372369433e-05,
	"loss": 0.4459,
	"step": 137
	},
	{
	"epoch": 1.9909828674481513,
	"grad_norm": 0.21510264038063648,
	"learning_rate": 6.0116904978708716e-05,
	"loss": 0.4451,
	"step": 138
	},
	{
	"epoch": 2.0054102795311093,
	"grad_norm": 0.3886088967850276,
	"learning_rate": 5.976550670388023e-05,
	"loss": 0.7365,
	"step": 139
	},
	{
	"epoch": 2.019837691614067,
	"grad_norm": 0.5461141945560231,
	"learning_rate": 5.941207850124325e-05,
	"loss": 0.4274,
	"step": 140
	},
	{
	"epoch": 2.0342651036970243,
	"grad_norm": 0.7233438360497401,
	"learning_rate": 5.9056656668057806e-05,
	"loss": 0.4257,
	"step": 141
	},
	{
	"epoch": 2.048692515779982,
	"grad_norm": 0.902604447839341,
	"learning_rate": 5.8699277706330854e-05,
	"loss": 0.4327,
	"step": 142
	},
	{
	"epoch": 2.0631199278629397,
	"grad_norm": 0.9842345625256362,
	"learning_rate": 5.833997831906746e-05,
	"loss": 0.4206,
	"step": 143
	},
	{
	"epoch": 2.0775473399458972,
	"grad_norm": 0.7550138291557669,
	"learning_rate": 5.7978795406501365e-05,
	"loss": 0.4213,
	"step": 144
	},
	{
	"epoch": 2.0919747520288547,
	"grad_norm": 0.5725375243656562,
	"learning_rate": 5.761576606230538e-05,
	"loss": 0.4232,
	"step": 145
	},
	{
	"epoch": 2.1064021641118122,
	"grad_norm": 0.5871563051625412,
	"learning_rate": 5.725092756978177e-05,
	"loss": 0.4268,
	"step": 146
	},
	{
	"epoch": 2.12082957619477,
	"grad_norm": 0.6848078352834541,
	"learning_rate": 5.688431739803328e-05,
	"loss": 0.4231,
	"step": 147
	},
	{
	"epoch": 2.1352569882777277,
	"grad_norm": 0.47360287031992565,
	"learning_rate": 5.651597319811505e-05,
	"loss": 0.4245,
	"step": 148
	},
	{
	"epoch": 2.149684400360685,
	"grad_norm": 0.43267908202913546,
	"learning_rate": 5.6145932799167795e-05,
	"loss": 0.421,
	"step": 149
	},
	{
	"epoch": 2.164111812443643,
	"grad_norm": 0.5225940009578477,
	"learning_rate": 5.5774234204532746e-05,
	"loss": 0.4171,
	"step": 150
	},
	{
	"epoch": 2.1785392245266006,
	"grad_norm": 0.345292795118154,
	"learning_rate": 5.5400915587848713e-05,
	"loss": 0.4176,
	"step": 151
	},
	{
	"epoch": 2.192966636609558,
	"grad_norm": 0.37397788119190706,
	"learning_rate": 5.502601528913161e-05,
	"loss": 0.4185,
	"step": 152
	},
	{
	"epoch": 2.2073940486925157,
	"grad_norm": 0.33142951490345385,
	"learning_rate": 5.464957181083692e-05,
	"loss": 0.4185,
	"step": 153
	},
	{
	"epoch": 2.2218214607754736,
	"grad_norm": 0.2921058390866845,
	"learning_rate": 5.427162381390543e-05,
	"loss": 0.417,
	"step": 154
	},
	{
	"epoch": 2.236248872858431,
	"grad_norm": 0.34198696626119557,
	"learning_rate": 5.389221011379281e-05,
	"loss": 0.4165,
	"step": 155
	},
	{
	"epoch": 2.2506762849413886,
	"grad_norm": 0.26908479849148176,
	"learning_rate": 5.351136967648323e-05,
	"loss": 0.4193,
	"step": 156
	},
	{
	"epoch": 2.265103697024346,
	"grad_norm": 0.31962185227765055,
	"learning_rate": 5.3129141614487456e-05,
	"loss": 0.4279,
	"step": 157
	},
	{
	"epoch": 2.279531109107304,
	"grad_norm": 0.376211538661627,
	"learning_rate": 5.274556518282607e-05,
	"loss": 0.4195,
	"step": 158
	},
	{
	"epoch": 2.2939585211902616,
	"grad_norm": 0.28546559354766526,
	"learning_rate": 5.23606797749979e-05,
	"loss": 0.4199,
	"step": 159
	},
	{
	"epoch": 2.308385933273219,
	"grad_norm": 0.35404717031780875,
	"learning_rate": 5.1974524918934336e-05,
	"loss": 0.4194,
	"step": 160
	},
	{
	"epoch": 2.3228133453561766,
	"grad_norm": 0.32804234637360613,
	"learning_rate": 5.15871402729397e-05,
	"loss": 0.4215,
	"step": 161
	},
	{
	"epoch": 2.3372407574391345,
	"grad_norm": 0.25853378935309307,
	"learning_rate": 5.1198565621618444e-05,
	"loss": 0.42,
	"step": 162
	},
	{
	"epoch": 2.351668169522092,
	"grad_norm": 0.29254513463752485,
	"learning_rate": 5.0808840871789155e-05,
	"loss": 0.4137,
	"step": 163
	},
	{
	"epoch": 2.3660955816050495,
	"grad_norm": 0.2324430211066698,
	"learning_rate": 5.0418006048386134e-05,
	"loss": 0.4174,
	"step": 164
	},
	{
	"epoch": 2.3805229936880075,
	"grad_norm": 0.22977260261166277,
	"learning_rate": 5.002610129034883e-05,
	"loss": 0.418,
	"step": 165
	},
	{
	"epoch": 2.394950405770965,
	"grad_norm": 0.25178175225388516,
	"learning_rate": 4.963316684649951e-05,
	"loss": 0.4215,
	"step": 166
	},
	{
	"epoch": 2.4093778178539225,
	"grad_norm": 0.18022661655296157,
	"learning_rate": 4.923924307140974e-05,
	"loss": 0.414,
	"step": 167
	},
	{
	"epoch": 2.42380522993688,
	"grad_norm": 0.23950853172671158,
	"learning_rate": 4.8844370421255886e-05,
	"loss": 0.419,
	"step": 168
	},
	{
	"epoch": 2.4382326420198375,
	"grad_norm": 0.19718161732313788,
	"learning_rate": 4.8448589449664305e-05,
	"loss": 0.4124,
	"step": 169
	},
	{
	"epoch": 2.4526600541027954,
	"grad_norm": 0.1804834440563653,
	"learning_rate": 4.805194080354641e-05,
	"loss": 0.4179,
	"step": 170
	},
	{
	"epoch": 2.467087466185753,
	"grad_norm": 0.20353053079969263,
	"learning_rate": 4.765446521892426e-05,
	"loss": 0.4104,
	"step": 171
	},
	{
	"epoch": 2.4815148782687104,
	"grad_norm": 0.16177819342894753,
	"learning_rate": 4.725620351674693e-05,
	"loss": 0.4202,
	"step": 172
	},
	{
	"epoch": 2.4959422903516684,
	"grad_norm": 0.16071769506654357,
	"learning_rate": 4.685719659869815e-05,
	"loss": 0.4083,
	"step": 173
	},
	{
	"epoch": 2.510369702434626,
	"grad_norm": 0.1725361486750181,
	"learning_rate": 4.645748544299574e-05,
	"loss": 0.4153,
	"step": 174
	},
	{
	"epoch": 2.5247971145175834,
	"grad_norm": 0.16753825050295582,
	"learning_rate": 4.605711110018307e-05,
	"loss": 0.4123,
	"step": 175
	},
	{
	"epoch": 2.539224526600541,
	"grad_norm": 0.17717032081528933,
	"learning_rate": 4.565611468891318e-05,
	"loss": 0.4129,
	"step": 176
	},
	{
	"epoch": 2.5536519386834984,
	"grad_norm": 0.1564598566236543,
	"learning_rate": 4.525453739172586e-05,
	"loss": 0.4117,
	"step": 177
	},
	{
	"epoch": 2.5680793507664563,
	"grad_norm": 0.15287663289000603,
	"learning_rate": 4.48524204508182e-05,
	"loss": 0.4183,
	"step": 178
	},
	{
	"epoch": 2.582506762849414,
	"grad_norm": 0.18206218031669835,
	"learning_rate": 4.444980516380895e-05,
	"loss": 0.4117,
	"step": 179
	},
	{
	"epoch": 2.5969341749323718,
	"grad_norm": 0.16895498094131148,
	"learning_rate": 4.4046732879497295e-05,
	"loss": 0.4148,
	"step": 180
	},
	{
	"epoch": 2.6113615870153293,
	"grad_norm": 0.20384116046961775,
	"learning_rate": 4.364324499361626e-05,
	"loss": 0.4121,
	"step": 181
	},
	{
	"epoch": 2.625788999098287,
	"grad_norm": 0.18201505177744084,
	"learning_rate": 4.3239382944581384e-05,
	"loss": 0.4154,
	"step": 182
	},
	{
	"epoch": 2.6402164111812443,
	"grad_norm": 0.16531279832670212,
	"learning_rate": 4.283518820923492e-05,
	"loss": 0.4134,
	"step": 183
	},
	{
	"epoch": 2.654643823264202,
	"grad_norm": 0.17869608399055636,
	"learning_rate": 4.243070229858624e-05,
	"loss": 0.4167,
	"step": 184
	},
	{
	"epoch": 2.6690712353471597,
	"grad_norm": 0.15659192579938305,
	"learning_rate": 4.202596675354851e-05,
	"loss": 0.415,
	"step": 185
	},
	{
	"epoch": 2.6834986474301172,
	"grad_norm": 0.1729110016630772,
	"learning_rate": 4.1621023140672524e-05,
	"loss": 0.4149,
	"step": 186
	},
	{
	"epoch": 2.6979260595130747,
	"grad_norm": 0.17987624911793657,
	"learning_rate": 4.121591304787772e-05,
	"loss": 0.4128,
	"step": 187
	},
	{
	"epoch": 2.7123534715960327,
	"grad_norm": 0.16277022431055213,
	"learning_rate": 4.081067808018111e-05,
	"loss": 0.4115,
	"step": 188
	},
	{
	"epoch": 2.72678088367899,
	"grad_norm": 0.1614060894054725,
	"learning_rate": 4.040535985542445e-05,
	"loss": 0.4188,
	"step": 189
	},
	{
	"epoch": 2.7412082957619477,
	"grad_norm": 0.1498519807080618,
	"learning_rate": 4e-05,
	"loss": 0.4172,
	"step": 190
	},
	{
	"epoch": 2.755635707844905,
	"grad_norm": 0.1604036678202687,
	"learning_rate": 3.959464014457557e-05,
	"loss": 0.4077,
	"step": 191
	},
	{
	"epoch": 2.7700631199278627,
	"grad_norm": 0.13770932722249057,
	"learning_rate": 3.91893219198189e-05,
	"loss": 0.4195,
	"step": 192
	},
	{
	"epoch": 2.7844905320108206,
	"grad_norm": 0.15035210016285183,
	"learning_rate": 3.87840869521223e-05,
	"loss": 0.4134,
	"step": 193
	},
	{
	"epoch": 2.798917944093778,
	"grad_norm": 0.15201640612716522,
	"learning_rate": 3.837897685932748e-05,
	"loss": 0.4106,
	"step": 194
	},
	{
	"epoch": 2.8133453561767356,
	"grad_norm": 0.13650157280906988,
	"learning_rate": 3.7974033246451496e-05,
	"loss": 0.4156,
	"step": 195
	},
	{
	"epoch": 2.8277727682596936,
	"grad_norm": 0.17964938669673042,
	"learning_rate": 3.7569297701413765e-05,
	"loss": 0.4154,
	"step": 196
	},
	{
	"epoch": 2.842200180342651,
	"grad_norm": 0.1243561060549184,
	"learning_rate": 3.716481179076509e-05,
	"loss": 0.4197,
	"step": 197
	},
	{
	"epoch": 2.8566275924256086,
	"grad_norm": 0.17089769484487582,
	"learning_rate": 3.676061705541864e-05,
	"loss": 0.4152,
	"step": 198
	},
	{
	"epoch": 2.871055004508566,
	"grad_norm": 0.17561155960318975,
	"learning_rate": 3.635675500638375e-05,
	"loss": 0.4167,
	"step": 199
	},
	{
	"epoch": 2.885482416591524,
	"grad_norm": 0.16307396978150157,
	"learning_rate": 3.595326712050272e-05,
	"loss": 0.418,
	"step": 200
	},
	{
	"epoch": 2.8999098286744815,
	"grad_norm": 0.18681533479112983,
	"learning_rate": 3.555019483619106e-05,
	"loss": 0.418,
	"step": 201
	},
	{
	"epoch": 2.914337240757439,
	"grad_norm": 0.1692680534023291,
	"learning_rate": 3.5147579549181805e-05,
	"loss": 0.4095,
	"step": 202
	},
	{
	"epoch": 2.928764652840397,
	"grad_norm": 0.1647112968457325,
	"learning_rate": 3.4745462608274143e-05,
	"loss": 0.421,
	"step": 203
	},
	{
	"epoch": 2.9431920649233545,
	"grad_norm": 0.1645824019282664,
	"learning_rate": 3.434388531108683e-05,
	"loss": 0.4201,
	"step": 204
	},
	{
	"epoch": 2.957619477006312,
	"grad_norm": 0.16193821543079018,
	"learning_rate": 3.394288889981695e-05,
	"loss": 0.4144,
	"step": 205
	},
	{
	"epoch": 2.9720468890892695,
	"grad_norm": 0.15576654979169963,
	"learning_rate": 3.354251455700427e-05,
	"loss": 0.421,
	"step": 206
	},
	{
	"epoch": 2.986474301172227,
	"grad_norm": 0.11204665102016201,
	"learning_rate": 3.314280340130187e-05,
	"loss": 0.4169,
	"step": 207
	},
	{
	"epoch": 3.000901713255185,
	"grad_norm": 0.2597744580379488,
	"learning_rate": 3.274379648325308e-05,
	"loss": 0.7047,
	"step": 208
	},
	{
	"epoch": 3.0153291253381425,
	"grad_norm": 0.29242080182868324,
	"learning_rate": 3.234553478107575e-05,
	"loss": 0.3922,
	"step": 209
	},
	{
	"epoch": 3.0297565374211,
	"grad_norm": 0.15554632560519327,
	"learning_rate": 3.194805919645359e-05,
	"loss": 0.3914,
	"step": 210
	},
	{
	"epoch": 3.044183949504058,
	"grad_norm": 0.22638176078144323,
	"learning_rate": 3.155141055033571e-05,
	"loss": 0.389,
	"step": 211
	},
	{
	"epoch": 3.0586113615870154,
	"grad_norm": 0.22235251051875934,
	"learning_rate": 3.115562957874413e-05,
	"loss": 0.3894,
	"step": 212
	},
	{
	"epoch": 3.073038773669973,
	"grad_norm": 0.14895254239929756,
	"learning_rate": 3.0760756928590265e-05,
	"loss": 0.3855,
	"step": 213
	},
	{
	"epoch": 3.0874661857529304,
	"grad_norm": 0.21985837426895496,
	"learning_rate": 3.0366833153500502e-05,
	"loss": 0.3899,
	"step": 214
	},
	{
	"epoch": 3.1018935978358884,
	"grad_norm": 0.1448532296100453,
	"learning_rate": 2.997389870965118e-05,
	"loss": 0.3853,
	"step": 215
	},
	{
	"epoch": 3.116321009918846,
	"grad_norm": 0.18340169272282977,
	"learning_rate": 2.958199395161388e-05,
	"loss": 0.3885,
	"step": 216
	},
	{
	"epoch": 3.1307484220018034,
	"grad_norm": 0.16252308646393857,
	"learning_rate": 2.9191159128210865e-05,
	"loss": 0.388,
	"step": 217
	},
	{
	"epoch": 3.145175834084761,
	"grad_norm": 0.15643803474572993,
	"learning_rate": 2.8801434378381566e-05,
	"loss": 0.3918,
	"step": 218
	},
	{
	"epoch": 3.159603246167719,
	"grad_norm": 0.16477382717354483,
	"learning_rate": 2.841285972706032e-05,
	"loss": 0.3848,
	"step": 219
	},
	{
	"epoch": 3.1740306582506763,
	"grad_norm": 0.1428234224200868,
	"learning_rate": 2.8025475081065684e-05,
	"loss": 0.3916,
	"step": 220
	},
	{
	"epoch": 3.188458070333634,
	"grad_norm": 0.15459593532143248,
	"learning_rate": 2.7639320225002108e-05,
	"loss": 0.3868,
	"step": 221
	},
	{
	"epoch": 3.2028854824165913,
	"grad_norm": 0.1376918823828853,
	"learning_rate": 2.725443481717394e-05,
	"loss": 0.3869,
	"step": 222
	},
	{
	"epoch": 3.2173128944995493,
	"grad_norm": 0.12950376396508245,
	"learning_rate": 2.687085838551255e-05,
	"loss": 0.391,
	"step": 223
	},
	{
	"epoch": 3.2317403065825068,
	"grad_norm": 0.15236052575941866,
	"learning_rate": 2.6488630323516785e-05,
	"loss": 0.3854,
	"step": 224
	},
	{
	"epoch": 3.2461677186654643,
	"grad_norm": 0.12413662200660247,
	"learning_rate": 2.6107789886207195e-05,
	"loss": 0.3932,
	"step": 225
	},
	{
	"epoch": 3.260595130748422,
	"grad_norm": 0.12948714851227347,
	"learning_rate": 2.5728376186094582e-05,
	"loss": 0.392,
	"step": 226
	},
	{
	"epoch": 3.2750225428313797,
	"grad_norm": 0.13509083763614343,
	"learning_rate": 2.5350428189163095e-05,
	"loss": 0.3893,
	"step": 227
	},
	{
	"epoch": 3.2894499549143372,
	"grad_norm": 0.11596299194935494,
	"learning_rate": 2.4973984710868394e-05,
	"loss": 0.3853,
	"step": 228
	},
	{
	"epoch": 3.3038773669972947,
	"grad_norm": 0.11495064647362904,
	"learning_rate": 2.4599084412151283e-05,
	"loss": 0.3881,
	"step": 229
	},
	{
	"epoch": 3.3183047790802522,
	"grad_norm": 0.11377790156854924,
	"learning_rate": 2.4225765795467267e-05,
	"loss": 0.3881,
	"step": 230
	},
	{
	"epoch": 3.33273219116321,
	"grad_norm": 0.11176541174980999,
	"learning_rate": 2.3854067200832226e-05,
	"loss": 0.3849,
	"step": 231
	},
	{
	"epoch": 3.3471596032461677,
	"grad_norm": 0.10932782133038507,
	"learning_rate": 2.348402680188496e-05,
	"loss": 0.3913,
	"step": 232
	},
	{
	"epoch": 3.361587015329125,
	"grad_norm": 0.12116739999194517,
	"learning_rate": 2.3115682601966726e-05,
	"loss": 0.3909,
	"step": 233
	},
	{
	"epoch": 3.376014427412083,
	"grad_norm": 0.11683332854779228,
	"learning_rate": 2.274907243021824e-05,
	"loss": 0.384,
	"step": 234
	},
	{
	"epoch": 3.3904418394950406,
	"grad_norm": 0.10329122415194655,
	"learning_rate": 2.2384233937694626e-05,
	"loss": 0.3891,
	"step": 235
	},
	{
	"epoch": 3.404869251577998,
	"grad_norm": 0.11676332764357526,
	"learning_rate": 2.202120459349864e-05,
	"loss": 0.3879,
	"step": 236
	},
	{
	"epoch": 3.4192966636609556,
	"grad_norm": 0.11043415196225377,
	"learning_rate": 2.1660021680932565e-05,
	"loss": 0.3907,
	"step": 237
	},
	{
	"epoch": 3.4337240757439136,
	"grad_norm": 0.10352103209720392,
	"learning_rate": 2.130072229366916e-05,
	"loss": 0.3868,
	"step": 238
	},
	{
	"epoch": 3.448151487826871,
	"grad_norm": 0.11106271281959253,
	"learning_rate": 2.0943343331942208e-05,
	"loss": 0.3872,
	"step": 239
	},
	{
	"epoch": 3.4625788999098286,
	"grad_norm": 0.100859861129825,
	"learning_rate": 2.0587921498756768e-05,
	"loss": 0.3841,
	"step": 240
	},
	{
	"epoch": 3.4770063119927865,
	"grad_norm": 0.11902184783806945,
	"learning_rate": 2.0234493296119776e-05,
	"loss": 0.389,
	"step": 241
	},
	{
	"epoch": 3.491433724075744,
	"grad_norm": 0.09752054045307186,
	"learning_rate": 1.9883095021291294e-05,
	"loss": 0.3894,
	"step": 242
	},
	{
	"epoch": 3.5058611361587015,
	"grad_norm": 0.1157887524298405,
	"learning_rate": 1.9533762763056714e-05,
	"loss": 0.3864,
	"step": 243
	},
	{
	"epoch": 3.520288548241659,
	"grad_norm": 0.0962545228356216,
	"learning_rate": 1.918653239802048e-05,
	"loss": 0.3911,
	"step": 244
	},
	{
	"epoch": 3.5347159603246165,
	"grad_norm": 0.11589978846585437,
	"learning_rate": 1.8841439586921515e-05,
	"loss": 0.3873,
	"step": 245
	},
	{
	"epoch": 3.5491433724075745,
	"grad_norm": 0.10235501875925748,
	"learning_rate": 1.849851977097078e-05,
	"loss": 0.3919,
	"step": 246
	},
	{
	"epoch": 3.563570784490532,
	"grad_norm": 0.10642762647275054,
	"learning_rate": 1.8157808168211605e-05,
	"loss": 0.3862,
	"step": 247
	},
	{
	"epoch": 3.5779981965734895,
	"grad_norm": 0.10705125409234852,
	"learning_rate": 1.7819339769902568e-05,
	"loss": 0.3826,
	"step": 248
	},
	{
	"epoch": 3.5924256086564474,
	"grad_norm": 0.11011000435589068,
	"learning_rate": 1.7483149336924105e-05,
	"loss": 0.3896,
	"step": 249
	},
	{
	"epoch": 3.606853020739405,
	"grad_norm": 0.10299367912221409,
	"learning_rate": 1.71492713962083e-05,
	"loss": 0.3818,
	"step": 250
	},
	{
	"epoch": 3.6212804328223624,
	"grad_norm": 0.09896534243305305,
	"learning_rate": 1.6817740237193213e-05,
	"loss": 0.3899,
	"step": 251
	},
	{
	"epoch": 3.63570784490532,
	"grad_norm": 0.10057029872247607,
	"learning_rate": 1.648858990830108e-05,
	"loss": 0.3865,
	"step": 252
	},
	{
	"epoch": 3.6501352569882775,
	"grad_norm": 0.10556137735012057,
	"learning_rate": 1.6161854213441724e-05,
	"loss": 0.3857,
	"step": 253
	},
	{
	"epoch": 3.6645626690712354,
	"grad_norm": 0.09912849463045817,
	"learning_rate": 1.5837566708540776e-05,
	"loss": 0.3882,
	"step": 254
	},
	{
	"epoch": 3.678990081154193,
	"grad_norm": 0.10873331871358806,
	"learning_rate": 1.5515760698093485e-05,
	"loss": 0.3913,
	"step": 255
	},
	{
	"epoch": 3.693417493237151,
	"grad_norm": 0.10135375429134282,
	"learning_rate": 1.5196469231744338e-05,
	"loss": 0.3918,
	"step": 256
	},
	{
	"epoch": 3.7078449053201084,
	"grad_norm": 0.101442765978251,
	"learning_rate": 1.4879725100892821e-05,
	"loss": 0.3898,
	"step": 257
	},
	{
	"epoch": 3.722272317403066,
	"grad_norm": 0.09944828474807176,
	"learning_rate": 1.456556083532577e-05,
	"loss": 0.3888,
	"step": 258
	},
	{
	"epoch": 3.7366997294860234,
	"grad_norm": 0.10063514199400612,
	"learning_rate": 1.4254008699876468e-05,
	"loss": 0.3875,
	"step": 259
	},
	{
	"epoch": 3.751127141568981,
	"grad_norm": 0.1073202284969319,
	"learning_rate": 1.394510069111112e-05,
	"loss": 0.3825,
	"step": 260
	},
	{
	"epoch": 3.765554553651939,
	"grad_norm": 0.11199636802016412,
	"learning_rate": 1.3638868534042732e-05,
	"loss": 0.3912,
	"step": 261
	},
	{
	"epoch": 3.7799819657348963,
	"grad_norm": 0.09460154248342248,
	"learning_rate": 1.3335343678872947e-05,
	"loss": 0.3919,
	"step": 262
	},
	{
	"epoch": 3.794409377817854,
	"grad_norm": 0.10030251095406782,
	"learning_rate": 1.3034557297762108e-05,
	"loss": 0.3897,
	"step": 263
	},
	{
	"epoch": 3.8088367899008118,
	"grad_norm": 0.09707674946485532,
	"learning_rate": 1.2736540281627833e-05,
	"loss": 0.3882,
	"step": 264
	},
	{
	"epoch": 3.8232642019837693,
	"grad_norm": 0.10066191197693501,
	"learning_rate": 1.2441323236972536e-05,
	"loss": 0.3838,
	"step": 265
	},
	{
	"epoch": 3.8376916140667268,
	"grad_norm": 0.09882561767806158,
	"learning_rate": 1.2148936482740106e-05,
	"loss": 0.3876,
	"step": 266
	},
	{
	"epoch": 3.8521190261496843,
	"grad_norm": 0.09393577574639751,
	"learning_rate": 1.1859410047202076e-05,
	"loss": 0.3949,
	"step": 267
	},
	{
	"epoch": 3.8665464382326418,
	"grad_norm": 0.10491601613830169,
	"learning_rate": 1.1572773664873877e-05,
	"loss": 0.3945,
	"step": 268
	},
	{
	"epoch": 3.8809738503155997,
	"grad_norm": 0.09433909557518863,
	"learning_rate": 1.1289056773460848e-05,
	"loss": 0.3907,
	"step": 269
	},
	{
	"epoch": 3.895401262398557,
	"grad_norm": 0.09718276334267877,
	"learning_rate": 1.100828851083521e-05,
	"loss": 0.3892,
	"step": 270
	},
	{
	"epoch": 3.9098286744815147,
	"grad_norm": 0.09130729699370443,
	"learning_rate": 1.0730497712043375e-05,
	"loss": 0.3877,
	"step": 271
	},
	{
	"epoch": 3.9242560865644727,
	"grad_norm": 0.0989960086350818,
	"learning_rate": 1.0455712906344742e-05,
	"loss": 0.3905,
	"step": 272
	},
	{
	"epoch": 3.93868349864743,
	"grad_norm": 0.08478658948822386,
	"learning_rate": 1.0183962314281616e-05,
	"loss": 0.3809,
	"step": 273
	},
	{
	"epoch": 3.9531109107303877,
	"grad_norm": 0.08732293651393247,
	"learning_rate": 9.91527384478102e-06,
	"loss": 0.3909,
	"step": 274
	},
	{
	"epoch": 3.967538322813345,
	"grad_norm": 0.09248422321017552,
	"learning_rate": 9.649675092288366e-06,
	"loss": 0.3904,
	"step": 275
	},
	{
	"epoch": 3.981965734896303,
	"grad_norm": 0.08874068919252195,
	"learning_rate": 9.387193333933542e-06,
	"loss": 0.3901,
	"step": 276
	},
	{
	"epoch": 3.9963931469792606,
	"grad_norm": 0.10386496694166722,
	"learning_rate": 9.127855526729518e-06,
	"loss": 0.4421,
	"step": 277
	},
	{
	"epoch": 4.010820559062219,
	"grad_norm": 0.17465874605366377,
	"learning_rate": 8.87168830480385e-06,
	"loss": 0.5908,
	"step": 278
	},
	{
	"epoch": 4.025247971145176,
	"grad_norm": 0.10653039126787628,
	"learning_rate": 8.618717976663316e-06,
	"loss": 0.3731,
	"step": 279
	},
	{
	"epoch": 4.039675383228134,
	"grad_norm": 0.09575070816517416,
	"learning_rate": 8.368970522492064e-06,
	"loss": 0.368,
	"step": 280
	},
	{
	"epoch": 4.054102795311091,
	"grad_norm": 0.10014800890252488,
	"learning_rate": 8.122471591483405e-06,
	"loss": 0.379,
	"step": 281
	},
	{
	"epoch": 4.068530207394049,
	"grad_norm": 0.10719719334181581,
	"learning_rate": 7.879246499205635e-06,
	"loss": 0.3747,
	"step": 282
	},
	{
	"epoch": 4.082957619477006,
	"grad_norm": 0.1034029506118448,
	"learning_rate": 7.639320225002106e-06,
	"loss": 0.3675,
	"step": 283
	},
	{
	"epoch": 4.097385031559964,
	"grad_norm": 0.09719883839292859,
	"learning_rate": 7.402717409425846e-06,
	"loss": 0.3745,
	"step": 284
	},
	{
	"epoch": 4.111812443642922,
	"grad_norm": 0.09348527541393592,
	"learning_rate": 7.169462351708958e-06,
	"loss": 0.3746,
	"step": 285
	},
	{
	"epoch": 4.1262398557258795,
	"grad_norm": 0.09622234742870885,
	"learning_rate": 6.939579007267041e-06,
	"loss": 0.3669,
	"step": 286
	},
	{
	"epoch": 4.140667267808837,
	"grad_norm": 0.10062068129651956,
	"learning_rate": 6.7130909852390504e-06,
	"loss": 0.377,
	"step": 287
	},
	{
	"epoch": 4.1550946798917945,
	"grad_norm": 0.09063820087374816,
	"learning_rate": 6.490021546062495e-06,
	"loss": 0.3725,
	"step": 288
	},
	{
	"epoch": 4.169522091974752,
	"grad_norm": 0.0978449706487065,
	"learning_rate": 6.270393599084719e-06,
	"loss": 0.3701,
	"step": 289
	},
	{
	"epoch": 4.1839495040577095,
	"grad_norm": 0.09420394070648874,
	"learning_rate": 6.054229700209959e-06,
	"loss": 0.3686,
	"step": 290
	},
	{
	"epoch": 4.198376916140667,
	"grad_norm": 0.09135183952593588,
	"learning_rate": 5.841552049582979e-06,
	"loss": 0.3668,
	"step": 291
	},
	{
	"epoch": 4.2128043282236245,
	"grad_norm": 0.08941854382744684,
	"learning_rate": 5.632382489308983e-06,
	"loss": 0.3753,
	"step": 292
	},
	{
	"epoch": 4.227231740306583,
	"grad_norm": 0.09033071999727058,
	"learning_rate": 5.4267425012105e-06,
	"loss": 0.371,
	"step": 293
	},
	{
	"epoch": 4.24165915238954,
	"grad_norm": 0.08363022499101917,
	"learning_rate": 5.224653204621155e-06,
	"loss": 0.3699,
	"step": 294
	},
	{
	"epoch": 4.256086564472498,
	"grad_norm": 0.0794997380043983,
	"learning_rate": 5.026135354216717e-06,
	"loss": 0.3703,
	"step": 295
	},
	{
	"epoch": 4.270513976555455,
	"grad_norm": 0.08331150232989441,
	"learning_rate": 4.8312093378835645e-06,
	"loss": 0.3729,
	"step": 296
	},
	{
	"epoch": 4.284941388638413,
	"grad_norm": 0.08516826877199297,
	"learning_rate": 4.63989517462486e-06,
	"loss": 0.3757,
	"step": 297
	},
	{
	"epoch": 4.29936880072137,
	"grad_norm": 0.08386630568073708,
	"learning_rate": 4.452212512504579e-06,
	"loss": 0.3766,
	"step": 298
	},
	{
	"epoch": 4.313796212804328,
	"grad_norm": 0.08120526732790356,
	"learning_rate": 4.268180626629641e-06,
	"loss": 0.3751,
	"step": 299
	},
	{
	"epoch": 4.328223624887286,
	"grad_norm": 0.0797417427617793,
	"learning_rate": 4.087818417170337e-06,
	"loss": 0.3711,
	"step": 300
	},
	{
	"epoch": 4.342651036970244,
	"grad_norm": 0.08091306914486351,
	"learning_rate": 3.9111444074193e-06,
	"loss": 0.3704,
	"step": 301
	},
	{
	"epoch": 4.357078449053201,
	"grad_norm": 0.08277906868820106,
	"learning_rate": 3.7381767418891303e-06,
	"loss": 0.3736,
	"step": 302
	},
	{
	"epoch": 4.371505861136159,
	"grad_norm": 0.08109844725998167,
	"learning_rate": 3.568933184448944e-06,
	"loss": 0.3679,
	"step": 303
	},
	{
	"epoch": 4.385933273219116,
	"grad_norm": 0.076043565671384,
	"learning_rate": 3.403431116500038e-06,
	"loss": 0.3737,
	"step": 304
	},
	{
	"epoch": 4.400360685302074,
	"grad_norm": 0.0786325856472425,
	"learning_rate": 3.241687535190776e-06,
	"loss": 0.3722,
	"step": 305
	},
	{
	"epoch": 4.414788097385031,
	"grad_norm": 0.07882441543843179,
	"learning_rate": 3.08371905167101e-06,
	"loss": 0.3746,
	"step": 306
	},
	{
	"epoch": 4.429215509467989,
	"grad_norm": 0.0813528283180034,
	"learning_rate": 2.929541889386056e-06,
	"loss": 0.3698,
	"step": 307
	},
	{
	"epoch": 4.443642921550947,
	"grad_norm": 0.07778147610676125,
	"learning_rate": 2.7791718824106186e-06,
	"loss": 0.3747,
	"step": 308
	},
	{
	"epoch": 4.458070333633905,
	"grad_norm": 0.07497215994153009,
	"learning_rate": 2.6326244738225183e-06,
	"loss": 0.3793,
	"step": 309
	},
	{
	"epoch": 4.472497745716862,
	"grad_norm": 0.0751254260494879,
	"learning_rate": 2.489914714116788e-06,
	"loss": 0.3707,
	"step": 310
	},
	{
	"epoch": 4.48692515779982,
	"grad_norm": 0.0748304985473765,
	"learning_rate": 2.3510572596598678e-06,
	"loss": 0.3728,
	"step": 311
	},
	{
	"epoch": 4.501352569882777,
	"grad_norm": 0.07793338755657392,
	"learning_rate": 2.2160663711845176e-06,
	"loss": 0.3733,
	"step": 312
	},
	{
	"epoch": 4.515779981965735,
	"grad_norm": 0.07545418335066799,
	"learning_rate": 2.084955912325093e-06,
	"loss": 0.3663,
	"step": 313
	},
	{
	"epoch": 4.530207394048692,
	"grad_norm": 0.0784362383534773,
	"learning_rate": 1.957739348193859e-06,
	"loss": 0.3694,
	"step": 314
	},
	{
	"epoch": 4.544634806131651,
	"grad_norm": 0.07501282928300265,
	"learning_rate": 1.8344297439980475e-06,
	"loss": 0.3739,
	"step": 315
	},
	{
	"epoch": 4.559062218214608,
	"grad_norm": 0.07184746061800508,
	"learning_rate": 1.715039763698081e-06,
	"loss": 0.372,
	"step": 316
	},
	{
	"epoch": 4.573489630297566,
	"grad_norm": 0.0768286859431056,
	"learning_rate": 1.5995816687069687e-06,
	"loss": 0.367,
	"step": 317
	},
	{
	"epoch": 4.587917042380523,
	"grad_norm": 0.07399515759551432,
	"learning_rate": 1.4880673166310612e-06,
	"loss": 0.3734,
	"step": 318
	},
	{
	"epoch": 4.602344454463481,
	"grad_norm": 0.07232964813350647,
	"learning_rate": 1.3805081600522585e-06,
	"loss": 0.3697,
	"step": 319
	},
	{
	"epoch": 4.616771866546438,
	"grad_norm": 0.07389169724144744,
	"learning_rate": 1.276915245351833e-06,
	"loss": 0.3666,
	"step": 320
	},
	{
	"epoch": 4.631199278629396,
	"grad_norm": 0.071013638237935,
	"learning_rate": 1.1772992115759351e-06,
	"loss": 0.3704,
	"step": 321
	},
	{
	"epoch": 4.645626690712353,
	"grad_norm": 0.07478471657750946,
	"learning_rate": 1.081670289343002e-06,
	"loss": 0.372,
	"step": 322
	},
	{
	"epoch": 4.660054102795311,
	"grad_norm": 0.0713434887145259,
	"learning_rate": 9.900382997930413e-07,
	"loss": 0.3754,
	"step": 323
	},
	{
	"epoch": 4.674481514878269,
	"grad_norm": 0.0730981387918326,
	"learning_rate": 9.024126535789812e-07,
	"loss": 0.3684,
	"step": 324
	},
	{
	"epoch": 4.6889089269612265,
	"grad_norm": 0.07158489318241744,
	"learning_rate": 8.188023499002206e-07,
	"loss": 0.3808,
	"step": 325
	},
	{
	"epoch": 4.703336339044184,
	"grad_norm": 0.07013751377947393,
	"learning_rate": 7.392159755783957e-07,
	"loss": 0.3626,
	"step": 326
	},
	{
	"epoch": 4.7177637511271415,
	"grad_norm": 0.07150689349177662,
	"learning_rate": 6.636617041754978e-07,
	"loss": 0.3723,
	"step": 327
	},
	{
	"epoch": 4.732191163210099,
	"grad_norm": 0.07003675588222115,
	"learning_rate": 5.921472951544527e-07,
	"loss": 0.3689,
	"step": 328
	},
	{
	"epoch": 4.7466185752930565,
	"grad_norm": 0.06957634634931112,
	"learning_rate": 5.246800930822371e-07,
	"loss": 0.3751,
	"step": 329
	},
	{
	"epoch": 4.761045987376015,
	"grad_norm": 0.07044531133634477,
	"learning_rate": 4.6126702687554483e-07,
	"loss": 0.371,
	"step": 330
	},
	{
	"epoch": 4.775473399458972,
	"grad_norm": 0.07077686025594564,
	"learning_rate": 4.0191460908923563e-07,
	"loss": 0.3676,
	"step": 331
	},
	{
	"epoch": 4.78990081154193,
	"grad_norm": 0.07253004421887527,
	"learning_rate": 3.4662893524745276e-07,
	"loss": 0.3781,
	"step": 332
	},
	{
	"epoch": 4.804328223624887,
	"grad_norm": 0.07510496456067554,
	"learning_rate": 2.954156832176214e-07,
	"loss": 0.3783,
	"step": 333
	},
	{
	"epoch": 4.818755635707845,
	"grad_norm": 0.0706180896307413,
	"learning_rate": 2.482801126273371e-07,
	"loss": 0.371,
	"step": 334
	},
	{
	"epoch": 4.833183047790802,
	"grad_norm": 0.06847497940017412,
	"learning_rate": 2.0522706432419382e-07,
	"loss": 0.3702,
	"step": 335
	},
	{
	"epoch": 4.84761045987376,
	"grad_norm": 0.07040073406374138,
	"learning_rate": 1.6626095987862134e-07,
	"loss": 0.3703,
	"step": 336
	},
	{
	"epoch": 4.862037871956717,
	"grad_norm": 0.06922886880619938,
	"learning_rate": 1.3138580112979083e-07,
	"loss": 0.3693,
	"step": 337
	},
	{
	"epoch": 4.876465284039675,
	"grad_norm": 0.07071379713825318,
	"learning_rate": 1.0060516977462797e-07,
	"loss": 0.3683,
	"step": 338
	},
	{
	"epoch": 4.890892696122633,
	"grad_norm": 0.0707082821934966,
	"learning_rate": 7.39222269999651e-08,
	"loss": 0.3795,
	"step": 339
	},
	{
	"epoch": 4.905320108205591,
	"grad_norm": 0.06885902870580198,
	"learning_rate": 5.133971315788966e-08,
	"loss": 0.3671,
	"step": 340
	},
	{
	"epoch": 4.919747520288548,
	"grad_norm": 0.06873108316208869,
	"learning_rate": 3.285994748430721e-08,
	"loss": 0.3738,
	"step": 341
	},
	{
	"epoch": 4.934174932371506,
	"grad_norm": 0.06944038886061686,
	"learning_rate": 1.8484827860754118e-08,
	"loss": 0.3691,
	"step": 342
	},
	{
	"epoch": 4.948602344454463,
	"grad_norm": 0.07137425763584286,
	"learning_rate": 8.215830619486831e-09,
	"loss": 0.3709,
	"step": 343
	},
	{
	"epoch": 4.963029756537421,
	"grad_norm": 0.0716171836993154,
	"learning_rate": 2.054010391856487e-09,
	"loss": 0.3704,
	"step": 344
	},
	{
	"epoch": 4.977457168620378,
	"grad_norm": 0.0713787661901706,
	"learning_rate": 0.0,
	"loss": 0.3736,
	"step": 345
	},
	{
	"epoch": 4.977457168620378,
	"step": 345,
	"total_flos": 9.173613467414823e+18,
	"train_loss": 0.4462836230146712,
	"train_runtime": 80545.5288,
	"train_samples_per_second": 2.202,
	"train_steps_per_second": 0.004
	}
	],
	"logging_steps": 1,
	"max_steps": 345,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 9.173613467414823e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}