regup006 / trainer_state.json

Upload folder using huggingface_hub

fba85c7 verified about 1 year ago

175 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.0625,
	"eval_steps": 250,
	"global_step": 500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.000125,
	"grad_norm": 4.097814559936523,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 1.1655,
	"loss/crossentropy": 2.343535900115967,
	"loss/hidden": 0.9296875,
	"loss/logits": 0.17379230260849,
	"loss/reg": 0.006198255345225334,
	"step": 1
	},
	{
	"epoch": 0.00025,
	"grad_norm": 3.662576913833618,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 1.4973,
	"loss/crossentropy": 2.318769931793213,
	"loss/hidden": 1.1875,
	"loss/logits": 0.24786217510700226,
	"loss/reg": 0.006198255345225334,
	"step": 2
	},
	{
	"epoch": 0.000375,
	"grad_norm": 2.8296749591827393,
	"learning_rate": 3e-06,
	"loss": 1.2258,
	"loss/crossentropy": 2.4907937049865723,
	"loss/hidden": 0.97265625,
	"loss/logits": 0.19112952053546906,
	"loss/reg": 0.006198245566338301,
	"step": 3
	},
	{
	"epoch": 0.0005,
	"grad_norm": 3.057624578475952,
	"learning_rate": 4.000000000000001e-06,
	"loss": 1.1136,
	"loss/crossentropy": 2.744520902633667,
	"loss/hidden": 0.890625,
	"loss/logits": 0.16101403534412384,
	"loss/reg": 0.006198232993483543,
	"step": 4
	},
	{
	"epoch": 0.000625,
	"grad_norm": 2.7055587768554688,
	"learning_rate": 5e-06,
	"loss": 1.1943,
	"loss/crossentropy": 2.5722062587738037,
	"loss/hidden": 0.94921875,
	"loss/logits": 0.18310005962848663,
	"loss/reg": 0.0061982134357094765,
	"step": 5
	},
	{
	"epoch": 0.00075,
	"grad_norm": 3.789276361465454,
	"learning_rate": 6e-06,
	"loss": 1.247,
	"loss/crossentropy": 2.613312005996704,
	"loss/hidden": 1.0078125,
	"loss/logits": 0.17725251615047455,
	"loss/reg": 0.006198191549628973,
	"step": 6
	},
	{
	"epoch": 0.000875,
	"grad_norm": 3.997910499572754,
	"learning_rate": 7.000000000000001e-06,
	"loss": 1.4206,
	"loss/crossentropy": 2.4207534790039062,
	"loss/hidden": 1.125,
	"loss/logits": 0.2336406409740448,
	"loss/reg": 0.006198164541274309,
	"step": 7
	},
	{
	"epoch": 0.001,
	"grad_norm": 2.5986244678497314,
	"learning_rate": 8.000000000000001e-06,
	"loss": 1.0878,
	"loss/crossentropy": 2.536424160003662,
	"loss/hidden": 0.8671875,
	"loss/logits": 0.1585812270641327,
	"loss/reg": 0.006198132876306772,
	"step": 8
	},
	{
	"epoch": 0.001125,
	"grad_norm": 2.2757976055145264,
	"learning_rate": 9e-06,
	"loss": 1.1175,
	"loss/crossentropy": 2.745281219482422,
	"loss/hidden": 0.89453125,
	"loss/logits": 0.16094230115413666,
	"loss/reg": 0.006198094692081213,
	"step": 9
	},
	{
	"epoch": 0.00125,
	"grad_norm": 2.261094808578491,
	"learning_rate": 1e-05,
	"loss": 1.0803,
	"loss/crossentropy": 2.3173577785491943,
	"loss/hidden": 0.8671875,
	"loss/logits": 0.15108685195446014,
	"loss/reg": 0.0061980499885976315,
	"step": 10
	},
	{
	"epoch": 0.001375,
	"grad_norm": 21.777265548706055,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 2.0501,
	"loss/crossentropy": 3.2122714519500732,
	"loss/hidden": 1.7109375,
	"loss/logits": 0.27713608741760254,
	"loss/reg": 0.006198008079081774,
	"step": 11
	},
	{
	"epoch": 0.0015,
	"grad_norm": 2.5655505657196045,
	"learning_rate": 1.2e-05,
	"loss": 1.151,
	"loss/crossentropy": 2.706430196762085,
	"loss/hidden": 0.8984375,
	"loss/logits": 0.19056561589241028,
	"loss/reg": 0.0061979577876627445,
	"step": 12
	},
	{
	"epoch": 0.001625,
	"grad_norm": 2.403053045272827,
	"learning_rate": 1.3000000000000001e-05,
	"loss": 1.0719,
	"loss/crossentropy": 2.0466296672821045,
	"loss/hidden": 0.88671875,
	"loss/logits": 0.12316589802503586,
	"loss/reg": 0.0061978911980986595,
	"step": 13
	},
	{
	"epoch": 0.00175,
	"grad_norm": 3.840881586074829,
	"learning_rate": 1.4000000000000001e-05,
	"loss": 1.5441,
	"loss/crossentropy": 2.3191423416137695,
	"loss/hidden": 1.234375,
	"loss/logits": 0.24779079854488373,
	"loss/reg": 0.00619781669229269,
	"step": 14
	},
	{
	"epoch": 0.001875,
	"grad_norm": 2.557331085205078,
	"learning_rate": 1.5e-05,
	"loss": 0.9444,
	"loss/crossentropy": 2.6370084285736084,
	"loss/hidden": 0.76953125,
	"loss/logits": 0.11287336051464081,
	"loss/reg": 0.006197733338922262,
	"step": 15
	},
	{
	"epoch": 0.002,
	"grad_norm": 3.1850404739379883,
	"grad_norm_var": 22.31061335402559,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 1.3213,
	"loss/crossentropy": 2.676577091217041,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.2046227753162384,
	"loss/reg": 0.006197639741003513,
	"step": 16
	},
	{
	"epoch": 0.002125,
	"grad_norm": 2.2587289810180664,
	"grad_norm_var": 22.553268201402446,
	"learning_rate": 1.7000000000000003e-05,
	"loss": 1.0312,
	"loss/crossentropy": 2.4961040019989014,
	"loss/hidden": 0.8203125,
	"loss/logits": 0.148894801735878,
	"loss/reg": 0.006197560112923384,
	"step": 17
	},
	{
	"epoch": 0.00225,
	"grad_norm": 3.3259811401367188,
	"grad_norm_var": 22.58044614452358,
	"learning_rate": 1.8e-05,
	"loss": 1.3626,
	"loss/crossentropy": 2.5914387702941895,
	"loss/hidden": 1.046875,
	"loss/logits": 0.25370728969573975,
	"loss/reg": 0.006197475362569094,
	"step": 18
	},
	{
	"epoch": 0.002375,
	"grad_norm": 2.468914747238159,
	"grad_norm_var": 22.649171856957494,
	"learning_rate": 1.9e-05,
	"loss": 1.1683,
	"loss/crossentropy": 2.6096584796905518,
	"loss/hidden": 0.921875,
	"loss/logits": 0.18447336554527283,
	"loss/reg": 0.00619738781824708,
	"step": 19
	},
	{
	"epoch": 0.0025,
	"grad_norm": 2.3097646236419678,
	"grad_norm_var": 22.784756315801523,
	"learning_rate": 2e-05,
	"loss": 1.1605,
	"loss/crossentropy": 2.299048662185669,
	"loss/hidden": 0.9375,
	"loss/logits": 0.16106057167053223,
	"loss/reg": 0.006197274662554264,
	"step": 20
	},
	{
	"epoch": 0.002625,
	"grad_norm": 2.1111207008361816,
	"grad_norm_var": 22.911025462198744,
	"learning_rate": 2.1e-05,
	"loss": 0.939,
	"loss/crossentropy": 2.547258138656616,
	"loss/hidden": 0.75,
	"loss/logits": 0.12698382139205933,
	"loss/reg": 0.006197154987603426,
	"step": 21
	},
	{
	"epoch": 0.00275,
	"grad_norm": 2.4918222427368164,
	"grad_norm_var": 23.049732177187614,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 1.2047,
	"loss/crossentropy": 2.2802374362945557,
	"loss/hidden": 0.953125,
	"loss/logits": 0.18965375423431396,
	"loss/reg": 0.006197045091539621,
	"step": 22
	},
	{
	"epoch": 0.002875,
	"grad_norm": 3.3273494243621826,
	"grad_norm_var": 23.069242834486193,
	"learning_rate": 2.3000000000000003e-05,
	"loss": 1.2554,
	"loss/crossentropy": 2.3062734603881836,
	"loss/hidden": 1.0078125,
	"loss/logits": 0.18566077947616577,
	"loss/reg": 0.006196921691298485,
	"step": 23
	},
	{
	"epoch": 0.003,
	"grad_norm": 2.5644068717956543,
	"grad_norm_var": 23.075070365271714,
	"learning_rate": 2.4e-05,
	"loss": 1.2266,
	"loss/crossentropy": 2.460878372192383,
	"loss/hidden": 0.98046875,
	"loss/logits": 0.18418912589550018,
	"loss/reg": 0.006196786183863878,
	"step": 24
	},
	{
	"epoch": 0.003125,
	"grad_norm": 2.3506264686584473,
	"grad_norm_var": 23.059636834121356,
	"learning_rate": 2.5e-05,
	"loss": 1.0205,
	"loss/crossentropy": 2.4281811714172363,
	"loss/hidden": 0.82421875,
	"loss/logits": 0.13434948027133942,
	"loss/reg": 0.0061966474168002605,
	"step": 25
	},
	{
	"epoch": 0.00325,
	"grad_norm": 2.25004506111145,
	"grad_norm_var": 23.062003716592635,
	"learning_rate": 2.6000000000000002e-05,
	"loss": 1.1133,
	"loss/crossentropy": 2.326843500137329,
	"loss/hidden": 0.9140625,
	"loss/logits": 0.13725802302360535,
	"loss/reg": 0.006196498870849609,
	"step": 26
	},
	{
	"epoch": 0.003375,
	"grad_norm": 2.283770799636841,
	"grad_norm_var": 0.2469546323472817,
	"learning_rate": 2.7000000000000002e-05,
	"loss": 1.1459,
	"loss/crossentropy": 2.3002493381500244,
	"loss/hidden": 0.9140625,
	"loss/logits": 0.16987068951129913,
	"loss/reg": 0.006196335889399052,
	"step": 27
	},
	{
	"epoch": 0.0035,
	"grad_norm": 2.805088758468628,
	"grad_norm_var": 0.24805442740468303,
	"learning_rate": 2.8000000000000003e-05,
	"loss": 1.0272,
	"loss/crossentropy": 2.510472536087036,
	"loss/hidden": 0.8359375,
	"loss/logits": 0.12927240133285522,
	"loss/reg": 0.006196176633238792,
	"step": 28
	},
	{
	"epoch": 0.003625,
	"grad_norm": 2.0331132411956787,
	"grad_norm_var": 0.2692014993258605,
	"learning_rate": 2.9e-05,
	"loss": 1.0913,
	"loss/crossentropy": 2.51584529876709,
	"loss/hidden": 0.87109375,
	"loss/logits": 0.15820594131946564,
	"loss/reg": 0.006195997819304466,
	"step": 29
	},
	{
	"epoch": 0.00375,
	"grad_norm": 2.1523566246032715,
	"grad_norm_var": 0.17596421900176604,
	"learning_rate": 3e-05,
	"loss": 1.0026,
	"loss/crossentropy": 2.704220771789551,
	"loss/hidden": 0.796875,
	"loss/logits": 0.14372289180755615,
	"loss/reg": 0.0061958180740475655,
	"step": 30
	},
	{
	"epoch": 0.003875,
	"grad_norm": 2.6658694744110107,
	"grad_norm_var": 0.1771001402109505,
	"learning_rate": 3.1e-05,
	"loss": 1.122,
	"loss/crossentropy": 2.4840426445007324,
	"loss/hidden": 0.89453125,
	"loss/logits": 0.1655040979385376,
	"loss/reg": 0.006195634603500366,
	"step": 31
	},
	{
	"epoch": 0.004,
	"grad_norm": 2.813079595565796,
	"grad_norm_var": 0.153583095436327,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 1.0653,
	"loss/crossentropy": 2.442962646484375,
	"loss/hidden": 0.859375,
	"loss/logits": 0.14400474727153778,
	"loss/reg": 0.00619542459025979,
	"step": 32
	},
	{
	"epoch": 0.004125,
	"grad_norm": 2.4273953437805176,
	"grad_norm_var": 0.1496371777315666,
	"learning_rate": 3.3e-05,
	"loss": 1.1025,
	"loss/crossentropy": 2.515721559524536,
	"loss/hidden": 0.89453125,
	"loss/logits": 0.1460331827402115,
	"loss/reg": 0.006195210851728916,
	"step": 33
	},
	{
	"epoch": 0.00425,
	"grad_norm": 2.0594100952148438,
	"grad_norm_var": 0.11442956053255457,
	"learning_rate": 3.4000000000000007e-05,
	"loss": 1.118,
	"loss/crossentropy": 2.5347506999969482,
	"loss/hidden": 0.8984375,
	"loss/logits": 0.15760375559329987,
	"loss/reg": 0.006195001769810915,
	"step": 34
	},
	{
	"epoch": 0.004375,
	"grad_norm": 2.497893810272217,
	"grad_norm_var": 0.11457586733464495,
	"learning_rate": 3.5e-05,
	"loss": 1.2359,
	"loss/crossentropy": 1.7681002616882324,
	"loss/hidden": 1.0390625,
	"loss/logits": 0.13490143418312073,
	"loss/reg": 0.006194803398102522,
	"step": 35
	},
	{
	"epoch": 0.0045,
	"grad_norm": 3.3231709003448486,
	"grad_norm_var": 0.16029457606237638,
	"learning_rate": 3.6e-05,
	"loss": 1.3588,
	"loss/crossentropy": 2.729518175125122,
	"loss/hidden": 1.09375,
	"loss/logits": 0.20313453674316406,
	"loss/reg": 0.00619460316374898,
	"step": 36
	},
	{
	"epoch": 0.004625,
	"grad_norm": 2.5542962551116943,
	"grad_norm_var": 0.14901290879942408,
	"learning_rate": 3.7e-05,
	"loss": 1.1671,
	"loss/crossentropy": 2.3359429836273193,
	"loss/hidden": 0.9296875,
	"loss/logits": 0.17546769976615906,
	"loss/reg": 0.006194361485540867,
	"step": 37
	},
	{
	"epoch": 0.00475,
	"grad_norm": 3.5138309001922607,
	"grad_norm_var": 0.2080724542279834,
	"learning_rate": 3.8e-05,
	"loss": 1.2044,
	"loss/crossentropy": 2.447890520095825,
	"loss/hidden": 0.96484375,
	"loss/logits": 0.17756858468055725,
	"loss/reg": 0.0061941081658005714,
	"step": 38
	},
	{
	"epoch": 0.004875,
	"grad_norm": 3.813410758972168,
	"grad_norm_var": 0.2698887106917669,
	"learning_rate": 3.9000000000000006e-05,
	"loss": 1.0819,
	"loss/crossentropy": 2.766765832901001,
	"loss/hidden": 0.88671875,
	"loss/logits": 0.13325469195842743,
	"loss/reg": 0.006193886045366526,
	"step": 39
	},
	{
	"epoch": 0.005,
	"grad_norm": 3.1502718925476074,
	"grad_norm_var": 0.2860816910243668,
	"learning_rate": 4e-05,
	"loss": 1.3622,
	"loss/crossentropy": 2.3325388431549072,
	"loss/hidden": 1.109375,
	"loss/logits": 0.19087004661560059,
	"loss/reg": 0.006193609442561865,
	"step": 40
	},
	{
	"epoch": 0.005125,
	"grad_norm": 2.422366142272949,
	"grad_norm_var": 0.28336421674108553,
	"learning_rate": 4.1e-05,
	"loss": 1.2212,
	"loss/crossentropy": 2.3002498149871826,
	"loss/hidden": 0.96875,
	"loss/logits": 0.19054222106933594,
	"loss/reg": 0.00619333703070879,
	"step": 41
	},
	{
	"epoch": 0.00525,
	"grad_norm": 2.7353622913360596,
	"grad_norm_var": 0.2707266796228128,
	"learning_rate": 4.2e-05,
	"loss": 1.0549,
	"loss/crossentropy": 2.0319221019744873,
	"loss/hidden": 0.87890625,
	"loss/logits": 0.1140664741396904,
	"loss/reg": 0.006193041335791349,
	"step": 42
	},
	{
	"epoch": 0.005375,
	"grad_norm": 1.9425387382507324,
	"grad_norm_var": 0.2970857034274398,
	"learning_rate": 4.3e-05,
	"loss": 1.0366,
	"loss/crossentropy": 2.431666374206543,
	"loss/hidden": 0.83203125,
	"loss/logits": 0.1426728069782257,
	"loss/reg": 0.006192733999341726,
	"step": 43
	},
	{
	"epoch": 0.0055,
	"grad_norm": 2.7009642124176025,
	"grad_norm_var": 0.2960522402202514,
	"learning_rate": 4.4000000000000006e-05,
	"loss": 0.9824,
	"loss/crossentropy": 2.391608476638794,
	"loss/hidden": 0.78515625,
	"loss/logits": 0.13533324003219604,
	"loss/reg": 0.006192411296069622,
	"step": 44
	},
	{
	"epoch": 0.005625,
	"grad_norm": 2.6632983684539795,
	"grad_norm_var": 0.2669107471214488,
	"learning_rate": 4.5e-05,
	"loss": 1.1067,
	"loss/crossentropy": 2.7733116149902344,
	"loss/hidden": 0.87109375,
	"loss/logits": 0.1736893653869629,
	"loss/reg": 0.006192059256136417,
	"step": 45
	},
	{
	"epoch": 0.00575,
	"grad_norm": 2.1037468910217285,
	"grad_norm_var": 0.2707032714108967,
	"learning_rate": 4.600000000000001e-05,
	"loss": 0.9831,
	"loss/crossentropy": 2.4606895446777344,
	"loss/hidden": 0.7890625,
	"loss/logits": 0.13213258981704712,
	"loss/reg": 0.006191718857735395,
	"step": 46
	},
	{
	"epoch": 0.005875,
	"grad_norm": 2.1911983489990234,
	"grad_norm_var": 0.28768473978113296,
	"learning_rate": 4.7e-05,
	"loss": 0.9509,
	"loss/crossentropy": 2.6825270652770996,
	"loss/hidden": 0.76953125,
	"loss/logits": 0.11942489445209503,
	"loss/reg": 0.006191306747496128,
	"step": 47
	},
	{
	"epoch": 0.006,
	"grad_norm": 3.2640700340270996,
	"grad_norm_var": 0.30827796768009724,
	"learning_rate": 4.8e-05,
	"loss": 1.0346,
	"loss/crossentropy": 2.3665199279785156,
	"loss/hidden": 0.83203125,
	"loss/logits": 0.14068934321403503,
	"loss/reg": 0.0061909533105790615,
	"step": 48
	},
	{
	"epoch": 0.006125,
	"grad_norm": 2.259894847869873,
	"grad_norm_var": 0.3163475179157634,
	"learning_rate": 4.9e-05,
	"loss": 0.9647,
	"loss/crossentropy": 2.4414587020874023,
	"loss/hidden": 0.79296875,
	"loss/logits": 0.10987477004528046,
	"loss/reg": 0.0061905342154204845,
	"step": 49
	},
	{
	"epoch": 0.00625,
	"grad_norm": 2.7616565227508545,
	"grad_norm_var": 0.28721415330329,
	"learning_rate": 5e-05,
	"loss": 1.019,
	"loss/crossentropy": 2.0829460620880127,
	"loss/hidden": 0.83984375,
	"loss/logits": 0.11724002659320831,
	"loss/reg": 0.0061900559812784195,
	"step": 50
	},
	{
	"epoch": 0.006375,
	"grad_norm": 2.7897861003875732,
	"grad_norm_var": 0.28297568806904866,
	"learning_rate": 5.1000000000000006e-05,
	"loss": 0.853,
	"loss/crossentropy": 2.5636909008026123,
	"loss/hidden": 0.6953125,
	"loss/logits": 0.09577471762895584,
	"loss/reg": 0.00618965458124876,
	"step": 51
	},
	{
	"epoch": 0.0065,
	"grad_norm": 2.3134403228759766,
	"grad_norm_var": 0.2711290924819705,
	"learning_rate": 5.2000000000000004e-05,
	"loss": 1.0497,
	"loss/crossentropy": 2.440258026123047,
	"loss/hidden": 0.83984375,
	"loss/logits": 0.14791719615459442,
	"loss/reg": 0.006189141888171434,
	"step": 52
	},
	{
	"epoch": 0.006625,
	"grad_norm": 2.2032997608184814,
	"grad_norm_var": 0.2855897568404882,
	"learning_rate": 5.300000000000001e-05,
	"loss": 0.9934,
	"loss/crossentropy": 2.4747955799102783,
	"loss/hidden": 0.796875,
	"loss/logits": 0.13461169600486755,
	"loss/reg": 0.006188610102981329,
	"step": 53
	},
	{
	"epoch": 0.00675,
	"grad_norm": 2.267400026321411,
	"grad_norm_var": 0.24358579758792467,
	"learning_rate": 5.4000000000000005e-05,
	"loss": 1.1149,
	"loss/crossentropy": 2.705127477645874,
	"loss/hidden": 0.89453125,
	"loss/logits": 0.1585235595703125,
	"loss/reg": 0.0061880191788077354,
	"step": 54
	},
	{
	"epoch": 0.006875,
	"grad_norm": 2.281036853790283,
	"grad_norm_var": 0.14220569464836952,
	"learning_rate": 5.500000000000001e-05,
	"loss": 0.9642,
	"loss/crossentropy": 2.545010805130005,
	"loss/hidden": 0.78515625,
	"loss/logits": 0.11717304587364197,
	"loss/reg": 0.006187579594552517,
	"step": 55
	},
	{
	"epoch": 0.007,
	"grad_norm": 4.942420959472656,
	"grad_norm_var": 0.4975759650139497,
	"learning_rate": 5.6000000000000006e-05,
	"loss": 1.1237,
	"loss/crossentropy": 2.7698795795440674,
	"loss/hidden": 0.91796875,
	"loss/logits": 0.14385326206684113,
	"loss/reg": 0.006187067367136478,
	"step": 56
	},
	{
	"epoch": 0.007125,
	"grad_norm": 2.4213955402374268,
	"grad_norm_var": 0.4976009733976563,
	"learning_rate": 5.6999999999999996e-05,
	"loss": 1.0386,
	"loss/crossentropy": 2.572023868560791,
	"loss/hidden": 0.84765625,
	"loss/logits": 0.12909512221813202,
	"loss/reg": 0.006186594720929861,
	"step": 57
	},
	{
	"epoch": 0.00725,
	"grad_norm": 2.15891695022583,
	"grad_norm_var": 0.5091253321428854,
	"learning_rate": 5.8e-05,
	"loss": 0.961,
	"loss/crossentropy": 2.283557415008545,
	"loss/hidden": 0.7734375,
	"loss/logits": 0.12568500638008118,
	"loss/reg": 0.006185955833643675,
	"step": 58
	},
	{
	"epoch": 0.007375,
	"grad_norm": 2.36811900138855,
	"grad_norm_var": 0.48432608682591366,
	"learning_rate": 5.9e-05,
	"loss": 0.8386,
	"loss/crossentropy": 2.453810453414917,
	"loss/hidden": 0.6796875,
	"loss/logits": 0.09709502756595612,
	"loss/reg": 0.0061853062361478806,
	"step": 59
	},
	{
	"epoch": 0.0075,
	"grad_norm": 2.591327667236328,
	"grad_norm_var": 0.4836842483889178,
	"learning_rate": 6e-05,
	"loss": 1.033,
	"loss/crossentropy": 2.8110511302948,
	"loss/hidden": 0.81640625,
	"loss/logits": 0.1547423005104065,
	"loss/reg": 0.006184632424265146,
	"step": 60
	},
	{
	"epoch": 0.007625,
	"grad_norm": 2.0103816986083984,
	"grad_norm_var": 0.5047142009615214,
	"learning_rate": 6.1e-05,
	"loss": 0.9296,
	"loss/crossentropy": 2.15134334564209,
	"loss/hidden": 0.7578125,
	"loss/logits": 0.1099701076745987,
	"loss/reg": 0.0061841062270104885,
	"step": 61
	},
	{
	"epoch": 0.00775,
	"grad_norm": 1.80124831199646,
	"grad_norm_var": 0.5287549745746596,
	"learning_rate": 6.2e-05,
	"loss": 0.9266,
	"loss/crossentropy": 2.7054479122161865,
	"loss/hidden": 0.7421875,
	"loss/logits": 0.12253857403993607,
	"loss/reg": 0.0061835781671106815,
	"step": 62
	},
	{
	"epoch": 0.007875,
	"grad_norm": 2.277440309524536,
	"grad_norm_var": 0.5252193383179133,
	"learning_rate": 6.3e-05,
	"loss": 0.914,
	"loss/crossentropy": 2.6631381511688232,
	"loss/hidden": 0.734375,
	"loss/logits": 0.1177992895245552,
	"loss/reg": 0.0061830319464206696,
	"step": 63
	},
	{
	"epoch": 0.008,
	"grad_norm": 3.3314151763916016,
	"grad_norm_var": 0.531964164332922,
	"learning_rate": 6.400000000000001e-05,
	"loss": 1.29,
	"loss/crossentropy": 2.1269633769989014,
	"loss/hidden": 1.0625,
	"loss/logits": 0.16565865278244019,
	"loss/reg": 0.006182366982102394,
	"step": 64
	},
	{
	"epoch": 0.008125,
	"grad_norm": 4.333358287811279,
	"grad_norm_var": 0.7208240839518936,
	"learning_rate": 6.500000000000001e-05,
	"loss": 1.1615,
	"loss/crossentropy": 2.714442491531372,
	"loss/hidden": 0.94140625,
	"loss/logits": 0.15825161337852478,
	"loss/reg": 0.006181675940752029,
	"step": 65
	},
	{
	"epoch": 0.00825,
	"grad_norm": 2.853740930557251,
	"grad_norm_var": 0.7223776199927481,
	"learning_rate": 6.6e-05,
	"loss": 1.062,
	"loss/crossentropy": 2.2147135734558105,
	"loss/hidden": 0.8515625,
	"loss/logits": 0.14859826862812042,
	"loss/reg": 0.006180979777127504,
	"step": 66
	},
	{
	"epoch": 0.008375,
	"grad_norm": 2.8853657245635986,
	"grad_norm_var": 0.7242961395218184,
	"learning_rate": 6.7e-05,
	"loss": 0.9533,
	"loss/crossentropy": 2.619598388671875,
	"loss/hidden": 0.7734375,
	"loss/logits": 0.11804014444351196,
	"loss/reg": 0.006180332973599434,
	"step": 67
	},
	{
	"epoch": 0.0085,
	"grad_norm": 2.725229501724243,
	"grad_norm_var": 0.7142181363616674,
	"learning_rate": 6.800000000000001e-05,
	"loss": 1.1308,
	"loss/crossentropy": 2.4091367721557617,
	"loss/hidden": 0.90234375,
	"loss/logits": 0.16662752628326416,
	"loss/reg": 0.006179714575409889,
	"step": 68
	},
	{
	"epoch": 0.008625,
	"grad_norm": 2.93643856048584,
	"grad_norm_var": 0.6977178730278022,
	"learning_rate": 6.9e-05,
	"loss": 1.1414,
	"loss/crossentropy": 2.509793281555176,
	"loss/hidden": 0.90234375,
	"loss/logits": 0.17730477452278137,
	"loss/reg": 0.0061789220198988914,
	"step": 69
	},
	{
	"epoch": 0.00875,
	"grad_norm": 2.4086973667144775,
	"grad_norm_var": 0.6896555586144653,
	"learning_rate": 7e-05,
	"loss": 0.9852,
	"loss/crossentropy": 2.7080371379852295,
	"loss/hidden": 0.7890625,
	"loss/logits": 0.1343374401330948,
	"loss/reg": 0.0061781019903719425,
	"step": 70
	},
	{
	"epoch": 0.008875,
	"grad_norm": 1.9355547428131104,
	"grad_norm_var": 0.7196579708330165,
	"learning_rate": 7.1e-05,
	"loss": 0.9176,
	"loss/crossentropy": 2.451488494873047,
	"loss/hidden": 0.7421875,
	"loss/logits": 0.11365102231502533,
	"loss/reg": 0.006177456583827734,
	"step": 71
	},
	{
	"epoch": 0.009,
	"grad_norm": 2.273902654647827,
	"grad_norm_var": 0.38422972669649574,
	"learning_rate": 7.2e-05,
	"loss": 1.0112,
	"loss/crossentropy": 2.4479947090148926,
	"loss/hidden": 0.8125,
	"loss/logits": 0.13690924644470215,
	"loss/reg": 0.006176764145493507,
	"step": 72
	},
	{
	"epoch": 0.009125,
	"grad_norm": 3.385849952697754,
	"grad_norm_var": 0.4217084598233742,
	"learning_rate": 7.3e-05,
	"loss": 1.3992,
	"loss/crossentropy": 2.3916804790496826,
	"loss/hidden": 1.1484375,
	"loss/logits": 0.18896484375,
	"loss/reg": 0.006176079623401165,
	"step": 73
	},
	{
	"epoch": 0.00925,
	"grad_norm": 1.893932580947876,
	"grad_norm_var": 0.44317594415441114,
	"learning_rate": 7.4e-05,
	"loss": 0.9357,
	"loss/crossentropy": 2.3809518814086914,
	"loss/hidden": 0.74609375,
	"loss/logits": 0.12787015736103058,
	"loss/reg": 0.00617539556697011,
	"step": 74
	},
	{
	"epoch": 0.009375,
	"grad_norm": 2.431032657623291,
	"grad_norm_var": 0.4412621914582907,
	"learning_rate": 7.500000000000001e-05,
	"loss": 1.0796,
	"loss/crossentropy": 2.5346295833587646,
	"loss/hidden": 0.86328125,
	"loss/logits": 0.1545613557100296,
	"loss/reg": 0.006174764130264521,
	"step": 75
	},
	{
	"epoch": 0.0095,
	"grad_norm": 2.2421321868896484,
	"grad_norm_var": 0.45066905079875685,
	"learning_rate": 7.6e-05,
	"loss": 0.9869,
	"loss/crossentropy": 2.756843090057373,
	"loss/hidden": 0.796875,
	"loss/logits": 0.1282375454902649,
	"loss/reg": 0.006174163427203894,
	"step": 76
	},
	{
	"epoch": 0.009625,
	"grad_norm": 2.7022979259490967,
	"grad_norm_var": 0.4254703741989109,
	"learning_rate": 7.7e-05,
	"loss": 1.2503,
	"loss/crossentropy": 2.0696699619293213,
	"loss/hidden": 1.015625,
	"loss/logits": 0.1729813814163208,
	"loss/reg": 0.006173421163111925,
	"step": 77
	},
	{
	"epoch": 0.00975,
	"grad_norm": 2.501106023788452,
	"grad_norm_var": 0.37677934250983375,
	"learning_rate": 7.800000000000001e-05,
	"loss": 1.0516,
	"loss/crossentropy": 2.629380941390991,
	"loss/hidden": 0.83984375,
	"loss/logits": 0.15003597736358643,
	"loss/reg": 0.006172672379761934,
	"step": 78
	},
	{
	"epoch": 0.009875,
	"grad_norm": 2.137601137161255,
	"grad_norm_var": 0.3857841035513881,
	"learning_rate": 7.900000000000001e-05,
	"loss": 0.9388,
	"loss/crossentropy": 2.6841280460357666,
	"loss/hidden": 0.75,
	"loss/logits": 0.12706515192985535,
	"loss/reg": 0.006171974819153547,
	"step": 79
	},
	{
	"epoch": 0.01,
	"grad_norm": 4.655951976776123,
	"grad_norm_var": 0.6093991769416703,
	"learning_rate": 8e-05,
	"loss": 1.2659,
	"loss/crossentropy": 2.4634439945220947,
	"loss/hidden": 1.0390625,
	"loss/logits": 0.16511483490467072,
	"loss/reg": 0.006171175744384527,
	"step": 80
	},
	{
	"epoch": 0.010125,
	"grad_norm": 2.2418179512023926,
	"grad_norm_var": 0.44652068466097317,
	"learning_rate": 8.1e-05,
	"loss": 1.0773,
	"loss/crossentropy": 2.479743480682373,
	"loss/hidden": 0.87890625,
	"loss/logits": 0.1366729438304901,
	"loss/reg": 0.006170437205582857,
	"step": 81
	},
	{
	"epoch": 0.01025,
	"grad_norm": 2.0470192432403564,
	"grad_norm_var": 0.4640077865797357,
	"learning_rate": 8.2e-05,
	"loss": 0.8599,
	"loss/crossentropy": 2.440803050994873,
	"loss/hidden": 0.68359375,
	"loss/logits": 0.11458206921815872,
	"loss/reg": 0.0061697582714259624,
	"step": 82
	},
	{
	"epoch": 0.010375,
	"grad_norm": 2.0131125450134277,
	"grad_norm_var": 0.47694604476552793,
	"learning_rate": 8.3e-05,
	"loss": 0.8585,
	"loss/crossentropy": 2.480877637863159,
	"loss/hidden": 0.6875,
	"loss/logits": 0.10927767306566238,
	"loss/reg": 0.006169027183204889,
	"step": 83
	},
	{
	"epoch": 0.0105,
	"grad_norm": 2.2644267082214355,
	"grad_norm_var": 0.47842071328175656,
	"learning_rate": 8.4e-05,
	"loss": 0.8351,
	"loss/crossentropy": 2.693246841430664,
	"loss/hidden": 0.67578125,
	"loss/logits": 0.09764716029167175,
	"loss/reg": 0.006168315652757883,
	"step": 84
	},
	{
	"epoch": 0.010625,
	"grad_norm": 3.1729207038879395,
	"grad_norm_var": 0.4955376038232837,
	"learning_rate": 8.5e-05,
	"loss": 1.2314,
	"loss/crossentropy": 2.3339309692382812,
	"loss/hidden": 1.015625,
	"loss/logits": 0.15408015251159668,
	"loss/reg": 0.006167604587972164,
	"step": 85
	},
	{
	"epoch": 0.01075,
	"grad_norm": 2.281872510910034,
	"grad_norm_var": 0.4984116504809473,
	"learning_rate": 8.6e-05,
	"loss": 1.1113,
	"loss/crossentropy": 2.410794258117676,
	"loss/hidden": 0.8828125,
	"loss/logits": 0.16686803102493286,
	"loss/reg": 0.0061669000424444675,
	"step": 86
	},
	{
	"epoch": 0.010875,
	"grad_norm": 2.701244354248047,
	"grad_norm_var": 0.4762769450482454,
	"learning_rate": 8.7e-05,
	"loss": 0.9115,
	"loss/crossentropy": 2.5270962715148926,
	"loss/hidden": 0.73046875,
	"loss/logits": 0.11935658752918243,
	"loss/reg": 0.0061660343781113625,
	"step": 87
	},
	{
	"epoch": 0.011,
	"grad_norm": 2.0738677978515625,
	"grad_norm_var": 0.4863854399313406,
	"learning_rate": 8.800000000000001e-05,
	"loss": 0.9634,
	"loss/crossentropy": 2.625903844833374,
	"loss/hidden": 0.7734375,
	"loss/logits": 0.12826378643512726,
	"loss/reg": 0.006165289785712957,
	"step": 88
	},
	{
	"epoch": 0.011125,
	"grad_norm": 2.827744245529175,
	"grad_norm_var": 0.44340376520124375,
	"learning_rate": 8.900000000000001e-05,
	"loss": 1.0134,
	"loss/crossentropy": 2.2436654567718506,
	"loss/hidden": 0.80078125,
	"loss/logits": 0.15097512304782867,
	"loss/reg": 0.006164397578686476,
	"step": 89
	},
	{
	"epoch": 0.01125,
	"grad_norm": 2.412203788757324,
	"grad_norm_var": 0.4174983019540292,
	"learning_rate": 9e-05,
	"loss": 0.9541,
	"loss/crossentropy": 2.4847052097320557,
	"loss/hidden": 0.78515625,
	"loss/logits": 0.10735376924276352,
	"loss/reg": 0.006163434591144323,
	"step": 90
	},
	{
	"epoch": 0.011375,
	"grad_norm": 2.385309934616089,
	"grad_norm_var": 0.41831854842319344,
	"learning_rate": 9.1e-05,
	"loss": 1.0455,
	"loss/crossentropy": 2.1011688709259033,
	"loss/hidden": 0.828125,
	"loss/logits": 0.15577414631843567,
	"loss/reg": 0.0061626131646335125,
	"step": 91
	},
	{
	"epoch": 0.0115,
	"grad_norm": 2.779266595840454,
	"grad_norm_var": 0.4149256226543306,
	"learning_rate": 9.200000000000001e-05,
	"loss": 0.9782,
	"loss/crossentropy": 2.770954132080078,
	"loss/hidden": 0.78125,
	"loss/logits": 0.13530117273330688,
	"loss/reg": 0.006161784287542105,
	"step": 92
	},
	{
	"epoch": 0.011625,
	"grad_norm": 2.816206216812134,
	"grad_norm_var": 0.41767206123470924,
	"learning_rate": 9.300000000000001e-05,
	"loss": 1.2584,
	"loss/crossentropy": 2.4919488430023193,
	"loss/hidden": 1.0234375,
	"loss/logits": 0.17335021495819092,
	"loss/reg": 0.006160792429000139,
	"step": 93
	},
	{
	"epoch": 0.01175,
	"grad_norm": 2.1000349521636963,
	"grad_norm_var": 0.4320504871954351,
	"learning_rate": 9.4e-05,
	"loss": 0.9293,
	"loss/crossentropy": 2.6951355934143066,
	"loss/hidden": 0.7421875,
	"loss/logits": 0.12551091611385345,
	"loss/reg": 0.006159830838441849,
	"step": 94
	},
	{
	"epoch": 0.011875,
	"grad_norm": 2.6696228981018066,
	"grad_norm_var": 0.4199965621062515,
	"learning_rate": 9.5e-05,
	"loss": 1.0491,
	"loss/crossentropy": 2.6532485485076904,
	"loss/hidden": 0.83984375,
	"loss/logits": 0.14771661162376404,
	"loss/reg": 0.006158801261335611,
	"step": 95
	},
	{
	"epoch": 0.012,
	"grad_norm": 2.308758020401001,
	"grad_norm_var": 0.11782165750081125,
	"learning_rate": 9.6e-05,
	"loss": 1.1178,
	"loss/crossentropy": 2.38185977935791,
	"loss/hidden": 0.90625,
	"loss/logits": 0.1499352604150772,
	"loss/reg": 0.006157839670777321,
	"step": 96
	},
	{
	"epoch": 0.012125,
	"grad_norm": 2.4204304218292236,
	"grad_norm_var": 0.11501335190634426,
	"learning_rate": 9.7e-05,
	"loss": 1.092,
	"loss/crossentropy": 2.4358534812927246,
	"loss/hidden": 0.86328125,
	"loss/logits": 0.16712763905525208,
	"loss/reg": 0.006156752817332745,
	"step": 97
	},
	{
	"epoch": 0.01225,
	"grad_norm": 3.7184524536132812,
	"grad_norm_var": 0.198780236272727,
	"learning_rate": 9.8e-05,
	"loss": 1.4311,
	"loss/crossentropy": 2.1283679008483887,
	"loss/hidden": 1.171875,
	"loss/logits": 0.1976230889558792,
	"loss/reg": 0.006155804730951786,
	"step": 98
	},
	{
	"epoch": 0.012375,
	"grad_norm": 3.2656571865081787,
	"grad_norm_var": 0.20565265002658914,
	"learning_rate": 9.900000000000001e-05,
	"loss": 1.017,
	"loss/crossentropy": 2.6715664863586426,
	"loss/hidden": 0.80078125,
	"loss/logits": 0.15465494990348816,
	"loss/reg": 0.006154791917651892,
	"step": 99
	},
	{
	"epoch": 0.0125,
	"grad_norm": 2.915663719177246,
	"grad_norm_var": 0.19977570339779593,
	"learning_rate": 0.0001,
	"loss": 0.98,
	"loss/crossentropy": 2.5455305576324463,
	"loss/hidden": 0.77734375,
	"loss/logits": 0.1410846710205078,
	"loss/reg": 0.0061536673456430435,
	"step": 100
	},
	{
	"epoch": 0.012625,
	"grad_norm": 3.3153059482574463,
	"grad_norm_var": 0.2104372314148539,
	"learning_rate": 0.0001,
	"loss": 1.1039,
	"loss/crossentropy": 2.455479621887207,
	"loss/hidden": 0.90625,
	"loss/logits": 0.13615351915359497,
	"loss/reg": 0.0061526307836174965,
	"step": 101
	},
	{
	"epoch": 0.01275,
	"grad_norm": 2.40315318107605,
	"grad_norm_var": 0.20480568897691,
	"learning_rate": 0.0001,
	"loss": 0.9588,
	"loss/crossentropy": 2.6359853744506836,
	"loss/hidden": 0.76953125,
	"loss/logits": 0.1277719885110855,
	"loss/reg": 0.006151493173092604,
	"step": 102
	},
	{
	"epoch": 0.012875,
	"grad_norm": 3.625624895095825,
	"grad_norm_var": 0.25903479701245613,
	"learning_rate": 0.0001,
	"loss": 1.2481,
	"loss/crossentropy": 2.0148656368255615,
	"loss/hidden": 1.046875,
	"loss/logits": 0.13969773054122925,
	"loss/reg": 0.006150420755147934,
	"step": 103
	},
	{
	"epoch": 0.013,
	"grad_norm": 2.497906446456909,
	"grad_norm_var": 0.23191354079432358,
	"learning_rate": 0.0001,
	"loss": 1.0603,
	"loss/crossentropy": 2.3493525981903076,
	"loss/hidden": 0.86328125,
	"loss/logits": 0.13548779487609863,
	"loss/reg": 0.006149281747639179,
	"step": 104
	},
	{
	"epoch": 0.013125,
	"grad_norm": 3.258059501647949,
	"grad_norm_var": 0.24629299643454275,
	"learning_rate": 0.0001,
	"loss": 0.9497,
	"loss/crossentropy": 2.6988418102264404,
	"loss/hidden": 0.7734375,
	"loss/logits": 0.11473990976810455,
	"loss/reg": 0.006148339249193668,
	"step": 105
	},
	{
	"epoch": 0.01325,
	"grad_norm": 3.1279666423797607,
	"grad_norm_var": 0.24075672502018505,
	"learning_rate": 0.0001,
	"loss": 1.1195,
	"loss/crossentropy": 2.578716278076172,
	"loss/hidden": 0.875,
	"loss/logits": 0.18304204940795898,
	"loss/reg": 0.006147205363959074,
	"step": 106
	},
	{
	"epoch": 0.013375,
	"grad_norm": 2.760901927947998,
	"grad_norm_var": 0.22627915570051277,
	"learning_rate": 0.0001,
	"loss": 0.9369,
	"loss/crossentropy": 2.5835328102111816,
	"loss/hidden": 0.75,
	"loss/logits": 0.12544697523117065,
	"loss/reg": 0.006146106868982315,
	"step": 107
	},
	{
	"epoch": 0.0135,
	"grad_norm": 3.2917559146881104,
	"grad_norm_var": 0.23622539643692994,
	"learning_rate": 0.0001,
	"loss": 1.1437,
	"loss/crossentropy": 2.6001460552215576,
	"loss/hidden": 0.91796875,
	"loss/logits": 0.16428819298744202,
	"loss/reg": 0.006144997663795948,
	"step": 108
	},
	{
	"epoch": 0.013625,
	"grad_norm": 3.3908517360687256,
	"grad_norm_var": 0.2499864352593607,
	"learning_rate": 0.0001,
	"loss": 1.0747,
	"loss/crossentropy": 2.6003377437591553,
	"loss/hidden": 0.87109375,
	"loss/logits": 0.14213082194328308,
	"loss/reg": 0.00614393362775445,
	"step": 109
	},
	{
	"epoch": 0.01375,
	"grad_norm": 2.7455620765686035,
	"grad_norm_var": 0.2035723185991922,
	"learning_rate": 0.0001,
	"loss": 1.1844,
	"loss/crossentropy": 2.446432113647461,
	"loss/hidden": 0.94921875,
	"loss/logits": 0.17372827231884003,
	"loss/reg": 0.00614282488822937,
	"step": 110
	},
	{
	"epoch": 0.013875,
	"grad_norm": 2.899392604827881,
	"grad_norm_var": 0.1972949454934593,
	"learning_rate": 0.0001,
	"loss": 1.0314,
	"loss/crossentropy": 2.4233920574188232,
	"loss/hidden": 0.83984375,
	"loss/logits": 0.13018067181110382,
	"loss/reg": 0.00614172825589776,
	"step": 111
	},
	{
	"epoch": 0.014,
	"grad_norm": 2.204866647720337,
	"grad_norm_var": 0.20749751086427656,
	"learning_rate": 0.0001,
	"loss": 0.9867,
	"loss/crossentropy": 2.4006736278533936,
	"loss/hidden": 0.79296875,
	"loss/logits": 0.13233302533626556,
	"loss/reg": 0.006140332669019699,
	"step": 112
	},
	{
	"epoch": 0.014125,
	"grad_norm": 2.5094263553619385,
	"grad_norm_var": 0.20123279411857975,
	"learning_rate": 0.0001,
	"loss": 1.2429,
	"loss/crossentropy": 2.2730560302734375,
	"loss/hidden": 1.0078125,
	"loss/logits": 0.1737476885318756,
	"loss/reg": 0.006138913799077272,
	"step": 113
	},
	{
	"epoch": 0.01425,
	"grad_norm": 2.590543031692505,
	"grad_norm_var": 0.17204464736018749,
	"learning_rate": 0.0001,
	"loss": 1.0086,
	"loss/crossentropy": 2.5709896087646484,
	"loss/hidden": 0.79296875,
	"loss/logits": 0.1542350947856903,
	"loss/reg": 0.0061377594247460365,
	"step": 114
	},
	{
	"epoch": 0.014375,
	"grad_norm": 2.5024876594543457,
	"grad_norm_var": 0.17379926494707643,
	"learning_rate": 0.0001,
	"loss": 1.0309,
	"loss/crossentropy": 2.539165496826172,
	"loss/hidden": 0.828125,
	"loss/logits": 0.14142319560050964,
	"loss/reg": 0.006136584095656872,
	"step": 115
	},
	{
	"epoch": 0.0145,
	"grad_norm": 3.2216732501983643,
	"grad_norm_var": 0.18121036366206128,
	"learning_rate": 0.0001,
	"loss": 0.9404,
	"loss/crossentropy": 2.7685325145721436,
	"loss/hidden": 0.765625,
	"loss/logits": 0.1133967787027359,
	"loss/reg": 0.006135319825261831,
	"step": 116
	},
	{
	"epoch": 0.014625,
	"grad_norm": 2.3834009170532227,
	"grad_norm_var": 0.18346146088524526,
	"learning_rate": 0.0001,
	"loss": 1.1432,
	"loss/crossentropy": 2.4507999420166016,
	"loss/hidden": 0.92578125,
	"loss/logits": 0.1561031937599182,
	"loss/reg": 0.006133983377367258,
	"step": 117
	},
	{
	"epoch": 0.01475,
	"grad_norm": 2.4703636169433594,
	"grad_norm_var": 0.17984383474256424,
	"learning_rate": 0.0001,
	"loss": 1.0541,
	"loss/crossentropy": 2.3506076335906982,
	"loss/hidden": 0.84765625,
	"loss/logits": 0.14511807262897491,
	"loss/reg": 0.006132753100246191,
	"step": 118
	},
	{
	"epoch": 0.014875,
	"grad_norm": 2.5960817337036133,
	"grad_norm_var": 0.13859654880591943,
	"learning_rate": 0.0001,
	"loss": 1.2156,
	"loss/crossentropy": 2.427006244659424,
	"loss/hidden": 0.96875,
	"loss/logits": 0.1855170726776123,
	"loss/reg": 0.006131566129624844,
	"step": 119
	},
	{
	"epoch": 0.015,
	"grad_norm": 2.908734083175659,
	"grad_norm_var": 0.13379147574996655,
	"learning_rate": 0.0001,
	"loss": 1.0136,
	"loss/crossentropy": 2.4075210094451904,
	"loss/hidden": 0.81640625,
	"loss/logits": 0.13592825829982758,
	"loss/reg": 0.006130332592874765,
	"step": 120
	},
	{
	"epoch": 0.015125,
	"grad_norm": 3.450002670288086,
	"grad_norm_var": 0.147717685364636,
	"learning_rate": 0.0001,
	"loss": 1.1584,
	"loss/crossentropy": 2.446925640106201,
	"loss/hidden": 0.92578125,
	"loss/logits": 0.17129938304424286,
	"loss/reg": 0.0061291721649467945,
	"step": 121
	},
	{
	"epoch": 0.01525,
	"grad_norm": 2.941195011138916,
	"grad_norm_var": 0.14212594790061886,
	"learning_rate": 0.0001,
	"loss": 1.0996,
	"loss/crossentropy": 2.5499086380004883,
	"loss/hidden": 0.87109375,
	"loss/logits": 0.1672220528125763,
	"loss/reg": 0.006127914879471064,
	"step": 122
	},
	{
	"epoch": 0.015375,
	"grad_norm": 2.951799154281616,
	"grad_norm_var": 0.14330143067309015,
	"learning_rate": 0.0001,
	"loss": 1.0862,
	"loss/crossentropy": 2.654383420944214,
	"loss/hidden": 0.87109375,
	"loss/logits": 0.15379250049591064,
	"loss/reg": 0.006126696243882179,
	"step": 123
	},
	{
	"epoch": 0.0155,
	"grad_norm": 2.5093131065368652,
	"grad_norm_var": 0.13194533540905293,
	"learning_rate": 0.0001,
	"loss": 1.0905,
	"loss/crossentropy": 2.4646618366241455,
	"loss/hidden": 0.87890625,
	"loss/logits": 0.15029752254486084,
	"loss/reg": 0.006125394720584154,
	"step": 124
	},
	{
	"epoch": 0.015625,
	"grad_norm": 2.357142448425293,
	"grad_norm_var": 0.11277765633995311,
	"learning_rate": 0.0001,
	"loss": 1.0794,
	"loss/crossentropy": 2.4590322971343994,
	"loss/hidden": 0.87109375,
	"loss/logits": 0.1471107453107834,
	"loss/reg": 0.0061240773648023605,
	"step": 125
	},
	{
	"epoch": 0.01575,
	"grad_norm": 2.0443954467773438,
	"grad_norm_var": 0.13949059079901172,
	"learning_rate": 0.0001,
	"loss": 1.0064,
	"loss/crossentropy": 2.6105568408966064,
	"loss/hidden": 0.80859375,
	"loss/logits": 0.13658249378204346,
	"loss/reg": 0.006122750695794821,
	"step": 126
	},
	{
	"epoch": 0.015875,
	"grad_norm": 2.334003448486328,
	"grad_norm_var": 0.1413326038540049,
	"learning_rate": 0.0001,
	"loss": 1.128,
	"loss/crossentropy": 2.3226428031921387,
	"loss/hidden": 0.8984375,
	"loss/logits": 0.16836631298065186,
	"loss/reg": 0.006121381651610136,
	"step": 127
	},
	{
	"epoch": 0.016,
	"grad_norm": 2.6693766117095947,
	"grad_norm_var": 0.12889249481462456,
	"learning_rate": 0.0001,
	"loss": 1.0478,
	"loss/crossentropy": 2.5844597816467285,
	"loss/hidden": 0.84765625,
	"loss/logits": 0.1388963758945465,
	"loss/reg": 0.006120136007666588,
	"step": 128
	},
	{
	"epoch": 0.016125,
	"grad_norm": 3.935439348220825,
	"grad_norm_var": 0.22878447427120438,
	"learning_rate": 0.0001,
	"loss": 1.1726,
	"loss/crossentropy": 2.7213780879974365,
	"loss/hidden": 0.9375,
	"loss/logits": 0.1738772690296173,
	"loss/reg": 0.006118897348642349,
	"step": 129
	},
	{
	"epoch": 0.01625,
	"grad_norm": 3.463432788848877,
	"grad_norm_var": 0.25882213944617144,
	"learning_rate": 0.0001,
	"loss": 1.0898,
	"loss/crossentropy": 2.3635873794555664,
	"loss/hidden": 0.8828125,
	"loss/logits": 0.1457763910293579,
	"loss/reg": 0.006117486394941807,
	"step": 130
	},
	{
	"epoch": 0.016375,
	"grad_norm": 3.779526948928833,
	"grad_norm_var": 0.31074183113488135,
	"learning_rate": 0.0001,
	"loss": 1.2078,
	"loss/crossentropy": 2.316762924194336,
	"loss/hidden": 0.98046875,
	"loss/logits": 0.16614478826522827,
	"loss/reg": 0.006116243079304695,
	"step": 131
	},
	{
	"epoch": 0.0165,
	"grad_norm": 2.7554008960723877,
	"grad_norm_var": 0.3028391023812749,
	"learning_rate": 0.0001,
	"loss": 0.9769,
	"loss/crossentropy": 2.458954095840454,
	"loss/hidden": 0.7890625,
	"loss/logits": 0.12667913734912872,
	"loss/reg": 0.006114880088716745,
	"step": 132
	},
	{
	"epoch": 0.016625,
	"grad_norm": 2.342526435852051,
	"grad_norm_var": 0.30546929082944035,
	"learning_rate": 0.0001,
	"loss": 1.1137,
	"loss/crossentropy": 2.6329517364501953,
	"loss/hidden": 0.890625,
	"loss/logits": 0.161947563290596,
	"loss/reg": 0.0061136274598538876,
	"step": 133
	},
	{
	"epoch": 0.01675,
	"grad_norm": 2.2754058837890625,
	"grad_norm_var": 0.31756495416411024,
	"learning_rate": 0.0001,
	"loss": 1.1703,
	"loss/crossentropy": 2.2747550010681152,
	"loss/hidden": 0.94921875,
	"loss/logits": 0.15994513034820557,
	"loss/reg": 0.006112351547926664,
	"step": 134
	},
	{
	"epoch": 0.016875,
	"grad_norm": 3.1313912868499756,
	"grad_norm_var": 0.3186282278045513,
	"learning_rate": 0.0001,
	"loss": 1.2333,
	"loss/crossentropy": 2.4932894706726074,
	"loss/hidden": 0.99609375,
	"loss/logits": 0.17612434923648834,
	"loss/reg": 0.006111042574048042,
	"step": 135
	},
	{
	"epoch": 0.017,
	"grad_norm": 3.960482358932495,
	"grad_norm_var": 0.39381746513703864,
	"learning_rate": 0.0001,
	"loss": 1.3101,
	"loss/crossentropy": 2.581660747528076,
	"loss/hidden": 1.0625,
	"loss/logits": 0.18646802008152008,
	"loss/reg": 0.006109676789492369,
	"step": 136
	},
	{
	"epoch": 0.017125,
	"grad_norm": 2.7605810165405273,
	"grad_norm_var": 0.37584340109069647,
	"learning_rate": 0.0001,
	"loss": 0.8792,
	"loss/crossentropy": 2.6490936279296875,
	"loss/hidden": 0.703125,
	"loss/logits": 0.1150316372513771,
	"loss/reg": 0.006108277477324009,
	"step": 137
	},
	{
	"epoch": 0.01725,
	"grad_norm": 2.6196203231811523,
	"grad_norm_var": 0.38003486499210315,
	"learning_rate": 0.0001,
	"loss": 0.955,
	"loss/crossentropy": 2.633441209793091,
	"loss/hidden": 0.76953125,
	"loss/logits": 0.1244344562292099,
	"loss/reg": 0.006106934975832701,
	"step": 138
	},
	{
	"epoch": 0.017375,
	"grad_norm": 4.534512519836426,
	"grad_norm_var": 0.554255985026353,
	"learning_rate": 0.0001,
	"loss": 1.4104,
	"loss/crossentropy": 2.2204151153564453,
	"loss/hidden": 1.1796875,
	"loss/logits": 0.1696874350309372,
	"loss/reg": 0.0061056241393089294,
	"step": 139
	},
	{
	"epoch": 0.0175,
	"grad_norm": 2.192370653152466,
	"grad_norm_var": 0.5798771099829023,
	"learning_rate": 0.0001,
	"loss": 1.1299,
	"loss/crossentropy": 2.375506639480591,
	"loss/hidden": 0.921875,
	"loss/logits": 0.14694982767105103,
	"loss/reg": 0.0061043244786560535,
	"step": 140
	},
	{
	"epoch": 0.017625,
	"grad_norm": 4.368403911590576,
	"grad_norm_var": 0.6744588881998081,
	"learning_rate": 0.0001,
	"loss": 1.278,
	"loss/crossentropy": 2.3692545890808105,
	"loss/hidden": 1.03125,
	"loss/logits": 0.18568292260169983,
	"loss/reg": 0.006102937273681164,
	"step": 141
	},
	{
	"epoch": 0.01775,
	"grad_norm": 2.2753779888153076,
	"grad_norm_var": 0.6461169960118004,
	"learning_rate": 0.0001,
	"loss": 1.0276,
	"loss/crossentropy": 2.470676898956299,
	"loss/hidden": 0.82421875,
	"loss/logits": 0.14231771230697632,
	"loss/reg": 0.006101653911173344,
	"step": 142
	},
	{
	"epoch": 0.017875,
	"grad_norm": 2.6550562381744385,
	"grad_norm_var": 0.6203099666067883,
	"learning_rate": 0.0001,
	"loss": 0.8712,
	"loss/crossentropy": 2.8198063373565674,
	"loss/hidden": 0.69921875,
	"loss/logits": 0.11099085956811905,
	"loss/reg": 0.006100376136600971,
	"step": 143
	},
	{
	"epoch": 0.018,
	"grad_norm": 2.8701858520507812,
	"grad_norm_var": 0.6111015072729884,
	"learning_rate": 0.0001,
	"loss": 1.1794,
	"loss/crossentropy": 2.413463830947876,
	"loss/hidden": 0.96484375,
	"loss/logits": 0.15351834893226624,
	"loss/reg": 0.006099053658545017,
	"step": 144
	},
	{
	"epoch": 0.018125,
	"grad_norm": 2.2347958087921143,
	"grad_norm_var": 0.6069563505613275,
	"learning_rate": 0.0001,
	"loss": 1.0832,
	"loss/crossentropy": 2.446056604385376,
	"loss/hidden": 0.8671875,
	"loss/logits": 0.1550455242395401,
	"loss/reg": 0.006097796373069286,
	"step": 145
	},
	{
	"epoch": 0.01825,
	"grad_norm": 2.60143780708313,
	"grad_norm_var": 0.6017061449507364,
	"learning_rate": 0.0001,
	"loss": 1.1216,
	"loss/crossentropy": 2.2890260219573975,
	"loss/hidden": 0.8984375,
	"loss/logits": 0.16223573684692383,
	"loss/reg": 0.006096460856497288,
	"step": 146
	},
	{
	"epoch": 0.018375,
	"grad_norm": 3.656100273132324,
	"grad_norm_var": 0.5891684064627459,
	"learning_rate": 0.0001,
	"loss": 1.2759,
	"loss/crossentropy": 2.2077646255493164,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.16024138033390045,
	"loss/reg": 0.006095105782151222,
	"step": 147
	},
	{
	"epoch": 0.0185,
	"grad_norm": 2.8190999031066895,
	"grad_norm_var": 0.5877513730221795,
	"learning_rate": 0.0001,
	"loss": 1.1416,
	"loss/crossentropy": 2.4892842769622803,
	"loss/hidden": 0.9140625,
	"loss/logits": 0.1665700376033783,
	"loss/reg": 0.0060938019305467606,
	"step": 148
	},
	{
	"epoch": 0.018625,
	"grad_norm": 2.6578848361968994,
	"grad_norm_var": 0.568168306773175,
	"learning_rate": 0.0001,
	"loss": 1.1443,
	"loss/crossentropy": 2.3138527870178223,
	"loss/hidden": 0.93359375,
	"loss/logits": 0.14977282285690308,
	"loss/reg": 0.006092346739023924,
	"step": 149
	},
	{
	"epoch": 0.01875,
	"grad_norm": 2.656559944152832,
	"grad_norm_var": 0.5416540961853636,
	"learning_rate": 0.0001,
	"loss": 0.9868,
	"loss/crossentropy": 2.7701377868652344,
	"loss/hidden": 0.796875,
	"loss/logits": 0.12901648879051208,
	"loss/reg": 0.006090943701565266,
	"step": 150
	},
	{
	"epoch": 0.018875,
	"grad_norm": 1.9359983205795288,
	"grad_norm_var": 0.6099613145708634,
	"learning_rate": 0.0001,
	"loss": 0.9127,
	"loss/crossentropy": 2.55560040473938,
	"loss/hidden": 0.73828125,
	"loss/logits": 0.11351295560598373,
	"loss/reg": 0.00608965614810586,
	"step": 151
	},
	{
	"epoch": 0.019,
	"grad_norm": 3.7978732585906982,
	"grad_norm_var": 0.5891613317586338,
	"learning_rate": 0.0001,
	"loss": 1.2275,
	"loss/crossentropy": 2.4227731227874756,
	"loss/hidden": 0.98828125,
	"loss/logits": 0.17836451530456543,
	"loss/reg": 0.006088252179324627,
	"step": 152
	},
	{
	"epoch": 0.019125,
	"grad_norm": 2.8193647861480713,
	"grad_norm_var": 0.588169020521083,
	"learning_rate": 0.0001,
	"loss": 0.9739,
	"loss/crossentropy": 2.474368095397949,
	"loss/hidden": 0.80078125,
	"loss/logits": 0.11225409805774689,
	"loss/reg": 0.006086937617510557,
	"step": 153
	},
	{
	"epoch": 0.01925,
	"grad_norm": 2.2882325649261475,
	"grad_norm_var": 0.6082348956957436,
	"learning_rate": 0.0001,
	"loss": 1.0395,
	"loss/crossentropy": 2.3776350021362305,
	"loss/hidden": 0.82421875,
	"loss/logits": 0.15443992614746094,
	"loss/reg": 0.0060854703187942505,
	"step": 154
	},
	{
	"epoch": 0.019375,
	"grad_norm": 2.006150245666504,
	"grad_norm_var": 0.4559805309993303,
	"learning_rate": 0.0001,
	"loss": 0.9762,
	"loss/crossentropy": 2.7556076049804688,
	"loss/hidden": 0.78515625,
	"loss/logits": 0.13019207119941711,
	"loss/reg": 0.006084186024963856,
	"step": 155
	},
	{
	"epoch": 0.0195,
	"grad_norm": 2.8143231868743896,
	"grad_norm_var": 0.43477030174237014,
	"learning_rate": 0.0001,
	"loss": 1.1927,
	"loss/crossentropy": 2.652045249938965,
	"loss/hidden": 0.94140625,
	"loss/logits": 0.19042611122131348,
	"loss/reg": 0.00608274107798934,
	"step": 156
	},
	{
	"epoch": 0.019625,
	"grad_norm": 2.957540988922119,
	"grad_norm_var": 0.2601037584282233,
	"learning_rate": 0.0001,
	"loss": 1.0641,
	"loss/crossentropy": 2.546213150024414,
	"loss/hidden": 0.86328125,
	"loss/logits": 0.14000022411346436,
	"loss/reg": 0.006081291940063238,
	"step": 157
	},
	{
	"epoch": 0.01975,
	"grad_norm": 2.625493288040161,
	"grad_norm_var": 0.24839219907499052,
	"learning_rate": 0.0001,
	"loss": 1.012,
	"loss/crossentropy": 2.5120432376861572,
	"loss/hidden": 0.81640625,
	"loss/logits": 0.13474689424037933,
	"loss/reg": 0.006079958751797676,
	"step": 158
	},
	{
	"epoch": 0.019875,
	"grad_norm": 2.6614878177642822,
	"grad_norm_var": 0.2483457330217589,
	"learning_rate": 0.0001,
	"loss": 0.9873,
	"loss/crossentropy": 2.312061071395874,
	"loss/hidden": 0.80859375,
	"loss/logits": 0.11790065467357635,
	"loss/reg": 0.006078665144741535,
	"step": 159
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.6204919815063477,
	"grad_norm_var": 0.24699792562249925,
	"learning_rate": 0.0001,
	"loss": 1.0488,
	"loss/crossentropy": 2.505072593688965,
	"loss/hidden": 0.84375,
	"loss/logits": 0.14428117871284485,
	"loss/reg": 0.006077310536056757,
	"step": 160
	},
	{
	"epoch": 0.020125,
	"grad_norm": 3.107072591781616,
	"grad_norm_var": 0.24079003208151678,
	"learning_rate": 0.0001,
	"loss": 1.1736,
	"loss/crossentropy": 2.6514599323272705,
	"loss/hidden": 0.96484375,
	"loss/logits": 0.1480400413274765,
	"loss/reg": 0.006076075602322817,
	"step": 161
	},
	{
	"epoch": 0.02025,
	"grad_norm": 2.669001817703247,
	"grad_norm_var": 0.23972287159530806,
	"learning_rate": 0.0001,
	"loss": 1.1966,
	"loss/crossentropy": 2.4616479873657227,
	"loss/hidden": 0.9765625,
	"loss/logits": 0.15933012962341309,
	"loss/reg": 0.006074720993638039,
	"step": 162
	},
	{
	"epoch": 0.020375,
	"grad_norm": 2.5872421264648438,
	"grad_norm_var": 0.1828196031273113,
	"learning_rate": 0.0001,
	"loss": 1.0551,
	"loss/crossentropy": 2.5483999252319336,
	"loss/hidden": 0.83984375,
	"loss/logits": 0.1544739305973053,
	"loss/reg": 0.006073469761759043,
	"step": 163
	},
	{
	"epoch": 0.0205,
	"grad_norm": 2.3342509269714355,
	"grad_norm_var": 0.1891007671877621,
	"learning_rate": 0.0001,
	"loss": 1.1418,
	"loss/crossentropy": 2.610344171524048,
	"loss/hidden": 0.90234375,
	"loss/logits": 0.17876723408699036,
	"loss/reg": 0.006072178483009338,
	"step": 164
	},
	{
	"epoch": 0.020625,
	"grad_norm": 2.548274278640747,
	"grad_norm_var": 0.18986337395058156,
	"learning_rate": 0.0001,
	"loss": 0.9512,
	"loss/crossentropy": 2.747725009918213,
	"loss/hidden": 0.7734375,
	"loss/logits": 0.11706214398145676,
	"loss/reg": 0.00607073912397027,
	"step": 165
	},
	{
	"epoch": 0.02075,
	"grad_norm": 2.666066884994507,
	"grad_norm_var": 0.18987501227134793,
	"learning_rate": 0.0001,
	"loss": 1.0557,
	"loss/crossentropy": 2.3086578845977783,
	"loss/hidden": 0.83984375,
	"loss/logits": 0.1551416665315628,
	"loss/reg": 0.006069260183721781,
	"step": 166
	},
	{
	"epoch": 0.020875,
	"grad_norm": 3.363084554672241,
	"grad_norm_var": 0.18083982986582872,
	"learning_rate": 0.0001,
	"loss": 0.9886,
	"loss/crossentropy": 2.7422661781311035,
	"loss/hidden": 0.79296875,
	"loss/logits": 0.13497118651866913,
	"loss/reg": 0.006067754700779915,
	"step": 167
	},
	{
	"epoch": 0.021,
	"grad_norm": 2.717400550842285,
	"grad_norm_var": 0.10163689874761227,
	"learning_rate": 0.0001,
	"loss": 1.2413,
	"loss/crossentropy": 2.341296672821045,
	"loss/hidden": 1.0078125,
	"loss/logits": 0.17277640104293823,
	"loss/reg": 0.006066245958209038,
	"step": 168
	},
	{
	"epoch": 0.021125,
	"grad_norm": 2.2773897647857666,
	"grad_norm_var": 0.10949759007257095,
	"learning_rate": 0.0001,
	"loss": 0.9531,
	"loss/crossentropy": 2.492532968521118,
	"loss/hidden": 0.76953125,
	"loss/logits": 0.12295819818973541,
	"loss/reg": 0.006064848508685827,
	"step": 169
	},
	{
	"epoch": 0.02125,
	"grad_norm": 2.7625067234039307,
	"grad_norm_var": 0.1012976809853086,
	"learning_rate": 0.0001,
	"loss": 1.0102,
	"loss/crossentropy": 2.3799381256103516,
	"loss/hidden": 0.80859375,
	"loss/logits": 0.140989288687706,
	"loss/reg": 0.0060633583925664425,
	"step": 170
	},
	{
	"epoch": 0.021375,
	"grad_norm": 3.713162899017334,
	"grad_norm_var": 0.1323542313667114,
	"learning_rate": 0.0001,
	"loss": 1.0173,
	"loss/crossentropy": 2.7296385765075684,
	"loss/hidden": 0.80078125,
	"loss/logits": 0.1559314727783203,
	"loss/reg": 0.006062004715204239,
	"step": 171
	},
	{
	"epoch": 0.0215,
	"grad_norm": 2.8448026180267334,
	"grad_norm_var": 0.13256580340874963,
	"learning_rate": 0.0001,
	"loss": 1.0945,
	"loss/crossentropy": 2.211848497390747,
	"loss/hidden": 0.87890625,
	"loss/logits": 0.15503031015396118,
	"loss/reg": 0.006060663145035505,
	"step": 172
	},
	{
	"epoch": 0.021625,
	"grad_norm": 2.951566696166992,
	"grad_norm_var": 0.13242537871232402,
	"learning_rate": 0.0001,
	"loss": 1.243,
	"loss/crossentropy": 2.6379833221435547,
	"loss/hidden": 0.96484375,
	"loss/logits": 0.21754613518714905,
	"loss/reg": 0.00605935649946332,
	"step": 173
	},
	{
	"epoch": 0.02175,
	"grad_norm": 2.6862404346466064,
	"grad_norm_var": 0.13142011502921586,
	"learning_rate": 0.0001,
	"loss": 1.0053,
	"loss/crossentropy": 2.3807766437530518,
	"loss/hidden": 0.80078125,
	"loss/logits": 0.14393460750579834,
	"loss/reg": 0.006058130878955126,
	"step": 174
	},
	{
	"epoch": 0.021875,
	"grad_norm": 2.5145609378814697,
	"grad_norm_var": 0.13512780159794507,
	"learning_rate": 0.0001,
	"loss": 1.0609,
	"loss/crossentropy": 2.4608380794525146,
	"loss/hidden": 0.85546875,
	"loss/logits": 0.14485566318035126,
	"loss/reg": 0.006056922487914562,
	"step": 175
	},
	{
	"epoch": 0.022,
	"grad_norm": 3.23178768157959,
	"grad_norm_var": 0.14607750168249728,
	"learning_rate": 0.0001,
	"loss": 1.1294,
	"loss/crossentropy": 2.9791719913482666,
	"loss/hidden": 0.91796875,
	"loss/logits": 0.1508345603942871,
	"loss/reg": 0.006055623292922974,
	"step": 176
	},
	{
	"epoch": 0.022125,
	"grad_norm": 2.7397234439849854,
	"grad_norm_var": 0.14000512423072375,
	"learning_rate": 0.0001,
	"loss": 1.0578,
	"loss/crossentropy": 2.4559919834136963,
	"loss/hidden": 0.86328125,
	"loss/logits": 0.1340080350637436,
	"loss/reg": 0.0060544307343661785,
	"step": 177
	},
	{
	"epoch": 0.02225,
	"grad_norm": 2.6637048721313477,
	"grad_norm_var": 0.14009088002925954,
	"learning_rate": 0.0001,
	"loss": 1.076,
	"loss/crossentropy": 2.3794586658477783,
	"loss/hidden": 0.86328125,
	"loss/logits": 0.15214313566684723,
	"loss/reg": 0.0060530174523591995,
	"step": 178
	},
	{
	"epoch": 0.022375,
	"grad_norm": 2.0105221271514893,
	"grad_norm_var": 0.17628626628935157,
	"learning_rate": 0.0001,
	"loss": 0.9703,
	"loss/crossentropy": 2.3926336765289307,
	"loss/hidden": 0.77734375,
	"loss/logits": 0.13244566321372986,
	"loss/reg": 0.0060517978854477406,
	"step": 179
	},
	{
	"epoch": 0.0225,
	"grad_norm": 2.571902275085449,
	"grad_norm_var": 0.16659277386996318,
	"learning_rate": 0.0001,
	"loss": 1.0739,
	"loss/crossentropy": 2.7502923011779785,
	"loss/hidden": 0.8515625,
	"loss/logits": 0.16181406378746033,
	"loss/reg": 0.006050686351954937,
	"step": 180
	},
	{
	"epoch": 0.022625,
	"grad_norm": 2.700366973876953,
	"grad_norm_var": 0.1636147823311904,
	"learning_rate": 0.0001,
	"loss": 1.0113,
	"loss/crossentropy": 2.502389669418335,
	"loss/hidden": 0.8125,
	"loss/logits": 0.138347327709198,
	"loss/reg": 0.006049246061593294,
	"step": 181
	},
	{
	"epoch": 0.02275,
	"grad_norm": 2.7259435653686523,
	"grad_norm_var": 0.1629618050893432,
	"learning_rate": 0.0001,
	"loss": 1.0192,
	"loss/crossentropy": 2.2493560314178467,
	"loss/hidden": 0.82421875,
	"loss/logits": 0.1344609260559082,
	"loss/reg": 0.006048021838068962,
	"step": 182
	},
	{
	"epoch": 0.022875,
	"grad_norm": 4.930091857910156,
	"grad_norm_var": 0.43832731745023895,
	"learning_rate": 0.0001,
	"loss": 1.1874,
	"loss/crossentropy": 2.649231433868408,
	"loss/hidden": 0.94140625,
	"loss/logits": 0.1855432242155075,
	"loss/reg": 0.006046844646334648,
	"step": 183
	},
	{
	"epoch": 0.023,
	"grad_norm": 2.288604259490967,
	"grad_norm_var": 0.4589782783160859,
	"learning_rate": 0.0001,
	"loss": 1.0354,
	"loss/crossentropy": 3.0482568740844727,
	"loss/hidden": 0.8203125,
	"loss/logits": 0.15461647510528564,
	"loss/reg": 0.006045445334166288,
	"step": 184
	},
	{
	"epoch": 0.023125,
	"grad_norm": 2.7902991771698,
	"grad_norm_var": 0.4362058684835667,
	"learning_rate": 0.0001,
	"loss": 1.0744,
	"loss/crossentropy": 2.726069211959839,
	"loss/hidden": 0.8359375,
	"loss/logits": 0.17799492180347443,
	"loss/reg": 0.006044231820851564,
	"step": 185
	},
	{
	"epoch": 0.02325,
	"grad_norm": 3.597017526626587,
	"grad_norm_var": 0.46633972017124825,
	"learning_rate": 0.0001,
	"loss": 1.0985,
	"loss/crossentropy": 2.200692892074585,
	"loss/hidden": 0.8984375,
	"loss/logits": 0.13961729407310486,
	"loss/reg": 0.006042772904038429,
	"step": 186
	},
	{
	"epoch": 0.023375,
	"grad_norm": 2.969062566757202,
	"grad_norm_var": 0.42374272593361867,
	"learning_rate": 0.0001,
	"loss": 1.2314,
	"loss/crossentropy": 2.3744540214538574,
	"loss/hidden": 0.96875,
	"loss/logits": 0.20225511491298676,
	"loss/reg": 0.006041594315320253,
	"step": 187
	},
	{
	"epoch": 0.0235,
	"grad_norm": 3.2257020473480225,
	"grad_norm_var": 0.4305906329857976,
	"learning_rate": 0.0001,
	"loss": 1.0982,
	"loss/crossentropy": 2.442505121231079,
	"loss/hidden": 0.875,
	"loss/logits": 0.16284233331680298,
	"loss/reg": 0.006040407810360193,
	"step": 188
	},
	{
	"epoch": 0.023625,
	"grad_norm": 3.670443058013916,
	"grad_norm_var": 0.4666515285365591,
	"learning_rate": 0.0001,
	"loss": 1.2391,
	"loss/crossentropy": 2.533158540725708,
	"loss/hidden": 0.98046875,
	"loss/logits": 0.19827201962471008,
	"loss/reg": 0.0060392809100449085,
	"step": 189
	},
	{
	"epoch": 0.02375,
	"grad_norm": 7.53206729888916,
	"grad_norm_var": 1.7591779439754056,
	"learning_rate": 0.0001,
	"loss": 1.1689,
	"loss/crossentropy": 2.3104734420776367,
	"loss/hidden": 0.96875,
	"loss/logits": 0.13976144790649414,
	"loss/reg": 0.006038178689777851,
	"step": 190
	},
	{
	"epoch": 0.023875,
	"grad_norm": 4.658889293670654,
	"grad_norm_var": 1.833400975261701,
	"learning_rate": 0.0001,
	"loss": 1.3266,
	"loss/crossentropy": 2.286229133605957,
	"loss/hidden": 1.1015625,
	"loss/logits": 0.16465552151203156,
	"loss/reg": 0.006036726757884026,
	"step": 191
	},
	{
	"epoch": 0.024,
	"grad_norm": 3.2109904289245605,
	"grad_norm_var": 1.8338781863373583,
	"learning_rate": 0.0001,
	"loss": 1.278,
	"loss/crossentropy": 2.5849151611328125,
	"loss/hidden": 1.0078125,
	"loss/logits": 0.20983844995498657,
	"loss/reg": 0.006035543512552977,
	"step": 192
	},
	{
	"epoch": 0.024125,
	"grad_norm": 2.556408643722534,
	"grad_norm_var": 1.8519417466969637,
	"learning_rate": 0.0001,
	"loss": 1.0335,
	"loss/crossentropy": 2.635669231414795,
	"loss/hidden": 0.8359375,
	"loss/logits": 0.13721294701099396,
	"loss/reg": 0.006034051068127155,
	"step": 193
	},
	{
	"epoch": 0.02425,
	"grad_norm": 3.4185855388641357,
	"grad_norm_var": 1.8153229069184569,
	"learning_rate": 0.0001,
	"loss": 1.0115,
	"loss/crossentropy": 2.3127341270446777,
	"loss/hidden": 0.828125,
	"loss/logits": 0.12303752452135086,
	"loss/reg": 0.00603274954482913,
	"step": 194
	},
	{
	"epoch": 0.024375,
	"grad_norm": 3.639681816101074,
	"grad_norm_var": 1.6731808292397734,
	"learning_rate": 0.0001,
	"loss": 1.2374,
	"loss/crossentropy": 2.4363749027252197,
	"loss/hidden": 0.98046875,
	"loss/logits": 0.19659578800201416,
	"loss/reg": 0.006031363736838102,
	"step": 195
	},
	{
	"epoch": 0.0245,
	"grad_norm": 3.266385078430176,
	"grad_norm_var": 1.614572274352353,
	"learning_rate": 0.0001,
	"loss": 1.19,
	"loss/crossentropy": 2.2824337482452393,
	"loss/hidden": 0.9609375,
	"loss/logits": 0.16878634691238403,
	"loss/reg": 0.006029782351106405,
	"step": 196
	},
	{
	"epoch": 0.024625,
	"grad_norm": 3.0692105293273926,
	"grad_norm_var": 1.5801212385016838,
	"learning_rate": 0.0001,
	"loss": 1.1495,
	"loss/crossentropy": 2.518056631088257,
	"loss/hidden": 0.921875,
	"loss/logits": 0.16731634736061096,
	"loss/reg": 0.006028252653777599,
	"step": 197
	},
	{
	"epoch": 0.02475,
	"grad_norm": 3.390202283859253,
	"grad_norm_var": 1.530565626963321,
	"learning_rate": 0.0001,
	"loss": 1.1783,
	"loss/crossentropy": 2.3565316200256348,
	"loss/hidden": 0.9375,
	"loss/logits": 0.18055224418640137,
	"loss/reg": 0.006026738323271275,
	"step": 198
	},
	{
	"epoch": 0.024875,
	"grad_norm": 2.524461030960083,
	"grad_norm_var": 1.4779304822181976,
	"learning_rate": 0.0001,
	"loss": 1.095,
	"loss/crossentropy": 2.3489255905151367,
	"loss/hidden": 0.88671875,
	"loss/logits": 0.1480264812707901,
	"loss/reg": 0.006025230046361685,
	"step": 199
	},
	{
	"epoch": 0.025,
	"grad_norm": 2.8753433227539062,
	"grad_norm_var": 1.4056158732497617,
	"learning_rate": 0.0001,
	"loss": 1.1396,
	"loss/crossentropy": 2.379971504211426,
	"loss/hidden": 0.90625,
	"loss/logits": 0.17312359809875488,
	"loss/reg": 0.0060236188583076,
	"step": 200
	},
	{
	"epoch": 0.025125,
	"grad_norm": 2.2297983169555664,
	"grad_norm_var": 1.4801331513155804,
	"learning_rate": 0.0001,
	"loss": 1.1642,
	"loss/crossentropy": 2.401499032974243,
	"loss/hidden": 0.9296875,
	"loss/logits": 0.1743072271347046,
	"loss/reg": 0.006021994166076183,
	"step": 201
	},
	{
	"epoch": 0.02525,
	"grad_norm": 2.7430193424224854,
	"grad_norm_var": 1.5134885749372204,
	"learning_rate": 0.0001,
	"loss": 1.3503,
	"loss/crossentropy": 2.3397345542907715,
	"loss/hidden": 1.09375,
	"loss/logits": 0.1963859498500824,
	"loss/reg": 0.006020485423505306,
	"step": 202
	},
	{
	"epoch": 0.025375,
	"grad_norm": 3.3862688541412354,
	"grad_norm_var": 1.4983780502999742,
	"learning_rate": 0.0001,
	"loss": 1.3154,
	"loss/crossentropy": 2.3259048461914062,
	"loss/hidden": 1.09375,
	"loss/logits": 0.1614416241645813,
	"loss/reg": 0.0060190120711922646,
	"step": 203
	},
	{
	"epoch": 0.0255,
	"grad_norm": 2.554938316345215,
	"grad_norm_var": 1.547662147741073,
	"learning_rate": 0.0001,
	"loss": 1.1147,
	"loss/crossentropy": 2.559544801712036,
	"loss/hidden": 0.890625,
	"loss/logits": 0.16388913989067078,
	"loss/reg": 0.006017730105668306,
	"step": 204
	},
	{
	"epoch": 0.025625,
	"grad_norm": 2.6290361881256104,
	"grad_norm_var": 1.5807281675134672,
	"learning_rate": 0.0001,
	"loss": 1.049,
	"loss/crossentropy": 2.7080090045928955,
	"loss/hidden": 0.828125,
	"loss/logits": 0.16068041324615479,
	"loss/reg": 0.006016433704644442,
	"step": 205
	},
	{
	"epoch": 0.02575,
	"grad_norm": 2.234259605407715,
	"grad_norm_var": 0.38456120947827777,
	"learning_rate": 0.0001,
	"loss": 1.0392,
	"loss/crossentropy": 2.3816347122192383,
	"loss/hidden": 0.8359375,
	"loss/logits": 0.14315146207809448,
	"loss/reg": 0.0060149249620735645,
	"step": 206
	},
	{
	"epoch": 0.025875,
	"grad_norm": 2.810352325439453,
	"grad_norm_var": 0.19522907990381644,
	"learning_rate": 0.0001,
	"loss": 1.1385,
	"loss/crossentropy": 2.6245384216308594,
	"loss/hidden": 0.90625,
	"loss/logits": 0.17206540703773499,
	"loss/reg": 0.006013684440404177,
	"step": 207
	},
	{
	"epoch": 0.026,
	"grad_norm": 2.198707342147827,
	"grad_norm_var": 0.21847125065788287,
	"learning_rate": 0.0001,
	"loss": 0.9762,
	"loss/crossentropy": 2.3812787532806396,
	"loss/hidden": 0.796875,
	"loss/logits": 0.119233138859272,
	"loss/reg": 0.006012204568833113,
	"step": 208
	},
	{
	"epoch": 0.026125,
	"grad_norm": 2.5001378059387207,
	"grad_norm_var": 0.22083751043745087,
	"learning_rate": 0.0001,
	"loss": 1.2526,
	"loss/crossentropy": 2.5999109745025635,
	"loss/hidden": 0.984375,
	"loss/logits": 0.20815744996070862,
	"loss/reg": 0.006010920740664005,
	"step": 209
	},
	{
	"epoch": 0.02625,
	"grad_norm": 3.175185203552246,
	"grad_norm_var": 0.20582482438127556,
	"learning_rate": 0.0001,
	"loss": 1.239,
	"loss/crossentropy": 2.3893682956695557,
	"loss/hidden": 1.0234375,
	"loss/logits": 0.15550163388252258,
	"loss/reg": 0.006009369157254696,
	"step": 210
	},
	{
	"epoch": 0.026375,
	"grad_norm": 3.482342481613159,
	"grad_norm_var": 0.19031657232839597,
	"learning_rate": 0.0001,
	"loss": 1.1572,
	"loss/crossentropy": 2.382542848587036,
	"loss/hidden": 0.94921875,
	"loss/logits": 0.14788678288459778,
	"loss/reg": 0.006007815711200237,
	"step": 211
	},
	{
	"epoch": 0.0265,
	"grad_norm": 2.285135507583618,
	"grad_norm_var": 0.19168098803167197,
	"learning_rate": 0.0001,
	"loss": 0.9667,
	"loss/crossentropy": 2.552724838256836,
	"loss/hidden": 0.78125,
	"loss/logits": 0.1254206746816635,
	"loss/reg": 0.006006232462823391,
	"step": 212
	},
	{
	"epoch": 0.026625,
	"grad_norm": 2.991971969604492,
	"grad_norm_var": 0.1888233667670041,
	"learning_rate": 0.0001,
	"loss": 1.1472,
	"loss/crossentropy": 2.472437620162964,
	"loss/hidden": 0.9296875,
	"loss/logits": 0.15750399231910706,
	"loss/reg": 0.0060045006684958935,
	"step": 213
	},
	{
	"epoch": 0.02675,
	"grad_norm": 2.3775179386138916,
	"grad_norm_var": 0.1665701003974154,
	"learning_rate": 0.0001,
	"loss": 1.1938,
	"loss/crossentropy": 2.294337749481201,
	"loss/hidden": 0.95703125,
	"loss/logits": 0.17671090364456177,
	"loss/reg": 0.006002978887408972,
	"step": 214
	},
	{
	"epoch": 0.026875,
	"grad_norm": 2.2992701530456543,
	"grad_norm_var": 0.17463199132661936,
	"learning_rate": 0.0001,
	"loss": 1.2097,
	"loss/crossentropy": 2.3843300342559814,
	"loss/hidden": 0.9609375,
	"loss/logits": 0.18876615166664124,
	"loss/reg": 0.006001432426273823,
	"step": 215
	},
	{
	"epoch": 0.027,
	"grad_norm": 2.4926228523254395,
	"grad_norm_var": 0.17347807328228151,
	"learning_rate": 0.0001,
	"loss": 1.3156,
	"loss/crossentropy": 2.326836585998535,
	"loss/hidden": 1.0625,
	"loss/logits": 0.19308596849441528,
	"loss/reg": 0.005999880842864513,
	"step": 216
	},
	{
	"epoch": 0.027125,
	"grad_norm": 2.552459478378296,
	"grad_norm_var": 0.16193263198218044,
	"learning_rate": 0.0001,
	"loss": 1.1424,
	"loss/crossentropy": 2.6629388332366943,
	"loss/hidden": 0.91015625,
	"loss/logits": 0.1722826063632965,
	"loss/reg": 0.005998372100293636,
	"step": 217
	},
	{
	"epoch": 0.02725,
	"grad_norm": 2.866387128829956,
	"grad_norm_var": 0.16409192036900605,
	"learning_rate": 0.0001,
	"loss": 1.0142,
	"loss/crossentropy": 2.8154890537261963,
	"loss/hidden": 0.80078125,
	"loss/logits": 0.15349115431308746,
	"loss/reg": 0.005996840540319681,
	"step": 218
	},
	{
	"epoch": 0.027375,
	"grad_norm": 2.77524471282959,
	"grad_norm_var": 0.12966566207502767,
	"learning_rate": 0.0001,
	"loss": 1.4111,
	"loss/crossentropy": 2.4509928226470947,
	"loss/hidden": 1.1015625,
	"loss/logits": 0.249616801738739,
	"loss/reg": 0.005995343904942274,
	"step": 219
	},
	{
	"epoch": 0.0275,
	"grad_norm": 2.887923240661621,
	"grad_norm_var": 0.13285907347625023,
	"learning_rate": 0.0001,
	"loss": 1.2886,
	"loss/crossentropy": 2.4280507564544678,
	"loss/hidden": 1.0234375,
	"loss/logits": 0.20519307255744934,
	"loss/reg": 0.005993579979985952,
	"step": 220
	},
	{
	"epoch": 0.027625,
	"grad_norm": 2.5383920669555664,
	"grad_norm_var": 0.1337457284607846,
	"learning_rate": 0.0001,
	"loss": 1.3292,
	"loss/crossentropy": 2.0803585052490234,
	"loss/hidden": 1.09375,
	"loss/logits": 0.17551109194755554,
	"loss/reg": 0.005991705227643251,
	"step": 221
	},
	{
	"epoch": 0.02775,
	"grad_norm": 2.639490842819214,
	"grad_norm_var": 0.12131687494494538,
	"learning_rate": 0.0001,
	"loss": 1.0593,
	"loss/crossentropy": 2.293325901031494,
	"loss/hidden": 0.8515625,
	"loss/logits": 0.14782238006591797,
	"loss/reg": 0.005989882629364729,
	"step": 222
	},
	{
	"epoch": 0.027875,
	"grad_norm": 2.4396984577178955,
	"grad_norm_var": 0.12344012810124999,
	"learning_rate": 0.0001,
	"loss": 1.0587,
	"loss/crossentropy": 2.7268667221069336,
	"loss/hidden": 0.84765625,
	"loss/logits": 0.15114662051200867,
	"loss/reg": 0.0059883627109229565,
	"step": 223
	},
	{
	"epoch": 0.028,
	"grad_norm": 2.227886438369751,
	"grad_norm_var": 0.12171264621671582,
	"learning_rate": 0.0001,
	"loss": 1.0087,
	"loss/crossentropy": 2.4431943893432617,
	"loss/hidden": 0.81640625,
	"loss/logits": 0.13243696093559265,
	"loss/reg": 0.005986812058836222,
	"step": 224
	},
	{
	"epoch": 0.028125,
	"grad_norm": 3.690627098083496,
	"grad_norm_var": 0.18519755428341872,
	"learning_rate": 0.0001,
	"loss": 1.0732,
	"loss/crossentropy": 2.4630942344665527,
	"loss/hidden": 0.875,
	"loss/logits": 0.13830721378326416,
	"loss/reg": 0.005985158029943705,
	"step": 225
	},
	{
	"epoch": 0.02825,
	"grad_norm": 3.377890110015869,
	"grad_norm_var": 0.19972658805784155,
	"learning_rate": 0.0001,
	"loss": 1.1848,
	"loss/crossentropy": 2.2899203300476074,
	"loss/hidden": 0.9609375,
	"loss/logits": 0.16401749849319458,
	"loss/reg": 0.005983633920550346,
	"step": 226
	},
	{
	"epoch": 0.028375,
	"grad_norm": 2.7600386142730713,
	"grad_norm_var": 0.16135214723361363,
	"learning_rate": 0.0001,
	"loss": 1.0223,
	"loss/crossentropy": 2.8077659606933594,
	"loss/hidden": 0.8203125,
	"loss/logits": 0.14218226075172424,
	"loss/reg": 0.005982026923447847,
	"step": 227
	},
	{
	"epoch": 0.0285,
	"grad_norm": 2.3397345542907715,
	"grad_norm_var": 0.15851713921701366,
	"learning_rate": 0.0001,
	"loss": 1.077,
	"loss/crossentropy": 2.438030958175659,
	"loss/hidden": 0.875,
	"loss/logits": 0.14217695593833923,
	"loss/reg": 0.005980519577860832,
	"step": 228
	},
	{
	"epoch": 0.028625,
	"grad_norm": 2.744401216506958,
	"grad_norm_var": 0.15282793193407448,
	"learning_rate": 0.0001,
	"loss": 1.1967,
	"loss/crossentropy": 2.557457447052002,
	"loss/hidden": 0.97265625,
	"loss/logits": 0.16425767540931702,
	"loss/reg": 0.005979116074740887,
	"step": 229
	},
	{
	"epoch": 0.02875,
	"grad_norm": 2.4241418838500977,
	"grad_norm_var": 0.15103305834679168,
	"learning_rate": 0.0001,
	"loss": 1.0402,
	"loss/crossentropy": 2.743885040283203,
	"loss/hidden": 0.828125,
	"loss/logits": 0.15231972932815552,
	"loss/reg": 0.005977709777653217,
	"step": 230
	},
	{
	"epoch": 0.028875,
	"grad_norm": 2.0828442573547363,
	"grad_norm_var": 0.16526500993595217,
	"learning_rate": 0.0001,
	"loss": 0.9747,
	"loss/crossentropy": 2.719327688217163,
	"loss/hidden": 0.78125,
	"loss/logits": 0.133681058883667,
	"loss/reg": 0.005976095795631409,
	"step": 231
	},
	{
	"epoch": 0.029,
	"grad_norm": 2.127495527267456,
	"grad_norm_var": 0.18259721536013085,
	"learning_rate": 0.0001,
	"loss": 1.0588,
	"loss/crossentropy": 2.8147058486938477,
	"loss/hidden": 0.85546875,
	"loss/logits": 0.14354225993156433,
	"loss/reg": 0.005974431522190571,
	"step": 232
	},
	{
	"epoch": 0.029125,
	"grad_norm": 4.263195991516113,
	"grad_norm_var": 0.34219781045772657,
	"learning_rate": 0.0001,
	"loss": 1.1724,
	"loss/crossentropy": 2.5414481163024902,
	"loss/hidden": 0.96484375,
	"loss/logits": 0.1478062868118286,
	"loss/reg": 0.005972826853394508,
	"step": 233
	},
	{
	"epoch": 0.02925,
	"grad_norm": 2.9974324703216553,
	"grad_norm_var": 0.34510225788824467,
	"learning_rate": 0.0001,
	"loss": 1.3152,
	"loss/crossentropy": 2.697648763656616,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.20080995559692383,
	"loss/reg": 0.005971227772533894,
	"step": 234
	},
	{
	"epoch": 0.029375,
	"grad_norm": 3.4798855781555176,
	"grad_norm_var": 0.37664835069757197,
	"learning_rate": 0.0001,
	"loss": 1.2096,
	"loss/crossentropy": 2.3990559577941895,
	"loss/hidden": 0.95703125,
	"loss/logits": 0.19287389516830444,
	"loss/reg": 0.005969603545963764,
	"step": 235
	},
	{
	"epoch": 0.0295,
	"grad_norm": 2.43911075592041,
	"grad_norm_var": 0.3848032740432508,
	"learning_rate": 0.0001,
	"loss": 1.0658,
	"loss/crossentropy": 1.966374158859253,
	"loss/hidden": 0.875,
	"loss/logits": 0.13115233182907104,
	"loss/reg": 0.005967943929135799,
	"step": 236
	},
	{
	"epoch": 0.029625,
	"grad_norm": 3.7423646450042725,
	"grad_norm_var": 0.4356891905379257,
	"learning_rate": 0.0001,
	"loss": 1.2397,
	"loss/crossentropy": 2.718675374984741,
	"loss/hidden": 0.9921875,
	"loss/logits": 0.18789833784103394,
	"loss/reg": 0.00596608454361558,
	"step": 237
	},
	{
	"epoch": 0.02975,
	"grad_norm": 3.328033924102783,
	"grad_norm_var": 0.4449827328026664,
	"learning_rate": 0.0001,
	"loss": 1.5581,
	"loss/crossentropy": 2.272303819656372,
	"loss/hidden": 1.2421875,
	"loss/logits": 0.2562662661075592,
	"loss/reg": 0.005964066833257675,
	"step": 238
	},
	{
	"epoch": 0.029875,
	"grad_norm": 2.8761045932769775,
	"grad_norm_var": 0.42986649641521024,
	"learning_rate": 0.0001,
	"loss": 1.1392,
	"loss/crossentropy": 2.6973013877868652,
	"loss/hidden": 0.91796875,
	"loss/logits": 0.16159963607788086,
	"loss/reg": 0.005962541792541742,
	"step": 239
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.4458563327789307,
	"grad_norm_var": 0.4123921579785623,
	"learning_rate": 0.0001,
	"loss": 1.178,
	"loss/crossentropy": 2.5731561183929443,
	"loss/hidden": 0.9375,
	"loss/logits": 0.18093177676200867,
	"loss/reg": 0.005961006972938776,
	"step": 240
	},
	{
	"epoch": 0.030125,
	"grad_norm": 2.4645614624023438,
	"grad_norm_var": 0.3844441578530656,
	"learning_rate": 0.0001,
	"loss": 1.0932,
	"loss/crossentropy": 2.648738145828247,
	"loss/hidden": 0.890625,
	"loss/logits": 0.14302745461463928,
	"loss/reg": 0.005959144793450832,
	"step": 241
	},
	{
	"epoch": 0.03025,
	"grad_norm": 3.0715034008026123,
	"grad_norm_var": 0.3694944025754277,
	"learning_rate": 0.0001,
	"loss": 1.1916,
	"loss/crossentropy": 2.4820139408111572,
	"loss/hidden": 0.94921875,
	"loss/logits": 0.18278783559799194,
	"loss/reg": 0.005957332905381918,
	"step": 242
	},
	{
	"epoch": 0.030375,
	"grad_norm": 2.479677677154541,
	"grad_norm_var": 0.37773887013444374,
	"learning_rate": 0.0001,
	"loss": 1.0787,
	"loss/crossentropy": 2.614309549331665,
	"loss/hidden": 0.87109375,
	"loss/logits": 0.14808647334575653,
	"loss/reg": 0.005955492611974478,
	"step": 243
	},
	{
	"epoch": 0.0305,
	"grad_norm": 3.0970399379730225,
	"grad_norm_var": 0.36391299171458796,
	"learning_rate": 0.0001,
	"loss": 1.1987,
	"loss/crossentropy": 2.2731809616088867,
	"loss/hidden": 0.95703125,
	"loss/logits": 0.18210504949092865,
	"loss/reg": 0.00595364673063159,
	"step": 244
	},
	{
	"epoch": 0.030625,
	"grad_norm": 2.388214588165283,
	"grad_norm_var": 0.37823356386532864,
	"learning_rate": 0.0001,
	"loss": 1.1283,
	"loss/crossentropy": 2.532259225845337,
	"loss/hidden": 0.91015625,
	"loss/logits": 0.15858401358127594,
	"loss/reg": 0.005952049978077412,
	"step": 245
	},
	{
	"epoch": 0.03075,
	"grad_norm": 2.97310733795166,
	"grad_norm_var": 0.36540629077152076,
	"learning_rate": 0.0001,
	"loss": 1.1177,
	"loss/crossentropy": 2.5206258296966553,
	"loss/hidden": 0.89453125,
	"loss/logits": 0.16365137696266174,
	"loss/reg": 0.005950110498815775,
	"step": 246
	},
	{
	"epoch": 0.030875,
	"grad_norm": 2.15498423576355,
	"grad_norm_var": 0.3579579158371985,
	"learning_rate": 0.0001,
	"loss": 1.1046,
	"loss/crossentropy": 2.478773832321167,
	"loss/hidden": 0.8828125,
	"loss/logits": 0.162343829870224,
	"loss/reg": 0.005948282778263092,
	"step": 247
	},
	{
	"epoch": 0.031,
	"grad_norm": 2.3404128551483154,
	"grad_norm_var": 0.338987407645584,
	"learning_rate": 0.0001,
	"loss": 1.1555,
	"loss/crossentropy": 2.1949751377105713,
	"loss/hidden": 0.93359375,
	"loss/logits": 0.1624409407377243,
	"loss/reg": 0.005946675315499306,
	"step": 248
	},
	{
	"epoch": 0.031125,
	"grad_norm": 2.8813085556030273,
	"grad_norm_var": 0.20879640313171802,
	"learning_rate": 0.0001,
	"loss": 1.1599,
	"loss/crossentropy": 2.556128978729248,
	"loss/hidden": 0.9296875,
	"loss/logits": 0.1707805097103119,
	"loss/reg": 0.005944731179624796,
	"step": 249
	},
	{
	"epoch": 0.03125,
	"grad_norm": 3.309937000274658,
	"grad_norm_var": 0.22219010027481143,
	"learning_rate": 0.0001,
	"loss": 1.0939,
	"loss/crossentropy": 2.4590022563934326,
	"loss/hidden": 0.88671875,
	"loss/logits": 0.14774294197559357,
	"loss/reg": 0.005942681338638067,
	"step": 250
	},
	{
	"epoch": 0.031375,
	"grad_norm": 3.1676676273345947,
	"grad_norm_var": 0.201728293925846,
	"learning_rate": 0.0001,
	"loss": 1.3162,
	"loss/crossentropy": 2.419811487197876,
	"loss/hidden": 1.015625,
	"loss/logits": 0.24120670557022095,
	"loss/reg": 0.005940672475844622,
	"step": 251
	},
	{
	"epoch": 0.0315,
	"grad_norm": 2.6006832122802734,
	"grad_norm_var": 0.1951007002723287,
	"learning_rate": 0.0001,
	"loss": 1.3903,
	"loss/crossentropy": 2.170666456222534,
	"loss/hidden": 1.140625,
	"loss/logits": 0.19024603068828583,
	"loss/reg": 0.005938523914664984,
	"step": 252
	},
	{
	"epoch": 0.031625,
	"grad_norm": 2.4954755306243896,
	"grad_norm_var": 0.14101991304577552,
	"learning_rate": 0.0001,
	"loss": 1.1465,
	"loss/crossentropy": 2.262831449508667,
	"loss/hidden": 0.93359375,
	"loss/logits": 0.1535283327102661,
	"loss/reg": 0.00593681400641799,
	"step": 253
	},
	{
	"epoch": 0.03175,
	"grad_norm": 2.339406728744507,
	"grad_norm_var": 0.12652605714113535,
	"learning_rate": 0.0001,
	"loss": 0.984,
	"loss/crossentropy": 2.2793617248535156,
	"loss/hidden": 0.796875,
	"loss/logits": 0.12778240442276,
	"loss/reg": 0.005935273133218288,
	"step": 254
	},
	{
	"epoch": 0.031875,
	"grad_norm": 2.3391647338867188,
	"grad_norm_var": 0.131427049667937,
	"learning_rate": 0.0001,
	"loss": 1.0622,
	"loss/crossentropy": 2.4579379558563232,
	"loss/hidden": 0.83984375,
	"loss/logits": 0.16299216449260712,
	"loss/reg": 0.0059331608936190605,
	"step": 255
	},
	{
	"epoch": 0.032,
	"grad_norm": 2.3896231651306152,
	"grad_norm_var": 0.13322512800125588,
	"learning_rate": 0.0001,
	"loss": 1.057,
	"loss/crossentropy": 2.8022475242614746,
	"loss/hidden": 0.85546875,
	"loss/logits": 0.14219465851783752,
	"loss/reg": 0.005931555759161711,
	"step": 256
	},
	{
	"epoch": 0.032125,
	"grad_norm": 2.125249147415161,
	"grad_norm_var": 0.14907278605534582,
	"learning_rate": 0.0001,
	"loss": 1.0611,
	"loss/crossentropy": 2.33644700050354,
	"loss/hidden": 0.8515625,
	"loss/logits": 0.15020999312400818,
	"loss/reg": 0.005930029321461916,
	"step": 257
	},
	{
	"epoch": 0.03225,
	"grad_norm": 2.521933078765869,
	"grad_norm_var": 0.13593429417580463,
	"learning_rate": 0.0001,
	"loss": 1.0436,
	"loss/crossentropy": 2.512619733810425,
	"loss/hidden": 0.8203125,
	"loss/logits": 0.16396166384220123,
	"loss/reg": 0.00592817785218358,
	"step": 258
	},
	{
	"epoch": 0.032375,
	"grad_norm": 2.5966317653656006,
	"grad_norm_var": 0.13490910688263208,
	"learning_rate": 0.0001,
	"loss": 1.1331,
	"loss/crossentropy": 2.248013734817505,
	"loss/hidden": 0.91015625,
	"loss/logits": 0.16364812850952148,
	"loss/reg": 0.00592625979334116,
	"step": 259
	},
	{
	"epoch": 0.0325,
	"grad_norm": 2.2045137882232666,
	"grad_norm_var": 0.12644607438415487,
	"learning_rate": 0.0001,
	"loss": 1.0015,
	"loss/crossentropy": 2.3253698348999023,
	"loss/hidden": 0.796875,
	"loss/logits": 0.14540287852287292,
	"loss/reg": 0.005924653727561235,
	"step": 260
	},
	{
	"epoch": 0.032625,
	"grad_norm": 2.4450156688690186,
	"grad_norm_var": 0.1254090419850094,
	"learning_rate": 0.0001,
	"loss": 0.9932,
	"loss/crossentropy": 2.2374210357666016,
	"loss/hidden": 0.80078125,
	"loss/logits": 0.13316848874092102,
	"loss/reg": 0.005922792013734579,
	"step": 261
	},
	{
	"epoch": 0.03275,
	"grad_norm": 7.747511863708496,
	"grad_norm_var": 1.8160510254643325,
	"learning_rate": 0.0001,
	"loss": 1.2542,
	"loss/crossentropy": 2.8747429847717285,
	"loss/hidden": 1.0234375,
	"loss/logits": 0.17151576280593872,
	"loss/reg": 0.005921173375099897,
	"step": 262
	},
	{
	"epoch": 0.032875,
	"grad_norm": 2.1854233741760254,
	"grad_norm_var": 1.8132730792650582,
	"learning_rate": 0.0001,
	"loss": 1.0069,
	"loss/crossentropy": 2.4989960193634033,
	"loss/hidden": 0.8125,
	"loss/logits": 0.13518914580345154,
	"loss/reg": 0.005919379647821188,
	"step": 263
	},
	{
	"epoch": 0.033,
	"grad_norm": 3.5132219791412354,
	"grad_norm_var": 1.8186749991604263,
	"learning_rate": 0.0001,
	"loss": 1.054,
	"loss/crossentropy": 2.497178316116333,
	"loss/hidden": 0.84765625,
	"loss/logits": 0.1471494734287262,
	"loss/reg": 0.005917761009186506,
	"step": 264
	},
	{
	"epoch": 0.033125,
	"grad_norm": 4.302145481109619,
	"grad_norm_var": 1.9358282916849012,
	"learning_rate": 0.0001,
	"loss": 1.3123,
	"loss/crossentropy": 2.1725542545318604,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.16722658276557922,
	"loss/reg": 0.0059160212986171246,
	"step": 265
	},
	{
	"epoch": 0.03325,
	"grad_norm": 2.3225510120391846,
	"grad_norm_var": 1.9582913809461102,
	"learning_rate": 0.0001,
	"loss": 1.0153,
	"loss/crossentropy": 2.6670029163360596,
	"loss/hidden": 0.80859375,
	"loss/logits": 0.1475904881954193,
	"loss/reg": 0.0059142098762094975,
	"step": 266
	},
	{
	"epoch": 0.033375,
	"grad_norm": 5.196990013122559,
	"grad_norm_var": 2.27294427304937,
	"learning_rate": 0.0001,
	"loss": 1.1665,
	"loss/crossentropy": 2.6792731285095215,
	"loss/hidden": 0.94140625,
	"loss/logits": 0.1659836769104004,
	"loss/reg": 0.00591221172362566,
	"step": 267
	},
	{
	"epoch": 0.0335,
	"grad_norm": 3.5144336223602295,
	"grad_norm_var": 2.26638445070385,
	"learning_rate": 0.0001,
	"loss": 1.2502,
	"loss/crossentropy": 2.2949023246765137,
	"loss/hidden": 1.0234375,
	"loss/logits": 0.1677004098892212,
	"loss/reg": 0.005910532083362341,
	"step": 268
	},
	{
	"epoch": 0.033625,
	"grad_norm": 2.861222267150879,
	"grad_norm_var": 2.2433162495019436,
	"learning_rate": 0.0001,
	"loss": 1.3308,
	"loss/crossentropy": 2.5955142974853516,
	"loss/hidden": 1.0703125,
	"loss/logits": 0.2013990730047226,
	"loss/reg": 0.005908492021262646,
	"step": 269
	},
	{
	"epoch": 0.03375,
	"grad_norm": 2.964390754699707,
	"grad_norm_var": 2.1991134738974947,
	"learning_rate": 0.0001,
	"loss": 1.0975,
	"loss/crossentropy": 2.483924150466919,
	"loss/hidden": 0.8828125,
	"loss/logits": 0.15562227368354797,
	"loss/reg": 0.005906403064727783,
	"step": 270
	},
	{
	"epoch": 0.033875,
	"grad_norm": 2.75604510307312,
	"grad_norm_var": 2.1620222961988325,
	"learning_rate": 0.0001,
	"loss": 1.2196,
	"loss/crossentropy": 2.39125394821167,
	"loss/hidden": 0.9765625,
	"loss/logits": 0.18403753638267517,
	"loss/reg": 0.00590470340102911,
	"step": 271
	},
	{
	"epoch": 0.034,
	"grad_norm": 2.360309362411499,
	"grad_norm_var": 2.165352535939727,
	"learning_rate": 0.0001,
	"loss": 1.0194,
	"loss/crossentropy": 2.530670404434204,
	"loss/hidden": 0.8046875,
	"loss/logits": 0.15565866231918335,
	"loss/reg": 0.005902664735913277,
	"step": 272
	},
	{
	"epoch": 0.034125,
	"grad_norm": 2.496027946472168,
	"grad_norm_var": 2.1195219252368287,
	"learning_rate": 0.0001,
	"loss": 1.2228,
	"loss/crossentropy": 2.7535252571105957,
	"loss/hidden": 0.9609375,
	"loss/logits": 0.20284873247146606,
	"loss/reg": 0.005900639574974775,
	"step": 273
	},
	{
	"epoch": 0.03425,
	"grad_norm": 2.854250431060791,
	"grad_norm_var": 2.0941964139517344,
	"learning_rate": 0.0001,
	"loss": 1.1387,
	"loss/crossentropy": 2.134964942932129,
	"loss/hidden": 0.9296875,
	"loss/logits": 0.15002194046974182,
	"loss/reg": 0.005898929201066494,
	"step": 274
	},
	{
	"epoch": 0.034375,
	"grad_norm": 4.497798442840576,
	"grad_norm_var": 2.149396374832277,
	"learning_rate": 0.0001,
	"loss": 1.2312,
	"loss/crossentropy": 2.3270835876464844,
	"loss/hidden": 0.99609375,
	"loss/logits": 0.17617599666118622,
	"loss/reg": 0.0058972095139324665,
	"step": 275
	},
	{
	"epoch": 0.0345,
	"grad_norm": 2.321152448654175,
	"grad_norm_var": 2.1318278315927155,
	"learning_rate": 0.0001,
	"loss": 1.1523,
	"loss/crossentropy": 1.858445644378662,
	"loss/hidden": 0.94921875,
	"loss/logits": 0.14408603310585022,
	"loss/reg": 0.005895303096622229,
	"step": 276
	},
	{
	"epoch": 0.034625,
	"grad_norm": 2.4426257610321045,
	"grad_norm_var": 2.1321312734782243,
	"learning_rate": 0.0001,
	"loss": 1.0267,
	"loss/crossentropy": 2.4483628273010254,
	"loss/hidden": 0.82421875,
	"loss/logits": 0.1435263752937317,
	"loss/reg": 0.005893299821764231,
	"step": 277
	},
	{
	"epoch": 0.03475,
	"grad_norm": 2.144637107849121,
	"grad_norm_var": 0.843351985629086,
	"learning_rate": 0.0001,
	"loss": 1.0517,
	"loss/crossentropy": 2.237915277481079,
	"loss/hidden": 0.8515625,
	"loss/logits": 0.14119011163711548,
	"loss/reg": 0.005891298409551382,
	"step": 278
	},
	{
	"epoch": 0.034875,
	"grad_norm": 2.32000732421875,
	"grad_norm_var": 0.8290445100225684,
	"learning_rate": 0.0001,
	"loss": 1.0462,
	"loss/crossentropy": 2.6588850021362305,
	"loss/hidden": 0.83203125,
	"loss/logits": 0.1552983820438385,
	"loss/reg": 0.0058892290107905865,
	"step": 279
	},
	{
	"epoch": 0.035,
	"grad_norm": 3.3390939235687256,
	"grad_norm_var": 0.820283282746707,
	"learning_rate": 0.0001,
	"loss": 1.1937,
	"loss/crossentropy": 2.5243186950683594,
	"loss/hidden": 0.953125,
	"loss/logits": 0.1817275732755661,
	"loss/reg": 0.00588742271065712,
	"step": 280
	},
	{
	"epoch": 0.035125,
	"grad_norm": 3.1800894737243652,
	"grad_norm_var": 0.7106469411621028,
	"learning_rate": 0.0001,
	"loss": 1.1937,
	"loss/crossentropy": 2.556126832962036,
	"loss/hidden": 0.953125,
	"loss/logits": 0.18167603015899658,
	"loss/reg": 0.005885709077119827,
	"step": 281
	},
	{
	"epoch": 0.03525,
	"grad_norm": 4.466390132904053,
	"grad_norm_var": 0.8119073339313209,
	"learning_rate": 0.0001,
	"loss": 1.27,
	"loss/crossentropy": 2.5671539306640625,
	"loss/hidden": 0.984375,
	"loss/logits": 0.2267427146434784,
	"loss/reg": 0.0058837407268583775,
	"step": 282
	},
	{
	"epoch": 0.035375,
	"grad_norm": 3.2809953689575195,
	"grad_norm_var": 0.5074810718943117,
	"learning_rate": 0.0001,
	"loss": 1.1245,
	"loss/crossentropy": 2.1554338932037354,
	"loss/hidden": 0.9140625,
	"loss/logits": 0.1516391634941101,
	"loss/reg": 0.005881770513951778,
	"step": 283
	},
	{
	"epoch": 0.0355,
	"grad_norm": 2.9982316493988037,
	"grad_norm_var": 0.48786559613454966,
	"learning_rate": 0.0001,
	"loss": 1.1286,
	"loss/crossentropy": 2.6773006916046143,
	"loss/hidden": 0.90625,
	"loss/logits": 0.1635606288909912,
	"loss/reg": 0.005880062934011221,
	"step": 284
	},
	{
	"epoch": 0.035625,
	"grad_norm": 2.387657880783081,
	"grad_norm_var": 0.5078162485774572,
	"learning_rate": 0.0001,
	"loss": 1.1214,
	"loss/crossentropy": 2.4741320610046387,
	"loss/hidden": 0.8984375,
	"loss/logits": 0.1641697734594345,
	"loss/reg": 0.0058782072737813,
	"step": 285
	},
	{
	"epoch": 0.03575,
	"grad_norm": 271.6628112792969,
	"grad_norm_var": 4514.324895160767,
	"learning_rate": 0.0001,
	"loss": 1.6171,
	"loss/crossentropy": 2.5766143798828125,
	"loss/hidden": 1.375,
	"loss/logits": 0.1833469420671463,
	"loss/reg": 0.005876271054148674,
	"step": 286
	},
	{
	"epoch": 0.035875,
	"grad_norm": 3.545677900314331,
	"grad_norm_var": 4512.577903953303,
	"learning_rate": 0.0001,
	"loss": 1.1466,
	"loss/crossentropy": 2.5389881134033203,
	"loss/hidden": 0.88671875,
	"loss/logits": 0.20117658376693726,
	"loss/reg": 0.005874336697161198,
	"step": 287
	},
	{
	"epoch": 0.036,
	"grad_norm": 2.9219233989715576,
	"grad_norm_var": 4511.294050983276,
	"learning_rate": 0.0001,
	"loss": 1.1121,
	"loss/crossentropy": 2.3270509243011475,
	"loss/hidden": 0.8828125,
	"loss/logits": 0.17058232426643372,
	"loss/reg": 0.005872361361980438,
	"step": 288
	},
	{
	"epoch": 0.036125,
	"grad_norm": 2.831878423690796,
	"grad_norm_var": 4510.526061571783,
	"learning_rate": 0.0001,
	"loss": 1.148,
	"loss/crossentropy": 2.4853744506835938,
	"loss/hidden": 0.91796875,
	"loss/logits": 0.17128118872642517,
	"loss/reg": 0.005870639346539974,
	"step": 289
	},
	{
	"epoch": 0.03625,
	"grad_norm": 2.284134864807129,
	"grad_norm_var": 4511.83639181831,
	"learning_rate": 0.0001,
	"loss": 1.0599,
	"loss/crossentropy": 2.3107759952545166,
	"loss/hidden": 0.8515625,
	"loss/logits": 0.14969472587108612,
	"loss/reg": 0.005868903826922178,
	"step": 290
	},
	{
	"epoch": 0.036375,
	"grad_norm": 2.2008161544799805,
	"grad_norm_var": 4516.84932017332,
	"learning_rate": 0.0001,
	"loss": 1.0902,
	"loss/crossentropy": 2.4265358448028564,
	"loss/hidden": 0.86328125,
	"loss/logits": 0.1682073473930359,
	"loss/reg": 0.0058671231381595135,
	"step": 291
	},
	{
	"epoch": 0.0365,
	"grad_norm": 2.6285743713378906,
	"grad_norm_var": 4516.145108725088,
	"learning_rate": 0.0001,
	"loss": 1.2494,
	"loss/crossentropy": 2.372230291366577,
	"loss/hidden": 0.98046875,
	"loss/logits": 0.2102714478969574,
	"loss/reg": 0.005865375977009535,
	"step": 292
	},
	{
	"epoch": 0.036625,
	"grad_norm": 2.6784040927886963,
	"grad_norm_var": 4515.607170253259,
	"learning_rate": 0.0001,
	"loss": 1.0752,
	"loss/crossentropy": 2.6276440620422363,
	"loss/hidden": 0.875,
	"loss/logits": 0.14159329235553741,
	"loss/reg": 0.005863656289875507,
	"step": 293
	},
	{
	"epoch": 0.03675,
	"grad_norm": 2.6373047828674316,
	"grad_norm_var": 4514.470495103465,
	"learning_rate": 0.0001,
	"loss": 1.1694,
	"loss/crossentropy": 2.70892333984375,
	"loss/hidden": 0.9453125,
	"loss/logits": 0.16546514630317688,
	"loss/reg": 0.005862091202288866,
	"step": 294
	},
	{
	"epoch": 0.036875,
	"grad_norm": 2.384430170059204,
	"grad_norm_var": 4514.321377312488,
	"learning_rate": 0.0001,
	"loss": 1.2472,
	"loss/crossentropy": 2.1273090839385986,
	"loss/hidden": 1.0,
	"loss/logits": 0.18860690295696259,
	"loss/reg": 0.005860424134880304,
	"step": 295
	},
	{
	"epoch": 0.037,
	"grad_norm": 2.5959692001342773,
	"grad_norm_var": 4515.978398966678,
	"learning_rate": 0.0001,
	"loss": 1.0376,
	"loss/crossentropy": 2.7293522357940674,
	"loss/hidden": 0.8203125,
	"loss/logits": 0.1587076485157013,
	"loss/reg": 0.0058588446117937565,
	"step": 296
	},
	{
	"epoch": 0.037125,
	"grad_norm": 2.2753238677978516,
	"grad_norm_var": 4518.0185669920775,
	"learning_rate": 0.0001,
	"loss": 1.0063,
	"loss/crossentropy": 2.4602949619293213,
	"loss/hidden": 0.8125,
	"loss/logits": 0.13525693118572235,
	"loss/reg": 0.005857320036739111,
	"step": 297
	},
	{
	"epoch": 0.03725,
	"grad_norm": 3.009300708770752,
	"grad_norm_var": 4521.093589717446,
	"learning_rate": 0.0001,
	"loss": 1.2573,
	"loss/crossentropy": 2.8883349895477295,
	"loss/hidden": 0.9921875,
	"loss/logits": 0.20657645165920258,
	"loss/reg": 0.005855792202055454,
	"step": 298
	},
	{
	"epoch": 0.037375,
	"grad_norm": 2.700221538543701,
	"grad_norm_var": 4522.372179334166,
	"learning_rate": 0.0001,
	"loss": 1.1557,
	"loss/crossentropy": 2.5446314811706543,
	"loss/hidden": 0.90234375,
	"loss/logits": 0.19479964673519135,
	"loss/reg": 0.005854278337210417,
	"step": 299
	},
	{
	"epoch": 0.0375,
	"grad_norm": 2.3786559104919434,
	"grad_norm_var": 4523.758055495688,
	"learning_rate": 0.0001,
	"loss": 1.1224,
	"loss/crossentropy": 2.469960927963257,
	"loss/hidden": 0.90234375,
	"loss/logits": 0.16156738996505737,
	"loss/reg": 0.00585273839533329,
	"step": 300
	},
	{
	"epoch": 0.037625,
	"grad_norm": 2.7032158374786377,
	"grad_norm_var": 4523.046593599144,
	"learning_rate": 0.0001,
	"loss": 1.1947,
	"loss/crossentropy": 2.7451162338256836,
	"loss/hidden": 0.94140625,
	"loss/logits": 0.19476984441280365,
	"loss/reg": 0.0058509958907961845,
	"step": 301
	},
	{
	"epoch": 0.03775,
	"grad_norm": 2.507664442062378,
	"grad_norm_var": 0.11250867537391755,
	"learning_rate": 0.0001,
	"loss": 0.9899,
	"loss/crossentropy": 2.53341007232666,
	"loss/hidden": 0.796875,
	"loss/logits": 0.1345081329345703,
	"loss/reg": 0.005849248263984919,
	"step": 302
	},
	{
	"epoch": 0.037875,
	"grad_norm": 3.027892589569092,
	"grad_norm_var": 0.06692647718721882,
	"learning_rate": 0.0001,
	"loss": 1.0973,
	"loss/crossentropy": 2.7899296283721924,
	"loss/hidden": 0.890625,
	"loss/logits": 0.1482122391462326,
	"loss/reg": 0.005847662687301636,
	"step": 303
	},
	{
	"epoch": 0.038,
	"grad_norm": 2.1617183685302734,
	"grad_norm_var": 0.07146536810277529,
	"learning_rate": 0.0001,
	"loss": 0.969,
	"loss/crossentropy": 2.4700305461883545,
	"loss/hidden": 0.78125,
	"loss/logits": 0.12925508618354797,
	"loss/reg": 0.005846073850989342,
	"step": 304
	},
	{
	"epoch": 0.038125,
	"grad_norm": 2.3791332244873047,
	"grad_norm_var": 0.06803597239225306,
	"learning_rate": 0.0001,
	"loss": 1.1912,
	"loss/crossentropy": 2.4171202182769775,
	"loss/hidden": 0.9453125,
	"loss/logits": 0.18739524483680725,
	"loss/reg": 0.005844476167112589,
	"step": 305
	},
	{
	"epoch": 0.03825,
	"grad_norm": 2.7622976303100586,
	"grad_norm_var": 0.06636088237049004,
	"learning_rate": 0.0001,
	"loss": 1.0808,
	"loss/crossentropy": 2.5030367374420166,
	"loss/hidden": 0.8359375,
	"loss/logits": 0.18643516302108765,
	"loss/reg": 0.005842759273946285,
	"step": 306
	},
	{
	"epoch": 0.038375,
	"grad_norm": 2.4079246520996094,
	"grad_norm_var": 0.059000676657357566,
	"learning_rate": 0.0001,
	"loss": 1.0359,
	"loss/crossentropy": 2.381542682647705,
	"loss/hidden": 0.828125,
	"loss/logits": 0.1493588387966156,
	"loss/reg": 0.0058412267826497555,
	"step": 307
	},
	{
	"epoch": 0.0385,
	"grad_norm": 2.5356478691101074,
	"grad_norm_var": 0.058906038923372726,
	"learning_rate": 0.0001,
	"loss": 1.087,
	"loss/crossentropy": 2.4928808212280273,
	"loss/hidden": 0.875,
	"loss/logits": 0.15363982319831848,
	"loss/reg": 0.0058394852094352245,
	"step": 308
	},
	{
	"epoch": 0.038625,
	"grad_norm": 2.4036688804626465,
	"grad_norm_var": 0.0597099908353601,
	"learning_rate": 0.0001,
	"loss": 0.986,
	"loss/crossentropy": 2.5816946029663086,
	"loss/hidden": 0.7890625,
	"loss/logits": 0.13851355016231537,
	"loss/reg": 0.005837727338075638,
	"step": 309
	},
	{
	"epoch": 0.03875,
	"grad_norm": 2.630572557449341,
	"grad_norm_var": 0.05963840398777146,
	"learning_rate": 0.0001,
	"loss": 1.0333,
	"loss/crossentropy": 2.140015125274658,
	"loss/hidden": 0.828125,
	"loss/logits": 0.14680367708206177,
	"loss/reg": 0.005835913587361574,
	"step": 310
	},
	{
	"epoch": 0.038875,
	"grad_norm": 2.3641905784606934,
	"grad_norm_var": 0.06012154861927167,
	"learning_rate": 0.0001,
	"loss": 1.0947,
	"loss/crossentropy": 2.3300833702087402,
	"loss/hidden": 0.8828125,
	"loss/logits": 0.15358075499534607,
	"loss/reg": 0.005834224168211222,
	"step": 311
	},
	{
	"epoch": 0.039,
	"grad_norm": 2.215728759765625,
	"grad_norm_var": 0.06696490679455162,
	"learning_rate": 0.0001,
	"loss": 1.1411,
	"loss/crossentropy": 2.4583277702331543,
	"loss/hidden": 0.9140625,
	"loss/logits": 0.1687404215335846,
	"loss/reg": 0.005832599475979805,
	"step": 312
	},
	{
	"epoch": 0.039125,
	"grad_norm": 2.8934550285339355,
	"grad_norm_var": 0.06994228066174794,
	"learning_rate": 0.0001,
	"loss": 1.2763,
	"loss/crossentropy": 2.409702777862549,
	"loss/hidden": 1.0390625,
	"loss/logits": 0.17889352142810822,
	"loss/reg": 0.005831001792103052,
	"step": 313
	},
	{
	"epoch": 0.03925,
	"grad_norm": 8.741681098937988,
	"grad_norm_var": 2.4613182467650705,
	"learning_rate": 0.0001,
	"loss": 1.1972,
	"loss/crossentropy": 2.3858492374420166,
	"loss/hidden": 0.96875,
	"loss/logits": 0.1701970100402832,
	"loss/reg": 0.005829236935824156,
	"step": 314
	},
	{
	"epoch": 0.039375,
	"grad_norm": 7.412417411804199,
	"grad_norm_var": 3.707354176329111,
	"learning_rate": 0.0001,
	"loss": 1.3096,
	"loss/crossentropy": 2.3804125785827637,
	"loss/hidden": 1.1015625,
	"loss/logits": 0.149795800447464,
	"loss/reg": 0.005827469285577536,
	"step": 315
	},
	{
	"epoch": 0.0395,
	"grad_norm": 3.1443870067596436,
	"grad_norm_var": 3.6580641482995806,
	"learning_rate": 0.0001,
	"loss": 1.1365,
	"loss/crossentropy": 2.481820583343506,
	"loss/hidden": 0.90234375,
	"loss/logits": 0.1759084165096283,
	"loss/reg": 0.005825776606798172,
	"step": 316
	},
	{
	"epoch": 0.039625,
	"grad_norm": 2.8567562103271484,
	"grad_norm_var": 3.6479706732170993,
	"learning_rate": 0.0001,
	"loss": 1.0023,
	"loss/crossentropy": 2.5141823291778564,
	"loss/hidden": 0.80078125,
	"loss/logits": 0.14331723749637604,
	"loss/reg": 0.005824015475809574,
	"step": 317
	},
	{
	"epoch": 0.03975,
	"grad_norm": 2.2817444801330566,
	"grad_norm_var": 3.674359828489624,
	"learning_rate": 0.0001,
	"loss": 1.0893,
	"loss/crossentropy": 2.184128999710083,
	"loss/hidden": 0.875,
	"loss/logits": 0.15605026483535767,
	"loss/reg": 0.00582248717546463,
	"step": 318
	},
	{
	"epoch": 0.039875,
	"grad_norm": 2.249969005584717,
	"grad_norm_var": 3.736641439481692,
	"learning_rate": 0.0001,
	"loss": 1.008,
	"loss/crossentropy": 2.768484354019165,
	"loss/hidden": 0.80078125,
	"loss/logits": 0.14897163212299347,
	"loss/reg": 0.00582079216837883,
	"step": 319
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.6358306407928467,
	"grad_norm_var": 3.684102068428194,
	"learning_rate": 0.0001,
	"loss": 1.3237,
	"loss/crossentropy": 2.301954507827759,
	"loss/hidden": 1.015625,
	"loss/logits": 0.24987459182739258,
	"loss/reg": 0.005819002632051706,
	"step": 320
	},
	{
	"epoch": 0.040125,
	"grad_norm": 2.353457450866699,
	"grad_norm_var": 3.6871065280104496,
	"learning_rate": 0.0001,
	"loss": 1.1095,
	"loss/crossentropy": 2.379765272140503,
	"loss/hidden": 0.89453125,
	"loss/logits": 0.15680107474327087,
	"loss/reg": 0.005817302968353033,
	"step": 321
	},
	{
	"epoch": 0.04025,
	"grad_norm": 2.4568967819213867,
	"grad_norm_var": 3.712514538750317,
	"learning_rate": 0.0001,
	"loss": 0.9706,
	"loss/crossentropy": 2.380795955657959,
	"loss/hidden": 0.77734375,
	"loss/logits": 0.13508911430835724,
	"loss/reg": 0.005815597716718912,
	"step": 322
	},
	{
	"epoch": 0.040375,
	"grad_norm": 3.207794189453125,
	"grad_norm_var": 3.6654654630236734,
	"learning_rate": 0.0001,
	"loss": 1.3668,
	"loss/crossentropy": 1.949703574180603,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.19150257110595703,
	"loss/reg": 0.005813860800117254,
	"step": 323
	},
	{
	"epoch": 0.0405,
	"grad_norm": 3.156318187713623,
	"grad_norm_var": 3.6284383166396252,
	"learning_rate": 0.0001,
	"loss": 1.2742,
	"loss/crossentropy": 2.1970410346984863,
	"loss/hidden": 1.0,
	"loss/logits": 0.21606677770614624,
	"loss/reg": 0.005812041461467743,
	"step": 324
	},
	{
	"epoch": 0.040625,
	"grad_norm": 2.556889533996582,
	"grad_norm_var": 3.611332493108523,
	"learning_rate": 0.0001,
	"loss": 0.9529,
	"loss/crossentropy": 2.7647974491119385,
	"loss/hidden": 0.7578125,
	"loss/logits": 0.1369488537311554,
	"loss/reg": 0.00581031059846282,
	"step": 325
	},
	{
	"epoch": 0.04075,
	"grad_norm": 2.2634167671203613,
	"grad_norm_var": 3.653624545749698,
	"learning_rate": 0.0001,
	"loss": 1.0757,
	"loss/crossentropy": 2.334134340286255,
	"loss/hidden": 0.859375,
	"loss/logits": 0.1581987738609314,
	"loss/reg": 0.005808570422232151,
	"step": 326
	},
	{
	"epoch": 0.040875,
	"grad_norm": 2.3521125316619873,
	"grad_norm_var": 3.6551397839485555,
	"learning_rate": 0.0001,
	"loss": 0.9965,
	"loss/crossentropy": 2.78828763961792,
	"loss/hidden": 0.79296875,
	"loss/logits": 0.1454332172870636,
	"loss/reg": 0.005806888919323683,
	"step": 327
	},
	{
	"epoch": 0.041,
	"grad_norm": 3.0836093425750732,
	"grad_norm_var": 3.5768996944618254,
	"learning_rate": 0.0001,
	"loss": 1.1938,
	"loss/crossentropy": 2.2781612873077393,
	"loss/hidden": 0.9609375,
	"loss/logits": 0.1747758537530899,
	"loss/reg": 0.005805303808301687,
	"step": 328
	},
	{
	"epoch": 0.041125,
	"grad_norm": 3.6110970973968506,
	"grad_norm_var": 3.5651235487558246,
	"learning_rate": 0.0001,
	"loss": 1.1693,
	"loss/crossentropy": 2.812913417816162,
	"loss/hidden": 0.9375,
	"loss/logits": 0.17377659678459167,
	"loss/reg": 0.005803780164569616,
	"step": 329
	},
	{
	"epoch": 0.04125,
	"grad_norm": 2.5020155906677246,
	"grad_norm_var": 1.552569952590708,
	"learning_rate": 0.0001,
	"loss": 1.0862,
	"loss/crossentropy": 2.6585140228271484,
	"loss/hidden": 0.86328125,
	"loss/logits": 0.16489718854427338,
	"loss/reg": 0.005802258383482695,
	"step": 330
	},
	{
	"epoch": 0.041375,
	"grad_norm": 2.383924961090088,
	"grad_norm_var": 0.17978007457456116,
	"learning_rate": 0.0001,
	"loss": 1.1592,
	"loss/crossentropy": 2.4862210750579834,
	"loss/hidden": 0.94921875,
	"loss/logits": 0.15199331939220428,
	"loss/reg": 0.005800731014460325,
	"step": 331
	},
	{
	"epoch": 0.0415,
	"grad_norm": 2.187321424484253,
	"grad_norm_var": 0.17949311071790794,
	"learning_rate": 0.0001,
	"loss": 1.0507,
	"loss/crossentropy": 2.6380603313446045,
	"loss/hidden": 0.84765625,
	"loss/logits": 0.14507073163986206,
	"loss/reg": 0.005798923317342997,
	"step": 332
	},
	{
	"epoch": 0.041625,
	"grad_norm": 2.21768856048584,
	"grad_norm_var": 0.18601193201957902,
	"learning_rate": 0.0001,
	"loss": 1.1027,
	"loss/crossentropy": 2.3925793170928955,
	"loss/hidden": 0.875,
	"loss/logits": 0.16972869634628296,
	"loss/reg": 0.00579707371070981,
	"step": 333
	},
	{
	"epoch": 0.04175,
	"grad_norm": 2.682497262954712,
	"grad_norm_var": 0.17937770683656615,
	"learning_rate": 0.0001,
	"loss": 1.3272,
	"loss/crossentropy": 2.3586106300354004,
	"loss/hidden": 1.078125,
	"loss/logits": 0.1911502480506897,
	"loss/reg": 0.005795224104076624,
	"step": 334
	},
	{
	"epoch": 0.041875,
	"grad_norm": 3.0983307361602783,
	"grad_norm_var": 0.1826395003188658,
	"learning_rate": 0.0001,
	"loss": 1.1675,
	"loss/crossentropy": 2.436326265335083,
	"loss/hidden": 0.91796875,
	"loss/logits": 0.1915540099143982,
	"loss/reg": 0.005793258547782898,
	"step": 335
	},
	{
	"epoch": 0.042,
	"grad_norm": 6.251674652099609,
	"grad_norm_var": 0.982431631272856,
	"learning_rate": 0.0001,
	"loss": 1.6879,
	"loss/crossentropy": 2.3841142654418945,
	"loss/hidden": 1.265625,
	"loss/logits": 0.3643344044685364,
	"loss/reg": 0.0057912725023925304,
	"step": 336
	},
	{
	"epoch": 0.042125,
	"grad_norm": 3.0111782550811768,
	"grad_norm_var": 0.9617308564996427,
	"learning_rate": 0.0001,
	"loss": 1.3497,
	"loss/crossentropy": 2.430532217025757,
	"loss/hidden": 1.0703125,
	"loss/logits": 0.2214677333831787,
	"loss/reg": 0.00578899122774601,
	"step": 337
	},
	{
	"epoch": 0.04225,
	"grad_norm": 2.4221205711364746,
	"grad_norm_var": 0.9640415151512265,
	"learning_rate": 0.0001,
	"loss": 1.0955,
	"loss/crossentropy": 2.4376015663146973,
	"loss/hidden": 0.890625,
	"loss/logits": 0.1470467746257782,
	"loss/reg": 0.005786662455648184,
	"step": 338
	},
	{
	"epoch": 0.042375,
	"grad_norm": 2.615758180618286,
	"grad_norm_var": 0.9645524062068328,
	"learning_rate": 0.0001,
	"loss": 1.0887,
	"loss/crossentropy": 2.5318005084991455,
	"loss/hidden": 0.875,
	"loss/logits": 0.15580901503562927,
	"loss/reg": 0.0057848175056278706,
	"step": 339
	},
	{
	"epoch": 0.0425,
	"grad_norm": 2.857177972793579,
	"grad_norm_var": 0.9599117798964886,
	"learning_rate": 0.0001,
	"loss": 1.1153,
	"loss/crossentropy": 2.4260058403015137,
	"loss/hidden": 0.89453125,
	"loss/logits": 0.16291844844818115,
	"loss/reg": 0.005782809574157,
	"step": 340
	},
	{
	"epoch": 0.042625,
	"grad_norm": 2.4030630588531494,
	"grad_norm_var": 0.9680393035693963,
	"learning_rate": 0.0001,
	"loss": 1.2054,
	"loss/crossentropy": 2.3009443283081055,
	"loss/hidden": 0.953125,
	"loss/logits": 0.194431871175766,
	"loss/reg": 0.005780525505542755,
	"step": 341
	},
	{
	"epoch": 0.04275,
	"grad_norm": 2.264251470565796,
	"grad_norm_var": 0.9679716782722624,
	"learning_rate": 0.0001,
	"loss": 1.0227,
	"loss/crossentropy": 2.597288131713867,
	"loss/hidden": 0.8203125,
	"loss/logits": 0.14457917213439941,
	"loss/reg": 0.005778233055025339,
	"step": 342
	},
	{
	"epoch": 0.042875,
	"grad_norm": 2.2368180751800537,
	"grad_norm_var": 0.9767866404468121,
	"learning_rate": 0.0001,
	"loss": 0.943,
	"loss/crossentropy": 2.4534237384796143,
	"loss/hidden": 0.7578125,
	"loss/logits": 0.12742644548416138,
	"loss/reg": 0.005776000674813986,
	"step": 343
	},
	{
	"epoch": 0.043,
	"grad_norm": 2.469120979309082,
	"grad_norm_var": 0.9824165851632264,
	"learning_rate": 0.0001,
	"loss": 1.0531,
	"loss/crossentropy": 2.793834686279297,
	"loss/hidden": 0.83984375,
	"loss/logits": 0.15554235875606537,
	"loss/reg": 0.005774145945906639,
	"step": 344
	},
	{
	"epoch": 0.043125,
	"grad_norm": 2.8334686756134033,
	"grad_norm_var": 0.9387961568478952,
	"learning_rate": 0.0001,
	"loss": 0.9467,
	"loss/crossentropy": 2.678666830062866,
	"loss/hidden": 0.7578125,
	"loss/logits": 0.13116785883903503,
	"loss/reg": 0.005771928001195192,
	"step": 345
	},
	{
	"epoch": 0.04325,
	"grad_norm": 7.863356590270996,
	"grad_norm_var": 2.5385263322105893,
	"learning_rate": 0.0001,
	"loss": 1.4695,
	"loss/crossentropy": 2.613318920135498,
	"loss/hidden": 1.2734375,
	"loss/logits": 0.13832132518291473,
	"loss/reg": 0.005770097486674786,
	"step": 346
	},
	{
	"epoch": 0.043375,
	"grad_norm": 2.763582468032837,
	"grad_norm_var": 2.510660987467067,
	"learning_rate": 0.0001,
	"loss": 1.1302,
	"loss/crossentropy": 2.846453905105591,
	"loss/hidden": 0.90625,
	"loss/logits": 0.166295126080513,
	"loss/reg": 0.0057678911834955215,
	"step": 347
	},
	{
	"epoch": 0.0435,
	"grad_norm": 3.600456714630127,
	"grad_norm_var": 2.4567056984087676,
	"learning_rate": 0.0001,
	"loss": 1.2108,
	"loss/crossentropy": 2.515092372894287,
	"loss/hidden": 0.96875,
	"loss/logits": 0.18436874449253082,
	"loss/reg": 0.005765695124864578,
	"step": 348
	},
	{
	"epoch": 0.043625,
	"grad_norm": 4.2698073387146,
	"grad_norm_var": 2.4444505062987636,
	"learning_rate": 0.0001,
	"loss": 1.1224,
	"loss/crossentropy": 2.3673834800720215,
	"loss/hidden": 0.8984375,
	"loss/logits": 0.16628439724445343,
	"loss/reg": 0.005763507913798094,
	"step": 349
	},
	{
	"epoch": 0.04375,
	"grad_norm": 2.962045192718506,
	"grad_norm_var": 2.42435544256402,
	"learning_rate": 0.0001,
	"loss": 1.079,
	"loss/crossentropy": 2.9470205307006836,
	"loss/hidden": 0.83203125,
	"loss/logits": 0.1893935650587082,
	"loss/reg": 0.005761242005974054,
	"step": 350
	},
	{
	"epoch": 0.043875,
	"grad_norm": 3.0306880474090576,
	"grad_norm_var": 2.427092851603572,
	"learning_rate": 0.0001,
	"loss": 1.0201,
	"loss/crossentropy": 2.3637542724609375,
	"loss/hidden": 0.83203125,
	"loss/logits": 0.13047108054161072,
	"loss/reg": 0.0057592191733419895,
	"step": 351
	},
	{
	"epoch": 0.044,
	"grad_norm": 2.599585771560669,
	"grad_norm_var": 1.855493477227511,
	"learning_rate": 0.0001,
	"loss": 0.9429,
	"loss/crossentropy": 2.9222559928894043,
	"loss/hidden": 0.7578125,
	"loss/logits": 0.12747693061828613,
	"loss/reg": 0.005757040809839964,
	"step": 352
	},
	{
	"epoch": 0.044125,
	"grad_norm": 2.4723081588745117,
	"grad_norm_var": 1.882729557078295,
	"learning_rate": 0.0001,
	"loss": 1.2276,
	"loss/crossentropy": 2.5835001468658447,
	"loss/hidden": 0.94921875,
	"loss/logits": 0.220790833234787,
	"loss/reg": 0.005754764657467604,
	"step": 353
	},
	{
	"epoch": 0.04425,
	"grad_norm": 2.5266165733337402,
	"grad_norm_var": 1.873911870827686,
	"learning_rate": 0.0001,
	"loss": 1.1879,
	"loss/crossentropy": 2.4273722171783447,
	"loss/hidden": 0.97265625,
	"loss/logits": 0.15772980451583862,
	"loss/reg": 0.005752884317189455,
	"step": 354
	},
	{
	"epoch": 0.044375,
	"grad_norm": 2.8139867782592773,
	"grad_norm_var": 1.8632913443851133,
	"learning_rate": 0.0001,
	"loss": 1.2803,
	"loss/crossentropy": 2.591078996658325,
	"loss/hidden": 1.0234375,
	"loss/logits": 0.19931599497795105,
	"loss/reg": 0.0057507967576384544,
	"step": 355
	},
	{
	"epoch": 0.0445,
	"grad_norm": 2.0173490047454834,
	"grad_norm_var": 1.9371277324683585,
	"learning_rate": 0.0001,
	"loss": 1.0066,
	"loss/crossentropy": 2.415416955947876,
	"loss/hidden": 0.80859375,
	"loss/logits": 0.14050991833209991,
	"loss/reg": 0.005748571362346411,
	"step": 356
	},
	{
	"epoch": 0.044625,
	"grad_norm": 3.5304269790649414,
	"grad_norm_var": 1.916250206343263,
	"learning_rate": 0.0001,
	"loss": 1.2665,
	"loss/crossentropy": 2.7149741649627686,
	"loss/hidden": 1.0390625,
	"loss/logits": 0.16997796297073364,
	"loss/reg": 0.005746254697442055,
	"step": 357
	},
	{
	"epoch": 0.04475,
	"grad_norm": 47.96537399291992,
	"grad_norm_var": 127.11164707702224,
	"learning_rate": 0.0001,
	"loss": 1.4579,
	"loss/crossentropy": 2.7637100219726562,
	"loss/hidden": 1.2265625,
	"loss/logits": 0.17390823364257812,
	"loss/reg": 0.005744417663663626,
	"step": 358
	},
	{
	"epoch": 0.044875,
	"grad_norm": 2.253833055496216,
	"grad_norm_var": 127.10313415769795,
	"learning_rate": 0.0001,
	"loss": 1.1382,
	"loss/crossentropy": 2.3016419410705566,
	"loss/hidden": 0.9140625,
	"loss/logits": 0.16676074266433716,
	"loss/reg": 0.005742207169532776,
	"step": 359
	},
	{
	"epoch": 0.045,
	"grad_norm": 3.2059576511383057,
	"grad_norm_var": 126.79034824550331,
	"learning_rate": 0.0001,
	"loss": 1.2389,
	"loss/crossentropy": 2.624589204788208,
	"loss/hidden": 1.0,
	"loss/logits": 0.18154433369636536,
	"loss/reg": 0.005740353371948004,
	"step": 360
	},
	{
	"epoch": 0.045125,
	"grad_norm": 2.456129789352417,
	"grad_norm_var": 126.9607902891753,
	"learning_rate": 0.0001,
	"loss": 1.0342,
	"loss/crossentropy": 2.500290870666504,
	"loss/hidden": 0.83203125,
	"loss/logits": 0.14475134015083313,
	"loss/reg": 0.005738324951380491,
	"step": 361
	},
	{
	"epoch": 0.04525,
	"grad_norm": 3.081372022628784,
	"grad_norm_var": 127.21513938268541,
	"learning_rate": 0.0001,
	"loss": 1.1093,
	"loss/crossentropy": 2.3305118083953857,
	"loss/hidden": 0.8984375,
	"loss/logits": 0.15346962213516235,
	"loss/reg": 0.0057361493818461895,
	"step": 362
	},
	{
	"epoch": 0.045375,
	"grad_norm": 2.2634801864624023,
	"grad_norm_var": 127.4280286195785,
	"learning_rate": 0.0001,
	"loss": 1.0956,
	"loss/crossentropy": 2.4553990364074707,
	"loss/hidden": 0.875,
	"loss/logits": 0.16324618458747864,
	"loss/reg": 0.005734298378229141,
	"step": 363
	},
	{
	"epoch": 0.0455,
	"grad_norm": 3.9597907066345215,
	"grad_norm_var": 127.3359579534097,
	"learning_rate": 0.0001,
	"loss": 1.3557,
	"loss/crossentropy": 2.6449685096740723,
	"loss/hidden": 1.078125,
	"loss/logits": 0.2202637791633606,
	"loss/reg": 0.005732398014515638,
	"step": 364
	},
	{
	"epoch": 0.045625,
	"grad_norm": 2.7794013023376465,
	"grad_norm_var": 127.76159157574789,
	"learning_rate": 0.0001,
	"loss": 1.0787,
	"loss/crossentropy": 2.3118059635162354,
	"loss/hidden": 0.86328125,
	"loss/logits": 0.1581302285194397,
	"loss/reg": 0.005730301141738892,
	"step": 365
	},
	{
	"epoch": 0.04575,
	"grad_norm": 4.7589192390441895,
	"grad_norm_var": 127.32661229099328,
	"learning_rate": 0.0001,
	"loss": 1.3244,
	"loss/crossentropy": 2.5914306640625,
	"loss/hidden": 1.078125,
	"loss/logits": 0.18898184597492218,
	"loss/reg": 0.005728167947381735,
	"step": 366
	},
	{
	"epoch": 0.045875,
	"grad_norm": 4.024761199951172,
	"grad_norm_var": 127.03030673720949,
	"learning_rate": 0.0001,
	"loss": 1.421,
	"loss/crossentropy": 2.083667755126953,
	"loss/hidden": 1.1640625,
	"loss/logits": 0.1997053027153015,
	"loss/reg": 0.005726283416152,
	"step": 367
	},
	{
	"epoch": 0.046,
	"grad_norm": 2.9291043281555176,
	"grad_norm_var": 126.89672944049376,
	"learning_rate": 0.0001,
	"loss": 1.1321,
	"loss/crossentropy": 2.7017500400543213,
	"loss/hidden": 0.90625,
	"loss/logits": 0.1686232089996338,
	"loss/reg": 0.005724436603486538,
	"step": 368
	},
	{
	"epoch": 0.046125,
	"grad_norm": 2.289379119873047,
	"grad_norm_var": 126.98034912166224,
	"learning_rate": 0.0001,
	"loss": 1.0433,
	"loss/crossentropy": 2.404045581817627,
	"loss/hidden": 0.8359375,
	"loss/logits": 0.1501048356294632,
	"loss/reg": 0.005722455680370331,
	"step": 369
	},
	{
	"epoch": 0.04625,
	"grad_norm": 2.5955307483673096,
	"grad_norm_var": 126.95053618311779,
	"learning_rate": 0.0001,
	"loss": 1.1052,
	"loss/crossentropy": 2.555497407913208,
	"loss/hidden": 0.87890625,
	"loss/logits": 0.16912290453910828,
	"loss/reg": 0.0057206167839467525,
	"step": 370
	},
	{
	"epoch": 0.046375,
	"grad_norm": 2.5631515979766846,
	"grad_norm_var": 127.05459572518181,
	"learning_rate": 0.0001,
	"loss": 1.0105,
	"loss/crossentropy": 2.3253824710845947,
	"loss/hidden": 0.80859375,
	"loss/logits": 0.14470672607421875,
	"loss/reg": 0.005718756001442671,
	"step": 371
	},
	{
	"epoch": 0.0465,
	"grad_norm": 2.8995003700256348,
	"grad_norm_var": 126.65924311218065,
	"learning_rate": 0.0001,
	"loss": 1.0727,
	"loss/crossentropy": 2.5171523094177246,
	"loss/hidden": 0.859375,
	"loss/logits": 0.15616215765476227,
	"loss/reg": 0.005716769490391016,
	"step": 372
	},
	{
	"epoch": 0.046625,
	"grad_norm": 2.4674322605133057,
	"grad_norm_var": 127.0582358856119,
	"learning_rate": 0.0001,
	"loss": 0.9544,
	"loss/crossentropy": 2.426679849624634,
	"loss/hidden": 0.765625,
	"loss/logits": 0.13166998326778412,
	"loss/reg": 0.005714884493499994,
	"step": 373
	},
	{
	"epoch": 0.04675,
	"grad_norm": 2.1486146450042725,
	"grad_norm_var": 0.5554253140062239,
	"learning_rate": 0.0001,
	"loss": 1.0123,
	"loss/crossentropy": 2.3567564487457275,
	"loss/hidden": 0.8203125,
	"loss/logits": 0.1348218023777008,
	"loss/reg": 0.0057129692286252975,
	"step": 374
	},
	{
	"epoch": 0.046875,
	"grad_norm": 2.4249770641326904,
	"grad_norm_var": 0.5421168003854054,
	"learning_rate": 0.0001,
	"loss": 1.0005,
	"loss/crossentropy": 2.575383424758911,
	"loss/hidden": 0.80078125,
	"loss/logits": 0.1425924003124237,
	"loss/reg": 0.005710979457944632,
	"step": 375
	},
	{
	"epoch": 0.047,
	"grad_norm": 3.9449760913848877,
	"grad_norm_var": 0.6036429091311817,
	"learning_rate": 0.0001,
	"loss": 1.1428,
	"loss/crossentropy": 2.5839173793792725,
	"loss/hidden": 0.94921875,
	"loss/logits": 0.13653349876403809,
	"loss/reg": 0.0057089440524578094,
	"step": 376
	},
	{
	"epoch": 0.047125,
	"grad_norm": 2.3119592666625977,
	"grad_norm_var": 0.6148998912723904,
	"learning_rate": 0.0001,
	"loss": 1.088,
	"loss/crossentropy": 2.492663860321045,
	"loss/hidden": 0.859375,
	"loss/logits": 0.1715661883354187,
	"loss/reg": 0.005707095842808485,
	"step": 377
	},
	{
	"epoch": 0.04725,
	"grad_norm": 3.586817979812622,
	"grad_norm_var": 0.6386998540868449,
	"learning_rate": 0.0001,
	"loss": 1.0907,
	"loss/crossentropy": 2.8210177421569824,
	"loss/hidden": 0.87890625,
	"loss/logits": 0.15476316213607788,
	"loss/reg": 0.005705154500901699,
	"step": 378
	},
	{
	"epoch": 0.047375,
	"grad_norm": 2.805647850036621,
	"grad_norm_var": 0.6040650287121667,
	"learning_rate": 0.0001,
	"loss": 1.0792,
	"loss/crossentropy": 2.54019832611084,
	"loss/hidden": 0.859375,
	"loss/logits": 0.16280022263526917,
	"loss/reg": 0.005703243892639875,
	"step": 379
	},
	{
	"epoch": 0.0475,
	"grad_norm": 2.7932748794555664,
	"grad_norm_var": 0.5445939245804574,
	"learning_rate": 0.0001,
	"loss": 1.4621,
	"loss/crossentropy": 2.2343437671661377,
	"loss/hidden": 1.1953125,
	"loss/logits": 0.20978981256484985,
	"loss/reg": 0.005701290909200907,
	"step": 380
	},
	{
	"epoch": 0.047625,
	"grad_norm": 2.661917209625244,
	"grad_norm_var": 0.5482497924242672,
	"learning_rate": 0.0001,
	"loss": 0.9746,
	"loss/crossentropy": 2.782052516937256,
	"loss/hidden": 0.78125,
	"loss/logits": 0.13640211522579193,
	"loss/reg": 0.0056994096376001835,
	"step": 381
	},
	{
	"epoch": 0.04775,
	"grad_norm": 2.4914302825927734,
	"grad_norm_var": 0.3228126995822395,
	"learning_rate": 0.0001,
	"loss": 1.126,
	"loss/crossentropy": 2.166295051574707,
	"loss/hidden": 0.91015625,
	"loss/logits": 0.1589164137840271,
	"loss/reg": 0.005697426851838827,
	"step": 382
	},
	{
	"epoch": 0.047875,
	"grad_norm": 2.961653709411621,
	"grad_norm_var": 0.22106978564282992,
	"learning_rate": 0.0001,
	"loss": 1.1071,
	"loss/crossentropy": 2.5477302074432373,
	"loss/hidden": 0.8828125,
	"loss/logits": 0.16730068624019623,
	"loss/reg": 0.005695413798093796,
	"step": 383
	},
	{
	"epoch": 0.048,
	"grad_norm": 2.9396286010742188,
	"grad_norm_var": 0.22133896443579198,
	"learning_rate": 0.0001,
	"loss": 1.0254,
	"loss/crossentropy": 2.555258274078369,
	"loss/hidden": 0.828125,
	"loss/logits": 0.1403425633907318,
	"loss/reg": 0.005693417973816395,
	"step": 384
	},
	{
	"epoch": 0.048125,
	"grad_norm": 2.8298912048339844,
	"grad_norm_var": 0.20691636732209961,
	"learning_rate": 0.0001,
	"loss": 1.195,
	"loss/crossentropy": 2.472844362258911,
	"loss/hidden": 0.984375,
	"loss/logits": 0.15367946028709412,
	"loss/reg": 0.005691539496183395,
	"step": 385
	},
	{
	"epoch": 0.04825,
	"grad_norm": 15.47062873840332,
	"grad_norm_var": 10.256501481265339,
	"learning_rate": 0.0001,
	"loss": 1.4448,
	"loss/crossentropy": 2.521524667739868,
	"loss/hidden": 1.203125,
	"loss/logits": 0.1847420334815979,
	"loss/reg": 0.005689616315066814,
	"step": 386
	},
	{
	"epoch": 0.048375,
	"grad_norm": 2.455294370651245,
	"grad_norm_var": 10.271871141002237,
	"learning_rate": 0.0001,
	"loss": 1.1018,
	"loss/crossentropy": 2.309390068054199,
	"loss/hidden": 0.89453125,
	"loss/logits": 0.15039557218551636,
	"loss/reg": 0.005687698721885681,
	"step": 387
	},
	{
	"epoch": 0.0485,
	"grad_norm": 3.23420786857605,
	"grad_norm_var": 10.248744715041969,
	"learning_rate": 0.0001,
	"loss": 1.2879,
	"loss/crossentropy": 2.4902544021606445,
	"loss/hidden": 1.015625,
	"loss/logits": 0.2154603898525238,
	"loss/reg": 0.005685731768608093,
	"step": 388
	},
	{
	"epoch": 0.048625,
	"grad_norm": 2.660858631134033,
	"grad_norm_var": 10.221989434520331,
	"learning_rate": 0.0001,
	"loss": 1.025,
	"loss/crossentropy": 2.31535267829895,
	"loss/hidden": 0.8359375,
	"loss/logits": 0.13224059343338013,
	"loss/reg": 0.005683773662894964,
	"step": 389
	},
	{
	"epoch": 0.04875,
	"grad_norm": 2.4209847450256348,
	"grad_norm_var": 10.173641089965429,
	"learning_rate": 0.0001,
	"loss": 0.9974,
	"loss/crossentropy": 2.1761093139648438,
	"loss/hidden": 0.8125,
	"loss/logits": 0.12805956602096558,
	"loss/reg": 0.005681932438164949,
	"step": 390
	},
	{
	"epoch": 0.048875,
	"grad_norm": 3.108008623123169,
	"grad_norm_var": 10.09354551501582,
	"learning_rate": 0.0001,
	"loss": 0.979,
	"loss/crossentropy": 2.721165657043457,
	"loss/hidden": 0.78125,
	"loss/logits": 0.14099523425102234,
	"loss/reg": 0.005679869093000889,
	"step": 391
	},
	{
	"epoch": 0.049,
	"grad_norm": 2.6531527042388916,
	"grad_norm_var": 10.150022289467502,
	"learning_rate": 0.0001,
	"loss": 1.1723,
	"loss/crossentropy": 2.518146514892578,
	"loss/hidden": 0.9375,
	"loss/logits": 0.17805764079093933,
	"loss/reg": 0.005677856504917145,
	"step": 392
	},
	{
	"epoch": 0.049125,
	"grad_norm": 2.2534499168395996,
	"grad_norm_var": 10.160179916565673,
	"learning_rate": 0.0001,
	"loss": 1.1292,
	"loss/crossentropy": 2.633385181427002,
	"loss/hidden": 0.91015625,
	"loss/logits": 0.16230204701423645,
	"loss/reg": 0.005675735417753458,
	"step": 393
	},
	{
	"epoch": 0.04925,
	"grad_norm": 2.9424333572387695,
	"grad_norm_var": 10.185797665159741,
	"learning_rate": 0.0001,
	"loss": 1.4214,
	"loss/crossentropy": 2.62923002243042,
	"loss/hidden": 1.15625,
	"loss/logits": 0.20838308334350586,
	"loss/reg": 0.00567356962710619,
	"step": 394
	},
	{
	"epoch": 0.049375,
	"grad_norm": 2.622178792953491,
	"grad_norm_var": 10.20593051221178,
	"learning_rate": 0.0001,
	"loss": 0.9697,
	"loss/crossentropy": 2.5544826984405518,
	"loss/hidden": 0.78125,
	"loss/logits": 0.13172510266304016,
	"loss/reg": 0.005671407096087933,
	"step": 395
	},
	{
	"epoch": 0.0495,
	"grad_norm": 2.635505199432373,
	"grad_norm_var": 10.223008906743342,
	"learning_rate": 0.0001,
	"loss": 0.933,
	"loss/crossentropy": 2.5959105491638184,
	"loss/hidden": 0.75390625,
	"loss/logits": 0.12239634245634079,
	"loss/reg": 0.0056692929938435555,
	"step": 396
	},
	{
	"epoch": 0.049625,
	"grad_norm": 2.6063406467437744,
	"grad_norm_var": 10.229570355797922,
	"learning_rate": 0.0001,
	"loss": 1.0478,
	"loss/crossentropy": 2.719916343688965,
	"loss/hidden": 0.83984375,
	"loss/logits": 0.15127256512641907,
	"loss/reg": 0.0056673381477594376,
	"step": 397
	},
	{
	"epoch": 0.04975,
	"grad_norm": 2.589893102645874,
	"grad_norm_var": 10.216701025853546,
	"learning_rate": 0.0001,
	"loss": 1.1265,
	"loss/crossentropy": 2.3730130195617676,
	"loss/hidden": 0.90234375,
	"loss/logits": 0.16749918460845947,
	"loss/reg": 0.0056652189232409,
	"step": 398
	},
	{
	"epoch": 0.049875,
	"grad_norm": 2.1503751277923584,
	"grad_norm_var": 10.318666846324161,
	"learning_rate": 0.0001,
	"loss": 1.1685,
	"loss/crossentropy": 2.2147741317749023,
	"loss/hidden": 0.92578125,
	"loss/logits": 0.1860472559928894,
	"loss/reg": 0.005663097370415926,
	"step": 399
	},
	{
	"epoch": 0.05,
	"grad_norm": 3.6945109367370605,
	"grad_norm_var": 10.300567557859127,
	"learning_rate": 0.0001,
	"loss": 1.1272,
	"loss/crossentropy": 2.4212143421173096,
	"loss/hidden": 0.921875,
	"loss/logits": 0.1487593650817871,
	"loss/reg": 0.005661314353346825,
	"step": 400
	},
	{
	"epoch": 0.050125,
	"grad_norm": 3.7444777488708496,
	"grad_norm_var": 10.268632820538057,
	"learning_rate": 0.0001,
	"loss": 1.1221,
	"loss/crossentropy": 2.5369904041290283,
	"loss/hidden": 0.90625,
	"loss/logits": 0.15929211676120758,
	"loss/reg": 0.005659462418407202,
	"step": 401
	},
	{
	"epoch": 0.05025,
	"grad_norm": 5.121776580810547,
	"grad_norm_var": 0.5518050614602837,
	"learning_rate": 0.0001,
	"loss": 1.4671,
	"loss/crossentropy": 2.2371129989624023,
	"loss/hidden": 1.2109375,
	"loss/logits": 0.19960111379623413,
	"loss/reg": 0.005657529458403587,
	"step": 402
	},
	{
	"epoch": 0.050375,
	"grad_norm": 28.607572555541992,
	"grad_norm_var": 41.63994308721723,
	"learning_rate": 0.0001,
	"loss": 1.1515,
	"loss/crossentropy": 2.84385347366333,
	"loss/hidden": 0.90234375,
	"loss/logits": 0.19263674318790436,
	"loss/reg": 0.005655454937368631,
	"step": 403
	},
	{
	"epoch": 0.0505,
	"grad_norm": 2.38948655128479,
	"grad_norm_var": 41.834466994087045,
	"learning_rate": 0.0001,
	"loss": 1.0929,
	"loss/crossentropy": 2.2518088817596436,
	"loss/hidden": 0.8984375,
	"loss/logits": 0.13791221380233765,
	"loss/reg": 0.005653408356010914,
	"step": 404
	},
	{
	"epoch": 0.050625,
	"grad_norm": 6.887917518615723,
	"grad_norm_var": 41.907583648135414,
	"learning_rate": 0.0001,
	"loss": 1.2522,
	"loss/crossentropy": 2.8729405403137207,
	"loss/hidden": 1.046875,
	"loss/logits": 0.14880970120429993,
	"loss/reg": 0.005651514511555433,
	"step": 405
	},
	{
	"epoch": 0.05075,
	"grad_norm": 3.2420449256896973,
	"grad_norm_var": 41.69182027548524,
	"learning_rate": 0.0001,
	"loss": 1.2031,
	"loss/crossentropy": 2.598705530166626,
	"loss/hidden": 0.98046875,
	"loss/logits": 0.16617505252361298,
	"loss/reg": 0.005649634636938572,
	"step": 406
	},
	{
	"epoch": 0.050875,
	"grad_norm": 2.3294692039489746,
	"grad_norm_var": 41.9082544413822,
	"learning_rate": 0.0001,
	"loss": 1.0316,
	"loss/crossentropy": 2.7743589878082275,
	"loss/hidden": 0.84375,
	"loss/logits": 0.13134868443012238,
	"loss/reg": 0.005647764541208744,
	"step": 407
	},
	{
	"epoch": 0.051,
	"grad_norm": 2.3849406242370605,
	"grad_norm_var": 41.988788990047645,
	"learning_rate": 0.0001,
	"loss": 1.1579,
	"loss/crossentropy": 2.2934722900390625,
	"loss/hidden": 0.9375,
	"loss/logits": 0.16397064924240112,
	"loss/reg": 0.00564591446891427,
	"step": 408
	},
	{
	"epoch": 0.051125,
	"grad_norm": 2.616523504257202,
	"grad_norm_var": 41.875558070811756,
	"learning_rate": 0.0001,
	"loss": 0.9281,
	"loss/crossentropy": 2.617312431335449,
	"loss/hidden": 0.7734375,
	"loss/logits": 0.09819567203521729,
	"loss/reg": 0.005644225515425205,
	"step": 409
	},
	{
	"epoch": 0.05125,
	"grad_norm": 2.302281141281128,
	"grad_norm_var": 42.058469053043055,
	"learning_rate": 0.0001,
	"loss": 1.0583,
	"loss/crossentropy": 2.8029561042785645,
	"loss/hidden": 0.859375,
	"loss/logits": 0.14253735542297363,
	"loss/reg": 0.005642317235469818,
	"step": 410
	},
	{
	"epoch": 0.051375,
	"grad_norm": 2.1521739959716797,
	"grad_norm_var": 42.20532780726832,
	"learning_rate": 0.0001,
	"loss": 0.996,
	"loss/crossentropy": 2.5798304080963135,
	"loss/hidden": 0.80078125,
	"loss/logits": 0.13881272077560425,
	"loss/reg": 0.005640234332531691,
	"step": 411
	},
	{
	"epoch": 0.0515,
	"grad_norm": 4.3292155265808105,
	"grad_norm_var": 41.914794683811124,
	"learning_rate": 0.0001,
	"loss": 1.3517,
	"loss/crossentropy": 2.4219868183135986,
	"loss/hidden": 1.0390625,
	"loss/logits": 0.2562292516231537,
	"loss/reg": 0.005638125352561474,
	"step": 412
	},
	{
	"epoch": 0.051625,
	"grad_norm": 19.01975440979004,
	"grad_norm_var": 53.903843358167165,
	"learning_rate": 0.0001,
	"loss": 1.3283,
	"loss/crossentropy": 2.2926077842712402,
	"loss/hidden": 1.078125,
	"loss/logits": 0.19380658864974976,
	"loss/reg": 0.005636140704154968,
	"step": 413
	},
	{
	"epoch": 0.05175,
	"grad_norm": 2.859027862548828,
	"grad_norm_var": 53.791467006877085,
	"learning_rate": 0.0001,
	"loss": 1.1115,
	"loss/crossentropy": 2.429117441177368,
	"loss/hidden": 0.90234375,
	"loss/logits": 0.1528070569038391,
	"loss/reg": 0.005634027067571878,
	"step": 414
	},
	{
	"epoch": 0.051875,
	"grad_norm": 2.385204792022705,
	"grad_norm_var": 53.67862289213027,
	"learning_rate": 0.0001,
	"loss": 1.0186,
	"loss/crossentropy": 2.710325002670288,
	"loss/hidden": 0.81640625,
	"loss/logits": 0.1458669900894165,
	"loss/reg": 0.005631967913359404,
	"step": 415
	},
	{
	"epoch": 0.052,
	"grad_norm": 2.3011677265167236,
	"grad_norm_var": 54.20582073402194,
	"learning_rate": 0.0001,
	"loss": 1.0843,
	"loss/crossentropy": 2.485734701156616,
	"loss/hidden": 0.87109375,
	"loss/logits": 0.1569264829158783,
	"loss/reg": 0.0056300037540495396,
	"step": 416
	},
	{
	"epoch": 0.052125,
	"grad_norm": 2.7714357376098633,
	"grad_norm_var": 54.53064815195892,
	"learning_rate": 0.0001,
	"loss": 1.0741,
	"loss/crossentropy": 2.6249403953552246,
	"loss/hidden": 0.85546875,
	"loss/logits": 0.1623522937297821,
	"loss/reg": 0.0056281075812876225,
	"step": 417
	},
	{
	"epoch": 0.05225,
	"grad_norm": 2.376473903656006,
	"grad_norm_var": 55.22478277620113,
	"learning_rate": 0.0001,
	"loss": 1.2116,
	"loss/crossentropy": 2.5150105953216553,
	"loss/hidden": 0.95703125,
	"loss/logits": 0.19830524921417236,
	"loss/reg": 0.005626222584396601,
	"step": 418
	},
	{
	"epoch": 0.052375,
	"grad_norm": 2.6247470378875732,
	"grad_norm_var": 17.572360223815615,
	"learning_rate": 0.0001,
	"loss": 1.172,
	"loss/crossentropy": 2.7201685905456543,
	"loss/hidden": 0.9453125,
	"loss/logits": 0.17042091488838196,
	"loss/reg": 0.005624283570796251,
	"step": 419
	},
	{
	"epoch": 0.0525,
	"grad_norm": 49.02815628051758,
	"grad_norm_var": 143.90483482694842,
	"learning_rate": 0.0001,
	"loss": 5.3824,
	"loss/crossentropy": 2.692047357559204,
	"loss/hidden": 4.84375,
	"loss/logits": 0.48245739936828613,
	"loss/reg": 0.005622203927487135,
	"step": 420
	},
	{
	"epoch": 0.052625,
	"grad_norm": 2.6867082118988037,
	"grad_norm_var": 144.9870986829453,
	"learning_rate": 0.0001,
	"loss": 1.2507,
	"loss/crossentropy": 2.404517412185669,
	"loss/hidden": 1.0,
	"loss/logits": 0.19445687532424927,
	"loss/reg": 0.005620268173515797,
	"step": 421
	},
	{
	"epoch": 0.05275,
	"grad_norm": 4.397704124450684,
	"grad_norm_var": 144.55498651709914,
	"learning_rate": 0.0001,
	"loss": 1.4596,
	"loss/crossentropy": 2.1510226726531982,
	"loss/hidden": 1.2109375,
	"loss/logits": 0.19246640801429749,
	"loss/reg": 0.005618296563625336,
	"step": 422
	},
	{
	"epoch": 0.052875,
	"grad_norm": 4.239573955535889,
	"grad_norm_var": 143.68003611616095,
	"learning_rate": 0.0001,
	"loss": 1.3275,
	"loss/crossentropy": 2.686849355697632,
	"loss/hidden": 1.09375,
	"loss/logits": 0.17758557200431824,
	"loss/reg": 0.005616751033812761,
	"step": 423
	},
	{
	"epoch": 0.053,
	"grad_norm": 2.749202251434326,
	"grad_norm_var": 143.4748837350726,
	"learning_rate": 0.0001,
	"loss": 1.0827,
	"loss/crossentropy": 2.8104846477508545,
	"loss/hidden": 0.8828125,
	"loss/logits": 0.1437493860721588,
	"loss/reg": 0.005615332629531622,
	"step": 424
	},
	{
	"epoch": 0.053125,
	"grad_norm": 2.459291458129883,
	"grad_norm_var": 143.5641839570371,
	"learning_rate": 0.0001,
	"loss": 1.0548,
	"loss/crossentropy": 2.5806379318237305,
	"loss/hidden": 0.8515625,
	"loss/logits": 0.14714661240577698,
	"loss/reg": 0.005613364279270172,
	"step": 425
	},
	{
	"epoch": 0.05325,
	"grad_norm": 2.294171094894409,
	"grad_norm_var": 143.56904366210821,
	"learning_rate": 0.0001,
	"loss": 1.1486,
	"loss/crossentropy": 2.6366002559661865,
	"loss/hidden": 0.90234375,
	"loss/logits": 0.19014191627502441,
	"loss/reg": 0.005611394997686148,
	"step": 426
	},
	{
	"epoch": 0.053375,
	"grad_norm": 2.2255382537841797,
	"grad_norm_var": 143.52399251007708,
	"learning_rate": 0.0001,
	"loss": 1.0752,
	"loss/crossentropy": 2.542306661605835,
	"loss/hidden": 0.875,
	"loss/logits": 0.14408408105373383,
	"loss/reg": 0.005609368905425072,
	"step": 427
	},
	{
	"epoch": 0.0535,
	"grad_norm": 3.5708723068237305,
	"grad_norm_var": 143.80942972780392,
	"learning_rate": 0.0001,
	"loss": 1.0863,
	"loss/crossentropy": 2.2636356353759766,
	"loss/hidden": 0.8828125,
	"loss/logits": 0.14744916558265686,
	"loss/reg": 0.005607361439615488,
	"step": 428
	},
	{
	"epoch": 0.053625,
	"grad_norm": 2.9189610481262207,
	"grad_norm_var": 133.66980873374825,
	"learning_rate": 0.0001,
	"loss": 0.9895,
	"loss/crossentropy": 2.7651426792144775,
	"loss/hidden": 0.78515625,
	"loss/logits": 0.1482805609703064,
	"loss/reg": 0.005605428479611874,
	"step": 429
	},
	{
	"epoch": 0.05375,
	"grad_norm": 3.2735564708709717,
	"grad_norm_var": 133.5211490137515,
	"learning_rate": 0.0001,
	"loss": 1.2363,
	"loss/crossentropy": 2.248082399368286,
	"loss/hidden": 0.98046875,
	"loss/logits": 0.19977417588233948,
	"loss/reg": 0.0056034415028989315,
	"step": 430
	},
	{
	"epoch": 0.053875,
	"grad_norm": 3.5670769214630127,
	"grad_norm_var": 133.0752341056661,
	"learning_rate": 0.0001,
	"loss": 1.2766,
	"loss/crossentropy": 2.500338554382324,
	"loss/hidden": 1.0234375,
	"loss/logits": 0.19719059765338898,
	"loss/reg": 0.005601502023637295,
	"step": 431
	},
	{
	"epoch": 0.054,
	"grad_norm": 2.2697787284851074,
	"grad_norm_var": 133.0901180807591,
	"learning_rate": 0.0001,
	"loss": 0.9931,
	"loss/crossentropy": 2.6418793201446533,
	"loss/hidden": 0.7890625,
	"loss/logits": 0.14799568057060242,
	"loss/reg": 0.005599519703537226,
	"step": 432
	},
	{
	"epoch": 0.054125,
	"grad_norm": 3.220383405685425,
	"grad_norm_var": 132.91898234062202,
	"learning_rate": 0.0001,
	"loss": 1.2515,
	"loss/crossentropy": 2.5073025226593018,
	"loss/hidden": 1.0390625,
	"loss/logits": 0.15643876791000366,
	"loss/reg": 0.005597477313131094,
	"step": 433
	},
	{
	"epoch": 0.05425,
	"grad_norm": 3.2845206260681152,
	"grad_norm_var": 132.5476800488924,
	"learning_rate": 0.0001,
	"loss": 1.1441,
	"loss/crossentropy": 2.509037971496582,
	"loss/hidden": 0.9296875,
	"loss/logits": 0.15849418938159943,
	"loss/reg": 0.005595567170530558,
	"step": 434
	},
	{
	"epoch": 0.054375,
	"grad_norm": 2.254239320755005,
	"grad_norm_var": 132.71932731242507,
	"learning_rate": 0.0001,
	"loss": 0.9815,
	"loss/crossentropy": 2.567584991455078,
	"loss/hidden": 0.78125,
	"loss/logits": 0.14433184266090393,
	"loss/reg": 0.005593593697994947,
	"step": 435
	},
	{
	"epoch": 0.0545,
	"grad_norm": 3.2273480892181396,
	"grad_norm_var": 0.4676980414191933,
	"learning_rate": 0.0001,
	"loss": 1.1645,
	"loss/crossentropy": 2.3639349937438965,
	"loss/hidden": 0.94921875,
	"loss/logits": 0.15934088826179504,
	"loss/reg": 0.0055916691198945045,
	"step": 436
	},
	{
	"epoch": 0.054625,
	"grad_norm": 2.6044058799743652,
	"grad_norm_var": 0.47199755801328347,
	"learning_rate": 0.0001,
	"loss": 1.1033,
	"loss/crossentropy": 2.539247989654541,
	"loss/hidden": 0.8984375,
	"loss/logits": 0.14898554980754852,
	"loss/reg": 0.005589775741100311,
	"step": 437
	},
	{
	"epoch": 0.05475,
	"grad_norm": 2.9674391746520996,
	"grad_norm_var": 0.3399405404704983,
	"learning_rate": 0.0001,
	"loss": 1.252,
	"loss/crossentropy": 2.5642499923706055,
	"loss/hidden": 0.9921875,
	"loss/logits": 0.20391228795051575,
	"loss/reg": 0.005587900057435036,
	"step": 438
	},
	{
	"epoch": 0.054875,
	"grad_norm": 2.4164047241210938,
	"grad_norm_var": 0.23308679379454797,
	"learning_rate": 0.0001,
	"loss": 1.1939,
	"loss/crossentropy": 2.3462696075439453,
	"loss/hidden": 0.93359375,
	"loss/logits": 0.2044137418270111,
	"loss/reg": 0.005585688166320324,
	"step": 439
	},
	{
	"epoch": 0.055,
	"grad_norm": 2.7590599060058594,
	"grad_norm_var": 0.2329847653181711,
	"learning_rate": 0.0001,
	"loss": 1.0377,
	"loss/crossentropy": 2.775485038757324,
	"loss/hidden": 0.84375,
	"loss/logits": 0.13808496296405792,
	"loss/reg": 0.0055835009552538395,
	"step": 440
	},
	{
	"epoch": 0.055125,
	"grad_norm": 2.7251267433166504,
	"grad_norm_var": 0.224188675724659,
	"learning_rate": 0.0001,
	"loss": 1.0001,
	"loss/crossentropy": 2.4934420585632324,
	"loss/hidden": 0.80859375,
	"loss/logits": 0.1357189267873764,
	"loss/reg": 0.005581483710557222,
	"step": 441
	},
	{
	"epoch": 0.05525,
	"grad_norm": 2.4774584770202637,
	"grad_norm_var": 0.21273704839308963,
	"learning_rate": 0.0001,
	"loss": 1.2166,
	"loss/crossentropy": 2.426271438598633,
	"loss/hidden": 0.95703125,
	"loss/logits": 0.20375394821166992,
	"loss/reg": 0.0055792308412492275,
	"step": 442
	},
	{
	"epoch": 0.055375,
	"grad_norm": 3.2236833572387695,
	"grad_norm_var": 0.1905493662305197,
	"learning_rate": 0.0001,
	"loss": 1.1724,
	"loss/crossentropy": 2.9799797534942627,
	"loss/hidden": 0.92578125,
	"loss/logits": 0.19083930552005768,
	"loss/reg": 0.005577271804213524,
	"step": 443
	},
	{
	"epoch": 0.0555,
	"grad_norm": 2.5997183322906494,
	"grad_norm_var": 0.16554225723918894,
	"learning_rate": 0.0001,
	"loss": 1.126,
	"loss/crossentropy": 2.2098257541656494,
	"loss/hidden": 0.92578125,
	"loss/logits": 0.14447355270385742,
	"loss/reg": 0.005575183313339949,
	"step": 444
	},
	{
	"epoch": 0.055625,
	"grad_norm": 2.5179152488708496,
	"grad_norm_var": 0.1725392629592297,
	"learning_rate": 0.0001,
	"loss": 1.2018,
	"loss/crossentropy": 2.0029213428497314,
	"loss/hidden": 0.98046875,
	"loss/logits": 0.1655960977077484,
	"loss/reg": 0.005572900176048279,
	"step": 445
	},
	{
	"epoch": 0.05575,
	"grad_norm": 2.5075204372406006,
	"grad_norm_var": 0.16460110044899826,
	"learning_rate": 0.0001,
	"loss": 1.0614,
	"loss/crossentropy": 2.3672924041748047,
	"loss/hidden": 0.85546875,
	"loss/logits": 0.15021467208862305,
	"loss/reg": 0.005570439621806145,
	"step": 446
	},
	{
	"epoch": 0.055875,
	"grad_norm": 2.441183567047119,
	"grad_norm_var": 0.12700610259855102,
	"learning_rate": 0.0001,
	"loss": 0.9323,
	"loss/crossentropy": 2.311056137084961,
	"loss/hidden": 0.7578125,
	"loss/logits": 0.11881721019744873,
	"loss/reg": 0.00556844100356102,
	"step": 447
	},
	{
	"epoch": 0.056,
	"grad_norm": 2.6724319458007812,
	"grad_norm_var": 0.11304803744365562,
	"learning_rate": 0.0001,
	"loss": 1.0937,
	"loss/crossentropy": 2.562101364135742,
	"loss/hidden": 0.8671875,
	"loss/logits": 0.1708334982395172,
	"loss/reg": 0.005566492676734924,
	"step": 448
	},
	{
	"epoch": 0.056125,
	"grad_norm": 2.196300506591797,
	"grad_norm_var": 0.11350312697665288,
	"learning_rate": 0.0001,
	"loss": 0.9882,
	"loss/crossentropy": 2.4227116107940674,
	"loss/hidden": 0.80078125,
	"loss/logits": 0.13182450830936432,
	"loss/reg": 0.00556437112390995,
	"step": 449
	},
	{
	"epoch": 0.05625,
	"grad_norm": 2.912667989730835,
	"grad_norm_var": 0.0921566818687341,
	"learning_rate": 0.0001,
	"loss": 1.3721,
	"loss/crossentropy": 1.9439491033554077,
	"loss/hidden": 1.109375,
	"loss/logits": 0.2070913016796112,
	"loss/reg": 0.0055623650550842285,
	"step": 450
	},
	{
	"epoch": 0.056375,
	"grad_norm": 2.011991500854492,
	"grad_norm_var": 0.10881512213368959,
	"learning_rate": 0.0001,
	"loss": 1.0172,
	"loss/crossentropy": 2.498812675476074,
	"loss/hidden": 0.81640625,
	"loss/logits": 0.14521706104278564,
	"loss/reg": 0.005560221150517464,
	"step": 451
	},
	{
	"epoch": 0.0565,
	"grad_norm": 2.2709267139434814,
	"grad_norm_var": 0.0912508163184422,
	"learning_rate": 0.0001,
	"loss": 1.1384,
	"loss/crossentropy": 2.320579767227173,
	"loss/hidden": 0.9140625,
	"loss/logits": 0.16879746317863464,
	"loss/reg": 0.005558326840400696,
	"step": 452
	},
	{
	"epoch": 0.056625,
	"grad_norm": 2.954127788543701,
	"grad_norm_var": 0.09996231296479816,
	"learning_rate": 0.0001,
	"loss": 1.2415,
	"loss/crossentropy": 2.483376979827881,
	"loss/hidden": 0.99609375,
	"loss/logits": 0.18988527357578278,
	"loss/reg": 0.005556488875299692,
	"step": 453
	},
	{
	"epoch": 0.05675,
	"grad_norm": 2.442729949951172,
	"grad_norm_var": 0.0916992305907788,
	"learning_rate": 0.0001,
	"loss": 1.0533,
	"loss/crossentropy": 2.414472818374634,
	"loss/hidden": 0.84765625,
	"loss/logits": 0.1501239389181137,
	"loss/reg": 0.005554646719247103,
	"step": 454
	},
	{
	"epoch": 0.056875,
	"grad_norm": 2.598292589187622,
	"grad_norm_var": 0.09002796513685567,
	"learning_rate": 0.0001,
	"loss": 0.9797,
	"loss/crossentropy": 2.8175811767578125,
	"loss/hidden": 0.78515625,
	"loss/logits": 0.13899990916252136,
	"loss/reg": 0.005552831571549177,
	"step": 455
	},
	{
	"epoch": 0.057,
	"grad_norm": 2.284618616104126,
	"grad_norm_var": 0.09289234998963139,
	"learning_rate": 0.0001,
	"loss": 1.1767,
	"loss/crossentropy": 2.5178730487823486,
	"loss/hidden": 0.953125,
	"loss/logits": 0.1680239588022232,
	"loss/reg": 0.005550856236368418,
	"step": 456
	},
	{
	"epoch": 0.057125,
	"grad_norm": 2.9749691486358643,
	"grad_norm_var": 0.10255115779464533,
	"learning_rate": 0.0001,
	"loss": 1.146,
	"loss/crossentropy": 2.6965036392211914,
	"loss/hidden": 0.89453125,
	"loss/logits": 0.19602364301681519,
	"loss/reg": 0.005548745859414339,
	"step": 457
	},
	{
	"epoch": 0.05725,
	"grad_norm": 2.4419991970062256,
	"grad_norm_var": 0.10305738190390912,
	"learning_rate": 0.0001,
	"loss": 1.0782,
	"loss/crossentropy": 2.507200241088867,
	"loss/hidden": 0.87890625,
	"loss/logits": 0.14385411143302917,
	"loss/reg": 0.005546758882701397,
	"step": 458
	},
	{
	"epoch": 0.057375,
	"grad_norm": 2.41898250579834,
	"grad_norm_var": 0.07293072023693033,
	"learning_rate": 0.0001,
	"loss": 1.0665,
	"loss/crossentropy": 2.4068796634674072,
	"loss/hidden": 0.87109375,
	"loss/logits": 0.13996180891990662,
	"loss/reg": 0.005544655025005341,
	"step": 459
	},
	{
	"epoch": 0.0575,
	"grad_norm": 3.584895372390747,
	"grad_norm_var": 0.1446675774892469,
	"learning_rate": 0.0001,
	"loss": 1.419,
	"loss/crossentropy": 2.4029970169067383,
	"loss/hidden": 1.15625,
	"loss/logits": 0.20734865963459015,
	"loss/reg": 0.005542535334825516,
	"step": 460
	},
	{
	"epoch": 0.057625,
	"grad_norm": 2.5190699100494385,
	"grad_norm_var": 0.14465856873481447,
	"learning_rate": 0.0001,
	"loss": 1.0687,
	"loss/crossentropy": 2.632817268371582,
	"loss/hidden": 0.84375,
	"loss/logits": 0.16959112882614136,
	"loss/reg": 0.005540382582694292,
	"step": 461
	},
	{
	"epoch": 0.05775,
	"grad_norm": 3.293412446975708,
	"grad_norm_var": 0.1759751166057581,
	"learning_rate": 0.0001,
	"loss": 1.2079,
	"loss/crossentropy": 1.8526346683502197,
	"loss/hidden": 0.984375,
	"loss/logits": 0.16817334294319153,
	"loss/reg": 0.005538390018045902,
	"step": 462
	},
	{
	"epoch": 0.057875,
	"grad_norm": 2.090097665786743,
	"grad_norm_var": 0.1923380804679141,
	"learning_rate": 0.0001,
	"loss": 1.0403,
	"loss/crossentropy": 2.7256767749786377,
	"loss/hidden": 0.83984375,
	"loss/logits": 0.14509689807891846,
	"loss/reg": 0.005536381620913744,
	"step": 463
	},
	{
	"epoch": 0.058,
	"grad_norm": 2.367372751235962,
	"grad_norm_var": 0.19537989350592183,
	"learning_rate": 0.0001,
	"loss": 0.967,
	"loss/crossentropy": 2.440683603286743,
	"loss/hidden": 0.78125,
	"loss/logits": 0.13041679561138153,
	"loss/reg": 0.005534291733056307,
	"step": 464
	},
	{
	"epoch": 0.058125,
	"grad_norm": 2.5434730052948,
	"grad_norm_var": 0.18491306851457617,
	"learning_rate": 0.0001,
	"loss": 1.1396,
	"loss/crossentropy": 2.811406373977661,
	"loss/hidden": 0.91015625,
	"loss/logits": 0.1740744560956955,
	"loss/reg": 0.005532294511795044,
	"step": 465
	},
	{
	"epoch": 0.05825,
	"grad_norm": 2.613758087158203,
	"grad_norm_var": 0.17830906169392974,
	"learning_rate": 0.0001,
	"loss": 1.0313,
	"loss/crossentropy": 2.5138356685638428,
	"loss/hidden": 0.828125,
	"loss/logits": 0.1479034125804901,
	"loss/reg": 0.005530340131372213,
	"step": 466
	},
	{
	"epoch": 0.058375,
	"grad_norm": 3.6053991317749023,
	"grad_norm_var": 0.21458171164135606,
	"learning_rate": 0.0001,
	"loss": 1.2109,
	"loss/crossentropy": 1.9949983358383179,
	"loss/hidden": 1.0,
	"loss/logits": 0.155661940574646,
	"loss/reg": 0.0055284383706748486,
	"step": 467
	},
	{
	"epoch": 0.0585,
	"grad_norm": 2.2574644088745117,
	"grad_norm_var": 0.21534123971961966,
	"learning_rate": 0.0001,
	"loss": 1.08,
	"loss/crossentropy": 2.514662981033325,
	"loss/hidden": 0.859375,
	"loss/logits": 0.16538314521312714,
	"loss/reg": 0.005526562221348286,
	"step": 468
	},
	{
	"epoch": 0.058625,
	"grad_norm": 2.2614095211029053,
	"grad_norm_var": 0.2206521084247221,
	"learning_rate": 0.0001,
	"loss": 1.2297,
	"loss/crossentropy": 2.4910507202148438,
	"loss/hidden": 0.98046875,
	"loss/logits": 0.19400066137313843,
	"loss/reg": 0.005524714011698961,
	"step": 469
	},
	{
	"epoch": 0.05875,
	"grad_norm": 3.083524465560913,
	"grad_norm_var": 0.22915168035201153,
	"learning_rate": 0.0001,
	"loss": 1.1725,
	"loss/crossentropy": 2.5548853874206543,
	"loss/hidden": 0.92578125,
	"loss/logits": 0.19151920080184937,
	"loss/reg": 0.005522689316421747,
	"step": 470
	},
	{
	"epoch": 0.058875,
	"grad_norm": 2.6530709266662598,
	"grad_norm_var": 0.2287156357176549,
	"learning_rate": 0.0001,
	"loss": 0.9819,
	"loss/crossentropy": 2.5769848823547363,
	"loss/hidden": 0.79296875,
	"loss/logits": 0.1337730437517166,
	"loss/reg": 0.00552078802138567,
	"step": 471
	},
	{
	"epoch": 0.059,
	"grad_norm": 2.857489585876465,
	"grad_norm_var": 0.21848469951039154,
	"learning_rate": 0.0001,
	"loss": 1.2335,
	"loss/crossentropy": 2.6933629512786865,
	"loss/hidden": 0.98828125,
	"loss/logits": 0.19003306329250336,
	"loss/reg": 0.005518974736332893,
	"step": 472
	},
	{
	"epoch": 0.059125,
	"grad_norm": 1.960106372833252,
	"grad_norm_var": 0.24874750636482734,
	"learning_rate": 0.0001,
	"loss": 0.9776,
	"loss/crossentropy": 2.534855365753174,
	"loss/hidden": 0.7890625,
	"loss/logits": 0.13338381052017212,
	"loss/reg": 0.005517229437828064,
	"step": 473
	},
	{
	"epoch": 0.05925,
	"grad_norm": 2.787822961807251,
	"grad_norm_var": 0.24619457779295406,
	"learning_rate": 0.0001,
	"loss": 1.0858,
	"loss/crossentropy": 2.396390438079834,
	"loss/hidden": 0.88671875,
	"loss/logits": 0.14397624135017395,
	"loss/reg": 0.005515479948371649,
	"step": 474
	},
	{
	"epoch": 0.059375,
	"grad_norm": 2.3396122455596924,
	"grad_norm_var": 0.24936205040752385,
	"learning_rate": 0.0001,
	"loss": 1.0392,
	"loss/crossentropy": 2.6306259632110596,
	"loss/hidden": 0.83984375,
	"loss/logits": 0.14426180720329285,
	"loss/reg": 0.005513759795576334,
	"step": 475
	},
	{
	"epoch": 0.0595,
	"grad_norm": 2.367551803588867,
	"grad_norm_var": 0.19447740210993794,
	"learning_rate": 0.0001,
	"loss": 1.1071,
	"loss/crossentropy": 2.342672348022461,
	"loss/hidden": 0.890625,
	"loss/logits": 0.16136375069618225,
	"loss/reg": 0.0055120959877967834,
	"step": 476
	},
	{
	"epoch": 0.059625,
	"grad_norm": 2.3029873371124268,
	"grad_norm_var": 0.19972845357339655,
	"learning_rate": 0.0001,
	"loss": 0.9785,
	"loss/crossentropy": 2.725276231765747,
	"loss/hidden": 0.796875,
	"loss/logits": 0.12647491693496704,
	"loss/reg": 0.0055101178586483,
	"step": 477
	},
	{
	"epoch": 0.05975,
	"grad_norm": 2.3109138011932373,
	"grad_norm_var": 0.1674590503375268,
	"learning_rate": 0.0001,
	"loss": 1.012,
	"loss/crossentropy": 2.6665799617767334,
	"loss/hidden": 0.81640625,
	"loss/logits": 0.14054208993911743,
	"loss/reg": 0.005508116912096739,
	"step": 478
	},
	{
	"epoch": 0.059875,
	"grad_norm": 2.8778023719787598,
	"grad_norm_var": 0.1605488706137739,
	"learning_rate": 0.0001,
	"loss": 1.0028,
	"loss/crossentropy": 2.599010705947876,
	"loss/hidden": 0.80078125,
	"loss/logits": 0.14697444438934326,
	"loss/reg": 0.0055063748732209206,
	"step": 479
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.7762978076934814,
	"grad_norm_var": 0.15971446982347573,
	"learning_rate": 0.0001,
	"loss": 1.1492,
	"loss/crossentropy": 2.6345436573028564,
	"loss/hidden": 0.9296875,
	"loss/logits": 0.1645045280456543,
	"loss/reg": 0.005504653323441744,
	"step": 480
	},
	{
	"epoch": 0.060125,
	"grad_norm": 3.0745112895965576,
	"grad_norm_var": 0.1733429982183973,
	"learning_rate": 0.0001,
	"loss": 1.2914,
	"loss/crossentropy": 2.1021008491516113,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.18168240785598755,
	"loss/reg": 0.005502650048583746,
	"step": 481
	},
	{
	"epoch": 0.06025,
	"grad_norm": 2.5635828971862793,
	"grad_norm_var": 0.17362979402171655,
	"learning_rate": 0.0001,
	"loss": 1.1746,
	"loss/crossentropy": 2.599754810333252,
	"loss/hidden": 0.9453125,
	"loss/logits": 0.1743006557226181,
	"loss/reg": 0.005500909872353077,
	"step": 482
	},
	{
	"epoch": 0.060375,
	"grad_norm": 2.982170343399048,
	"grad_norm_var": 0.11685041441696337,
	"learning_rate": 0.0001,
	"loss": 1.084,
	"loss/crossentropy": 2.780411958694458,
	"loss/hidden": 0.875,
	"loss/logits": 0.15399503707885742,
	"loss/reg": 0.005499421618878841,
	"step": 483
	},
	{
	"epoch": 0.0605,
	"grad_norm": 6.475743770599365,
	"grad_norm_var": 1.0413639393420129,
	"learning_rate": 0.0001,
	"loss": 2.1473,
	"loss/crossentropy": 2.3867931365966797,
	"loss/hidden": 1.703125,
	"loss/logits": 0.38922837376594543,
	"loss/reg": 0.005497433710843325,
	"step": 484
	},
	{
	"epoch": 0.060625,
	"grad_norm": 2.522434711456299,
	"grad_norm_var": 1.024975132918582,
	"learning_rate": 0.0001,
	"loss": 1.0915,
	"loss/crossentropy": 2.741684675216675,
	"loss/hidden": 0.88671875,
	"loss/logits": 0.14987404644489288,
	"loss/reg": 0.0054954588413238525,
	"step": 485
	},
	{
	"epoch": 0.06075,
	"grad_norm": 2.6852359771728516,
	"grad_norm_var": 1.0236023483547378,
	"learning_rate": 0.0001,
	"loss": 1.0905,
	"loss/crossentropy": 2.2552525997161865,
	"loss/hidden": 0.8984375,
	"loss/logits": 0.13711076974868774,
	"loss/reg": 0.005493887234479189,
	"step": 486
	},
	{
	"epoch": 0.060875,
	"grad_norm": 6.048346996307373,
	"grad_norm_var": 1.65671866064532,
	"learning_rate": 0.0001,
	"loss": 1.4058,
	"loss/crossentropy": 3.1526873111724854,
	"loss/hidden": 1.0625,
	"loss/logits": 0.2884060740470886,
	"loss/reg": 0.005492268595844507,
	"step": 487
	},
	{
	"epoch": 0.061,
	"grad_norm": 5.24729061126709,
	"grad_norm_var": 1.9496829900519608,
	"learning_rate": 0.0001,
	"loss": 1.5487,
	"loss/crossentropy": 2.391798496246338,
	"loss/hidden": 1.234375,
	"loss/logits": 0.2594112157821655,
	"loss/reg": 0.0054903156124055386,
	"step": 488
	},
	{
	"epoch": 0.061125,
	"grad_norm": 3.4879932403564453,
	"grad_norm_var": 1.8414378354073275,
	"learning_rate": 0.0001,
	"loss": 1.2408,
	"loss/crossentropy": 2.3853161334991455,
	"loss/hidden": 1.015625,
	"loss/logits": 0.1702655553817749,
	"loss/reg": 0.005488729570060968,
	"step": 489
	},
	{
	"epoch": 0.06125,
	"grad_norm": 2.416243076324463,
	"grad_norm_var": 1.875598350696971,
	"learning_rate": 0.0001,
	"loss": 1.0646,
	"loss/crossentropy": 2.310605049133301,
	"loss/hidden": 0.86328125,
	"loss/logits": 0.146418958902359,
	"loss/reg": 0.005487216170877218,
	"step": 490
	},
	{
	"epoch": 0.061375,
	"grad_norm": 2.9619152545928955,
	"grad_norm_var": 1.8217813283025472,
	"learning_rate": 0.0001,
	"loss": 1.2577,
	"loss/crossentropy": 2.3735132217407227,
	"loss/hidden": 1.015625,
	"loss/logits": 0.18721503019332886,
	"loss/reg": 0.005485245026648045,
	"step": 491
	},
	{
	"epoch": 0.0615,
	"grad_norm": 2.9602112770080566,
	"grad_norm_var": 1.7685642295810833,
	"learning_rate": 0.0001,
	"loss": 1.1274,
	"loss/crossentropy": 2.6420083045959473,
	"loss/hidden": 0.90234375,
	"loss/logits": 0.17025524377822876,
	"loss/reg": 0.005483296699821949,
	"step": 492
	},
	{
	"epoch": 0.061625,
	"grad_norm": 2.5772223472595215,
	"grad_norm_var": 1.7347667738241757,
	"learning_rate": 0.0001,
	"loss": 1.1004,
	"loss/crossentropy": 2.4166319370269775,
	"loss/hidden": 0.890625,
	"loss/logits": 0.15491390228271484,
	"loss/reg": 0.005481342785060406,
	"step": 493
	},
	{
	"epoch": 0.06175,
	"grad_norm": 2.6494603157043457,
	"grad_norm_var": 1.693988292922673,
	"learning_rate": 0.0001,
	"loss": 1.0762,
	"loss/crossentropy": 2.7021005153656006,
	"loss/hidden": 0.8671875,
	"loss/logits": 0.1542307734489441,
	"loss/reg": 0.005479689687490463,
	"step": 494
	},
	{
	"epoch": 0.061875,
	"grad_norm": 2.065351963043213,
	"grad_norm_var": 1.7911776893626628,
	"learning_rate": 0.0001,
	"loss": 1.015,
	"loss/crossentropy": 2.4842755794525146,
	"loss/hidden": 0.8203125,
	"loss/logits": 0.13995476067066193,
	"loss/reg": 0.005478002596646547,
	"step": 495
	},
	{
	"epoch": 0.062,
	"grad_norm": 2.650660753250122,
	"grad_norm_var": 1.8016636980513454,
	"learning_rate": 0.0001,
	"loss": 1.1699,
	"loss/crossentropy": 2.3899097442626953,
	"loss/hidden": 0.94921875,
	"loss/logits": 0.16591498255729675,
	"loss/reg": 0.005476430524140596,
	"step": 496
	},
	{
	"epoch": 0.062125,
	"grad_norm": 3.412050724029541,
	"grad_norm_var": 1.7970375838694677,
	"learning_rate": 0.0001,
	"loss": 1.1983,
	"loss/crossentropy": 2.4459383487701416,
	"loss/hidden": 0.94140625,
	"loss/logits": 0.20212361216545105,
	"loss/reg": 0.005474465899169445,
	"step": 497
	},
	{
	"epoch": 0.06225,
	"grad_norm": 2.7389674186706543,
	"grad_norm_var": 1.7804152177025587,
	"learning_rate": 0.0001,
	"loss": 1.1076,
	"loss/crossentropy": 2.6794888973236084,
	"loss/hidden": 0.90625,
	"loss/logits": 0.1465749740600586,
	"loss/reg": 0.005472847726196051,
	"step": 498
	},
	{
	"epoch": 0.062375,
	"grad_norm": 20.56003761291504,
	"grad_norm_var": 20.18846043733062,
	"learning_rate": 0.0001,
	"loss": 1.0568,
	"loss/crossentropy": 2.527268409729004,
	"loss/hidden": 0.859375,
	"loss/logits": 0.14275437593460083,
	"loss/reg": 0.005471326876431704,
	"step": 499
	},
	{
	"epoch": 0.0625,
	"grad_norm": 2.9909119606018066,
	"grad_norm_var": 20.013739807194945,
	"learning_rate": 0.0001,
	"loss": 1.0002,
	"loss/crossentropy": 2.311053991317749,
	"loss/hidden": 0.80859375,
	"loss/logits": 0.13688521087169647,
	"loss/reg": 0.005469587165862322,
	"step": 500
	}
	],
	"logging_steps": 1,
	"max_steps": 8000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": true,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.2202930782208e+16,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}