regup50mm / trainer_state.json

Upload folder using huggingface_hub

770d401 verified about 1 year ago

176 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.0625,
	"eval_steps": 500,
	"global_step": 500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.000125,
	"grad_norm": 2.377527952194214,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 1.2768,
	"loss/crossentropy": 2.697097063064575,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.15893849730491638,
	"loss/reg": 6.247002602322027e-05,
	"step": 1
	},
	{
	"epoch": 0.00025,
	"grad_norm": 4.216994762420654,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 1.3752,
	"loss/crossentropy": 3.101844310760498,
	"loss/hidden": 1.1796875,
	"loss/logits": 0.1949012577533722,
	"loss/reg": 6.247002602322027e-05,
	"step": 2
	},
	{
	"epoch": 0.000375,
	"grad_norm": 2.3287529945373535,
	"learning_rate": 3e-06,
	"loss": 1.2785,
	"loss/crossentropy": 2.63712477684021,
	"loss/hidden": 1.09375,
	"loss/logits": 0.18410107493400574,
	"loss/reg": 6.246996053960174e-05,
	"step": 3
	},
	{
	"epoch": 0.0005,
	"grad_norm": 5.415231227874756,
	"learning_rate": 4.000000000000001e-06,
	"loss": 1.4285,
	"loss/crossentropy": 2.5702285766601562,
	"loss/hidden": 1.265625,
	"loss/logits": 0.16228657960891724,
	"loss/reg": 6.246980774449185e-05,
	"step": 4
	},
	{
	"epoch": 0.000625,
	"grad_norm": 4.888370513916016,
	"learning_rate": 5e-06,
	"loss": 1.5121,
	"loss/crossentropy": 2.439383029937744,
	"loss/hidden": 1.3125,
	"loss/logits": 0.19899356365203857,
	"loss/reg": 6.24695821898058e-05,
	"step": 5
	},
	{
	"epoch": 0.00075,
	"grad_norm": 2.608705997467041,
	"learning_rate": 6e-06,
	"loss": 1.293,
	"loss/crossentropy": 2.668699026107788,
	"loss/hidden": 1.109375,
	"loss/logits": 0.18298496305942535,
	"loss/reg": 6.246933480724692e-05,
	"step": 6
	},
	{
	"epoch": 0.000875,
	"grad_norm": 2.8447623252868652,
	"learning_rate": 7.000000000000001e-06,
	"loss": 1.5339,
	"loss/crossentropy": 2.5219366550445557,
	"loss/hidden": 1.296875,
	"loss/logits": 0.2364223599433899,
	"loss/reg": 6.246914563234895e-05,
	"step": 7
	},
	{
	"epoch": 0.001,
	"grad_norm": 3.7877628803253174,
	"learning_rate": 8.000000000000001e-06,
	"loss": 1.8218,
	"loss/crossentropy": 2.1927688121795654,
	"loss/hidden": 1.5546875,
	"loss/logits": 0.2664879262447357,
	"loss/reg": 6.246889097383246e-05,
	"step": 8
	},
	{
	"epoch": 0.001125,
	"grad_norm": 2.988516330718994,
	"learning_rate": 9e-06,
	"loss": 1.7373,
	"loss/crossentropy": 2.3826897144317627,
	"loss/hidden": 1.421875,
	"loss/logits": 0.314752995967865,
	"loss/reg": 6.246858538361266e-05,
	"step": 9
	},
	{
	"epoch": 0.00125,
	"grad_norm": 2.143723726272583,
	"learning_rate": 1e-05,
	"loss": 1.405,
	"loss/crossentropy": 2.2246415615081787,
	"loss/hidden": 1.234375,
	"loss/logits": 0.16997714340686798,
	"loss/reg": 6.246842531254515e-05,
	"step": 10
	},
	{
	"epoch": 0.001375,
	"grad_norm": 2.4413657188415527,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 1.4206,
	"loss/crossentropy": 2.4612021446228027,
	"loss/hidden": 1.1796875,
	"loss/logits": 0.24033024907112122,
	"loss/reg": 6.246819975785911e-05,
	"step": 11
	},
	{
	"epoch": 0.0015,
	"grad_norm": 2.483156204223633,
	"learning_rate": 1.2e-05,
	"loss": 1.6449,
	"loss/crossentropy": 2.2882771492004395,
	"loss/hidden": 1.4140625,
	"loss/logits": 0.23023059964179993,
	"loss/reg": 6.246790871955454e-05,
	"step": 12
	},
	{
	"epoch": 0.001625,
	"grad_norm": 2.7368147373199463,
	"learning_rate": 1.3000000000000001e-05,
	"loss": 1.4981,
	"loss/crossentropy": 2.6942052841186523,
	"loss/hidden": 1.265625,
	"loss/logits": 0.23185348510742188,
	"loss/reg": 6.24675813014619e-05,
	"step": 13
	},
	{
	"epoch": 0.00175,
	"grad_norm": 5.189184665679932,
	"learning_rate": 1.4000000000000001e-05,
	"loss": 1.946,
	"loss/crossentropy": 2.3771214485168457,
	"loss/hidden": 1.625,
	"loss/logits": 0.320385217666626,
	"loss/reg": 6.246678822208196e-05,
	"step": 14
	},
	{
	"epoch": 0.001875,
	"grad_norm": 2.305589437484741,
	"learning_rate": 1.5e-05,
	"loss": 1.4982,
	"loss/crossentropy": 2.7562549114227295,
	"loss/hidden": 1.25,
	"loss/logits": 0.2476150244474411,
	"loss/reg": 6.246620614547282e-05,
	"step": 15
	},
	{
	"epoch": 0.002,
	"grad_norm": 2.3378520011901855,
	"grad_norm_var": 1.2675163586822178,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 1.3302,
	"loss/crossentropy": 2.445441961288452,
	"loss/hidden": 1.125,
	"loss/logits": 0.20453599095344543,
	"loss/reg": 6.246585689950734e-05,
	"step": 16
	},
	{
	"epoch": 0.002125,
	"grad_norm": 1.7903435230255127,
	"grad_norm_var": 1.3529406709866008,
	"learning_rate": 1.7000000000000003e-05,
	"loss": 1.1333,
	"loss/crossentropy": 2.323503017425537,
	"loss/hidden": 0.984375,
	"loss/logits": 0.14828170835971832,
	"loss/reg": 6.246510747587308e-05,
	"step": 17
	},
	{
	"epoch": 0.00225,
	"grad_norm": 3.363795518875122,
	"grad_norm_var": 1.277817936381435,
	"learning_rate": 1.8e-05,
	"loss": 1.7292,
	"loss/crossentropy": 2.6075525283813477,
	"loss/hidden": 1.46875,
	"loss/logits": 0.25987327098846436,
	"loss/reg": 6.24642925686203e-05,
	"step": 18
	},
	{
	"epoch": 0.002375,
	"grad_norm": 2.162050724029541,
	"grad_norm_var": 1.2967721886362786,
	"learning_rate": 1.9e-05,
	"loss": 1.3146,
	"loss/crossentropy": 2.570558786392212,
	"loss/hidden": 1.125,
	"loss/logits": 0.18898281455039978,
	"loss/reg": 6.246323027880862e-05,
	"step": 19
	},
	{
	"epoch": 0.0025,
	"grad_norm": 2.147024393081665,
	"grad_norm_var": 0.9523869945360727,
	"learning_rate": 2e-05,
	"loss": 1.3484,
	"loss/crossentropy": 2.6676244735717773,
	"loss/hidden": 1.1484375,
	"loss/logits": 0.19929195940494537,
	"loss/reg": 6.246233533602208e-05,
	"step": 20
	},
	{
	"epoch": 0.002625,
	"grad_norm": 2.0668728351593018,
	"grad_norm_var": 0.6976603751830339,
	"learning_rate": 2.1e-05,
	"loss": 1.1929,
	"loss/crossentropy": 2.401143789291382,
	"loss/hidden": 1.03125,
	"loss/logits": 0.1610003113746643,
	"loss/reg": 6.246144039323553e-05,
	"step": 21
	},
	{
	"epoch": 0.00275,
	"grad_norm": 2.8019566535949707,
	"grad_norm_var": 0.6973240463492516,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 1.419,
	"loss/crossentropy": 2.627523183822632,
	"loss/hidden": 1.203125,
	"loss/logits": 0.2152642011642456,
	"loss/reg": 6.246032717172056e-05,
	"step": 22
	},
	{
	"epoch": 0.002875,
	"grad_norm": 3.8118937015533447,
	"grad_norm_var": 0.7713008187193999,
	"learning_rate": 2.3000000000000003e-05,
	"loss": 1.4284,
	"loss/crossentropy": 2.7227890491485596,
	"loss/hidden": 1.1640625,
	"loss/logits": 0.2637593150138855,
	"loss/reg": 6.245896656764671e-05,
	"step": 23
	},
	{
	"epoch": 0.003,
	"grad_norm": 2.1418018341064453,
	"grad_norm_var": 0.7205284729945551,
	"learning_rate": 2.4e-05,
	"loss": 1.3002,
	"loss/crossentropy": 2.545552968978882,
	"loss/hidden": 1.1328125,
	"loss/logits": 0.16680249571800232,
	"loss/reg": 6.245774420676753e-05,
	"step": 24
	},
	{
	"epoch": 0.003125,
	"grad_norm": 3.5331156253814697,
	"grad_norm_var": 0.7613226543465996,
	"learning_rate": 2.5e-05,
	"loss": 1.3224,
	"loss/crossentropy": 2.2371270656585693,
	"loss/hidden": 1.15625,
	"loss/logits": 0.16548338532447815,
	"loss/reg": 6.245705299079418e-05,
	"step": 25
	},
	{
	"epoch": 0.00325,
	"grad_norm": 1.9795947074890137,
	"grad_norm_var": 0.7755306597344306,
	"learning_rate": 2.6000000000000002e-05,
	"loss": 1.3209,
	"loss/crossentropy": 2.7113037109375,
	"loss/hidden": 1.1328125,
	"loss/logits": 0.18742361664772034,
	"loss/reg": 6.245569966267794e-05,
	"step": 26
	},
	{
	"epoch": 0.003375,
	"grad_norm": 2.6044108867645264,
	"grad_norm_var": 0.7714440385524235,
	"learning_rate": 2.7000000000000002e-05,
	"loss": 1.4566,
	"loss/crossentropy": 2.6034419536590576,
	"loss/hidden": 1.2265625,
	"loss/logits": 0.22937631607055664,
	"loss/reg": 6.245376425795257e-05,
	"step": 27
	},
	{
	"epoch": 0.0035,
	"grad_norm": 2.48085355758667,
	"grad_norm_var": 0.7715158471256792,
	"learning_rate": 2.8000000000000003e-05,
	"loss": 1.4579,
	"loss/crossentropy": 2.5794363021850586,
	"loss/hidden": 1.2421875,
	"loss/logits": 0.21509718894958496,
	"loss/reg": 6.245166878215969e-05,
	"step": 28
	},
	{
	"epoch": 0.003625,
	"grad_norm": 3.0413854122161865,
	"grad_norm_var": 0.7781660489700184,
	"learning_rate": 2.9e-05,
	"loss": 1.6102,
	"loss/crossentropy": 2.4173922538757324,
	"loss/hidden": 1.375,
	"loss/logits": 0.23455965518951416,
	"loss/reg": 6.244902033358812e-05,
	"step": 29
	},
	{
	"epoch": 0.00375,
	"grad_norm": 2.1076390743255615,
	"grad_norm_var": 0.36324525064493024,
	"learning_rate": 3e-05,
	"loss": 1.0735,
	"loss/crossentropy": 2.4064886569976807,
	"loss/hidden": 0.9453125,
	"loss/logits": 0.12752822041511536,
	"loss/reg": 6.244838004931808e-05,
	"step": 30
	},
	{
	"epoch": 0.003875,
	"grad_norm": 2.5296630859375,
	"grad_norm_var": 0.359312391151574,
	"learning_rate": 3.1e-05,
	"loss": 1.3467,
	"loss/crossentropy": 2.61391544342041,
	"loss/hidden": 1.15625,
	"loss/logits": 0.18978667259216309,
	"loss/reg": 6.244736141525209e-05,
	"step": 31
	},
	{
	"epoch": 0.004,
	"grad_norm": 2.123671054840088,
	"grad_norm_var": 0.3684168280400947,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 1.2191,
	"loss/crossentropy": 2.6056668758392334,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.16381201148033142,
	"loss/reg": 6.244605174288154e-05,
	"step": 32
	},
	{
	"epoch": 0.004125,
	"grad_norm": 3.685770034790039,
	"grad_norm_var": 0.4027733703548923,
	"learning_rate": 3.3e-05,
	"loss": 1.6794,
	"loss/crossentropy": 2.519561290740967,
	"loss/hidden": 1.3828125,
	"loss/logits": 0.29592496156692505,
	"loss/reg": 6.24443418928422e-05,
	"step": 33
	},
	{
	"epoch": 0.00425,
	"grad_norm": 1.9660468101501465,
	"grad_norm_var": 0.393966226946808,
	"learning_rate": 3.4000000000000007e-05,
	"loss": 1.3395,
	"loss/crossentropy": 2.638051986694336,
	"loss/hidden": 1.15625,
	"loss/logits": 0.18261724710464478,
	"loss/reg": 6.244314135983586e-05,
	"step": 34
	},
	{
	"epoch": 0.004375,
	"grad_norm": 2.3111677169799805,
	"grad_norm_var": 0.38716579449971367,
	"learning_rate": 3.5e-05,
	"loss": 1.3501,
	"loss/crossentropy": 2.599940776824951,
	"loss/hidden": 1.15625,
	"loss/logits": 0.19327056407928467,
	"loss/reg": 6.244215182960033e-05,
	"step": 35
	},
	{
	"epoch": 0.0045,
	"grad_norm": 2.5357542037963867,
	"grad_norm_var": 0.3739975607775089,
	"learning_rate": 3.6e-05,
	"loss": 1.287,
	"loss/crossentropy": 2.9884798526763916,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.16922441124916077,
	"loss/reg": 6.244022370083258e-05,
	"step": 36
	},
	{
	"epoch": 0.004625,
	"grad_norm": 1.7781621217727661,
	"grad_norm_var": 0.40002233468076764,
	"learning_rate": 3.7e-05,
	"loss": 1.074,
	"loss/crossentropy": 2.669071674346924,
	"loss/hidden": 0.93359375,
	"loss/logits": 0.13981276750564575,
	"loss/reg": 6.243858661036938e-05,
	"step": 37
	},
	{
	"epoch": 0.00475,
	"grad_norm": 24.6973819732666,
	"grad_norm_var": 30.983207545217457,
	"learning_rate": 3.8e-05,
	"loss": 1.3637,
	"loss/crossentropy": 2.482579469680786,
	"loss/hidden": 1.1953125,
	"loss/logits": 0.16777344048023224,
	"loss/reg": 6.243725511012599e-05,
	"step": 38
	},
	{
	"epoch": 0.004875,
	"grad_norm": 2.5728342533111572,
	"grad_norm_var": 31.103302953089262,
	"learning_rate": 3.9000000000000006e-05,
	"loss": 1.3424,
	"loss/crossentropy": 2.2785422801971436,
	"loss/hidden": 1.171875,
	"loss/logits": 0.16988611221313477,
	"loss/reg": 6.243555981200188e-05,
	"step": 39
	},
	{
	"epoch": 0.005,
	"grad_norm": 1.7385622262954712,
	"grad_norm_var": 31.206951393275006,
	"learning_rate": 4e-05,
	"loss": 1.077,
	"loss/crossentropy": 2.7017714977264404,
	"loss/hidden": 0.9453125,
	"loss/logits": 0.13102804124355316,
	"loss/reg": 6.243350071599707e-05,
	"step": 40
	},
	{
	"epoch": 0.005125,
	"grad_norm": 2.455116033554077,
	"grad_norm_var": 31.325901099338942,
	"learning_rate": 4.1e-05,
	"loss": 1.178,
	"loss/crossentropy": 2.6521873474121094,
	"loss/hidden": 1.015625,
	"loss/logits": 0.16170336306095123,
	"loss/reg": 6.243147072382271e-05,
	"step": 41
	},
	{
	"epoch": 0.00525,
	"grad_norm": 3.0441935062408447,
	"grad_norm_var": 31.14003983168487,
	"learning_rate": 4.2e-05,
	"loss": 1.488,
	"loss/crossentropy": 2.5000290870666504,
	"loss/hidden": 1.265625,
	"loss/logits": 0.2217317819595337,
	"loss/reg": 6.24291569693014e-05,
	"step": 42
	},
	{
	"epoch": 0.005375,
	"grad_norm": 2.6227200031280518,
	"grad_norm_var": 31.137008952861066,
	"learning_rate": 4.3e-05,
	"loss": 1.3106,
	"loss/crossentropy": 2.6832528114318848,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.19276997447013855,
	"loss/reg": 6.242711242521182e-05,
	"step": 43
	},
	{
	"epoch": 0.0055,
	"grad_norm": 2.9194633960723877,
	"grad_norm_var": 31.06863081080745,
	"learning_rate": 4.4000000000000006e-05,
	"loss": 1.5396,
	"loss/crossentropy": 2.483938455581665,
	"loss/hidden": 1.3046875,
	"loss/logits": 0.23424991965293884,
	"loss/reg": 6.242513336474076e-05,
	"step": 44
	},
	{
	"epoch": 0.005625,
	"grad_norm": 2.2491037845611572,
	"grad_norm_var": 31.196778907875057,
	"learning_rate": 4.5e-05,
	"loss": 1.2321,
	"loss/crossentropy": 2.9735186100006104,
	"loss/hidden": 1.0625,
	"loss/logits": 0.1689363420009613,
	"loss/reg": 6.242344534257427e-05,
	"step": 45
	},
	{
	"epoch": 0.00575,
	"grad_norm": 2.687225103378296,
	"grad_norm_var": 31.084396554405373,
	"learning_rate": 4.600000000000001e-05,
	"loss": 1.2443,
	"loss/crossentropy": 2.913846254348755,
	"loss/hidden": 1.0625,
	"loss/logits": 0.18112678825855255,
	"loss/reg": 6.242193921934813e-05,
	"step": 46
	},
	{
	"epoch": 0.005875,
	"grad_norm": 2.3648312091827393,
	"grad_norm_var": 31.1155476706496,
	"learning_rate": 4.7e-05,
	"loss": 1.2044,
	"loss/crossentropy": 2.374119520187378,
	"loss/hidden": 1.046875,
	"loss/logits": 0.15688437223434448,
	"loss/reg": 6.242006929824129e-05,
	"step": 47
	},
	{
	"epoch": 0.006,
	"grad_norm": 1.896540880203247,
	"grad_norm_var": 31.171339818602494,
	"learning_rate": 4.8e-05,
	"loss": 1.238,
	"loss/crossentropy": 2.613962173461914,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.1826920211315155,
	"loss/reg": 6.24187450739555e-05,
	"step": 48
	},
	{
	"epoch": 0.006125,
	"grad_norm": 1.7585434913635254,
	"grad_norm_var": 31.44447201393312,
	"learning_rate": 4.9e-05,
	"loss": 1.1411,
	"loss/crossentropy": 2.5672757625579834,
	"loss/hidden": 1.0,
	"loss/logits": 0.14043202996253967,
	"loss/reg": 6.241785740712658e-05,
	"step": 49
	},
	{
	"epoch": 0.00625,
	"grad_norm": 1.8257592916488647,
	"grad_norm_var": 31.47860052328912,
	"learning_rate": 5e-05,
	"loss": 1.2643,
	"loss/crossentropy": 2.4829366207122803,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.1777852475643158,
	"loss/reg": 6.2416227592621e-05,
	"step": 50
	},
	{
	"epoch": 0.006375,
	"grad_norm": 1.9530550241470337,
	"grad_norm_var": 31.553698309541367,
	"learning_rate": 5.1000000000000006e-05,
	"loss": 1.1787,
	"loss/crossentropy": 2.501922369003296,
	"loss/hidden": 1.015625,
	"loss/logits": 0.16241338849067688,
	"loss/reg": 6.241373193915933e-05,
	"step": 51
	},
	{
	"epoch": 0.0065,
	"grad_norm": 2.366898536682129,
	"grad_norm_var": 31.58155048439878,
	"learning_rate": 5.2000000000000004e-05,
	"loss": 1.476,
	"loss/crossentropy": 2.557314872741699,
	"loss/hidden": 1.234375,
	"loss/logits": 0.24098029732704163,
	"loss/reg": 6.241213122848421e-05,
	"step": 52
	},
	{
	"epoch": 0.006625,
	"grad_norm": 2.139944553375244,
	"grad_norm_var": 31.497838767117898,
	"learning_rate": 5.300000000000001e-05,
	"loss": 1.3057,
	"loss/crossentropy": 2.5664379596710205,
	"loss/hidden": 1.125,
	"loss/logits": 0.18005570769309998,
	"loss/reg": 6.241026130737737e-05,
	"step": 53
	},
	{
	"epoch": 0.00675,
	"grad_norm": 2.2614963054656982,
	"grad_norm_var": 0.16298419379227144,
	"learning_rate": 5.4000000000000005e-05,
	"loss": 1.2081,
	"loss/crossentropy": 2.5651533603668213,
	"loss/hidden": 1.046875,
	"loss/logits": 0.1606135070323944,
	"loss/reg": 6.240784568944946e-05,
	"step": 54
	},
	{
	"epoch": 0.006875,
	"grad_norm": 1.88372802734375,
	"grad_norm_var": 0.16791840248250048,
	"learning_rate": 5.500000000000001e-05,
	"loss": 1.2037,
	"loss/crossentropy": 2.0431623458862305,
	"loss/hidden": 1.0703125,
	"loss/logits": 0.13271506130695343,
	"loss/reg": 6.240410584723577e-05,
	"step": 55
	},
	{
	"epoch": 0.007,
	"grad_norm": 1.7579172849655151,
	"grad_norm_var": 0.16659499666655736,
	"learning_rate": 5.6000000000000006e-05,
	"loss": 1.0787,
	"loss/crossentropy": 2.5805883407592773,
	"loss/hidden": 0.94140625,
	"loss/logits": 0.13670633733272552,
	"loss/reg": 6.240163202164695e-05,
	"step": 56
	},
	{
	"epoch": 0.007125,
	"grad_norm": 2.740758180618286,
	"grad_norm_var": 0.17906241043444873,
	"learning_rate": 5.6999999999999996e-05,
	"loss": 1.2499,
	"loss/crossentropy": 2.821078062057495,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.16337308287620544,
	"loss/reg": 6.239958747755736e-05,
	"step": 57
	},
	{
	"epoch": 0.00725,
	"grad_norm": 3.3393216133117676,
	"grad_norm_var": 0.21459676497742203,
	"learning_rate": 5.8e-05,
	"loss": 1.5094,
	"loss/crossentropy": 2.6574273109436035,
	"loss/hidden": 1.2265625,
	"loss/logits": 0.2822623550891876,
	"loss/reg": 6.239775393623859e-05,
	"step": 58
	},
	{
	"epoch": 0.007375,
	"grad_norm": 2.1151742935180664,
	"grad_norm_var": 0.20871929877454623,
	"learning_rate": 5.9e-05,
	"loss": 1.31,
	"loss/crossentropy": 2.28176212310791,
	"loss/hidden": 1.125,
	"loss/logits": 0.18433833122253418,
	"loss/reg": 6.239649519557133e-05,
	"step": 59
	},
	{
	"epoch": 0.0075,
	"grad_norm": 1.9203850030899048,
	"grad_norm_var": 0.18408730894700795,
	"learning_rate": 6e-05,
	"loss": 1.2862,
	"loss/crossentropy": 2.319091558456421,
	"loss/hidden": 1.09375,
	"loss/logits": 0.1918697953224182,
	"loss/reg": 6.239335925783962e-05,
	"step": 60
	},
	{
	"epoch": 0.007625,
	"grad_norm": 2.689425230026245,
	"grad_norm_var": 0.1988651894699956,
	"learning_rate": 6.1e-05,
	"loss": 1.2077,
	"loss/crossentropy": 2.396440029144287,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.1523526906967163,
	"loss/reg": 6.239157664822415e-05,
	"step": 61
	},
	{
	"epoch": 0.00775,
	"grad_norm": 2.0848548412323,
	"grad_norm_var": 0.184926237897677,
	"learning_rate": 6.2e-05,
	"loss": 1.1889,
	"loss/crossentropy": 2.375331401824951,
	"loss/hidden": 1.03125,
	"loss/logits": 0.15707406401634216,
	"loss/reg": 6.238814967218786e-05,
	"step": 62
	},
	{
	"epoch": 0.007875,
	"grad_norm": 1.9770179986953735,
	"grad_norm_var": 0.18547542502594508,
	"learning_rate": 6.3e-05,
	"loss": 1.1255,
	"loss/crossentropy": 2.5883288383483887,
	"loss/hidden": 0.984375,
	"loss/logits": 0.14046350121498108,
	"loss/reg": 6.238514470169321e-05,
	"step": 63
	},
	{
	"epoch": 0.008,
	"grad_norm": 1.9654349088668823,
	"grad_norm_var": 0.1832653842408547,
	"learning_rate": 6.400000000000001e-05,
	"loss": 1.1315,
	"loss/crossentropy": 2.6122260093688965,
	"loss/hidden": 0.9765625,
	"loss/logits": 0.1543133556842804,
	"loss/reg": 6.238299101823941e-05,
	"step": 64
	},
	{
	"epoch": 0.008125,
	"grad_norm": 2.110621690750122,
	"grad_norm_var": 0.1715223081433841,
	"learning_rate": 6.500000000000001e-05,
	"loss": 1.1513,
	"loss/crossentropy": 2.3829517364501953,
	"loss/hidden": 1.0,
	"loss/logits": 0.15063607692718506,
	"loss/reg": 6.237896013772115e-05,
	"step": 65
	},
	{
	"epoch": 0.00825,
	"grad_norm": 3.1477179527282715,
	"grad_norm_var": 0.21553302023151552,
	"learning_rate": 6.6e-05,
	"loss": 1.4659,
	"loss/crossentropy": 2.2805211544036865,
	"loss/hidden": 1.2421875,
	"loss/logits": 0.22310970723628998,
	"loss/reg": 6.237393972696736e-05,
	"step": 66
	},
	{
	"epoch": 0.008375,
	"grad_norm": 2.482203722000122,
	"grad_norm_var": 0.21008166056666275,
	"learning_rate": 6.7e-05,
	"loss": 1.0839,
	"loss/crossentropy": 2.982119560241699,
	"loss/hidden": 0.94140625,
	"loss/logits": 0.14186254143714905,
	"loss/reg": 6.236990884644911e-05,
	"step": 67
	},
	{
	"epoch": 0.0085,
	"grad_norm": 2.198028087615967,
	"grad_norm_var": 0.21061508280485744,
	"learning_rate": 6.800000000000001e-05,
	"loss": 1.2007,
	"loss/crossentropy": 2.725332498550415,
	"loss/hidden": 1.0390625,
	"loss/logits": 0.1610267162322998,
	"loss/reg": 6.236397166503593e-05,
	"step": 68
	},
	{
	"epoch": 0.008625,
	"grad_norm": 1.9412530660629272,
	"grad_norm_var": 0.21734592747188602,
	"learning_rate": 6.9e-05,
	"loss": 1.1269,
	"loss/crossentropy": 2.682379722595215,
	"loss/hidden": 0.984375,
	"loss/logits": 0.14185243844985962,
	"loss/reg": 6.235777982510626e-05,
	"step": 69
	},
	{
	"epoch": 0.00875,
	"grad_norm": 2.223443031311035,
	"grad_norm_var": 0.21757323137186588,
	"learning_rate": 7e-05,
	"loss": 1.3663,
	"loss/crossentropy": 2.6186935901641846,
	"loss/hidden": 1.1640625,
	"loss/logits": 0.2016535997390747,
	"loss/reg": 6.23530286247842e-05,
	"step": 70
	},
	{
	"epoch": 0.008875,
	"grad_norm": 3.4456241130828857,
	"grad_norm_var": 0.28625219910078287,
	"learning_rate": 7.1e-05,
	"loss": 1.6214,
	"loss/crossentropy": 2.054266929626465,
	"loss/hidden": 1.421875,
	"loss/logits": 0.19887767732143402,
	"loss/reg": 6.234741158550605e-05,
	"step": 71
	},
	{
	"epoch": 0.009,
	"grad_norm": 1.9013352394104004,
	"grad_norm_var": 0.27557130255187207,
	"learning_rate": 7.2e-05,
	"loss": 1.1365,
	"loss/crossentropy": 2.422841787338257,
	"loss/hidden": 0.9765625,
	"loss/logits": 0.15926527976989746,
	"loss/reg": 6.234211468836293e-05,
	"step": 72
	},
	{
	"epoch": 0.009125,
	"grad_norm": 2.4032697677612305,
	"grad_norm_var": 0.267026183625853,
	"learning_rate": 7.3e-05,
	"loss": 1.4414,
	"loss/crossentropy": 2.4159440994262695,
	"loss/hidden": 1.21875,
	"loss/logits": 0.22204136848449707,
	"loss/reg": 6.233662861632183e-05,
	"step": 73
	},
	{
	"epoch": 0.00925,
	"grad_norm": 1.915128231048584,
	"grad_norm_var": 0.21002777018266153,
	"learning_rate": 7.4e-05,
	"loss": 1.2439,
	"loss/crossentropy": 2.587275505065918,
	"loss/hidden": 1.0625,
	"loss/logits": 0.1807810664176941,
	"loss/reg": 6.232755549717695e-05,
	"step": 74
	},
	{
	"epoch": 0.009375,
	"grad_norm": 3.4048879146575928,
	"grad_norm_var": 0.28520435687560547,
	"learning_rate": 7.500000000000001e-05,
	"loss": 1.2774,
	"loss/crossentropy": 2.6182703971862793,
	"loss/hidden": 1.125,
	"loss/logits": 0.15172982215881348,
	"loss/reg": 6.231923180166632e-05,
	"step": 75
	},
	{
	"epoch": 0.0095,
	"grad_norm": 2.3605074882507324,
	"grad_norm_var": 0.27132747056331724,
	"learning_rate": 7.6e-05,
	"loss": 1.1409,
	"loss/crossentropy": 2.6013262271881104,
	"loss/hidden": 0.98828125,
	"loss/logits": 0.151985764503479,
	"loss/reg": 6.231063889572397e-05,
	"step": 76
	},
	{
	"epoch": 0.009625,
	"grad_norm": 2.6056039333343506,
	"grad_norm_var": 0.2684276793201585,
	"learning_rate": 7.7e-05,
	"loss": 1.1,
	"loss/crossentropy": 2.534158945083618,
	"loss/hidden": 0.94921875,
	"loss/logits": 0.1501779407262802,
	"loss/reg": 6.230256258277223e-05,
	"step": 77
	},
	{
	"epoch": 0.00975,
	"grad_norm": 1.7923972606658936,
	"grad_norm_var": 0.285494251958092,
	"learning_rate": 7.800000000000001e-05,
	"loss": 1.1471,
	"loss/crossentropy": 2.3036601543426514,
	"loss/hidden": 0.98828125,
	"loss/logits": 0.15817409753799438,
	"loss/reg": 6.229766586329788e-05,
	"step": 78
	},
	{
	"epoch": 0.009875,
	"grad_norm": 2.0376312732696533,
	"grad_norm_var": 0.2825708803585835,
	"learning_rate": 7.900000000000001e-05,
	"loss": 1.2985,
	"loss/crossentropy": 2.5548579692840576,
	"loss/hidden": 1.140625,
	"loss/logits": 0.1572834551334381,
	"loss/reg": 6.229063728824258e-05,
	"step": 79
	},
	{
	"epoch": 0.01,
	"grad_norm": 2.998662233352661,
	"grad_norm_var": 0.29342903010298654,
	"learning_rate": 8e-05,
	"loss": 1.5504,
	"loss/crossentropy": 2.4098215103149414,
	"loss/hidden": 1.3046875,
	"loss/logits": 0.24512597918510437,
	"loss/reg": 6.22822335571982e-05,
	"step": 80
	},
	{
	"epoch": 0.010125,
	"grad_norm": 2.103449583053589,
	"grad_norm_var": 0.29374293883859787,
	"learning_rate": 8.1e-05,
	"loss": 1.2985,
	"loss/crossentropy": 2.380378484725952,
	"loss/hidden": 1.125,
	"loss/logits": 0.17282900214195251,
	"loss/reg": 6.227292760740966e-05,
	"step": 81
	},
	{
	"epoch": 0.01025,
	"grad_norm": 2.6376256942749023,
	"grad_norm_var": 0.2615363410208279,
	"learning_rate": 8.2e-05,
	"loss": 1.266,
	"loss/crossentropy": 2.4291374683380127,
	"loss/hidden": 1.1015625,
	"loss/logits": 0.16384728252887726,
	"loss/reg": 6.226752884685993e-05,
	"step": 82
	},
	{
	"epoch": 0.010375,
	"grad_norm": 2.0763561725616455,
	"grad_norm_var": 0.2675552215302521,
	"learning_rate": 8.3e-05,
	"loss": 1.1733,
	"loss/crossentropy": 2.423896312713623,
	"loss/hidden": 1.015625,
	"loss/logits": 0.15705125033855438,
	"loss/reg": 6.225931429071352e-05,
	"step": 83
	},
	{
	"epoch": 0.0105,
	"grad_norm": 4.398110866546631,
	"grad_norm_var": 0.5173355174320988,
	"learning_rate": 8.4e-05,
	"loss": 1.5654,
	"loss/crossentropy": 2.230816602706909,
	"loss/hidden": 1.296875,
	"loss/logits": 0.26791903376579285,
	"loss/reg": 6.225006654858589e-05,
	"step": 84
	},
	{
	"epoch": 0.010625,
	"grad_norm": 2.7163784503936768,
	"grad_norm_var": 0.4955558090734691,
	"learning_rate": 8.5e-05,
	"loss": 1.2008,
	"loss/crossentropy": 2.1671087741851807,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.145525261759758,
	"loss/reg": 6.224414391908795e-05,
	"step": 85
	},
	{
	"epoch": 0.01075,
	"grad_norm": 1.9465394020080566,
	"grad_norm_var": 0.5129132822581631,
	"learning_rate": 8.6e-05,
	"loss": 1.0109,
	"loss/crossentropy": 2.218550443649292,
	"loss/hidden": 0.90234375,
	"loss/logits": 0.10795612633228302,
	"loss/reg": 6.22385778115131e-05,
	"step": 86
	},
	{
	"epoch": 0.010875,
	"grad_norm": 5.668015956878662,
	"grad_norm_var": 1.0880389746416426,
	"learning_rate": 8.7e-05,
	"loss": 1.2925,
	"loss/crossentropy": 2.360995292663574,
	"loss/hidden": 1.1484375,
	"loss/logits": 0.1434704214334488,
	"loss/reg": 6.223141826922074e-05,
	"step": 87
	},
	{
	"epoch": 0.011,
	"grad_norm": 3.4049394130706787,
	"grad_norm_var": 1.0721571012465496,
	"learning_rate": 8.800000000000001e-05,
	"loss": 1.6353,
	"loss/crossentropy": 1.9898579120635986,
	"loss/hidden": 1.3828125,
	"loss/logits": 0.25186440348625183,
	"loss/reg": 6.222462252480909e-05,
	"step": 88
	},
	{
	"epoch": 0.011125,
	"grad_norm": 1.885895013809204,
	"grad_norm_var": 1.1148297312339375,
	"learning_rate": 8.900000000000001e-05,
	"loss": 1.0561,
	"loss/crossentropy": 2.670912027359009,
	"loss/hidden": 0.92578125,
	"loss/logits": 0.12972213327884674,
	"loss/reg": 6.221828516572714e-05,
	"step": 89
	},
	{
	"epoch": 0.01125,
	"grad_norm": 1.886960506439209,
	"grad_norm_var": 1.118003608268531,
	"learning_rate": 9e-05,
	"loss": 1.1335,
	"loss/crossentropy": 2.5691866874694824,
	"loss/hidden": 0.97265625,
	"loss/logits": 0.16021151840686798,
	"loss/reg": 6.221193325472996e-05,
	"step": 90
	},
	{
	"epoch": 0.011375,
	"grad_norm": 3.117880344390869,
	"grad_norm_var": 1.0979090394478965,
	"learning_rate": 9.1e-05,
	"loss": 1.3175,
	"loss/crossentropy": 2.7383711338043213,
	"loss/hidden": 1.140625,
	"loss/logits": 0.1762513369321823,
	"loss/reg": 6.220516661414877e-05,
	"step": 91
	},
	{
	"epoch": 0.0115,
	"grad_norm": 2.5928220748901367,
	"grad_norm_var": 1.0899203711980436,
	"learning_rate": 9.200000000000001e-05,
	"loss": 1.3898,
	"loss/crossentropy": 2.255321741104126,
	"loss/hidden": 1.171875,
	"loss/logits": 0.21727776527404785,
	"loss/reg": 6.2199542298913e-05,
	"step": 92
	},
	{
	"epoch": 0.011625,
	"grad_norm": 2.5842387676239014,
	"grad_norm_var": 1.09033696415262,
	"learning_rate": 9.300000000000001e-05,
	"loss": 1.3599,
	"loss/crossentropy": 2.7780256271362305,
	"loss/hidden": 1.15625,
	"loss/logits": 0.203078031539917,
	"loss/reg": 6.219152419362217e-05,
	"step": 93
	},
	{
	"epoch": 0.01175,
	"grad_norm": 2.497912645339966,
	"grad_norm_var": 1.032260222561935,
	"learning_rate": 9.4e-05,
	"loss": 1.2791,
	"loss/crossentropy": 2.0482513904571533,
	"loss/hidden": 1.109375,
	"loss/logits": 0.16910339891910553,
	"loss/reg": 6.218066846486181e-05,
	"step": 94
	},
	{
	"epoch": 0.011875,
	"grad_norm": 2.1033713817596436,
	"grad_norm_var": 1.0259829914817806,
	"learning_rate": 9.5e-05,
	"loss": 1.0875,
	"loss/crossentropy": 2.427816152572632,
	"loss/hidden": 0.94921875,
	"loss/logits": 0.13770164549350739,
	"loss/reg": 6.21745057287626e-05,
	"step": 95
	},
	{
	"epoch": 0.012,
	"grad_norm": 2.063559055328369,
	"grad_norm_var": 1.0544556100156115,
	"learning_rate": 9.6e-05,
	"loss": 1.217,
	"loss/crossentropy": 2.498270034790039,
	"loss/hidden": 1.046875,
	"loss/logits": 0.16950619220733643,
	"loss/reg": 6.216309702722356e-05,
	"step": 96
	},
	{
	"epoch": 0.012125,
	"grad_norm": 2.3693654537200928,
	"grad_norm_var": 1.036651450071012,
	"learning_rate": 9.7e-05,
	"loss": 1.2016,
	"loss/crossentropy": 2.8368701934814453,
	"loss/hidden": 1.0390625,
	"loss/logits": 0.16189493238925934,
	"loss/reg": 6.215785833774135e-05,
	"step": 97
	},
	{
	"epoch": 0.01225,
	"grad_norm": 2.2980258464813232,
	"grad_norm_var": 1.0488061784492646,
	"learning_rate": 9.8e-05,
	"loss": 1.5249,
	"loss/crossentropy": 2.194488525390625,
	"loss/hidden": 1.2421875,
	"loss/logits": 0.2820858359336853,
	"loss/reg": 6.215048051672056e-05,
	"step": 98
	},
	{
	"epoch": 0.012375,
	"grad_norm": 3.147524833679199,
	"grad_norm_var": 1.0277853179901806,
	"learning_rate": 9.900000000000001e-05,
	"loss": 1.7374,
	"loss/crossentropy": 2.7856016159057617,
	"loss/hidden": 1.4609375,
	"loss/logits": 0.27581536769866943,
	"loss/reg": 6.214459426701069e-05,
	"step": 99
	},
	{
	"epoch": 0.0125,
	"grad_norm": 2.1317031383514404,
	"grad_norm_var": 0.8636563030021608,
	"learning_rate": 0.0001,
	"loss": 1.3633,
	"loss/crossentropy": 2.282402753829956,
	"loss/hidden": 1.1484375,
	"loss/logits": 0.2142634242773056,
	"loss/reg": 6.213640881469473e-05,
	"step": 100
	},
	{
	"epoch": 0.012625,
	"grad_norm": 2.2720911502838135,
	"grad_norm_var": 0.8721171319962743,
	"learning_rate": 0.0001,
	"loss": 1.2405,
	"loss/crossentropy": 2.8501064777374268,
	"loss/hidden": 1.0625,
	"loss/logits": 0.17741592228412628,
	"loss/reg": 6.21288490947336e-05,
	"step": 101
	},
	{
	"epoch": 0.01275,
	"grad_norm": 2.879110097885132,
	"grad_norm_var": 0.8423375514351165,
	"learning_rate": 0.0001,
	"loss": 1.3486,
	"loss/crossentropy": 2.4649596214294434,
	"loss/hidden": 1.171875,
	"loss/logits": 0.1761254221200943,
	"loss/reg": 6.211963773239404e-05,
	"step": 102
	},
	{
	"epoch": 0.012875,
	"grad_norm": 2.2214345932006836,
	"grad_norm_var": 0.2123174305005847,
	"learning_rate": 0.0001,
	"loss": 1.1049,
	"loss/crossentropy": 2.513540029525757,
	"loss/hidden": 0.96484375,
	"loss/logits": 0.13943374156951904,
	"loss/reg": 6.21131548541598e-05,
	"step": 103
	},
	{
	"epoch": 0.013,
	"grad_norm": 1.9674383401870728,
	"grad_norm_var": 0.16151448650877043,
	"learning_rate": 0.0001,
	"loss": 1.2055,
	"loss/crossentropy": 2.4960575103759766,
	"loss/hidden": 1.03125,
	"loss/logits": 0.17365112900733948,
	"loss/reg": 6.210394349182025e-05,
	"step": 104
	},
	{
	"epoch": 0.013125,
	"grad_norm": 2.152989387512207,
	"grad_norm_var": 0.1485118756217919,
	"learning_rate": 0.0001,
	"loss": 1.3728,
	"loss/crossentropy": 2.651463508605957,
	"loss/hidden": 1.1796875,
	"loss/logits": 0.1924474835395813,
	"loss/reg": 6.209702405612916e-05,
	"step": 105
	},
	{
	"epoch": 0.01325,
	"grad_norm": 2.591555118560791,
	"grad_norm_var": 0.13200909593287988,
	"learning_rate": 0.0001,
	"loss": 1.5933,
	"loss/crossentropy": 2.1848952770233154,
	"loss/hidden": 1.375,
	"loss/logits": 0.21770122647285461,
	"loss/reg": 6.208720878930762e-05,
	"step": 106
	},
	{
	"epoch": 0.013375,
	"grad_norm": 2.205780029296875,
	"grad_norm_var": 0.10119294371901374,
	"learning_rate": 0.0001,
	"loss": 0.9785,
	"loss/crossentropy": 2.4988999366760254,
	"loss/hidden": 0.8671875,
	"loss/logits": 0.1106652021408081,
	"loss/reg": 6.207643309608102e-05,
	"step": 107
	},
	{
	"epoch": 0.0135,
	"grad_norm": 2.427882671356201,
	"grad_norm_var": 0.09821140867718908,
	"learning_rate": 0.0001,
	"loss": 1.2968,
	"loss/crossentropy": 2.5072600841522217,
	"loss/hidden": 1.09375,
	"loss/logits": 0.20241403579711914,
	"loss/reg": 6.206895341165364e-05,
	"step": 108
	},
	{
	"epoch": 0.013625,
	"grad_norm": 2.4435040950775146,
	"grad_norm_var": 0.09542213222792188,
	"learning_rate": 0.0001,
	"loss": 1.2803,
	"loss/crossentropy": 2.2629339694976807,
	"loss/hidden": 1.1015625,
	"loss/logits": 0.17810457944869995,
	"loss/reg": 6.205752288224176e-05,
	"step": 109
	},
	{
	"epoch": 0.01375,
	"grad_norm": 2.9938735961914062,
	"grad_norm_var": 0.11986086275213564,
	"learning_rate": 0.0001,
	"loss": 1.2708,
	"loss/crossentropy": 2.5084388256073,
	"loss/hidden": 1.09375,
	"loss/logits": 0.1764756739139557,
	"loss/reg": 6.204319652169943e-05,
	"step": 110
	},
	{
	"epoch": 0.013875,
	"grad_norm": 2.499802827835083,
	"grad_norm_var": 0.11443625726480532,
	"learning_rate": 0.0001,
	"loss": 1.3281,
	"loss/crossentropy": 2.342087507247925,
	"loss/hidden": 1.15625,
	"loss/logits": 0.17120838165283203,
	"loss/reg": 6.20328210061416e-05,
	"step": 111
	},
	{
	"epoch": 0.014,
	"grad_norm": 3.28193736076355,
	"grad_norm_var": 0.149862047644675,
	"learning_rate": 0.0001,
	"loss": 1.3891,
	"loss/crossentropy": 2.396040916442871,
	"loss/hidden": 1.1953125,
	"loss/logits": 0.193180650472641,
	"loss/reg": 6.202506483532488e-05,
	"step": 112
	},
	{
	"epoch": 0.014125,
	"grad_norm": 2.2074780464172363,
	"grad_norm_var": 0.15416329735346365,
	"learning_rate": 0.0001,
	"loss": 1.2137,
	"loss/crossentropy": 2.501718759536743,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.1583903729915619,
	"loss/reg": 6.201667565619573e-05,
	"step": 113
	},
	{
	"epoch": 0.01425,
	"grad_norm": 2.888498306274414,
	"grad_norm_var": 0.1614203311265588,
	"learning_rate": 0.0001,
	"loss": 1.3498,
	"loss/crossentropy": 3.097370147705078,
	"loss/hidden": 1.15625,
	"loss/logits": 0.19293376803398132,
	"loss/reg": 6.200573989190161e-05,
	"step": 114
	},
	{
	"epoch": 0.014375,
	"grad_norm": 2.385442018508911,
	"grad_norm_var": 0.1339080451651928,
	"learning_rate": 0.0001,
	"loss": 1.3415,
	"loss/crossentropy": 2.4950473308563232,
	"loss/hidden": 1.15625,
	"loss/logits": 0.18464481830596924,
	"loss/reg": 6.199457857292145e-05,
	"step": 115
	},
	{
	"epoch": 0.0145,
	"grad_norm": 3.3269190788269043,
	"grad_norm_var": 0.16897616880053803,
	"learning_rate": 0.0001,
	"loss": 1.6405,
	"loss/crossentropy": 2.19484806060791,
	"loss/hidden": 1.3828125,
	"loss/logits": 0.2570968270301819,
	"loss/reg": 6.198590563144535e-05,
	"step": 116
	},
	{
	"epoch": 0.014625,
	"grad_norm": 2.2415361404418945,
	"grad_norm_var": 0.17015290356553733,
	"learning_rate": 0.0001,
	"loss": 1.2381,
	"loss/crossentropy": 2.540816068649292,
	"loss/hidden": 1.0625,
	"loss/logits": 0.1749531626701355,
	"loss/reg": 6.197726906975731e-05,
	"step": 117
	},
	{
	"epoch": 0.01475,
	"grad_norm": 2.397615671157837,
	"grad_norm_var": 0.1631737555736056,
	"learning_rate": 0.0001,
	"loss": 1.2192,
	"loss/crossentropy": 2.6213266849517822,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.16386428475379944,
	"loss/reg": 6.197066250024363e-05,
	"step": 118
	},
	{
	"epoch": 0.014875,
	"grad_norm": 2.75325345993042,
	"grad_norm_var": 0.16006220619054398,
	"learning_rate": 0.0001,
	"loss": 1.5693,
	"loss/crossentropy": 2.3850035667419434,
	"loss/hidden": 1.34375,
	"loss/logits": 0.2249460369348526,
	"loss/reg": 6.196285539772362e-05,
	"step": 119
	},
	{
	"epoch": 0.015,
	"grad_norm": 2.675480842590332,
	"grad_norm_var": 0.13660137165245084,
	"learning_rate": 0.0001,
	"loss": 1.299,
	"loss/crossentropy": 2.380896806716919,
	"loss/hidden": 1.125,
	"loss/logits": 0.17339974641799927,
	"loss/reg": 6.195474998094141e-05,
	"step": 120
	},
	{
	"epoch": 0.015125,
	"grad_norm": 2.611541509628296,
	"grad_norm_var": 0.12289609882195597,
	"learning_rate": 0.0001,
	"loss": 1.2924,
	"loss/crossentropy": 2.7064404487609863,
	"loss/hidden": 1.109375,
	"loss/logits": 0.18236055970191956,
	"loss/reg": 6.194705929374322e-05,
	"step": 121
	},
	{
	"epoch": 0.01525,
	"grad_norm": 2.3449323177337646,
	"grad_norm_var": 0.12765774775469155,
	"learning_rate": 0.0001,
	"loss": 1.2957,
	"loss/crossentropy": 2.5846447944641113,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.17786133289337158,
	"loss/reg": 6.193818262545392e-05,
	"step": 122
	},
	{
	"epoch": 0.015375,
	"grad_norm": 2.1001734733581543,
	"grad_norm_var": 0.13398098136615483,
	"learning_rate": 0.0001,
	"loss": 1.1704,
	"loss/crossentropy": 2.504185676574707,
	"loss/hidden": 1.015625,
	"loss/logits": 0.15416675806045532,
	"loss/reg": 6.192670116433874e-05,
	"step": 123
	},
	{
	"epoch": 0.0155,
	"grad_norm": 2.365839719772339,
	"grad_norm_var": 0.13563497966163046,
	"learning_rate": 0.0001,
	"loss": 1.3773,
	"loss/crossentropy": 2.3259832859039307,
	"loss/hidden": 1.171875,
	"loss/logits": 0.20480972528457642,
	"loss/reg": 6.19165730313398e-05,
	"step": 124
	},
	{
	"epoch": 0.015625,
	"grad_norm": 2.1480026245117188,
	"grad_norm_var": 0.1470561705316013,
	"learning_rate": 0.0001,
	"loss": 1.2768,
	"loss/crossentropy": 2.288093090057373,
	"loss/hidden": 1.109375,
	"loss/logits": 0.16683252155780792,
	"loss/reg": 6.19063139311038e-05,
	"step": 125
	},
	{
	"epoch": 0.01575,
	"grad_norm": 2.2346343994140625,
	"grad_norm_var": 0.14082182611320845,
	"learning_rate": 0.0001,
	"loss": 1.1441,
	"loss/crossentropy": 2.6062135696411133,
	"loss/hidden": 1.0,
	"loss/logits": 0.14351129531860352,
	"loss/reg": 6.189729174366221e-05,
	"step": 126
	},
	{
	"epoch": 0.015875,
	"grad_norm": 3.187627077102661,
	"grad_norm_var": 0.16771827237098264,
	"learning_rate": 0.0001,
	"loss": 1.4505,
	"loss/crossentropy": 2.3607077598571777,
	"loss/hidden": 1.2265625,
	"loss/logits": 0.22327345609664917,
	"loss/reg": 6.189044506754726e-05,
	"step": 127
	},
	{
	"epoch": 0.016,
	"grad_norm": 2.1208789348602295,
	"grad_norm_var": 0.1420574537193353,
	"learning_rate": 0.0001,
	"loss": 1.1414,
	"loss/crossentropy": 2.408287286758423,
	"loss/hidden": 1.0,
	"loss/logits": 0.14076298475265503,
	"loss/reg": 6.188445695443079e-05,
	"step": 128
	},
	{
	"epoch": 0.016125,
	"grad_norm": 2.4475457668304443,
	"grad_norm_var": 0.13631644029428572,
	"learning_rate": 0.0001,
	"loss": 1.2863,
	"loss/crossentropy": 2.4705042839050293,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.16846278309822083,
	"loss/reg": 6.187462713569403e-05,
	"step": 129
	},
	{
	"epoch": 0.01625,
	"grad_norm": 2.3132476806640625,
	"grad_norm_var": 0.128302854564951,
	"learning_rate": 0.0001,
	"loss": 1.2265,
	"loss/crossentropy": 2.323221445083618,
	"loss/hidden": 1.0625,
	"loss/logits": 0.16340406239032745,
	"loss/reg": 6.18634803686291e-05,
	"step": 130
	},
	{
	"epoch": 0.016375,
	"grad_norm": 2.6015546321868896,
	"grad_norm_var": 0.12854282273958592,
	"learning_rate": 0.0001,
	"loss": 1.0946,
	"loss/crossentropy": 2.554730176925659,
	"loss/hidden": 0.9609375,
	"loss/logits": 0.13307343423366547,
	"loss/reg": 6.185180245665833e-05,
	"step": 131
	},
	{
	"epoch": 0.0165,
	"grad_norm": 2.040545701980591,
	"grad_norm_var": 0.08874970269449302,
	"learning_rate": 0.0001,
	"loss": 1.1715,
	"loss/crossentropy": 2.6177141666412354,
	"loss/hidden": 1.0078125,
	"loss/logits": 0.163020521402359,
	"loss/reg": 6.184292578836903e-05,
	"step": 132
	},
	{
	"epoch": 0.016625,
	"grad_norm": 2.4451427459716797,
	"grad_norm_var": 0.08672588329890019,
	"learning_rate": 0.0001,
	"loss": 1.2794,
	"loss/crossentropy": 2.6671459674835205,
	"loss/hidden": 1.109375,
	"loss/logits": 0.16941678524017334,
	"loss/reg": 6.18349076830782e-05,
	"step": 133
	},
	{
	"epoch": 0.01675,
	"grad_norm": 2.5730879306793213,
	"grad_norm_var": 0.08802712142174655,
	"learning_rate": 0.0001,
	"loss": 1.356,
	"loss/crossentropy": 2.483858585357666,
	"loss/hidden": 1.171875,
	"loss/logits": 0.1835438758134842,
	"loss/reg": 6.182605284266174e-05,
	"step": 134
	},
	{
	"epoch": 0.016875,
	"grad_norm": 2.996643543243408,
	"grad_norm_var": 0.10205043083370029,
	"learning_rate": 0.0001,
	"loss": 1.5067,
	"loss/crossentropy": 2.267930507659912,
	"loss/hidden": 1.3046875,
	"loss/logits": 0.20140591263771057,
	"loss/reg": 6.181577919051051e-05,
	"step": 135
	},
	{
	"epoch": 0.017,
	"grad_norm": 2.2333881855010986,
	"grad_norm_var": 0.10100001995976887,
	"learning_rate": 0.0001,
	"loss": 1.23,
	"loss/crossentropy": 2.552584648132324,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.17466390132904053,
	"loss/reg": 6.180404307087883e-05,
	"step": 136
	},
	{
	"epoch": 0.017125,
	"grad_norm": 2.476086378097534,
	"grad_norm_var": 0.09873795942098601,
	"learning_rate": 0.0001,
	"loss": 1.2347,
	"loss/crossentropy": 2.2955551147460938,
	"loss/hidden": 1.09375,
	"loss/logits": 0.1402929574251175,
	"loss/reg": 6.179526099003851e-05,
	"step": 137
	},
	{
	"epoch": 0.01725,
	"grad_norm": 2.9701859951019287,
	"grad_norm_var": 0.11738609069977789,
	"learning_rate": 0.0001,
	"loss": 1.1041,
	"loss/crossentropy": 2.4560158252716064,
	"loss/hidden": 0.97265625,
	"loss/logits": 0.1307787150144577,
	"loss/reg": 6.178120383992791e-05,
	"step": 138
	},
	{
	"epoch": 0.017375,
	"grad_norm": 2.151567220687866,
	"grad_norm_var": 0.11513060923898569,
	"learning_rate": 0.0001,
	"loss": 1.1406,
	"loss/crossentropy": 2.6192235946655273,
	"loss/hidden": 0.98828125,
	"loss/logits": 0.15172292292118073,
	"loss/reg": 6.176753231557086e-05,
	"step": 139
	},
	{
	"epoch": 0.0175,
	"grad_norm": 2.0209085941314697,
	"grad_norm_var": 0.1267419293205286,
	"learning_rate": 0.0001,
	"loss": 1.0928,
	"loss/crossentropy": 2.6628799438476562,
	"loss/hidden": 0.94921875,
	"loss/logits": 0.14296585321426392,
	"loss/reg": 6.175567978061736e-05,
	"step": 140
	},
	{
	"epoch": 0.017625,
	"grad_norm": 3.458299398422241,
	"grad_norm_var": 0.18389511336323494,
	"learning_rate": 0.0001,
	"loss": 1.3966,
	"loss/crossentropy": 2.885798692703247,
	"loss/hidden": 1.171875,
	"loss/logits": 0.22411209344863892,
	"loss/reg": 6.174653390189633e-05,
	"step": 141
	},
	{
	"epoch": 0.01775,
	"grad_norm": 2.608558177947998,
	"grad_norm_var": 0.17855808227350187,
	"learning_rate": 0.0001,
	"loss": 1.1734,
	"loss/crossentropy": 2.2689590454101562,
	"loss/hidden": 1.0234375,
	"loss/logits": 0.1493585705757141,
	"loss/reg": 6.1732207541354e-05,
	"step": 142
	},
	{
	"epoch": 0.017875,
	"grad_norm": 2.7264318466186523,
	"grad_norm_var": 0.1520478077633771,
	"learning_rate": 0.0001,
	"loss": 1.2868,
	"loss/crossentropy": 2.3888814449310303,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.16896918416023254,
	"loss/reg": 6.172260327730328e-05,
	"step": 143
	},
	{
	"epoch": 0.018,
	"grad_norm": 2.4999561309814453,
	"grad_norm_var": 0.14128539295791806,
	"learning_rate": 0.0001,
	"loss": 1.3804,
	"loss/crossentropy": 2.442732572555542,
	"loss/hidden": 1.1875,
	"loss/logits": 0.19230639934539795,
	"loss/reg": 6.171311542857438e-05,
	"step": 144
	},
	{
	"epoch": 0.018125,
	"grad_norm": 3.084848642349243,
	"grad_norm_var": 0.1592220375940921,
	"learning_rate": 0.0001,
	"loss": 1.5124,
	"loss/crossentropy": 2.6801810264587402,
	"loss/hidden": 1.2421875,
	"loss/logits": 0.2696050703525543,
	"loss/reg": 6.170615233713761e-05,
	"step": 145
	},
	{
	"epoch": 0.01825,
	"grad_norm": 3.0833539962768555,
	"grad_norm_var": 0.16940866671487811,
	"learning_rate": 0.0001,
	"loss": 1.294,
	"loss/crossentropy": 2.434020519256592,
	"loss/hidden": 1.140625,
	"loss/logits": 0.15272179245948792,
	"loss/reg": 6.170049164211378e-05,
	"step": 146
	},
	{
	"epoch": 0.018375,
	"grad_norm": 2.2046446800231934,
	"grad_norm_var": 0.18039814292173043,
	"learning_rate": 0.0001,
	"loss": 1.1769,
	"loss/crossentropy": 2.5624289512634277,
	"loss/hidden": 1.015625,
	"loss/logits": 0.160653755068779,
	"loss/reg": 6.169131665956229e-05,
	"step": 147
	},
	{
	"epoch": 0.0185,
	"grad_norm": 1.9920902252197266,
	"grad_norm_var": 0.18414873169562326,
	"learning_rate": 0.0001,
	"loss": 1.1186,
	"loss/crossentropy": 2.709728479385376,
	"loss/hidden": 0.96875,
	"loss/logits": 0.1492651402950287,
	"loss/reg": 6.168704567244276e-05,
	"step": 148
	},
	{
	"epoch": 0.018625,
	"grad_norm": 2.7053756713867188,
	"grad_norm_var": 0.18317033653553666,
	"learning_rate": 0.0001,
	"loss": 1.2849,
	"loss/crossentropy": 2.594032049179077,
	"loss/hidden": 1.09375,
	"loss/logits": 0.1905450075864792,
	"loss/reg": 6.168089748825878e-05,
	"step": 149
	},
	{
	"epoch": 0.01875,
	"grad_norm": 2.1234872341156006,
	"grad_norm_var": 0.1981121598309187,
	"learning_rate": 0.0001,
	"loss": 1.2526,
	"loss/crossentropy": 2.5880792140960693,
	"loss/hidden": 1.0703125,
	"loss/logits": 0.18171370029449463,
	"loss/reg": 6.167205719975755e-05,
	"step": 150
	},
	{
	"epoch": 0.018875,
	"grad_norm": 2.4820902347564697,
	"grad_norm_var": 0.18631464898325945,
	"learning_rate": 0.0001,
	"loss": 1.1869,
	"loss/crossentropy": 2.2422618865966797,
	"loss/hidden": 1.0234375,
	"loss/logits": 0.16288068890571594,
	"loss/reg": 6.166584353195503e-05,
	"step": 151
	},
	{
	"epoch": 0.019,
	"grad_norm": 2.5669338703155518,
	"grad_norm_var": 0.17912821539433874,
	"learning_rate": 0.0001,
	"loss": 1.0968,
	"loss/crossentropy": 2.5655312538146973,
	"loss/hidden": 0.953125,
	"loss/logits": 0.1430792212486267,
	"loss/reg": 6.165904778754339e-05,
	"step": 152
	},
	{
	"epoch": 0.019125,
	"grad_norm": 2.191638469696045,
	"grad_norm_var": 0.18782946638749062,
	"learning_rate": 0.0001,
	"loss": 1.297,
	"loss/crossentropy": 2.3935883045196533,
	"loss/hidden": 1.109375,
	"loss/logits": 0.18698745965957642,
	"loss/reg": 6.165434024296701e-05,
	"step": 153
	},
	{
	"epoch": 0.01925,
	"grad_norm": 1.9139376878738403,
	"grad_norm_var": 0.19900155234911943,
	"learning_rate": 0.0001,
	"loss": 1.1497,
	"loss/crossentropy": 2.5978732109069824,
	"loss/hidden": 0.99609375,
	"loss/logits": 0.1530168354511261,
	"loss/reg": 6.164138176245615e-05,
	"step": 154
	},
	{
	"epoch": 0.019375,
	"grad_norm": 2.061805486679077,
	"grad_norm_var": 0.20353621009625153,
	"learning_rate": 0.0001,
	"loss": 1.034,
	"loss/crossentropy": 2.29733943939209,
	"loss/hidden": 0.91015625,
	"loss/logits": 0.12318030744791031,
	"loss/reg": 6.162770296214148e-05,
	"step": 155
	},
	{
	"epoch": 0.0195,
	"grad_norm": 2.686328649520874,
	"grad_norm_var": 0.19023239802865194,
	"learning_rate": 0.0001,
	"loss": 1.4235,
	"loss/crossentropy": 2.2928433418273926,
	"loss/hidden": 1.2265625,
	"loss/logits": 0.19631928205490112,
	"loss/reg": 6.16170436842367e-05,
	"step": 156
	},
	{
	"epoch": 0.019625,
	"grad_norm": 2.6863300800323486,
	"grad_norm_var": 0.13134889378527811,
	"learning_rate": 0.0001,
	"loss": 1.4147,
	"loss/crossentropy": 2.289113759994507,
	"loss/hidden": 1.21875,
	"loss/logits": 0.19536322355270386,
	"loss/reg": 6.160605698823929e-05,
	"step": 157
	},
	{
	"epoch": 0.01975,
	"grad_norm": 3.7774782180786133,
	"grad_norm_var": 0.2373896188726722,
	"learning_rate": 0.0001,
	"loss": 1.3606,
	"loss/crossentropy": 2.4960098266601562,
	"loss/hidden": 1.171875,
	"loss/logits": 0.18812544643878937,
	"loss/reg": 6.159812619443983e-05,
	"step": 158
	},
	{
	"epoch": 0.019875,
	"grad_norm": 2.5556654930114746,
	"grad_norm_var": 0.23517615853210802,
	"learning_rate": 0.0001,
	"loss": 1.1015,
	"loss/crossentropy": 2.4794013500213623,
	"loss/hidden": 0.9609375,
	"loss/logits": 0.1399209052324295,
	"loss/reg": 6.158895121188834e-05,
	"step": 159
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.3351266384124756,
	"grad_norm_var": 0.23772124659223212,
	"learning_rate": 0.0001,
	"loss": 1.1072,
	"loss/crossentropy": 2.402188301086426,
	"loss/hidden": 0.96484375,
	"loss/logits": 0.14173097908496857,
	"loss/reg": 6.158249016152695e-05,
	"step": 160
	},
	{
	"epoch": 0.020125,
	"grad_norm": 2.319366455078125,
	"grad_norm_var": 0.21752957054554395,
	"learning_rate": 0.0001,
	"loss": 1.1774,
	"loss/crossentropy": 2.1729917526245117,
	"loss/hidden": 1.0234375,
	"loss/logits": 0.15335121750831604,
	"loss/reg": 6.157202733447775e-05,
	"step": 161
	},
	{
	"epoch": 0.02025,
	"grad_norm": 2.0917341709136963,
	"grad_norm_var": 0.19926011430610652,
	"learning_rate": 0.0001,
	"loss": 1.2443,
	"loss/crossentropy": 2.276581048965454,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.1577274203300476,
	"loss/reg": 6.156737799756229e-05,
	"step": 162
	},
	{
	"epoch": 0.020375,
	"grad_norm": 4.31035041809082,
	"grad_norm_var": 0.41637723338655513,
	"learning_rate": 0.0001,
	"loss": 1.8974,
	"loss/crossentropy": 2.6449058055877686,
	"loss/hidden": 1.5625,
	"loss/logits": 0.33430173993110657,
	"loss/reg": 6.156211748020723e-05,
	"step": 163
	},
	{
	"epoch": 0.0205,
	"grad_norm": 2.145301342010498,
	"grad_norm_var": 0.4064476055559296,
	"learning_rate": 0.0001,
	"loss": 1.2636,
	"loss/crossentropy": 2.613586664199829,
	"loss/hidden": 1.078125,
	"loss/logits": 0.1848127692937851,
	"loss/reg": 6.155785376904532e-05,
	"step": 164
	},
	{
	"epoch": 0.020625,
	"grad_norm": 3.6308248043060303,
	"grad_norm_var": 0.47796885273955964,
	"learning_rate": 0.0001,
	"loss": 1.2327,
	"loss/crossentropy": 2.599729537963867,
	"loss/hidden": 1.046875,
	"loss/logits": 0.1852511763572693,
	"loss/reg": 6.154972652439028e-05,
	"step": 165
	},
	{
	"epoch": 0.02075,
	"grad_norm": 2.812910556793213,
	"grad_norm_var": 0.4622733920417279,
	"learning_rate": 0.0001,
	"loss": 1.3898,
	"loss/crossentropy": 2.7171225547790527,
	"loss/hidden": 1.1875,
	"loss/logits": 0.20167264342308044,
	"loss/reg": 6.154461152618751e-05,
	"step": 166
	},
	{
	"epoch": 0.020875,
	"grad_norm": 2.4922893047332764,
	"grad_norm_var": 0.46203729327833537,
	"learning_rate": 0.0001,
	"loss": 1.3528,
	"loss/crossentropy": 2.648606777191162,
	"loss/hidden": 1.140625,
	"loss/logits": 0.21159711480140686,
	"loss/reg": 6.153558933874592e-05,
	"step": 167
	},
	{
	"epoch": 0.021,
	"grad_norm": 2.2380781173706055,
	"grad_norm_var": 0.47292652355391496,
	"learning_rate": 0.0001,
	"loss": 1.3863,
	"loss/crossentropy": 2.5556812286376953,
	"loss/hidden": 1.1796875,
	"loss/logits": 0.20603393018245697,
	"loss/reg": 6.152570131234825e-05,
	"step": 168
	},
	{
	"epoch": 0.021125,
	"grad_norm": 2.8179726600646973,
	"grad_norm_var": 0.4599538691877346,
	"learning_rate": 0.0001,
	"loss": 1.3315,
	"loss/crossentropy": 2.285341262817383,
	"loss/hidden": 1.140625,
	"loss/logits": 0.19030849635601044,
	"loss/reg": 6.151832349132746e-05,
	"step": 169
	},
	{
	"epoch": 0.02125,
	"grad_norm": 2.933023691177368,
	"grad_norm_var": 0.42080948451517297,
	"learning_rate": 0.0001,
	"loss": 1.5924,
	"loss/crossentropy": 2.254920482635498,
	"loss/hidden": 1.3828125,
	"loss/logits": 0.20900759100914001,
	"loss/reg": 6.151078559923917e-05,
	"step": 170
	},
	{
	"epoch": 0.021375,
	"grad_norm": 2.9309163093566895,
	"grad_norm_var": 0.38903358238886365,
	"learning_rate": 0.0001,
	"loss": 1.2104,
	"loss/crossentropy": 2.771516799926758,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.15512725710868835,
	"loss/reg": 6.14999225945212e-05,
	"step": 171
	},
	{
	"epoch": 0.0215,
	"grad_norm": 2.7658286094665527,
	"grad_norm_var": 0.3882477326935183,
	"learning_rate": 0.0001,
	"loss": 1.2183,
	"loss/crossentropy": 2.565211296081543,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.16297924518585205,
	"loss/reg": 6.149257387733087e-05,
	"step": 172
	},
	{
	"epoch": 0.021625,
	"grad_norm": 3.39176344871521,
	"grad_norm_var": 0.40840451933244426,
	"learning_rate": 0.0001,
	"loss": 1.3931,
	"loss/crossentropy": 2.4181013107299805,
	"loss/hidden": 1.1875,
	"loss/logits": 0.2049458771944046,
	"loss/reg": 6.148203829070553e-05,
	"step": 173
	},
	{
	"epoch": 0.02175,
	"grad_norm": 2.7971994876861572,
	"grad_norm_var": 0.3468190736041642,
	"learning_rate": 0.0001,
	"loss": 1.2467,
	"loss/crossentropy": 2.644824981689453,
	"loss/hidden": 1.0703125,
	"loss/logits": 0.17579111456871033,
	"loss/reg": 6.147275416878983e-05,
	"step": 174
	},
	{
	"epoch": 0.021875,
	"grad_norm": 7.143955707550049,
	"grad_norm_var": 1.5219747541806836,
	"learning_rate": 0.0001,
	"loss": 1.3279,
	"loss/crossentropy": 2.6274638175964355,
	"loss/hidden": 1.171875,
	"loss/logits": 0.15536972880363464,
	"loss/reg": 6.146173836896196e-05,
	"step": 175
	},
	{
	"epoch": 0.022,
	"grad_norm": 8.911324501037598,
	"grad_norm_var": 3.578509022301667,
	"learning_rate": 0.0001,
	"loss": 1.8863,
	"loss/crossentropy": 1.8980119228363037,
	"loss/hidden": 1.765625,
	"loss/logits": 0.12003660202026367,
	"loss/reg": 6.145203224150464e-05,
	"step": 176
	},
	{
	"epoch": 0.022125,
	"grad_norm": 2.14353609085083,
	"grad_norm_var": 3.6077286646662734,
	"learning_rate": 0.0001,
	"loss": 1.1573,
	"loss/crossentropy": 2.1538591384887695,
	"loss/hidden": 1.015625,
	"loss/logits": 0.1410439908504486,
	"loss/reg": 6.144325743662193e-05,
	"step": 177
	},
	{
	"epoch": 0.02225,
	"grad_norm": 4.625613212585449,
	"grad_norm_var": 3.542583274880191,
	"learning_rate": 0.0001,
	"loss": 1.6226,
	"loss/crossentropy": 2.7923362255096436,
	"loss/hidden": 1.375,
	"loss/logits": 0.24694563448429108,
	"loss/reg": 6.143252539914101e-05,
	"step": 178
	},
	{
	"epoch": 0.022375,
	"grad_norm": 2.543745517730713,
	"grad_norm_var": 3.5775446556342367,
	"learning_rate": 0.0001,
	"loss": 1.4192,
	"loss/crossentropy": 2.3237483501434326,
	"loss/hidden": 1.203125,
	"loss/logits": 0.21549411118030548,
	"loss/reg": 6.14215387031436e-05,
	"step": 179
	},
	{
	"epoch": 0.0225,
	"grad_norm": 2.3068995475769043,
	"grad_norm_var": 3.5495511663474453,
	"learning_rate": 0.0001,
	"loss": 1.2428,
	"loss/crossentropy": 2.7135560512542725,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.1562565714120865,
	"loss/reg": 6.141421181382611e-05,
	"step": 180
	},
	{
	"epoch": 0.022625,
	"grad_norm": 3.465264081954956,
	"grad_norm_var": 3.5490467443763025,
	"learning_rate": 0.0001,
	"loss": 1.4771,
	"loss/crossentropy": 3.3183774948120117,
	"loss/hidden": 1.234375,
	"loss/logits": 0.2421126663684845,
	"loss/reg": 6.140418554423377e-05,
	"step": 181
	},
	{
	"epoch": 0.02275,
	"grad_norm": 2.696394205093384,
	"grad_norm_var": 3.5608805573030993,
	"learning_rate": 0.0001,
	"loss": 1.2269,
	"loss/crossentropy": 2.609964370727539,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.17162814736366272,
	"loss/reg": 6.139430479379371e-05,
	"step": 182
	},
	{
	"epoch": 0.022875,
	"grad_norm": 2.3278727531433105,
	"grad_norm_var": 3.5849405900569513,
	"learning_rate": 0.0001,
	"loss": 1.0795,
	"loss/crossentropy": 2.753383159637451,
	"loss/hidden": 0.9453125,
	"loss/logits": 0.1335984170436859,
	"loss/reg": 6.138216122053564e-05,
	"step": 183
	},
	{
	"epoch": 0.023,
	"grad_norm": 2.4336531162261963,
	"grad_norm_var": 3.554360278579671,
	"learning_rate": 0.0001,
	"loss": 1.3948,
	"loss/crossentropy": 2.4162991046905518,
	"loss/hidden": 1.171875,
	"loss/logits": 0.22235547006130219,
	"loss/reg": 6.137174204923213e-05,
	"step": 184
	},
	{
	"epoch": 0.023125,
	"grad_norm": 2.420710802078247,
	"grad_norm_var": 3.601127481620784,
	"learning_rate": 0.0001,
	"loss": 1.4926,
	"loss/crossentropy": 2.30292010307312,
	"loss/hidden": 1.296875,
	"loss/logits": 0.19511133432388306,
	"loss/reg": 6.136245065135881e-05,
	"step": 185
	},
	{
	"epoch": 0.02325,
	"grad_norm": 2.727184534072876,
	"grad_norm_var": 3.6190579859970224,
	"learning_rate": 0.0001,
	"loss": 1.2816,
	"loss/crossentropy": 2.4605464935302734,
	"loss/hidden": 1.0703125,
	"loss/logits": 0.2107134908437729,
	"loss/reg": 6.135714647825807e-05,
	"step": 186
	},
	{
	"epoch": 0.023375,
	"grad_norm": 1.9292963743209839,
	"grad_norm_var": 3.754688597499932,
	"learning_rate": 0.0001,
	"loss": 1.1628,
	"loss/crossentropy": 2.5925047397613525,
	"loss/hidden": 1.0,
	"loss/logits": 0.16220712661743164,
	"loss/reg": 6.134893919806927e-05,
	"step": 187
	},
	{
	"epoch": 0.0235,
	"grad_norm": 2.1395771503448486,
	"grad_norm_var": 3.833355540800866,
	"learning_rate": 0.0001,
	"loss": 1.2712,
	"loss/crossentropy": 2.227994441986084,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.18463259935379028,
	"loss/reg": 6.134230352472514e-05,
	"step": 188
	},
	{
	"epoch": 0.023625,
	"grad_norm": 3.552602529525757,
	"grad_norm_var": 3.8353265135005175,
	"learning_rate": 0.0001,
	"loss": 1.2518,
	"loss/crossentropy": 2.562777280807495,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.16521015763282776,
	"loss/reg": 6.13337178947404e-05,
	"step": 189
	},
	{
	"epoch": 0.02375,
	"grad_norm": 2.766602039337158,
	"grad_norm_var": 3.8377842837978386,
	"learning_rate": 0.0001,
	"loss": 1.3731,
	"loss/crossentropy": 2.4200425148010254,
	"loss/hidden": 1.203125,
	"loss/logits": 0.1694013774394989,
	"loss/reg": 6.132431008154526e-05,
	"step": 190
	},
	{
	"epoch": 0.023875,
	"grad_norm": 2.403444528579712,
	"grad_norm_var": 2.8653780273055327,
	"learning_rate": 0.0001,
	"loss": 1.1651,
	"loss/crossentropy": 2.6963400840759277,
	"loss/hidden": 1.0078125,
	"loss/logits": 0.1566968709230423,
	"loss/reg": 6.132054841145873e-05,
	"step": 191
	},
	{
	"epoch": 0.024,
	"grad_norm": 2.0356028079986572,
	"grad_norm_var": 0.4806738598539164,
	"learning_rate": 0.0001,
	"loss": 1.4298,
	"loss/crossentropy": 2.174285650253296,
	"loss/hidden": 1.21875,
	"loss/logits": 0.21048110723495483,
	"loss/reg": 6.13146330579184e-05,
	"step": 192
	},
	{
	"epoch": 0.024125,
	"grad_norm": 2.501723051071167,
	"grad_norm_var": 0.4641524277019669,
	"learning_rate": 0.0001,
	"loss": 1.2669,
	"loss/crossentropy": 2.6477620601654053,
	"loss/hidden": 1.09375,
	"loss/logits": 0.17256709933280945,
	"loss/reg": 6.130609108367935e-05,
	"step": 193
	},
	{
	"epoch": 0.02425,
	"grad_norm": 2.8256325721740723,
	"grad_norm_var": 0.19964871735684203,
	"learning_rate": 0.0001,
	"loss": 1.364,
	"loss/crossentropy": 2.4205310344696045,
	"loss/hidden": 1.1875,
	"loss/logits": 0.17588719725608826,
	"loss/reg": 6.129377288743854e-05,
	"step": 194
	},
	{
	"epoch": 0.024375,
	"grad_norm": 3.715850353240967,
	"grad_norm_var": 0.28183777248683595,
	"learning_rate": 0.0001,
	"loss": 1.4108,
	"loss/crossentropy": 2.5872642993927,
	"loss/hidden": 1.234375,
	"loss/logits": 0.1758473813533783,
	"loss/reg": 6.128078530309722e-05,
	"step": 195
	},
	{
	"epoch": 0.0245,
	"grad_norm": 3.3498318195343018,
	"grad_norm_var": 0.3034271167360647,
	"learning_rate": 0.0001,
	"loss": 1.3691,
	"loss/crossentropy": 2.6444506645202637,
	"loss/hidden": 1.171875,
	"loss/logits": 0.19665929675102234,
	"loss/reg": 6.126934749772772e-05,
	"step": 196
	},
	{
	"epoch": 0.024625,
	"grad_norm": 2.0526957511901855,
	"grad_norm_var": 0.2850787945150557,
	"learning_rate": 0.0001,
	"loss": 1.2051,
	"loss/crossentropy": 2.592327117919922,
	"loss/hidden": 1.0390625,
	"loss/logits": 0.16540399193763733,
	"loss/reg": 6.125810614321381e-05,
	"step": 197
	},
	{
	"epoch": 0.02475,
	"grad_norm": 2.4300317764282227,
	"grad_norm_var": 0.28670823409057716,
	"learning_rate": 0.0001,
	"loss": 1.5286,
	"loss/crossentropy": 2.36305570602417,
	"loss/hidden": 1.2890625,
	"loss/logits": 0.2389371693134308,
	"loss/reg": 6.124811625340953e-05,
	"step": 198
	},
	{
	"epoch": 0.024875,
	"grad_norm": 2.3255856037139893,
	"grad_norm_var": 0.28679178178242776,
	"learning_rate": 0.0001,
	"loss": 1.1743,
	"loss/crossentropy": 2.0803394317626953,
	"loss/hidden": 1.03125,
	"loss/logits": 0.1424179971218109,
	"loss/reg": 6.124229548731819e-05,
	"step": 199
	},
	{
	"epoch": 0.025,
	"grad_norm": 2.2634005546569824,
	"grad_norm_var": 0.2923937566916393,
	"learning_rate": 0.0001,
	"loss": 1.2619,
	"loss/crossentropy": 2.427354574203491,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.1753256618976593,
	"loss/reg": 6.123317871242762e-05,
	"step": 200
	},
	{
	"epoch": 0.025125,
	"grad_norm": 2.789698839187622,
	"grad_norm_var": 0.292575209213462,
	"learning_rate": 0.0001,
	"loss": 1.2794,
	"loss/crossentropy": 2.4137160778045654,
	"loss/hidden": 1.1328125,
	"loss/logits": 0.14599566161632538,
	"loss/reg": 6.122920603957027e-05,
	"step": 201
	},
	{
	"epoch": 0.02525,
	"grad_norm": 2.23150897026062,
	"grad_norm_var": 0.3003877767651639,
	"learning_rate": 0.0001,
	"loss": 1.2906,
	"loss/crossentropy": 2.502619743347168,
	"loss/hidden": 1.09375,
	"loss/logits": 0.19620737433433533,
	"loss/reg": 6.122409831732512e-05,
	"step": 202
	},
	{
	"epoch": 0.025375,
	"grad_norm": 3.3167238235473633,
	"grad_norm_var": 0.2999410613935005,
	"learning_rate": 0.0001,
	"loss": 1.4511,
	"loss/crossentropy": 2.5889461040496826,
	"loss/hidden": 1.2265625,
	"loss/logits": 0.2239363044500351,
	"loss/reg": 6.122187187429518e-05,
	"step": 203
	},
	{
	"epoch": 0.0255,
	"grad_norm": 2.5847971439361572,
	"grad_norm_var": 0.28091485279191464,
	"learning_rate": 0.0001,
	"loss": 1.248,
	"loss/crossentropy": 2.4720451831817627,
	"loss/hidden": 1.078125,
	"loss/logits": 0.16930653154850006,
	"loss/reg": 6.120974285295233e-05,
	"step": 204
	},
	{
	"epoch": 0.025625,
	"grad_norm": 2.071563243865967,
	"grad_norm_var": 0.24897236933793085,
	"learning_rate": 0.0001,
	"loss": 1.1016,
	"loss/crossentropy": 2.5648884773254395,
	"loss/hidden": 0.96875,
	"loss/logits": 0.13218875229358673,
	"loss/reg": 6.120166654000059e-05,
	"step": 205
	},
	{
	"epoch": 0.02575,
	"grad_norm": 2.9454479217529297,
	"grad_norm_var": 0.2548478796483238,
	"learning_rate": 0.0001,
	"loss": 1.3574,
	"loss/crossentropy": 2.607356309890747,
	"loss/hidden": 1.15625,
	"loss/logits": 0.20053817331790924,
	"loss/reg": 6.119644967839122e-05,
	"step": 206
	},
	{
	"epoch": 0.025875,
	"grad_norm": 3.396070718765259,
	"grad_norm_var": 0.28840087929906133,
	"learning_rate": 0.0001,
	"loss": 1.1743,
	"loss/crossentropy": 2.682058334350586,
	"loss/hidden": 1.0078125,
	"loss/logits": 0.16590501368045807,
	"loss/reg": 6.11838695476763e-05,
	"step": 207
	},
	{
	"epoch": 0.026,
	"grad_norm": 2.4477601051330566,
	"grad_norm_var": 0.26375613878289506,
	"learning_rate": 0.0001,
	"loss": 1.3022,
	"loss/crossentropy": 2.819031000137329,
	"loss/hidden": 1.109375,
	"loss/logits": 0.19222432374954224,
	"loss/reg": 6.117635348346084e-05,
	"step": 208
	},
	{
	"epoch": 0.026125,
	"grad_norm": 2.5916216373443604,
	"grad_norm_var": 0.2618484053528464,
	"learning_rate": 0.0001,
	"loss": 1.353,
	"loss/crossentropy": 2.529510259628296,
	"loss/hidden": 1.15625,
	"loss/logits": 0.19612029194831848,
	"loss/reg": 6.116151052992791e-05,
	"step": 209
	},
	{
	"epoch": 0.02625,
	"grad_norm": 2.108261823654175,
	"grad_norm_var": 0.28282181699858694,
	"learning_rate": 0.0001,
	"loss": 1.2782,
	"loss/crossentropy": 2.3222012519836426,
	"loss/hidden": 1.09375,
	"loss/logits": 0.18379396200180054,
	"loss/reg": 6.114997813710943e-05,
	"step": 210
	},
	{
	"epoch": 0.026375,
	"grad_norm": 2.48710560798645,
	"grad_norm_var": 0.20482550381518247,
	"learning_rate": 0.0001,
	"loss": 1.2718,
	"loss/crossentropy": 2.6183624267578125,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.18522073328495026,
	"loss/reg": 6.114102870924398e-05,
	"step": 211
	},
	{
	"epoch": 0.0265,
	"grad_norm": 2.63779616355896,
	"grad_norm_var": 0.1640915083279668,
	"learning_rate": 0.0001,
	"loss": 1.3499,
	"loss/crossentropy": 2.391116142272949,
	"loss/hidden": 1.1640625,
	"loss/logits": 0.18524512648582458,
	"loss/reg": 6.112866685725749e-05,
	"step": 212
	},
	{
	"epoch": 0.026625,
	"grad_norm": 2.7476329803466797,
	"grad_norm_var": 0.14889028663519804,
	"learning_rate": 0.0001,
	"loss": 1.2842,
	"loss/crossentropy": 2.5770251750946045,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.16641706228256226,
	"loss/reg": 6.111864786362275e-05,
	"step": 213
	},
	{
	"epoch": 0.02675,
	"grad_norm": 2.565723419189453,
	"grad_norm_var": 0.14722036218699916,
	"learning_rate": 0.0001,
	"loss": 1.2381,
	"loss/crossentropy": 2.80257248878479,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.18279102444648743,
	"loss/reg": 6.110716640250757e-05,
	"step": 214
	},
	{
	"epoch": 0.026875,
	"grad_norm": 4.107775688171387,
	"grad_norm_var": 0.2818514081658729,
	"learning_rate": 0.0001,
	"loss": 1.5243,
	"loss/crossentropy": 2.4806065559387207,
	"loss/hidden": 1.3046875,
	"loss/logits": 0.2190462350845337,
	"loss/reg": 6.109999230829999e-05,
	"step": 215
	},
	{
	"epoch": 0.027,
	"grad_norm": 2.3829445838928223,
	"grad_norm_var": 0.27569299833046823,
	"learning_rate": 0.0001,
	"loss": 1.2079,
	"loss/crossentropy": 2.466684579849243,
	"loss/hidden": 1.046875,
	"loss/logits": 0.16046380996704102,
	"loss/reg": 6.108790694270283e-05,
	"step": 216
	},
	{
	"epoch": 0.027125,
	"grad_norm": 2.554863929748535,
	"grad_norm_var": 0.2767468455530223,
	"learning_rate": 0.0001,
	"loss": 1.1988,
	"loss/crossentropy": 2.582035541534424,
	"loss/hidden": 1.046875,
	"loss/logits": 0.15130122005939484,
	"loss/reg": 6.1076192650944e-05,
	"step": 217
	},
	{
	"epoch": 0.02725,
	"grad_norm": 2.7898809909820557,
	"grad_norm_var": 0.26145832144768877,
	"learning_rate": 0.0001,
	"loss": 1.6592,
	"loss/crossentropy": 2.655186414718628,
	"loss/hidden": 1.3984375,
	"loss/logits": 0.26013702154159546,
	"loss/reg": 6.107001536292955e-05,
	"step": 218
	},
	{
	"epoch": 0.027375,
	"grad_norm": 2.7881548404693604,
	"grad_norm_var": 0.2378165583524293,
	"learning_rate": 0.0001,
	"loss": 1.5451,
	"loss/crossentropy": 2.4413743019104004,
	"loss/hidden": 1.3203125,
	"loss/logits": 0.2241469919681549,
	"loss/reg": 6.106249202275649e-05,
	"step": 219
	},
	{
	"epoch": 0.0275,
	"grad_norm": 2.2896728515625,
	"grad_norm_var": 0.24781162791184835,
	"learning_rate": 0.0001,
	"loss": 1.2198,
	"loss/crossentropy": 2.4421772956848145,
	"loss/hidden": 1.0703125,
	"loss/logits": 0.14890027046203613,
	"loss/reg": 6.105640932219103e-05,
	"step": 220
	},
	{
	"epoch": 0.027625,
	"grad_norm": 2.324869155883789,
	"grad_norm_var": 0.23120432182346703,
	"learning_rate": 0.0001,
	"loss": 1.3402,
	"loss/crossentropy": 2.526216745376587,
	"loss/hidden": 1.140625,
	"loss/logits": 0.19898337125778198,
	"loss/reg": 6.10438291914761e-05,
	"step": 221
	},
	{
	"epoch": 0.02775,
	"grad_norm": 2.88158917427063,
	"grad_norm_var": 0.22935101127255847,
	"learning_rate": 0.0001,
	"loss": 1.372,
	"loss/crossentropy": 2.361729621887207,
	"loss/hidden": 1.15625,
	"loss/logits": 0.21510916948318481,
	"loss/reg": 6.10318202234339e-05,
	"step": 222
	},
	{
	"epoch": 0.027875,
	"grad_norm": 2.9760019779205322,
	"grad_norm_var": 0.20104925696453316,
	"learning_rate": 0.0001,
	"loss": 1.2925,
	"loss/crossentropy": 2.5573909282684326,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.1747477501630783,
	"loss/reg": 6.1027145420666784e-05,
	"step": 223
	},
	{
	"epoch": 0.028,
	"grad_norm": 2.702091932296753,
	"grad_norm_var": 0.19763696198550798,
	"learning_rate": 0.0001,
	"loss": 1.3524,
	"loss/crossentropy": 2.717195510864258,
	"loss/hidden": 1.15625,
	"loss/logits": 0.19553202390670776,
	"loss/reg": 6.1014961829641834e-05,
	"step": 224
	},
	{
	"epoch": 0.028125,
	"grad_norm": 2.1232945919036865,
	"grad_norm_var": 0.21708226542899425,
	"learning_rate": 0.0001,
	"loss": 1.2661,
	"loss/crossentropy": 2.4481968879699707,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.1795472800731659,
	"loss/reg": 6.100164682720788e-05,
	"step": 225
	},
	{
	"epoch": 0.02825,
	"grad_norm": 2.191066026687622,
	"grad_norm_var": 0.2114830183011783,
	"learning_rate": 0.0001,
	"loss": 1.1895,
	"loss/crossentropy": 2.34470534324646,
	"loss/hidden": 1.03125,
	"loss/logits": 0.15763415396213531,
	"loss/reg": 6.099118763813749e-05,
	"step": 226
	},
	{
	"epoch": 0.028375,
	"grad_norm": 2.3068013191223145,
	"grad_norm_var": 0.21765702233228598,
	"learning_rate": 0.0001,
	"loss": 1.539,
	"loss/crossentropy": 2.5549845695495605,
	"loss/hidden": 1.328125,
	"loss/logits": 0.21025767922401428,
	"loss/reg": 6.09817034273874e-05,
	"step": 227
	},
	{
	"epoch": 0.0285,
	"grad_norm": 2.890655279159546,
	"grad_norm_var": 0.221304562186567,
	"learning_rate": 0.0001,
	"loss": 1.5638,
	"loss/crossentropy": 2.2339606285095215,
	"loss/hidden": 1.34375,
	"loss/logits": 0.21939440071582794,
	"loss/reg": 6.096933429944329e-05,
	"step": 228
	},
	{
	"epoch": 0.028625,
	"grad_norm": 2.182521343231201,
	"grad_norm_var": 0.2349577927735633,
	"learning_rate": 0.0001,
	"loss": 1.2085,
	"loss/crossentropy": 2.641230583190918,
	"loss/hidden": 1.046875,
	"loss/logits": 0.161014586687088,
	"loss/reg": 6.095720891607925e-05,
	"step": 229
	},
	{
	"epoch": 0.02875,
	"grad_norm": 2.704406976699829,
	"grad_norm_var": 0.23499684870281476,
	"learning_rate": 0.0001,
	"loss": 1.3456,
	"loss/crossentropy": 2.6833486557006836,
	"loss/hidden": 1.15625,
	"loss/logits": 0.18876385688781738,
	"loss/reg": 6.094613127061166e-05,
	"step": 230
	},
	{
	"epoch": 0.028875,
	"grad_norm": 3.4925310611724854,
	"grad_norm_var": 0.13802667852219105,
	"learning_rate": 0.0001,
	"loss": 1.3709,
	"loss/crossentropy": 2.1604089736938477,
	"loss/hidden": 1.1953125,
	"loss/logits": 0.17500904202461243,
	"loss/reg": 6.093499541748315e-05,
	"step": 231
	},
	{
	"epoch": 0.029,
	"grad_norm": 2.344773530960083,
	"grad_norm_var": 0.13921650701028032,
	"learning_rate": 0.0001,
	"loss": 1.4725,
	"loss/crossentropy": 2.493307113647461,
	"loss/hidden": 1.25,
	"loss/logits": 0.22193682193756104,
	"loss/reg": 6.092391777201556e-05,
	"step": 232
	},
	{
	"epoch": 0.029125,
	"grad_norm": 1.8828089237213135,
	"grad_norm_var": 0.17117140448626647,
	"learning_rate": 0.0001,
	"loss": 1.1104,
	"loss/crossentropy": 2.5302743911743164,
	"loss/hidden": 0.9765625,
	"loss/logits": 0.1331850290298462,
	"loss/reg": 6.0912472690688446e-05,
	"step": 233
	},
	{
	"epoch": 0.02925,
	"grad_norm": 2.747770071029663,
	"grad_norm_var": 0.16996031408720758,
	"learning_rate": 0.0001,
	"loss": 1.1371,
	"loss/crossentropy": 2.4189980030059814,
	"loss/hidden": 0.99609375,
	"loss/logits": 0.14035619795322418,
	"loss/reg": 6.089695307309739e-05,
	"step": 234
	},
	{
	"epoch": 0.029375,
	"grad_norm": 1.8742481470108032,
	"grad_norm_var": 0.1933626604088189,
	"learning_rate": 0.0001,
	"loss": 1.1601,
	"loss/crossentropy": 2.2694003582000732,
	"loss/hidden": 1.015625,
	"loss/logits": 0.14385350048542023,
	"loss/reg": 6.088387090130709e-05,
	"step": 235
	},
	{
	"epoch": 0.0295,
	"grad_norm": 2.0313689708709717,
	"grad_norm_var": 0.20459374724346724,
	"learning_rate": 0.0001,
	"loss": 1.2446,
	"loss/crossentropy": 2.4902865886688232,
	"loss/hidden": 1.0703125,
	"loss/logits": 0.17369529604911804,
	"loss/reg": 6.086897337809205e-05,
	"step": 236
	},
	{
	"epoch": 0.029625,
	"grad_norm": 2.3882880210876465,
	"grad_norm_var": 0.20354561810974156,
	"learning_rate": 0.0001,
	"loss": 1.3947,
	"loss/crossentropy": 2.4032340049743652,
	"loss/hidden": 1.1875,
	"loss/logits": 0.20656049251556396,
	"loss/reg": 6.085408676881343e-05,
	"step": 237
	},
	{
	"epoch": 0.02975,
	"grad_norm": 1.7327938079833984,
	"grad_norm_var": 0.22490130088653987,
	"learning_rate": 0.0001,
	"loss": 1.1777,
	"loss/crossentropy": 2.4949777126312256,
	"loss/hidden": 1.015625,
	"loss/logits": 0.1614799201488495,
	"loss/reg": 6.084307824494317e-05,
	"step": 238
	},
	{
	"epoch": 0.029875,
	"grad_norm": 2.2483370304107666,
	"grad_norm_var": 0.20314943964483845,
	"learning_rate": 0.0001,
	"loss": 1.331,
	"loss/crossentropy": 2.5907418727874756,
	"loss/hidden": 1.1328125,
	"loss/logits": 0.19753864407539368,
	"loss/reg": 6.0828475398011506e-05,
	"step": 239
	},
	{
	"epoch": 0.03,
	"grad_norm": 2.5151193141937256,
	"grad_norm_var": 0.19693662117647784,
	"learning_rate": 0.0001,
	"loss": 1.2278,
	"loss/crossentropy": 2.6233856678009033,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.1725194901227951,
	"loss/reg": 6.0820282669737935e-05,
	"step": 240
	},
	{
	"epoch": 0.030125,
	"grad_norm": 2.198249101638794,
	"grad_norm_var": 0.19498660957211478,
	"learning_rate": 0.0001,
	"loss": 1.1441,
	"loss/crossentropy": 2.368884563446045,
	"loss/hidden": 0.99609375,
	"loss/logits": 0.1473642736673355,
	"loss/reg": 6.0812566516688094e-05,
	"step": 241
	},
	{
	"epoch": 0.03025,
	"grad_norm": 2.195218563079834,
	"grad_norm_var": 0.1948951313244331,
	"learning_rate": 0.0001,
	"loss": 1.2993,
	"loss/crossentropy": 2.352041721343994,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.1815069168806076,
	"loss/reg": 6.080829552956857e-05,
	"step": 242
	},
	{
	"epoch": 0.030375,
	"grad_norm": 2.6142425537109375,
	"grad_norm_var": 0.19868367561009795,
	"learning_rate": 0.0001,
	"loss": 1.3644,
	"loss/crossentropy": 2.497286558151245,
	"loss/hidden": 1.1875,
	"loss/logits": 0.17629210650920868,
	"loss/reg": 6.0799306083936244e-05,
	"step": 243
	},
	{
	"epoch": 0.0305,
	"grad_norm": 2.342033624649048,
	"grad_norm_var": 0.1799734399041227,
	"learning_rate": 0.0001,
	"loss": 1.1311,
	"loss/crossentropy": 2.5182478427886963,
	"loss/hidden": 0.984375,
	"loss/logits": 0.1461625099182129,
	"loss/reg": 6.078776277718134e-05,
	"step": 244
	},
	{
	"epoch": 0.030625,
	"grad_norm": 2.3943874835968018,
	"grad_norm_var": 0.17823371257387344,
	"learning_rate": 0.0001,
	"loss": 1.1773,
	"loss/crossentropy": 2.575707197189331,
	"loss/hidden": 1.015625,
	"loss/logits": 0.1610667109489441,
	"loss/reg": 6.078143633203581e-05,
	"step": 245
	},
	{
	"epoch": 0.03075,
	"grad_norm": 2.2752902507781982,
	"grad_norm_var": 0.16984605758260846,
	"learning_rate": 0.0001,
	"loss": 1.3322,
	"loss/crossentropy": 2.228628635406494,
	"loss/hidden": 1.1484375,
	"loss/logits": 0.18314987421035767,
	"loss/reg": 6.077219222788699e-05,
	"step": 246
	},
	{
	"epoch": 0.030875,
	"grad_norm": 2.1779940128326416,
	"grad_norm_var": 0.07406002979102144,
	"learning_rate": 0.0001,
	"loss": 1.179,
	"loss/crossentropy": 2.4325718879699707,
	"loss/hidden": 1.0078125,
	"loss/logits": 0.17062756419181824,
	"loss/reg": 6.076457793824375e-05,
	"step": 247
	},
	{
	"epoch": 0.031,
	"grad_norm": 2.031386613845825,
	"grad_norm_var": 0.07614130749575872,
	"learning_rate": 0.0001,
	"loss": 1.3177,
	"loss/crossentropy": 2.3050920963287354,
	"loss/hidden": 1.1328125,
	"loss/logits": 0.18426315486431122,
	"loss/reg": 6.075216515455395e-05,
	"step": 248
	},
	{
	"epoch": 0.031125,
	"grad_norm": 2.4880683422088623,
	"grad_norm_var": 0.07117238958467732,
	"learning_rate": 0.0001,
	"loss": 1.2617,
	"loss/crossentropy": 2.690160036087036,
	"loss/hidden": 1.0625,
	"loss/logits": 0.1985635757446289,
	"loss/reg": 6.0742688219761476e-05,
	"step": 249
	},
	{
	"epoch": 0.03125,
	"grad_norm": 2.631229877471924,
	"grad_norm_var": 0.06453399427719399,
	"learning_rate": 0.0001,
	"loss": 1.3072,
	"loss/crossentropy": 2.4459030628204346,
	"loss/hidden": 1.109375,
	"loss/logits": 0.1971898078918457,
	"loss/reg": 6.0733007558155805e-05,
	"step": 250
	},
	{
	"epoch": 0.031375,
	"grad_norm": 2.7028048038482666,
	"grad_norm_var": 0.06497512863382227,
	"learning_rate": 0.0001,
	"loss": 1.3656,
	"loss/crossentropy": 2.7830824851989746,
	"loss/hidden": 1.1796875,
	"loss/logits": 0.18533006310462952,
	"loss/reg": 6.0722686612280086e-05,
	"step": 251
	},
	{
	"epoch": 0.0315,
	"grad_norm": 3.7025880813598633,
	"grad_norm_var": 0.17735395269518506,
	"learning_rate": 0.0001,
	"loss": 1.2542,
	"loss/crossentropy": 2.4722542762756348,
	"loss/hidden": 1.078125,
	"loss/logits": 0.17551761865615845,
	"loss/reg": 6.0708127421094105e-05,
	"step": 252
	},
	{
	"epoch": 0.031625,
	"grad_norm": 2.1496498584747314,
	"grad_norm_var": 0.18175923180052275,
	"learning_rate": 0.0001,
	"loss": 1.0403,
	"loss/crossentropy": 2.4383487701416016,
	"loss/hidden": 0.91015625,
	"loss/logits": 0.12949630618095398,
	"loss/reg": 6.069323717383668e-05,
	"step": 253
	},
	{
	"epoch": 0.03175,
	"grad_norm": 3.212991237640381,
	"grad_norm_var": 0.18702365671043306,
	"learning_rate": 0.0001,
	"loss": 1.3555,
	"loss/crossentropy": 2.1896352767944336,
	"loss/hidden": 1.1953125,
	"loss/logits": 0.1595323085784912,
	"loss/reg": 6.067836147849448e-05,
	"step": 254
	},
	{
	"epoch": 0.031875,
	"grad_norm": 2.53044056892395,
	"grad_norm_var": 0.18281462084492142,
	"learning_rate": 0.0001,
	"loss": 1.2462,
	"loss/crossentropy": 2.8005239963531494,
	"loss/hidden": 1.0625,
	"loss/logits": 0.18304814398288727,
	"loss/reg": 6.0668298829114065e-05,
	"step": 255
	},
	{
	"epoch": 0.032,
	"grad_norm": 5.920226573944092,
	"grad_norm_var": 0.9097630014084027,
	"learning_rate": 0.0001,
	"loss": 1.9011,
	"loss/crossentropy": 2.2827932834625244,
	"loss/hidden": 1.59375,
	"loss/logits": 0.3067648708820343,
	"loss/reg": 6.0657377616735175e-05,
	"step": 256
	},
	{
	"epoch": 0.032125,
	"grad_norm": 3.144649028778076,
	"grad_norm_var": 0.8995354429829506,
	"learning_rate": 0.0001,
	"loss": 1.2361,
	"loss/crossentropy": 2.9163215160369873,
	"loss/hidden": 1.078125,
	"loss/logits": 0.15732741355895996,
	"loss/reg": 6.064687840989791e-05,
	"step": 257
	},
	{
	"epoch": 0.03225,
	"grad_norm": 2.677065849304199,
	"grad_norm_var": 0.8763431299745091,
	"learning_rate": 0.0001,
	"loss": 1.3123,
	"loss/crossentropy": 2.9036660194396973,
	"loss/hidden": 1.125,
	"loss/logits": 0.18664765357971191,
	"loss/reg": 6.0635462432401255e-05,
	"step": 258
	},
	{
	"epoch": 0.032375,
	"grad_norm": 1.9815617799758911,
	"grad_norm_var": 0.9180593253885627,
	"learning_rate": 0.0001,
	"loss": 1.2567,
	"loss/crossentropy": 2.6647751331329346,
	"loss/hidden": 1.0703125,
	"loss/logits": 0.18578888475894928,
	"loss/reg": 6.062128159101121e-05,
	"step": 259
	},
	{
	"epoch": 0.0325,
	"grad_norm": 2.6094260215759277,
	"grad_norm_var": 0.9071755924568459,
	"learning_rate": 0.0001,
	"loss": 1.4176,
	"loss/crossentropy": 2.9915220737457275,
	"loss/hidden": 1.21875,
	"loss/logits": 0.19824379682540894,
	"loss/reg": 6.060625673853792e-05,
	"step": 260
	},
	{
	"epoch": 0.032625,
	"grad_norm": 2.4859585762023926,
	"grad_norm_var": 0.9028772625757899,
	"learning_rate": 0.0001,
	"loss": 1.2047,
	"loss/crossentropy": 2.325611114501953,
	"loss/hidden": 1.03125,
	"loss/logits": 0.17281952500343323,
	"loss/reg": 6.0591693909373134e-05,
	"step": 261
	},
	{
	"epoch": 0.03275,
	"grad_norm": 4.910043716430664,
	"grad_norm_var": 1.154144117287072,
	"learning_rate": 0.0001,
	"loss": 1.2858,
	"loss/crossentropy": 2.568098306655884,
	"loss/hidden": 1.109375,
	"loss/logits": 0.17582398653030396,
	"loss/reg": 6.057979408069514e-05,
	"step": 262
	},
	{
	"epoch": 0.032875,
	"grad_norm": 2.2592694759368896,
	"grad_norm_var": 1.1460852387432343,
	"learning_rate": 0.0001,
	"loss": 1.3156,
	"loss/crossentropy": 2.5264766216278076,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.19776055216789246,
	"loss/reg": 6.056776692275889e-05,
	"step": 263
	},
	{
	"epoch": 0.033,
	"grad_norm": 2.6964571475982666,
	"grad_norm_var": 1.0909556269012999,
	"learning_rate": 0.0001,
	"loss": 1.0468,
	"loss/crossentropy": 2.740647792816162,
	"loss/hidden": 0.91796875,
	"loss/logits": 0.12825211882591248,
	"loss/reg": 6.0556718381121755e-05,
	"step": 264
	},
	{
	"epoch": 0.033125,
	"grad_norm": 2.112201690673828,
	"grad_norm_var": 1.125761935491216,
	"learning_rate": 0.0001,
	"loss": 1.2175,
	"loss/crossentropy": 2.475130081176758,
	"loss/hidden": 1.0390625,
	"loss/logits": 0.1778050661087036,
	"loss/reg": 6.0543683503055945e-05,
	"step": 265
	},
	{
	"epoch": 0.03325,
	"grad_norm": 1.8527328968048096,
	"grad_norm_var": 1.2001448152569836,
	"learning_rate": 0.0001,
	"loss": 1.1913,
	"loss/crossentropy": 2.2017788887023926,
	"loss/hidden": 1.0234375,
	"loss/logits": 0.16727614402770996,
	"loss/reg": 6.053145989426412e-05,
	"step": 266
	},
	{
	"epoch": 0.033375,
	"grad_norm": 2.2294929027557373,
	"grad_norm_var": 1.2287526925730277,
	"learning_rate": 0.0001,
	"loss": 1.3521,
	"loss/crossentropy": 2.268073558807373,
	"loss/hidden": 1.1640625,
	"loss/logits": 0.18739831447601318,
	"loss/reg": 6.052442768123001e-05,
	"step": 267
	},
	{
	"epoch": 0.0335,
	"grad_norm": 2.185410499572754,
	"grad_norm_var": 1.2112062552861744,
	"learning_rate": 0.0001,
	"loss": 1.44,
	"loss/crossentropy": 2.390622138977051,
	"loss/hidden": 1.234375,
	"loss/logits": 0.20500804483890533,
	"loss/reg": 6.051711898180656e-05,
	"step": 268
	},
	{
	"epoch": 0.033625,
	"grad_norm": 2.616452693939209,
	"grad_norm_var": 1.1837342905938153,
	"learning_rate": 0.0001,
	"loss": 1.3338,
	"loss/crossentropy": 2.3374340534210205,
	"loss/hidden": 1.15625,
	"loss/logits": 0.17693625390529633,
	"loss/reg": 6.0506343288579956e-05,
	"step": 269
	},
	{
	"epoch": 0.03375,
	"grad_norm": 2.5214874744415283,
	"grad_norm_var": 1.1791403953024882,
	"learning_rate": 0.0001,
	"loss": 1.4572,
	"loss/crossentropy": 2.6334807872772217,
	"loss/hidden": 1.25,
	"loss/logits": 0.20655225217342377,
	"loss/reg": 6.0493421187857166e-05,
	"step": 270
	},
	{
	"epoch": 0.033875,
	"grad_norm": 2.3426766395568848,
	"grad_norm_var": 1.18798729537596,
	"learning_rate": 0.0001,
	"loss": 1.2858,
	"loss/crossentropy": 2.362666130065918,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.16799038648605347,
	"loss/reg": 6.047951683285646e-05,
	"step": 271
	},
	{
	"epoch": 0.034,
	"grad_norm": 2.483227491378784,
	"grad_norm_var": 0.4891016266434789,
	"learning_rate": 0.0001,
	"loss": 1.4126,
	"loss/crossentropy": 2.6330323219299316,
	"loss/hidden": 1.203125,
	"loss/logits": 0.20882482826709747,
	"loss/reg": 6.046749331289902e-05,
	"step": 272
	},
	{
	"epoch": 0.034125,
	"grad_norm": 3.3453869819641113,
	"grad_norm_var": 0.5070205087741229,
	"learning_rate": 0.0001,
	"loss": 1.3731,
	"loss/crossentropy": 2.6637308597564697,
	"loss/hidden": 1.171875,
	"loss/logits": 0.20059773325920105,
	"loss/reg": 6.0458773077698424e-05,
	"step": 273
	},
	{
	"epoch": 0.03425,
	"grad_norm": 2.2971482276916504,
	"grad_norm_var": 0.5112160036914843,
	"learning_rate": 0.0001,
	"loss": 1.3516,
	"loss/crossentropy": 2.400428533554077,
	"loss/hidden": 1.1640625,
	"loss/logits": 0.18688717484474182,
	"loss/reg": 6.0452930483734235e-05,
	"step": 274
	},
	{
	"epoch": 0.034375,
	"grad_norm": 11.117164611816406,
	"grad_norm_var": 5.025199240890341,
	"learning_rate": 0.0001,
	"loss": 2.1956,
	"loss/crossentropy": 2.7653286457061768,
	"loss/hidden": 1.8984375,
	"loss/logits": 0.2965186834335327,
	"loss/reg": 6.045090049155988e-05,
	"step": 275
	},
	{
	"epoch": 0.0345,
	"grad_norm": 3.6517550945281982,
	"grad_norm_var": 5.020888752799834,
	"learning_rate": 0.0001,
	"loss": 1.4104,
	"loss/crossentropy": 2.8897998332977295,
	"loss/hidden": 1.1484375,
	"loss/logits": 0.26139265298843384,
	"loss/reg": 6.0451366152847186e-05,
	"step": 276
	},
	{
	"epoch": 0.034625,
	"grad_norm": 2.6342201232910156,
	"grad_norm_var": 5.008262345647254,
	"learning_rate": 0.0001,
	"loss": 1.272,
	"loss/crossentropy": 2.662801504135132,
	"loss/hidden": 1.09375,
	"loss/logits": 0.17764705419540405,
	"loss/reg": 6.0443973779911175e-05,
	"step": 277
	},
	{
	"epoch": 0.03475,
	"grad_norm": 2.613866090774536,
	"grad_norm_var": 4.815302301096653,
	"learning_rate": 0.0001,
	"loss": 1.3,
	"loss/crossentropy": 2.2599401473999023,
	"loss/hidden": 1.125,
	"loss/logits": 0.1744215488433838,
	"loss/reg": 6.04407032369636e-05,
	"step": 278
	},
	{
	"epoch": 0.034875,
	"grad_norm": 2.4121639728546143,
	"grad_norm_var": 4.800441045565859,
	"learning_rate": 0.0001,
	"loss": 1.2736,
	"loss/crossentropy": 2.3868885040283203,
	"loss/hidden": 1.109375,
	"loss/logits": 0.16360533237457275,
	"loss/reg": 6.0438182117650285e-05,
	"step": 279
	},
	{
	"epoch": 0.035,
	"grad_norm": 2.257427930831909,
	"grad_norm_var": 4.834324037466968,
	"learning_rate": 0.0001,
	"loss": 1.3236,
	"loss/crossentropy": 2.452359914779663,
	"loss/hidden": 1.1328125,
	"loss/logits": 0.19017404317855835,
	"loss/reg": 6.043619578122161e-05,
	"step": 280
	},
	{
	"epoch": 0.035125,
	"grad_norm": 2.3916571140289307,
	"grad_norm_var": 4.8045581397439525,
	"learning_rate": 0.0001,
	"loss": 1.3161,
	"loss/crossentropy": 2.4834201335906982,
	"loss/hidden": 1.109375,
	"loss/logits": 0.20611721277236938,
	"loss/reg": 6.043669054633938e-05,
	"step": 281
	},
	{
	"epoch": 0.03525,
	"grad_norm": 2.815398931503296,
	"grad_norm_var": 4.707581175884913,
	"learning_rate": 0.0001,
	"loss": 1.1312,
	"loss/crossentropy": 3.0801713466644287,
	"loss/hidden": 0.98828125,
	"loss/logits": 0.14229975640773773,
	"loss/reg": 6.044648034730926e-05,
	"step": 282
	},
	{
	"epoch": 0.035375,
	"grad_norm": 3.1715469360351562,
	"grad_norm_var": 4.651233430019207,
	"learning_rate": 0.0001,
	"loss": 1.409,
	"loss/crossentropy": 2.354785919189453,
	"loss/hidden": 1.1953125,
	"loss/logits": 0.21305763721466064,
	"loss/reg": 6.0437832871684805e-05,
	"step": 283
	},
	{
	"epoch": 0.0355,
	"grad_norm": 2.5010037422180176,
	"grad_norm_var": 4.615667456235268,
	"learning_rate": 0.0001,
	"loss": 1.3572,
	"loss/crossentropy": 2.492047071456909,
	"loss/hidden": 1.1640625,
	"loss/logits": 0.1925477683544159,
	"loss/reg": 6.044709516572766e-05,
	"step": 284
	},
	{
	"epoch": 0.035625,
	"grad_norm": 1.964429259300232,
	"grad_norm_var": 4.6928209367171645,
	"learning_rate": 0.0001,
	"loss": 1.1671,
	"loss/crossentropy": 2.3351125717163086,
	"loss/hidden": 0.99609375,
	"loss/logits": 0.1704423427581787,
	"loss/reg": 6.0453679907368496e-05,
	"step": 285
	},
	{
	"epoch": 0.03575,
	"grad_norm": 2.3656678199768066,
	"grad_norm_var": 4.707552916907375,
	"learning_rate": 0.0001,
	"loss": 1.5385,
	"loss/crossentropy": 2.4216158390045166,
	"loss/hidden": 1.28125,
	"loss/logits": 0.2566841244697571,
	"loss/reg": 6.0443537222454324e-05,
	"step": 286
	},
	{
	"epoch": 0.035875,
	"grad_norm": 3.140928030014038,
	"grad_norm_var": 4.661686527481659,
	"learning_rate": 0.0001,
	"loss": 1.3637,
	"loss/crossentropy": 2.8347983360290527,
	"loss/hidden": 1.15625,
	"loss/logits": 0.20682096481323242,
	"loss/reg": 6.043089888407849e-05,
	"step": 287
	},
	{
	"epoch": 0.036,
	"grad_norm": 2.6460797786712646,
	"grad_norm_var": 4.647830565858565,
	"learning_rate": 0.0001,
	"loss": 1.3928,
	"loss/crossentropy": 2.108215093612671,
	"loss/hidden": 1.2109375,
	"loss/logits": 0.18129181861877441,
	"loss/reg": 6.042820677976124e-05,
	"step": 288
	},
	{
	"epoch": 0.036125,
	"grad_norm": 2.879531145095825,
	"grad_norm_var": 4.652852381956769,
	"learning_rate": 0.0001,
	"loss": 1.4359,
	"loss/crossentropy": 2.90163516998291,
	"loss/hidden": 1.25,
	"loss/logits": 0.1853410005569458,
	"loss/reg": 6.042792301741429e-05,
	"step": 289
	},
	{
	"epoch": 0.03625,
	"grad_norm": 2.5701370239257812,
	"grad_norm_var": 4.625421100051376,
	"learning_rate": 0.0001,
	"loss": 1.3639,
	"loss/crossentropy": 2.6896326541900635,
	"loss/hidden": 1.15625,
	"loss/logits": 0.2070741057395935,
	"loss/reg": 6.0414979088818654e-05,
	"step": 290
	},
	{
	"epoch": 0.036375,
	"grad_norm": 2.988196849822998,
	"grad_norm_var": 0.16977142791367086,
	"learning_rate": 0.0001,
	"loss": 1.103,
	"loss/crossentropy": 2.8485705852508545,
	"loss/hidden": 0.96875,
	"loss/logits": 0.13362044095993042,
	"loss/reg": 6.0413527535274625e-05,
	"step": 291
	},
	{
	"epoch": 0.0365,
	"grad_norm": 5.9153923988342285,
	"grad_norm_var": 0.7809789933836029,
	"learning_rate": 0.0001,
	"loss": 1.6292,
	"loss/crossentropy": 2.607590436935425,
	"loss/hidden": 1.4375,
	"loss/logits": 0.19109681248664856,
	"loss/reg": 6.041422238922678e-05,
	"step": 292
	},
	{
	"epoch": 0.036625,
	"grad_norm": 1.932381510734558,
	"grad_norm_var": 0.8300136192923785,
	"learning_rate": 0.0001,
	"loss": 1.1314,
	"loss/crossentropy": 2.2319207191467285,
	"loss/hidden": 0.9921875,
	"loss/logits": 0.13856041431427002,
	"loss/reg": 6.041810775059275e-05,
	"step": 293
	},
	{
	"epoch": 0.03675,
	"grad_norm": 2.1218042373657227,
	"grad_norm_var": 0.8563980373093443,
	"learning_rate": 0.0001,
	"loss": 1.1898,
	"loss/crossentropy": 2.7033910751342773,
	"loss/hidden": 1.03125,
	"loss/logits": 0.15791726112365723,
	"loss/reg": 6.0404745454434305e-05,
	"step": 294
	},
	{
	"epoch": 0.036875,
	"grad_norm": 3.239748954772949,
	"grad_norm_var": 0.8614170936653748,
	"learning_rate": 0.0001,
	"loss": 1.6186,
	"loss/crossentropy": 2.3478281497955322,
	"loss/hidden": 1.3671875,
	"loss/logits": 0.2507687509059906,
	"loss/reg": 6.039286745362915e-05,
	"step": 295
	},
	{
	"epoch": 0.037,
	"grad_norm": 2.361431121826172,
	"grad_norm_var": 0.8544814148079373,
	"learning_rate": 0.0001,
	"loss": 1.2822,
	"loss/crossentropy": 2.4396111965179443,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.19569119811058044,
	"loss/reg": 6.0390335420379415e-05,
	"step": 296
	},
	{
	"epoch": 0.037125,
	"grad_norm": 2.6921112537384033,
	"grad_norm_var": 0.8432509023111928,
	"learning_rate": 0.0001,
	"loss": 1.3584,
	"loss/crossentropy": 2.3235762119293213,
	"loss/hidden": 1.15625,
	"loss/logits": 0.20157676935195923,
	"loss/reg": 6.037576531525701e-05,
	"step": 297
	},
	{
	"epoch": 0.03725,
	"grad_norm": 2.2376601696014404,
	"grad_norm_var": 0.8653611900667765,
	"learning_rate": 0.0001,
	"loss": 1.3703,
	"loss/crossentropy": 2.441978693008423,
	"loss/hidden": 1.1875,
	"loss/logits": 0.1821848303079605,
	"loss/reg": 6.036146805854514e-05,
	"step": 298
	},
	{
	"epoch": 0.037375,
	"grad_norm": 2.5022082328796387,
	"grad_norm_var": 0.8598019948407729,
	"learning_rate": 0.0001,
	"loss": 1.2909,
	"loss/crossentropy": 2.4099972248077393,
	"loss/hidden": 1.09375,
	"loss/logits": 0.1965959370136261,
	"loss/reg": 6.035445403540507e-05,
	"step": 299
	},
	{
	"epoch": 0.0375,
	"grad_norm": 2.323599338531494,
	"grad_norm_var": 0.8677455500426021,
	"learning_rate": 0.0001,
	"loss": 1.2301,
	"loss/crossentropy": 2.714334011077881,
	"loss/hidden": 1.0625,
	"loss/logits": 0.16703477501869202,
	"loss/reg": 6.034153193468228e-05,
	"step": 300
	},
	{
	"epoch": 0.037625,
	"grad_norm": 2.902794361114502,
	"grad_norm_var": 0.8254198045813945,
	"learning_rate": 0.0001,
	"loss": 1.287,
	"loss/crossentropy": 2.5897319316864014,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.1692187488079071,
	"loss/reg": 6.032464443705976e-05,
	"step": 301
	},
	{
	"epoch": 0.03775,
	"grad_norm": 2.455423355102539,
	"grad_norm_var": 0.8207107650276014,
	"learning_rate": 0.0001,
	"loss": 1.3118,
	"loss/crossentropy": 2.2553625106811523,
	"loss/hidden": 1.15625,
	"loss/logits": 0.15494795143604279,
	"loss/reg": 6.031416342011653e-05,
	"step": 302
	},
	{
	"epoch": 0.037875,
	"grad_norm": 2.70770001411438,
	"grad_norm_var": 0.8131429553718594,
	"learning_rate": 0.0001,
	"loss": 1.3645,
	"loss/crossentropy": 2.298628807067871,
	"loss/hidden": 1.1875,
	"loss/logits": 0.17642799019813538,
	"loss/reg": 6.029937867424451e-05,
	"step": 303
	},
	{
	"epoch": 0.038,
	"grad_norm": 2.4096872806549072,
	"grad_norm_var": 0.8208490888498592,
	"learning_rate": 0.0001,
	"loss": 1.2573,
	"loss/crossentropy": 2.6787161827087402,
	"loss/hidden": 1.078125,
	"loss/logits": 0.17861339449882507,
	"loss/reg": 6.027881318004802e-05,
	"step": 304
	},
	{
	"epoch": 0.038125,
	"grad_norm": 2.364800214767456,
	"grad_norm_var": 0.8295471446711137,
	"learning_rate": 0.0001,
	"loss": 1.3251,
	"loss/crossentropy": 2.351970911026001,
	"loss/hidden": 1.140625,
	"loss/logits": 0.18391045928001404,
	"loss/reg": 6.026409027981572e-05,
	"step": 305
	},
	{
	"epoch": 0.03825,
	"grad_norm": 2.0991923809051514,
	"grad_norm_var": 0.8536240669336511,
	"learning_rate": 0.0001,
	"loss": 1.078,
	"loss/crossentropy": 2.7187068462371826,
	"loss/hidden": 0.9453125,
	"loss/logits": 0.13205038011074066,
	"loss/reg": 6.0248257796047255e-05,
	"step": 306
	},
	{
	"epoch": 0.038375,
	"grad_norm": 2.7471582889556885,
	"grad_norm_var": 0.8481018158238611,
	"learning_rate": 0.0001,
	"loss": 1.4035,
	"loss/crossentropy": 2.1265523433685303,
	"loss/hidden": 1.21875,
	"loss/logits": 0.18416792154312134,
	"loss/reg": 6.0230733652133495e-05,
	"step": 307
	},
	{
	"epoch": 0.0385,
	"grad_norm": 2.2592687606811523,
	"grad_norm_var": 0.11041007633642194,
	"learning_rate": 0.0001,
	"loss": 1.271,
	"loss/crossentropy": 2.66719651222229,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.184452086687088,
	"loss/reg": 6.0217109421500936e-05,
	"step": 308
	},
	{
	"epoch": 0.038625,
	"grad_norm": 2.2400615215301514,
	"grad_norm_var": 0.09468951175299385,
	"learning_rate": 0.0001,
	"loss": 1.2348,
	"loss/crossentropy": 2.3710193634033203,
	"loss/hidden": 1.0625,
	"loss/logits": 0.1717246174812317,
	"loss/reg": 6.020214277668856e-05,
	"step": 309
	},
	{
	"epoch": 0.03875,
	"grad_norm": 2.0783209800720215,
	"grad_norm_var": 0.09687885973874776,
	"learning_rate": 0.0001,
	"loss": 1.2085,
	"loss/crossentropy": 2.2699692249298096,
	"loss/hidden": 1.03125,
	"loss/logits": 0.17665645480155945,
	"loss/reg": 6.018438944010995e-05,
	"step": 310
	},
	{
	"epoch": 0.038875,
	"grad_norm": 2.077648162841797,
	"grad_norm_var": 0.06299334570375853,
	"learning_rate": 0.0001,
	"loss": 1.2169,
	"loss/crossentropy": 2.334127426147461,
	"loss/hidden": 1.0625,
	"loss/logits": 0.15378312766551971,
	"loss/reg": 6.0161146393511444e-05,
	"step": 311
	},
	{
	"epoch": 0.039,
	"grad_norm": 2.440629482269287,
	"grad_norm_var": 0.06293910816862744,
	"learning_rate": 0.0001,
	"loss": 1.2956,
	"loss/crossentropy": 2.791874408721924,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.1777758002281189,
	"loss/reg": 6.014638711349107e-05,
	"step": 312
	},
	{
	"epoch": 0.039125,
	"grad_norm": 2.853940963745117,
	"grad_norm_var": 0.07069242228717272,
	"learning_rate": 0.0001,
	"loss": 1.2688,
	"loss/crossentropy": 2.5036516189575195,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.18226328492164612,
	"loss/reg": 6.013087840983644e-05,
	"step": 313
	},
	{
	"epoch": 0.03925,
	"grad_norm": 3.287529230117798,
	"grad_norm_var": 0.11423125477930943,
	"learning_rate": 0.0001,
	"loss": 1.2435,
	"loss/crossentropy": 2.696265697479248,
	"loss/hidden": 1.0703125,
	"loss/logits": 0.17254707217216492,
	"loss/reg": 6.011854929965921e-05,
	"step": 314
	},
	{
	"epoch": 0.039375,
	"grad_norm": 3.1080963611602783,
	"grad_norm_var": 0.1386158794861321,
	"learning_rate": 0.0001,
	"loss": 1.473,
	"loss/crossentropy": 2.1882760524749756,
	"loss/hidden": 1.25,
	"loss/logits": 0.2224160134792328,
	"loss/reg": 6.0103353462181985e-05,
	"step": 315
	},
	{
	"epoch": 0.0395,
	"grad_norm": 2.7303977012634277,
	"grad_norm_var": 0.13818442385569654,
	"learning_rate": 0.0001,
	"loss": 1.4029,
	"loss/crossentropy": 2.361660957336426,
	"loss/hidden": 1.2109375,
	"loss/logits": 0.19139324128627777,
	"loss/reg": 6.008424679748714e-05,
	"step": 316
	},
	{
	"epoch": 0.039625,
	"grad_norm": 1.7651097774505615,
	"grad_norm_var": 0.16520987140884788,
	"learning_rate": 0.0001,
	"loss": 1.0765,
	"loss/crossentropy": 2.435858964920044,
	"loss/hidden": 0.953125,
	"loss/logits": 0.1227254569530487,
	"loss/reg": 6.007165211485699e-05,
	"step": 317
	},
	{
	"epoch": 0.03975,
	"grad_norm": 2.128772258758545,
	"grad_norm_var": 0.17279926669385734,
	"learning_rate": 0.0001,
	"loss": 1.1848,
	"loss/crossentropy": 2.334495782852173,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.12953956425189972,
	"loss/reg": 6.005321120028384e-05,
	"step": 318
	},
	{
	"epoch": 0.039875,
	"grad_norm": 2.1308538913726807,
	"grad_norm_var": 0.1742483958439737,
	"learning_rate": 0.0001,
	"loss": 1.3191,
	"loss/crossentropy": 2.3873021602630615,
	"loss/hidden": 1.125,
	"loss/logits": 0.19348952174186707,
	"loss/reg": 6.0041034885216504e-05,
	"step": 319
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.706742286682129,
	"grad_norm_var": 0.17935140917835876,
	"learning_rate": 0.0001,
	"loss": 1.4123,
	"loss/crossentropy": 2.5321033000946045,
	"loss/hidden": 1.203125,
	"loss/logits": 0.20852993428707123,
	"loss/reg": 6.002993177389726e-05,
	"step": 320
	},
	{
	"epoch": 0.040125,
	"grad_norm": 6.118154525756836,
	"grad_norm_var": 1.0228689502418715,
	"learning_rate": 0.0001,
	"loss": 1.7298,
	"loss/crossentropy": 2.457045316696167,
	"loss/hidden": 1.515625,
	"loss/logits": 0.2136228382587433,
	"loss/reg": 6.001694418955594e-05,
	"step": 321
	},
	{
	"epoch": 0.04025,
	"grad_norm": 3.091947317123413,
	"grad_norm_var": 1.0084811477178388,
	"learning_rate": 0.0001,
	"loss": 1.6635,
	"loss/crossentropy": 2.6943020820617676,
	"loss/hidden": 1.40625,
	"loss/logits": 0.25662127137184143,
	"loss/reg": 6.0004946135450155e-05,
	"step": 322
	},
	{
	"epoch": 0.040375,
	"grad_norm": 2.488391637802124,
	"grad_norm_var": 1.0122566583255546,
	"learning_rate": 0.0001,
	"loss": 1.2065,
	"loss/crossentropy": 2.646897792816162,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.15123483538627625,
	"loss/reg": 5.9991711168549955e-05,
	"step": 323
	},
	{
	"epoch": 0.0405,
	"grad_norm": 3.0675456523895264,
	"grad_norm_var": 1.0035307165437406,
	"learning_rate": 0.0001,
	"loss": 1.4832,
	"loss/crossentropy": 2.4176406860351562,
	"loss/hidden": 1.2421875,
	"loss/logits": 0.24040505290031433,
	"loss/reg": 5.9981128288200125e-05,
	"step": 324
	},
	{
	"epoch": 0.040625,
	"grad_norm": 2.424546957015991,
	"grad_norm_var": 0.9926314451715664,
	"learning_rate": 0.0001,
	"loss": 1.07,
	"loss/crossentropy": 2.703134059906006,
	"loss/hidden": 0.94140625,
	"loss/logits": 0.12803316116333008,
	"loss/reg": 5.997138941893354e-05,
	"step": 325
	},
	{
	"epoch": 0.04075,
	"grad_norm": 2.9345507621765137,
	"grad_norm_var": 0.9582126623175621,
	"learning_rate": 0.0001,
	"loss": 1.4247,
	"loss/crossentropy": 2.8940789699554443,
	"loss/hidden": 1.21875,
	"loss/logits": 0.20539763569831848,
	"loss/reg": 5.996019172016531e-05,
	"step": 326
	},
	{
	"epoch": 0.040875,
	"grad_norm": 3.069572925567627,
	"grad_norm_var": 0.9195850402401864,
	"learning_rate": 0.0001,
	"loss": 1.3896,
	"loss/crossentropy": 2.4416871070861816,
	"loss/hidden": 1.1875,
	"loss/logits": 0.20154833793640137,
	"loss/reg": 5.9947429690510035e-05,
	"step": 327
	},
	{
	"epoch": 0.041,
	"grad_norm": 2.323606491088867,
	"grad_norm_var": 0.9275566292830253,
	"learning_rate": 0.0001,
	"loss": 1.2888,
	"loss/crossentropy": 2.811528444290161,
	"loss/hidden": 1.1015625,
	"loss/logits": 0.18662354350090027,
	"loss/reg": 5.9936231991741806e-05,
	"step": 328
	},
	{
	"epoch": 0.041125,
	"grad_norm": 3.1679723262786865,
	"grad_norm_var": 0.9322370885273564,
	"learning_rate": 0.0001,
	"loss": 1.5559,
	"loss/crossentropy": 2.3170981407165527,
	"loss/hidden": 1.3046875,
	"loss/logits": 0.2506353557109833,
	"loss/reg": 5.991987563902512e-05,
	"step": 329
	},
	{
	"epoch": 0.04125,
	"grad_norm": 2.7683303356170654,
	"grad_norm_var": 0.9228798875820224,
	"learning_rate": 0.0001,
	"loss": 1.3127,
	"loss/crossentropy": 2.51680850982666,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.1949077993631363,
	"loss/reg": 5.990756835672073e-05,
	"step": 330
	},
	{
	"epoch": 0.041375,
	"grad_norm": 2.4825031757354736,
	"grad_norm_var": 0.9280253827718864,
	"learning_rate": 0.0001,
	"loss": 1.3408,
	"loss/crossentropy": 2.605055332183838,
	"loss/hidden": 1.140625,
	"loss/logits": 0.19955970346927643,
	"loss/reg": 5.989522469462827e-05,
	"step": 331
	},
	{
	"epoch": 0.0415,
	"grad_norm": 3.2399041652679443,
	"grad_norm_var": 0.9369785308922095,
	"learning_rate": 0.0001,
	"loss": 1.5753,
	"loss/crossentropy": 2.7269279956817627,
	"loss/hidden": 1.3515625,
	"loss/logits": 0.22315430641174316,
	"loss/reg": 5.988113844068721e-05,
	"step": 332
	},
	{
	"epoch": 0.041625,
	"grad_norm": 2.8936927318573,
	"grad_norm_var": 0.8504314928241191,
	"learning_rate": 0.0001,
	"loss": 1.3222,
	"loss/crossentropy": 2.812412738800049,
	"loss/hidden": 1.140625,
	"loss/logits": 0.1809367835521698,
	"loss/reg": 5.9867059462703764e-05,
	"step": 333
	},
	{
	"epoch": 0.04175,
	"grad_norm": 2.432213068008423,
	"grad_norm_var": 0.8233723477256942,
	"learning_rate": 0.0001,
	"loss": 1.4094,
	"loss/crossentropy": 2.6377694606781006,
	"loss/hidden": 1.203125,
	"loss/logits": 0.20563456416130066,
	"loss/reg": 5.9853711718460545e-05,
	"step": 334
	},
	{
	"epoch": 0.041875,
	"grad_norm": 2.422299861907959,
	"grad_norm_var": 0.7965082638815336,
	"learning_rate": 0.0001,
	"loss": 1.2328,
	"loss/crossentropy": 2.5352189540863037,
	"loss/hidden": 1.078125,
	"loss/logits": 0.15405428409576416,
	"loss/reg": 5.984482049825601e-05,
	"step": 335
	},
	{
	"epoch": 0.042,
	"grad_norm": 2.703420877456665,
	"grad_norm_var": 0.7966286375145801,
	"learning_rate": 0.0001,
	"loss": 1.2981,
	"loss/crossentropy": 2.525949716567993,
	"loss/hidden": 1.1015625,
	"loss/logits": 0.1959662139415741,
	"loss/reg": 5.983649680274539e-05,
	"step": 336
	},
	{
	"epoch": 0.042125,
	"grad_norm": 3.625760078430176,
	"grad_norm_var": 0.14094485019601447,
	"learning_rate": 0.0001,
	"loss": 1.6517,
	"loss/crossentropy": 1.9824917316436768,
	"loss/hidden": 1.3828125,
	"loss/logits": 0.2682979702949524,
	"loss/reg": 5.9825455537065864e-05,
	"step": 337
	},
	{
	"epoch": 0.04225,
	"grad_norm": 2.2066762447357178,
	"grad_norm_var": 0.1579467344221198,
	"learning_rate": 0.0001,
	"loss": 1.1768,
	"loss/crossentropy": 2.5151102542877197,
	"loss/hidden": 1.0078125,
	"loss/logits": 0.16843904554843903,
	"loss/reg": 5.981199865345843e-05,
	"step": 338
	},
	{
	"epoch": 0.042375,
	"grad_norm": 2.961968421936035,
	"grad_norm_var": 0.15445451920782696,
	"learning_rate": 0.0001,
	"loss": 1.5446,
	"loss/crossentropy": 2.397102117538452,
	"loss/hidden": 1.3046875,
	"loss/logits": 0.23934724926948547,
	"loss/reg": 5.979971319902688e-05,
	"step": 339
	},
	{
	"epoch": 0.0425,
	"grad_norm": 2.4696779251098633,
	"grad_norm_var": 0.15509145555751214,
	"learning_rate": 0.0001,
	"loss": 1.2907,
	"loss/crossentropy": 2.518648624420166,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.17289261519908905,
	"loss/reg": 5.979237175779417e-05,
	"step": 340
	},
	{
	"epoch": 0.042625,
	"grad_norm": 2.2886741161346436,
	"grad_norm_var": 0.16228478040589658,
	"learning_rate": 0.0001,
	"loss": 1.2915,
	"loss/crossentropy": 2.4755570888519287,
	"loss/hidden": 1.109375,
	"loss/logits": 0.18152545392513275,
	"loss/reg": 5.978640547255054e-05,
	"step": 341
	},
	{
	"epoch": 0.04275,
	"grad_norm": 2.4154622554779053,
	"grad_norm_var": 0.16631279956205466,
	"learning_rate": 0.0001,
	"loss": 1.1361,
	"loss/crossentropy": 2.620903730392456,
	"loss/hidden": 0.9921875,
	"loss/logits": 0.1432739496231079,
	"loss/reg": 5.977362161502242e-05,
	"step": 342
	},
	{
	"epoch": 0.042875,
	"grad_norm": 3.9107778072357178,
	"grad_norm_var": 0.25008606934497735,
	"learning_rate": 0.0001,
	"loss": 1.6206,
	"loss/crossentropy": 3.3820858001708984,
	"loss/hidden": 1.40625,
	"loss/logits": 0.21375682950019836,
	"loss/reg": 5.976331885904074e-05,
	"step": 343
	},
	{
	"epoch": 0.043,
	"grad_norm": 2.2201833724975586,
	"grad_norm_var": 0.25690416036597197,
	"learning_rate": 0.0001,
	"loss": 1.2446,
	"loss/crossentropy": 2.467216730117798,
	"loss/hidden": 1.0625,
	"loss/logits": 0.18146604299545288,
	"loss/reg": 5.975304884486832e-05,
	"step": 344
	},
	{
	"epoch": 0.043125,
	"grad_norm": 2.1915907859802246,
	"grad_norm_var": 0.26377805805320803,
	"learning_rate": 0.0001,
	"loss": 1.4337,
	"loss/crossentropy": 2.3638522624969482,
	"loss/hidden": 1.203125,
	"loss/logits": 0.22996577620506287,
	"loss/reg": 5.974585292278789e-05,
	"step": 345
	},
	{
	"epoch": 0.04325,
	"grad_norm": 2.2508416175842285,
	"grad_norm_var": 0.27594342104869135,
	"learning_rate": 0.0001,
	"loss": 1.1804,
	"loss/crossentropy": 2.5332260131835938,
	"loss/hidden": 1.0234375,
	"loss/logits": 0.15640094876289368,
	"loss/reg": 5.973771112621762e-05,
	"step": 346
	},
	{
	"epoch": 0.043375,
	"grad_norm": 2.0090150833129883,
	"grad_norm_var": 0.30177518099136,
	"learning_rate": 0.0001,
	"loss": 1.2994,
	"loss/crossentropy": 2.511950731277466,
	"loss/hidden": 1.125,
	"loss/logits": 0.17384442687034607,
	"loss/reg": 5.9728798078140244e-05,
	"step": 347
	},
	{
	"epoch": 0.0435,
	"grad_norm": 2.7306134700775146,
	"grad_norm_var": 0.277258656834267,
	"learning_rate": 0.0001,
	"loss": 1.4199,
	"loss/crossentropy": 2.6389760971069336,
	"loss/hidden": 1.1875,
	"loss/logits": 0.2318291962146759,
	"loss/reg": 5.9719615819631144e-05,
	"step": 348
	},
	{
	"epoch": 0.043625,
	"grad_norm": 2.270148515701294,
	"grad_norm_var": 0.27783213891549774,
	"learning_rate": 0.0001,
	"loss": 1.5484,
	"loss/crossentropy": 2.312831163406372,
	"loss/hidden": 1.2890625,
	"loss/logits": 0.2587454915046692,
	"loss/reg": 5.970869824523106e-05,
	"step": 349
	},
	{
	"epoch": 0.04375,
	"grad_norm": 2.0988070964813232,
	"grad_norm_var": 0.2908751450016543,
	"learning_rate": 0.0001,
	"loss": 1.2681,
	"loss/crossentropy": 2.378908634185791,
	"loss/hidden": 1.109375,
	"loss/logits": 0.1581004559993744,
	"loss/reg": 5.970033089397475e-05,
	"step": 350
	},
	{
	"epoch": 0.043875,
	"grad_norm": 2.045546770095825,
	"grad_norm_var": 0.30608582246859417,
	"learning_rate": 0.0001,
	"loss": 1.1063,
	"loss/crossentropy": 2.4011952877044678,
	"loss/hidden": 0.96875,
	"loss/logits": 0.13691341876983643,
	"loss/reg": 5.969877020106651e-05,
	"step": 351
	},
	{
	"epoch": 0.044,
	"grad_norm": 2.9582409858703613,
	"grad_norm_var": 0.316207957574548,
	"learning_rate": 0.0001,
	"loss": 1.2072,
	"loss/crossentropy": 2.643101215362549,
	"loss/hidden": 1.046875,
	"loss/logits": 0.15975871682167053,
	"loss/reg": 5.9694295487133786e-05,
	"step": 352
	},
	{
	"epoch": 0.044125,
	"grad_norm": 2.125020742416382,
	"grad_norm_var": 0.23988746234485703,
	"learning_rate": 0.0001,
	"loss": 1.2268,
	"loss/crossentropy": 2.5923550128936768,
	"loss/hidden": 1.0390625,
	"loss/logits": 0.18714120984077454,
	"loss/reg": 5.968381810816936e-05,
	"step": 353
	},
	{
	"epoch": 0.04425,
	"grad_norm": 2.2348685264587402,
	"grad_norm_var": 0.2390334750954897,
	"learning_rate": 0.0001,
	"loss": 1.3948,
	"loss/crossentropy": 2.549100637435913,
	"loss/hidden": 1.1953125,
	"loss/logits": 0.198894202709198,
	"loss/reg": 5.9669990150723606e-05,
	"step": 354
	},
	{
	"epoch": 0.044375,
	"grad_norm": 2.6807351112365723,
	"grad_norm_var": 0.2247355561703434,
	"learning_rate": 0.0001,
	"loss": 1.5721,
	"loss/crossentropy": 2.2256884574890137,
	"loss/hidden": 1.3046875,
	"loss/logits": 0.26683151721954346,
	"loss/reg": 5.966486787656322e-05,
	"step": 355
	},
	{
	"epoch": 0.0445,
	"grad_norm": 3.1524059772491455,
	"grad_norm_var": 0.2573648537337417,
	"learning_rate": 0.0001,
	"loss": 1.5458,
	"loss/crossentropy": 2.4026124477386475,
	"loss/hidden": 1.3203125,
	"loss/logits": 0.22484509646892548,
	"loss/reg": 5.965128730167635e-05,
	"step": 356
	},
	{
	"epoch": 0.044625,
	"grad_norm": 3.806107759475708,
	"grad_norm_var": 0.3637951956534662,
	"learning_rate": 0.0001,
	"loss": 1.2257,
	"loss/crossentropy": 2.534790277481079,
	"loss/hidden": 1.1015625,
	"loss/logits": 0.12353114783763885,
	"loss/reg": 5.9637932281475514e-05,
	"step": 357
	},
	{
	"epoch": 0.04475,
	"grad_norm": 2.6499619483947754,
	"grad_norm_var": 0.36243857175732047,
	"learning_rate": 0.0001,
	"loss": 1.2577,
	"loss/crossentropy": 2.786536931991577,
	"loss/hidden": 1.078125,
	"loss/logits": 0.17896610498428345,
	"loss/reg": 5.962959403404966e-05,
	"step": 358
	},
	{
	"epoch": 0.044875,
	"grad_norm": 2.750371217727661,
	"grad_norm_var": 0.24122897908522703,
	"learning_rate": 0.0001,
	"loss": 1.3213,
	"loss/crossentropy": 2.5112698078155518,
	"loss/hidden": 1.125,
	"loss/logits": 0.19569161534309387,
	"loss/reg": 5.961711940472014e-05,
	"step": 359
	},
	{
	"epoch": 0.045,
	"grad_norm": 2.4145219326019287,
	"grad_norm_var": 0.23605635737508593,
	"learning_rate": 0.0001,
	"loss": 1.4067,
	"loss/crossentropy": 2.4327914714813232,
	"loss/hidden": 1.171875,
	"loss/logits": 0.23425719141960144,
	"loss/reg": 5.960506314295344e-05,
	"step": 360
	},
	{
	"epoch": 0.045125,
	"grad_norm": 2.7820589542388916,
	"grad_norm_var": 0.2317516785903725,
	"learning_rate": 0.0001,
	"loss": 1.5833,
	"loss/crossentropy": 2.6201419830322266,
	"loss/hidden": 1.3359375,
	"loss/logits": 0.2468121349811554,
	"loss/reg": 5.959635382168926e-05,
	"step": 361
	},
	{
	"epoch": 0.04525,
	"grad_norm": 3.0179331302642822,
	"grad_norm_var": 0.23691283979908515,
	"learning_rate": 0.0001,
	"loss": 1.3921,
	"loss/crossentropy": 2.728665351867676,
	"loss/hidden": 1.1953125,
	"loss/logits": 0.19617268443107605,
	"loss/reg": 5.958346446277574e-05,
	"step": 362
	},
	{
	"epoch": 0.045375,
	"grad_norm": 2.577760934829712,
	"grad_norm_var": 0.21171492452191767,
	"learning_rate": 0.0001,
	"loss": 1.3343,
	"loss/crossentropy": 2.4396915435791016,
	"loss/hidden": 1.140625,
	"loss/logits": 0.19306717813014984,
	"loss/reg": 5.957194298389368e-05,
	"step": 363
	},
	{
	"epoch": 0.0455,
	"grad_norm": 2.2478973865509033,
	"grad_norm_var": 0.22066793284785244,
	"learning_rate": 0.0001,
	"loss": 1.2107,
	"loss/crossentropy": 2.5703125,
	"loss/hidden": 1.046875,
	"loss/logits": 0.16320618987083435,
	"loss/reg": 5.955886445008218e-05,
	"step": 364
	},
	{
	"epoch": 0.045625,
	"grad_norm": 2.8303184509277344,
	"grad_norm_var": 0.21465200545435412,
	"learning_rate": 0.0001,
	"loss": 1.3184,
	"loss/crossentropy": 2.5793418884277344,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.20061752200126648,
	"loss/reg": 5.954650623607449e-05,
	"step": 365
	},
	{
	"epoch": 0.04575,
	"grad_norm": 2.3407225608825684,
	"grad_norm_var": 0.20058607793752117,
	"learning_rate": 0.0001,
	"loss": 1.2154,
	"loss/crossentropy": 2.5118396282196045,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.16011780500411987,
	"loss/reg": 5.9531517763389274e-05,
	"step": 366
	},
	{
	"epoch": 0.045875,
	"grad_norm": 2.9164462089538574,
	"grad_norm_var": 0.17624459628143327,
	"learning_rate": 0.0001,
	"loss": 2.3079,
	"loss/crossentropy": 2.530949831008911,
	"loss/hidden": 1.7890625,
	"loss/logits": 0.5182523727416992,
	"loss/reg": 5.9519883507164195e-05,
	"step": 367
	},
	{
	"epoch": 0.046,
	"grad_norm": 2.6031134128570557,
	"grad_norm_var": 0.17274354994838556,
	"learning_rate": 0.0001,
	"loss": 1.3529,
	"loss/crossentropy": 2.5211331844329834,
	"loss/hidden": 1.140625,
	"loss/logits": 0.21172133088111877,
	"loss/reg": 5.950441482127644e-05,
	"step": 368
	},
	{
	"epoch": 0.046125,
	"grad_norm": 2.2432241439819336,
	"grad_norm_var": 0.16462358021652007,
	"learning_rate": 0.0001,
	"loss": 1.2433,
	"loss/crossentropy": 2.469212055206299,
	"loss/hidden": 1.0625,
	"loss/logits": 0.18018998205661774,
	"loss/reg": 5.9490499552339315e-05,
	"step": 369
	},
	{
	"epoch": 0.04625,
	"grad_norm": 3.287365674972534,
	"grad_norm_var": 0.16815977224474163,
	"learning_rate": 0.0001,
	"loss": 1.3311,
	"loss/crossentropy": 2.7330899238586426,
	"loss/hidden": 1.140625,
	"loss/logits": 0.18986304104328156,
	"loss/reg": 5.9471924032550305e-05,
	"step": 370
	},
	{
	"epoch": 0.046375,
	"grad_norm": 2.6555063724517822,
	"grad_norm_var": 0.16849581874392333,
	"learning_rate": 0.0001,
	"loss": 1.3069,
	"loss/crossentropy": 2.4908649921417236,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.1890988051891327,
	"loss/reg": 5.9457710449351e-05,
	"step": 371
	},
	{
	"epoch": 0.0465,
	"grad_norm": 2.2832915782928467,
	"grad_norm_var": 0.1710711381355336,
	"learning_rate": 0.0001,
	"loss": 1.251,
	"loss/crossentropy": 2.6485414505004883,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.16444087028503418,
	"loss/reg": 5.9437123127281666e-05,
	"step": 372
	},
	{
	"epoch": 0.046625,
	"grad_norm": 1.9312299489974976,
	"grad_norm_var": 0.11748808484953574,
	"learning_rate": 0.0001,
	"loss": 1.3104,
	"loss/crossentropy": 2.4345285892486572,
	"loss/hidden": 1.125,
	"loss/logits": 0.1848057061433792,
	"loss/reg": 5.941649214946665e-05,
	"step": 373
	},
	{
	"epoch": 0.04675,
	"grad_norm": 2.2687668800354004,
	"grad_norm_var": 0.12381368567199799,
	"learning_rate": 0.0001,
	"loss": 1.2697,
	"loss/crossentropy": 2.514896869659424,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.18321493268013,
	"loss/reg": 5.939120819675736e-05,
	"step": 374
	},
	{
	"epoch": 0.046875,
	"grad_norm": 2.1616384983062744,
	"grad_norm_var": 0.131467626574521,
	"learning_rate": 0.0001,
	"loss": 1.2405,
	"loss/crossentropy": 2.698112964630127,
	"loss/hidden": 1.0625,
	"loss/logits": 0.1773754358291626,
	"loss/reg": 5.936667002970353e-05,
	"step": 375
	},
	{
	"epoch": 0.047,
	"grad_norm": 2.6922011375427246,
	"grad_norm_var": 0.13182201209023336,
	"learning_rate": 0.0001,
	"loss": 1.3426,
	"loss/crossentropy": 2.538865327835083,
	"loss/hidden": 1.15625,
	"loss/logits": 0.1857489049434662,
	"loss/reg": 5.9345431509427726e-05,
	"step": 376
	},
	{
	"epoch": 0.047125,
	"grad_norm": 2.2630982398986816,
	"grad_norm_var": 0.13276797957838743,
	"learning_rate": 0.0001,
	"loss": 1.2869,
	"loss/crossentropy": 2.4644358158111572,
	"loss/hidden": 1.109375,
	"loss/logits": 0.17694343626499176,
	"loss/reg": 5.933275315328501e-05,
	"step": 377
	},
	{
	"epoch": 0.04725,
	"grad_norm": 2.479646682739258,
	"grad_norm_var": 0.11514238570119009,
	"learning_rate": 0.0001,
	"loss": 1.1618,
	"loss/crossentropy": 2.5582141876220703,
	"loss/hidden": 1.015625,
	"loss/logits": 0.14554372429847717,
	"loss/reg": 5.931046689511277e-05,
	"step": 378
	},
	{
	"epoch": 0.047375,
	"grad_norm": 2.466947317123413,
	"grad_norm_var": 0.114559834161389,
	"learning_rate": 0.0001,
	"loss": 1.48,
	"loss/crossentropy": 2.4128925800323486,
	"loss/hidden": 1.2421875,
	"loss/logits": 0.23724211752414703,
	"loss/reg": 5.929026156081818e-05,
	"step": 379
	},
	{
	"epoch": 0.0475,
	"grad_norm": 2.538424015045166,
	"grad_norm_var": 0.11086504579424972,
	"learning_rate": 0.0001,
	"loss": 1.4136,
	"loss/crossentropy": 2.0768887996673584,
	"loss/hidden": 1.234375,
	"loss/logits": 0.17867109179496765,
	"loss/reg": 5.92764736211393e-05,
	"step": 380
	},
	{
	"epoch": 0.047625,
	"grad_norm": 2.654524564743042,
	"grad_norm_var": 0.1049983644074643,
	"learning_rate": 0.0001,
	"loss": 1.3221,
	"loss/crossentropy": 2.1216413974761963,
	"loss/hidden": 1.15625,
	"loss/logits": 0.16521546244621277,
	"loss/reg": 5.926107769482769e-05,
	"step": 381
	},
	{
	"epoch": 0.04775,
	"grad_norm": 2.237818717956543,
	"grad_norm_var": 0.10766217194697697,
	"learning_rate": 0.0001,
	"loss": 1.2236,
	"loss/crossentropy": 2.6475207805633545,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.16833502054214478,
	"loss/reg": 5.924178913119249e-05,
	"step": 382
	},
	{
	"epoch": 0.047875,
	"grad_norm": 2.7116799354553223,
	"grad_norm_var": 0.09837235459497572,
	"learning_rate": 0.0001,
	"loss": 1.3102,
	"loss/crossentropy": 2.6615209579467773,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.1924624741077423,
	"loss/reg": 5.921960837440565e-05,
	"step": 383
	},
	{
	"epoch": 0.048,
	"grad_norm": 2.5439391136169434,
	"grad_norm_var": 0.09752047633307553,
	"learning_rate": 0.0001,
	"loss": 1.3258,
	"loss/crossentropy": 2.10198974609375,
	"loss/hidden": 1.15625,
	"loss/logits": 0.1689702719449997,
	"loss/reg": 5.919525210629217e-05,
	"step": 384
	},
	{
	"epoch": 0.048125,
	"grad_norm": 2.617921829223633,
	"grad_norm_var": 0.09528014676361156,
	"learning_rate": 0.0001,
	"loss": 1.61,
	"loss/crossentropy": 2.445833206176758,
	"loss/hidden": 1.328125,
	"loss/logits": 0.28133296966552734,
	"loss/reg": 5.917950693401508e-05,
	"step": 385
	},
	{
	"epoch": 0.04825,
	"grad_norm": 2.514899730682373,
	"grad_norm_var": 0.05015297139615639,
	"learning_rate": 0.0001,
	"loss": 1.1964,
	"loss/crossentropy": 2.4887778759002686,
	"loss/hidden": 1.0390625,
	"loss/logits": 0.1567072868347168,
	"loss/reg": 5.916162990615703e-05,
	"step": 386
	},
	{
	"epoch": 0.048375,
	"grad_norm": 2.1075565814971924,
	"grad_norm_var": 0.053089324895933446,
	"learning_rate": 0.0001,
	"loss": 1.0537,
	"loss/crossentropy": 2.4045815467834473,
	"loss/hidden": 0.921875,
	"loss/logits": 0.1312153935432434,
	"loss/reg": 5.914089342695661e-05,
	"step": 387
	},
	{
	"epoch": 0.0485,
	"grad_norm": 2.475404739379883,
	"grad_norm_var": 0.05228874002812057,
	"learning_rate": 0.0001,
	"loss": 1.3003,
	"loss/crossentropy": 2.591153383255005,
	"loss/hidden": 1.109375,
	"loss/logits": 0.19037862122058868,
	"loss/reg": 5.9116682677995414e-05,
	"step": 388
	},
	{
	"epoch": 0.048625,
	"grad_norm": 4.638079643249512,
	"grad_norm_var": 0.33504973194641535,
	"learning_rate": 0.0001,
	"loss": 1.7407,
	"loss/crossentropy": 2.992236852645874,
	"loss/hidden": 1.4609375,
	"loss/logits": 0.2792096734046936,
	"loss/reg": 5.9097284974996e-05,
	"step": 389
	},
	{
	"epoch": 0.04875,
	"grad_norm": 2.4662392139434814,
	"grad_norm_var": 0.32913998556907487,
	"learning_rate": 0.0001,
	"loss": 1.1454,
	"loss/crossentropy": 2.9239540100097656,
	"loss/hidden": 0.9921875,
	"loss/logits": 0.15260137617588043,
	"loss/reg": 5.907983722863719e-05,
	"step": 390
	},
	{
	"epoch": 0.048875,
	"grad_norm": 2.439119338989258,
	"grad_norm_var": 0.31780327994806234,
	"learning_rate": 0.0001,
	"loss": 1.3638,
	"loss/crossentropy": 2.450254440307617,
	"loss/hidden": 1.1640625,
	"loss/logits": 0.19915927946567535,
	"loss/reg": 5.9063841035822406e-05,
	"step": 391
	},
	{
	"epoch": 0.049,
	"grad_norm": 2.3475067615509033,
	"grad_norm_var": 0.3217026075593497,
	"learning_rate": 0.0001,
	"loss": 1.533,
	"loss/crossentropy": 2.617830753326416,
	"loss/hidden": 1.265625,
	"loss/logits": 0.26678475737571716,
	"loss/reg": 5.90429590374697e-05,
	"step": 392
	},
	{
	"epoch": 0.049125,
	"grad_norm": 4.364901065826416,
	"grad_norm_var": 0.5050899240629005,
	"learning_rate": 0.0001,
	"loss": 1.4632,
	"loss/crossentropy": 2.4607560634613037,
	"loss/hidden": 1.2421875,
	"loss/logits": 0.22039487957954407,
	"loss/reg": 5.902666089241393e-05,
	"step": 393
	},
	{
	"epoch": 0.04925,
	"grad_norm": 2.338758707046509,
	"grad_norm_var": 0.5109449021123245,
	"learning_rate": 0.0001,
	"loss": 1.2995,
	"loss/crossentropy": 2.6618576049804688,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.1817541867494583,
	"loss/reg": 5.9010566474171355e-05,
	"step": 394
	},
	{
	"epoch": 0.049375,
	"grad_norm": 3.5642833709716797,
	"grad_norm_var": 0.549694181009107,
	"learning_rate": 0.0001,
	"loss": 1.3152,
	"loss/crossentropy": 2.300379753112793,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.1974020004272461,
	"loss/reg": 5.8987676311517134e-05,
	"step": 395
	},
	{
	"epoch": 0.0495,
	"grad_norm": 2.1328978538513184,
	"grad_norm_var": 0.573308372527261,
	"learning_rate": 0.0001,
	"loss": 1.244,
	"loss/crossentropy": 2.4386301040649414,
	"loss/hidden": 1.0625,
	"loss/logits": 0.18090221285820007,
	"loss/reg": 5.8964946219930425e-05,
	"step": 396
	},
	{
	"epoch": 0.049625,
	"grad_norm": 3.0894107818603516,
	"grad_norm_var": 0.5790289690992334,
	"learning_rate": 0.0001,
	"loss": 1.5661,
	"loss/crossentropy": 2.365107297897339,
	"loss/hidden": 1.3671875,
	"loss/logits": 0.1983477920293808,
	"loss/reg": 5.8950212405761704e-05,
	"step": 397
	},
	{
	"epoch": 0.04975,
	"grad_norm": 3.194427967071533,
	"grad_norm_var": 0.566188494588774,
	"learning_rate": 0.0001,
	"loss": 1.4269,
	"loss/crossentropy": 2.384216547012329,
	"loss/hidden": 1.21875,
	"loss/logits": 0.20751546323299408,
	"loss/reg": 5.8928319049300626e-05,
	"step": 398
	},
	{
	"epoch": 0.049875,
	"grad_norm": 2.5108933448791504,
	"grad_norm_var": 0.5723226037333423,
	"learning_rate": 0.0001,
	"loss": 1.2127,
	"loss/crossentropy": 2.5466771125793457,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.1574660688638687,
	"loss/reg": 5.891324326512404e-05,
	"step": 399
	},
	{
	"epoch": 0.05,
	"grad_norm": 2.9769773483276367,
	"grad_norm_var": 0.5672869916808385,
	"learning_rate": 0.0001,
	"loss": 1.3045,
	"loss/crossentropy": 2.7223000526428223,
	"loss/hidden": 1.1171875,
	"loss/logits": 0.18677057325839996,
	"loss/reg": 5.889027670491487e-05,
	"step": 400
	},
	{
	"epoch": 0.050125,
	"grad_norm": 3.31915283203125,
	"grad_norm_var": 0.5752734489563172,
	"learning_rate": 0.0001,
	"loss": 1.2639,
	"loss/crossentropy": 2.4886364936828613,
	"loss/hidden": 1.078125,
	"loss/logits": 0.1851940155029297,
	"loss/reg": 5.887265797355212e-05,
	"step": 401
	},
	{
	"epoch": 0.05025,
	"grad_norm": 1.8946937322616577,
	"grad_norm_var": 0.6315760522485537,
	"learning_rate": 0.0001,
	"loss": 1.2326,
	"loss/crossentropy": 2.414213180541992,
	"loss/hidden": 1.0703125,
	"loss/logits": 0.16165336966514587,
	"loss/reg": 5.885552673134953e-05,
	"step": 402
	},
	{
	"epoch": 0.050375,
	"grad_norm": 2.5370404720306396,
	"grad_norm_var": 0.5996572790739425,
	"learning_rate": 0.0001,
	"loss": 1.5079,
	"loss/crossentropy": 2.3421835899353027,
	"loss/hidden": 1.28125,
	"loss/logits": 0.22602099180221558,
	"loss/reg": 5.88419679843355e-05,
	"step": 403
	},
	{
	"epoch": 0.0505,
	"grad_norm": 2.4215445518493652,
	"grad_norm_var": 0.6028382899137373,
	"learning_rate": 0.0001,
	"loss": 1.4975,
	"loss/crossentropy": 2.7361152172088623,
	"loss/hidden": 1.2421875,
	"loss/logits": 0.25468122959136963,
	"loss/reg": 5.88247858104296e-05,
	"step": 404
	},
	{
	"epoch": 0.050625,
	"grad_norm": 2.049978733062744,
	"grad_norm_var": 0.4181645547932513,
	"learning_rate": 0.0001,
	"loss": 1.1088,
	"loss/crossentropy": 2.350353717803955,
	"loss/hidden": 0.953125,
	"loss/logits": 0.15509989857673645,
	"loss/reg": 5.880888784304261e-05,
	"step": 405
	},
	{
	"epoch": 0.05075,
	"grad_norm": 2.7967936992645264,
	"grad_norm_var": 0.41345734870287976,
	"learning_rate": 0.0001,
	"loss": 1.3869,
	"loss/crossentropy": 2.5875766277313232,
	"loss/hidden": 1.171875,
	"loss/logits": 0.21445012092590332,
	"loss/reg": 5.8793633797904477e-05,
	"step": 406
	},
	{
	"epoch": 0.050875,
	"grad_norm": 2.169900894165039,
	"grad_norm_var": 0.429098064205416,
	"learning_rate": 0.0001,
	"loss": 1.0776,
	"loss/crossentropy": 2.398125410079956,
	"loss/hidden": 0.93359375,
	"loss/logits": 0.14346018433570862,
	"loss/reg": 5.877741932636127e-05,
	"step": 407
	},
	{
	"epoch": 0.051,
	"grad_norm": 2.5045695304870605,
	"grad_norm_var": 0.4225916301522199,
	"learning_rate": 0.0001,
	"loss": 1.5355,
	"loss/crossentropy": 2.1697590351104736,
	"loss/hidden": 1.328125,
	"loss/logits": 0.20677754282951355,
	"loss/reg": 5.876670911675319e-05,
	"step": 408
	},
	{
	"epoch": 0.051125,
	"grad_norm": 18.23008918762207,
	"grad_norm_var": 15.43871781968465,
	"learning_rate": 0.0001,
	"loss": 1.4882,
	"loss/crossentropy": 2.602886438369751,
	"loss/hidden": 1.3046875,
	"loss/logits": 0.18289120495319366,
	"loss/reg": 5.874884300283156e-05,
	"step": 409
	},
	{
	"epoch": 0.05125,
	"grad_norm": 2.8436660766601562,
	"grad_norm_var": 15.369190103974788,
	"learning_rate": 0.0001,
	"loss": 1.3294,
	"loss/crossentropy": 2.4684174060821533,
	"loss/hidden": 1.140625,
	"loss/logits": 0.18818634748458862,
	"loss/reg": 5.873553891433403e-05,
	"step": 410
	},
	{
	"epoch": 0.051375,
	"grad_norm": 2.2729334831237793,
	"grad_norm_var": 15.486411427985377,
	"learning_rate": 0.0001,
	"loss": 1.2331,
	"loss/crossentropy": 2.550140857696533,
	"loss/hidden": 1.0390625,
	"loss/logits": 0.19348369538784027,
	"loss/reg": 5.8720732340589166e-05,
	"step": 411
	},
	{
	"epoch": 0.0515,
	"grad_norm": 2.5612359046936035,
	"grad_norm_var": 15.416427881560285,
	"learning_rate": 0.0001,
	"loss": 1.3333,
	"loss/crossentropy": 2.4774818420410156,
	"loss/hidden": 1.125,
	"loss/logits": 0.2077203392982483,
	"loss/reg": 5.8710702433018014e-05,
	"step": 412
	},
	{
	"epoch": 0.051625,
	"grad_norm": 4.02579927444458,
	"grad_norm_var": 15.409250289477422,
	"learning_rate": 0.0001,
	"loss": 1.507,
	"loss/crossentropy": 2.555722713470459,
	"loss/hidden": 1.3046875,
	"loss/logits": 0.20171231031417847,
	"loss/reg": 5.870195309398696e-05,
	"step": 413
	},
	{
	"epoch": 0.05175,
	"grad_norm": 2.443574905395508,
	"grad_norm_var": 15.489530544756628,
	"learning_rate": 0.0001,
	"loss": 1.2774,
	"loss/crossentropy": 2.706422805786133,
	"loss/hidden": 1.09375,
	"loss/logits": 0.1831112802028656,
	"loss/reg": 5.8690613514045253e-05,
	"step": 414
	},
	{
	"epoch": 0.051875,
	"grad_norm": 2.079418897628784,
	"grad_norm_var": 15.563674426313279,
	"learning_rate": 0.0001,
	"loss": 1.1798,
	"loss/crossentropy": 2.6763839721679688,
	"loss/hidden": 1.03125,
	"loss/logits": 0.14800235629081726,
	"loss/reg": 5.8675475884228945e-05,
	"step": 415
	},
	{
	"epoch": 0.052,
	"grad_norm": 2.7786471843719482,
	"grad_norm_var": 15.581826938638233,
	"learning_rate": 0.0001,
	"loss": 1.2465,
	"loss/crossentropy": 2.6709306240081787,
	"loss/hidden": 1.078125,
	"loss/logits": 0.1678304374217987,
	"loss/reg": 5.866462379344739e-05,
	"step": 416
	},
	{
	"epoch": 0.052125,
	"grad_norm": 2.770376443862915,
	"grad_norm_var": 15.618130403520784,
	"learning_rate": 0.0001,
	"loss": 1.3111,
	"loss/crossentropy": 2.646826982498169,
	"loss/hidden": 1.1328125,
	"loss/logits": 0.1777157187461853,
	"loss/reg": 5.865520142833702e-05,
	"step": 417
	},
	{
	"epoch": 0.05225,
	"grad_norm": 2.092414617538452,
	"grad_norm_var": 15.57762685735369,
	"learning_rate": 0.0001,
	"loss": 1.3353,
	"loss/crossentropy": 2.62361741065979,
	"loss/hidden": 1.15625,
	"loss/logits": 0.17848479747772217,
	"loss/reg": 5.8638761402107775e-05,
	"step": 418
	},
	{
	"epoch": 0.052375,
	"grad_norm": 2.05226731300354,
	"grad_norm_var": 15.656891853986265,
	"learning_rate": 0.0001,
	"loss": 1.14,
	"loss/crossentropy": 2.697723865509033,
	"loss/hidden": 0.9921875,
	"loss/logits": 0.14726917445659637,
	"loss/reg": 5.862316902494058e-05,
	"step": 419
	},
	{
	"epoch": 0.0525,
	"grad_norm": 2.6924796104431152,
	"grad_norm_var": 15.622310414474152,
	"learning_rate": 0.0001,
	"loss": 1.404,
	"loss/crossentropy": 2.601827383041382,
	"loss/hidden": 1.2109375,
	"loss/logits": 0.19246245920658112,
	"loss/reg": 5.860950841451995e-05,
	"step": 420
	},
	{
	"epoch": 0.052625,
	"grad_norm": 5.301983833312988,
	"grad_norm_var": 15.644682914862404,
	"learning_rate": 0.0001,
	"loss": 1.4862,
	"loss/crossentropy": 2.6217854022979736,
	"loss/hidden": 1.296875,
	"loss/logits": 0.18871337175369263,
	"loss/reg": 5.8600846386980265e-05,
	"step": 421
	},
	{
	"epoch": 0.05275,
	"grad_norm": 2.114091634750366,
	"grad_norm_var": 15.758396712898662,
	"learning_rate": 0.0001,
	"loss": 1.2033,
	"loss/crossentropy": 2.5663623809814453,
	"loss/hidden": 1.0390625,
	"loss/logits": 0.16362521052360535,
	"loss/reg": 5.8592915593180805e-05,
	"step": 422
	},
	{
	"epoch": 0.052875,
	"grad_norm": 2.757091999053955,
	"grad_norm_var": 15.661455859551703,
	"learning_rate": 0.0001,
	"loss": 1.1223,
	"loss/crossentropy": 2.4681971073150635,
	"loss/hidden": 0.97265625,
	"loss/logits": 0.14905983209609985,
	"loss/reg": 5.858425720361993e-05,
	"step": 423
	},
	{
	"epoch": 0.053,
	"grad_norm": 2.4524407386779785,
	"grad_norm_var": 15.670073831964206,
	"learning_rate": 0.0001,
	"loss": 1.2938,
	"loss/crossentropy": 2.4758145809173584,
	"loss/hidden": 1.1015625,
	"loss/logits": 0.19164547324180603,
	"loss/reg": 5.857350697624497e-05,
	"step": 424
	},
	{
	"epoch": 0.053125,
	"grad_norm": 2.3052892684936523,
	"grad_norm_var": 0.7038252417895506,
	"learning_rate": 0.0001,
	"loss": 1.2565,
	"loss/crossentropy": 2.597487211227417,
	"loss/hidden": 1.0703125,
	"loss/logits": 0.18559187650680542,
	"loss/reg": 5.855830750078894e-05,
	"step": 425
	},
	{
	"epoch": 0.05325,
	"grad_norm": 2.7276995182037354,
	"grad_norm_var": 0.7027765205874381,
	"learning_rate": 0.0001,
	"loss": 1.4141,
	"loss/crossentropy": 2.6818253993988037,
	"loss/hidden": 1.21875,
	"loss/logits": 0.1948131024837494,
	"loss/reg": 5.854442133568227e-05,
	"step": 426
	},
	{
	"epoch": 0.053375,
	"grad_norm": 1.725293517112732,
	"grad_norm_var": 0.7537440425638384,
	"learning_rate": 0.0001,
	"loss": 1.1664,
	"loss/crossentropy": 2.4244258403778076,
	"loss/hidden": 1.015625,
	"loss/logits": 0.1502000093460083,
	"loss/reg": 5.85384841542691e-05,
	"step": 427
	},
	{
	"epoch": 0.0535,
	"grad_norm": 2.6642932891845703,
	"grad_norm_var": 0.7527758186064119,
	"learning_rate": 0.0001,
	"loss": 1.5211,
	"loss/crossentropy": 2.1209182739257812,
	"loss/hidden": 1.328125,
	"loss/logits": 0.192403644323349,
	"loss/reg": 5.852692629559897e-05,
	"step": 428
	},
	{
	"epoch": 0.053625,
	"grad_norm": 2.7787868976593018,
	"grad_norm_var": 0.6272740663233074,
	"learning_rate": 0.0001,
	"loss": 1.3046,
	"loss/crossentropy": 2.3020565509796143,
	"loss/hidden": 1.125,
	"loss/logits": 0.179016575217247,
	"loss/reg": 5.851646346854977e-05,
	"step": 429
	},
	{
	"epoch": 0.05375,
	"grad_norm": 2.891101360321045,
	"grad_norm_var": 0.6299498912530666,
	"learning_rate": 0.0001,
	"loss": 1.4198,
	"loss/crossentropy": 2.33249568939209,
	"loss/hidden": 1.203125,
	"loss/logits": 0.21604114770889282,
	"loss/reg": 5.850956222275272e-05,
	"step": 430
	},
	{
	"epoch": 0.053875,
	"grad_norm": 2.7940289974212646,
	"grad_norm_var": 0.608789107013446,
	"learning_rate": 0.0001,
	"loss": 1.1825,
	"loss/crossentropy": 2.6553549766540527,
	"loss/hidden": 1.03125,
	"loss/logits": 0.15064392983913422,
	"loss/reg": 5.8500536397332326e-05,
	"step": 431
	},
	{
	"epoch": 0.054,
	"grad_norm": 25.06597328186035,
	"grad_norm_var": 31.943843646690855,
	"learning_rate": 0.0001,
	"loss": 2.4055,
	"loss/crossentropy": 2.7126245498657227,
	"loss/hidden": 2.03125,
	"loss/logits": 0.3736712336540222,
	"loss/reg": 5.849341687280685e-05,
	"step": 432
	},
	{
	"epoch": 0.054125,
	"grad_norm": 2.4612748622894287,
	"grad_norm_var": 32.003546233579016,
	"learning_rate": 0.0001,
	"loss": 1.4832,
	"loss/crossentropy": 2.6244633197784424,
	"loss/hidden": 1.25,
	"loss/logits": 0.23266229033470154,
	"loss/reg": 5.847978172823787e-05,
	"step": 433
	},
	{
	"epoch": 0.05425,
	"grad_norm": 2.413149356842041,
	"grad_norm_var": 31.926055741483236,
	"learning_rate": 0.0001,
	"loss": 1.405,
	"loss/crossentropy": 2.513383626937866,
	"loss/hidden": 1.1953125,
	"loss/logits": 0.2091376930475235,
	"loss/reg": 5.847239663125947e-05,
	"step": 434
	},
	{
	"epoch": 0.054375,
	"grad_norm": 2.1266605854034424,
	"grad_norm_var": 31.906339652731415,
	"learning_rate": 0.0001,
	"loss": 1.2307,
	"loss/crossentropy": 2.645113706588745,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.17538747191429138,
	"loss/reg": 5.8466725022299215e-05,
	"step": 435
	},
	{
	"epoch": 0.0545,
	"grad_norm": 2.693485975265503,
	"grad_norm_var": 31.906153605922054,
	"learning_rate": 0.0001,
	"loss": 1.3491,
	"loss/crossentropy": 2.5616350173950195,
	"loss/hidden": 1.171875,
	"loss/logits": 0.1766662299633026,
	"loss/reg": 5.845691339345649e-05,
	"step": 436
	},
	{
	"epoch": 0.054625,
	"grad_norm": 3.594322681427002,
	"grad_norm_var": 31.81007436255887,
	"learning_rate": 0.0001,
	"loss": 1.4456,
	"loss/crossentropy": 2.320868492126465,
	"loss/hidden": 1.171875,
	"loss/logits": 0.2730950713157654,
	"loss/reg": 5.845166742801666e-05,
	"step": 437
	},
	{
	"epoch": 0.05475,
	"grad_norm": 2.725066900253296,
	"grad_norm_var": 31.681987454427826,
	"learning_rate": 0.0001,
	"loss": 1.4368,
	"loss/crossentropy": 2.4526007175445557,
	"loss/hidden": 1.21875,
	"loss/logits": 0.21745863556861877,
	"loss/reg": 5.844476982019842e-05,
	"step": 438
	},
	{
	"epoch": 0.054875,
	"grad_norm": 2.615208625793457,
	"grad_norm_var": 31.706966746538818,
	"learning_rate": 0.0001,
	"loss": 1.2902,
	"loss/crossentropy": 2.5873489379882812,
	"loss/hidden": 1.109375,
	"loss/logits": 0.18027284741401672,
	"loss/reg": 5.843998587806709e-05,
	"step": 439
	},
	{
	"epoch": 0.055,
	"grad_norm": 2.679504632949829,
	"grad_norm_var": 31.66327199965654,
	"learning_rate": 0.0001,
	"loss": 1.4142,
	"loss/crossentropy": 2.171384811401367,
	"loss/hidden": 1.21875,
	"loss/logits": 0.1948787271976471,
	"loss/reg": 5.8425270253792405e-05,
	"step": 440
	},
	{
	"epoch": 0.055125,
	"grad_norm": 2.781118869781494,
	"grad_norm_var": 31.56886824166385,
	"learning_rate": 0.0001,
	"loss": 1.2261,
	"loss/crossentropy": 2.616610050201416,
	"loss/hidden": 1.0625,
	"loss/logits": 0.16300562024116516,
	"loss/reg": 5.841004167450592e-05,
	"step": 441
	},
	{
	"epoch": 0.05525,
	"grad_norm": 2.8343710899353027,
	"grad_norm_var": 31.550828531904,
	"learning_rate": 0.0001,
	"loss": 1.6654,
	"loss/crossentropy": 2.254971504211426,
	"loss/hidden": 1.390625,
	"loss/logits": 0.27416497468948364,
	"loss/reg": 5.840086305397563e-05,
	"step": 442
	},
	{
	"epoch": 0.055375,
	"grad_norm": 2.943516254425049,
	"grad_norm_var": 31.26553828771242,
	"learning_rate": 0.0001,
	"loss": 1.3037,
	"loss/crossentropy": 2.607365131378174,
	"loss/hidden": 1.140625,
	"loss/logits": 0.16250211000442505,
	"loss/reg": 5.8392772189108655e-05,
	"step": 443
	},
	{
	"epoch": 0.0555,
	"grad_norm": 4.3494696617126465,
	"grad_norm_var": 31.11395178262311,
	"learning_rate": 0.0001,
	"loss": 1.4874,
	"loss/crossentropy": 2.803809642791748,
	"loss/hidden": 1.265625,
	"loss/logits": 0.22114460170269012,
	"loss/reg": 5.8383415307616815e-05,
	"step": 444
	},
	{
	"epoch": 0.055625,
	"grad_norm": 2.3149962425231934,
	"grad_norm_var": 31.21739595793184,
	"learning_rate": 0.0001,
	"loss": 1.1723,
	"loss/crossentropy": 2.7661781311035156,
	"loss/hidden": 1.015625,
	"loss/logits": 0.1560768485069275,
	"loss/reg": 5.8376208471599966e-05,
	"step": 445
	},
	{
	"epoch": 0.05575,
	"grad_norm": 2.5312862396240234,
	"grad_norm_var": 31.288532129977195,
	"learning_rate": 0.0001,
	"loss": 1.4583,
	"loss/crossentropy": 2.3608808517456055,
	"loss/hidden": 1.234375,
	"loss/logits": 0.22338923811912537,
	"loss/reg": 5.83621695113834e-05,
	"step": 446
	},
	{
	"epoch": 0.055875,
	"grad_norm": 2.0245697498321533,
	"grad_norm_var": 31.468007952235922,
	"learning_rate": 0.0001,
	"loss": 1.2537,
	"loss/crossentropy": 2.6646907329559326,
	"loss/hidden": 1.0859375,
	"loss/logits": 0.1671399027109146,
	"loss/reg": 5.835363481310196e-05,
	"step": 447
	},
	{
	"epoch": 0.056,
	"grad_norm": 4.180586338043213,
	"grad_norm_var": 0.4425575902395887,
	"learning_rate": 0.0001,
	"loss": 1.4287,
	"loss/crossentropy": 2.478865623474121,
	"loss/hidden": 1.1796875,
	"loss/logits": 0.2484455555677414,
	"loss/reg": 5.833926479681395e-05,
	"step": 448
	},
	{
	"epoch": 0.056125,
	"grad_norm": 2.2291383743286133,
	"grad_norm_var": 0.4573160813014281,
	"learning_rate": 0.0001,
	"loss": 1.2997,
	"loss/crossentropy": 2.244389295578003,
	"loss/hidden": 1.15625,
	"loss/logits": 0.14287710189819336,
	"loss/reg": 5.833054456161335e-05,
	"step": 449
	},
	{
	"epoch": 0.05625,
	"grad_norm": 2.204925060272217,
	"grad_norm_var": 0.47117643459253195,
	"learning_rate": 0.0001,
	"loss": 1.2876,
	"loss/crossentropy": 2.3469107151031494,
	"loss/hidden": 1.1015625,
	"loss/logits": 0.1854255050420761,
	"loss/reg": 5.832717943121679e-05,
	"step": 450
	},
	{
	"epoch": 0.056375,
	"grad_norm": 2.5266880989074707,
	"grad_norm_var": 0.4451698073358396,
	"learning_rate": 0.0001,
	"loss": 1.4392,
	"loss/crossentropy": 2.440885305404663,
	"loss/hidden": 1.2109375,
	"loss/logits": 0.22769977152347565,
	"loss/reg": 5.8323836128693074e-05,
	"step": 451
	},
	{
	"epoch": 0.0565,
	"grad_norm": 2.410515785217285,
	"grad_norm_var": 0.455202882380185,
	"learning_rate": 0.0001,
	"loss": 1.4083,
	"loss/crossentropy": 2.4578142166137695,
	"loss/hidden": 1.203125,
	"loss/logits": 0.20461352169513702,
	"loss/reg": 5.830869122291915e-05,
	"step": 452
	},
	{
	"epoch": 0.056625,
	"grad_norm": 2.0389811992645264,
	"grad_norm_var": 0.4435531519851603,
	"learning_rate": 0.0001,
	"loss": 1.1318,
	"loss/crossentropy": 2.139033317565918,
	"loss/hidden": 0.9921875,
	"loss/logits": 0.1390083134174347,
	"loss/reg": 5.829246947541833e-05,
	"step": 453
	},
	{
	"epoch": 0.05675,
	"grad_norm": 1.979454517364502,
	"grad_norm_var": 0.47698744011981165,
	"learning_rate": 0.0001,
	"loss": 1.3115,
	"loss/crossentropy": 2.546844005584717,
	"loss/hidden": 1.125,
	"loss/logits": 0.18587306141853333,
	"loss/reg": 5.8282243116991594e-05,
	"step": 454
	},
	{
	"epoch": 0.056875,
	"grad_norm": 2.0210747718811035,
	"grad_norm_var": 0.5030154373593951,
	"learning_rate": 0.0001,
	"loss": 1.21,
	"loss/crossentropy": 2.6095550060272217,
	"loss/hidden": 1.046875,
	"loss/logits": 0.16256017982959747,
	"loss/reg": 5.8266243286198005e-05,
	"step": 455
	},
	{
	"epoch": 0.057,
	"grad_norm": 2.0944671630859375,
	"grad_norm_var": 0.520400331750174,
	"learning_rate": 0.0001,
	"loss": 1.1407,
	"loss/crossentropy": 2.450681447982788,
	"loss/hidden": 0.98828125,
	"loss/logits": 0.15184549987316132,
	"loss/reg": 5.8250909205526114e-05,
	"step": 456
	},
	{
	"epoch": 0.057125,
	"grad_norm": 2.5854806900024414,
	"grad_norm_var": 0.5178481401493921,
	"learning_rate": 0.0001,
	"loss": 1.1308,
	"loss/crossentropy": 2.8090949058532715,
	"loss/hidden": 0.97265625,
	"loss/logits": 0.15754011273384094,
	"loss/reg": 5.8233421441400424e-05,
	"step": 457
	},
	{
	"epoch": 0.05725,
	"grad_norm": 6.832178592681885,
	"grad_norm_var": 1.6526915128701443,
	"learning_rate": 0.0001,
	"loss": 1.7544,
	"loss/crossentropy": 2.4325008392333984,
	"loss/hidden": 1.5625,
	"loss/logits": 0.1913643479347229,
	"loss/reg": 5.821782906423323e-05,
	"step": 458
	},
	{
	"epoch": 0.057375,
	"grad_norm": 2.4911727905273438,
	"grad_norm_var": 1.6585857165051416,
	"learning_rate": 0.0001,
	"loss": 1.277,
	"loss/crossentropy": 2.5682671070098877,
	"loss/hidden": 1.09375,
	"loss/logits": 0.18270117044448853,
	"loss/reg": 5.820325532113202e-05,
	"step": 459
	},
	{
	"epoch": 0.0575,
	"grad_norm": 2.2592287063598633,
	"grad_norm_var": 1.5000806172221008,
	"learning_rate": 0.0001,
	"loss": 1.149,
	"loss/crossentropy": 2.3300366401672363,
	"loss/hidden": 0.98828125,
	"loss/logits": 0.16016384959220886,
	"loss/reg": 5.8191151765640825e-05,
	"step": 460
	},
	{
	"epoch": 0.057625,
	"grad_norm": 2.6110737323760986,
	"grad_norm_var": 1.4915332961489087,
	"learning_rate": 0.0001,
	"loss": 1.4344,
	"loss/crossentropy": 2.560197591781616,
	"loss/hidden": 1.21875,
	"loss/logits": 0.21507461369037628,
	"loss/reg": 5.817634882987477e-05,
	"step": 461
	},
	{
	"epoch": 0.05775,
	"grad_norm": 2.6446752548217773,
	"grad_norm_var": 1.48995546498276,
	"learning_rate": 0.0001,
	"loss": 1.2381,
	"loss/crossentropy": 2.5068211555480957,
	"loss/hidden": 1.0546875,
	"loss/logits": 0.1828281581401825,
	"loss/reg": 5.816355405841023e-05,
	"step": 462
	},
	{
	"epoch": 0.057875,
	"grad_norm": 2.498300075531006,
	"grad_norm_var": 1.4615785550667995,
	"learning_rate": 0.0001,
	"loss": 1.3019,
	"loss/crossentropy": 2.3765523433685303,
	"loss/hidden": 1.1328125,
	"loss/logits": 0.16848215460777283,
	"loss/reg": 5.814860560349189e-05,
	"step": 463
	},
	{
	"epoch": 0.058,
	"grad_norm": 2.4674289226531982,
	"grad_norm_var": 1.3126372255276026,
	"learning_rate": 0.0001,
	"loss": 1.3472,
	"loss/crossentropy": 2.714657783508301,
	"loss/hidden": 1.1640625,
	"loss/logits": 0.18256625533103943,
	"loss/reg": 5.81321437493898e-05,
	"step": 464
	},
	{
	"epoch": 0.058125,
	"grad_norm": 3.7482964992523193,
	"grad_norm_var": 1.3780257940909062,
	"learning_rate": 0.0001,
	"loss": 1.4579,
	"loss/crossentropy": 2.7645256519317627,
	"loss/hidden": 1.2109375,
	"loss/logits": 0.24636635184288025,
	"loss/reg": 5.811548908241093e-05,
	"step": 465
	},
	{
	"epoch": 0.05825,
	"grad_norm": 3.1881492137908936,
	"grad_norm_var": 1.3717908440858895,
	"learning_rate": 0.0001,
	"loss": 1.2469,
	"loss/crossentropy": 2.6280384063720703,
	"loss/hidden": 1.078125,
	"loss/logits": 0.16818463802337646,
	"loss/reg": 5.8095396525459364e-05,
	"step": 466
	},
	{
	"epoch": 0.058375,
	"grad_norm": 3.4882731437683105,
	"grad_norm_var": 1.3977675144088226,
	"learning_rate": 0.0001,
	"loss": 1.5403,
	"loss/crossentropy": 1.8358429670333862,
	"loss/hidden": 1.3203125,
	"loss/logits": 0.21941694617271423,
	"loss/reg": 5.807522757095285e-05,
	"step": 467
	},
	{
	"epoch": 0.0585,
	"grad_norm": 2.530682325363159,
	"grad_norm_var": 1.391870091660969,
	"learning_rate": 0.0001,
	"loss": 1.1578,
	"loss/crossentropy": 2.3950142860412598,
	"loss/hidden": 0.99609375,
	"loss/logits": 0.1611400693655014,
	"loss/reg": 5.80518099013716e-05,
	"step": 468
	},
	{
	"epoch": 0.058625,
	"grad_norm": 3.4676575660705566,
	"grad_norm_var": 1.366390295617852,
	"learning_rate": 0.0001,
	"loss": 1.5162,
	"loss/crossentropy": 2.851280689239502,
	"loss/hidden": 1.234375,
	"loss/logits": 0.28122612833976746,
	"loss/reg": 5.8030982472701e-05,
	"step": 469
	},
	{
	"epoch": 0.05875,
	"grad_norm": 2.9446208477020264,
	"grad_norm_var": 1.302065384350945,
	"learning_rate": 0.0001,
	"loss": 1.3015,
	"loss/crossentropy": 2.740093469619751,
	"loss/hidden": 1.125,
	"loss/logits": 0.17590749263763428,
	"loss/reg": 5.800585859105922e-05,
	"step": 470
	},
	{
	"epoch": 0.058875,
	"grad_norm": 2.7597243785858154,
	"grad_norm_var": 1.2405377686230998,
	"learning_rate": 0.0001,
	"loss": 1.1651,
	"loss/crossentropy": 2.440762996673584,
	"loss/hidden": 1.015625,
	"loss/logits": 0.14888577163219452,
	"loss/reg": 5.7990357163362205e-05,
	"step": 471
	},
	{
	"epoch": 0.059,
	"grad_norm": 2.8147523403167725,
	"grad_norm_var": 1.182327943249795,
	"learning_rate": 0.0001,
	"loss": 1.3195,
	"loss/crossentropy": 2.5801327228546143,
	"loss/hidden": 1.140625,
	"loss/logits": 0.17824885249137878,
	"loss/reg": 5.7975972595158964e-05,
	"step": 472
	},
	{
	"epoch": 0.059125,
	"grad_norm": 2.4511027336120605,
	"grad_norm_var": 1.1923747545104257,
	"learning_rate": 0.0001,
	"loss": 1.4217,
	"loss/crossentropy": 2.5711913108825684,
	"loss/hidden": 1.203125,
	"loss/logits": 0.2180328667163849,
	"loss/reg": 5.796052937512286e-05,
	"step": 473
	},
	{
	"epoch": 0.05925,
	"grad_norm": 2.9213221073150635,
	"grad_norm_var": 0.1890407192544025,
	"learning_rate": 0.0001,
	"loss": 1.2735,
	"loss/crossentropy": 2.5805675983428955,
	"loss/hidden": 1.1015625,
	"loss/logits": 0.17132875323295593,
	"loss/reg": 5.794024036731571e-05,
	"step": 474
	},
	{
	"epoch": 0.059375,
	"grad_norm": 2.6587464809417725,
	"grad_norm_var": 0.1832162860499608,
	"learning_rate": 0.0001,
	"loss": 1.6569,
	"loss/crossentropy": 2.356299638748169,
	"loss/hidden": 1.40625,
	"loss/logits": 0.25005391240119934,
	"loss/reg": 5.791860894532874e-05,
	"step": 475
	},
	{
	"epoch": 0.0595,
	"grad_norm": 3.5978729724884033,
	"grad_norm_var": 0.19139826910290647,
	"learning_rate": 0.0001,
	"loss": 1.7357,
	"loss/crossentropy": 2.0626883506774902,
	"loss/hidden": 1.4765625,
	"loss/logits": 0.2585859000682831,
	"loss/reg": 5.790415525552817e-05,
	"step": 476
	},
	{
	"epoch": 0.059625,
	"grad_norm": 2.8491876125335693,
	"grad_norm_var": 0.18498974202791843,
	"learning_rate": 0.0001,
	"loss": 1.5276,
	"loss/crossentropy": 2.5583596229553223,
	"loss/hidden": 1.2734375,
	"loss/logits": 0.25358158349990845,
	"loss/reg": 5.788617272628471e-05,
	"step": 477
	},
	{
	"epoch": 0.05975,
	"grad_norm": 2.5821259021759033,
	"grad_norm_var": 0.1876924518839881,
	"learning_rate": 0.0001,
	"loss": 1.3568,
	"loss/crossentropy": 2.486640453338623,
	"loss/hidden": 1.1640625,
	"loss/logits": 0.19216927886009216,
	"loss/reg": 5.786680776509456e-05,
	"step": 478
	},
	{
	"epoch": 0.059875,
	"grad_norm": 2.877934217453003,
	"grad_norm_var": 0.17456917708907038,
	"learning_rate": 0.0001,
	"loss": 1.5607,
	"loss/crossentropy": 2.3836066722869873,
	"loss/hidden": 1.3203125,
	"loss/logits": 0.23981472849845886,
	"loss/reg": 5.785070243291557e-05,
	"step": 479
	},
	{
	"epoch": 0.06,
	"grad_norm": 2.3281009197235107,
	"grad_norm_var": 0.1849188959934999,
	"learning_rate": 0.0001,
	"loss": 1.2716,
	"loss/crossentropy": 2.508988380432129,
	"loss/hidden": 1.078125,
	"loss/logits": 0.19294525682926178,
	"loss/reg": 5.783725646324456e-05,
	"step": 480
	},
	{
	"epoch": 0.060125,
	"grad_norm": 2.8099567890167236,
	"grad_norm_var": 0.14013939438571937,
	"learning_rate": 0.0001,
	"loss": 1.5081,
	"loss/crossentropy": 2.3855881690979004,
	"loss/hidden": 1.25,
	"loss/logits": 0.2575419545173645,
	"loss/reg": 5.782474545412697e-05,
	"step": 481
	},
	{
	"epoch": 0.06025,
	"grad_norm": 2.9827277660369873,
	"grad_norm_var": 0.134662315913679,
	"learning_rate": 0.0001,
	"loss": 1.4593,
	"loss/crossentropy": 2.5487606525421143,
	"loss/hidden": 1.25,
	"loss/logits": 0.2087090015411377,
	"loss/reg": 5.7816720072878525e-05,
	"step": 482
	},
	{
	"epoch": 0.060375,
	"grad_norm": 2.306149959564209,
	"grad_norm_var": 0.1259770764512929,
	"learning_rate": 0.0001,
	"loss": 1.2076,
	"loss/crossentropy": 2.4755747318267822,
	"loss/hidden": 1.046875,
	"loss/logits": 0.16014963388442993,
	"loss/reg": 5.781082290923223e-05,
	"step": 483
	},
	{
	"epoch": 0.0605,
	"grad_norm": 2.4719114303588867,
	"grad_norm_var": 0.12834384378027816,
	"learning_rate": 0.0001,
	"loss": 1.3745,
	"loss/crossentropy": 2.8203346729278564,
	"loss/hidden": 1.171875,
	"loss/logits": 0.20208273828029633,
	"loss/reg": 5.7795077736955136e-05,
	"step": 484
	},
	{
	"epoch": 0.060625,
	"grad_norm": 2.300952911376953,
	"grad_norm_var": 0.10978991346620433,
	"learning_rate": 0.0001,
	"loss": 1.464,
	"loss/crossentropy": 2.610508680343628,
	"loss/hidden": 1.2265625,
	"loss/logits": 0.2368427813053131,
	"loss/reg": 5.778546983492561e-05,
	"step": 485
	},
	{
	"epoch": 0.06075,
	"grad_norm": 3.3388009071350098,
	"grad_norm_var": 0.13085586368501342,
	"learning_rate": 0.0001,
	"loss": 1.5116,
	"loss/crossentropy": 2.763427972793579,
	"loss/hidden": 1.296875,
	"loss/logits": 0.21419215202331543,
	"loss/reg": 5.7770797866396606e-05,
	"step": 486
	},
	{
	"epoch": 0.060875,
	"grad_norm": 2.102293014526367,
	"grad_norm_var": 0.1572983810037916,
	"learning_rate": 0.0001,
	"loss": 1.1595,
	"loss/crossentropy": 2.204011917114258,
	"loss/hidden": 1.0,
	"loss/logits": 0.158901646733284,
	"loss/reg": 5.7755187299335375e-05,
	"step": 487
	},
	{
	"epoch": 0.061,
	"grad_norm": 2.766934633255005,
	"grad_norm_var": 0.15678694409689248,
	"learning_rate": 0.0001,
	"loss": 1.4246,
	"loss/crossentropy": 2.537151575088501,
	"loss/hidden": 1.2109375,
	"loss/logits": 0.2130882441997528,
	"loss/reg": 5.774224700871855e-05,
	"step": 488
	},
	{
	"epoch": 0.061125,
	"grad_norm": 2.0001540184020996,
	"grad_norm_var": 0.18501104247654798,
	"learning_rate": 0.0001,
	"loss": 1.103,
	"loss/crossentropy": 2.3592050075531006,
	"loss/hidden": 0.96484375,
	"loss/logits": 0.13754940032958984,
	"loss/reg": 5.77289865759667e-05,
	"step": 489
	},
	{
	"epoch": 0.06125,
	"grad_norm": 2.3166351318359375,
	"grad_norm_var": 0.18848381138351228,
	"learning_rate": 0.0001,
	"loss": 1.3329,
	"loss/crossentropy": 2.7236411571502686,
	"loss/hidden": 1.15625,
	"loss/logits": 0.1761033535003662,
	"loss/reg": 5.771181167801842e-05,
	"step": 490
	},
	{
	"epoch": 0.061375,
	"grad_norm": 2.357775926589966,
	"grad_norm_var": 0.19351960086170053,
	"learning_rate": 0.0001,
	"loss": 1.1437,
	"loss/crossentropy": 2.866445779800415,
	"loss/hidden": 0.98828125,
	"loss/logits": 0.15484049916267395,
	"loss/reg": 5.769642666564323e-05,
	"step": 491
	},
	{
	"epoch": 0.0615,
	"grad_norm": 3.680264949798584,
	"grad_norm_var": 0.20463866822373877,
	"learning_rate": 0.0001,
	"loss": 1.2002,
	"loss/crossentropy": 3.115431308746338,
	"loss/hidden": 1.0390625,
	"loss/logits": 0.16054463386535645,
	"loss/reg": 5.7679084420669824e-05,
	"step": 492
	},
	{
	"epoch": 0.061625,
	"grad_norm": 2.3650856018066406,
	"grad_norm_var": 0.2051052996774897,
	"learning_rate": 0.0001,
	"loss": 1.1996,
	"loss/crossentropy": 2.6519298553466797,
	"loss/hidden": 1.0234375,
	"loss/logits": 0.17554257810115814,
	"loss/reg": 5.766074173152447e-05,
	"step": 493
	},
	{
	"epoch": 0.06175,
	"grad_norm": 2.7080323696136475,
	"grad_norm_var": 0.2058088113620099,
	"learning_rate": 0.0001,
	"loss": 1.365,
	"loss/crossentropy": 2.329538106918335,
	"loss/hidden": 1.15625,
	"loss/logits": 0.20815491676330566,
	"loss/reg": 5.764625166193582e-05,
	"step": 494
	},
	{
	"epoch": 0.061875,
	"grad_norm": 2.2859530448913574,
	"grad_norm_var": 0.2063347958167308,
	"learning_rate": 0.0001,
	"loss": 1.2994,
	"loss/crossentropy": 2.6445348262786865,
	"loss/hidden": 1.125,
	"loss/logits": 0.1738019585609436,
	"loss/reg": 5.763155422755517e-05,
	"step": 495
	},
	{
	"epoch": 0.062,
	"grad_norm": 2.771320343017578,
	"grad_norm_var": 0.20431087500909348,
	"learning_rate": 0.0001,
	"loss": 1.4714,
	"loss/crossentropy": 2.340728282928467,
	"loss/hidden": 1.2578125,
	"loss/logits": 0.21303007006645203,
	"loss/reg": 5.761897409684025e-05,
	"step": 496
	},
	{
	"epoch": 0.062125,
	"grad_norm": 3.022183656692505,
	"grad_norm_var": 0.21312900983479016,
	"learning_rate": 0.0001,
	"loss": 1.4858,
	"loss/crossentropy": 2.6772336959838867,
	"loss/hidden": 1.265625,
	"loss/logits": 0.2196260541677475,
	"loss/reg": 5.761081411037594e-05,
	"step": 497
	},
	{
	"epoch": 0.06225,
	"grad_norm": 13.948429107666016,
	"grad_norm_var": 8.27193520122967,
	"learning_rate": 0.0001,
	"loss": 1.3633,
	"loss/crossentropy": 2.862323760986328,
	"loss/hidden": 1.171875,
	"loss/logits": 0.19083081185817719,
	"loss/reg": 5.7596374972490594e-05,
	"step": 498
	},
	{
	"epoch": 0.062375,
	"grad_norm": 2.6107678413391113,
	"grad_norm_var": 8.237513777759569,
	"learning_rate": 0.0001,
	"loss": 1.6771,
	"loss/crossentropy": 2.1725099086761475,
	"loss/hidden": 1.40625,
	"loss/logits": 0.2702314555644989,
	"loss/reg": 5.7586628827266395e-05,
	"step": 499
	},
	{
	"epoch": 0.0625,
	"grad_norm": 2.5658040046691895,
	"grad_norm_var": 8.22750426778598,
	"learning_rate": 0.0001,
	"loss": 1.4381,
	"loss/crossentropy": 2.246595859527588,
	"loss/hidden": 1.25,
	"loss/logits": 0.18755751848220825,
	"loss/reg": 5.756897371611558e-05,
	"step": 500
	}
	],
	"logging_steps": 1,
	"max_steps": 8000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": true,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.2202930782208e+16,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}